Tải bản đầy đủ (.pdf) (149 trang)

Áp dụng kỹ thuật khai phá dữ liệu trên dữ liệu bán hàng để hỗ trợ việc đặt hàng tại siêu thị

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.28 MB, 149 trang )

LỜI CẢM ƠN

LUẬN VĂN THẠC SĨ

LỜI CẢM ƠN
Trước hết, tôi xin chân thành gửi lời tri ân sâu sắc ñến Tiến sĩ Nguyễn ðức Cường.
Thầy ñã giới thiệu ñề tài và hướng dẫn tơi trong giai đoạn làm đề cương cũng như giai
đoạn luận văn. Thầy đã có những hướng dẫn nghiên cứu khoa học và những ý kiến
đóng góp rất quý báu. Những lời chỉ dạy và ñộng viên của Thầy sẽ mãi là hành trang
ghi nhớ của tôi trên bước đường học vấn và sự nghiệp sau này.
Tơi xin trân trọng cảm ơn giảng viên phản biện Tiến Sĩ Lê Văn Dực và Tiến Sĩ
Quản Thành Thơ cùng các Thầy trong hội ñồng ñã dành nhiều thời gian để chỉnh sửa
và cho tơi nhiều ý kiến bổ ích về cách trình bày cũng như phương pháp thực hiện luận
văn này.
Tơi cũng xin bày tỏ lịng cảm ơn sâu sắc đến tất cả các thầy cơ trong khoa Cơng
Nghệ Thơng Tin và các khoa khác đã giảng dạy cho tôi trong suốt thời gian học tập
Cao Học tại trường, truyền đạt cho tơi những kiến thức q báu khơng những phục vụ
tốt cho đề tài này mà cịn cho công việc sau này của tôi.
Tôi cũng xin trân trọng gửi lời cảm ơn đến các anh chị cơng tác tại phịng mua
hàng, phịng quản lý thơng tin của Cơng ty Metro Cash & Carry Việt Nam ñã dành
thời gian hỗ trợ và đóng góp những ý kiến thực tiễn cho đề tài này.
Tơi xin chân thành cảm ơn Phịng ðào Tạo Sau ðại học đã thiết lập một chương
trình Thạc sĩ Khoa học máy tính rất có giá trị mà tơi được danh dự theo học trong hai
năm qua.
Tơi cũng chân thành cảm ơn gia đình, tất cả những người thân và bạn bè đã ln
hết lịng ủng hộ, ñộng viên và giúp ñỡ tôi trong suốt thời gian học tập và làm việc.
Cuối cùng, tơi xin gửi đến tất cả mọi người lời chúc sức khỏe, hạnh phúc và thành
công.
TP.HCM, ngày 07 tháng 09 năm 2007
Học viên
Cao Tấn Thiết



GVHD: TS. Nguyễn ðức Cường
HVTH: Cao Tấn Thiết

i


TÓM TẮT

LUẬN VĂN THẠC SĨ

TÓM TẮT
Khám phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databases) ñang là
một xu hướng phát triển mạnh của nền công nghệ thông tin thế giới. Nó có khả năng ứng
dụng vào rất nhiều lớp bài toán thực tế khác nhau. Bước quan trọng nhất của quá trình này
là khai phá dữ liệu, giúp người sử dụng thu ñược những tri thức hữu ích từ những cơ sở dữ
liệu hoặc các nguồn dữ liệu khổng lồ khác. Rất nhiều doanh nghiệp và tổ chức trên thế giới
ñã ứng dụng kĩ thuật khai phá dữ liệu vào hoạt ñộng sản xuất kinh doanh của mình và đã
thu được những lợi ích to lớn.
Trong lĩnh vực kinh doanh siêu thị, khai phá dữ liệu tỏ ra đặc biệt hiệu quả vì siêu thị
là ngành có số lượng sản phẩm ña dạng, số lượng khách hàng rất lớn và có lượng dữ liệu
cần lưu trữ khổng lồ. Bên cạnh đó, thị trường siêu thị ln ln biến động và đầy cạnh
tranh. Chính vì vậy, việc nghiên cứu và áp dụng kĩ thuật khai phá dữ liệu vào hoạt ñộng
sản xuất kinh doanh của siêu thị là hết sức cần thiết.
ðề tài này giới thiệu một cách tổng quan về các kĩ thuật khai phá dữ liệu, mơ hình,
kiến trúc, phạm vi ứng dụng, lợi ích và ñề xuất các phương pháp và giải thuật ñể giải quyết
bài toán dự báo về doanh số bán hàng của tập đồn siêu thị Metro Cash & Carry Việt Nam
để hỗ trợ việc ñặt hàng. Nghiên cứu và sử dụng phương pháp hồi quy áp dụng lên các mơ
hình tốn học phổ biến, trong đó q trình đi tìm các hệ số ước lượng ñược giải quyết bởi
giải thuật Nelder-Mead. Giải thuật Nelder-Mead là giải thuật tìm kiếm có hướng, ñược sử

dụng ñể tìm giá trị nhỏ nhất sai số dự báo của hàm số tốn học cho đến khi giá trị nhỏ nhất
ñạt ñến ñộ hội tụ.
Kết quả ứng dụng của ñề tài là hỗ trợ các nhà quản lý về mua bán hàng và tiếp thị
trong việc ra quyết ñịnh ñặt hàng và ñưa ra các chiến lược kinh doanh hợp lý, nhằm mục
đích đem lại lợi nhuận tối ña cho siêu thị.

GVHD: TS. Nguyễn ðức Cường
HVTH: Cao Tấn Thiết

ii


LUẬN VĂN THẠC SĨ

MỤC LỤC

MỤC LỤC
LỜI CẢM ƠN.........................................................................................................................i
TÓM TẮT..............................................................................................................................ii
MỤC LỤC ............................................................................................................................iii
DANH MỤC HÌNH............................................................................................................viii
DANH MỤC BẢNG ............................................................................................................. x
DANH MỤC VIẾT TẮT ......................................................................................................xi
PHÁT BIỂU VẤN ðỀ....................................................................................... 1

PHẦN 1
1.1

Mở ñầu ................................................................................................................... 1


1.2

ðề tài nghiên cứu................................................................................................... 2

1.2.1

Sự cần thiết của ñề tài .....................................................................................2

1.2.2

ðặt vấn ñề. ......................................................................................................4

1.2.3

Giải quyết vấn ñề ............................................................................................4

ðối tượng và phạm vi nghiên cứu ......................................................................... 5

1.3

1.3.1

ðối tượng nghiên cứu .....................................................................................5

1.3.2

Phạm vi nghiên cứu của ñề tài ........................................................................6

1.3.3


Ý nghĩa thực tiễn của ñề tài ............................................................................6

1.3.3.1

Về mặt học thuật .................................................................................... 6

1.3.3.2

Về mặt ứng dụng.................................................................................... 7

1.4

Nội dung trình bày ................................................................................................. 7

PHẦN 2
2.1

CƠ SỞ LÝ THUYẾT ........................................................................................ 9
Cơ sở lý thuyết khai phá dữ liệu ............................................................................ 9

2.1.1

Giới thiệu về khai phá dữ liệu.........................................................................9

2.1.2

Các quá trình của mơ hình khai phá dữ liệu .................................................10

2.1.2.1


Tìm hiểu nghiệp vụ và dữ liệu ............................................................. 11

GVHD: TS. Nguyễn ðức Cường
HVTH: Cao Tấn Thiết

iii


LUẬN VĂN THẠC SĨ

MỤC LỤC

2.1.2.2

Chuẩn bị dữ liệu................................................................................... 12

2.1.2.3

Mơ hình hố dữ liệu............................................................................. 13

2.1.2.4

Hậu xử lý và đánh giá .......................................................................... 14

2.1.2.5

Triển khai............................................................................................. 14

2.1.3


Dữ liệu nhập..................................................................................................14

2.1.4

Các nhóm phương pháp khai phá dữ liệu cơ bản..........................................15

2.1.5

Dữ liệu xuất ..................................................................................................15

2.1.6

ðánh giá hệ thống khai phá dữ liệu ..............................................................16

2.2

Các tiêu chuẩn và ứng dụng của khai phá dữ liệu ............................................... 16

2.2.1

Các tiêu chuẩn...............................................................................................16

2.2.2

Các ứng dụng ................................................................................................18

2.3

Các phương pháp giải quyết vấn ñề dự báo......................................................... 19


2.3.1

Các phương pháp hồi quy tuyến tính ............................................................19

2.3.1.1

Giới thiệu ............................................................................................. 19

2.3.1.2

Phương pháp hồi quy tuyến tính đơn................................................... 20

2.3.1.3

Phương pháp hồi quy tuyến tính đa biến ............................................. 23

2.3.2

Phương pháp hồi quy phi tuyến ....................................................................25

2.3.2.1

Giới thiệu ............................................................................................. 25

2.3.2.2

Hệ số tương quan ................................................................................. 27

2.3.2.3


Khái niệm làm trơn .............................................................................. 28

2.3.2.4

ðường khuynh hướng .......................................................................... 29

2.3.3

Các dạng mơ hình tốn học...........................................................................31

2.3.3.1

Hàm tuyến tính với hệ số góc .............................................................. 31

2.3.3.2

Hàm ða thức ........................................................................................ 31

2.3.3.3

Hàm phân bố Gauss (Gaussian Distribution Function) ...................... 33

GVHD: TS. Nguyễn ðức Cường
HVTH: Cao Tấn Thiết

iv


LUẬN VĂN THẠC SĨ


2.3.3.4

Hàm phân phối log-Normal hai tham số.............................................. 34

2.3.3.5

Hàm phân phối Log-normal ba tham số .............................................. 34

2.3.3.6

Hàm phân bố logistic ........................................................................... 35

2.3.3.7

Hàm phân phối Lorentzian ................................................................. 35

2.3.3.8

Hàm phân phối Poisson ...................................................................... 36

2.3.3.9

Hàm phân phối Gumbel có hai tham số.............................................. 36

2.3.3.10

Hàm phân phối Fréchet........................................................................ 38

2.3.3.11


Hàm phân phối Weibull....................................................................... 38

2.3.3.12

Hàm phân phối mũ.............................................................................. 40

2.3.3.13

Hàm ngưỡng Sigmoid......................................................................... 40

2.3.3.14

ðánh giá............................................................................................... 41

2.3.4

2.4

MỤC LỤC

Hồi quy và chuỗi thời gian............................................................................41

2.3.4.1

Giới thiệu ............................................................................................. 41

2.3.4.2

Phân tích xu hướng biến động của chuỗi thời gian.............................. 42


2.3.4.3

Phân tích tính thời vụ của chuỗi thời gian ........................................... 44

Giải thuật Nelder-Mead ....................................................................................... 46

2.4.1

Giới thiệu ......................................................................................................46

2.4.2

Giải thuật Nelder-Mead ................................................................................46

2.4.3

Một bước lặp của giải thuật Nelder–Mead ...................................................47

2.5

Thư viện WEKA. ................................................................................................. 50

2.5.1

Giới thiệu ......................................................................................................50

2.5.2

Phát triển ứng dụng dựa trên Weka ..............................................................54


2.5.3

Phần mềm Weka ...........................................................................................55

2.5.3.1

Explorer ............................................................................................... 56

2.5.3.2

KnowledgeFlow................................................................................... 57

GVHD: TS. Nguyễn ðức Cường
HVTH: Cao Tấn Thiết

v


LUẬN VĂN THẠC SĨ

MỤC LỤC

2.5.3.3

Experimenter........................................................................................ 57

2.5.3.4

Simple CLI........................................................................................... 58


PHẦN 3
3.1

PHÂN TÍCH DỮ LIỆU NGHIỆP VỤ............................................................. 60
Phân tích cơ sở dữ liệu của siêu thị ..................................................................... 60

3.1.1

Hệ thống data warehouse..............................................................................61

3.1.2

Hệ thống quản lý doanh số thưởng ...............................................................63

3.2

Giải quyết bài toán............................................................................................... 66

3.3

Bài toán dự báo doanh số bán của sản phẩm ....................................................... 66

3.4

Tính tốn doanh số đặt hàng cho nhà cung cấp ................................................... 67

3.5

Hỗ trợ ra quyết ñịnh............................................................................................. 67


PHẦN 4
4.1

THIẾT KẾ VÀ HIỆN THỰC .......................................................................... 69
Thiết kế ................................................................................................................ 69

4.1.1

Tìm hiểu nghiệp vụ và các hệ thống cơ sở dữ liệu .......................................69

4.1.2

Trích xuất dữ liệu..........................................................................................69

4.1.3

Tiền xử lý......................................................................................................71

4.1.4

Chọn mơ hình................................................................................................71

4.1.5

Chọn mơ hình tốt nhất ..................................................................................71

4.1.6

Dữ liệu ñầu vào cho bước dự báo .................................................................72


4.1.7

Kết quả dự báo..............................................................................................72

4.1.8

ðánh giá kết quả dự báo ...............................................................................72

4.2

Hiện thực.............................................................................................................. 73

4.2.1

Dữ liệu ban đầu:............................................................................................73

4.2.2

Dữ liệu của từng sản phẩm ...........................................................................74

4.2.3

Tạo mơ hình .................................................................................................75

4.2.4

Tìm mơ hình tốt nhất ....................................................................................79

4.2.5


Tính giá trị dự báo ........................................................................................80

GVHD: TS. Nguyễn ðức Cường
HVTH: Cao Tấn Thiết

vi


LUẬN VĂN THẠC SĨ

MỤC LỤC

4.3

Hiện thực hồi quy phi tuyến tính sử dụng giải thuật Nelder-Mead ..................... 80

4.4

Cơng cụ phát triển và giao diện của chương trình. .............................................. 82

4.4.1

Mơi trường và cơng cụ phát triển..................................................................82

4.4.2

Giao diện chương trình .................................................................................82

4.5


Một số dạng đồ thị của chương trình ................................................................... 86
ðÁNH GIÁ VÀ KẾT LUẬN .......................................................................... 89

PHẦN 5
5.1

ðánh giá kết quả .................................................................................................. 89

5.1.1

Phép so sánh 1...............................................................................................90

5.1.2

Phép so sánh 2...............................................................................................95

5.1.3

Phép so sánh 3...............................................................................................96

5.1.4

So sánh trực quan..........................................................................................96

5.1.5

ðộ chính xác .................................................................................................98

5.2


Sử dụng giá trị dự báo ñể hỗ trợ việc ñặt hàng .................................................... 98

5.2.1

Quy tắc nghiệp vụ (Business rule)................................................................98

5.2.2

Áp dụng giá trị dự báo vào hệ thống BAS..................................................101

5.3

Kết luận.............................................................................................................. 101

5.3.1

Những kết quả ñạt ñược..............................................................................101

5.3.2

Những hạn chế ............................................................................................102

5.4

Hướng phát triển ................................................................................................ 102

5.4.1

Về mặt học thuật .........................................................................................102


5.4.2

Về mặt ứng dụng.........................................................................................103

TÀI LIỆU THAM KHẢO ................................................................................................. 105
PHỤ LỤC 1: KẾT QUẢ TÍNH TỐN CỦA PHÉP SO SÁNH 1 .................................... 107
PHỤ LỤC 2: KẾT QUẢ TÍNH TỐN CỦA PHÉP SO SÁNH 2 .................................... 111
PHỤ LỤC 3: KẾT QUẢ TÍNH TỐN CỦA PHÉP SO SÁNH 3 .................................... 117
PHỤ LỤC 4: ðÁNH GIÁ CỦA NHÀ QUẢN LÝ SIÊU THỊ .......................................... 125

GVHD: TS. Nguyễn ðức Cường
HVTH: Cao Tấn Thiết

vii


LUẬN VĂN THẠC SĨ

DANH MỤC HÌNH

DANH MỤC HÌNH
Hình 2.1 Mơ hình các bước khai phá dữ liệu ...................................................................... 11
Hình 2.2 Sơ đồ các q trình của phương pháp CRISP-DM [15] ...................................... 18
Hình 2.3 ðồ thị biểu diễn mối quan hệ giữa năm kinh nghiệm và lương............................ 23
Hình 2.4 ðồ thị thể hiện ñường khuynh hướng giá trị doanh số bán theo năm. ................. 30
Hình 2.5 ðường khuynh hướng thể hiện ñến giá trị tương lai. ........................................... 30
Hình 2.6 Hình dạng của hàm đa thức bậc 5. ....................................................................... 32
Hình 2.7 Hình dạng biểu diễn của hàm phân bố Gauss. .................................................... 33
Hình 2.8 Hình dạng của hàm log-normal hai tham số ........................................................ 34
Hình 2.9 Hình dạng của hàm phân phối Log-normal ba tham số ....................................... 35

Hình 2.10 Hình dạng của hàm phân phối Lorentzian ......................................................... 36
Hình 2.11 Hình dạng của hàm Poisson khi µ = 1................................................................ 37
Hình 2.12 Hình dạng của hàm phân phối Gumbel có hai tham số...................................... 37
Hình 2.13 Hình dạng của đồ thị hàm Frechet. .................................................................... 38
Hình 2.14 Hình dạng đồ thị của hàm số Weibull................................................................. 39
Hình 2.15 Hình dạng của hàm mũ hai tham số ................................................................... 40
Hình 2.16 ðồ thị biểu diễn xu hướng của doanh số bán hàng ............................................ 44
Hình 2.17 Giải thuật Nelder–Mead sau bước đối xứng và mở rộng (reflection and
expansion),với đơn hình ban đầu ñược vẽ với ñường nét ñứt. ........................................... 49
Hình 2.18 Giải thuật Nelder-Mead sau bước rút gọn phía ngồi, rút gọn bên trong và
bước co lại. .......................................................................................................................... 49
Hình 2.19 Giao diện trực quan của cơng cụ WEKA............................................................ 52
Hình 2.20 Giao diện chính của phần mềm WEKA .............................................................. 55
Hình 2.21 Giao diện của module Explorer trong weka....................................................... 56
Hình 2.22 Giao diện của module KnowledgeFlow của weka.............................................. 57
Hình 2.23 Giao diện của Experimenter. .............................................................................. 58
Hình 2.24 Giao diện của CLI.............................................................................................. 59
Hình 3.1 Sơ ñồ cơ sở dữ liệu tóm lược của hệ thống GMS. ................................................ 60
Hình 3.2 Sơ đồ chuyển dữ liệu giữa các hệ thống . ............................................................. 62

GVHD: TS. Nguyễn ðức Cường
HVTH: Cao Tấn Thiết

viii


LUẬN VĂN THẠC SĨ

DANH MỤC HÌNH


Hình 3.3 Các loại dữ liệu từ GMS chuyển sang data warehouse........................................ 62
Hình 3.4 Mối quan hệ giữa hợp đồng và các điều kiện...................................................... 63
Hình 3.5 Sơ ñồ cơ sở dữ liệu quan hệ sơ lược của hệ thống BAS ....................................... 64
Hình 3.6 Sơ đồ phân cấp các sản phẩm theo nhóm sản phẩm. ........................................... 65
Hình 3.7 Sơ đồ các bước xử lý để giải quyết vấn đề........................................................... 66
Hình 4.1 Sơ đồ các bước thực hiện của chương trình. ........................................................ 70
Hình 4.2 Sơ đồ dữ liệu của các quá trình thực hiện của chương trình.. ............................. 70
Hình 4.3 ðịnh dạng của một tập tin dữ liệu của một sản phẩm sau bước tiền xử lý. ......... 75
Hình 4.4 Nội dung của một tập tin mơ hình dưới dạng arff. ............................................... 79
Hình 4.5 Giao diện chính của chương trình. ....................................................................... 84
Hình 4.6 Các menu con của menu Application, dùng để chạy các thao tác chương trình.. 84
Hình 4.7 Giao diện của phần tiền xử lý chương trình (Preprocess). .................................. 85
Hình 4.8 Cơng cụ ArffViewer .............................................................................................. 85
Hình 4.9 Biểu diễn hàm ña thức phụ thuộc giữa giá trị doanh số bán theo tuần................ 86
Hình 4.10 Biểu diễn hàm ña thức phụ thuộc giữa giá trị doanh số bán theo tuần.............. 87
Hình 4.11 Biểu diễn hàm đa thức phụ thuộc giữa giá trị doanh số bán (Sales) theo tuần.. 87
Hình 5.1 Các tập tin mơ hình được chương trình sinh ra, f1 tương ứng với hàm đa thức.. 90
Hình 5.2 ðồ thị biễu diễn các giá trị dự báo, giá trị thực và sai số. ................................... 94
Hình 5.3 ðường khuynh hướng dạng ña thức và ñồ thị ñiểm dữ liệu được vẽ từ Excel...... 97
Hình 5.4 ðồ thị biểu diễn dữ liệu của sản phẩm 81261từ chương trình. ........................... 97
Hình 5.5 ðồ thị biểu diễn phần trăm chiết khấu tương ứng với giá trị doanh số mua hàng
........................................................................................................................................... 101

GVHD: TS. Nguyễn ðức Cường
HVTH: Cao Tấn Thiết

ix


LUẬN VĂN THẠC SĨ


DANH MỤC BẢNG

DANH MỤC BẢNG
Bảng 1-1 Tỉ lệ chiết khấu tương ứng với doanh số mua hàng của nhà cung cấp. ................ 3
Bảng 2-1: Số liệu của mối quan hệ giữa năm kinh nghiệm và lương tương ứng.. .............. 22
Bảng 2-2 Một số dạng chuyển thông dụng sang dạng hồi quy tuyến tính........................... 26
Bảng 2-3 Dữ liệu của 2 thuộc tính A và B. .......................................................................... 28
Bảng 2-4 Dữ liệu doanh số bán hàng. ................................................................................. 29
Bảng 2-5 Doanh số bán theo năm của công ty .................................................................... 43
Bảng 4-1 Các dạng hàm tốn học được sử dụng trong đề tài............................................. 76
Bảng 5-1 Kết quả so sánh giá trị dự báo so với giá trị thực của một số sản phẩm thuộc nhà
cung cấp 20022.................................................................................................................... 91
Bảng 5-2 Dữ liệu một hợp ñồng của nhà cung cấp 20093. ................................................. 99
Bảng 5-3 Tiền thưởng tương ứng với phần trăm chiết khấu của hợp ñồng ...................... 100
Bảng 5-4: Kết quả so sánh giữa giá trị thực và giá trị dự báo theo các sản phẩm........... 107
Bảng 5-5: Bảng kết quả so sánh theo giá trị tổng các sản phẩm và theo nhà cung cấp. . 111
Bảng 5-6: Bảng so sánh theo các mô hình giá trị dự báo và giá trị thực.......................... 117

GVHD: TS. Nguyễn ðức Cường
HVTH: Cao Tấn Thiết

x


LUẬN VĂN THẠC SĨ

DANH MỤC VIẾT TẮT

DANH MỤC VIẾT TẮT


ARFF

Tên ñầy ñủ
Attribute-Relation File
Format

Chú Thích
ðịnh dạng file của Weka(ASCII text
file)

BAS
CSDL
CSV
DSS
GMS

Bonus Advertising
Settlement System
Cơ Sở Dữ Liệu
Comma Delimited
Decision Support System
Goods Management System

Hệ thống quản lý doanh số thưởng
Cơ Sở Dữ Liệu
Một loại ñịnh dạng file của Excel
Hệ Hỗ Trợ Quyết ðịnh
Hệ thống quản lý hàng hóa


Tên viết tắt

Knowlegde Discovery in
KDD
Database
MRS
Merchandise Report System
SALE_COST Sales Value attribute

Khám phá tri thức trong Cơ sở dữ liệu
Hệ thống Báo cáo Hàng hóa
Thuộc tính giá trị doanh số bán

SSR

Tổng bình phương sai số của giá trị dự
báo so với trung bình giá trị thực

SST
VND

Residual Sum of Squares
Total Sum of Squares
Việt Nam ðồng

Tổng bình phương sai số của giá trị
thực so với trung bình giá trị thực.
ðơn vị tiền tệ Việt Nam
Thuộc tính thời gian là tuần trong năm
Y


WEEK

Week atttribute

WEKA

Waikato Environment for
Knowledge Analysis

GVHD: TS. Nguyễn ðức Cường
HVTH: Cao Tấn Thiết

Tên của thư viện mã nguồn mở.

xi


LUẬN VĂN THẠC SĨ

PHẦN 1: PHÁT BIỂU VẤN ðỀ

PHẦN 1 PHÁT BIỂU VẤN ðỀ
1.1 Mở đầu
Mơi trường quản lý ngày nay đã thay đổi rất nhanh chóng. Cơng việc kinh doanh cùng
môi trường kinh doanh trở nên phức tạp hơn bao giờ hết và xu hướng phức tạp này ngày
càng gia tăng. Việc ra quyết ñịnh ngày nay phức tạp và khó khăn hơn nhiều so với trong
quá khứ. Thêm vào đó, mức độ rủi ro cũng cao hơn vì bị ảnh hưởng của quan ñiểm tiêu
thụ, thị trường quốc tế,… Do vậy, việc ra quyết định đóng vai trị rất quan trọng trong tổ
chức. Một trong những vấn ñề ảnh hưởng ñến việc ra quyết ñịnh ñúng ñắn là vấn ñề dự

báo.
Dự báo trong kinh doanh hiện nay rất phổ biến và đóng vai trị quan trọng trong việc
ra quyết định. Nó hiện là một chun ngành nghiên cứu trong lĩnh vực kinh tế, quản trị học
và ngành công nghệ thơng tin, trong đó kỹ thuật khai phá dữ liệu được sử dụng phổ biến.
Vai trị của dự báo:


Dự báo tạo ra lợi thế cạnh tranh (ở thế chủ động, khơng bị động).



Cơng tác dự báo là một bộ phận khơng thể thiếu trong hoạt động của các phịng
ban trong từng cơng ty, doanh nghiệp.

Muốn dự báo chính xác thì nên dự báo “định lượng”, có nghĩa là phải dựa vào các dữ
liệu sẵn có trong q trình hoạt ñộng kinh doanh của doanh nghiệp, ñó là các cơ sở dữ liệu
của các hệ thống mua bán hàng, ñể tạo ra số liệu dữ liệu cho tương lai một cách chính xác.
Trong những năm gần đây, sự phát triển mạnh mẽ của ngành công nghệ thông tin,
cộng với sự hoạt ñộng của doanh nghiệp ñã tạo ra một lượng dữ liệu lưu trữ khổng lồ.
Hàng triệu cơ sở dữ liệu ñã ñược sử dụng trong các hoạt ñộng sản xuất, kinh doanh, quản
lí,....Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là cần có những kĩ thuật và cơng cụ
mới để tự động chuyển đổi lượng dữ liệu khổng lồ kia thành các tri thức có ích. Từ đó, các
kĩ thuật khai phá dữ liệu (data mining) ra ñời và ñã trở thành một lĩnh vực thời sự của nền
công nghệ thông tin thế giới hiện nay.

GVHD: TS. Nguyễn ðức Cường
HVTH: Cao Tấn Thiết

1



LUẬN VĂN THẠC SĨ

PHẦN 1: PHÁT BIỂU VẤN ðỀ

Khai phá dữ liệu được định nghĩa là: q trình trích xuất các thơng tin có giá trị tiềm
ẩn bên trong các dữ liệu có kích thước lớn được lưu trữ trong các CSDL, kho dữ liệu, ….
Hầu hết các kỹ thuật khai phá dữ liệu ngày nay đều có khả năng dự báo với mức độ
tinh vi và độ chính xác cao. Trong đó có các kỹ thuật chính như sau:
Kỹ thuật hồi quy (Regression).
Xác suất Naive Bayes.
Mạng nơron nhân tạo (Artificial Neural Networks-ANNs).
Chuỗi thời gian (time-series).

1.2 ðề tài nghiên cứu
1.2.1 Sự cần thiết của ñề tài
Hiện nay hệ thống các siêu thị ở thế giới nói chung và ở Việt Nam nói riêng phát triển
rất mạnh mẽ và mở rộng quy mô kinh doanh. Các hệ thống siêu thị lớn ở Việt Nam như hệ
thống siêu thị Metro Cash & Carry, Big C, Corp Mark, Maximax và tương lai không xa sẽ
là Wal-Mark, một siêu thị bán lẻ hàng ñầu của Mỹ sẽ có mặt tại Việt Nam. Với tiến trình
hội nhập khu vực hóa và tồn cầu hóa, siêu thị sẽ khơng cịn lợi thế một mình một chợ mà
phải ñối ñầu với sự cạnh tranh gay gắt của nhiều siêu thị với nhau, do vậy chiến lược kinh
doanh trở nên rất cần thiết ñể xây dựng lợi thế khác biệt ñảm bảo sự tồn tại và phát triển
của siêu thị.
Trong hệ thống siêu thị, hàng hóa rất đa dạng và có nhiều chủng loại khác nhau. Tất cả
các sản phẩm ñều ñược mua từ các nhà cung cấp và ñược bán ra tại siêu thị. Các siêu thị
thường ñặt hàng với số lượng lớn từ các nhà cung cấp. Do đó, để tạo ra sự canh tranh, giữa
nhà cung cấp và siêu thị có sự thỏa thuận với nhau là nếu siêu thị ñặt hàng với số lượng
doanh số đạt đến mức bao nhiêu thì siêu thị sẽ ñược chiết khấu bao nhiêu phần trăm hoặc
sẽ nhận ñược số tiền thưởng theo doanh số ở một tỉ lệ nào đó. Thỏa thuận này sẽ được ký

kết thành hợp ñồng, trong mỗi hợp ñồng có một hay nhiều ñiều kiện.

GVHD: TS. Nguyễn ðức Cường
HVTH: Cao Tấn Thiết

2


LUẬN VĂN THẠC SĨ

PHẦN 1: PHÁT BIỂU VẤN ðỀ

Ví dụ 1.1: Nhà cung cấp S thỏa thuận với siêu thị như bảng 1-1:
Bảng 1-1 Tỉ lệ chiết khấu tương ứng với doanh số mua hàng của nhà cung cấp.
Doanh số mua ñạt ñược trong một năm

Tỉ lệ phần trăm chiết khấu

1.000.000.000 VND

1%

2.000.000.000 VND

2%

3.000.000.000 VND

3%


> 3.000.000.000 VND

5%

Theo bảng 1-1, các nhà quản lý mong muốn ñến khi hợp ñồng kết thúc họ sẽ ñạt ñược
tỉ lệ cao nhất là 5%, vừa ñược chiết khấu cao, vừa ñược lợi nhuận lớn từ việc bán hàng.
Bất cứ hệ thống siêu thị nào cũng muốn tối đa lợi nhuận của mình. Nhưng khơng phải
cứ mua nhiều hàng là sẽ ñạt ñược lợi nhuận lớn, vì nó tùy thuộc vào kết quả kinh doanh
của siêu thị, bán hàng được nhiều hay khơng. Như vậy các nhà quản lý cần phải ñưa ra
những chiến lược kinh doanh hợp lý thì họ mới đạt được điều mong muốn. Như vậy họ cần
dự báo giá trị của doanh số bán hàng của các sản phẩm ñể ñưa ra các chiến lược kinh
doanh hợp lý.
Tác giả ñã khảo sát và tìm hiểu phương pháp dự báo của các nhà quản lý mua bán
hàng ở siêu thị Metro Cash & Carry về cách dự báo giá trị doanh số bán ñể hỗ trợ việc ñặt
hàng thì phương pháp của họ chủ yếu là tính tốn giá trị doanh số bán trong quá khứ, dựa
trên những mục tiêu phải ñạt ñược trong năm tới của ban giám ñốc, cộng với các yếu tố
như tính mùa vụ, thời tiết, dịp lễ Tết, … họ sẽ ñưa ra giá trị dự báo tương ứng. Rõ ràng
phương pháp dự báo như thế mang tính định tính hơn là tính định lượng và nó phụ thuộc
vào “suy nghĩ” của mỗi nhà quản lý hơn là phương pháp định lượng, khoa học. Ngồi ra
một số nhân viên cịn sử dụng các phương pháp khác như tính theo tỉ lệ số ngày trong năm.
Ví dụ như tới tháng 4 năm 2006, doanh số bán là 5 tỉ VND thì giá trị dự báo cuối năm

GVHD: TS. Nguyễn ðức Cường
HVTH: Cao Tấn Thiết

3


LUẬN VĂN THẠC SĨ


PHẦN 1: PHÁT BIỂU VẤN ðỀ

2006 sẽ là (5 tỉ * 120/ 365) VND. Rõ ràng những phương pháp này có độ chính xác thấp
và phải làm thủ công nhiều.
Việc áp dụng kỹ thuật khai phá dữ liệu ñể giải quyết vấn ñề dự báo này là rất cần thiết,
ñây là sự thể hiện việc áp dụng công nghệ thông tin vào lĩnh vực kinh doanh, mang lại lợi
ích kinh tế, nhất là trong thời kỳ hội nhập như hiện nay.

1.2.2 ðặt vấn ñề.
Câu hỏi ñặt ra là làm sao ñể tối ña ñược lợi nhuận thưởng theo doanh số mua hàng từ
nhà cung cấp? Làm sao dự báo ñược tổng doanh số bán hàng của nhà cung cấp tại thời
điểm nào đó để siêu thị có thể nhìn trước được và ra quyết định mua hàng khi thương
lượng với nhà cung cấp sao cho có thể ñạt ñược mức chiết khấu lớn nhất?
Dựa trên các dữ liệu sẵn có của hệ thống quản lý hàng hóa, chúng ta sẽ tìm hiểu, phân
tích và trích xuất dữ liệu cần thiết cho quá trình khai phá dữ liệu. Áp dụng các kỹ thuật
khai phá dữ liệu ta sẽ tìm ra những tri thức có ích giúp nhà quản lý thu mua dự báo được
các thơng tin về doanh số bán của các sản phẩm, ñồng thời hỗ trợ nhà quản lý ra quyết ñịnh
về các chiến lược ñặt hàng.

1.2.3 Giải quyết vấn ñề
Dự báo theo từng nhà cung cấp sử dụng hai phương pháp tiếp cận sau:
Từ dưới lên: ban ñầu dự báo trên từng sản phẩm của nhà cung cấp, mỗi sản phẩm
sẽ có giá trị doanh số dự báo riêng, nếu nhà cung cấp có n sản phẩm thì giá trị dự
báo doanh số của nhà cung cấp đó bằng tổng các giá trị dự báo của n các sản phẩm
đó. Phương pháp này giúp cho nhà quản lý có thể nhìn thấy giá trị dự báo chi tiết
từng sản phẩm, nhóm sản phẩm.
Dự báo trên tổng thể dữ liệu của nhà cung cấp đó. Tức là không tách rời các sản
phẩm ra, mà dự báo trên tổng số liệu ban ñầu. Phương pháp này giúp nhà quản lý
thấy ñược giá trị dự báo tổng thể của một nhà cung cấp.
Khi đã có giá trị dự báo doanh số mua hàng của từng nhà cung cấp, dựa trên các mức

chiết khấu của ñiều kiện hợp ñồng, ta sẽ ñưa ra dự báo mức thưởng dựa trên giá trị dự báo
của doanh số mua hàng.

GVHD: TS. Nguyễn ðức Cường
HVTH: Cao Tấn Thiết

4


LUẬN VĂN THẠC SĨ

PHẦN 1: PHÁT BIỂU VẤN ðỀ

Trong nội dung ñề tài, tác giả tập trung nghiên cứu các lý thuyết về khai phá dữ liệu,
ñặc biệt là các phương pháp khai phá dữ liệu cho vấn ñề dự báo, các phương pháp thu thập
và xử lý dữ liệu. Mặt khác, tác giả cũng tìm hiểu nghiệp vụ dự báo trong kinh doanh, thu
thập, trích xuất và chọn lọc dữ liệu từ các cơ sở dữ liệu tác nghiệp của siêu thị.
ðồng thời, tác giả cũng nghiên cứu nhiều cách tiếp cận để xây dựng các mơ hình dự
báo khác nhau. Sau đó đưa ra các so sánh về ñộ chính xác giữa các phương pháp trên tập
dữ liệu thực tế.
Tác giả nghiên cứu, sử dụng thư viện mở Weka để hiện thực chương trình của luận
văn. Weka là một thư viện mã nguồn mở Java bao gồm các giải thuật được dùng cho mục
đích nghiên cứu lĩnh vực khai phá dữ liệu [12] sẽ được trình bày ở phần 2.5 của luận văn
này.

1.3 ðối tượng và phạm vi nghiên cứu
1.3.1 ðối tượng nghiên cứu
Như đã trình bày các kỹ thuật khai phá dữ liệu mục 1.2.3 ở trên ñể giải quyết bài toán,
mục tiêu của ñề tài là tìm ra giá trị dự báo doanh số đặt hàng của nhà cung cấp dựa trên
doanh số bán hàng trong quá khứ. Dựa trên thực tế kinh doanh, cũng như lý thuyết kinh tế

về dự báo, tác giả tập trung vào nghiên cứu phương pháp hồi quy, một trong những phương
pháp phổ biến để giải quyết bài tốn dự báo, phương pháp này dựa trên các hàm tốn học
để xác định mơ hình dữ liệu. Tác giả tập trung vào nghiên cứu các mơ hình tốn học phổ
biến và hữu ích như mơ hình hàm tuyến tính, hàm phi tuyến tính (hàm đa thức, hàm mũ,
hàm lũy thừa, hàm Weibull,…).
Q trình xây dựng mơ hình là q trình ước lượng các tham số chưa biết ñể thể hiện
khuynh hướng của dữ liệu, trong ñề tài này tác giả sử dụng giải thuật chính là NelderMead[2], đây là giải thuật được sử dụng rộng rãi trong việc tối ưu hóa các hàm phi tuyến
tính khơng ràng buộc và tìm giá trị hội tụ cho các tham số tương ứng của hàm tốn học.
Do vậy đối tượng nghiên cứu chính trong đề tài này là phương pháp hồi quy sử dụng
giải thuật Nelder-Mead và các mơ hình tốn học để dự báo.

GVHD: TS. Nguyễn ðức Cường
HVTH: Cao Tấn Thiết

5


LUẬN VĂN THẠC SĨ

PHẦN 1: PHÁT BIỂU VẤN ðỀ

1.3.2 Phạm vi nghiên cứu của ñề tài
Nghiên cứu các phương pháp dự báo trong kinh doanh, cũng như các kiến thức
kinh tế liên quan ñến ñề tài.
Khảo sát và nghiên cứu các hệ thống phần mềm của siêu thị Metro Cash & Carry
ñang sử dụng như hệ thống về quản lý hàng hóa GMS, hệ thống quản lý doanh số
thưởng BAS, hệ thống báo cáo data mart MRS và hệ thống data warehouse.
Trích xuất dữ liệu thực tế của siêu thị Metro từ năm 2003 ñến năm 2006 ñể làm dữ
liệu ñầu vào cho khai phá. Dữ liệu năm 2007 dùng ñể ñánh giá kết quả dự báo.
Nghiên cứu tổng quan về khai phá dữ liệu, cụ thể là các phương pháp hồi quy để dự

báo.
Nghiên cứu các mơ hình tốn học phổ biến dùng cho quá trình hồi quy.
Nghiên cứu giải thuật Nelder-Mead để tìm các tham số ước lượng của các mơ hình
tốn học được sử dụng.
Thiết kế, hiện thực và thử nghiệm chương trình dự báo trên dữ liệu thật của siêu thị.
Nhận xét, ñánh giá kết quả ñạt ñược, cũng như những hạn chế và hướng phát triển.

1.3.3 Ý nghĩa thực tiễn của ñề tài
1.3.3.1 Về mặt học thuật
Nghiên cứu về kỹ thuật khai phá dữ liệu ñể giải quyết bài toán thực tế. Như chúng ta
ñã biết, kỹ thuật khai phá dữ liệu hiện nay là một trong những lĩnh vực được quan tâm của
ngành cơng nghệ thơng tin, có rất nhiều nghiên cứu khác nhau trên thế giới với kết quả ñạt
ñược cũng hết sức to lớn. Tác giả nghiên cứu một lĩnh vực của khai phá dữ liệu đó là
phương pháp hồi quy, hiện nó cũng là phương pháp được sử dụng thơng số trong dự báo.
Hơn nữa, đề tài này cịn nghiên cứu các mơ hình tốn học và giải thuật Nelder-Mead.
Các phương pháp dự báo ñược khảo sát về mặt chất lượng trên các dữ liệu cụ thể của
một bài toán thực tế.

GVHD: TS. Nguyễn ðức Cường
HVTH: Cao Tấn Thiết

6


LUẬN VĂN THẠC SĨ

PHẦN 1: PHÁT BIỂU VẤN ðỀ

Hơn nữa, tác giả có điều kiện tìm hiểu và nghiên cứu thư viện Weka, một trong những
thư viện lớn nhất về khai phá dữ liệu, dùng cho mục đích nghiên cứu và học tập.


1.3.3.2 Về mặt ứng dụng
ðề tài này rất có ý nghĩa về mặt ứng dụng vì đây là ñề tài thực tế, áp dụng trên dữ liệu
bán hàng thực của siêu thị và vì nó xuất phát từ nhu cầu của các nhà quản lý. Họ muốn dự
báo số lượng bán hàng ñể dự báo ñặt hàng nhằm nâng cao khả năng cạnh tranh, nâng cao
lợi nhuận nhất là thu nhiều tiền thưởng từ các nhà cung cấp. Không những trong lĩnh vực
siêu thị, mà các lĩnh vực kinh doanh khác, chúng ta cũng có thể áp dụng các lý thuyết,
phương pháp khai phá dữ liệu sử dụng trong ñề tài này ñể phát triển thành những ứng dụng
hữu ích cho nhà quản lý.
Hơn nữa, đây là đề tài thuộc lĩnh vực hệ hỗ trợ quyết ñịnh (DSS- Decision Support
System) mà ngành cơng nghệ thơng tin đang khẳng ñịnh vị thế của nó. Một doanh nghiệp
nếu sử dụng hệ thống cơng nghệ thơng tin tốt thì sẽ hỗ trợ việc quyết định đúng đắn từ đó
mang lại nhiều lợi ích cho cơng ty. Do vậy các doanh nghiệp ngày nay sẵn sàng bỏ ra hàng
triệu đơ la Mỹ ñể mua các hệ thống công nghệ thông tin quản trị nguồn nhân lực và các hệ
thống cơ sở dữ liệu khác.
Ngoài ra, từ kết quả của việc dự báo, chúng ta có thể xây dựng nên những dịch vụ tiện
ích từ dữ liệu dự báo như dự báo theo nhóm sản phẩm, tìm ra sản phẩm có tiềm năng, nhà
cung cấp tiềm năng.

1.4 Nội dung trình bày
Báo cáo được cấu trúc như sau:
Phần 1: Phát biểu vấn ñề. Giới thiệu tổng quan về ñề tài, ñối tượng nghiên cứu và ý
nghĩa của ñề tài.
Phần 2: Cơ sở lý thuyết và các phương pháp dự báo của khai phá dữ liệu. Thư viện
Weka.
Phần 3: Phân tích dữ liệu nghiệp vụ.

GVHD: TS. Nguyễn ðức Cường
HVTH: Cao Tấn Thiết


7


LUẬN VĂN THẠC SĨ

PHẦN 1: PHÁT BIỂU VẤN ðỀ

Phần 4: Thiết kế, hiện thực chương trình.
Phần 5: ðánh giá, kết luận và hướng phát triển của ñề tài.
Tài liệu tham khảo.
Các phụ lục.

GVHD: TS. Nguyễn ðức Cường
HVTH: Cao Tấn Thiết

8


LUẬN VĂN THẠC SĨ

PHẦN 2: CƠ SỞ LÝ THUYẾT

PHẦN 2 CƠ SỞ LÝ THUYẾT
2.1 Cơ sở lý thuyết khai phá dữ liệu
2.1.1 Giới thiệu về khai phá dữ liệu
Tiến trình trong thu thập dữ liệu số và công nghệ lưu trữ dẫn ñến sự lớn lên của các
CSDL ñồ sộ. ðiều này ñã xuất hiện trong tất cả lĩnh vực ñời sống con người, nhất là lĩnh
vực kinh doanh. Cùng với sự lớn lên của dữ liệu là sự lớn lên của mối quan tâm về khả
năng trích rút từ chúng các thơng tin có giá trị. Mơn khoa học liên ngành liên quan ñến
nhiệm vụ này gọi là khai phá dữ liệu.

Khai phá dữ liệu ñược ñịnh nghĩa là q trình trích xuất các thơng tin có giá trị tiềm ẩn
bên trong các tập dữ liệu quan sát lớn ñược lưu trữ trong các CSDL, kho dữ liệu, … ñể tìm
ra các mối liên hệ rõ ràng và ñể tóm tắt dữ liệu theo cách mới mà vừa dễ hiểu, vừa hữu ích
cho người sở hữu dữ liệu [1].
Các mối liên hệ và các tóm tắt thu được thơng qua khai phá dữ liệu thường ở dạng các
mơ hình (models) hoặc khn mẫu (patterns). Ví dụ như các phương trình tuyến tính, phi
tuyến tính, các luật, các nhóm, các ñồ thị, các cấu trúc cây, các khuôn mẫu lặp lại theo thời
gian, …
ðịnh nghĩa trên cũng ñề cập ñến các tập dữ liệu trong khai phá dữ liệu thường là lớn.
Nếu chỉ làm việc trên tập dữ liệu nhỏ, chúng ta hồn tồn mới chỉ thảo luận phân tích dữ
liệu khám phá cổ ñiển (classical exploratory data analysis) như cơng việc của các nhà
thống kê. Khi đối mặt với dữ liệu lớn, các bài toán mới sẽ nảy sinh.
Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta cịn dùng một số thuật ngữ khác
có ý nghĩa tương tự như: khai phá tri thức từ CSDL (knowlegde mining from databases),
trích xuất dữ liệu (knowlegde extraction), phân tích dữ liệu/mẫu (data/pattern analysis),
khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (data dredging). Nhiều người coi khai
phá dữ liệu và một thuật ngữ thông dụng khác là khám phá tri thức trong CSDL
(Knowlegde Discovery in Databases – KDD) là như nhau. Tuy nhiên trên thực tế, khai phá

GVHD: TS. Nguyễn ðức Cường
HVTH: Cao Tấn Thiết

9


LUẬN VĂN THẠC SĨ

PHẦN 2: CƠ SỞ LÝ THUYẾT

dữ liệu chỉ là một bước thiết yếu trong quá trình khám phá tri thức trong CSDL [1]. Quá

trình này bao gồm các bước sau:
1) Làm sạch dữ liệu (data cleaning): loại bỏ nhiễu hoặc các dữ liệu khơng thích hợp.
2) Tích hợp dữ liệu (data integration): tích hợp dữ liệu từ các nguồn khác nhau như:
CSDL, Kho dữ liệu, file text...
3) Chọn dữ liệu (data selection): ở bước này, những dữ liệu liên quan trực tiếp ñến
nhiệm vụ sẽ ñược thu thập từ các nguồn dữ liệu ban ñầu.
4) Chuyển ñổi dữ liệu (data transformation): trong bước này, dữ liệu sẽ ñược chuyển
ñổi về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc
tập hợp.
5) Khai phá dữ liệu (data mining): là giai ñoạn thiết yếu, trong đó các phương pháp
thơng minh sẽ được áp dụng để trích xuất ra các mẫu dữ liệu.
6) ðánh giá mẫu (pattern evaluation): đánh giá sự hữu ích của các mẫu biểu diễn tri
thức dựa vào một số phép ño.
7) Biểu diễn dữ liệu (knowlegde presentation): sử dụng các kĩ thuật trình diễn và trực
quan hóa dữ liệu để biểu diễn tri thức khai phá ñược cho người sử dụng.

2.1.2 Các q trình của mơ hình khai phá dữ liệu
Khai phá dữ liệu là một quá trình tương tác gồm 5 giai đoạn như hình 2.1. Mỗi giai
đoạn có thể nhận phản hồi từ các giai ñoạn sau và thực hiện việc tinh chỉnh.

GVHD: TS. Nguyễn ðức Cường
HVTH: Cao Tấn Thiết

10


PHẦN 2: CƠ SỞ LÝ THUYẾT

LUẬN VĂN THẠC SĨ


Tìm hiểu nghiệp vụ và dữ liệu
(Business and Data Understanding)

Chuẩn bị dữ liệu
(Data preparation)

Mơ hình hóa dữ liệu
(Data Modelling)

Hậu xử lý và đánh giá
(Post-Processing and Evaluation)

Triển khai hệ thống
(Knowledge Deployment)
Hình 2.1 Mơ hình các bước khai phá dữ liệu

2.1.2.1 Tìm hiểu nghiệp vụ và dữ liệu
ðây là bước ñầu tiên trong quá trình xây dựng một hệ thống khai phá dữ liệu. Các
cơng việc cần thực hiện trong bước này gồm có:

GVHD: TS. Nguyễn ðức Cường
HVTH: Cao Tấn Thiết

11


LUẬN VĂN THẠC SĨ

PHẦN 2: CƠ SỞ LÝ THUYẾT


Tìm hiểu hệ thống có sẵn (legacy system), xác định những hạn chế của hệ thống cũ để
từ đó định hướng phát triển cho hệ thống khai phá dữ liệu cần xây dựng.
Xác ñịnh tầm vực mà hệ thống khai phá dữ liệu sẽ hỗ trợ. Thông thường các hệ thống
khai phá dữ liệu được xây dựng để tiên đốn, đưa ra những quyết định mang tính chiến
lược. Do đó, hệ thống xây dựng cần phải hướng theo vấn ñề quan tâm và mục tiêu của
người sử dụng.
Xem xét các ñặc trưng của dữ liệu trong hệ thống cũ như: cấu trúc lưu trữ dữ liệu, vị
trí các nguồn dữ liệu, định dạng dữ liệu ở những nguồn khác nhau, ...
Những người tham gia trong bước này thường là kỹ sư tri thức và chuyên gia lĩnh vực,
người hiểu rõ các vấn ñề chiến lược mà hệ thống quan tâm.

2.1.2.2 Chuẩn bị dữ liệu
Bước chuẩn bị dữ liệu hay còn gọi là bước tiền xử lý dữ liệu ñược thực thi nhằm biến
ñổi và cải tiến chất lượng sao cho dữ liệu thích hợp cho q trình khai phá dữ liệu được
thực hiện dễ dàng. Các kỹ thuật tiền xử lý ñược dùng trong bước này gồm có: làm sạch dữ
liệu (data cleaning), tích hợp dữ liệu (data integration), biến đổi dữ liệu (data
transformations), giảm thiểu dữ liệu (data reduction).
2.1.2.2.1 Làm sạch dữ liệu
Dữ liệu thiếu (missing values). Một số thuộc tính trong tập dữ liệu mẫu có thể mang
giá trị rỗng hoặc giá trị “unknown”. Bao gồm các kỹ thuật: phương pháp binning, gom
nhóm (clustering), kết hợp sự kiểm tra giữa máy tính và con người (combined computer
and human inspection), hồi quy (regression).
Dữ liệu nhiễu (noisy data). Là sai số ngẫu nhiên hay sai số trong phép ño. Dữ liệu
trong tập dữ liệu nguồn có thể bị nhiễu do nhiều nguyên nhân khác nhau như lỗi ở các bộ
cảm biến, dữ liệu bị nhập sai trong các bản khảo sát.
Dữ liệu khơng nhất qn (inconsistent data).
2.1.2.2.2 Tích hợp dữ liệu

GVHD: TS. Nguyễn ðức Cường
HVTH: Cao Tấn Thiết


12


LUẬN VĂN THẠC SĨ

PHẦN 2: CƠ SỞ LÝ THUYẾT

Tích hợp dữ liệu: kết hợp dữ liệu từ nhiều nguồn dữ liệu khác nhau vào một kho dữ
liệu kết dính nhau, như data warehouse. Các nguồn dữ liệu này bao gồm các cơ sở dữ liệu,
khối dữ liệu (data cubes) hay các flat files.
2.1.2.2.3 Biến đổi dữ liệu.
Chuẩn hố dữ liệu (standardization/normalization). Dữ liệu phải chuẩn hóa sao cho có
thể dùng các dữ liệu này một cách thống nhất. Có hai dạng chuẩn hóa chủ yếu là chuẩn
hóa miền dữ liệu (range) hoặc chuẩn hóa định dạng (format).
Làm trơn (smoothing), để loại bỏ nhiễu từ dữ liệu. Các kỹ thuật binning, gom nhóm và
hồi quy.
Sự kết hợp (aggregation) các tác vụ tóm tắt hay kết hợp được áp dụng lên dữ liệu.
Tổng qt hóa dữ liệu (Generalization). Dữ liệu thơ thứ cấp ñược thay thế bởi dữ liệu
ở mức cao hơn theo cách thức phân cấp.
2.1.2.2.4 Giảm thiểu dữ liệu
Loại dữ liệu trùng nhau (duplicate elimination).
Thu giảm số chiều (dimensionality reduction). Số lượng thuộc tính trong khai phá dữ
liệu có thể lên ñến hàng trăm. Các kỹ thuật thu giảm số chiều được sử dụng để loại bỏ các
thuộc tính khơng mang nhiều thông tin. Một số kỹ thuật thông dụng thường được sử dụng
là phương pháp độ lợi thơng tin, Entropy, …
Thu giảm số mẫu (instance reduction). Tốc ñộ của quá trình khai phá dữ liệu sẽ rất
chậm trên tập dữ liệu kích thước lớn. Do đó, các kỹ thuật lấy mẫu thường ñược dùng ñể
thu giảm số mẫu trong tập khơng gian dữ liệu.


2.1.2.3 Mơ hình hố dữ liệu
ðây là giai ñoạn mà dữ liệu ñược xử lý nhằm giải quyết các vấn ñề ñã ñược xác ñịnh ở
giai ñoạn ñầu.
Công việc quan trọng nhất trong giai ñoạn này là chọn lựa cách tiếp cận thích hợp đối
với vấn ñề mà hệ thống cần giải quyết. Một số ñặc trưng thường ñược dùng ñể chọn lựa

GVHD: TS. Nguyễn ðức Cường
HVTH: Cao Tấn Thiết

13


LUẬN VĂN THẠC SĨ

PHẦN 2: CƠ SỞ LÝ THUYẾT

các phương pháp khai phá dữ liệu gồm có: độ chính xác ñược yêu cầu, kích thước của tập
dữ liệu, dữ liệu có chứa dữ liệu bị mất hay khơng, các thuộc tính rời rạc hay liên tục, …
Giai đoạn này cũng phải tương thích với giai đoạn tiền xử lý.

2.1.2.4 Hậu xử lý và ñánh giá
Trong giai ñoạn này, hệ thống khai phá dữ liệu sẽ ñược giới thiệu và chạy mơ phỏng
trước người sử dụng. Mục đích của bước này là ñể ñánh giá và hiệu chỉnh hệ thống vừa
ñược xây dựng.
Hệ thống có thể sẽ được chạy thử trên tập dữ liệu thực với sự kiểm soát của người kỹ
sư và người sử dụng. Một số vấn ñề thường ñược người sử dụng quan tâm là thời gian
chạy, ñộ chính xác, mức độ thân thiện, …

2.1.2.5 Triển khai
Hệ thống ñược triển khai một cách hoàn chỉnh. Người sử dụng có thể làm việc trên hệ

thống, phân tích trên mơ hình dữ liệu thực và đưa ra các quyết định.

2.1.3

Dữ liệu nhập

Dữ liệu nhập của hệ thống khai phá dữ liệu là một tập hợp các thực thể (instance).
Mỗi thực thể ñược ñịnh nghĩa là một mẫu (example) riêng biệt, ñộc lập với các mẫu khác
và ñược dùng bởi hệ thống khai phá dữ liệu. Khơng có sự phân biệt rõ ràng giữa khái niệm
thực thể và mẫu, trong đó khái niệm mẫu thường ñược dùng thay thế cho khái niệm thực
thể.
Mỗi thực thể ñược ñặc trưng bởi một tập các giá trị của một tập cố ñịnh, ñược ñịnh
nghĩa trước các thuộc tính. Các thuộc tính thuộc vào hai nhóm chủ yếu là thuộc tính rời
rạc (nominal) và thuộc tính liên tục (continuous).
Dữ liệu nhập của hệ thống khai phá dữ liệu thường ñược thu gom từ nhiều nguồn khác
nhau. Trong các hệ thống giao dịch kích thước lớn, dữ liệu ñược lưu trữ trong các kho dữ
liệu (data warehouse). Trong các hệ thống kích thước nhỏ hơn, dữ liệu thường ñược lưu
trong các file, phổ biến nhất là ñịnh dạng ARFF.

GVHD: TS. Nguyễn ðức Cường
HVTH: Cao Tấn Thiết

14


×