Tải bản đầy đủ (.docx) (52 trang)

Đồ án Khai phá dữ liệu sử dụng thuật toán apriori để sắp xếp sản phẩm trưng bày tại bách hóa xanh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.24 MB, 52 trang )

TRƯỜNG ĐẠI HỌC TÀI CHÍNH – MARKETING
KHOA CƠNG NGHỆ THƠNG TIN


BÁO CÁO ĐỒ ÁN
ĐỀ TÀI: “SỬ DỤNG THUẬT TOÁN APRIORI ĐỂ
SẮP XẾP SẢN PHẨM TRƯNG BÀY TẠI BÁCH
HÓA XANH”

Giảng viên hướng dẫn

:

Họ và tên sinh viên 1

:

MSSV

:

Họ và tên sinh viên 2

:

MSSV

:

Mã lớp học phần


:

ThS. Thái Thị Ngọc Lý

TP. Hồ Chí Minh, tháng 4 năm 2023


TRƯỜNG ĐẠI HỌC TÀI CHÍNH – MARKETING
KHOA CƠNG NGHỆ THƠNG TIN


BÁO CÁO ĐỒ ÁN
ĐỀ TÀI: “SỬ DỤNG THUẬT TOÁN APRIORI ĐỂ
SẮP XẾP SẢN PHẨM TRƯNG BÀY TẠI BÁCH
HÓA XANH”

Giảng viên hướng dẫn

:

Họ và tên sinh viên 1

:

MSSV

:

Họ và tên sinh viên 2


:

MSSV

:

Mã lớp học phần:

:

ThS. Thái Thị Ngọc Lý

TP. Hồ Chí Minh, tháng 4 năm 2023


NHẬN XÉT CỦA GIẢNG VIÊN 1

.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
........................................................................................................
.......................................................................................................
.......................................................................................................

Điểm số:.........................................................................................
Điểm chữ:......................................................................................
Tp. Hồ Chí Minh, ngày … tháng … năm 2022
Giảng viên phụ trách
(Ký và ghi rõ họ tên)


NHẬN XÉT CỦA GIẢNG VIÊN 2

.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
Điểm số:.........................................................................................
Điểm chữ:......................................................................................
Tp. Hồ Chí Minh, ngày … tháng … năm 2022
Giảng viên phụ trách
(Ký và ghi rõ họ tên)


LỜI CẢM ƠN
Lời đầu tiên, nhóm em xin gửi lời cảm ơn chân thành đến Cô Thái Thị Ngọc Lý

về sự hướng dẫn và giúp đỡ trong quá trình làm báo cáo đồ án môn Khai phá dữ liệu.
Cô đã dành thời gian tận tình để giúp đỡ em trong việc hiểu và áp dụng những
kiến thức về khai phá dữ liệu vào bài tập và báo cáo của em. Nhờ có sự chỉ dẫn của cơ,
em đã có cơ hội được nắm bắt rõ ràng hơn về các phương pháp khai phá dữ liệu và
làm quen với các công cụ phân tích dữ liệu.
Cơ cũng đã hỗ trợ em trong việc giải đáp thắc mắc và chỉ ra những điểm còn
hạn chế của bài tập và báo cáo, giúp em có thể hồn thiện tốt hơn cơng việc của mình.
Một lần nữa, em xin chân thành cảm ơn cơ đã truyền đạt kiến thức và tạo điều
kiện để em hồn thành báo cáo đồ án mơn học. Em sẽ luôn tôn trọng và trân trọng
những giá trị mà cô đã dành cho em. Xin kính chúc cơ cùng tất cả những người đã hỗ
trợ và đóng góp ý kiến cho chúng em cùng những người thân của mình lời chúc sức
khỏe, hạnh phúc và thành đạt.
Xin chân thành cảm ơn.


DANH MỤC BẢNG
Bảng 4.1: Bảng dữ liệu sản phẩm trưng bày tại Bách hóa Xanh..................................19


DANH MỤC HÌNH ẢNH
Hình 2.1: Dữ liệu mẫu tại cửa hàng Bách hóa Xanh.....................................................12
Hình 2.2: Chọn tập món hàng.......................................................................................12
Hình 2.3: Tạo tổ hợp các món hàng ứng tuyển C2.......................................................13
Hình 2.4: Tạo L2...........................................................................................................13
Hình 2.5: Tạo tổ hợp các món hàng ứng tuyển C3.......................................................14
Hình 2.6: Tạo L3...........................................................................................................14
Hình 2.7: Xác định các luật kết hợp thỏa độ tin cậy tối thiểu.......................................15
Hình 4.1: Tải tập tin dữ liệu DLBachHoaXanh............................................................20
Hình 4.2: Đổi thành dạng NumericToNominal.............................................................20
Hình 4.3: Chọn Apriori trong danh sách các thuật toán................................................21

Hình 4.4: Chỉnh sửa thơng số........................................................................................21
Hình 4.5: Kết quả chạy thuật tốn Apriori....................................................................22
Hình 4.6: Thêm file dữ liệu arff....................................................................................24
Hình 4.7: Add 3 thuật toán............................................................................................25
Hình 4.8: Run Experiment.............................................................................................25
Hình 4.9: Chỉnh sửa Comparison Field.........................................................................25
Hình 4.10: Chọn 3 thuật tốn phân tích.........................................................................26
Hình 4.11: Kết quả phân tích Experiment.....................................................................26
Hình 4.12: Thêm File dữ liệu sản phẩm Bách hóa Xanh cho ArffLoader....................27
Hình 4.13: Thiết lập modal chưa được kết nối..............................................................28
Hình 4.14: Nạp dữ liệu từ dataset vào mơ hình.............................................................28
Hình 4.15: Nạp dữ liệu từ text vào mơ hình..................................................................28
Hình 4.16: Mơ hình khai phá dữ liệu............................................................................28


Hình 4.17: Chạy mơ hình..............................................................................................29
Hình 4.18: Kết quả khi chạy Knowledge Flow.............................................................29
Hình 4.19: Đọc dữ liệu từ tập tin...................................................................................29
Hình 4.20: Chuyển đổi dữ liệu và áp dụng thuật toán...................................................30
Hình 4.21: Chạy dịng lệnh thuật tốn...........................................................................30
Hình 4.22: Tính tần suất xuất hiện................................................................................30
Hình 4.23: Kết quả danh sách sản phẩm và tần xuất.....................................................31
Hình 4.24: Hiển thị các luật kết hợp..............................................................................31
Hình 4.25: Hiện thị biểu đồ...........................................................................................32
Hình 4.26: Tạo database, và nhúng dữ liệu vào............................................................33
Hình 4.27: Import dữ liệu DLBachHoaXanh.csv..........................................................33
Hình 4.28: Hiển thị xem trước dữ liệu..........................................................................34
Hình 4.29: Sử đổi cột dữ liệu........................................................................................34
Hình 4.30: Chèn dữ liệu vào SQL hoàn thành..............................................................34
Hình 4.31: Thiết lập Database URL..............................................................................35

Hình 4.32: Kết nối SQL với Weka thành công.............................................................35
Hình 4.33: Truy vấn dữ liệu..........................................................................................35
Hình 4.34: Hiển thị dữ liệu trên Weka..........................................................................36


DANH MỤC TỪ VIẾT TẮT
Từ viết tắt

Giải thích

SVM

Support Vector Machine

PCA

Principal Component Analysi

RODBC

R Open Database Connectivity

SQL

Uniform Resource Locator

URL

Structured Query Language


 


DANH MỤC THUẬT NGỮ ANH - VIỆT
Thuật ngữ Tiếng Anh

Nghĩa Tiếng Việt

Data Warehouse  

Quản lý rủi ro

Dimension tables

Kho dữ liệu

Snowflake Schema

Bảng chiếu

Hybrid Schema

Mơ hình tuyết

Galaxy Schema

Mơ hình lai

Value constraints


Mơ hình vũ trụ

Corporate analysis

Ràng buộc giá trị

Risk management

Phân tích doanh nghiệp


MỤC LỤC
Mục lục

NHẬN XÉT CỦA GIẢNG VIÊN 1.......................................................................i
NHẬN XÉT CỦA GIẢNG VIÊN 2....................................................................iii
LỜI CẢM ƠN......................................................................................................iv
DANH MỤC BẢNG............................................................................................vi
DANH MỤC HÌNH ẢNH..................................................................................vii
DANH MỤC TỪ VIẾT TẮT.............................................................................viii
DANH MỤC THUẬT NGỮ ANH - VIỆT..........................................................ix
MỤC LỤC............................................................................................................xi
CHƯƠNG 1: TỔNG QUAN................................................................................3
1.1. Tổng quan về đề tài...................................................................................3
1.2. Phạm vi của đề tài.....................................................................................3
CHƯƠNG 2

CƠ SỞ LÝ THUYẾT..............................................................5

2.1. Kho dữ liệu...............................................................................................5

2.1.1.

Data Warehouse Schema............................................................................5

2.1.2.

Mơ hình dữ liệu đa chiều............................................................................6

2.2. Khái qt khai phá dữ liệu........................................................................8
2.2.1.

Khái niệm....................................................................................................8

2.2.2.

Qui trình khai phá dữ liệu...........................................................................8

2.2.3.

Các phương pháp khai phá dữ liệu............................................................10

2.2.4.

Các ứng dụng của khai phá dữ liệu...........................................................10

2.3. Phương pháp khai phá dữ liệu được sử dụng trong đề tài......................12


CHƯƠNG 3


PHẦN MỀM KHAI PHÁ DỮ LIỆU MÃ NGUỒN MỞ......17

3.1. WEKA....................................................................................................17
3.1.1.

Giới thiệu..................................................................................................17

3.1.2.

Chức năng.................................................................................................17

3.2. R..............................................................................................................18
3.2.1.

Giới thiệu..................................................................................................18

3.2.2.

Chức năng.................................................................................................18

CHƯƠNG 4

KHAI PHÁ DỮ LIỆU...........................................................19

4.1. Xác định vấn đề......................................................................................19
4.2. Hiểu dữ liệu............................................................................................19
4.3. Chuẩn bị dữ liệu......................................................................................20
4.4. Lập mơ hình............................................................................................20
4.5. Đánh giá mơ hình....................................................................................23
4.6. Triển khai mơ hình..................................................................................24

4.7. Sử dựng tính năng Experiment để khám phá dữ liệu..............................25
4.8. Sử dụng Knowledge Flow......................................................................28
4.9. Khai phá dữ liệu trên R...........................................................................30
4.10.

Kết nối cơ sở dữ liệu............................................................................33

CHƯƠNG 5

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN.............................38

5.1. Kết luận...................................................................................................38
5.1.1.

Những kết quả đạt được............................................................................38

5.1.2.

Hạn chế.....................................................................................................38

5.2. Hướng phát triển.....................................................................................39


5.2.1.

Hướng khắc phục những hạn chế..............................................................39

5.2.2.

Hướng mở rộng của đề tài.........................................................................39


TÀI LIỆU THAM KHẢO...................................................................................41


CHƯƠNG 1: TỔNG QUAN
1.1. Tổng quan về đề tài
Trong bối cảnh ngày càng nhiều cửa hàng bán lẻ phát triển, đều đặt mục tiêu tối đa
hóa doanh thu bằng cách thu hút khách hàng vào cửa hàng và khuyến khích họ mua
sắm các sản phẩm. Để đạt được điều này, các nhà bán lẻ thường tập trung vào việc
tăng cường trải nghiệm mua sắm của khách hàng, bao gồm việc tối ưu hóa sắp xếp sản
phẩm trên kệ.
Các cửa hàng Bách hóa xanh cũng khơng ngoại lệ. Nhưng để tối ưu hóa sắp xếp
sản phẩm trên kệ, các nhà bán lẻ cần phải hiểu rõ các mối quan hệ tương quan giữa các
sản phẩm trong cửa hàng của mình. Để giải quyết vấn đề này, đề tài này sử dụng thuật
tốn Apriori để phân tích dữ liệu bán hàng của các cửa hàng Bách hóa xanh và đề xuất
một cách sắp xếp sản phẩm trên kệ tối ưu dựa trên các quy tắc kết hợp tìm thấy.
Apriori là một thuật toán được sử dụng rộng rãi trong khai thác luật kết hợp trong
dữ liệu, cho phép tìm kiếm các mối quan hệ tương quan giữa các mặt hàng trong cơ sở
dữ liệu của một cửa hàng. Áp dụng thuật toán này, đề tài sẽ phân tích dữ liệu bán hàng
của các cửa hàng Bách hóa xanh và đề xuất một cách sắp xếp sản phẩm trên kệ tối ưu
dựa trên các quy tắc kết hợp tìm thấy.
Các kết quả của đề tài này sẽ giúp các nhà bán lẻ, đặc biệt là các cửa hàng Bách
hóa xanh, cải thiện trải nghiệm mua sắm của khách hàng và tăng doanh số bán hàng
thơng qua việc tối ưu hóa sắp xếp sản phẩm trên kệ. Ngoài ra, phương pháp nghiên
cứu của đề tài cũng có thể được áp dụng cho các cửa hàng bán lẻ khác để tối ưu hóa
việc trưng bày sản phẩm trên kệ và tăng hiệu quả kinh doanh.
1.2. Phạm vi của đề tài
1. Nghiên cứu thuật tốn Apriori:
-


Tìm hiểu về nguyên lý hoạt động của thuật toán Apriori

Trang 14


-

Tìm hiểu về các khái niệm và thuật ngữ liên quan đến thuật toán Apriori như
"tập phổ biến", "tập ứng viên", "ngưỡng hỗ trợ", "độ tin cậy",...

-

Tìm hiểu về các phiên bản của thuật toán Apriori như Apriori cổ điển, Eclat,
FP-Growth,...

2. Tìm hiểu về cửa hàng Bách hóa Xanh:
-

Tìm hiểu về mơ hình kinh doanh và hệ thống phân phối của Bách hóa Xanh

-

Nghiên cứu về phương pháp trưng bày sản phẩm tại cửa hàng Bách hóa Xanh

3. Thu thập dữ liệu sản phẩm:
-

Thu thập dữ liệu về các sản phẩm được bán tại cửa hàng Bách hóa Xanh

-


Lưu trữ dữ liệu vào cơ sở dữ liệu hoặc tệp tin

4. Tiền xử lý dữ liệu:
-

Loại bỏ dữ liệu không cần thiết và sửa chữa các lỗi dữ liệu nếu có

-

Chuyển đổi dữ liệu về định dạng phù hợp với thuật toán Apriori

5. Áp dụng thuật toán Apriori để sắp xếp sản phẩm trưng bày tại cửa hàng:
-

Thiết lập ngưỡng hỗ trợ và độ tin cậy phù hợp để phân tích dữ liệu

-

Thực hiện phân tích dữ liệu bằng thuật tốn Apriori để tìm ra các tập phổ biến,
các quy tắc kết hợp giữa các sản phẩm

-

Sắp xếp các sản phẩm trên cùng một kệ hoặc kệ gần nhau dựa trên các quy tắc
kết hợp của thuật toán Apriori

6. Đánh giá kết quả:
-


Đánh giá hiệu quả của việc sử dụng thuật toán Apriori để sắp xếp sản phẩm
trưng bày tại cửa hàng Bách hóa Xanh

-

So sánh kết quả với phương pháp trưng bày sản phẩm truyền thống của cửa
hàng Bách hóa Xanh.
Trang 15


CHƯƠNG 2

CƠ SỞ LÝ THUYẾT

2.1. Kho dữ liệu
2.1.1 Khái niệm kho dữ liệu
Kho dữ liẹu (Data Warehousing) được định nghĩa là một hệ thống lưu trữ dữ liệu
dùng để hỗ trợ việc ra quyết định trong doanh nghiệp. Data Warehousing cho phép các
tổ chức tích hợp dữ liệu từ nhiều nguồn khác nhau vào một nơi duy nhất để thực hiện
phân tích và truy vấn dữ liệu một cách hiệu quả. Các tính năng của Data Warehousing
bao gồm khả năng lưu trữ các dữ liệu lịch sử, tích hợp dữ liệu từ nhiều nguồn, và hỗ
trợ phân tích dữ liệu bằng các công cụ và kỹ thuật khai thác dữ liệu (Data Mining) để
tìm ra các mơ hình và thơng tin quan trọng.
2.1.1. Data Warehouse Schema
Data Warehouse Schema là một phần quan trọng trong thiết kế Data Warehouse, bao
gồm cấu trúc dữ liệu, quan hệ giữa các bảng dữ liệu và các thơng tin liên quan đến mơ
hình hóa dữ liệu.
Các thành phần của Data Warehouse Schema bao gồm các bảng dữ liệu (tables), các
cột (columns) và các ràng buộc (constraints) như khóa chính (primary key), khóa
ngoại (foreign key) và các ràng buộc giá trị (value constraints).

Mơ hình hóa dữ liệu trong Data Warehouse Schema cần tuân thủ các nguyên tắc của
thiết kế cơ sở dữ liệu như chuẩn hóa cơ sở dữ liệu và đảm bảo tính nhất quán trong dữ
liệu.
-

Có ba loại Data Warehouse Schema chính được sử dụng trong các hệ thống data
warehouse, đó là:
+ Star Schema: Đây là kiểu schema đơn giản nhất và phổ biến nhất trong các hệ
thống data warehouse. Star schema bao gồm một bảng trung tâm, được gọi là
fact table, và các bảng xung quanh được gọi là dimension tables. Các dimension
tables có các thơng tin về các đối tượng (ví dụ: khách hàng, sản phẩm) và được
liên kết với fact table thơng qua các khóa ngoại.
Trang 16


+ Snowflake Schema: Snowflake schema tương tự như Star schema, nhưng với
các bảng chi tiết hơn được phân chia thành nhiều bảng con. Với Snowflake
schema, các dimension tables được phân chia thành các bảng con, mỗi bảng con
lại có các cấp độ khác nhau của thông tin về đối tượng.
+ Hybrid Schema: Hybrid schema kết hợp cả hai loại schema trên. Nó bao gồm
một số bảng dimension được thiết kế theo star schema và một số bảng
dimension được thiết kế theo snowflake schema.
Mỗi loại schema có ưu điểm và hạn chế của riêng nó, tùy thuộc vào yêu cầu và mục
đích sử dụng của hệ thống data warehouse. Việc lựa chọn schema phù hợp sẽ giúp cải
thiện hiệu quả và hiệu suất của hệ thống data warehouse.
Các loại Data Warehouse Schema phổ biến bao gồm Star Schema, Snowflake Schema
và Galaxy Schema. Star Schema là một mơ hình đơn giản nhất, trong đó các bảng chi
tiết liên kết với một bảng trung tâm (fact table) để tạo thành một hình dạng sao.
Snowflake Schema tương tự như Star Schema nhưng được chuẩn hóa để giảm dữ liệu
trùng lặp. Galaxy Schema là một sự kết hợp của Star Schema và Snowflake Schema.

Việc lựa chọn loại Data Warehouse Schema phù hợp là rất quan trọng, bởi vì các loại
Schema có ưu điểm và nhược điểm khác nhau. Ví dụ, Star Schema đơn giản và dễ sử
dụng nhưng có thể dẫn đến dữ liệu trùng lặp và mất tính linh hoạt.
2.1.2. Mơ hình dữ liệu đa chiều
Mơ hình dữ liệu đa chiều (Multidimensional Data Model) là một mơ hình dữ
liệu được sử dụng trong việc thiết kế và xây dựng các Data Warehouse (kho dữ liệu).
Mơ hình này giúp tạo ra các cấu trúc dữ liệu có tính khả năng truy xuất và phân tích
cao, để hỗ trợ việc đưa ra các quyết định trong doanh nghiệp dựa trên dữ liệu.
Mơ hình dữ liệu đa chiều được xây dựng dựa trên khái niệm về "data cube"
(khối dữ liệu), trong đó các dữ liệu được phân loại theo các chiều khác nhau. Các
chiều này có thể là các thuộc tính của dữ liệu, ví dụ như thời gian, địa điểm, sản phẩm,
khách hàng, v.v. Mỗi ô (cell) trong khối dữ liệu này đại diện cho một giá trị của dữ
liệu, thường là một con số. Ngoài ra, Mơ hình dữ liệu đa chiều cịn có các chỉ số
Trang 17


(measures), đại diện cho các tính chất của dữ liệu cần được đánh giá hoặc đo lường, ví
dụ như doanh số, số lượng sản phẩm, lợi nhuận, v.v.
-

Các phép toán trên Mơ hình dữ liệu đa chiều bao gồm:
+ Drill-down: cho phép phân tích dữ liệu chi tiết hơn bằng cách chuyển từ mức
tổng quan sang mức chi tiết hơn.
+ Roll-up: ngược lại với phép toán drill-down, phép toán này cho phép chuyển từ
mức chi tiết sang mức tổng quan.
+ Slice: cho phép lựa chọn một phần dữ liệu từ khối dữ liệu bằng cách cắt theo
một hoặc nhiều chiều.
+ Dice: cho phép lựa chọn một phần dữ liệu từ khối dữ liệu bằng cách cắt theo
một số giá trị của các chiều.


-

Các phương pháp tạo Mơ hình dữ liệu đa chiều bao gồm:
+ Bottom-up: xây dựng khối dữ liệu bằng cách tổng hợp các dữ liệu chi tiết lên
mức cao hơn, đồng thời xác định các chiều và chỉ số cần thiết.
+ Top-down: xây dựng khối dữ liệu bằng cách phân chia dữ liệu theo từng phân
khúc (segment), sau đó tổng hợp các phân khúc này lại thành một khối dữ liệu.
-

Mơ hình dữ liệu đa chiều có nhiều ưu điểm như:
+ Dễ hiểu và dễ sử dụng: Mô hình dữ liệu đa chiều được thiết kế để phù hợp với
cách suy nghĩ và cách sử dụng của con người. Nhờ đó, các người dùng khơng
chun cũng có thể dễ dàng hiểu và sử dụng để truy xuất và phân tích dữ liệu.
+ Tính linh hoạt cao: Mơ hình dữ liệu đa chiều cho phép người dùng chọn các
chiều và chỉ số khác nhau để phân tích dữ liệu, tùy thuộc vào nhu cầu và mục
đích sử dụng. Các phép tốn trên mơ hình dữ liệu đa chiều cũng cho phép người
dùng tùy chỉnh và điều chỉnh các phân tích dữ liệu theo nhu cầu thực tế.
+ Hiệu suất cao: Mơ hình dữ liệu đa chiều được tối ưu hóa cho việc truy xuất và
phân tích dữ liệu, giúp cải thiện hiệu suất và tốc độ xử lý dữ liệu. Điều này đặc
biệt quan trọng trong việc xử lý các tập dữ liệu lớn và phức tạp.
+ Hỗ trợ quyết định: Mơ hình dữ liệu đa chiều được thiết kế để hỗ trợ quyết định
trong doanh nghiệp bằng cách cung cấp các phân tích dữ liệu nhanh chóng và
đáng tin cậy. Các quản lý và nhân viên doanh nghiệp có thể sử dụng mơ hình
Trang 18


dữ liệu đa chiều để đưa ra các quyết định về chiến lược kinh doanh, marketing,
sản xuất, v.v.
-


Tuy nhiên, Mô hình dữ liệu đa chiều cũng có một số hạn chế, ví dụ như:
+ Khó khăn trong việc xử lý các tập dữ liệu không đồng nhất hoặc không đầy đủ.
+ Chi phí cao trong việc xây dựng và bảo trì các hệ thống Data Warehouse phức
tạp.
+ Khả năng chịu tải hạn chế trong một số trường hợp khi phải xử lý các tập dữ
liệu lớn và phức tạp.

2.2. Khái quát khai phá dữ liệu
2.2.1. Khái niệm
Khai phá dữ liệu được định nghĩa như sau: “Khai phá dữ liệu là tập hợp các kỹ
thuật để phát hiện tự động hiệu quả các mẫu chưa biết trước đây, hợp lệ, mới lạ, hữu
ích và dễ hiểu trong cơ sở dữ liệu lớn. Các mẫu phải có tính khả thi để chúng có thể
được sử dụng trong q trình ra quyết định của doanh nghiệp.”
2.2.2. Qui trình khai phá dữ liệu
Quá trình khai phá dữ liệu bao gồm sáu giai đoạn


Giai đoạn xác định vấn đề:

Trọng tâm chính của giai đoạn đầu tiên của quy trình khai phá dữ liệu là hiểu các
yêu cầu và mục tiêu của một dự án như vậy. Một khi dự án đã được xác định, nó có thể
được hình thành như một bài tốn khai phá dữ liệu. Sau đó, một kế hoạch thực hiện sơ
bộ có thể được phát triển.


Giai đoạn hiểu dữ liệu:

Trong giai đoạn này, dữ liệu được thu thập từ các nguồn có sẵn và để thực hiện việc
thu thập dữ liệu phù hợp, một số hoạt động quan trọng như tải dữ liệu và tích hợp dữ
liệu được thực hiện. Sau đó, dữ liệu được phân tích chặt chẽ để xác định liệu dữ liệu

có giải quyết được vấn đề kinh doanh hay khơng. Do đó, dữ liệu bổ sung có thể được
thêm vào hoặc loại bỏ để giải quyết vấn đề một cách hiệu quả. Ở giai đoạn này, dữ liệu
bị thiếu cũng được xác định.
Trang 19




Giai đoạn chuẩn bị dữ liệu:

Giai đoạn này thường chiếm khoảng 90% thời gian của một dự án. Khi các nguồn
dữ liệu có sẵn được xác định, chúng cần được chọn, làm sạch, xây dựng và định dạng
thành dạng mong muốn để xử lý tiếp.


Giai đoạn lập mơ hình:

Trong giai đoạn này, các thuật toán khai phá dữ liệu khác nhau được áp dụng để xây
dựng mơ hình. Các thuật toán khai phá dữ liệu phù hợp được lựa chọn và áp dụng trên
dữ liệu đã cho để đạt được mục tiêu của giải pháp đề xuất.


Giai đoạn đánh giá:
Trong giai đoạn đánh giá, kết quả mơ hình được đánh giá để xác định xem nó có

đáp ứng mục tiêu kinh doanh đã nêu ban đầu hay không. Đối với điều này, dữ liệu
đã cho được chia thành tập dữ liệu huấn luyện và thử nghiệm. Các mơ hình được
đào tạo trên dữ liệu đào tạo và thử nghiệm trên dữ liệu thử nghiệm. Nếu độ chính
xác của các mơ hình trên dữ liệu thử nghiệm khơng thỏa đáng thì người ta quay lại
các giai đoạn trước để tinh chỉnh những khu vực có thể là nguyên nhân dẫn đến độ

chính xác thấp. Sau khi đạt được mức độ chính xác thỏa đáng, quy trình chuyển
sang giai đoạn triển khai.


Giai đoạn triển khai:

Trong giai đoạn triển khai, thông tin chuyên sâu và thơng tin có giá trị thu được từ
dữ liệu cần được trình bày theo cách mà các bên liên quan có thể sử dụng khi họ
muốn. Trên cơ sở các yêu cầu của dự án, giai đoạn triển khai có thể đơn giản (chỉ tạo
báo cáo) hoặc phức tạp (yêu cầu xử lý khai phá dữ liệu lặp đi lặp lại nhiều hơn). Trong
giai đoạn này, Bảng điều khiển hoặc Giao diện người dùng đồ họa được xây dựng để
giải quyết tất cả các yêu cầu của các bên liên quan.
2.2.3. Các phương pháp khai phá dữ liệu
Có rất nhiều kỹ thuật khai phá dữ liệu quan trọng cần xem xét khi nhập trường
dữ liệu, nhưng một số phương pháp phổ biến nhất bao gồm phân cụm, làm sạch dữ
Trang 20



×