Tải bản đầy đủ (.pdf) (98 trang)

Khai thác top rank k tập xóa được

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.45 MB, 98 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

---------------------------

CHÂU TRẦN TRÚC LY

KHAI THÁC TOP - RANK - K TẬP XÓA ĐƯỢC

LUẬN VĂN THẠC SĨ
Chuyên ngành : Công Nghệ Thông Tin
Mã số ngành: 60480201
TP. HỒ CHÍ MINH, tháng 10 năm 2015


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

---------------------------

CHÂU TRẦN TRÚC LY

KHAI THÁC TOP - RANK - K TẬP XÓA ĐƯỢC
LUẬN VĂN THẠC SĨ
Chuyên ngành : Công Nghệ Thông Tin
Mã số ngành: 60480201
CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS. TÔ HOÀI VIỆT
TP. HỒ CHÍ MINH, tháng 10 năm 2015


CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

Cán bộ hướng dẫn khoa học : TS. TÔ HOÀI VIỆT

Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP. HCM
ngày 17 tháng 10 năm 2015
Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ Luận văn Thạc sĩ)

TT
1
2
3
4
5

Họ và tên
PGS. TSKH. Nguyễn Xuân Huy
TS. Trần Đức Khánh
TS. Nguyễn Thị Thúy Loan
TS. Võ Đình Bảy
TS. Lư Nhật Vinh

Chức danh Hội đồng
Chủ tịch
Phản biện 1
Phản biện 2
Ủy viên
Ủy viên, Thư ký


Xác nhận của Chủ tịch Hội đồng đánh giá Luận văn sau khi Luận văn đã được
sửa chữa (nếu có).
Chủ tịch Hội đồng đánh giá LV

PGS. TSKH. NGUYỄN XUÂN HUY


TRƯỜNG ĐH CÔNG NGHỆ TP. HCM
PHÒNG QLKH – ĐTSĐH

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
TP. HCM, ngày 03 tháng 04 năm 2015

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: CHÂU TRẦN TRÚC LY

Giới tính: Nữ

Ngày, tháng, năm sinh: 23/10/1987

Nơi sinh: An Giang

Chuyên ngành: Công Nghệ Thông Tin

MSHV: 1341860044

I- Tên đề tài:
Khai Thác Top - Rank - K Tập Xóa Được
II- Nhiệm vụ và nội dung:

-

Tổng hợp và phân tích những kết quả nghiên cứu hiện nay trong khai thác top –
rank – k tập xóa được.

-

Đề xuất thuật toán mới IdVM với mong muốn sẽ cải thiện được tính hiệu quả
của thuật toán khai thác k thứ hạng đầu tập các thành phần có thể xóa được (Top
- Rank - K).

III- Ngày giao nhiệm vụ: 03/04/2015
IV- Ngày hoàn thành nhiệm vụ: 17/09/2015
V- Cán bộ hướng dẫn:
TS. Tô Hoài Việt
CÁN BỘ HƯỚNG DẪN

TS. TÔ HOÀI VIỆT

KHOA QUẢN LÝ CHUYÊN NGÀNH


i

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết
quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công
trình nào khác.
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này
đã được cảm ơn và các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc.

Học viên thực hiện Luận văn

Châu Trần Trúc Ly


ii

LỜI CÁM ƠN
Trước tiên tôi xin chần thành cảm ơn Thầy Tô Hoài Việt đã tận tình chỉ dạy và
hướng dẫn tôi trong suốt quá trình nghiên cứu và thực hiện luận văn này.
Tôi cũng xin cảm ơn PSG TS. Lê Hoài Bắc, TS. Võ Đình Bảy, TS. Cao Tùng Anh

và quý Thầy Cô Khoa Công Nghệ Thông Tin - Trường Đại Học Công Nghệ Thành phố
Hồ Chí Minh đã tận tình giảng dạy và truyền đạt cho tôi những kiến thức bổ ích qua các
môn học trong chương trình đào tạo.
Cuối cùng tôi xin chân thành cảm ơn gia đình, bạn bè đã giúp đỡ tôi trong suốt quá
trình học tập.
Tôi xin chân thành cảm ơn.

TP. Hồ Chí Minh, 2015

CHÂU TRẦN TRÚC LY


iii

TÓM TẮT
Khai thác tập xóa được, được giới thiệu lần đầu vào năm 2009, nó là sự thay đổi
thú vị của khai tác tập dữ liệu thường xuyên. Nó cho phép các nhà quản lý xem xét cẩn
thận các kế hoạch sản xuất của mình để đảm bảo sự ổn định của nhà máy trong quá trình

sản xuất kinh doanh. Bên cạnh vấn đề khai thác tập xóa được, vấn đề khai thác Top –
Rank – K tập xóa được cũng được xem là vấn đề thú vị và là vấn đề khá thực tế. Trong
bài báo này, chúng tôi đề xuất một thuật toán mới gọi là IdVM cho khai thác Top – Rank
– K tập xóa được cùng với các định lý của nó. Ưu điểm chính của thuật toán này là tính
được lợi nhuận và tìm các tập ứng cử viên một cách nhanh nhất và hiệu quả nhất. Để
đánh giá thuật toán IdVM tôi đã thí nghiệm trên bộ dữ liệu chuẩn trong thuật toán dVM.
Hiệu quả của phương pháp đề xuất đã được chứng minh bằng cách so sánh với thời gian
khai thác và sử dụng bộ nhớ trên bộ dữ liệu chuẩn đó.


iv

ABSTRACT
Mining erasable item set was introduced to approach data mining in production planning.
The managers can use the erasable itemsets for planning production to ensure the stability
of factory. Besides the problem of mining erasable itemsets, the problem of mining TopRank-K erasable itemsets is an interesting and practical problem. This study proposes an
improved algorithm for finding Top-Rank-K erasable item sets. This algorithm called
IdVM combines dPID_List structure and an improved approach to generate candidate
set. The performance of algorithm has been experimented on three datasets by
comparison in terms of mining time and memory usage.


v

MỤC LỤC
LỜI CAM ĐOAN ....................................................................................................... i
LỜI CÁM ƠN ............................................................................................................. ii
TÓM TẮT.................................................................................................................. iii
ABSTRACT .............................................................................................................. iv
KÝ HIỆU VÀ TỪ VIẾT TẮT .................................................................................. ix

DANH MỤC CÁC BẢNG BIỂU ............................................................................ xii
DANH MỤC HÌNH ẢNH ........................................................................................xv
CHƯƠNG 1: GIỚI THIỆU .........................................................................................1
1.1 Khai thác dữ liệu ...............................................................................................1
1.2 Khai thác tập xóa được ......................................................................................1
1.3 Khai thác Top – Rank – K tập xóa được ...........................................................2
1.4 Giới thiệu đề tài .................................................................................................2
1.4.1 Mục tiêu và nội dung nghiên cứu ...............................................................4
1.4.2 Cấu trúc luận văn ........................................................................................4
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT ...........................................................................6
2.1 Bài toán khai thác tập xóa được ........................................................................6
2.1.1 Phát biểu và mở đầu vấn đề ........................................................................6
2.1.2 Các định nghĩa ............................................................................................7
2.2 Một số thuật toán khai thác tập xóa được..........................................................9
2.2.1 Thuật toán META: ......................................................................................9
2.2.2 Thuật toán VME: ......................................................................................10
2.2.3 Thuật toán MERIT/MERIT+: ...................................................................11


vi

2.2.4 Thuật toán dMERIT+ ...............................................................................13
2.2.5 Thuật toán MEI .........................................................................................13
2.3 Thuật toán Top – Rank – K .............................................................................14
2.3.1 Các định nghĩa ..........................................................................................14
2.3.2 Phát biểu bài toán và cơ sở lý thuyết ........................................................16
2.4 Một số thuật toán Top – Rank – k tập xóa được .............................................16
2.4.1 Thuật toán MIKE ......................................................................................16
2.4.1.1 Định nghĩa và bổ đề ...........................................................................17
2.4.1.2 Phương pháp ......................................................................................19

2.4.1.3 Minh họa ............................................................................................20
2.4.1.4 Nhận xét .............................................................................................25
2.4.2 Thuật toán I-MIKE ...................................................................................25
2.4.2.1 Phương pháp ......................................................................................25
2.4.2.2 Minh họa ............................................................................................27
2.4.2.3 Nhận xét: ............................................................................................29
2.4.3 Thuật toán VM ..........................................................................................30
2.4.3.1 Định nghĩa và tính chất của PID_List ................................................30
2.4.3.2 Phương pháp: .....................................................................................35
2.4.3.3 Minh họa ............................................................................................41
2.4.3.4 Nhận xét .............................................................................................45
2.4.4 Thuật toán dVM ........................................................................................46
2.4.4.1 PID_List .............................................................................................46
2.4.4.2 Khai thác Top – Rank – K tập xóa được sử dụng dPID_List: ...........47


vii

2.4.4.3 Thuật toán dVM .................................................................................49
2.4.4.4 Minh họa ............................................................................................52
2.4.4.5 Nhận xét .............................................................................................57
CHƯƠNG 3: THUẬT TOÁN IdVM CHO KHAI THÁC TOP – RANK – K TẬP
XÓA ĐƯỢC..............................................................................................................58
3.1 Giới thiệu .........................................................................................................58
3.2 Các khái niệm: .................................................................................................58
3.2.1 Khai thác tập xóa được Top – Rank – K ..................................................58
3.2.1.1 PID_List cho thuật toán IdVM ..........................................................60
3.2.1.2 Thuật toán IdVM áp dụng cấu trúc dPID_List: .................................61
3.2.2 Phương pháp sinh tập ứng viên ................................................................61
3.3 Thuật toán IdVM .............................................................................................62

3.3.1 Ý tưởng .....................................................................................................62
3.3.2 Phương pháp .............................................................................................63
3.3.3 Mã giả .......................................................................................................64
3.3.4 Minh họa ...................................................................................................67
3.3.5 Nhận xét ....................................................................................................72
3.4 Thử nghiệm và đánh giá ..................................................................................72
3.5 Thời gian thực hiện..........................................................................................73
3.6 Bộ nhớ sử dụng................................................................................................75
3.7 Tổng kết: ..........................................................................................................76
CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ..........................................78
4.1 Kết luận ...........................................................................................................78


viii

4.2 Hướng phát triển ..............................................................................................78
TÀI LIỆU THAM KHẢO .........................................................................................79


ix

KÝ HIỆU VÀ TỪ VIẾT TẮT
Ký hiệu và

Nghĩa tiếng Anh

từ viết tắt

Nghĩa tiếng Việt


𝜉

Threshold

Ngưỡng % khai thác

DB

Database

Cơ sở dữ liệu

DBe

Example database

Cơ sở dữ liệu thí dụ

dMERIT+

dMERIT+ algorithm

Thuật toán dMERIT+

dNC'_Set

The difference of two NC'_Sets

Hiệu của hai NC'_Set


dPidset

The difference of two Pidsets

Hiệu của hai Pidset

Ek

The set of erasable k-itemsets

EI

Erasable itemset

EIk

An erasable k-itemset

Erasable
Itemset

The set of erasable items

Tập hợp các k-thànhphần không hữu ích
Tập thành phần không
hữu ích
Tập không hữu ích kthành-phần
Tập thành phần không
hữu ích (có thể loại bỏ)
Tập hợp toàn bộ các


I

The set of items

thành phần trong cơ sở
dữ liệu

ik

The kth item in I

k-thành-phần A set of k items

Thành phần thứ k trong I
Tập k thành phần


x

IdVM
MERIT
META
VME
MEI

Improved dPidset Vertical – format –
based algorithm for Mining TopRank-k Erasable Itemsets
fast Mining ERasable ITemsets
algorithm

Mining Erasable iTemsets with the
Antimonotone property algorithm
Vertical – format – based algorithm
for Mining Erasable Itemsets
An efficient algorithm for mining
erasable itemsets

Cải thiện thuật toán dVM
Thuật toán MERIT
Thuật toán META
Thuật toán VME
Thuật toán MEI

NC

Node Code

Mã nút

NC'

The new NC

Cấu trúc NC mới

NC_Set

The set of NC

Tập hợp các NC


Pi

The ith product

Sản phẩm thứ i trong DB
Danh sách mã loại sản

PID_list

pid_list

pidset

The product identifier and gain list
(inverted list)

phẩm và lợi nhuận (danh
sách đảo)
Danh sách mã loại sản

The product identifier list

phẩm
Tập hợp các mã loại sản

The set of product identifiers

phẩm
Mã thứ tự trƣớc-sau có


WPP-code

Weighted Pre-Post order code

gắn trọng số

WPPC-tree

WPP-code tree

Cây WPPC

MIKE

Mining Top-Rank-k Erasable
Itemsets

Thuật toán MIKE


xi

I – MIKE

Improving Efficiency of MIKE
Algorithm by Reducing Set Size

Thuật toán I – MIKE


VM

Mining Top-Rank-k Erasable
Itemsets by PID-lists

Thuật toán VM

dVM

A New Approach for Mining TopRank-k Erasable Itemsets

Thuật toán dVM


xii

DANH MỤC CÁC BẢNG BIỂU
Bảng 2.1: Cơ sở dữ liệu DB........................................................................................6
Bảng 2.2: Các Tập Xóa Được Trong DB với 𝜉 = 16% ..............................................9
Bảng 2.3: Các tập top – 5 có thể xóa được trong DBe..............................................15
Bảng 2.4: Bảng 1 – thành phần ................................................................................20
Bảng 2.5: Bảng Tabk.................................................................................................21
Bảng 2.6: Bảng Tạm 1 - thành phần TR1 ................................................................21
Bảng 2.7:Ứng cứ viên 2 – thành phần ......................................................................22
Bảng 2.8: Ứng cử viên 2 – thành phần được chèn vào trong Tabk ..........................23
Bảng 2.9: Bảng tạm 2 – thành phân TR2 ..................................................................23
Bảng 2.10: Tập ứng cử viên 3- thành phần ..............................................................24
Bảng 2.11: Ứng cử viên 3 – thành phần được chèn vào trong Tabk ........................24
Bảng 2.12: Kết quả trả về 5 thứ hạng đầu của tập thành phần có thể xóa ..............24
Bảng 2.13: Bảng 1 – thành phần sắp xếp tăng dần...................................................27

Bảng 2.14: Tập con Candidate Set trong top ‘n’ .....................................................27
Bảng 2.15: Ứng cử viên trong top –rank - k.............................................................28
Bảng 2.16: Ứng cử viên được thêm vào selected_candidate set .............................28
Bảng 2.17: Kết quả trả về 5 thứ hạng đầu của tập thành phần có thể xóa ...............29
Bảng 2.18: Cơ sở dữ liệu đảo ngược ........................................................................31
Bảng 2.19: Trình bày các bước của thuật toán VM .................................................37
Bảng 2.20: Bảng cở sở dữ liệu đảo 1 – Thành Phần ................................................41
Bảng 2.21: Bảng Tabk – R1.......................................................................................41
Bảng 2.22: Bảng TR1 ................................................................................................42


xiii

Bảng 2.23: Bảng CR2 ...............................................................................................42
Bảng 2.24: Bảng Tabk – R2.......................................................................................44
Bảng 2.25: Bảng TR2 ................................................................................................44
Bảng 2.26: Bảng CR3 ...............................................................................................44
Bảng 2.27: Bảng Tabk – R3.......................................................................................45
Bảng 2.28: Kết quả trả về 5 thứ hạng đầu của tập thành phần có thể xóa ...............45
Bảng 2.29:Bảng PID_List 1 – thành phần ................................................................52
Bảng 2.30:Bảng Tabk – R1........................................................................................53
Bảng 2.31:Bảng TR1 .................................................................................................53
Bảng 2.32:Bảng CR2 ................................................................................................54
Bảng 2.33: Bảng Tabk – R2.......................................................................................55
Bảng 2.34: Bảng TR2 ................................................................................................55
Bảng 2.35:Bảng CR3 ................................................................................................56
Bảng 2.36:Bảng Tabk – R3........................................................................................56
Bảng 2.37: Kết quả trả về 5 thứ hạng đầu của tập thành phần có thể xóa ...............56
Bảng 3.1: Bảng tập 1 – thành phần có lợi nhuận tăng dần .......................................68
Bảng 3.2: Bảng Top n, với n =4 ...............................................................................68

Bảng 3.3: Bảng Tabk – R1.........................................................................................69
Bảng 3.4: Bảng TR1 ..................................................................................................69
Bảng 3.5: Bảng CR2 .................................................................................................70
Bảng 3.6: Bảng Tabk – R2.........................................................................................70
Bảng 3.7: Bảng TR2 ..................................................................................................71
Bảng 3.8: Bảng CR3 .................................................................................................71


xiv

Bảng 3.9:Bảng Tabk – R3..........................................................................................71
Bảng 3.10: Kết quả trả về 5 thứ hạng đầu của tập thành phần có thể xóa ...............72
Bảng 3.11:Cơ sở dữ liệu thử nghiệm. .......................................................................73


xv

DANH MỤC HÌNH ẢNH
Hình 3.1:Thời gian thực hiện trên dữ liệu Chess .....................................................74
Hình 3.2: Thời gian thực hiện trên dữ liệu Mushroom ............................................74
Hình 3.3: Thời gian thực hiện trên dữ liệu T10I4D100k .........................................75
Hình 3.4: Bộ nhớ sử dụng trên dữ liệu Chess ..........................................................75
Hình 3.5: Bộ nhớ được sử dụng trên dữ liệu Mushroom .........................................76
Hình 3.6: Bộ nhớ được sử dụng trên dữ liệu T10I4D100K .....................................76


1

CHƯƠNG 1: GIỚI THIỆU
1.1 Khai thác dữ liệu

Ngày nay, khối lượng dữ liệu bùng nổ và ngày càng tăng lên, các khối dữ liệu
có khắp mọi nơi làm cho chúng ta bị tràn ngập trong khối dữ liệu khổng lồ, đặc biệt
là những cơ sở dữ liệu thương mại của các công ty đa quốc gia, hay những cơ sở dữ
liệu tầm vĩ mô. Do vậy, khai phá dữ liệu ra đời để giúp ta chắt lọc được những thông
tin có giá trị từ những khối dữ liệu thô khổng lồ mà chúng ta có được. Khai thác dữ
liệu có thể hiểu đơn giản là quá trình chắt lọc hay khai phá tri thức từ một khối dữ
liệu lớn, đồng thời có thể loại bỏ những thông tin không cần thiết.
Khai thác dữ liệu là một quá trình mà công ty sử dụng để chuyển dữ liệu thô
thành các thông tin hữu ích, bằng cách sử dụng phần mềm để tìm kiếm các mẫu (thành
phần sản xuất) trong một lô dữ liệu lớn, doanh nghiệp có thể tìm hiểu thêm về khách
hàng của họ và phát triển chiến lược kinh doanh hiệu quả hơn cũng như tăng doanh
thu và chi phí giảm. Khai thác dữ liệu phụ thuộc vào hiệu quả bộ sưu tập dữ liệu, kho
dữ liệu cũng như máy tính xử lý.
1.2 Khai thác tập xóa được
Khai thác tập xóa được, được tác giả Zhi-Hong Deng và các cộng sự giới thiệu vào
năm 2009. Vấn đề khai thác tập xóa được bắt nguồn từ lập kế hoạch sản xuất. Xem xét một
nhà máy sản xuất, trong đó sản xuất một tập lớn các sản phẩm. Từng loại sản phẩm được tạo
thành từ một vài thành phần (hoặc vật liệu). Để sản xuất sản phẩm của mình, các nhà máy sản
xuất phải dành một số lượng tiền lớn để mua hoặc dự trữ các thành phần (vật liệu) này. Khi
cuộc khủng hoảng tài chính đang đến, các nhà máy sản xuất xem xét một cách cẩn thận, nên
có kế hoạch sản xuất bởi vì họ không có đủ tiền để mua tất cả các thành phần cần thiết như
bình thường. Vì vậy, một câu hỏi quan trọng đối với các nhà quản lý của nhà máy là:” làm
thế nào để lập kế hoạch sản xuất các sản phẩm do tiền hạn chế ”. Họ không thể mua tất cả các
thành phần do tiền hạn chế. Rõ ràng, họ phải ngừng sản xuất một số sản phẩm bởi vì các
nguyên liệu tương ứng là không có. Tuy nhiên, vì mục đích lợi nhuận thương mại nên sự mất
lợi nhuận của nhà máy, bởi việc ngừng sản xuất một số sản phẩm phải được kiểm soát. Do đó,


2


chìa khóa cho vấn đề là làm thế nào để tìm thấy một cách hiệu quả các thành phần này, mà
không có sự mất mát về lợi nhuận vượt quá ngưỡng nhất định. Các thành phần này cũng được
gọi là “tập có thể xóa được”.
Thuật toán đầu tiên cho khai thác tập có thể xóa được có tên là META [2]
được Zhi-Hong Deng và các cộng sự giới thiệu vào năm 2009. Tiếp theo, nhóm tác
giả này đã đưa ra một loạt thuật toán khác gồm: VME [3], MERIT [4], MEI [9] .
1.3 Khai thác Top – Rank – K tập xóa được
Tuy nhiên, các đề xuất trong bài báo META [2] được giới thiệu vào năm 2009
sử dụng một ngưỡng phần trăm để đảm bảo sinh ra các tập có thể xóa được đầy đủ và
đúng đắn. Các điểm yếu chính của bài báo này là thiết lập ngưỡng phần trăm thì khá
khó khăn, bởi vì, người dùng không thể biết được tỷ lệ chính xác trước. Một tỷ lệ quá
nhỏ có thể dẫn đến việc tạo ra hàng ngàn và hàng chục ngàn tập phổ biến xóa được,
trong khi đó một ngưỡng quá lớn thường có thể tạo ra vài tập phổ biến xóa được. Bên
cạnh đó vấn đề khai thác top – rank – k tập xóa được, được trình bài trong năm 2011,
trong đó k là giá trị thứ hạng lớn nhất của tất cả các tập xóa được. Đối với nhiệm vụ
khai thác dữ liệu mới này, nó cũng đề xuất một thuật toán đầu tiên hiệu quả được gọi
là MIKE khai thác top-rank-k tập xóa được. Mặc dù thuật toán MIKE [5], I-MIKE
[7], VM [6], dVM [8] có khả năng tìm kiếm tất cả các tập top-rank-k xóa được trong
một thời gian hợp lý, nó có hai điểm yếu quan trọng. Điểm yếu đầu tiên đó là thời
gian hiệu quả của tất cả các thuật toán thì lâu vì nó duyệt cơ sở dữ liệu liên tục. Nhược
điểm thứ hai là chi phí tính toán của việc đạt được các ứng cử viên tập phổ biến là
cao. Trong đề tài này, chúng tôi trình bày một thuật toán mới, có thể khắc phục những
điểm yếu của các thuật toán trên, để khai thác top-rank-k tập xóa được một cách hiệu
quả.
1.4 Giới thiệu đề tài
Khai thác dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai
thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng
lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó. Nhiều vấn



3

đề khai phá dữ liệu đã thu hút sự chú ý nghiên cứu, bao gồm phân lớp và dự đoán,
phân cụm, khai phá chuỗi, luật kết hợp, khai thác các mẫu…Mặc dù có rất nhiều
nghiên cứu về khai thác mẫu, chẳng hạn như khai thác mẫu tiện ích cao khai thác tập
phổ biến, khai thác tập xóa được …với ứng dụng rộng rãi của khai thác mẫu trong
mỗi bước đi của cuộc sống mà vấn đề là khai thác tập xóa được. Các kết quả nghiên
cứu cùng với ứng dụng thành công trong khai phá tập dữ liệu, khai thác mẫu, khám
phá tri thức cho thấy khai phá dữ liệu là một khoa học tiềm năng, mang lại nhiều lợi
ích, nó có ưu thế hơn hẳn với các công cụ phân tích truyền thống, nó đặt biệt hữu ích
với cuộc khủng hoảng tài chính hoặc giảm bớt thành phần sản xuất mà vẫn đem lại
lợi nhuận kinh tế trong suốt quá trình hoạt động của một công ty, nhà máy sản xuất
hay một tổ chức nào đó.
Bắt nguồn trong hoạt động sản xuất kinh doanh, con người đã tạo ra nhiều dữ
liệu nghiệp vụ từ việc lập kế hoạch sản xuất. Ví dụ khi một nhà máy sản xuất, nhà
máy sẽ sản xuất ra một tập lớn các sản phẩm. Từng loại sản phẩm sẽ được tạo nên từ
một vài thành phần (hoặc nguyên vật liệu). Để sản xuất sản phẩm của mình, các nhà
máy cần phải có một số lượng tiền rất lớn để mua hoặc dữ trữ các thành phần nguyên
liệu. Đó là trong tình trạng tài chính ổn định, nhưng nếu cuộc khủng hoảng tài chính
xảy ra, lúc này nhà máy cần phải có một kế hoạch sản xuất để giải quyết về tài chính
vì họ không có đủ tiền để mua những thành phần cần thiết như bình thường. Lúc này
họ phải ngừng sản xuất một số sản phẩm bởi vì các nguyên liệu tương ứng là không
có. Vì mục đích lợi nhuận thương mại nên sự mất lợi nhuận của nhà máy bởi việc
ngừng sản xuất một số sản phẩm phải được kiểm soát. Do đó, vấn đề làm thế nào để
giải quyết hiệu quả của các thành phần này mà không có sự mất mát về lợi nhuận
vượt qua ngưỡng mà nhà máy đặt ra. Để giải quyết vấn đề mà nhà máy đặt ra trên
thực tế đã có các thuật toán như META [2], VME [3], MERIT+[4], MEI [9], MIKE
[5], I-MIKE [7], VM [6], dVM [8] trong lĩnh vực khai thác tập xóa được. Tuy nhiên,
Deng, Fang, Wang, và Xu [2] sử dụng một phần trăm ngưỡng để đảm bảo rằng sự
phát sinh chính xác và hoàn chỉnh tập các item có thể xóa. Điểm yếu chính là thiết

lập ngưỡng phần trăm thì khó khăn bởi vì người dùng không thể biết chính xác phần


4

trăm đúng thời điểm. Một phần trăm quá nhỏ có thể dẫn đến việc tạo ra hàng ngàn
đến hàng chục ngàn tập các thành phần có thể xóa. Trong các bài báo trước, Zhihong
Deng và Xiaoran Xu, Gargi Narula, Sunita Parashar, Giang Nguyen đã giới thiệu một
tác vụ khai thác dữ liệu mới được gọi là khai thác k thứ hạng đầu tập các thành phần
có thể xóa, với k là giá trị thứ hạng lớn nhất của tất cả tập các thành phần có thể xóa
được khai thác. Với tác vụ khai thác mới này, các tác giả bài báo đã đề xuất ra nhiều
thuật toán như MIKE [5], I-MIKE [7], VM [6], dVM [8] để khai thác k thứ hạng đầu
tập các thành phần có thể xóa. Họ cũng tiến hành thử nghiệm trên một số cơ sở dữ
liệu tổng hợp để đánh giá giải thuật của họ. Để đánh giá tính hiệu quả của một giải
thuật thì vấn đề sử dụng bộ nhớ và tiêu tốn thời gian xử lý luôn luôn được xem xét
hàng đầu. Do đó, tôi xin nghiên cứu và đề xuất một thuật toán mới - IdVM dựa trên
sự kết hợp giữa thuật toán dVM và I-MIKE nhằm góp phần làm phong phú thêm các
giải pháp cho bài toán trên và mong muốn cải thiện được tính hiệu quả của thuật toán.
1.4.1 Mục tiêu và nội dung nghiên cứu
 Tổng hợp và phân tích những kết quả nghiên cứu hiện nay trong khai thác
top – rank – k tập xóa được
 Đề xuất thuật toán mới IdVM với mong muốn sẽ cải thiện được tính hiệu
quả của thuật toán khai thác k thứ hạng đầu tập các thành phần có thể xóa
được (Top - Rank - K).
1.4.2 Cấu trúc luận văn
Chương 1: Giới Thiệu
Giới thiệu tổng quan về khai thác dữ liệu nói chung và tác vụ khai thác tập xóa
được, khai thác top – rank – k tập xóa được nói riêng. Khái quát mục đích và nội dung
nghiên cứu của đề tài luận văn.



5

Chương 2: Cơ sở lý thuyết
Trình bày bài toán khai thác top – rank – k tập xóa được, các khái niệm trong
khai thác top – rank – k tập xóa được. Tổng hợp và phân tích các phương pháp, kết
quả nghiên cứu hiện nay.
Chương 3: Thuật toán IdVM cho khai thác Top – Rank - K tập xóa được
Đề xuất một phương pháp khai thác tập xóa được. Bao gồm khái niệm cấu trúc
PID_List, dPID_List và những cấu trúc bổ sung, những định nghĩa, tính chất trong
phương pháp. Thuật toán mới cải tiến thuật toán dVM trong khai thác được tạo ra từ
Top – Rank - K tập xóa được dựa trên dPID_List và tập ứng cử viên sinh ra từ top n
thành phần
Trình bày kết quả thử nghiệm và đánh giá phương pháp. Luận văn tiến hành
thực nghiệm trên cơ sở so sánh thuật toán dVM với một thuật toán mới IdVM
Chương 4: Kết luận và hướng phát triển
Tổng kết những nội dung chính của luận văn và trình bày những hướng phát
triển trong tương lai.


6

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
Khai thác tập xóa được và khai thác top – rank – k tập xóa được là một tác vụ
mới nhưng đã được nhiều tác giả trên thế giới quan tâm nghiên cứu và phát triển.
Chương này sẽ trình bày các khái niệm và phát biểu bài toán khai thác tập xóa được
và khai thác top – rank – k tập xóa được. Liệt kê những phương pháp hiện có và đưa
ra những phân tích, nhận xét.
2.1 Bài toán khai thác tập xóa được
2.1.1 Phát biểu và mở đầu vấn đề

Cho 𝐼 = (𝑖1 , 𝑖2 , … . 𝑖𝑚 ) là một tập hợp các thành phần đại diện cho các thành
phần của sản phẩm.
Tập 𝐷𝐵 = (𝑃1 , 𝑃2 , … 𝑃𝑛 ) trong đó 𝑃𝑖 ( 𝑖 ∈ [1 … 𝑛] ) là một loại sản phẩm
được trình bày dưới hình thức 〈𝑃𝐼𝐷, 𝐼𝑡𝑒𝑚𝑠, 𝑉𝑎𝑙〉. Trong đó:
 PID là định danh của 𝑃𝑖 hay còn gọi là mã loại sản phẩm.
 Items là tất cả các thành phần (hoặc các thành phần) tạo thành 𝑃𝑖 .
 Val là lợi nhuận mà một xí nghiệp sản xuất ( hoặc nhà máy ) thu được
bằng cách bán tất cả các sản phẩm loại 𝑃𝑖 .
Ngưỡng 𝜉 cho trước là ngưỡng giảm % lợi nhuận.
Dưới đây là cơ sở dữ liệu thí dụ DB sẽ được dùng để làm ví dụ và minh họa
trong luận văn.
Bảng 2.1: Cơ sở dữ liệu DB
Loại Sản Phẩm

PID

Items

Val( Nghìn Đô La)

𝑃1

1

𝒶, 𝑏, 𝑐

2100

𝑃2


2

𝒶, 𝑏

1000


×