HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
TRẦN THỊ LỊCH
KHAI PHÁ LUẬT KẾT HỢP VỚI DỮ LIỆU
PHÂN TÁN DỰA TRÊN MÔ HÌNH MAPREDUCE
LUẬN VĂN THẠC SĨ KỸ THUẬT
HÀ NỘI – 2014
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
KHAI PHÁ LUẬT KẾT HỢP VỚI DỮ LIỆU PHÂN TÁN
DỰA TRÊN MÔ HÌNH MAPREDUCE
Chuyên ngành: Khoa học máy tính
Mã số : 60.48.01.01
LUẬN VĂN THẠC SĨ KỸ THUẬT
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS TRẦN ĐÌNH QUẾ
HÀ NỘI - 2014
1
1. tài
(Data Mining )
,
-
kinh
,
g,
2
Khai
.
,
.
3
.
adoop,
MapReduce,
.
,
p.
,
.
,
MapReduce, Hadoop.
4
.
Eclipse.
.
4
1:
,
,
, quy
.
2:
.
Ch3:
MAPREDUCE
,
,
.
.
4: TRONG
,
,
.
5
1.1
?
1.2
1. Làm
1.3
quy
1.3.6
6
Phân lo
1.6
1.8
-
7
2:
P
2.1
2.1.1
: Độ hỗ trợ (support)
Y là :
Support =
: Độ tin cậy (Confidence)
X Y là :
Confidence =
Các lu
và
Minimum confidence
min_sup goi là frequent itemsets.
2.1.2
2.
-
-
- .
8
Tìm t
Y sao cho
support(X
Y) >= minsup và confidence(X
Y) >=
mincof.
2.2
2.2.1
2.2.2 Thu
2.2.3
9
2.4
sau:
C
làm
quen Apriori.
n
.
10
3:
MAPREDUCE
3.1
3.1.1
3.1.2
?
11
12
reduce
map(k1, v1) -> list(k2, v2)
ey, value) trung gian có
Mc
á
ch hình thc, hàm này có thmnsau
reduce(k2, list (v2))->list(v3)
Tronk2 là key chung ca nhóm trung gian, list(v2) là
các values trong nhóm,
và
list(v3)là mdanh sách
các gi
á
trva reduce thuki iv3. Do
reduce dng vào nhinhóm trung gian
nhau, chúng l ma cchsong song
nhau.
3.1.3
3.1.4
e
13
ph
.
14
3.2
3.2.1
?
1) Hadoop là
2)
.
3.2.2 .
3.2.4
3.3 Hadoop Distributed File System (HDFS)
3.3.1
3.4
.
(HDFS).
15
4:
ph
T mô
Analysis .
Bài toán 1
Bài toán 2:
16
//(1) Map transaction t in data
source to all Map nodes;
C
1
= {size 1 frequent items};
// (2) min_support = num/total
items;
L
1
= {size 1 frequent items
min_support};
for (k = 1; L
k
!=∅; k++) do begin
// (3) sp xp và loi b các items
trùng nhau t L
k
C
k+1
= L
k
join_sort L
k
;
for each transaction t in data
source with C
k+1
do
// m s ln xut hin C
k+1
trong t
// (5) Tìm L
k+1
vi C
k+1
tha mãn
min_support
L
k+1
= {size k+1 frequent items
min_support};
end
end
return ∪k L
k
;
MapReduce
17
Step 1: c mi giao dch ca d liu
u vào và to ra mt tp các Item
(<V
1
>, <V
2
>,, <V
n
>) where < Vn>:(v
n1
,
v
n2
, v
nm
)
Step 2: Sp xp tt c các tp <V
n
> và
to ra mt tp các d liu c sp
xp là <U
n
>:
(<U
1
>, <U
2
>, , <U
n
>) trong < U
n
>:
(u
n1
, u
n2
, u
nm
)
Step 3: Vòng lp While < U
n
> có phn t
tip theo;
//Chú ý:mi danh sách U
n
c x lý
riêng r.
3.1: Vòng lp For mi Item t u
n1
ti
u
nm
ca < U
n
> with NUM_OF_PAIRS
3.a: sinh ra mt tp d liu <Y
n
>:
(y
n1
, y
n2
, y
nl
);
Y
nl
: (u
nx
u
ny
) là danh sách ca các cp
(u
n1
, u
n2
, u
nm
) where u
nx
u
ny
3.b: Làm tng s xut hin ca y
nl
;
//Chú ý: (key, value) = (y
nl
, s ln
xut hin)
3.2: Kt thúc vòng lp For
Step 4: Kt thúc vòng lp While
Tp d liu c to ra là u vào ca
giai on Reducer:
(key, <value>) = (y
nl
, <s ln xut
hin>)
Hình 4.2 MBA Algorithm for Mapper
18
1 c(y
nl
,<number of occurrences>)
data t nhiu node.
2. Add the values for y
nl
to
have
(y
nl
, total number of occurrences)
Hình 4.3. MBA Algorithm for Reducer
O(k t n))
d
-Map/Reduce là
O(k t n/p)
19
.
.
nhau:
là
cùng nhau.
File config.txt có
File transa.txt:
Là file output.txt
20
toán Apriori
MapReduce
34,607s
3,2s
37,063s
4s
0
10
20
30
40
APRIORI_TT APRIORI_MR
csdl1
csdl2
21
0
10
20
30
40
50
60
70
80
Apriori_TT
Apriori_MR
1000
600
22
Hình
.
Theo hình 4.8
MapReduce b
23
.
4.5
.
chính sau:
toán
Hadoop trên Java.