Tải bản đầy đủ (.pdf) (59 trang)

Khai thác mẫu tuần tự tối đại

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (894.97 KB, 59 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

------------------------

NGUYỄN NGỌC TUÂN

KHAI THÁC MẪU TUẦN TỰ TỐI ĐẠI

LUẬN VĂN THẠC SĨ
Chuyên ngành: Công Nghệ Thông Tin
Mã ngành: 60480201

TP. HỒ CHÍ MINH, tháng 10 năm 2015


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

------------------------

NGUYỄN NGỌC TUÂN

KHAI THÁC MẪU TUẦN TỰ TỐI ĐẠI

LUẬN VĂN THẠC SĨ
Chuyên ngành: Công Nghệ Thông Tin
Mã ngành: 60480201

HƯỚNG DẪN KHOA HỌC: PGS.TS. LÊ HOÀI BẮC
TP. HỒ CHÍ MINH, tháng 10 năm 2015




CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

Cán bộ hướng dẫn khoa học: PGS.TS. Lê Hoài Bắc

Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP. HCM
(HUTECH) ngày 17 tháng 10 năm 2015.
Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:
Họ và Tên

TT

Chức danh Hội đồng

1

PGS.TSKH. Nguyễn Xuân Huy

Chủ tịch

2

TS. Cao Tùng Anh

Phản biện 1

3


TS. Nguyễn Thị Thúy Loan

Phản biện 2

4

PGS.TS. Quản Thành Thơ

Ủy viên

5

TS. Võ Đình Bảy

Ủy viên, Thư ký

Xác nhận của Chủ tịch Hội đồng đánh giá Luận văn sau khi Luận văn đã sửa
chữa (nếu có).
Chủ tịch Hội đồng đánh giá LV

PGS.TSKH. Nguyễn Xuân Huy


TRƯỜNG ĐH CÔNG NGHỆ TP. HCM

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

PHÒNG QLKH – ĐTSĐH

Độc lập – Tự do – Hạnh phúc

TP. HCM, ngày..… tháng….. năm 2015

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên : Nguyễn Ngọc Tuân

Giới tính: Nam.

Ngày, tháng, năm sinh : 15 – 03 – 1984

Nơi sinh:Yên Bái

Chuyên ngành : Công Nghệ Thông Tin

MSHV : 1341860056

I- Tên đề tài: Khai thác mẫu tuần tự tối đại
II- Nhiệm vụ và nội dung:
-

Nghiên cứu lĩnh vực khám phá tri thức và khai thác dữ liệu với Cơ Sở Dữ Liệu
chuỗi.
Tìm hiểu vềphương pháp khai thác mẫu tuần tự phổ biến, mẫu tuần tự đóng.
Nghiên cứu và triển khai các thuật toán khai thác mẫu tuần tự tối đại.
Đề xuất cải tiến cho phương pháp khai thác mẫu tuần tự tối đại.

III- Ngày giao nhiệm vụ:03/04/2015
IV- Ngày hoàn thành nhiệm vụ: 07/09/2015
V- Cán bộ hướng dẫn: PGS. TS. Lê Hoài Bắc
CÁN BỘ HƯỚNG DẪN

(Họ tên và chữ ký)

PGS.TS. Lê Hoài Bắc


i

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết
quả đánh giá, nhận xét và các đề xuất cải tiến mới nêu trong Luận văn là trung thực
và chưa từng được ai công bố trong bất kỳ công trình nào khác.
Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận văn này
cũng như các trích dẫn hay tài liệu học thuật tham khảo đã được cảm ơn đến tác giả
hay ghi rõ ràng nguồn gốc thông tin trích dẫn trong Luận văn.

Học viên thực hiện Luận văn

Nguyễn Ngọc Tuân


ii

LỜI CÁM ƠN

hướng dẫn và giúp đỡ tận tình
của PGS.TS. Lê Hoài Bắc trong suốt quá trình thực hiện luận văn.
các Thầy/Cô, các đồng nghiệp, các bạn trong lớp
báu
.


luôn quan tâm và giúp đỡ tôi trong suốt thời gian học tập và nghiên cứu hoàn thành
luận văn này.
Tôi xin chân thành cảm ơn!
TP. Hồ Chí Minh, năm 2015
NGUYỄN NGỌC TUÂN


iii

TÓM TẮT

Khai thác mẫu tuần tự là một nhiệm vụ phổ biến trong khai thác dữ liệu với
ứng dụng rộng rãi. Tuy nhiên, nó có thể đưa ra quá nhiều mẫu tuần tự cho người
dùng gây khó khăn cho việc phân tích và sử dụng kết quả.
Một giải pháp đã được đề xuất để khai thác các mẫu tuần tự tối đại. Mẫu tuần
tự tối đại là một đại diện nhỏ gọn của tập các mẫu tuần tự, mà thường số lượng mẫu
nhỏ hơn so với tập tất cả các mẫu tuần tự.
Luận văn tập chung nghiên cứu về khai thác mẫu tuần tự tối đại với hai thuật
toán tiêu biểu MaxSP và VMSP. Đồng thời luận văn đề xuất một số thay đổi
phương pháp khai thác trong VMSP để có hiệu xuất tốt hơn. Những thay đổi tập
chung vào việc thay đổi phương thức đọc dữ liệu và phương pháp tạo CMAP cắt tỉa
ứng viên trong quá trình khai thác mẫu.
Thực nghiệm trên các bộ dữ liệu chuẩn cho thấy đề xuất hiệu quả hơn trong
việc khai thác mẫu.


iv

ABSTRACT


Sequential pattern mining is a popular data mining task with wide applications.
However, it may present too many sequential patterns to users, which makes it difficult
for users to comprehend the results.
As a solution, it was proposed to mine maximal sequential patterns, a compact
representation of the set of sequential patterns, which is often several orders of
magnitude smaller than the set of all sequential patterns.
Thesis research focused on exploiting maximal sequential patterns with two
typical algorithms and VMSP MaxSP. Also, thesis proposes a number of changes in
mining methods VMSP for better performance. The changes focus on changing the
mode of reading the data and methods create trimmed CMAP candidates during sample
extraction.
On experimental data sets show that the proposed standard is more effective in
the exploitation pattern.


v

MỤC LỤC

LỜI CAM ĐOAN ..........................................................................................................i
LỜI CÁM ƠN .............................................................................................................. ii
TÓM TẮT ................................................................................................................... iii
ABSTRACT .................................................................................................................iv
MỤC LỤC .....................................................................................................................v
DANH MỤC CÁC TỪ VIẾT TẮT .......................................................................... vii
DANH MỤC CÁC BẢNG........................................................................................ viii
DANH MỤC CÁC HÌNH ...........................................................................................ix
CHƯƠNG 1 TỔNG QUAN .........................................................................................1
1.1 Giới thiệu .......................................................................................................1

1.1.1 Lý do chọn đề tài .......................................................................2
1.1.2 Mục đích của đề tài....................................................................3
1.1.3. Nội dung nghiên cứu .................................................................3
1.2 Khám phá tri thức và khai thác dữ liệu .......................................................... 3
1.2.1 Khám phá tri thức ......................................................................3
1.2.2 Khai thác dữ liệu .......................................................................4
1.3 Khai thác mẫu tuần tự trong CSDL chuỗi ...................................................... 5
1.4 Khai thác mẫu tuần tự đóng ........................................................................... 7
1.5 Ý nghĩa khoa học của khai thác mẫu tuần tự ................................................. 7
1.5.1 Khai thác dữ liệu tuần tự trong sinh học, y học ......................... 7
1.5.2 Khai thác dữ liệu tuần tự trong nhật ký trang Web .................... 8
CHƯƠNG 2 KHAI THÁC MẪU TUẦN TỰ TỐI ĐẠI ............................................. 9


vi

2.1 Giới thiệu chung ............................................................................................9
2.2 Các khái niệm cơ bản................................................................................... 10
2.3 Một số thuật toán khai thác mẫu tuần tự tối đại ........................................... 14
2.3.1 Thuật toán MaxSP ................................................................... 14
2.3.2 Thuật toán VMSP..................................................................... 16
2.3.3 Ví dụ minh họa thuật toán VMSP............................................. 22
CHƯƠNG 3 PHƯƠNG PHÁP .................................................................................. 26
3.1 Giới thiệu ..................................................................................................... 26
3.2 Phương pháp ................................................................................................ 27
3.2.1 Một số phân tích giải thuật VMSP ........................................... 27
3.2.2 Phương pháp đề xuất ............................................................... 29
3.2.3 Cơ sở của phương pháp kết hợp Bitmap của VDB................... 30
3.3 Thuật toán .................................................................................................... 31
CHƯƠNG 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ ...................................................... 33

3.1 Thực nghiệm ................................................................................................ 33
3.2 Đánh giá kết quả .......................................................................................... 33
KẾT LUẬN ................................................................................................................. 36
Kết luận ............................................................................................................. 36
Hướng phát triển ................................................................................................ 36
TÀI LIỆU THAM KHẢO.......................................................................................... 37
PHỤ LỤC .................................................................................................................... 39


vii

DANH MỤC CÁC TỪ VIẾT TẮT

Ký hiệu, viết tắt

Ý nghĩa tiếng Việt

Ý nghĩa tiếng anh

CSDL

Cơ sở dữ liệu

Data Base (DB)

KDD

Kỹ thuật khám phá tri thức
và khai thác dữ liệu


Knowledge Discovery and
Data Mining

Item

Mục

Item

Itemset

Tập mục

Itemset

VDB

CSDL tổ chức theo chiều dọc Vertical Database format

CMAP

Sơ đồ cắt tỉa đồng xuất hiện
Phân tử acid nucleic mang

Co-occurrence MAP
Acid Deoxyribo Nucleic

DNA

thông tin di truyền


VMSP

Khai thác mẫu tuần tự tối đại
sử dụng VDB

Vertical mining ofMaximal
Sequential Patterns

MaxSP

Khai khoáng mẫu tuần tự tối
đại

Maximal Sequential Pattern
miner

i-extension

Mở rộng trong với itemset
hiện tại

i-extension

s-extension

Mở rộng trong với itemset kế
s-extension
tiếp



viii

DANH MỤC CÁC BẢNG

Bảng 2.1: CSDL chuỗi. .......................................................................................... 11
Bảng 2.2: Mẫu tuần tự phổ biến tìm được từ Bảng 2.1 (CM-SPADE).................... 12
Bảng 2.3: Mẫu tuần tự đóng tìm được từ Bảng 2.1 (CM-ClaSP)............................ 12
Bảng 2.4: Mẫu tuần tự tối đại tìm được từ Bảng 2.1 (VMSP). ............................... 13
Bảng 2.5: Trình bày theo chiều dọc CSDL ở Bảng 2.1. .......................................... 17
Bảng 2.6: CMAPi và CMAPs của DB Bảng 2.1 với minsup = 3. .......................... 22
Bảng 3.1: Cmap tạo được ở bước 5 của VMSP. ..................................................... 28
Bảng 3.2: Cmap tạo được ở bước 5 của VMSP++.................................................. 30
Bảng 4.1: Đặc điểm các bộ dữ liệu mẫu. ................................................................ 38


ix

DANH MỤC CÁC HÌNH

Hình 1.1: Quá trình KDD. ........................................................................................ 4
Hình 1.2: Qui trình CRISP-DM 09/1996. ................................................................. 5
Hình 2.1: Thuật giải khôi phục tất cả các mẫu tuần tự từ các mẫu tối đại. ............. 12
Hình 2.2: Mã giả của thuật giải MaxSP. ................................................................. 16
Hình 2.3: Mã giả giải thuật VMSP.......................................................................... 18
Hình 2.4: Khối Z lọc tối đại.................................................................................... 20
Hình 3.1: Sơ đồ cài đặt giải thuật VMSP. ............................................................... 27
Hình 3.2: Giải thuật tạo Cmap của VMSP. ............................................................. 29
Hình 3.3: Sơ đồ giải thuật đề xuất. ......................................................................... 29
Hình 3.4: Kết hợp 2 item theo i-extension .............................................................. 30

Hình 3.5: Kết hợp 2 item theo s-extension ............................................................. 31
Hình 3.6: Giải thuật tạo Cmap dựa vào Bitmap của VDB. ..................................... 32
Hình 4.1: Thời gian chạy MSNBC. ........................................................................ 34
Hình 4.2: Thời gian chạy Kosarak. ......................................................................... 35
Hình 4.3: Bộ nhớ chạy MSNBC. ............................................................................ 36
Hình 4.4: Bộ nhớ chạy Kosarak. ............................................................................ 37


1

CHƯƠNG 1
TỔNG QUAN

1.1 Giới thiệu
Sự phát triển của công nghệ thông tin và Internet nhanh chóng được ứng
dụng vào nhiều lĩnh vực đời sống xã hội, quản lý kinh tế, khoa học kỹ thuật … đã
tạo ra những cơ sở dữ liệu (CSDL) lớn. Để khai thác hiệu quả nguồn thông tin từ
các CSDL lớn nhằm hỗ trợ tiến trình ra quyết định, bên cạnh các phương pháp khai
thác thông tin truyền thống, các nghiên cứu đã phát triển các phương pháp, kỹ thuật
và phần mềm hỗ trợ tiến trình khám phá, phân tích tổng hợp thông tin.
Theo đánh giá của IBM, các phương pháp khai thác thông tin truyền thống
chỉ thu được khoảng 80% thông tin từ CSDL, phần còn lại bao gồm các thông tin
mang tính khái quát, thông tin có tính quy luật vẫn còn tiềm ẩn trong dữ liệu. Lượng
thông tin này tuy nhỏ nhưng nó là thông tin cốt lõi và cần thiết cho tiến trình ra
quyết định.
Khai thác dữ liệu (data mining) được U.Fayyad định nghĩa là tiến trình tìm
kiếm các mẫu mới, có ý nghĩa tiềm ẩn trong các khối dữ liệu lớn. Có thể chia khai
thác dữ liệu thành hai dạnh chính: Khai thác dữ liệu theo hướng kiểm tra và khai
thác dữ liệu theo hướng khám phá. Trong khai thác dữ liệu theo hướng kiểm tra,
người dùng đề xuất giả thuyết, hệ thống kiểm tra tính đúng đắn của giả thuyết. Khai

thác dữ liệu hướng kiểm tra bao gồm: truy vấn, báo cáo, phân tích đa chiều, phân
tích thống kê … Ngược lại, khai thác dữ liệu theo hướng khám phá sẽ tìm kiếm các
tri thức tiềm ẩn trong CSDL bằng cách tiến hành xem xét tấ cả các giả thuyết khả
dĩ. Một số bài toán chính trong hướng ngiên cứu này như: Khai thác tập phổ biến và
luật kết hợp, khai thác mẫu tuần tự, phân lớp dữ liệu, khai thác cụm và truy vấn
tương tự.
Trong đó, khai thác mẫu tuần tự đóng một vai trò quan trọng trong việc khai
thác dữ liệu và cần thiết cho các ứng dụng như việc phân tích các chuỗi click chuột
trên trang Web, dữ liệu y tế, dữ liệu sinh học và các dữ liệu e-learning[9]. Tuy


2

nhiên, do không gian tìm kiếm lớn, nên rất nhiều các cải tiến đã được đề xuất nhằm
nâng cao hiệu xuất của các thuật giải tìm kiếm. Mặt khác, khai thác mẫu tuần tự đưa
ra quá nhiều mẫu tuần tự cho người dùng gây khó khăn cho việc phân tích kết quả.
1.1.1 Lý do chọn đề tài
Để giảm chi phí tính toán của việc khai thác và đưa ra mẫu đại diện ít hơn
cho người dùng, nhiều nghiên cứu tập trung vào phát triển đại diện ngắn gọn chính
xác của mẫu tuần tự, như việc đề xuất khai thác mẫu tuần tự đóng và khai thác mẫu
tuần tự tối đại.
Các phương pháp đã được đề xuất khai thác mẫu tuần tự đóng trong cơ sở dữ
liệu tuần tự như Bide, Clospan [5] vàClaSP[13].Mặc dù các thuật toán khai thác một
bộ nhỏ gọn của mẫu tuần tự là tập các mẫu đóngnhưng vẫn còn quá lớn đối với cơ
sở dữ liệu nhiều chuỗi hoặc cơ sở dữ liệu chứa các chuỗi dài.
Một số thuật toán đã được đề xuất để khai phá mẫu tuần tự tối đại, tập hợp các
mẫu tuần tự tối đại là một tập hợp con rất nhỏ của tập hợp mẫu tuần tự đóng. Bên
cạnh đó, tập hợp các mẫu tuần tự tối đại là đại diện để nó có thể được sử dụng để
khôi phục lại tất cả các mẫu tuần tự và tần số chính xác sau này cũng có thể được
phục hồi thông qua một cơ sở dữ liệu duy nhất. Mặc dù khai thác mẫu tuần tự tối

đại rất quan trọng và hữu ích trong nhiều ứng dụng, nhưng nó vẫn là một nhiệm vụ
khai thác dữ liệu có tính toán phức tạp.
Xuất phát từ những nội dung trình bày trên, tôi chọn nghiên cứu đề tài “Khai
thác mẫu tuần tự tối đại” nhằm nghiên cứu các phương pháp khai thác mẫu tuần tự
tối đại. Luận văn gồm 4 chương chính:
• Chương 1: Tổng quan.
• Chương 2: Khai thác tuần tự tối đại.
• Chương 3: Phương pháp.
• Chương 4: Thử nghiệm và đánh giá.


3

1.1.2 Mục đích của đề tài
Mục tiêu tổng quát: Nghiên cứu tổng quan về khai thác mẫu tuần tự, mẫu
tuần tự đóng và mẫu tuần tự tối đại. Tập chung nghiên cứu chính các phương pháp
khai thác mẫu tuần tự tối đại.
Mục tiêu cụ thể: Nghiên cứu về phương pháp khai thác mẫu tuần tự tối đại
và đề xuất phương pháp tối ưu thuật giải.
1.1.3. Nội dung nghiên cứu
• Nghiên cứu tổng quan về khai thác mẫu tuần tự, mẫu tuần tự đóng và
các vấn đề liên quan.
• Nghiên cứu một số thuật toán khai thác mẫu tuần tự tối đại.
• Đề xuất phương pháp tối ưu thuật toán.
• Lập trình kiểm thử với dữ liệu mẫu.

1.2 Khám phá tri thức và khai thác dữ liệu
1.2.1 Khám phá tri thức
Có sự phân biệt giữa hai khái niệm “Khai thác dữ liệu” với khái niệm “Phát
hiện tri thức” (Knowledge Discovery in Databases – KDD) mà theo đó, khai thác

dữ liệu chỉ là một bước trong quá trình KDD.
Một số bước trong quá trình KDD[10]:
• Làm sạch dữ liệu: Loại bỏ nhiễu và các dữ liệu không cần thiết.
• Tích hợp dữ liệu: Các nguồn dữ liệu khác nhau tích hợp lại.
• Lựa chọn dữ liệu: Các dữ liệu có liên quan đến quá trình phân tích được
lựa chọn từ CSDL.
• Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng cho phù
hợp với quá trình xử lý.


4

• Khai thác dữ liệu: Là một trong những bước quan trọng nhất, trong đó sử
dụng những phương pháp thông minh để lựa chọn ra những mẫu dữ liệu.
• Đánh giá mẫu: Quá trình đánh giá kết quả thông qua một độ đo nào đó.
• Biểu diễn tri thức: biểu diễn các kết qủa một cách trực quan cho người
dùng.
Đánh giá kết quả
Tri thức
Khai thác dữ liệu

Chuyển đổi dữ liệu

Các mẫu
được
phát hiện

Làm sạch và tiền xử lý

Trích lọc dữ liệu

Dữ liệu
được
làm sạch

Gom dữ liệu

Dữ liệu

Dữ liệu
được
chuyển
đổi

Dữ liệu
theo mục
tiêu

Internet
Kho DL

Hình 1.1: Quá trình KDD [17]
1.2.2 Khai thác dữ liệu
Khai thác dữ liệu là quá trình khai thác các thông tin tiềm ẩn tiên đoán từ
các cơ sở dữ liệu lớn, giúp người dùng tập trung vào những thông tin quan trọng
nhất trong CSDL.


5

Khai thác dữ liệu là bước quan trọng nhất trong tiến trình phát hiện tri thức.

Kết quả của bước này là trích chọn được các mẫu và/hoặc các mô hình ẩn dưới một
khối lượng dữ liệu lớn. Quá trình này có thể tương tác với người sử dụng hoặc một
cở sở tri thức. Các mẫu quan tâm được trình diễn tới người sử dụng và có thể được
lưu trữ như những tri thức mới trong cở sở tri thức.
Quy trình khai thác dữ liệu là một chuỗi lặp gồm các bước bắt đầu với dữ
liệu thô và kết thúc với tri thức đáp ứng được sự quan tâm của người sử dụng.

Hình 1.2: Qui trình CRISP-DM 09/1996 [18]

1.3 Khai thác mẫu tuần tự trong CSDL chuỗi
Một CSDL chuỗi chứa một chuỗi các sự kiện có thứ tự, có hoặc không có
chú giải về thời gian. Ví dụ như dãy các click chuột trên trang Web, dữ liệu tuần tự
sinh học, dãy các giao dịch của ngân hàng . . .


6

Khai thác mẫu tuần tự (Sequential pattern mining) được giới thiệu lần đầu
tiên bởi Agrawal và Srikan năm 1995. Mẫu tuần tự là chuỗi các itemset xuất hiện
phổ biến có tuần tự, tất cả các item trong cùng một itemset được giả sử là chúng sảy
ra cùng tại thời điểm hoặc chúng có trong cùng một khoảng thời gian sảy ra (time
gap) trong CSDL chuỗi.
Tính chứa: một chuỗi
nếu

được gọi là chứa trong một chuỗi
và ta có

.
Độ hỗ trợ (Support):


Trong đó:
- Support(s): là độ hỗ trợ của chuỗi s.
-

: là số chuỗi có chứa giao tác chứa chuỗi s.

- TN: là tổng số chuỗi giao tác có trong CSDL.
Khai thác mẫu tuần tự (Sequential pattern mining) là tiến trình xuất ra một số
các mẫu tuần tự có độ hỗ trợ (support) vượt qua ngưỡng hỗ trợ tối thiểu (minsup).
Vì số lượng mẫu là rất lớn vì thế người sử dụng thường đưa vào giá trị misup để lọc
kết quả. Những mẫu tuần tự có độ hỗ trợ vượt quá minsup là những mẫu mong
muốn và chúng có giá trị.
Hầu hết các giải thuật ban đầu đều dựa trên tính chất Apriori trong khai thác
luật kết hợp như: AprioriAll, AprioriSome, DynamicSome , GSP [2] và SPADE [2].
Sau này, một loạt các dữ liệu dựa trên giải thuật được đề xuất , như: FreeSpan và
PrefixSpan [4]. SPADE [2] là một giải thuật dựa trên lưới , MEMISP [16] dùng
cách tiếp cậ

ỉ mục của bộ nhớ, trong đó SPIRIT [27] tập trung vào

tích hợp các ràng buộc qua các biểu thức thông thường.
SPAM [16] sử dụng kỹ thuật biểu diễn Bitmap cho mỗi bản ghi trong mỗi
chuỗi dữ liệu. Sau đó, giải thuật áp dụng chiến lược tìm kiếm theo chiều sâu để sinh
các ứng viên. Qua các phép toán trên bit để tính toán độ hỗ trợ của các ứng viên
một cách nhanh chóng. Hơn nữa, với kỹ thuật cắt tỉa hiệu quả đã làm giảm số
lượng ứng viên được sinh ra. Qua các kết quả thực nghiệm người ta thấy giải


7


thuật SPAM hiệu quả cao hơn so với không chỉ giải thuật SPADE mà còn cả
giải thuật PrefixSpan.
CM-SPADE và CM-SPAMlà những cải tiến mới nhất của SPANDE và
SPAM được công bố năm 2014. Phương pháp cải tiến ở đây là việc đề xuất đưa vào
sử dụng cấu trúc CMAP cho việc cắt tỉa ứng viên đã cải thiện tốc tốc độ và bộ nhớ
khá nhiều và hiện vẫn là những phương pháp tối ưu nhất cho việc khai thác mẫu
tuần tự phổ biến.
1.4 Khai thác mẫu tuần tự đóng
Để giảm chi phí tính toán của việc khai thác và đưa ra mẫu đại diện ít hơn
cho người dùng, nhiều nghiên cứu tập trung vào phát triển đại diện ngắn gọn chính
xác của mẫu tuần tự. Ví dụ như việc đề xuất mẫu tuần tự đóng [13, 6].
Một mẫu tuần tự đóng là một mẫu tuần tự phổ biến không được chứa trong
một mẫu tuần tự phổ biến khác có cùng tần số. Một số phương pháp đã được đề
xuất khai thác mẫu tuần tự đóng trong cơ sở dữ liệu tuần tự như Bide, CloSpan [5]
và Clasp [13].
CM-ClaSP là một cải tiến từ Clasp với việc kết hợp CMAP để giảm ứng viên
ghép nối tương tự như với CM-SPADE và CM-SPAM được trình bày ở trên.
Mặc dù các thuật toán đã khai thác được bộ rút gọn của mẫu tuần tự phổ biến
nhưng tập các mẫu đóng vẫn còn quá lớn đối với cơ sở dữ liệu lớn hoặc cơ sở dữ
liệu chứa các chuỗi dài.Để giải quyết vấn đề này, một số thuật toán đã được đề xuất
để khai thác mẫu tuần tự tối đại, nội dung về khai thác mẫu tuần tự tối đại được
trình bày ở Chương 2 trong luận văn.
1.5 Ý nghĩa khoa học của khai thác mẫu tuần tự
Khai thác mẫu tuần tự được ứng dụng trong nhiều lĩnh vực khác nhau nhằm
khai thác nguồn CSDL thu được nhằm đưa ra những thông tin hữu ích.
1.5.1 Khai thác dữ liệu tuần tự trong sinh học, y học
Các tiến bộ vượt bậc gần đây trong công nghệ giải tuần tự (sequencing) đã
cho phép tích lũy nhanh chóng các dữ liệu tuần tự sinh học AND và Protein. Kết



8

quả là có một khoảng cách ngày càng được mở rộng giữa thu thập nhanh dữ liệu
tuần tự sinh học và xử lý không nhanh bằng các phương pháp truyền thống . Bài
toán đặt ra là phát triển các phương pháp, công cụ mới để khám phá, giải mã các
thông tin tiềm ẩn trong khối dữ liệu tuần tự sinh học.
Những tiếp cận khai thác dữ liệu đã được sử dụng để phân tích dữ liệu sinh
học . Các nghiên cứu phát triển các phần mềm tin học nhằm tìm kiếm các đặc trưng
cho các nhóm gen, truy vấn tuần tự tương đồng, liên kết các gen, chuỗi hoạt động
của các gen ở các quá trình phát triển của bệnh . . . đã đóng góp rất nhiều cho các
nghành sinh học, y học phát triển.
1.5.2 Khai thác dữ liệu tuần tự trong nhật ký trang Web
Khai thác dữ liệu Web là việc trích chọn ra các thành phần được quan tâm
hay được đánh giá là có ích cùng các thông tin tiềm năng từ các tài nguyên hoặc các
hoạt động liên quan tới World-Wide Web. Trong đó phân tích các Web log nhằm
khám phá ra các mẫu truy cập của người dùng trong trang web[3].
Khai thác mẫu tuần tự trong Web log là một trong các hướng nghiên cứu
nhằm biết xu hướng truy cập trang Web của từng đối tượng người dùng tại mỗi thời
điểm thời gian khác nhau. Từ kết quả nghiên cứu này ứng dụng cho việc cải tiến và
sắp xếp khoa học thứ tự các chức năng cho người sử dụng tiện lợi hơn trong việc
tiếp cận thông tin.


9

CHƯƠNG 2
KHAI THÁC MẪU TUẦN TỰ TỐI ĐẠI

2.1 Giới thiệu chung

Một mẫu tuần tự tối đại là một mẫu đóng không bịchứa trong một mẫu tuần
tự khác.Tập hợp các mẫu tuần tự tối đại là một tập hợp con rất nhỏ của tập hợp mẫu
tuần tự đóng.Mặt khác, tập hợp các mẫu tuần tự tối đại là đại diện để có thể được sử
dụng để khôi phục lại tất cả các mẫu tuần tự và tần số chính xác sau này cũng có thể
có được thông qua việc duyệt CSDL (định lý 1 – thuật giải minh họa ở Hình 2.1).
Khai thác mẫu tuần tự tối đạirất quan trọng và đã được áp dụng trong nhiều
ứng dụng.Ví dụ, nó được sử dụng để tìm chuỗi con chung dài nhất phổ biến trong
các văn bản, phân tích tuần tự DNA, nén dữ liệu và khai thác nhật ký trang
web[3].Mặc dù vậy nó vẫn là một nhiệm vụ khai thác dữ liệu có tính toán phức tạp.
Đã có một vài thuật toán đã được đề xuất để làm công việc này.
MSPX [8] là một thuật toán gần đúng và nó cung cấp một bộ đầy đủ các mẫu
tối đại cho người dùng.
DIMASP [3] được thiết kế cho các trường hợp đặc biệt chuỗilà xâu ký tự
(không nhiều hơn một item có thể xuất hiện cùng một lúc) và tại đó không có cặp
các item liên tiếp có độ hỗ trợp xuất hiện nhiều hơn một lần trong một chuỗi.
AprioriAdjust [11] là một thuật toán giống như Apriori, có thểbị những hạn
chế của mẫu ứng viên kiểm tra kế tiếp.Nói cách khác, nó có thể tạo ra một số lượng
lớn các mẫu ứng viên không xuất hiện trong dữ liệu đầu vào và yêu cầu phảiduyệt
các cơ sở dữ liệu ban đầu nhiều lần.
MFSPAN [13] thuật toán cần phải duy trì một số lượng lớn các ứng viên
trung gian trong bộ nhớ chính trong quá trình khai thác mẫu.


10

Hai thuật toán gần đây nhất là MaxSP[6]và VMSP[9]được đề xuất được phát
triển cho trường hợp tổng quát của một cơ sở dữ liệu tuần tựnó có thể khai thác
được toàn bộ các mẫu tuần tự tối đại trong CSDL được trình bày cụ thể ở mục 2.3
của luận văn.
2.2 Các khái niệm cơ bản

Định nghĩa 1 (Cơ sở dữ liệu chuỗi): Cho

là tập các item.

là một tập không sắp thứ tự của các item

Một itemset

được định nghĩa là thứ tự trên toàn bộ . Không mất

riêng biệt. Thứ tự từ điển

. Một

tính tổng quát, ta giả định rằng tất cả các itemset đã được sắp thứ tự theo
chuỗi là một dãy đã sắp thứ tự của các itemset

sao cho

. Một cơ sở dữ liệu chuỗi SDB là một danh sách các chuỗi
có định danh chuỗi (SIDs) là 1, 2…p.
Ví dụ: Một cơ sở dữ liệu chuỗi được mô tả trong Bảng 2.1. Nó gồm 4 chuỗi
có SIDs 1, 2, 3 và 4. Mỗi chữ cái đơn đại diện cho một item. Những item ở giữa
ngoặc

nhọn

đại

diện


cho

một

itemset.

Chuỗi

chứa 4 itemset. Nó chỉ ra rằng các item
cùng một thời điểm, theo sau là

thứ

hai

sảy ra tại

ở cùng một thời điểm, kế tiếp là



sảy ra cùng thời điểm.
Định nghĩa 2 (Chuỗi con): Một chuỗi

được gọi là chứa

nếu tồn tại các số nguyên

trong một chuỗi


(ký hiệu là

sao cho
Ví dụ: Chuỗi

).

được chứa trong chuỗi 1 và chuỗi 3.s

Định nghĩa 3 (Tiền tố của chuỗi): Một chuỗi
tiền tố của một chuỗi
và những item
Ví dụ:

là tiền tố của

,
đầu tiên của

là một
, nếu
theo

bằng

.


11


Bảng 2.1:CSDL chuỗi.
SID

Sequences

1
2
3
4

của

Định nghĩa 4 (Mở rộng chuỗi): Một chuỗi

được cho là một s-extensions

một

item

chuỗi

với

một

,

nếu




chỉ

, tức là tiền tố của và item xuất hiện trong một itemset

nếu

sau tất cả các itemsetcủa .Tương tự như vậy, chuỗi được cho là một i-extensions
với mộtitem , nếu và chỉ nếu

, tức là tiền tố của và item

xảy ra trong itemset cuối cùng của và item là thành viên cuối cùng trong ,
theo

.
Định nghĩa 5 (Độ hỗ trợ):Độ hỗ trợ của một chuỗi trong một cơ sở dữ liệu

SDB chuỗi được định nghĩa là số chuối


sao cho

và được ký hiệu

.
Định nghĩa 6 (Khai thác mẫu tuần tự):Cho minsup là một ngưỡng được thiết


lập bởi người sử dụng và SDB là một cơ sở dữ liệu chuỗi.Một chuỗi là một mẫu
tuần tự và được coi là phổ biến khi và chỉ khi
thác mẫu tuần tự là để khám phá tất cả các mẫu tuần tự .

.Vấn đề khai


12

Bảng 2.2: Mẫu tuần tự tìm được từ Bảng 2.1 (CM-SPADE)
Mẫu tuần tự
{a} #SUP: 4

{c},{b} #SUP: 3

{a},{c},{b} #SUP: 3

{b} #SUP: 4

{a},{b} #SUP: 4

{a},{c},{c} #SUP: 3

{c} #SUP: 4

{d},{c} #SUP: 3

{d} #SUP: 3

{c},{c} #SUP: 3


{e} #SUP: 3

{b},{c} #SUP: 3

{f} #SUP: 3

{a},{c} #SUP: 4

Ví dụ:Hình trên cho thấy 14 mẫu tuần tự được tìm thấy trong cơ sở dữ liệu
của bảng2.1 với minsup = 3 và độ hỗ trợ của chúng.Ví dụ, các mẫu

,

,

là phổ biến và có độ hỗ trợ của chuỗilần lượt là 4, 3và 3.
Định nghĩa 7 (Khai thác mẫu tuần tự đóng/tối đại): Một mẫu tuần tự
được gọi là đóng nếu không có một mẫu tuần tự
,

khác sao cho

là mẫu cha của

và chúng có độ support bằng nhau.
Bảng 2.3: Mẫu tuần tự đóng tìm được từ Bảng 2.1 (CM-ClaSP)
Mẫu tuần tự đóng
{e} #SUP: 3


{a},{b} #SUP: 4

{a},{c},{b} #SUP: 3

{f} #SUP: 3

{d},{c} #SUP: 3

{a},{c},{c} #SUP: 3

{b},{c} #SUP: 3
{a},{c} #SUP: 4
Một mẫu tuần tự
là cha của

,

được gọi là tối đại nếu không có mẫu tuần tự
.

sao cho


×