Tải bản đầy đủ (.docx) (23 trang)

KHAI PHÁ LUẬT KẾT HỢP VỚI MICROSOFT ASSOCIATION RULES

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (526.53 KB, 23 trang )

Đại Học Quốc Gia TP.HCM
Trường Đại Học Công Nghệ Thông Tin
BÁO CÁO CHUYÊN ĐỀ:
KHAI PHÁ DỮ LIỆU
ĐỀ TÀI:
KHAI PHÁ LUẬT KẾT HỢP VỚI MICROSOFT
ASSOCIATION RULES

GVHD: PGS.TS. ĐỖ PHÚC
Người thực hiện: Nguyễn Siêu
Đẳng
Mã số: CH1101008
Lớp: Cao học khóa 6
NĂM HỌC 2012 – 2013
Báo cáo chuyên đề: Khai phá dữ liệu GVHD: GS.TS Đỗ Phúc
MỤC LỤC
***
HVTH: Nguyễn Siêu Đẳng Trang 3
Báo cáo chuyên đề: Khai phá dữ liệu GVHD: GS.TS Đỗ Phúc
LỜI NÓI ĐẦU

Những năm gần đây, khai phá dữ liệu (KPDL) đã trở thành một trong
những hướng nghiên cứu chính trong lĩnh vực khoa học máy tính và công
nghệ tri thức. Nhiều nghiên cứu, đề xuất ra đời đã được thử nghiệm và ứng
dụng thành công vào đời sống. KPDL là một lĩnh vực nghiên cứu ổn định, có
một nền tảng lý thuyết vững chắc.
KPDL bao hàm rất nhiều hướng tiếp cận. Các kỹ thuật chính được áp
dụng trong lĩnh vực này phần lớn được thừa kế từ lĩnh vực cơ sở dữ liệu
(CSDL), máy học, trí tuệ nhân tạo, lý thuyết thông tin, xác suất thống kê và
tính toán hiệu năng cao. Các bài toán chủ yếu trong KPDL là phân lớp/dự
đoán (classification/prediction), phân cụm (clustering), khai phá luật kết hợp


(association rules mining), khai phá chuỗi (sequence mining), Lĩnh vực này
cũng là điểm hội tụ và giao thoa của rất nhiều lĩnh vực khác. KPDL đã và
đang được ứng dụng thành công vào thương mại, tài chính và thị trường
chứng khoán, sinh học, y học, giáo dục, viễn thông, …
Bài thu hoạch này chú trọng tìm hiểu về luật kết hợp và khai phá luật
kết hợp, tìm hiểu công cụ Microsoft Association Rules trong việc xây dựng mô
hình phát hiện luật kết hợp
Với thời lượng lên lớp hạn chế nhưng thầy Đỗ Phúc đã tận tình truyền
tải một khối lượng lớn kiến thức, chia sẻ và định hướng phát triển cũng như
những ứng dụng khai phá dữ liệu và kho dữ liệu vào thực tiễn. Cảm ơn thầy
đã tận tình giảng dạy và hướng dẫn hoàn tất bài thu hoạch này. Chúc thầy
được nhiều sức khoẻ. Trân trọng.
Học viên thực hiện
Nguyễn Siêu Đẳng.
HVTH: Nguyễn Siêu Đẳng Trang 4
Báo cáo chuyên đề: Khai phá dữ liệu GVHD: GS.TS Đỗ Phúc
PHẦN I : TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

I.1. Khai phá dữ liệu
Khai phá dữ liệu (KPDL) là một khái niệm ra đời vào những năm cuối
của thập kỹ 1980, là quá trình khám phá thông tin ẩn được tìm thấy trong
các cơ sở dữ liệu (CSDL) và có thể xem như là một bước trong quá trình
khám phá tri thức. Data Mining là giai đoạn quan trọng nhất trong tiến trình
khai phá tri thức từ CSDL, các tri thức này hỗ trợ trong việc ra quyết định
trong khoa học và kinh doanh.
Để dễ hình dung vấn đề này hãy làm quen với ví dụ đơn giản như sau:
Khai phá dữ liệu được ví như tìm một cây kim trong đống cỏ khô, cây kim là
một mảnh nhỏ tri thức hoặc một thông tin có giá trị và đống cỏ khô là một
kho CSDL rộng lớn. Như vậy, những thông tin có giá trị tiềm ẩn trong kho
CSDL sẽ được chiết xuất ra và sử dụng một cách hữu ích nhờ khai phá dữ

liệu. Chức năng khai phá dữ liệu gồm có gộp nhóm phân loại, dự báo, dự
đoán và phân tích các liên kết. Năm 1989 Fayyad, Smyth và Piatestsky-
Shapiro đã dùng khái niệm Phát hiện tri thức từ cơ sở dữ liệu (Knowledge
Discovery in Database-KDD). Trong đó, khai phá dữ liệu là một giai đoạn rất
đặc biệt trong toàn bộ quá trình, nó sử dụng các kỹ thuật để tìm ra các mẫu
từ dữ liệu.
Quá trình khai phá dữ liệu sẽ tiến hành qua 6 giai đoạn như hình sau:
Quá trình khai phá dữ liệu
HVTH: Nguyễn Siêu Đẳng Trang 5
Báo cáo chuyên đề: Khai phá dữ liệu GVHD: GS.TS Đỗ Phúc
Bắt đầu của quá trình là kho dữ liệu thô và kết thúc với tri thức được
chiết xuất ra. Về lý thuyết thì có vẽ rất đơn giản nhưng thực sự đây là một
quá trình rất khó khăn gặp phải rất nhiều vướng mắc như: quản lý các tập
dữ liệu, phải lặp đi lặp lại toàn bộ quá trình,…
Mô hình khai phá dữ liệu
Có rất nhiều định nghĩa về KPDL, các định nghĩa này đều là những định
nghĩa mang tính mô tả. Tôi xin trích một vài định nghĩa ở nguyên bản tiếng
Anh nhằm chuyển tải được y nguyên ý của tác giả và tránh được những sai
sót chủ quan:
Định nghĩa 1. William J Frawley, Gregory Piatetsky-Shapiro, và
Christopher J Matheus 1991:
“Knowledge discovery in databases, also known Data mining, is the
nontrivial process of identifying valid, novel, potentially useful, and
ultimately understandable patterns in data.”
Định nghĩa 2. Marcel Holshemier và Arno Siebes (1994):
“Data Mining is the search for relationships and global patterns that
exist in large databases but are ‘hidden’ among the vast amount of data, such
as a relationship between patient data and their medical diagnosis. These
relationships represent valuable knowledge about the database and the
objects in the database and, if the database is a faithful mirror, of the real

world registered by the database.”
Các bước chính trong Khám phá tri thức (KDD)
HVTH: Nguyễn Siêu Đẳng Trang 6
Báo cáo chuyên đề: Khai phá dữ liệu GVHD: GS.TS Đỗ Phúc
Người ta thường chia quá trình khám phá tri thức thành các bước sau:
- Trích chọn dữ liệu (data selection): là bước trích chọn những tập dữ
liệu cần được khai phá từ các tập dữ liệu lớn (databases, data
warehouses, data repositories) ban đầu theo một số tiêu chí nhất định.
- Tiền xử lý dữ liệu (data preprocessing): là bước làm sạch dữ liệu (xử
lý với dữ liệu không đầy đủ, dữ liệu nhiễu, dữ liệu không nhất quán,
.v.v.), rút gọn dữ liệu (sử dụng hàm nhóm và tính tổng, các phương
pháp nén dữ liệu, sử dụng histograms, lấy mẫu, .v.v.), rời rạc hóa dữ
liệu (rời rạc hóa dựa vào histograms, dựa vào entropy, dựa vào phân
khoảng, .v.v.). Sau bước này, dữ liệu sẽ nhất quán, đầy đủ, được rút
gọn, và được rời rạc hóa.
- Biến đổi dữ liệu (data transformation): đây là bước chuẩn hóa và làm
mịn dữ liệu để đưa dữ liệu về dạng thuận lợi nhất nhằm phục vụ cho
các kỹ thuật khai phá ở bước sau.
- KPDL (data mining): đây là bước áp dụng những kỹ thuật khai phá
(phần nhiều là các kỹ thuật của machine learning) để khai phá, trích
chọn được những mẫu (patterns) thông tin, những mối liên hệ
(relationships) đặc biệt trong dữ liệu. Đây được xem là bước quan
trọng và tốn nhiều thời gian nhất của toàn quá trình KDD.
- Biểu diễn và đánh giá tri thức (knowledge representation &
evaluation): những mẫu thông tin và mối liên hệ trong dữ liệu đã
được khai phá ở bước trên được chuyển dạng và biểu diễn ở một
dạng gần gũi với người sử dụng như đồ thị, cây, bảng biểu, luật, .v.v.
Đồng thời bước này cũng đánh giá những tri thức khám phá được
theo những tiêu chí nhất định.
Các bước trong quá trình khám phá tri thức (KDD)

I.2. Hướng tiếp cận và kỹ thuật áp dụng trong Khai phá dữ liệu
Các hướng tiếp cận và các kỹ thuật chính trong Khai phá dữ liệu
HVTH: Nguyễn Siêu Đẳng Trang 7
Báo cáo chuyên đề: Khai phá dữ liệu GVHD: GS.TS Đỗ Phúc
Các hướng tiếp cận của KPDL có thể được phân chia theo chức năng hay
lớp các bài toán khác nhau. Sau đây là một số hướng tiếp cận chính:
- Phân lớp và dự đoán (classification & prediction): xếp một đối tượng
vào một trong những lớp đã biết trước. Ví dụ: phân lớp vùng địa lý
theo dữ liệu thời tiết. Hướng tiếp cận này thường sử dụng một số kỹ
thuật của machine learning như cây quyết định (decision tree), mạng
nơ ron nhân tạo (neural network), .v.v. Phân lớp còn được gọi là học
có giám sát (học có thầy – supervised learning).
- Luật kết hợp (association rules): là dạng luật biểu diễn tri thứ ở dạng
khá đơn giản. Ví dụ: “60 % nam giới vào siêu thị nếu mua bia thì có
tới 80% trong số họ sẽ mua thêm thịt bò khô”. Luật kết hợp được ứng
dụng nhiều trong lĩnh vực kinh doanh, y học, tin-sinh, tài chính & thị
trường chứng khoán,…
- Khai phá chuỗi theo thời gian (sequential/temporal patterns): tương
tự như khai phá luật kết hợp nhưng có thêm tính thứ tự và tính thời
gian. Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài
chính và thị trường chứng khoán vì nó có tính dự báo cao.
- Phân cụm (clustering/segmentation): xếp các đối tượng theo từng
cụm (số lượng cũng như tên của cụm chưa được biết trước. Phân cụm
còn được gọi là học không giám sát (học không có thầy –
unsupervised learning).
- Mô tả khái niệm (concept description & summarization): thiên về mô
tả, tổng hợp và tóm tắt khái niệm. Ví dụ: tóm tắt văn bản.
Các dạng dữ liệu có thể khai phá
Do KPDL được ứng dụng rộng rãi nên nó có thể làm việc với rất nhiều
kiểu dữ liệu khác nhau. Sau đây là một số kiểu dữ liệu điển hình:

- CSDL quan hệ (relational databases).
- CSDL đa chiều (multidimensional structures, data warehouses).
- CSDL dạng giao dịch (transactional databases).
- CSDL quan hệ - hướng đối tượng (object-relational databases).
- Dữ liệu không gian và thời gian (spatial and temporal data).
- Dữ liệu chuỗi thời gian (time-series data).
- CSDL đa phương tiện (multimedia databases) như âm thanh (audio),
hình ảnh (image), phim ảnh (video),…
- Dữ liệu Text và Web (text database & www).
I.3. Ứng dụng của Khai phá dữ liệu
Ứng dụng của Khai phá dữ liệu
HVTH: Nguyễn Siêu Đẳng Trang 8
Báo cáo chuyên đề: Khai phá dữ liệu GVHD: GS.TS Đỗ Phúc
Từ dữ liệu đến quyết định
KPDL tuy là một lĩnh vực mới nhưng thu hút được rất nhiều sự quan
tâm của các nhà nghiên cứu nhờ vào những ứng dụng thực tiễn của nó.
Chúng ta có thể liệt kê ra đây một số ứng dụng điển hình:
- Phân tích dữ liệu và hỗ trợ ra quyết định (data analysis & decision
support).
- Điều trị y học (medical treatment): mối liên hệ giữa triệu chứng, chẩn
đoán và phương pháp điều trị (chế độ dinh dưỡng, thuốc men, phẩu
thuật, …).
- Text mining & Web mining: phân lớp văn bản và các trang web, tóm
tắt văn bản,
- Tin-sinh (bio-informatics): tìm kiếm, đối sánh các hệ gene và thông tin
di truyền, mối liên hệ giữa một số hệ gene và một số bệnh di truyền,…
- Tài chính và thị trường chứng khoán (finance & stock market): phân
tích tình hình tài chính và dự báo giá của các loại cổ phiếu trong thị
trường chứng khoán,…
- Bảo hiểm (insurance);

Phân loại các hệ Khai phá dữ liệu
KPDL là một công nghệ tri thức liên quan đến nhiều lĩnh vực nghiên cứu
khác nhau như CSDL, kỹ thuật máy học (machine learning), giải thuật, trực
quan hóa (visualization), Chúng ta có thể phân loại các hệ thống KPDL dựa
trên các tiêu chí khác nhau:
- Phân loại dựa trên kiểu dữ liệu được khai phá: CSDL quan hệ
(relational database), kho dữ liệu (data warehouse), CSDL giao dịch
(transactional database), CSDL hướng đối tượng, CSDL không gian
HVTH: Nguyễn Siêu Đẳng Trang 9
Báo cáo chuyên đề: Khai phá dữ liệu GVHD: GS.TS Đỗ Phúc
(spatial database), CSDL đa phương tiện (multimedia database),
CSDL Text và WWW,…
- Phân loại dựa trên dạng tri thức được khám phá: tóm tắt và mô tả
(summarization & description), luật kết hợp (association rules), phân
lớp (classification), phân cụm (clustering), khai phá chuỗi (sequential
mining),
- Phân loại dựa trên kỹ thuật được áp dụng: hướng CSDL
(databaseoriented), phân tích trực tuyến (OnLine Analytical
Processing – OLAP), machine learning (cây quyết định, mạng nơ ron
nhân tạo, k-min, giải thuật di truyền, máy vectơ hỗ trợ - SVM, tập thô,
tập mờ, .v.v.), trực quan hóa (visualization),…
- Phân loại dựa trên lĩnh vực được áp dụng: kinh doanh bán lẻ (retail),
truyền thông (telecommunication), tin-sinh (bio-informatics), y học
(medical treatment), tài chính & thị trường chứng khoán (finance &
stock market), Web mining,…
I.4. Những vấn đề được chú trọng trong Khai phá dữ liệu
KPDL là một lĩnh vực mới, do đó đang còn rất nhiều vấn đề chưa đuợc
nghiên cứu một cách trọn vẹn. Sau đây là một số hướng nghiên cứu đã và
đang thu hút được sự chú ý của các nhà tin học:
- OLAM (OnLine Analytical Mining) - Sự tích hợp giữa CSDL, kho dữ

liệu, và KPDL. Hiện nay một số hệ quản trị CSDL như Oracle, MS SQL
Server, DB2 đã tích hợp tính năng xây dựng kho dữ liệu và phân tích
trực tuyến (OLAP). Những tính năng này được hỗ trợ dưới dạng
những công cụ đi kèm và người dùng phải trả tiền thêm nếu cần sử
dụng những tính năng đó.
- Những nhà nghiên cứu trong lĩnh vực CSDL không muốn dừng lại ở
đó mà họ muốn có một sự tích hợp giữa CSDL, kho dữ liệu và KPDL.
- Khám phá được nhiều dạng tri thức khác nhau từ nhiều kiểu dữ liệu.
- Tính hiệu quả, tính chính xác, độ phức tạp tính toán, khả năng mở
rộng và tích hợp, xử lý nhiễu và dữ liệu không đầy đủ, tính hữu dụng
(ý nghĩa) của tri thức.
- Kết hợp KPDL với tri thức cơ sở (background knowledge).
- Vấn đề song song hóa và phân tán quá trình.
- Ngôn ngữ truy vấn trong KPDL (Data Mining Query Language –
DMQL): cung cấp cho người sử dụng một ngôn ngữ hỏi thuật tiện
tương tự như SQL đối với CSDL quan hệ.
- Biểu diễn và trực quan hóa tri thức khai phá được sao cho gần gũi với
người sử dụng (human-readable expression). Tri thức có thể biểu diễn
đa chiều, đa tầng để người dùng sử dụng tri thức hiệu quả hơn.
HVTH: Nguyễn Siêu Đẳng Trang 10
Báo cáo chuyên đề: Khai phá dữ liệu GVHD: GS.TS Đỗ Phúc
PHẦN II: LUẬT KẾT HỢP

II.1. Định nghĩa luật kết hợp
Khái quát về luật kết hợp
Luật kết hợp là những luật có dạng “70% khách hàng mua bia thì mua
thêm thịt bò khô, 20% giao dịch có mua cả bia lẫn thịt bò khô” hoặc “75%
bệnh nhân hút thuốc lá và sống ven vùng ô nhiễm thì bị ung thư phổi, trong
đó 25% số bệnh nhân vừa hút thuốc lá, sống ven vùng ô nhiễm vừa ung thư
phổi”. “mua bia” hay “hút thuốc lá và sống ven vùng ô nhiễm” ở đây được xem

là vế trái (tiền đề - antecedent) của luật, còn “mua thịt bò khô” hay “ung thư
phổi” là vế phải (kết luận - consequent) của luật. Những con số 20% hay 25%
là độ hỗ trợ của luật (support - số phần trăm các giao dịch chứa cả vế trái lẫn
vế phải), còn 70% hay 75% là độ tin cậy của luật (confidence - số phần trăm
các giao dịch thỏa mãn vế trái thì cũng thỏa mãn vế phải).
Minh hoạ về luật kết hợp
Tuy luật kết hợp là một dạng luật khá đơn giản nhưng lại mang rất
nhiều ý nghĩa. Thông tin mà dạng luật này đem lại là rất đáng kể và hỗ trợ
không nhỏ trong quá trình ra quyết định. Tìm kiếm được những luật kết hợp
“quý hiếm” và mang nhiều thông tin từ CSDL tác nghiệp là một trong những
hướng tiếp cận chính của lĩnh vực KPDL và đây chính là một động lực không
nhỏ thúc đẩy việc tập trung nghiên cứu của nhiều nhà tin học.
Định nghĩa luật kết hợp
Gọi I = {I
1
, I
2,
, I
m
} là tập m thuộc tính riêng biệt, mỗi thuộc tính gọi là
một mục. Gọi D là một cơ sở dữ liệu, trong đó mỗi bản ghi T là một giao dịch
và chứa các tập mục, T

I.
HVTH: Nguyễn Siêu Đẳng Trang 11
Báo cáo chuyên đề: Khai phá dữ liệu GVHD: GS.TS Đỗ Phúc
Định nghĩa 1: Một luật kết hợp là một quan hệ có dạng X

Y, trong đó X, Y


I là các tập mục gọi là itemsets, và
φ
=
YX 
. Ở đây, X được gọi là tiền đề, Y
là mệnh đề kết quả.
Hai thông số quan trọng của luật kết hợp là độ hỗ trợ (s) và độ tin cậy (c).
Định nghĩa 2: Độ hỗ trợ (support) của luật kết hợp X

Y là tỷ lệ phần trăm
các bản ghi
YX 
với tổng số các giao dịch có trong cơ sở dữ liệu.
Định nghĩa 3: Đối với một số giao dịch được đưa ra, độ tin cậy (confidence)
là tỷ lệ của số giao dịch có chứa
YX 
với số giao dịch có chứa X. Đơn vị tính
%.
Việc khai thác các luật kết hợp từ cơ sở dữ liệu chính là việc tìm tất cả
các luật có độ hỗ trợ và độ tin cậy lớn hơn ngưỡng của độ hỗ trợ và độ tin cậy
do người sử dụng xác định trước. Các ngưỡng của độ hỗ trợ và độ tin cậy
được ký hiệu là minsup và mincof.
Ví dụ : Khi phân tích giỏ hàng của người mua hàng trong một siêu thị ta
có được luật kiểu như : 80% khách hàng mua sữa thì cũng mua bánh mì 30
% thì mua cả hai thứ .Trong đó “mua sữa ” là tiền đề còn “mua bánh mì ” là
kết luận của luật . Con số 30% là độ hỗ trợ của luật còn 80% là độ tin cậy của
luật.
Chúng ta nhận thấy rằng tri thức đem lại bởi luật kết hợp dạng trên có
sự khác biệt rất nhiều so với thông tin thu được từ các câu lệnh truy vấn dữ
liệu thông thường như SQL. Đó là những tri thức, những mối liên hệ chưa

biết trước và mang tính dự báo đang tiềm ẩn trong dữ liệu. Những tri thức
này không đơn giản là kết quả của phép nhóm , tính tổng hay sắp xếp mà là
của một quá trình tính toán khá phức tạp.
Định nghĩa 4: Nếu tập X có support(X )> minsup thì X gọi là tập phổ biến
( Frequent itemset). Kí hiệu các tập này là FI.
HVTH: Nguyễn Siêu Đẳng Trang 12
Báo cáo chuyên đề: Khai phá dữ liệu GVHD: GS.TS Đỗ Phúc
Định nghĩa 5: Một tập mục X được gọi là đóng (closed) nếu không có một
tập cha nào của X có cùng độ hỗ trợ với nó, tức là không tồn tại một tập mục
X’ nào mà X’⊃X và t(X) = t(X’) (với t(X), t(X’) tương ứng là tập các giao tác
chứa tập mục X và X’). Ký hiệu tập phổ biến đóng là FCI.
Định nghĩa 6 : Nếu X là phổ biến và không tập cha nào của X là phổ biến, ta
nói rằng X là một tập phổ biến lớn nhất (maximally frequent itemset). Ký hiệu
tập tất cả các tập phổ biến lớn nhất là MFI . Dễ thấy MFI ⊆ FCI ⊆ FI.
Quá trình tìm các luật kết hợp thường gồm 2 pha:
Pha 1: Tìm tất cả các tập phổ biến (tìm FI) trong cơ sở dữ liệu T.
Pha 2: Sử dụng tập FI tìm được ở pha 1 để sinh ra các luật tin cậy
(interesting rules).
Trong thực tế, hầu hết thời gian của quá trình khai thác luật kết hợp là
thực hiện ở pha 1.Nhưng khi có những mẫu rất dài (mẫu chứa nhiều mục)
xuất hiện trong dữ liệu, việc sinh ra toàn bộ các tập phổ biến ( FI ) hay các
tập đóng (FCI ) là không thực tế. Hơn nữa, có nhiều ứng dụng mà chỉ cần sinh
tập phổ biến lớn nhất( MFI ) là đủ, như khám phá mẫu tổ hợp trong các ứng
dụng sinh học.
Có rất nhiều nghiên cứu về các phương pháp sinh tất cả các tập phổ biến
và tập phổ biến lớn nhất một cách có hiệu quả. Khi các mẫu phổ biến
(frequent pattern) dài (có từ 15 đến 20 items ) thì tập FI ,thậm chí cả tập FCI
trở nên rất lớn và hầu hết các phương pháp truyền thống phải đếm quá
nhiều tập mục mới có thể thực hiện được. Các thuật toán dựa trên thuật
toán Apriori - đếm tất cả 2

k
tập con của mỗi k- itemsets mà chúng quét qua,
và do đó không thích hợp với các itemsets dài được. Các phương pháp khác
sử dụng “ lookaheads ” để giảm số lượng tập mục được đếm. Tuy nhiên, hầu
hết các thuật toán này đều sử dụng tìm kiếm theo chiều rộng, ví dụ: tìm tất cả
các k – itemsets trước khi tính đến các (k+1) – itemsets . Cách làm này làm
HVTH: Nguyễn Siêu Đẳng Trang 13
Báo cáo chuyên đề: Khai phá dữ liệu GVHD: GS.TS Đỗ Phúc
hạn chế hiệu quả của lookaheads, vì các mẫu phổ biến dài hơn mà hữu ích
vẫn chưa được tìm ra
II.2. Các hướng nghiên cứu trong khai phá luật kết hợp
Lĩnh vực khai phá luật kết hợp cho đến nay đã được nghiên cứu và phát
triển theo nhiều hướng khác nhau. Có những đề xuất nhằm cải tiến thuật
toán , có đề xuất tìm kiếm những luật có ý nghĩa hơn,…và có một số hướng
chính sau đây :
- Luật kết hợp nhị phân (binary association rule ): là hướng nghiên
cứu đầu tiên của luật kết hợp. Theo dạng luật kết hợp này thì các
items chỉ được quan tâm là có hay không xuất hiện trong cơ sở dữ liệu
giao tác ( Transaction database ) chứ không quan tâm về mức độ hay
tần xuất xuất hiện. Thuật toán tiêu biểu nhất của khai phá dạng luật
này là thuật toán Apriori .
- Luật kết hợp có thuộc tính số và thuộc tính hạng mục
( quantitative and categorial association rule ): các cơ sở dữ liệu thực
tế thường có các thuộc tính đa dạng (như nhị phân , số , mục
( categorial )….)chứ không nhất quán ở một dạng nào cả. Vì vậy để
khai phá luật kết hợp với các cơ sở dữ liệu này, các nhà nghiên cứu đề
xuất một số phương pháp rời rạc hoá nhằm chuyển dạng luật này vê
dạng nhị phân để có thể áp dụng các thuật toán đã có.
- Luật kết hợp tiếp cận theo hướng tập thô ( mining association
rules base on rough set ): tìm kiếm luật kết hợp dựa trên lí thuyết tập

thô.
- Luật kết hợp nhiều mức ( multi-level association rules ): với cách
tiếp cận luật kết hợp thế này sẽ tìm kiếm thêm những luật có dạng :
mua máy tính PC

mua hệ điều hành Window AND mua phần mềm
văn phòng Microsoft Office,…
- Luật kết hợp mờ (fuzzy association rules ): Với những khó khăn gặp
phải khi rời rạc hoá các thuộc tính số , các nhà nghiên cứu đề xuất
luật kết hợp mờ khắc phục hạn chế đó và chuyển luật kết hợp về một
dạng gần gũi hơn.
- Luật kết hợp với thuộc tính được đánh trọng số( association rule
with weighted items ): Các thuộc tính trong cơ sở dữ liệu thường
không có vai trò như nhau. Có một số thuộc tính quan trọng và được
chú trọng hơn các thuộc tính khác. Vì vậy trong quá trình tìm kiếm
luật các thuộc tính được đánh trọng số theo mức độ xác định nào đó.
HVTH: Nguyễn Siêu Đẳng Trang 14
Báo cáo chuyên đề: Khai phá dữ liệu GVHD: GS.TS Đỗ Phúc
Nhờ vậy ta thu được những luật “ hiếm ” (tức là có độ hỗ trợ
thấp nhưng mang nhiều ý nghĩa ).
- Khai thác luật kết hợp song song (parallel mining of association
rule ). Nhu cầu song song hoá và xử lí phân tán là cần thiết vì kích
thước dữ liệu ngày càng lớn nên đòi hỏi tốc độ xử lí phải được đảm
bảo.
- Ngoài ra, còn một số hướng nghiên cứu khác về khai phá luật kết hợp
như: khai phá luật kết hợp trực tuyến [AY98], khai phá luật kết hợp
được kết nối trực tuyến đến các kho dữ liệu đa chiều
(multidimensional data, data warehouse) thông qua công nghệ OLAP
(Online Analysis Processing), MOLAP (Multidimensional OLAP),
ROLAP (Relational OLAP), ADO (ActiveX Data Object) for OLAP,…

Trên đây là những biến thể của khai phá luật kết hợp cho phép ta tìm
kiếm luật kết hợp một cách linh hoạt trong những cơ sở dữ liệu lớn. Bên cạnh
đó các nhà nghiên cứu còn chú trọng đề xuất các thuật toán nhằm tăng tốc
quá trình tìm kiếm luật kết hợp trong cơ sở dữ liệu.
HVTH: Nguyễn Siêu Đẳng Trang 15
Báo cáo chuyên đề: Khai phá dữ liệu GVHD: GS.TS Đỗ Phúc
PHẦN III: KHAI PHÁ LUẬT KẾT HỢP VỚI MICROSOFT ASSOCIATION
RULES

Khai phá luật kết hợp là kỹ thuật rất quan trọng trong lĩnh vực khai phá
dữ liệu. Mục đích của việc khai phá luật kết hợp là tìm ra các mối quan hệ, sự
kết hợp hay mối tương quan giữa các đối tượng trong khối lượng lớn dữ liệu.
Bài viết này giới thiệu công cụ Microsoft Association Rules trong việc xây
dựng mô hình phát hiện luật kết hợp.
III.1. Mô tả dữ liệu sử dụng trong mô hình:
Dữ liệu dùng để xây dựng mô hình phát hiện luật kết hợp là kho dữ liệu
AdventureWorksDW của công ty sản xuất xe đạp Adventure Works. Mô hình
sử dụng 2 view chứa dữ liệu về bán hàng (xe đạp) của công ty là
vAssocSeqOrders và vAssocSeqLineItems. Cấu trúc 2 views như sau:
vAssocSeqOrders
vAssocSeqLineItems
HVTH: Nguyễn Siêu Đẳng Trang 16
Báo cáo chuyên đề: Khai phá dữ liệu GVHD: GS.TS Đỗ Phúc
Cũng như qui trình xây dựng các Data Mining Model khác, qui trình xây
dựng mô hình khai phá luật kết hợp theo 3 bước sau:
- Tạo một Mining Model structure.
- Hiệu chỉnh model.
- Khai phá dữ liệu từ Model.
III.2. Tạo một Mining Model structure
Trước tiên, tạo một Analysis Services Project với tên “Association Rule

Model” và tạo kết nối dữ liệu, tạo một Data Source và Data Source view gồm
dữ liệu là 2 views là vAssocSeqOrders và vAssocSeqLineItems
Màn hình Mining Models:
Hiệu chỉnh tham số cho mô hình:

Trong cửa sổ Mining Models, bấm phím phải chuột vào
Microsoft_Association_Rules và chọn Set Algorithm Parameters và thiết lập
HVTH: Nguyễn Siêu Đẳng Trang 17
Báo cáo chuyên đề: Khai phá dữ liệu GVHD: GS.TS Đỗ Phúc
giá trị 2 tham số MINIMUM_PROBABILITY là 0.1 và MINIMUM_SUPPORT là
0.01 như sau:

III.3. Khám phá Mining Models
Kết quả của Microsoft Association Rules thể hiện trong Tab Mining
Models Viewer bởi 3 nội dung chính là Itemsets, Rules, và Dependency Net
- Itemsets: Itemsets cho biết các thông tin quan trọng của luật kết hợp
như Support (độ hỗ trợ của luật kết hợp), Size (Số items trong
Itemsets). Để hiển thị các Itemsets có chứa một item nào đó (ví dụ
mẫu xe Mountain-200) thì nhập Mountain-200 trong ô Filter Itemset.
HVTH: Nguyễn Siêu Đẳng Trang 18
Báo cáo chuyên đề: Khai phá dữ liệu GVHD: GS.TS Đỗ Phúc
Hình trên với Itemsets có Support là 710 gồm 2 items đó là Mountain-
200 và Sport-100 có nghĩa là trong tất cả các giao dịch thì có 710 giao dịch
trong đó khách hàng mua loại xe Mountain-200 thì cũng mua loại xe Sport-
100.
- Rules Tab: Phần này trình bày các luật kết hợp được phát hiện bởi mô hình.
Các thông tin về luật kết hợp bao gồm:
o Probability: Cho biết xác suất xảy ra của luật.
o Importance: Đo lường tính hữu dụng của luật, giá trị này càng
cao thì luật kết hợp càng tốt.

o Rules: Phần này thể hiện các luật kết hợp dạng x==>Y.

Các luật này cho biết sự kết hợp giữa các items trong cở sở dữ liệu giao
dịch. Chẳn hạn luật kết hợp thứ 2 cho bạn biết rằng nếu một khách hàng nào
đó mua các sản phẩm là xe đẹp model Mountain-200 và Water Bottle thì
người đó luôn mua sản phẩm Mountain Bottle Cage với xác suất 100%.
- Dependency Net (Mạng phụ thuộc):
o Sử dụng Dependency Net cho phép bạn hiểu được sự tác động
của các items khác nhau trong Model. Mỗi Node trong
HVTH: Nguyễn Siêu Đẳng Trang 19
Báo cáo chuyên đề: Khai phá dữ liệu GVHD: GS.TS Đỗ Phúc
Dependency Net thể hiện một Item, bằng cách chọn một item
bạn sẽ thấy được các items khác được xác định bởi Item đã
chọn (hoặc dùng để xác định Item đã chọn) trong model.
o Trong Dependency Net, nếu chọn Node Mountain bottle Cage
ta sẽ thấy rằng Item Mountain bottle Cage có thể được dự đoán
bởi 2 items khác đó là water bottle và Mountain-200 hoặc
Mountain bottle Cage được dùng để dự đoán 2 Items water
bottle và Mountain-200 (Dấu mũi tên 2 chiều, xem hình dưới).
HVTH: Nguyễn Siêu Đẳng Trang 20
Báo cáo chuyên đề: Khai phá dữ liệu GVHD: GS.TS Đỗ Phúc
HVTH: Nguyễn Siêu Đẳng Trang 21
Báo cáo chuyên đề: Khai phá dữ liệu GVHD: GS.TS Đỗ Phúc
KẾT LUẬN

Khai phá dữ liệu là quá trình trích xuất các thông tin có giá trị tiềm ẩn
trong những kho dữ liệu, là một khâu trong quá trình Khám phá tri thức
trong cơ sở dữ liệu. Các khâu trong Khám phá tri thức trong cơ sở dữ liệu
gồm:
- Làm sạch dữ liệu (Data cleaning ): loại bỏ dữ liệu nhiễu hoặc dữ liệu

không thích hợp.
- Tích hợp dữ liệu (Data Integration ): Tích hợp dữ liệu từ các nguồn
khác nhau.
- Chọn dữ liệu (Data Selection ) : Chọn những dữ liệu liên quan trực
tiếp đến nhiệm vụ.
- Chuyển đổi dữ liệu (Data Transformation ): chuyển dữ liệu về những
dạng phù hợp cho việc khai phá.
- Khai phá dữ liệu (Data mining ): Các kĩ thuật được áp dụng để trích
xuất thông tin có ích hoặc các mẫu điền hình trong dữ liệu.
- Đánh giá mẫu (Pattern evaluation ): Đánh giá mẫu hoặc tri thức đã
thu được.
- Trình diễn dữ liệu (Knowledge Presentation ):Biểu diễn những tri thức
khai phá được cho người sử dụng.
Phân tích luật kết hợp là một trong những phương pháp của Data
mining. Nhiệm vụ của phương pháp này là phân tích dữ liệu trong cơ sở dữ
liệu nhằm phát hiện và đưa ra những mối liên hệ giữa các giá trị dữ liệu. Đó
chính là tập các luật kết hợp. Luật kết hợp tuy khá đơn giản nhưng những
thông tin mà luật đem lại là rất đáng kể và hỗ trợ không nhỏ trong quá trình
ra quyết định. Tìm kiếm được các luật và mang nhiều thông tin từ Cơ sở dữ
liệu tác nghiệp ( Transactional database ) là một trong những hướng tiếp
cận chính trong Khai phá dữ liệu ( Data mining ).
Tiểu luận đã tìm hiểu và thực hiện khai phá luật kết hợp với Microsoft
Association Rules trong việc xây dựng mô hình phát hiện luật kết hợp: Mô tả
dữ liệu sử dụng trong mô hình; Tạo một Mining Model structure; và Khám
phá Mining Models.
HVTH: Nguyễn Siêu Đẳng Trang 22
Báo cáo chuyên đề: Khai phá dữ liệu GVHD: GS.TS Đỗ Phúc
TÀI LIỆU THAM KHẢO

[1] PGS.TS Đỗ Phúc, Tài liệu giảng dạy chuyên đề Khai phá dữ liệu và kho dữ

liệu, 2007-2011.
[2] PGS.TS.Đỗ Phúc, Giáo trình KHAI THÁC DỮ LIỆU Data Mining, NXB Đại
Học Quốc Gia TP HCM, 2009.
[3] R. Agrawal, R. Srikant, Fast algorithms for mining association rules, in:
Proceedings of the 20th International Conference on Very Large Data
Bases, 1994, pp. 487–499.
[4] Attila Gyenesei. A Fuzzy Approach for Mining Quantitative Association
Rules. Turku Centre for Computer Science, TUCS Technical Reports, No
336, March 2000.
[5] - Microsoft Association Rules.
HVTH: Nguyễn Siêu Đẳng Trang 23

×