NGHIÊN CỨU TÍNH ỨNG DỤNG CỦA KHAI THÁC
LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU GIAO DỊCH
RESEARCH ON THE APPLICATION OF ASSOCIATION RULES IN
TRANSACTION DATABASE
TRƯƠNG NGỌC CHÂU – PHAN VĂN DŨNG
Trường Đại học Bách Khoa, Đại học Đà Nẵng
TÓM TẮT
Hiện tại, đã có một số ứng dụng kết quả của việc khai thác luật kết hợp trong cơ sở dữ liệu. Tuy nhiên,
chưa có nhiều nghiên cứu nói lên tính ứng dụng của nó, các nghiên cứu chỉ mang tính đơn thể, tự phát
và chưa có một giải pháp tổng quát nào vì phạm vi sử dụng kết quả của việc khai thác là rất đa dạng và
phong phú. Trong bài báo này, chúng tôi đề xuất một giải pháp tổng quát cho tính ứng dụng của việc
khai thác luật kết hợp trong cơ sở dữ liệu giao dịch.
ABSTRACT
Currently, there have been application results of the utilization of the association rules in database.
However, there have not been many studies on the practical applications because they are isolated and
fail to put forward the overall solutions due to the diverse application areas of the research results. In
this research, we propose a particular solution to utilize the association rules in transaction database.
1. Đặt vấn đề
Trong kỹ nguyên Internet, Intranets, Warehouses, đã mở ra nhiều cơ hội cho những
nhà doanh nghiệp trong việc thu thập và xử lý thông tin. Hơn nữa, các công nghệ lưu trữ và
phục hồi dữ liệu phát triển một cách nhanh chóng vì thế cơ sở dữ liệu ở các cơ quan, doanh
nghiệp, đơn vị ngày càng nhiều thông tin tiềm ẩn phong phú và đa dạng.
Cơ sở dữ liệu trong các doanh nghiệp thì dữ liệu giao dịch đóng một vai trò rất quan
trọng cho việc hoạch định kế hoạch kinh doanh trên thương trường vào những năm tiếp theo.
Hiện tại, việc sử dụng các dữ liệu này tuy đã đạt được một số kết quả nhất định song vẫn còn
một số vấn đề tồn đọng như:
1. Dựa hoàn toàn vào dữ liệu, không sử dụng tri thức có sẳn về lĩnh vực, kết quả phân
tích khó có thể làm rõ được.
2. Phải có sự hướng dẫn của người dùng để xác định phân tích dữ liệu như thế nào
và ở đâu.
Trong điều kiện và yêu cầu của thương trường, đòi hỏi phải có những phương pháp
nhanh, phù hợp, tự động, chính xác và có hiệu quả để lấy được thông tin có giá trị. Các tri thức
chiết xuất được từ cơ sở dữ liệu trên sẽ là một nguồn tài liệu hỗ trợ cho lãnh đạo trong việc lên
kế hoạch hoạt động hoặc trong việc ra quyết định sản xuất kinh doanh. Vì vậy, tính ứng dụng
của khai thác luật kết hợp từ cơ sở dữ liệu giao dịch là một vấn đề đang được quan tâm đặc
biệt trong bài viết này.
Mục đích của việc nghiên cứu là xây dựng một giải pháp hiệu quả tính ứng dụng luật
kết hợp trong việc ra quyết định của cơ quan doanh nghiệp dựa trên cơ sở dữ liệu giao dịch.
2. Khai phá dữ liệu
Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập kỹ 1980. Nó là
quá trình khám phá thông tin ẩn được tìm thấy trong các cơ sở dữ liệu và có thể xem như là
một bước trong quá trình khám phá tri thức. Data Mining là giai đoạn quan trọng nhất trong
tiến trình khai phá tri thức từ cơ sở dữ liệu, các tri thức này hỗ trợ trong việc ra quyết định
trong khoa học và kinh doanh.
Để hình dung vấn đề này ta có thể sử dụng một ví dụ đơn giản như sau: Khai phá dữ
liệu được ví như tìm một cây kim trong đống cỏ khô. Trong ví dụ này, cây kim là một mảnh
nhỏ tri thức hoặc một thông tin có giá trị và đống cỏ khô là một kho cơ sở dữ liệu rộng lớn.
Như vậy, những thông tin có giá trị tiềm ẩn trong kho cơ sở dữ liệu sẽ được chiết xuất ra và sử
dụng một cách hữu ích nhờ khai phá dữ liệu. Chức năng khai phá dữ liệu gồm có gộp nhóm
phân loại, dự báo, dự đoán và phân tích các liên kết. Năm 1989 Fayyad, Smyth và PiatestskyShapiro đã dùng khái niệm Phát hiện tri thức từ cơ sở dữ liệu (Knowledge Discovery in
Database-KDD). Trong đó, khai phá dữ liệu là một giai đoạn rất đặc biệt trong toàn bộ quá
trình, nó sử dụng các kỹ thuật để tìm ra các mẫu từ dữ liệu.
Quá trình khai phá dữ liệu sẽ tiến hành qua 6 giai đoạn như hình 1[8]:
Envalution of
Data Mining
Transformati
Cleansing Preprocessing
Knowledge
Pattern
Discovery
Selection
Transformed
Data
Gathering
Internet,..
.
Target
Data
Cleansed
Preprocessed
Preparated
Data
Hình 1. Quá trình khai phá dữ liệu
Bắt đầu của quá trình là kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra. Về lý
thuyết thì có vẽ rất đơn giản nhưng thực sự đây là một quá trình rất khó khăn gặp phải rất
nhiều vướng mắc như: quản lý các tập dữ liệu, phải lặp đi lặp lại toàn bộ quá trình,.v.v.
2.1 Gom dữ liệu (Gathering)
Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu. Đây là bước được khai
thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng
Web.
2.2 Trích lọc dữ liệu (Selection)
Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn nào đó, ví
dụ chọn tất cả những người có tuổi đời từ 25 – 35 và có trình độ đại học.
2.3 Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu (Cleansing, Pre-processing and
Preparation)
Giai đoan thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nó là một bước rất quan
trọng trong quá trình khai phá dữ liệu. Một số lỗi thường mắc phải trong khi gom dữ liệu là
tính không đủ chặt chẻ, logíc. Vì vậy, dữ liệu thường chứa các giá trị vô nghĩa và không có
khả năng kết nối dữ liệu. Ví dụ: tuổi = 673. Giai đoạn này sẽ tiến hành xử lý những dạng dữ
liệu không chặt chẽ nói trên. Những dữ liệu dạng này được xem như thông tin dư thừa, không
có giá trị. Bởi vậy, đây là một quá trình rất quan trọng vì dữ liệu này nếu không được “làm
sạch - tiền xử lý - chuẩn bị trước” thì sẽ gây nên những kết quả sai lệch nghiêm trọng.
2.4 Chuyển đổi dữ liệu (Transformation)
Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra có thể sử dụng và điều khiển
được bởi việc tổ chức lại nó. Dữ liệu đã được chuyển đổi phù hợp với mục đích khai thác.
2.5 Phát hiện và trích mẫu dữ liệu (Pattern Extraction and Discovery)
Đây là bước mang tính tư duy trong khai phá dữ liệu. Ở giai đoạn này nhiều thuật toán
khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu. Thuật toán thường dùng là nguyên
tắc phân loại, nguyên tắc kết hợp hoặc các mô hình dữ liệu tuần tự,. v.v.
2.6 Đánh giá kết quả mẫu (Evaluation of Result)
Đây là giai đoạn cuối trong quá trình khai phá dữ liệu. Ở giai đoạn này, các mẫu dữ liệu
được chiết xuất ra bởi phần mềm khai phá dữ liệu. Không phải bất cứ mẫu dữ liệu nào cũng
đều hữu ích, đôi khi nó còn bị sai lệch. Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá để
chiết xuất ra các tri thức (Knowlege) cần chiết xuất ra.
Trên đây là 6 giai đoạn trong quá trình khai phá dữ liệu, trong đó giai đoạn 5 là giai đoạn
được quan tâm nhiều nhất hay còn gọi đó là Data Mining.
3. Luật kết hợp trong cơ sở dữ liệu – tính ứng dụng
3.1 Luật kết hợp trong cơ sở dữ liệu
Gọi I = {I1, I2,..., Im} là tập m thuộc tính riêng biệt, mỗi thuộc tính gọi là một mục. Gọi
D là một cơ sở dữ liệu, trong đó mỗi bản ghi T là một giao dịch và chứa các tập mục, T I.
Định nghĩa 1: Một luật kết hợp là một quan hệ có dạng X Y, trong đó X, Y I là các tập
mục gọi là itemsets, và X Y . Ở đây, X được gọi là tiền đề, Y là mệnh đề kết quả.
Hai thông số quan trọng của luật kết hợp là độ hỗ trợ (s) và độ tin cậy (c).
Định nghĩa 2: Độ hỗ trợ (support) của luật kết hợp X Y là tỷ lệ phần trăm các bản ghi
X Y với tổng số các giao dịch có trong cơ sở dữ liệu.
Định nghĩa 3: Đối với một số giao dịch được đưa ra, độ tin cậy (confidence) là tỷ lệ của số
giao dịch có chứa X Y với số giao dịch có chứa X. Đơn vị tính %.
Việc khai thác các luật kết hợp từ cơ sở dữ liệu chính là việc tìm tất cả các luật có độ hỗ trợ
và độ tin cậy lớn hơn ngưỡng của độ hỗ trợ và độ tin cậy do người sử dụng xác định trước.
Các ngưỡng của độ hỗ trợ và độ tin cậy được ký hiệu là minsup và mincof.
Việc khai thác các luật kết hợp có thể được phân tích thành hai vấn đề sau đây:
1. Tìm tất cả các tập mục thường xuyên xảy ra mà có độ hỗ trợ lớn hơn hoặc bằng minsup.
2. Tạo ra các luật mong muốn sử dụng các tập mục lớn mà có độ tin cậy lớn hơn hoặc bằng
mincof. [1]
3.2 Tính ứng dụng
Luật kết hợp có ứng dụng trong nhiều lĩnh vực khác nhau của đời sống như: khoa học,
hoạt động kinh doanh, tiếp thị, thương mại, phân tích thị trường chứng khoán, tài chính và
đầu tư,... Ứng dụng luật kết hợp phải chỉ rõ các đặc điểm về: nguồn gốc, điều kiện áp dụng,
phạm vi ứng dụng, mục đích ứng dụng. Những đặc điểm này được thể hiện bằng mô hình sau:
Yêu cầu
sử dụng
Tham chiếu
tập luật R
Lựa chọn
luật
Ứng dụng
Hình 2. Mô hình ứng dụng luật
Trong đó:
- Yêu cầu sử dụng là phạm vi tính ứng dụng của tập luật ví dụ như về khoa học,
kinh doanh, tiếp thị, thương mại, phân tích thi trường chứng khoán,..v.v.
Tham chiếu đến tập luật R, ở giai đoạn này các tập luật được tham chiếu tại đây là
các tập luật được sinh ra từ cơ sở dữ liệu chứa tác nhân yêu cầu sử dụng.
- Lựa chọn luật, ở bước này chúng ta tiến hành lọc các luật hữu ích nhất phục vụ
cho phạm vi sử dụng.
- Ứng dụng, đây là kết quả mong đợi nhất từ khi bắt đầu khai thác cho đến khi thi
hành luật.
Mô hình ứng dụng luật đã làm sáng tỏ tính ứng dụng của việc khai thác luật kết hợp
trong cơ sở dữ liệu.
Thực tế, ứng dụng của khai thác luật kết hợp trong cơ sở dữ liệu giao dịch là một
phạm trù của DataMining nên ứng dụng của nó rất rộng lớn, nhất là trong sự phát triển của xã
hội hiện nay.
Tóm lại, tính ứng dụng của khai thác luật kết hợp trong cơ sở dữ liệu giao dịch là việc
ứng dụng các tập luật tìm thấy trong đó nhằm vào những mục đích cụ thể và đạt được kết quả
tốt.
4. Phát triển giải pháp hiệu quả tính ứng dụng
Để phát triển giải pháp hiệu quả tính ứng dụng trong cơ sở dữ liệu giao dịch thì trước hết
chúng ta phải phát triển giải pháp hiệu quả trong khai thác luật kết hợp. Thực vậy, ứng dụng
có kết quả tốt chỉ khi luật khai thác được có giá trị và vận dụng thi hành đúng mục đích.
4.1 Phát triển giải pháp hiệu quả trong khai thác luật kết hợp
a. Bài toán luật kết hợp
Cho một tập các giá trị I, một cơ sở dữ liệu giao dịch D, ngưỡng độ hỗ trợ tối thiểu
minsup, ngưỡng độ tin cậy mincof, tìm các luật kết hợp dạng X Y trên D thoả mãn điều
kiện Support(X Y) >= minsup và Confidence(X Y) >= mincof.
b. Tiến trình khai thác luật kết hợp
Xác định các tập mục lớn Việc xác định các tập mục lớn gồm có hai bước chính sau
đây:
- Xác định các tập ứng cử viên (Ck).
- Xác định các tập mục lớn (L) dựa vào tập ứng cử viên
Để xác định tập ứng cử viên, ta thực hiện các bước sau đây:
- Tìm các tập ứng cử viên một mục.
- Quét CSDL D để xác định độ hỗ trợ của các tập ứng cử viên. Trong vòng đầu tiên, các
tập ứng cử viên cũng chính là tất cả các mục có trong CSDL. Tại vòng thứ k (k>1), các
tập ứng cử viên được xác định dựa vào các tập mục lớn đã xác định tại vòng k – 1, sử
dụng hàm Apriori-gen() [2,3,7]. Sau khi đã xác định được các tập ứng cử viên, thuật toán
quét từng giao dịch trong CSDL để tính độ hỗ trợ của các tập ứng cử viên. Quá trình xác
định các tập mục sẽ kết thúc khi không xác định được thêm tập mục lớn nào nữa.
Nội dung hàm Apriori-gen().
Hàm Apriori-gen() thực hiện hai bước [2]:
- Bước đầu tiên, Lk – 1 được kết nối với chính nó thu được Ck.
- Bước thứ hai, Apriori_gen() xoá tất cả các tập mục từ kết quả kết nối mà có một số tập
con (k – 1) không có trong Lk – 1. Sau đó nó trả về tập mục lớn kích thước k còn lại.
Sinh các luật kết hợp từ tập mục lớn:
Việc phát hiện các tập mục lớn là rất tốn kém về mặt tính toán. Tuy nhiên, ngay khi
tìm được tất cả các tập mục lớn (l L), ta có thể dễ dàng sinh ra các luật kết hợp có thể
có bằng các bước như sau:
- Tìm tất cả các tập con không rỗng x, của tập mục lớn l L.
- Với mỗi tập con x tìm được, ta xuất ra luật dạng x (l - x) nếu tỷ lệ
Support(l)/Support(x)>= mincof ( %).
-
Thủ tục sinh ra các tập con.
Đầu vào:
Tập mục lớn Lk
Đầu ra:
Tập luật thoả mãn điều kiện độ tin cậy >=mincof và độ hỗ trợ >=minsup
Phương pháp:
Forall Lk, k>=2 do
Call Genrules(Lk, Lk);
Procedure Genrules(Lk: large k-itemset, am: large m-itemset)
A={(m-1)-itemset am-1| am-1 am}
Forall am-1 A do begin
Conf = Support(Lk)/Support(am-1)
If (Conf >= mincof) then begin
Output the rule am-1(Lk – am-1)
với confidence = mincof and support = support(Lk)
If
(m-1>1) then Call Genrules(Lk,am-1);
End;
End;
c. Giải pháp hiệu quả
Trong các phần trên, đã trình bày tiến trình cơ bản để khai thác các luật kết hợp trong
CSDL, song vấn đề cần phải quan tâm nghiên cứu là tăng hiệu quả của thuật toán trong
trường hợp: “ Số lượng tập ứng cử viên được tìm thấy là rất lớn”
Trong phạm vi nghiên cứu của bài này, sẽ đưa ra một giải pháp mới để giải quyết vấn
đề đã nêu.
Tỉa các ứng cử viên: Việc tỉa các ứng cử viên nhằm mục đích bỏ đi các tập ứng cử
viên không cần thiết, rút gọn số lượng của tập các tập ứng cử viên. Sau đây, sẽ trình bày kỹ
thuật “tỉa” các ứng cử viên không cần thiết.
Kỹ thuật này có tinh chất: Các mục trong tập ứng cử viên được sắp xếp theo thứ tự.
Nội dung kỹ thuật:
Forall itesets c Ck do
Forall (k – 1)–subsets s of c do
If (s Lk – 1) then
Delete c from Ck
Dựa vào đây, ta có thể tỉa được các tập ứng cử viên, từ đó có thể giới hạn miền tìm
kiếm của nó trên tất cả các tập mục.
4.2 Phát triển giải pháp hiệu quả tính ứng dụng
Trong phần 4.1, đã trình bày tiến trình khai phá luật kết hợp và giải pháp hiệu quả cho
việc tạo ra các luật kết hợp. Tuy đã giảm được một số lượng rất lớn các luật không mong
muốn, song một vấn đề nẩy sinh vẫn phải tiếp tục nghiên cứu nhằm tăng hiệu quả sử dụng kết
quả khai thác đó là:
1. Khi tồn tại tập luật dạng X Y có độ tin cậy (ck) thì luôn tồn tại tập luật dạng Y X có độ
tin cậy (ck+1). Như vậy, luật dạng Y X thường không cần thiết vì người sử dụng đã ngầm
hiểu.
2. Cách thức vận dụng tập luật chưa rõ.[4,5,6]
Trong phạm vi nghiên cứu này, chúng tôi đưa ra một giải pháp mới để giải quyết hai
vấn đề nêu trên.
a. Tỉa tập luật dạng Y X
Việc tỉa các tập luật dạng Y X nhằm mục đích bỏ đi các luật không có giá tri hoặc
người sử dụng đã biết trước luật đó, đồng thời rút gọn được các tập luật. Kỹ thuật tỉa này sử
dụng độ tin cậy của tập luật tìm thấy.
Kết quả khai thác sinh ra tập luật thường được lưu trữ vào một cơ sở dữ liệu nào đó như
Access, Excel, Paradox, v.v. Kỹ thuật tỉa nhằm loại bỏ các tập luật có độ tin cậy ck+1 < ck.
Nội dung kỹ thuật:
Forall rulsets r Ri do
If ck < ck-1 then
Delete r from Ri
Căn cứ vào đây, chúng ta có thể tỉa các tập luật không mong muốn để giới hạn phạm vi
tìm kiếm các tập luật nhằm tăng tính ứng dụng của nó một cách nhanh chóng trên những
phạm vi ứng dụng khác nhau.
b. Tối ưu hoá tính ứng dụng tập luật
Để tối ưu hoá tính ứng dụng các tập luật (Ri), trình tự ứng dụng luật có thể mô tả theo các
bước cơ bản như hình vẽ 3.
1 Nhận và phân loại
tập luật
2 Xác nhận tính
3 Vận dụng thi hành
chất luật
kết quả
Hình 3. Các bước cơ bản của ứng dụng luật.
Bước 1 “Nhận và phân loại tập luật” sẽ lấy kết quả của quá trình khai thác luật kết hợp từ
cơ sở dữ liệu giao dịch sau khi đã loại bỏ những luật không có giá trị, đồng thời tiến hành
phân loại các luật này theo chủ đề (luật một mục, luật hai mục,...) và lưu vào cơ sở dữ liệu.
Bước 2 “Xác định tính chất luật”, sau khi đã phân loại luật ta tiến hành xác định tính chất
luật. Việc xác định này sẽ làm rõ mục đích ứng dụng luật trong giao dịch.
Bước 3 “Vận dụng thi hành kết quả” cho ta biết cách thức thi hành luật trong giao dịch để
kết hợp giữa mục nào sẽ thu được kết quả tốt. Bước này, nói lên ý nghĩa kết hợp các mục trên
giao dịch có tính quan trọng như thế nào khi thực thi một kế hoạch hoạt động nào đó.
Như vậy, mô hình các bước cơ bản của ứng dụng luật góp phần không nhỏ trong khi
sử dụng luật nhằm giảm thời gian tìm kiếm và tăng khả năng thi hành luật. Việc xác định tính
chất luật có tính quyết định hình thành kết hợp tập mục trong mỗi giao dịch. Vì thế, khai thác
luật kết hợp được ứng dụng rất thành công trong cơ sở dữ liệu giao dịch.
Một giải pháp mô phỏng việc tinh lọc, xem xét đặc điểm luật phục vụ cho ứng dụng
được nghiên cứu và phản ảnh trong hình 4.
Trong vòng lặp đầu tiên (k=n),
tập luật được xác định tính chất là tập
luật thứ n trong R (toàn bộ tập luật).
Nội dung xác định tập luật gồm: “tiền
đề”, “kết luận”, “độ tin cậy”, “độ hỗ
trợ”. Tiếp theo kiểm tra tính chất luật
này. Nếu luật kiểm tra thoả mãn
chuẩn đề ra thì ghi nhận đặc tính sử
dụng cho nó, ngược lại xoá luật ri ra
khỏi R, lưu kết quả và thực hiện vòng
lặp tiếp theo. Giải pháp kết thúc khi
đã kiểm tra xong toàn bộ tập luật R.
(k=0).
Ghi nhận tính chất ứng dụng là
một bước rất quan trọng quyết định
tối ưu tính ứng dụng. Vì thế, trong
bước này sẽ được xây dựng các
“Chuẩn” đánh giá nghiêm ngặt.
Chuẩn này dựa trên những nguyên
tắc riêng, nhất định của phạm vi ứng
dụng luật. Các hàm chuẩn này sẽ
được tiến hành cài đặt và thử nghiệm
trong môi trường cơ sở dữ liệu giao
dịch.
Bắt đầu
k=n
Sai
k>0
Đúng
Xác định tính chất mỗi
luật trong toàn bộ tập luật
Xem xét
tính chất
Không TM
Tỉa bỏ
luật ri
Thoả mãn(TM)
Ghi nhận tính
chất ứng dụng
k=k-1
Kết thúc
Hình 4. Lưu đồ giải pháp mô phỏng xác nhận đặc điểm luật
Kết quả giải pháp sẽ tăng tính ứng dụng của luật trong cơ sở dữ liệu giao dịch. Tập
luật đã được xác nhận đặc tính sẽ có tính ứng dụng linh hoạt, chủ động hơn khi ứng dụng.
Như vậy, tính ứng dụng của khai thác luật kết hợp trong cơ sở dữ liệu giao dịch đề cập
đến phạm vi ứng dụng luật kết hợp trên các giao dịch là rất quan trọng. Khai thác mối quan hệ
giữa các mục trong phiên giao dịch sẽ là hữu ích khi chúng ta tiến hành khai thác một cách có
thứ tự, có mục đích rõ ràng. Giải pháp này góp phần chỉ rõ hơn những thông tin có trong các
phiên giao dich để từ đó giúp cho lãnh đạo có kế hoạch hoạt động, sản xuất kinh doanh trong
các năm tiếp theo. Tính ứng dụng của khai thác luật kết hợp trong cơ sở dữ liệu giao dịch giải
quyết tốt cách thức thi hành, ứng dụng thông tin quan trọng trên các phiên giao dịch. Dựa vào
tính ứng dụng này có thể có giải pháp tốt đối với nền kinh tế thị trường hiện tại cũng như
trong tương lai.
5. Ví dụ minh hoạ khai thác - Ứng dụng luật
Thực tế, hệ thống thu ngân tại Siêu Thị Đà Nẵng đã sử dụng công nghệ mã vạch để
thanh toán cho khách hàng. Dữ liệu giao dịch mỗi khách hàng được lưu trữ trong phần mềm
cơ sở dữ liệu của máy tính đặt tại các quầy thu ngân. Hiện nay dữ liệu này đã trở nên rất nhiều
qua các phiên giao dịch, việc sử dụng DataMining để khai phá các dữ liệu hiện có là một việc
rất cần thiết cho hoạt động kinh doanh trong Siêu Thị.
Như vậy, nhiệm vụ của khai thác dữ liệu là phải tìm được mối liên hệ giữa các mặt
hàng trong giao dịch đó. Mối quan hệ này có dạng X => Y, đây chính là các tri thức chiết xuất
được trong khi khai thác với độ hỗ trợ cho trước (minsupt), độ tin cậy cho trước (minconf).
Các tri thức chiết xuất được sẽ giúp cho hoạt động kinh doanh trong Siêu Thị được tốt hơn từ
đó có thể hoạch định kế hoạch sản xuất kinh doanh trong những năm tiếp theo. Bảng 1 trình
bày cơ sở dữ liệu các giao dịch tại quầy thu ngân của Siêu Thị.
Bảng 1. Cơ sở dữ liệu giao dịch
Sau khi đã xác định được các tập mục lớn và độ hỗ trợ, ta tiến hành sinh các luật kết
hợp bằng cách sử dụng thủ tục sinh các tập con của tập mục lớn. Các luật kết hợp thu được
trong trường hợp này bao gồm các luật dạng Y X như đã đề cập ở trên. Bảng 2 mô tả nội
dung toàn bộ tập luật khai thác được trong cơ sở dữ liệu giao dịch với minsup =10% và
mincof =30%. Các luật ở đây chỉ nói lên mối quan hệ giữa các mục trong các phiên giao dịch,
chứ chưa đề cập đến tính ứng dụng của nó. Bảng 2 sau đây trình bày nội dung tập luật thu
được trước khi tỉa.
Bảng 2. Nội dung tập luật thu được trước khi tỉa
Như vậy, kết quả khai thác cho thấy các luật thu được có dạng Y X và cách thức
vận dụng các luật nào là chưa rõ. Các tri thức chiết xuất dạng này thường không cần thiết và
gây nên lãng phí không gian nhớ. Ứng dụng giải pháp hiệu quả tính ứng dụng tỉa bỏ các luật
dạng Y X, kết quả thu được chỉ còn các luật dạng X Y thể hiện trong bảng 3. Các tri thức
thu được sau khi tỉa là các tri thức đáng tin cậy cho lãnh đạo.
Bảng 3. Nội dung tập luật thu được sau khi tỉa
Thực vậy, số lượng các luật thu được trong giải pháp này gồm các luật có giá trị cao.
Đây cũng chính là những tri thức chiết xuất được trong quá trình khai thác. Vấn đề đặt ra là
phải ứng dụng hiệu quả các luật này vào trong sản xuất kinh doanh cũng như cuộc sống dựa
vào đặc điểm và tính chất ứng dụng luật ứng với mỗi luật trong tập luật. Để giải quyết vấn đề
này ta sử dụng giải pháp tối ưu hoá tính ứng dụng luật.
Việc sử dụng hàm đánh giá để xem xét về tiền đề, kết quả của luật đạt được trong tập
luật, đây là một giai đoạn mang tính tư duy nhưng nó rất quan trọng khi ta ứng dụng trong
thực tế. Từ khi xác định đến khi ghi nhận tính ứng dụng cho mỗi luật đây là quá trình tốn kém
nhiều thời gian, song kết quả đạt được sẽ hữu ích cho lãnh đạo trong khi hoạch định kế hoạch
sản xuất, kinh doanh trong thời gian sắp tới.
Tính ứng dụng các tri thức chiết xuất được sẽ giúp cho lãnh đạo Siêu Thi trong việc bố
trí, sắp xếp, kinh doanh những mặt hàng nào tại các quầy nào, tổ chức sắp sếp các quầy gần
nhau như thế nào để có doanh thu trong các phiên giao dịch là lớn nhất. Ngoài ra, có thể áp
dụng tri thức này để dự đoán số lượng các mặt hàng được bán chạy nhất trong thời gian sắp
tới. Tổng hợp các tri thức này lãnh đạo có thể lên kế hoạch hoạt động, sản xuất, kinh doanh
một cách thuận tiên hơn nhằm giảm bớt thời gian thống kê, tìm hiểu thị trường,v.v...
Như vậy, tính ứng dụng của khai thác luật kết hợp trong cơ sở dữ liệu giao dịch đã giải
quyết được hai vấn đề tồn đọng đã nêu ở phần trên. Kết quả của khai thác sẽ được lưu trữ
trong các cơ sở dữ liệu tri thức để phục vụ cho mục đích xây dựng các hệ chuyên gia về sau
này.
6. Kết luận
Nội dung nghiên cứu trong đề tài, các tác giả đã đưa ra một giải pháp từ việc thu gom
dữ liệu trên các phiên giao dịch, trên thương trường,... rồi tiến hành khai thác xử lý chúng để
chiết xuất ra các tri thức cần thiết. Các tri thức cần thiết này lại được tối ưu hoá và đem vào sử
dụng một cách hiệu quả trên các phiên giao dịch trong những lần tiếp theo. Đề tài đã đi sâu
vào tính ứng dụng, đưa ra cách thức xử lý thi hành các tri thức được chiết xuất một cách hiệu
quả. Nghiên cứu này đã đưa ra một cách nhìn tổng quan về quy trình khai phá dữ liệu từ các
nguồn dữ liệu khác nhau đến việc ứng dụng các tri thức đã chiết xuất vào thực tế cuộc sống.
Một ví dụ minh hoạ ứng dụng đã làm rõ cách nhìn này.
Nghiên cứu thiên về tính ứng dụng trong cơ sở dữ liệu giao dịch, song việc nghiên cứu
sẽ được tiếp tục phát triển trên các cơ sở dữ liệu khác nhằm mục đích tìm ra một quy luật ứng
dụng cho các tri thức đã chiết xuất.
TÀI LIỆU THAM KHẢO
/>Rekesh Arawal, Ramakrishnan Srikant*; Fast Algorithms for Mining Association, IBM Almadem
Research Center 650 Harry Road, San Jose, CA 95120.
Rekesh Agrawal, Tomasz Imielinski, and Arun N.Swami; Mining Association Rules Between Sets
of Items in Large Databases, Proceedings of the 1993 ACM SIGMOD International Conference
on Management of Data, pp. 207-216, Washington, D.C., May 1993.
Ming-Syan Chen, Jiawei*, Philip S. Yu; Data Mining: An Overview from Database Perspective;
Elect. Eng. Department National Taiwan Univ. IBM T.J. Watson Res. Ctr. P.O.Box 704
Yorktown, NY 10598, U.S.A.
Anthony K.H. Tung1, Hongjun Lu2, Jiawei Han1, Ling Feng3; Breaking the Barrier of
Transactions: Mining Tnter-Transaction Association Rules; 1Simon Fraser University,
BritishvColumbia, Canada {khtung, han}@cs.sfu.ca; 2The Honh Kong University of Science an
Technology, Hong Kong, China, ; 3The Hong Kong Polytectnic University, Hong
Kong, China.
Karthich Rajamani, Alan Cox, Bala Iyer, Atul Chadla; Effcient Mining for Association Rules
with Relational Database Systems; Dept. of Elec. And Comp. Engg., Rice University,
; Dept of Computer Science, Rice University, ; IBM Santa Teresa
Labs ; IBM Santa Teresa Labs
Byung-Hoon Park and Hillol Kargupta; Distributed Data Mining: Algoriths, Sestems… –
Department of Computer Science and Electrical Engineering Universty of Margland Baltimore
County 1000 Hillol Cricle Baltimore, MD 21250.
Data Mining Algorithms Journal, 2002.