Một số thuật toán khai phá luật quyết định trên cơ sở dữ liệu di động

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.26 MB, 71 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ THU HƢƠNG

MỘT SỐ THUẬT TOÁN KHAI PHÁ LUẬT QUYẾT ĐỊNH
TRÊN CƠ SỞ DỮ LIỆU ĐỘNG

LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN

Hà Nội - 2014

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ THU HƢƠNG

MỘT SỐ THUẬT TOÁN KHAI PHÁ LUẬT QUYẾT ĐỊNH
TRÊN CƠ SỞ DỮ LIỆU ĐỘNG

Ngành: Công Nghệ Thông Tin
Chuyên ngành: Kỹ Thuật Phần Mềm
Mã số: 60480103

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC: GS. TS. VŨ ĐỨC THI

Hà Nội - 2014

1

LỜI CẢM ƠN
Trƣớc khi trình bày nội dung chính của luận văn, tôi xin bày tỏ lòng biết ơn sâu
sắc tới GS.TS Vũ Đức Thi – thầy giáo trực tiếp hƣớng dẫn và chỉ bảo tôi hoàn thành
luận văn này.
Tôi cũng xin bày tỏ lòng biết ơn chân thành tới toàn thể các thầy, cô giáo trong
khoa Công nghệ Thông tin -Trƣờng Đại học Công nghệ - Đại học Quốc gia Hà Nội đã
dạy bảo tôi tận tình trong suốt quá trình học tập tại khoa.
Tôi cũng xin chân thành cảm ơn Thầy giáo NCS. Nguyễn Thanh Tùng, các anh
em đồng nghiệp và gia đình đã giúp đỡ, tạo điều kiện cho tôi trong quá trình thực hiện
và hoàn thành luận văn này.
Học viên
Nguyễn Thị Thu Hƣơng

2

LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này hoàn toàn do tôi thực hiện, không sao chép của
ai. Các đoạn trích dẫn lý thuyết, các thuật toán đƣợc trình bày trong luận đều đƣợc dẫn
nguồn và có độ chính xác cao nhất trong phạm vi tìm hiểu của tôi.
Hà Nội, ngày 29 tháng 10 năm 2014
Học Viên

Nguyễn Thị Thu Hƣơng

3

MỤC LỤC

LỜI CẢM ƠN 1
LỜI CAM ĐOAN 2
MỤC LỤC 3
DANH MỤC CÁC KÝ HIỆU 5
DANH MỤC CÁC BẢNG 6
DANH MỤC CÁC HÌNH 7
MỞ ĐẦU 8
CHƢƠNG 1. CÁC KHÁI NIỆM CƠ BẢN 10
1.1. Khai phá dữ liệu là gì 10
1.2. Các khái niệm cơ bản của tập thô 12
1.2.1. Tập hợp 12
1.2.2. Hệ thống thông tin 13
1.2.3. Quan hệ bất khả phân 14
1.2.4. Tập xấp xỉ trên và xấp xỉ dƣới 15
1.2.5. Bảng quyết định 17
1.2.6. Luật quyết định 18
1.3. Khai phá luật quyết định dựa trên tập thô 20
1.4. Kết luận chƣơng 1 20
CHƢƠNG 2. THUẬT TOÁN TIẾP CẬN GIA TĂNG ĐỂ KHAI PHÁ LUẬT
QUYẾT ĐỊNH TRÊN CƠ SỞ DỮ LIỆU CÓ GIÁ TRỊ THUỘC TÍNH THAY ĐỔI
21
2.1. Định nghĩa về việc thay đổi giá trị thuộc tính 21
2.2. Mô hình tiếp cận gia tăng và thuật toán 22
2.2.1. Mô hình bài toán và kiến thức cơ sở tiếp cận thuật toán khi giá trị thuộc
tính thay đổi 22

2.2.2. Thuật toán tiếp cận gia tăng khi làm thô, làm mịn các giá trị thuộc tính 27
2.2.3. Đánh giá độ phức tạp theo thời gian của thuật toán 32
2.2.4. Ví dụ minh họa 34
2.3. Kết luận chƣơng 2 36
4

CHƢƠNG 3. THUẬT TOÁN TIẾP CẬN GIA TĂNG ĐỂ KHAI PHÁ LUẬT
QUYẾT ĐỊNH TRÊN CƠ SỞ DỮ LIỆU CÓ CÁC ĐỐI TƢỢNG THAY ĐỔI 37
3.1. Thuật toán tính toán gia tăng ma trận độ chính xác và độ phủ 37
3.1.1. Mô hình tiếp cận gia tăng 37
3.1.2. Các tình huống thực hiện mô hình 40
3.1.3. Thuật toán 42
3.1.4. Độ phức tạp tính toán 45
3.1.5. Ví dụ minh họa 47
3.2. Thuật toán tính toán gia tăng ma trận độ hỗ trợ 52
3.2.1. Cơ sở tiếp cận thuật toán 52
3.2.2. Các tình huống thực hiện mô hình 52
3.2.3. Thuật toán 54
3.2.4. Độ phức tạp tính toán 57
3.2.5. Ví dụ minh họa 58
3.3. Đánh giá hai thuật toán 61
3.4. Cài đặt thuật toán tính toán gia tăng ma trận độ hỗ trợ 64
3.5. Kết luận chƣơng 3 67
KẾT LUẬN 68
TÀI LIỆU THAM KHẢO 69
5

DANH MỤC CÁC KÝ HIỆU

Ký hiệu

Ý nghĩa
U
Tập các đối tƣợng

Tập các thuộc tính

Tập thuộc tính điều kiện

Tập thuộc tính quyết định

B là tập thuộc tính con của A
IND(B)
Quan hệ bất khả phân trên U theo B
[]
()

Các lớp tƣơng của  trong mối quan hệ
IND(B)

Tập xấp xỉ dƣới của X theo B

Tập xấp xỉ dƣới của X theo B

Tập biên của X trên U theo B



Phân lớp điều kiện thứ i



Phân lớp tƣơng đƣơng quyết định thứ j
(

, 

)
Độ hỗ trợ của luật quyết định C
i
→ D
j
(

, 

)
Độ chính xác của luật quyết định C
i
→ D
j

(

, 

)
Độ phủ của luật quyết định C
i
→ D
j



(, );  
+1
(, )
Ma trận độ hỗ trợ thời điểm t và t+1 của các
luật C
i
→ D
j



(, ); 
+1
(, )
Ma trận độ chính xác thời điểm t và t+1 của
các luật C
i
→ D
j



(, ); 
+1
(, )
Ma trận độ độ phủ thời điểm t và t+1 của các
luật C

i
→ D
j

α
Ngƣỡng của độ chính xác
γ
Ngƣỡng của độ phủ

6

DANH MỤC CÁC BẢNG
Bảng 1.1: Ví dụ về một bảng thông tin 14
Bảng 1.2: Nhóm các đối tƣợng có bộ giá trị giống nhau 15
Bảng 1.3: Ví dụ về một bảng quyết định 17
Bảng 1.4: Bảng tính độ phủ, độ chính xác 19
Bảng 2.1: Bảng quyết định cho ví dụ minh họa 34
Bảng 2.2: Bảng trích rút các luật quan tâm 36
Bảng 3.1: Bảng phân loại thu nhập đầu ngƣời trƣởng thành ở cụm dân cƣ 47
Bảng 3.2: Kết quả độ chính xác và độ phủ thời điểm t+1- Thuật toán của Liu 51
Bảng 3.3: Kết quả tính độ chính xác, độ phủ các luật bằng thuật toán gia tăng ma trận
độ hỗ trợ 61

7

DANH MỤC CÁC HÌNH
Hình 1.1: Quá trình khái phá tri thức trong cơ sở dữ liệu 10
Hình 1.2: Mô hình thể hiện tập xấp xỉ trên và xấp xỉ dƣới của X 16

Hình 3.1: Tiến trình thêm/ bớt đối tƣợng khỏi hệ thống 38
Hình 3.2: Màn hình nhập dữ liệu 65
Hình 3.3: Màn hình chọn cơ sở dữ liệu 65
Hình 3.4: Màn hình hiển thị dữ liệu của cơ sở dữ liệu 66
Hình 3.5: Màn hình bổ sung/loại bỏ đối tƣợng 66
Hình 3.6: Màn hình hiển thị kết quả 67

8

MỞ ĐẦU
Trong những năm gần đây, công nghệ thông tin phát triển mạnh mẽ và đi sâu vào
nhiều lĩnh vực trong cuộc sống. Công nghệ thông tin phát triển đi kèm với sự gia tăng
không ngừng của cơ sở dữ liệu và nhu cầu sử dụng dữ liệu hiệu quả cũng trở nên ngày
càng thiết yếu. Do đó, khai phá dữ liệu đã trở thành lĩnh vực phát triển mạnh với nhiều
phƣơng pháp tiếp cận khác nhau. Thời gian đầu, phƣơng pháp tiếp cận quy nạp các
luật dựa trên trên tập thô đƣợc sử dụng phổ biến với nhiều ứng dụng toàn diện để khai
phá dữ liệu nhƣ dự báo tài chính, chuẩn đoán y tế Các ứng dụng này đã chứng tỏ rằng
rằng hƣớng tiếp cận này là rất hữu ích cho việc khai phá kiến thức bằng các luật quyết
định từ cơ sở dữ liệu ban đầu. Tuy nhiên, hƣớng nghiên cứu và các ứng dụng của khai
phá tri thức chủ yếu tập trung trong các hệ thống thông tin tĩnh. Nghĩa là các đối tƣợng
và các thuộc tính trong một hệ thống thông tin nhất định không đổi. Trong thực tế, các
nguồn dữ liệu thực có đặc điểm động, phát triển lớn mạnh lên về cả thuộc tính và số
lƣợng đối tƣợng với tốc độ nhanh chóng. Để duy trì hiệu quả kiến thức từ dữ liệu
động, các nhà nghiên cứu đã đi theo hƣớng nghiên cứu tiếp cận gia tăng cho việc cập
nhật tri thức. Hiện nay, phƣơng pháp cận gia tăng dựa trên tập thô đã và đang đƣợc
nhận rất nhiều quan tâm. Theo [6], dữ liệu động chủ yếu tập trung vào hai trƣờng hợp:
(1) Tập các đối tƣợng trong hệ thống thông tin thay đổi theo thời gian trong khi các tập
thuộc tính vẫn không đổi. (2) Tập các thuộc tính trong hệ thống thông tin thay đổi theo
thời gian trong khi tập đối tƣợng vẫn không đổi. Do dữ liệu luôn thay đổi, các phân lớp

dữ liệu cũng thay đổi theo. Vì vậy, luận văn tập trung tìm hiểu và trình bày “ một số
thuật toán khai phá luật quyết định trên sơ sở dữ liệu động” theo hƣớng tiếp cận gia
tăng với kỹ thuật phân lớp dựa trên tập thô. Các luật quyết định có độ chính xác và độ
phủ cao là những luật có thể cung cấp các tri thức quan trọng. Để khai phá các luật
quyết định có ý nghĩa, ta cần đặt ra ngƣỡng của độ chính xác và độ phủ để khai phá
đƣợc các tri thức quan tâm.
Nội dung của luận văn tập trung vào hƣớng đã nêu trong trƣờng hợp (1) và (2).
Trong đó, luận văn gồm 3 chƣơng. Chƣơng 1: Trình các kiến thức cơ bản về khai phá
dữ liệu và các khái niệm cơ bản trong tập thô nhƣ khái niệm tập hợp, tập thô, tập mờ,
hệ thống thông tin, các mỗi quan hệ, bảng quyết định và luật quyết định. Chƣơng 2:
Trình bày về thuật toán khai phá luật quyết định trên bảng dữ liệu khi có giá trị thuộc
tính thay đổi (làm thô, làm mịn) theo hƣớng tiếp cận gia tăng ma trận độ hỗ trợ. Trong
chƣơng này, luận văn tập trung trình bày các mối quan hệ của các lớp khi thuộc tính
của dữ liệu khi đƣợc làm thô, làm mịn, thuật toán và đánh giá độ phức tap tính toán
theo thời gian của thuật toán. Chƣơng 3: Trình bày hai thuật toán khai phá luật quyết
định trên bảng dữ liệu động khi có tập đối thƣợng thay đổi. Hai thuật toán này đều
đƣợc xây dựng trên cùng một mô hình chỉ khác nhau về hƣớng tiếp cận. Thuật toán
9

một là thuật toán khai phá luật quyết định theo hƣớng tiếp cận gia tăng ma trận độ
chính xác và ma trận độ phủ. Thuật toán hai là thuật toán khai phá luật quyết định theo
hƣớng tiếp cận gia tăng ma trận độ hỗ trợ. Kết thúc là phần kết luận và đề xuất những
vấn đề cần tiếp tục nghiên cứu.

10

CHƢƠNG 1. CÁC KHÁI NIỆM CƠ BẢN
1.1. Khai phá dữ liệu là gì
Khai phá dữ liệu đã thu hút rất nhiều sự chú ý trong ngành công nghệ thông tin

và trong xã hội nói chung trong những năm gần đây. Do sự sẵn và rộng của lƣợng lớn
dữ liệu và sự cần thiết để chuyển đổi dữ liệu đó thành thông tin hữu ích. Nên khai thác
dữ liệu ra đời và đƣợc xem nhƣ là một kết quả của sự tiến hóa tự nhiên của công nghệ
thông tin.

Hình 1.1: Quá trình khái phá tri thức trong cơ sở dữ liệu
[3] Khai phá dữ liệu đƣợc liên tƣởng tới quá trình chiết lọc hoặc khai phá tri thức
từ số lƣợng lớn dữ liệu. Khai phá dữ liệu là một bƣớc quan trọng của khám phá tri
thức. Khám phá tri thức là một quá trình bao gồm một chuỗi lặp đi lặp lại các bƣớc
sau:
1. Lọc dữ liệu (loại bỏ tiếng ồn và dữ liệu không phù hợp)
2. Tích hợp dữ liệu (nơi nhiều nguồn dữ liệu có thể kết hợp đƣợc với nhau)
3. Lựa chọn dữ liệu (dữ liệu liên quan tới nhiệm vụ phân tích đƣợc lấy từ cơ sở
dữ liệu)
4. Chuyển đổi dữ liệu (dữ liệu đƣợc chuyển hoặc hợp nhất thành các hình thức
thích hợp cho khai thác bằng cách thực hiện tóm tắt hoặc tập hợp)
5. Khai thác dữ liệu (một quá trình cần thiết mà các phƣơng pháp thông minh
đƣợc áp dụng để trích xuất các mẫu dữ liệu)
6. Đánh giá các mẫu (để xác định các mẫu thực sự thú vị đại diện cho kiến
thức dựa trên một số biện pháp)
7. Trình bày tri thức (nơi trực quan và kỹ thuật biểu diễn tri thức đƣợc sử dụng
để trình bày các kiến thức khai thác cho ngƣời sử dụng)
Lọc dữ
liệu
Tích hợp
dữ liệu
Tiền xử lý
Dữ liệu
tiền xử lý

Chuyển
đổi dữ liệu
Dữ liệu đã
chuyển đổi
Khai phá
dữ liệu
Các mẫu
Trình bày
tri thức
Tri thức
11

Một cách khái quát thì khai phá dữ liệu gồm 3 giai đoạn chính [9]:
Giai đoạn tiền xử lý: Giai đoạn tiền xử lý đƣợc hiểu là các chức năng liên quan đến
việc tiếp nhận, tổ chức và biến đổi dữ liệu. Giai đoạn này có mục tiêu là chuẩn bị dữ
liệu cho giai đoạn sau của việc khai thác dữ liệu. Giai đoạn này gồm các bƣớc từ 1 đến
4.
Giai đoạn khai thác dữ liệu: Giai đoạn này đƣợc định nghĩa bởi việc sử dụng các
thuật toán để trích rút các mẫu dữ liệu. Một số các kỹ thuật đƣợc sử dụng trong giai
đoạn này nhƣ mạng neural, tập thô, thuật toán di truyền, mô hình thống kê và xác suất.
Giai đoạn hậu xử lý: Giai đoạn này chế biến dữ liệu thu đƣợc từ quá trình khai thác
dữ liệu. Nó có khả năng xác nhận tính hữu ích của mẫu dữ liệu đƣợc khai phá.
[4]Khai phá dữ liệu nhƣ là một thuật ngữ đƣợc sử cho các thiết lập cụ thể của sáu
nhiệm vụ sau: Phân lớp dữ liệu, ƣớc lƣợng, dự báo, khai phá luật kết hợp, phân cụm,
mô tả và trực quan. Trong đó ba nhiệm vụ đầu tiên – phân lớp dữ liệu, ƣớc lƣợng, dự
báo là tất cả các ví dụ về hƣớng khai thác dữ liệu hoặc học có giám sát. Trong hƣớng
khai thác dữ liệu này, mục tiêu là sử dụng dữ liệu có sẵn để xây dựng một mô hình mô
tả một hoặc nhiều thuộc tính cụ thể quan tâm (thuộc tính mục tiêu hoặc các thuộc tính
lớp) trong giới hạn của phần còn lại của các thuộc tính có sẵn. Ba nhiệm vụ tiếp theo -
luật kết hợp, phân nhóm và mô tả là các ví dụ về khai thác dữ liệu vô hƣớng tức

(không có thuộc tính). Nó đƣợc chỉ ra nhƣ là mục tiêu. Mục tiêu là để thiết lập một số
mối quan hệ giữa tất cả các thuộc tính.
Các nhiệm vụ trong khai phá dữ liệu đƣợc giới thiệu cụ thể dƣới đây:
Phân lớp
Phân lớp là nhiệm vụ khai thác dữ liệu phổ biến nhất của khai phá dữ liệu. Phân
lớp bao gồm việc kiểm tra các đặc trƣng của một đối tƣợng mới và ánh xạ tới một lớp
đã đƣợc định nghĩa trƣớc. Phân lớp đƣợc đặc trƣng bởi việc định nghĩa tốt các lớp và
một tập huấn luyện bao gồm các ví dụ đã đƣợc phân lớp trƣớc đó. Nhiệm vụ phân lớp
là xây dựng mô hình phân loại dữ liệu chƣa đƣợc phân lớp từ dữ liệu huấn luyện (các
lớp dữ liệu đã biết trƣớc đó) và áp dụng các mô hình dữ liệu mới này để dự đoán cho
các mục mới trong cùng một lĩnh vực. Các kỹ thuật thƣờng dùng trong phân lớp: Cây
quyết định, tập thô, mạng neuron, K - láng giềng, thuật toán di truyền, mạng Bayesian.
Trong các kỹ thuật này thì kỹ thuật cây quyết định và tập thô đƣợc sử dụng nhiều nhất.
Ƣớc lƣợng
Dự đoán giao dịch với dữ liệu vào có thuộc tính là các giá trị liên tục. Đƣa ra một
số dữ liệu đầu vào, chúng ta dùng dự đoán để đƣa ra giá trị của một số biến tiếp theo
(của các giá trị đầu vào) mà chúng ta chƣa biết nhƣ thu nhập, chiều cao hoặc số dƣ của
thẻ tín dụng.
Dự báo:
12

Quá trình xây dựng mô hình dự đoán tƣơng tự nhƣ cho các mô hình phân lớp
nhƣng điểm khác biệt của nó là sử dụng dữ liệu quá khứ để xây dựng mô hình đƣợc sử
dụng để đƣa ra dự đoán về tƣơng lai.
Khai phá luật kết hợp
Phƣơng pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu
trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm
đƣợc. Ta có thể lấy một ví dụ đơn giản về luật kết hợp nhƣ sau: sự kết hợp giữa hai
thành phần A và B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự xuất hiện
của B trong cùng bản ghi đó: AB.

Phân cụm
Phân cụm là một quá trình phân vùng hoặc phân nhóm một tập các đối tƣợng
thành các nhóm. Trong đó, các đối tƣợng trong cùng một nhóm tƣơng tự nhƣ nhau và
các đối tƣợng trong các nhóm khác nhau là không giống nhau. Phân cụm thƣờng đƣợc
coi là phân lớp không giám sát. Nó thƣờng đƣợc dùng để phân nhóm các khách hàng.
Mô tả và trực quan
Dữ liệu trực quan là một thế mạnh của khai thác dữ liệu mô tả. Nó thƣờng không
dễ dàng cho các hình dung có ý nghĩa. Những hình ảnh đúng thực sự có thể đáng giá
hàng nghìn luật kết hợp khi con ngƣời thực hiện các công việc trích xuất ý nghĩa từ
những hình ảnh thực tế.
1.2. Các khái niệm cơ bản của tập thô [9]
Lý thuyết tập thô đƣợc đề xuất vào năm 1982 bởi Zdzislaw Pawlak. Phƣơng pháp
luận của nó là liên quan tới việc phân loại và phân tích chính xác các thông tin và tri
thức không chắc chắn hoặc không đầy đủ. Nó đƣợc coi là một trong những phƣơng
pháp tiếp cận đầu tiên không dựa trên thống kê trong phân tích dữ liệu. Lý thuyết tập
thô đƣợc phát triển trên một nền tảng toán học vững chắc, cung cấp các công cụ hữu
ích để giải quyết các bài toán phân tích dữ liệu, phát hiện luật, nhận dạng. Mục đích
chính của phân tích dữ liệu dựa trên lý thuyết tập thô nhằm đƣa ra các xấp xỉ để biểu
diễn các đối tƣợng không thể đƣợc phân lớp một cách chắc chắn bằng tri thức có sẵn.
Theo quan điểm của lý thuyết tập thô, mọi tập thô đều liên kết với 2 tập “rõ” là xấp xỉ
dƣới và xấp xỉ trên của nó. Xấp xỉ dƣới bao gồm các đối tƣợng chắc chắn thuộc, còn
xấp xỉ trên chứa tất cả các đối tƣợng có khả năng thuộc về tập đó. Các tập xấp xỉ là cơ
sở để rút ra các kết luận (tri thức) từ cơ sở dữ liệu.
1.2.1. Tập hợp
Một tập hợp là một tập các đối tƣợng có những đặc điểm tƣơng tự, nó là một
phần cơ bản của toán học. Tất cả các đối tƣợng toán học chẳng hạn nhƣ các mối quan
hệ, chức năng, con số có thể đƣợc coi là một tập hợp. Các thành phần khác nhau của
một tập hợp đƣợc gọi là các yếu tố. Mối quan hệ giữa một phần tử và một tập hợp
13

đƣợc gọi là của một mối quan hệ vƣ̀a vă
̣
n. Số các yếu tố trong một tập hợp là cách đo
số phần tử trong một tập hợp. Ví dụ về các tập cụ thể đƣợc môt tả dƣới đây.
Tập mờ:
Đề xuất bởi nhà toán học Loft Zadeh trong nửa sau của những năm sáu mƣơi,
mục tiêu của nó giải quyết các khái niệm toán học của không chắc chắn và gần đúng,
tiếp theo cho lập trình và lƣu trữ trên máy tính. Để biểu diễn đƣợc dạng toán học cho
tập mờ, Zadeh sử dụng lý thuyết tập hợp cổ điển, nơi mà bất kỳ thiết lập nào đều có
thể đƣợc đặc trƣng bởi một hàm.
Cho Ω là không gian nền, một tập mờ A trên Ω tƣơng ứng với một ánh xạ từ Ω
đến đoạn [0,1]. A :  [0,1] đƣợc gọi là hàm thành viên (membership function).
Kí hiệu A = {(a, (a)) / a  }. Trong đó, (a)  [0,1] chỉ mức độ phụ
thuộc (membership degree) của phần tử a vào tập mờ A. Khoảng xác định của hàm
µA(a) là đoạn [0, 1], trong đó giá trị 0 chỉ mức độ không thuộc về, còn giá trị 1 chỉ
mức độ thuộc về hoàn toàn.
Tập thô:
Một cách tiếp cận đầu tiên chuyển tiếp bởi nhà toán học Zdzislaw Pawlak vào
đầu của thập niên tám mƣơi. Nó đƣợc sử dụng nhƣ một công cụ toán học để giải quyết
các vấn đề không chắc chắn và không chính xác. Lý thuyết tập thô tƣơng tự nhƣ lý
thuyết tập mờ, tuy nhiên không chắc chắn và không chính xác trong phƣơng pháp này
đƣợc thể hiện bởi một vùng ranh giới của một tập và không phải bởi một thành viên
nhƣ trong lý thuyết tập mờ.
1.2.2. Hệ thống thông tin [10]
Hệ thống thông tin hoặc bảng thông tin có thể đƣợc xem nhƣ một bảng. Bảng này
bao gồm các đối tƣợng (hàng) và các thuộc tính (cột). Nó đƣợc sử dụng trong các đại
diện của dữ liệu sẽ đƣợc sử dụng bởi tập thô. Trong đó, mỗi đối tƣợng có một số lƣợng
nhất định các thuộc tính. Các đối tƣợng đƣợc mô tả phù hợp với các định dạng của
bảng dữ liệu. Hàng đƣợc coi là đối tƣợng để phân tích và cột nhƣ các thuộc tính. Ví dụ
về một bản thông tin trong bảng 1.1 dƣới đây:

Đối
tƣợng
Thuộc tính
a
1
a
2
a
3
x
1

2
1
3
x
2

3
2
1
x
3

2
1
3
x
4

2
2
3
x
5

1
1
4
x
6

1
2
2
x
7

3
2
1
x
8

1
1
4
14

x

9

2
1
3
x
10

3
2
1
Bảng 1.1: Ví dụ về một bảng thông tin
Định nghĩa 1.1: Hệ thống thông tin là một cặp IS =(U, A) trong đó: U là tập vũ trụ các
đối tƣợng khác rỗng, A là tập các thuộc tính khác rỗng, với mỗi a A đƣợc định nghĩa
thông qua hàm thông tin f
a
: U V
a
. Với V
a
là tập các giá trị của thuộc tính a, còn
đƣợc gọi là miền giá trị của thuộc tính a.
Trong bảng ví dụ tại bảng 1 ta có:
U = {x
1
, x
2
, x
3
, x

4
, x
5
, x
6
, x
7
, x
8
, x
9
, x
10
}
A = {a
1
, a
2
, a
3
}
Tập giá trị của các thuộc tính:
a
1
= {1, 2, 3}
a
2
= {1, 2}
a
3

= {1, 2, 3, 4}
Tập cơ bản
Cho x U, B A. Một tập cơ bản B chứa x, ký hiệu là [x]b đƣợc biểu điễn nhƣ sau:
{[(a, v)]|a B, f

x, a

= v}
Tập cơ bản là tập con của U bao gồm tất cả các đối tƣợng trên U có thể phân biệt từ x
trong khi sử dụng tất cả các thuộc tính từ B. Trong thuật ngữ tính toán mềm, tập con
đƣợc gọi là hạt thông tin. Khi B là tập hợp con giới hạn trong một thuộc tính duy nhất,
tập con là khối các cặp thuộc tính-giá trị đƣợc định nghĩa bởi thuộc tính cụ thể đó. Do
đó:
[x
5
] a
3
= [x
8
] a
3
= [(a
3
, 4)]={x
5
, x
8
}
Ngoài ra nếu b = {a
2

, a
3
} thì ta sẽ có:
[x
5
]b = [x
8
]b = [(a
2
, 1)] ∩ [(a
3
, 4)] ={x
5
, x
8
}
1.2.3. Quan hệ bất khả phân
Cho hệ thông tin T = (U, A) và B ≠  và B  A. Quan hệ bất khả phân trên U
theo B, ký hiệu là IND(B) và đƣợc định nghĩa nhƣ sau:
x, y U,

x, y

IND

B

f

x, a


= f

y, a

 a B
Rõ ràng, IND(B) là một quan hệ tƣơng đƣơng trên U. Các lớp tƣơng đƣơng của
IND(B) đƣợc gọi là tập cơ bản trong B bởi vì nó đại diện cho các nhóm nhỏ rõ rệt nhất
của các đối tƣợng. Với đối tƣợng bất kỳ , các lớp tƣơng của  trong mối quan hệ
IND(B) đƣợc ký hiệu là []
()
. Xây dựng tập cơ bản là bƣớc đầu tiên trong phân
loại với tập thô.
Chúng ta thấy rằng, có một số các đối tƣợng giống hệt nhau trong bảng 1.1. Ví dụ nhƣ
đối tƣợng 1, 3 và 9 là không thể phân biệt đƣợc dựa trên các thuộc tính có sẵn. Chúng
ta nhóm tất cả các đối tƣợng có bộ giá trị thuộc tính giống nhau. Ta đƣợc kết quả nhƣ
bảng 1.2.
15

U/A
Thuộc tính
a
1
a
2
a
3
{x
1

, x
3
, x
9
}
2
1
3
{x
2
, x
7
, x
10
}
3
2
1
{x
4
}
2
2
3
{x
5
, x
8
}
1

1
4
{x
6
}
1
1
2
Bảng 1.2: Nhóm các đối tƣợng có bộ giá trị giống nhau
Mỗi một dòng trên bảng 1.2 thể hiện một tập cơ bản, trong khi đó tổng thể bảng 1.2
diễn tả hệ thống thông tin IS. Ký hiệu U/A có nghĩa là chúng ta đang xem xét các tập
cơ bản của không gian vũ trụ U trong không gian thuộc tính A.
1.2.4. Tập xấp xỉ trên và xấp xỉ dƣới
Cách tiếp cận bộ thô để phân tích dữ liệu bản lề trên hai khái niệm cơ bản tập xấp
xỉ dƣới và tập xấp xỉ trên. Nó đề cập đến các phần tử chắc chắn thuộc và các phần tử
có khả năng thuộc tập.
Lấy  ký hiệu là tập con của tập vũ trụ  (). Tập xấp xỉ dƣới và tập xấp xỉ trên
của  trong () đƣợc định nghĩa nhƣ sau:
Tập xấp xỉ dƣới
Tập xấp xỉ dƣới đƣợc ký hiệu là  đƣợc định nghĩa là sự kết hợp của tất cả các
tập cơ bản chứa trong .
= {|







  }

Tập xấp xỉ trên
Tập xấp xỉ trên đƣợc ký hiệu là , là sự kết hợp của các tập cơ bản mà giao của
nó với X là tập khác rỗng.
= {|







  }
Một đối tƣợng x bất kỳ thuộc vào tập xấp xỉ dƣới của X, nó chắc chắn sẽ thuộc về tập
X. Còn với một đối tƣợng bất kỳ nằm trong tập xấp xỉ trên, chúng ta chỉ có thể nói
rằng nó có thể nằm trong X.
Tập biên
Tập biên của tập X trong U đƣợc định nghĩa là sự sai khác giữa tập xấp xỉ trên
và tập xấp xỉ dƣới, nó chứa các phần tử có ở tập xấp xỉ trên nhƣng không có ở tập xấp
xỉ dƣới.
= 
BNX đƣợc gọi là lớp biên của X trong U.
Các tính chất của tập xấp xỉ :
16

1) 
2) = = , = = 
3) () = 




()
4) () = 



()
5) ()  



()
6) () 



()
7)  & 
8) 



= ()
9) () = ()
10) 



= 




= 
11) 



= 



= 
Nếu tập xấp xỉ dƣới và xấp xỉ trên là tƣơng đƣơng nhau (= ) thì tập X là xác
định (tập rõ) và ngƣợc lại thì tập X là không xác định trong U (tập thô). Ta có 4 loại
cơ bản của tập thô trong tập vũ trụ U.
1) Nếu  và , X đƣợc gọi là định nghĩa thô trong U
2) Nếu  và = , X đƣợc gọi là không thể định nghĩa một cách ngoại vi
trong U
3) Nếu =  và , X đƣợc gọi là không thể định nghĩa một cách nội vi
trong U
4) Nếu =  và = , X đƣợc gọi là không định nghĩa hoàn toàn trong U
Ở đấy  là ký hiệu cho tập rỗng.

Hình 1.2: Mô hình thể hiện tập xấp xỉ trên và xấp xỉ dƣới của X
Ví dụ: Giả sử chúng ta quan tâm tới một tập con X gồm 5 đối tƣợng {x
1,
x
3
, x
4
,
x
5
, x
9
}. Dựa vào bảng 1.2, chúng ta sẽ tính toán tập xấp xỉ trên và xấp xỉ dƣới của tập
X. Ta thấy các tập cơ bảng trong bảng 1.2 cũng nhƣ có mặt trong tập X là {x
1
, x
3
, x
9
},
{x
4
}. Từ đó ta có tập xấp xỉ dƣới bao gồm các đối tƣợng: = {x

1
, 
3
, x
4
, x
9
}. Bây
Tập xấp xỉ trên
Tập xấp xỉ dƣới
17

giờ, nhiệm vụ của ta là xây dựng tập xấp xỉ trên của tập con X. Để tinh toán đƣợc tập
xấp xỉ trên của X, chúng ta phải tìm kiếm trong bảng 1.2 tất cả các tập cơ bản mà nó có
ít nhất một đối tƣợng chung với tập X. Đó là các tập:
{x
1
, x
3
, x
9
}, {x
4
}, {x
5
, x
8
}
Vậy ta có tập xấp xỉ trên của tập X: = {
1

, 
3
, 
4
, 
5
, 
8
, 
9
} và =
{
1
, 
3
, 
4
, 
5
, 
8
, 
9
} 

x
1
, 
3
, x

4
, x
9

= {
5
, 
8
}
1.2.5. Bảng quyết định [7]
Định nghĩa 1.2: Một hệ thống thông tin mà trong hệ thống này chúng ta phân
biệt đƣợc hai loại thuộc tính của nó, thuộc tính điều kiện và thuộc tính quyết định thì
đƣợc gọi là bảng quyết định. Tập thuộc tính điều kiện và tập thuộc tính quyết định
giúp ta xác định đƣợc các phân lớp trên bảng quyết định. Các phân lớp đƣợc xác định
thông qua thuộc tính điều kiện. Sau khi có các phân lớp, chúng ta sẽ xác định đƣợc các
phân lớp tƣơng đƣơng bằng các thuộc tính quyết định.
Một bảng quyết định cùng một tập thuộc tính điều kiện C và một tập thuộc tính quyết
định D đƣợc ký hiệu = (, , ) với , , = , = .
Ví dụ về bảng quyết định:
Ngƣời
bệnh
Thuộc tính điều kiện
Thuộc tính
quyết định
Đau đầu

Đau cơ

Nhiệt độ

Bệnh cúm

p
1

không
có
cao
có
p
2

có
không
cao
có
p
3

có
có
rất cao
có
p
4

không
có
bình thƣờng
không

p
5

có
không
cao
không
p
6

không
có
rất cao
có

Bảng 1.3: Ví dụ về một bảng quyết định
Bảng quyết định trên gồm 3 thuộc tính điều kiện {đau đầu, đau cơ, nhiệt độ} và một
thuộc tính quyết định {bệnh cúm}. Thuộc tính {bệnh cúm} thể hiện sự phân chia 6
ngƣời bệnh về 2 lớp chính:
Lớp có = {p
1,
p
2,
p
3,
p
6
}
Lớp không = {

p
4,
p
5
}
Mỗi một dòng trên bảng quyết định xác định một luật quyết định. Trong mỗi luật
quyết đinh, quyết định đƣợc thực hiện khi mà các điều kiện chỉ ra các thuộc tính điều
kiện đƣợc thỏa mãn. Ví dụ nhƣ trong bảng 1.3 với điều kiện (nhức đầu, không có),
(đau cơ, có), (nhiệt độ, cao) xác định duy nhất quyết định (bệnh cúm, có).
Luật quyết định ở dòng 2 và dòng 5 trong bảng 1.3 có cùng điều kiện nhƣng quyết
định đƣa ra lại khác nhau. Quyết định này đƣợc gọi là không nhất quán (không chính
18

xác, mâu thuẫn). Ngƣợc lại với các luật này thì ta có các luật quyết định nhất quán
(nhất định, xác định và không mâu thuẫn). Đôi khi, các luật quyết định nhất quán đƣợc
gọi là các luật chắc chắn và các luật không nhất quán đƣợc gọi là các luật có thể xảy
ra. Bảng quyết định chứa các luật không nhất quán gọi là bảng quyết không nhất quán
còn ngƣợc lại là bảng quyết định nhất quán. Số lƣợng các luật nhất quán với tất cả các
luật trong bảng quyết định đƣợc coi là hệ số nhất quán của bảng quyết định. Nó đƣợc
ký hiệu là (, ) trong đó C, D là các thuộc tính điều kiện và thuộc tính quyết định
của bảng quyết định. 

, 

= 1 thì bảng quyết định là nhất quán còn 

, 

1
thì bảng quyết định là không nhất quán. Ở bảng 3 ta có 


, 

= 4/6 vì vậy bảng 1.3
là bảng quyết định không nhất quán.
1.2.6. Luật quyết định
Luật quyết định là gì? [8] Luật quyết định thƣờng đƣợc ở dạng: Nếu (điều kiện
thuộc tinh thỏa mãn) thì (đƣa ra quyết định phù hợp). Thí dụ luật 1 trong bảng 1.3:
Nếu (đau đầu, không) và (đau cơ, có) và (nhiệt độ, cao) thì (bệnh cúm, có). Một tập
các luật quyết định đƣợc gọi là một thuật toán quyết định. Do đó với mỗi một bảng
quyết định, chúng ta có thể kết hợp một thuật toán quyết định bao gồm tất cả các luật
quyết định xảy ra trong bảng quyết định. Hay nói cách khác một trình tự sẽ đƣợc gọi là
một luật quyết định đƣợc tạo ra bởi đối tƣợng x (nằm trong bảng quyết đinh S) và
đƣợc ký hiệu nhƣ sau: 
1



, , 





1



, , 


() hoặc viết gọn lại 

.
Trong đó, chúng ta quan tâm tới các độ đo quan trọng và cần thiết của luật quyết định.
Các độ đo này đƣợc trình bày ở định nghĩa 1.3.
Định nghĩa 1.3 [5]: Cho một hệ thống thông tin hoàn chỉnh = (, , ), chúng ta ký
hiệu U/C = {
1
, 
2
, , 

} là các phân lớp điều kiện và U/D = {
1
, 
2
, , 

} là các
phân lớp quyết định.  

 

,  

 

ta tính đƣợc độ hỗ trợ, độ chắc chắn và
độ phủ của luật 




:
 Độ hỗ trợ của luật quyết định 



đƣợc ký hiệu là 



, 


và đƣợc
định nghĩa nhƣ sau: 



, 


= |



|.
 Độ mạnh của luật quyết định 




đƣợc định nghĩa nhƣ sau:


=




, 






trong đó || là tƣợng trƣng cho lực lƣợng (số phần tử) trong U
 Độ chính xác của luật quyết định 



đƣợc ký hiệu là (

, 

):
(

, 


) =






|

|

Nếu (

, 

) = 1 thì luật quyết định 



là luật quyết định chắc chắn. Còn
nếu 0 < (

, 

) < 1 thì luật quyết định này sẽ thuộc luật quết định không chắc
chắn.
 Độ phủ của luật quyết định:
19






, 


=






|

|

Nếu 



là một luật quyết định thì 



sẽ đƣợc một luật quyết định ngƣợc của
nó. Các luật quyết định ngƣợc đƣợc dùng để giải thích (các lý do) của một luật quyết
định.
Từ vì dụ ở bảng 3 ta có:

U/C={C
1
, C
2
, C
3
, C
4
, C
5
} U/D = {D
1
, D
2
}
C
1
= {p
1
} D
1
= {p
1,
p
2,
p
3,
p
6
}

C
2
= {p
2,
p
5
} D
2
= {p
4,
p
5
}
C
3
={p
3
}
C
4
= {p
4
}
C
5
= {p
6
}
Chúng ta có độ mạnh, độ chắc chắn và độ phủ thể hiện ở bảng 1.4 dƣới đây:
Luật

Độ mạnh
Độ chính xác
Độ phủ
1
0.17
1.00
0.25
2
0.17
0.50
0.25
3
0.17
1.00
0.25
4
0.17
1.00
0.5
5
0.17
0.50
0.5
6
0.17
1.00
0.25
Bảng 1.4: Bảng tính độ phủ, độ chính xác
Với






, 


= 1

=1






, 


= 1

=1

Tiếp theo ta tính đƣợc ma trận độ chính xác, ma trận độ hỗ trợ và ma trận độ phủ của
một bảng quyết định:
Ma trận độ hỗ trợ:
 (, ) =





1
, 
1

(
1
, 
2
)



2
, 
1

(
2
, 
2
)


(
1
, 

)
(

2
, 

)
 
 




, 
1

(

, 
2
)
 (

, 

)


Ma trận độ chính xác:
20

 (, ) =





1
, 
1

(
1
, 
2
)



2
, 
1

(
2
, 
2
)


(
1
, 


)
(
2
, 

)
 
 




, 
1

(

, 
2
)
 (

, 

)


Ma trận độ phủ:
 (, ) =





1
, 
1

(
1
, 
2
)



2
, 
1

(
2
, 
2
)


(
1
, 


)
(
2
, 

)
 
 




, 
1

(

, 
2
)
 (

, 

)


Ma trận chính xác và ma trận phủ giúp ta trích rút đƣợc các thông tin hữu ích từ dữ
liệu ban đầu. Các luật quyết định có độ chính xác và độ phủ cao là những luật có thể
đƣa ra những tri thức quan trọng. Do dữ liệu luôn thay đổi, các phân lớp dữ liệu cũng

thay đổi. Để khai phá các luật quyết định có ý nghĩa, ta cần đặt ra ngƣỡng của độ chính
xác và độ phủ để khai phá đƣợc các tri thức quan tâm.
Định nghĩa 1.4:
Nếu 



, 


  



, 


 thì  

 
 
= 1 

,
 

 

= 1 


. Ta gọi luật 



là một tri thức quan tâm.
1.3. Khai phá luật quyết định dựa trên tập thô
Tập thô đƣợc khai thác và sử dụng nhiều trong các nghiên cứu với nhiều lĩnh vực
khác nhau. Trong đó, khai phá dữ liệu cũng là một lĩnh vực khai thác triệt để vai trò
của tập thô. Trong lý thuyết tập thô cho phép mô tả đặc tính của một tập các đối tƣợng
trong nhóm các giá trị thuộc tính; tìm ra toàn bộ hoặc một phần phụ thuộc giữa các
thuộc tính; giảm thuộc tính thừa; tìm ra các thuộc tính có ý nghĩa và sinh các luật
quyết định. Tập thô thƣờng đƣợc rời rạc hóa, rút gọn và đƣa ra các luật dựa trên tập dữ
liệu huấn luyện hay các phân lớp trên tập dữ liệu mẫu ban đầu trong khai phá dữ liệu.
Nó giúp biễu diễn và đƣa ra kết luận cho các tri thức không chắc chắn. Khai phá luật
quyết định dựa trên tập thô là một hƣớng nghiên cứu rất phố biến hiện nay. Phƣơng
pháp này thƣờng áp dụng kỹ thuật phân lớp của khai phá dữ liệu.
1.4. Kết luận chƣơng 1
Chƣơng 1 trình bày tổng quan về khai phá dữ liệu, các khai niệm cơ bản về tập
thô. Đây là chƣơng đƣa ra các khái niệm cơ bản để tạo tiền đề tiếp cận và tìm hiểu cho
chƣơng sau.
21

CHƢƠNG 2. THUẬT TOÁN TIẾP CẬN GIA TĂNG ĐỂ KHAI PHÁ
LUẬT QUYẾT ĐỊNH TRÊN CƠ SỞ DỮ LIỆU CÓ GIÁ TRỊ THUỘC
TÍNH THAY ĐỔI
Trong lý thuyết tập thô, tập xấp xỉ trên và xấp xỉ dƣới là những khái niệm có tính
thay đổi động nhƣ một hệ thống thông tin thay đổi theo thời gian. Khi tập xấp xỉ thay
đổi, các luật quyết định trƣớc đó sẽ bị thay đổi và đôi khi không còn có giá trị. Vậy,
chúng ta phải làm thế nào để cập nhật tập xấp xỉ dựa trên bản gốc thông tin và thu
đƣợc các luật quyết định có ý nghĩa tại thời điểm này? Đây là một nhiệm vụ quan

trọng có thể giúp ta nâng cao hiệu quả của việc khai phá tri thức.
Trong các ứng dụng thực tế, miền giá trị của các thuộc tính thay đổi theo thời
gian và nó thay đổi thƣờng theo hai xu hƣớng: giá trị mới có thể đƣợc thêm vào hoặc
bị xóa bớt ở trong miền giá trị của thuộc tính, đó là phƣơng thức làm thô và làm mịn
các giá trị thuộc tính. Trong trƣờng hợp này, miền giá trị có thể tăng lên hoặc giảm đi.
Khi giá trị thuộc tính thay đổi thì tri thức thu đƣợc có bị thay đổi không ? Điều này đã
đƣợc làm sáng tỏ trong [2]. Chen và cộng sự đã trình bày một phƣơng pháp tiếp cận
gia tăng để cập nhật động các xấp xỉ khi làm thô và làm mịn các giá trị thuộc tính. Kết
quả nghiên cứu cho thấy, ta làm thô các giá trị thuộc tính thì tập xấp xỉ dƣới sẽ bị thu
hẹp lại và tập xấp xỉ trên mở rộng ra. Còn khi ta làm mịn các giá trị thuộc tính, ta sẽ có
kết quả ngƣợc lại. Qua nghiên cứu của Chen, ta thấy rằng khi cơ sở dữ liệu có tập đối
tƣợng không đổi nhƣng tập thuộc tính thay đổi thì tri thức thu đƣợc sẽ có thể thay đổi.
Do đó, ta cần có các thuật toán giúp cập nhật lại tri thức khi cơ sở dữ liệu có thuộc tính
đƣợc làm thô và làm mịn.
Hiện nay có rất nhiều thuật toán theo hƣớng tiếp cận gia tăng để khai phá trí thức
có nghĩa khi tập giá trị thuộc tính thay đổi theo thời gian mà tập đối tƣợng không đổi.
Chẳng hạn nhƣ thuật toán của Liu [5] với hƣớng tính toán gia tăng ma trận độ chính
xác và ma trận độ phủ. Tiếp theo là thuật toán đƣợc đề xuất trong [1], thuật toán này
đƣợc đề xuất theo hƣớng tiếp cận gia tăng ma trận độ hỗ trợ để cập nhật các luật quyết
định khi cơ sở dữ liệu có giá trị thuộc tính đƣợc làm thô, làm mịn.
Chƣơng này của luận văn tìm hiểu và bày trình bày về thuật toán trích rút các luật
quyết định có ý nghĩa khi làm thô, làm mịn các giá trị thuộc tính điều kiện và thuộc
tính quyết định theo hƣớng tiếp cận gia tăng ma trận độ hỗ trợ. Bố cục của chƣơng
gồm các phần sau: Mục 2.1 - Trình bày các định nghĩa về thay đổi giá trị thuộc tính.
Mục 2.2 - Trình bày mô hình tiếp cận gia tăng và thuật toán. Mục 2.3 – Kết luận
chƣơng.
2.1. Định nghĩa về việc thay đổi giá trị thuộc tính [2]
Định nghĩa 2.1: Đối với các thuộc tính trong bộ thuộc tính, kiên thức thu đƣợc sẽ trở
thành thô (mịn) khi phân vùng làm thô (mịn). Do thay đổi và phát triển của môi trƣờng
bên ngoài, tại thời điểm t+1, một số giá trị thuộc tính sẽ đƣợc kết hợp lại. Chúng ta gọi

22

hiện tƣợng này là quá trình làm thô. Và một vài giá trị thuộc tính sẽ tách ra, ta gọi hiện
tƣợng này là quá trình làm mịn.
Định nghĩa 2.2: Cho hệ thống thông tin =

, 

, , 

, 



, 


là giá trị
của đối tƣợng 

trên thuộc tính 

, 



, 


là giá trị của đối tƣợng 


(k) trên
thuộc tính 

, 



, 






, 


. Đến một thời điểm nào đó, ta có



= {


|





, 


= (

, 

)}. Và ta cũng có 




, 


= (

, 

), với






. Chúng ta gọi giá trị thuộc tính (

, 


) đã đƣợc làm thô thành giá trị mới
(

, 

).
Định nghĩa 2.3: Cho hệ thống thông tin = (, ), , 

, (

, 

) là giá trị
của đối tƣợng 

trên thuộc tính 

. Đến một thời điểm nào đó, ta có



= {


|




, 



= (

, 

)}. Và ta có 




, 


=  và 


, 





.
Thì chúng ta gọi giá trị thuộc tính (

, 

) trên đối tƣợng 



đƣợc làm mịn thành giá
trị .
2.2. Mô hình tiếp cận gia tăng và thuật toán
Tiếp cận gia tăng là một phƣơng pháp phổ biến và đƣợc sử dụng nhiều trong khai
phá dữ liệu. Đây là một cách lƣu trữ tất cả dữ liệu và nó cũng cho phép tập huấn lại dữ
liệu. Trong khai phá dữ liệu học gia tăng thƣờng đƣợc áp dụng cho môi trƣờng dữ liệu
luôn thay đổi. Trong đó, phƣơng pháp tiếp cận gia tăng dựa trên kỹ thuật phân lớp là
một phƣơng pháp hay dùng. Nơi mà dữ liệu thay đổi nhƣng không cùng một lúc. Một
phân lớp đƣợc gọi là gia tăng khi nó đủ bốn tiêu chí sau: Có thể học thêm thông tin từ
dữ liệu mới, không yêu cầu truy cập dữ liệu gốc để tạo ra các dữ liệu hiện có, bảo vệ
kiến thức thu đƣợc trƣớc đó, nó có thể chứa các lớp mới mà các lớp này có thể đƣợc
đƣa ra từ dữ liệu mới. Phần 2.2.1 tiếp theo đây sẽ trình bày về thuật toán tiếp cận gia
tăng dựa trên kỹ thuật phân lớp với tập thô.
2.2.1. Mô hình bài toán và kiến thức cơ sở tiếp cận thuật toán khi giá trị thuộc
tính thay đổi
2.2.1.1. Mô hình bài toán tiếp cận:
Chúng ta giả thiết tồn tại 2 thời điểm t và t+1 trong mô hình có hệ thống thông
tin IS =

U, A

. Với A = C D; C là tập các thuộc tính điều kiện và U/C =


1
, 
2
, , 



là các phân lớp điều kiện; D là tập các thuộc tính quyết định và U/D =
{
1
, 
2
, , 

} là các phân lớp quyết định (0<m, n<|U|). Với mỗi  đƣợc định
nghĩa thông qua hàm thông tin 

: 

. Với V
a
là tập các giá trị của thuộc tính a,
đƣợc gọi là miền của thuộc tính a. Ta ký hiệu (, ) là giá trị của đối tƣợng  trên
thuộc tính a; (

, ) là giá trị của lớp điều kiện 

trên thuộc tính a; (, ) giá trị của
đối tƣợng  trên thuộc tính quyết định d với  và (

, ) giá trị của lớp tƣơng
đƣơng quyết định 

trên thuộc tính d. Với mô hình bài toán này, ta chỉ xét tại một thời
điểm chỉ có một trƣờng hợp giá trị thuộc tính thay đổi.
23

Yêu cầu: Khai phá các luật quyết định có ý nghĩa khi giá trị thuộc tính thay đổi
(đƣợc làm thô, làm mịn) và các luật quyết định phải thỏa mãn hai ngƣỡng tối thiểu của
độ chính xác (α) và độ phủ (γ) cho trƣớc.
2.2.1.2. Kiến thức cơ sở tiếp cận thuât toán khi có giá trị thuộc tính thay đổi
Theo [5], giá trị thuộc tính điều kiện thay đổi trong hai trƣờng hợp: Làm thô các
giá trị thuộc tính điều kiện và làm mịn các giá trị thuộc tính điều kiện. Phân vùng sẽ
trở nên thô, tập xấp xỉ dƣới sẽ thu hẹp lại và tập xấp xỉ trên sẽ mở rộng ra khi giá trị
của thuộc tính điều kiện đƣợc làm thô. Ngƣợc lại, phân vùng sẽ trở nên mịn, tập xấp xỉ
dƣới sẽ mở rộng ra và tập xấp xỉ trên sẽ thu hẹp lại khi giá trị của thuộc tính điều kiện
đƣợc làm mịn. Do vậy quá trình làm thô và làm mịn sẽ làm ảnh hƣởng tới hệ thống
ban đầu qua hai khía cạnh. Khía cạnh thứ nhất, các lớp tƣơng đƣơng và các phần tử
trong các lớp sẽ có sự thay đổi. Khía cạnh thứ hai, sự thống nhất của hệ thống cũng bị
thay đổi.
Theo [5], giá trị thuộc tính quyết định thay đổi trong hai trƣờng hợp: Làm thô các
giá trị thuộc tính quyết định và làm mịn các giá trị của thuộc tính quyết định. Khi làm
mịn giá trị của thuộc tính quyết định thì phân vùng sẽ trở nên mịn, tập xấp xỉ dƣới
đƣợc mở rộng ra và tập xấp xỉ trên bị thu hẹp lại. Ngƣợc lại, khi làm thô giá trị thuộc
tính quyết định thì tập xấp xỉ dƣới sẽ thu hẹp lại và tập xấp xỉ trên đƣợc mở rộng ra.
Tác động của nó đến hệ thống ban đầu cũng tƣơng tự nhƣ quá trình làm thô và làm
mịn các giá trị của thuộc tính điều kiện.
Nhƣ vậy, khi giá trị thuộc tính thay đổi sẽ xét trong 4 trƣờng hợp sau: (1) Làm
thô các giá trị của thuộc tính điều kiện; (2) Làm mịn các giá trị thuộc tính điều kiện;
(3) Làm thô các giá trị của thuộc tính quyết định; (4) Làm mịn các giá trị của thuộc
tính quyết định. Trong phạm vi luận văn này, chúng ta chỉ xét tại thởi điểm t+1 chỉ có
một trƣờng hợp thay đổi giá trị thuộc tính.
Sự thay đổi giá trị thuộc tính điều kiện (quyết định) đều ảnh hƣởng tới việc phân
lớp và các phần tử trong lớp tƣơng ứng bị tác động. Để thu đƣợc các phân lớp tƣơng
đƣơng bị thay đổi và thu nạp các phần tử tƣơng ứng với lớp này, ta cần đi sâu nghiên
cứu các tính chất cơ bản của quá trình làm thô và làm mịn các thuộc tính điều kiện

(quyết định). Theo [1], ta có các kết quả và hệ quả sau đây tƣơng ứng với 4 trƣờng hợp
thay đổi của thuộc tính.
(1) Làm thô các giá trị thuộc tính điều kiện:
Tại thời điểm t, hai giá trị  và  của thuộc tính 

 đƣợc làm thô tới giá trị
mới , 


. Tại thời điểm t+1, tồn tại 2 lớp tƣơng đƣơng 

, 

đƣợc làm thô
thành lớp tƣơng đƣơng 

, khi và chỉ khi  



, 




, 


= 


(

, 

).
Chứng minh:
Ta chứng minh chiều thuận: Hai lớp tƣơng 

, 

đƣợc làm thô thành lớp tƣơng
đƣơng 

thì suy ra  



, 




, 


= 

(

, 


):

Một số thuật toán khai phá luật quyết định trên cơ sở dữ liệu di động

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về