Khai phá dữ liệu luật kết hợp mờ và ứng dụng cho bài toán khai phá dữ liệu cước internet

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (35.72 MB, 93 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
• • •
Pham Thi Hoa Nam
• •
KHAI PHÁ DỮ LIỆU LUẬT KẾT HỢP MỜ
VÀ ỨNG DỤNG CHO BÀI TOÁN KHAI PHÁ
Dử LIỆU CƯỚC INTERNET
Ngành : Công nghệ thông tin
Ma số: 1.01.10
LUẬN VĂN THẠC sĩ
NGƯỜI HƯỚNG DÃN KHOA HỌC:
PGS.TS. NGUYỄN THANH THUY
Hà Nội - 2007
MỤC LỤC
MỞ ĐẦU

.
7
Chương 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 7
1.1 Khái niệm cơ bản 7
1.1.1 Mục tiêu của khai phá dữ liệu
7
1.1.2 Định nghĩa khai phá dữ liệu 8
1.1.3 Các dạng dữ liệu có thể khai phá dữ liệu.[l][3] 8
1.1.4 Quá trình khai phá dữ liệu 9
1.1.4.1 Các bước chính trong quá trình khai phá 9
1.1.4.2 Các thành phần của giải thuật khai phá 9
1.1.4.3 Hướng tiếp cận cơ bàn và kỹ thuật áp dụng trong quá trình khai phá 10
1.1.4.4 ứng dụng của khai phá dữ liệu 11
1.2 Phương pháp khai phá dữ liệu 12

1.2.1 Một số phương pháp khai phá dữ liệu phổ biến. [1][3] 12
1.2.1.1 Cây quyết định và luật 12
1.2.1.2 Phương pháp suy diễn và quy nạp 12
1.2.1.3 Phát hiện các luật kết hợp 13
1.2.1.4 Phân nhóm và phân đoạn 14
1.2.1.5 Mạngnơron 15
1.2.1.6 Giải thuật di truyền 16
1.2.2 Phân loại các hệ thống khai phá dữ liệu 16
1.2.3 Những vấn đề quan tâm trong hệ thống khai phá dữ liệu và lựa chọn các kỹ
thuật khai phá 17
Chương 2. KHAI PHÁ DỮ LIỆU BẢNG LUẬT KẾT HỢP 20
2.1 Ý nghĩa của ỉuật kết hợp[5] 20
2.2 Phát biểu bài toán [1][5] 21
2.3 Một số khái niệm cơ bản và các pha thực hiện.[3][4][5]

22
2.4 Một số tính chất của tập mục phổ biến và luật kết hợp

24
2.4.1 Một số tính chật của tập mục phổ biến 24
2.4.2 Một số tính chất của luật kết hợp
25
2.4.3 Các loại luật kết họp. [5][6][8]
.
26
2.5 Các thuật toán khai phá dữ liệu nhờ luật kết hợp 27
2.5.1 Khai phá luật kết hợp nhị phân đơn chiều tò cơ sở dữ liệu tác vụ

27
2.5.1.1 Thuật toán Apriori tìm tập mục phổ biến sử dụng phương pháp sinh các

ứng cử [5] 27
2.5.1.2 Nâng cao hiệu quả thuật toán Apriori [7][8][9]

.

33
2.5.1.3 Thuật toán sinh các luật kết hợp tò tập mục phổ biến

35
2.5.1.4 Khai phá tập mục phổ biến không sinh ứng cử [3 ] 38
2.5.2 Khai phá luật ket hợp định lượng. [6] 44
2.5.3 Khai phá luật kết hợp đa mức [6] 45
2.5.3.1 Luật kết họp đa mức

.
45
2.5.3.2 Các cách tiep cận khai phá luật kết hợp đa mức 45
2.5.4 Khai phá luật kết hợp đóng 46
2.5.4.1 Tập mục phổ biến đóng 47
2.5.4.2 Sinh luật! 50
LỜ I C Ả M Ơ N 3
1
2.5.4.3 Thuật toán CHARM [8] 51
Chương 3. KHAI PHÁ DỮ LIỆU BANG LUẬT KÉT HỢP M Ờ 54
3.1 Khái niệm về tập mờ (Fuzzy Sets), logic mờ và hệ mờ 54
3.1.1 Tập mờ [2],

.

.

.
54
3.1.2 Các phép toán cơ bản trên tập mờ [2] 56
3.1.2.1 Phép phủ định 56
3.1.2.2 Phép hội ’
56
3.1.2.3 Phép tuyển 57
3.1.2.4 Luật De Morgan 57
3.1.2.5 Phép kéo theo 57
3.1.3 Áp dụng tập mờ để rời rạc hóa dữ liệu và các ưu điểm 58
3.2 Các luật kết hợp mờ [3] [11]
.

.

.

59
3.3 Các thuật toán khai phá luật kết hợp mờ
63
3.4 Luật kết hợp mờ ở dạng phủ định 68
3.5 Luật kết hợp mờ với thuộc tính được đánh trọng số [5][6][11] 68
3.6 Tìm các luật thật sự có ích [3] 69
3.6.1 Phương pháp dùng quy luật loại bỏ luật thừa 69
3.6.2 Phương pháp tìm luật đơn giản
.
70
3.6.3 Phương pháp tìm luật mới lạ dựa trên tri thức đã biết
70

3.6.4 Chuyển iuật kết hợp mờ về luật kết hợp thuộc tính số 72
Chương 4. ỨNG DỤNG LUẬT KẾT HỢP MỜ CHO BÀI TOÁN KHAI PHÁ DỮ
LIỆU CƯỚC INTERNET

74
4.1 Nguồn dữ liệu cuớc Internet 74
4.2 Cài đặt hệ thống khai phá dữ liệu cước Internet 75
4.2.1 Các bước tiến hành xây dựng hệ thống khai phá dữ liệu cước Internet 75
4.2.2 Giao diện hệ thống khai phá dữ liệu cước Internet

80
4.2.2.1 Hệ thống hàm chuẩn 80
4.2.2.2 Mờ hoá dữ liệu và sinh luật kết hợp m ờ

81
4.2.2.3 Tìm luật có ích 87
KẾT LUẬN

89
2
Đầu tiên tôi xin gửi lời cảm ơn sâu sắc nhất đến thầy giáo, cán bộ hướng dẫn
khoa học PGS.TS Nguyễn Thanh Thủy, người đã truyền cho tôi cảm hứng về đề tài,
về phương pháp nghiên cứu khoa học, đã giảng dạy, chỉ bảo hướng dẫn tận tình
trong suốt thòi gian qua.
Tôi xin bầy tỏ lòng biết ơn sâu sắc đến tất cả các thầy cô giáo ở Trường Đại
học Công nghệ, Viện công nghệ thông tin đã giảng dạy, truyền đạt cho tôi các kiến
thức trong suốt 3 năm qua.
Cuối cùng tôi xin chân thành cảm ơn các bạn học viên lớp K10T3, các đồng
nghiệp, gia đình đã giúp đỡ, động viên tôi trong suốt thời gian qua.

Hà nội, ngày 23 tháng 10 năm 2007
Học viên
I
Pham Thi Hoa Nam
• •
LỜI CẢM ƠN
3
40
74
77
79
80
80
81
81
82
82
83
83
84
.84
85
.85
86
86
87
.87
88
4
DANH MỤC CÁC HÌNH VẼ, ĐÒ THỊ

Ví dụ cây FP-tree với minsup=20%
Mô hình vận hành hệ thống (theo quy trình đấu nối và khai thác dịch vụ)
Mô hình tổng quan hệ thống khai phá dữ liệu:

Mô hình cơ sở dữ liệu quan hệ
Loại hàm thuộc
Hàm thuộc và tham sổ cho mỗi hàm thuộc
Tập mờ và thuộc tính gốc của nó
Giao diện thực hiện Mờ hoá dữ liệu và cơ sở dữ liệu cước gốc

Cơ sở dữ liệu sau khi thực hiện mờ hoá

Sinh tập phổ biến sử dụng toán tử T-norm - Tích đại sổ
Sinh tập phổ biến sử dụng toán tử T-norm - Phép lấy min

Sinh tập phổ biến sử dụng toán tử T-norm - Tích bị chặn
Sinh tập phổ biến sử dụng toán tử T-norm - Tích Drastic
Sinh tập phổ biến sử dụng toán tử T-norm - Phép giao

Sinh tập các luật mờ từ tập phổ biến
Diễn giải luật
Sinh tập luật bằng luật phủ định

Sinh luật kết hợp với các thuộc tính được đánh trọng số
Tìm luạt mới lạ dựa trên tri thức đã biết
Tìm luật đom giản
Loại bỏ luật thừa
M Ở Đ Ầ U
Trong những năm gần đây, một trong những vấn đề chính được các nhà khoa học
quan tâm nghiên cứu là khai phá dữ liệu mà nội dung chủ yếu là phát hiện thông tin

có tính trí tuệ trong kho tàng dữ liệu, bởi tính ứng dụng cao trong thực tiễn cuộc
sống. Khai phá dữ liệu thường đi đôi với phát hiện tri thức.
Trong sự phát triển mạnh mẽ của công nghệ máy tính điện tử, nhất là việc ứng
dụng phổ biến trong lĩnh vực quản lý, lĩnh vực hoạt động cần có nhiều thông tin và
tri thức. Trong sự phát triển của xã hội mà yếu tố khoa học công nghệ có tính quyết
định nhu cầu như vậy trở nên ngày càng to lớn và dẫn đến việc tràn ngập các thông
tin và những nhà quản lý đứng trước tĩnh trạng phải đối mặt với việc lụt “thông
tin”. Ví dụ Hệ thống vệ tinh cùa NASA trung bình mỗi giờ phải tạo ra 50 Gb dữ liệu
ảnh, thị trường giao dịch chứng khoán thực hiện khoảng 20 triệu giao dịch dữ liệu
mỗi ngày,
Chính vì vậy các nhà khoa học cho rằng chúng ta đang sổng trong xã hội giàu
thông tin nhưng nghèo tri thức. Vì thế đòi hỏi phải nghiên cứu phát triển các
phương pháp khai phá, phát hiện ra những thông tin, tri thức hữu ích bị che giấu
trong đống “dữ liệu” để phục vụ các công việc của nhà quản lý, các chuyên gia,
chuyên viên.
Mục tiêu của bài toán khai phá dữ liệu là tìm ra thông tin, tri thức (những mối
quan hệ hay sự phụ thuộc giữa các đại lượng (các biến) trong kho tàng dữ liệu (về
một lĩnh vực nào đó).
Chúng ta dễ dàng nhận thấy, mỗi con người dù là người nước nào đều tư duy
bằng ngôn ngữ và như vậy tri thức trong đầu mỗi người đều được biểu thị qua ngôn
ngữ. Vì ngôn ngữ hàm chứa các thông tin mờ cho nên việc ứng dụng phương pháp
luận mờ ừong việc biểu diễn, xử lý, xây dựng các hệ tri thức là tự nhiên và như vậy
mới thực sự đi vào giải quyết vấn đề một cách bản chất. Chính vì vậy các mô hình
mờ (fuzzy) được sừ dụng để mô phỏng, phản ánh, giải quyết các bài toán liên quan
đến khía cạnh định tính của tri thức.
5
Luật kết hợp mờ là một trong những phương pháp khai phá dữ liệu có hiệu quả
và có tính ứng dụng cao
Hướng nghiên cứu “Khai phá dữ liệu bằng luật kết hợp mờ” được xây dựng và
tổng hợp các nội dung dựa trên một số nghiên cứu chủ yếu trong lĩnh vực khai phá

dữ liệu bằng luật kết họp mờ trong những năm gần đây ở một số hội nghị quốc tế,
một số bài báo được công bố trên các tạp chí chuyên ngành, trên Internet.
Nội dung luận văn gồm các chương sau:
Chương 1: Tổng quan về khai phá dữ liệu
Chương này trình bày khái quát về khai phá dữ liệu, các phương pháp khai phá,
các lĩnh vực ứng dụng
Chương 2: Khai phá dữ liệu bằng luật kết họp
Chương này trình bày các phương pháp khai phá dữ liệu bằng luật kết hợp từ
thuật toán cơ bản đến các thuật toán cải tiến. Đồng thời cũng trình bày một số vấn
đề cơ bản của luật kết họp đa mức, định lượng, đóng.
Chương 3: Khai phá dữ liệu bằng luật kết hợp mờ
Chương này trình bày khái niệm về tập mờ, các phép toán cơ bản trên tập mờ,
các luật kết hợp mờ, cách tìm kiếm các luật thực sự có ích.
Chương 4: ứn g dụng luật kết hợp mờ cho bài toán khai phá dữ liệu cước Internet
Trong chương này trình bày bài toán, xác định nhiệm vụ khai phá dữ liệu, phân
tích và thiết kế các môđul, giao diện chương trình. Chương trình được xây dựng với
mục đích thử nghiệm để đánh giá kết quả.
6
C hư ơng 1. TỔNG QUAN VÈ KHAI PHÁ DỮ LIỆU
1.1 Khái niêm cơ bản
1.1.1 Mục tiêu của khai phá dữ liệu
Trong những thập niên gần đây, lượng thông tin được lun trữ trên các thiết bị
không ngừng tăng lên. Sự tích lũy dữ liệu này xảy ra với một tốc độ bùng nổ. Người
ta dự đoán rằng, lượng thông tin trên toàn cầu tăng khoảng gấp đôi sau hai năm
đồng thời số lượng cũng như kích cỡ của cơ sở dữ liệu cũng tăng lên nhanh chóng.
Trong lĩnh vực kinh doanh, những nhà quản lý đang ngập trong dữ liệu nhưng
việc tìm ra tri thức và thông tin hữu ích thì lại rất khó. Lượng dữ liệu khổng lồ này
thực sự đã trở thành nguồn tài nguyên rất giá trị bởi thông tin là yểu tố then chốt
trong mọi hoạt động thương mại vì thông tin ừợ giúp người điều hành và nhà quản
lý có cái nhìn sâu sắc, chính xác, khách quan trước khi ra quyết định. Việc khai thác

những thông tin tiềm ẩn mang tính dự đoán từ những cơ sở dữ liệu lớn là mục tiêu
chính của khai phá dữ liệu - một hướng tiếp cận mới với khả năng giúp các đơn vị,
tổ chức chú trọng vào những thông tin có giá trị, ý nghĩa từ những tập bợp dữ liệu
lớn mang tính lịch sử. Những công cụ khai phá dữ liệu có thể dự đoán những xu
hướng tương lai do đó cho phép các tổ chức, doanh nghiệp ra những quyết định kịp
thời được định hướng bởi tri thức mà khai phá dữ liệu đem lại. Sự phân tích dữ liệu
một cách tự động và mang tính dự báo của khai phá dữ liệu khiến nó có ưu thế hơn
hẳn so với sự phân tích thông thường dựa trên những sự kiện trong quá khứ của các
hệ hỗ trợ ra quyết định truyền thống trước đây. Công cụ khai phá dữ liệu cũng có
thể trả lời câu hỏi trong lĩnh vực kinh doanh mà trước đây được xem là tốn nhiều
thời gian để xử lý.
Với tất cả các ưu thế trên, khai phá dữ liệu đã chứng tỏ được tính hữu dụng của
nó trong môi trường kinh doanh, quản lý phức tạp ngày nay. Giờ đây khai phá dữ
liệu đã và đang trở thành một trong những hướng nghiên cứu chính của lĩnh vực
khoa học máy tính và công nghệ tri thức. Phạm vi ứng dụng ban đầu của khai phá
dữ liệu chỉ là trong lĩnh vực thương mại và tài chính. Nhưng ngày nay, khai phá dữ
7
liệu đã được ứng dụng rộng rãi trong các lĩnh vực khác như: sinh học, y học, viễn
thông, giáo dục, ngân hàng,
1.1.2 Định nghĩa khai phá dữ liệu
Có thể hiểu sơ lược rằng khai phá dữ liệu là quá trình tìm kiếm thông tin hữu ích,
tiềm ẩn và mang tính dự báo trong các cơ sở dữ liệu lớn. Như vậy, quá trình này còn
có thể được gọi là khám phá tri thức. Nhiều nhà khoa học đồng ý với nhau rằng hai
thuật ngữ khám phá tri thức và khám phá dữ liệu là tương đương với nhau và có thể
thay thế cho nhau. Vì họ lý giải rằng mục đích chính của quá trình khám phá tri
thức là thông tin có ích, nhưng đối tượng mà chúng ta xừ lý rất nhiều trong quả
trình đó lại chính là dữ liệu. Mặt khác, khi chia các bước trong quá trình khám phá
tri thức, nhiều nhà khoa học khác cho rằng khám phá dữ liệu chỉ là một bước trong
quá trình khám phá tri thức.
1.1.3 Các dạng dữ liệu có thể khai phá dữ Iiệu.[l][3]

Có nhiều dạng dữ liệu khác nhau có thể áp dụng được các phương pháp khai phá
dữ liệu. Sau đây liệt kê một số loại cơ sở dữ liệu phổ biến:
Cơ sở dữ liệu quan hệ (relational database): là các cơ sở dữ liệu tác nghiệp được
tổ chức theo mô hình dữ liệu quan hệ. Hầu hết các hệ quản trị cơ sở dữ liệu đều hỗ
trợ dạng cơ sở dữ liệu này như: Oracle, IBM DB2, MS SQL Server, MS Access,
Cơ sở dữ liệu đa chiều (multimension structures, data warehouses, data mart): là
kho dữ liệu được tập hợp, chọn lọc từ nhiều nguồn dữ liệu khác nhau. Dạng dữ liệu
này mang tính lịch sử (tức là có tình thời gian) và chủ yếu phục vụ cho quá trình
phân tích cũng như khai phá tri thức nhằm hỗ trợ cho việc ra quyết định.
Cơ sở dữ liệu dạng giao dịch (transactional databases): là dạng cơ sở dữ liệu tác
nghiệp nhưng các bản ghi thường là các giao dịch. Dạng dữ liệu này thường phổ
biến trong lĩnh vực thương mại và ngân hàng.
Cơ sở dữ liệu quan hệ - hướng đổi tượng (object-relational databases’): là dạng
cơ sở dữ liệu lai giữa hai mô hình quan hệ và hướng đối tượng.
8
Cơ sở dữ liệu không gian vù thời gian (spatial, temporal and time-series data): là
dạng dữ liệu có tích hợp thuộc tính về không gian (ví dụ như dữ liệu về bản đồ)
hoặc thời gian (ví dụ như dữ liệu về thị trường chứng khoán).
Cơ sở dữ liệu đa phương tiện (multimedia databases): là dạng dữ liệu âm thanh
(audio), hình ảnh (image), phim ảnh (video), Text và W W W , Dạng dữ liệu này
hiện đang rất phổ biến trên Internet.
1.1.4 Quá trình khai phá dữ liệu
1.1.4.1 Các bước chính trong quá trình khai phá
Quá trình khai phá dữ liệu thực hiện các bước chính sau:
Xác đinh nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết.
Xác định các dữ liệu liên quan: dùng để xây dựng giải pháp giải quyết nhiệm vụ
bài toán.
Thu nhập các dữ liệu có liên quan với nhau và xừ lý chúng thành dạng nào đỏ
sao cho giải thuật khai phá dữ liệu có thể hiểu được.
Chọn thuật toán khai phá dữ liệu thích hợp và thực hiện việc khai phá nhằm tìm

được các mẫu có ý nghĩa dưới dạng biểu diễn tương ứng với các ý nghĩa đó.
1.1.4.2 Các thành phần của giải thuật khai phá
Quá trình khai phá dữ liệu là quá trình phát triển mẫu trong đó giải thuật khai phá
dữ liệu tìm kiếm mẫu đáng quan tâm theo dạng xác định các luật, cây phân lớp, hồi
quy, phân nhóm, Giải thuật khai phá dữ liệu gồm 3 thành phần chính:
Biểu diễn mô hình. Mô hình được biểu diễn bằng một ngôn ngữ sao cho có thể
khai phá được. Nấu mô hình có sự mô tả hạn chế thì sẽ không thể học được hoặc sẽ
không thể có các mẫu tạo ra. Nếu diễn tả mô hình càng lớn thì càng làm tăng mức
độ nguy hiểm do bị học quá nhiều và làm giảm đi khả năng dự đoán các dữ liệu
chưa biết. Hơn nữa, việc tìm kiếm sẽ càng trờ nên phức tạp hơn và việc giải thích
mô hình cũng khó khăn hơn.
9
Đánh giá mô hình: Đánh giá xem một mẫu có đáp ứng được các tiêu chuẩn của
quá trình phát hiện ừi thức hay không. Việc đánh giá mô hình được thực hiện thông
qua kiểm fra dữ liệu, đổi với nhiệm vụ dự đoán thì việc đánh giá mô hình ngoài
kiểm tra dữ liệu còn dựa trên độ chính xác dự đoán mà việc đánh giá độ chính xác
dự đoán dựa trên đánh giá chéo.
Tìm kiểm mô hình'. Bao gồm 2 thành phần: tìm kiếm tham số và tìm kiểm mô
hình.
Tìm kiếm tham số: Giải thuật cần tìm các tham số để tối ưu hóa các tiêu chuẩn
đánh giá mô hình với các dữ liệu quan sát được và với một miêu tả mô hình đã định.
Tìm kiếm mô hình: Quá trình này xảy ra giống như một vòng lặp qua phương
pháp tìm kiếm tham số. Khi miêu tả, mô hình bị thay đổi tạo nên một họ các mô
hình thì với mỗi một miêu tả mô hình phương pháp tìm kiếm tham số được áp dụng
để đánh giá chất lượng mô hình. Các phương pháp tìm kiếm mô hình thường sử
dụng các kỹ thuật tìm kiếm kinh nghiệm bởi kích thước của không gian các mô hĩnh
có thể ngăn cản các tìm kiếm tổng thể.
1.1.4.3 Hướng tiếp cận cơ bản và kỹ thuật áp dụng trong quá trình khai phá
Vấn đề khai phá dữ liệu có thể được phân chia theo lớp các hướng tiếp cận chính
sau:

Phân lớp và dự đoản (classification & prediction): xếp một đối tượng vào một
trong những lớp đã biết. Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết. Đối với
hướng tiếp cận này thường áp dụng một số kỹ thuật như học máy (machine
learning), cây quyết định (decision tree), mạng nơron (nơron network),., Hay lớp
bài toán này còn được gọi là học có giám sát (supervised learning).
Phân cụm (clustering/segmentation): sắp xếp các đối tượng theo từng cụm
nhưng số lượng và tên các cụm chưa biết trước. Lớp bài toán phân cụm còn được
gọi là học không giám sát (unsupervised learning)
10
Luật kết hợp (association rules)-, là dạng luật biểu diễn tri thức ở dạng khá đơn
giản. Ví dụ: “80% sinh viên đăng ký học Cơ sở dữ liệu thì có tới 70% trong số họ
đăng ký học Phân tích thiết kế hệ thống thông tin”. Hướng tiếp cận này được ứng
dụng nhiều trong lĩnh vực kinh doanh, y học, tin sinh học, giáo dục,
Khám phá chuỗi theo thời gian (sequential / temporal patterns): Cũng tương tự
như khai phá dữ liệu bằng luật kết hợp nhưng có thêm tính thứ tự và tính thời gian.
Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường
chứng khoán bởi chúng có tính dự đoán cao.
Mô tả khái niệm (concept description & summarization)', lớp bài toán này thiên
về mô tả, tổng hợp và tóm tắt khái niệm. Ví dụ: tóm tắt văn bản.
1.1.4.4 ứng dụng của khai phá dữ liệu
Khai phá dữ liệu là một lĩnh vực mới phát triển nhưng thu hút được nhiều nhà
nghiên cứu nhờ vào những ứng dụng thực tiễn của nó. Sau đây là một số lĩnh vực
ứng dụng điển hình:
Phân tích dữ liệu và hỗ írợ ra quyết định
Sinh học: tìm kiếm, đối sánh các hệ gen và thông tin di truyền, mối liên hệ giữa
một số gene và một số bệnh di truyền,
Tài chính và thị trường chứng khoán: Phân tích tình hình tài chính và dự báo giá
của các cổ phiếu.
Bảo hiểm, Giáo dục
Điều trị trong y học: Mối liên hệ giữa triệu chứng, chuẩn đoán và phương pháp

điều trị.
Phân lớp văn bản, tóm tắt văn bản và phân lớp các trang Web.
11
1.2 Phương pháp khai phá dữ liệu
1.2.1 Một số phương pháp khai phá dữ liệu phổ biến. [1][3]
1.2.1.1 Cây quyết định và luật
Cây quyết định'. Cây quyết định là một phương pháp mô tả tri thức dạng đơn giản
nhằm phân các đổi tượng dữ liệu thành một số lớp nhất định. Các nút của cây được
gán nhãn là tên các thuộc tính, các cạnh được gán các giá ứị có thể của các thuộc
tính, các lá miêu tả các lớp khác nhau. Các đối tượng được phân lóp theo các đường
đi trên cây, qua các cạnh tương ứng với giá trị của các thuộc tính của đối tượng tới
Tạo luật: Các luật được tạo ra nhằm suy diễn cho một số mẫu dữ liệu có ý nghĩa
về mật thổng kê. Các iuật có dạng nếu p thì Q, trong đó p là mệnh đề đúng với một
phần dữ liệu trong cơ sở dữ liệu và Q là mệnh đề dự đoán.
Cây quyết định là phương pháp dùng trong các bài toán dữ liệu theo một tiêu
chuẩn nào đó dựa trên mức độ khác nhau của thuộc tính. Cây quyết định và luật có
ưu điểm là hình thức miêu tả đom giản, mô hình suy diễn khá dễ hiểu đối với người
sử dụng. Tuy nhiên, giói hạn của nó là miêu tả cây và luật chỉ có thể biểu diễn được
một số dạng chức năng và vì vậy giới hạn cả về độ chính xác của mô hình.
1.2.1.2 Phương pháp suy diễn và quy nạp
Phương pháp suy diễn: Rút ra thông tin là kết quả logic từ các thông tin nằm
trong cơ sở dữ liệu dựa trên các quan hệ trong dữ liệu. Phương pháp suy diễn dựa
trên các sự kiện chính xác để suy ra các tri thức mới từ các thông tin cũ. Mầu chiết
suất được bằng cách sử dụng phương pháp này thường là các luật suy diễn.
Phương pháp quy nạp: Các thông tin được suy ra tò cơ sở dữ liệu bằng cách nó
tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ không bắt đầu với các tri thức đã biết
trước.
12
1.2.1.3 Phát hiện các luật kết họp
Các luật kết họrp là một dạng biểu diễn tri thức, hay chính xác là dạng mẫu của

hình thành tri thức. Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các
thành phần dữ liệu trong cơ sờ dữ liệu. Một đầu ra của giải thuật khai phá dữ liệu là
tập các luật kết hợp tìm được.
Cho một lược đồ R= {A!,A2, ,Ap} với các thuộc tính có miền giá trị {0,1} và
một quan hệ r trên R. Ta gọi một luật kết hợp trên quan hệ r được mô tả như sau: X
=> B với XcRvàB 6 R\x. Cho WcR, đặt s(W,r) là tần sổ xuất hiện của w
trong r được tính bằng tỉ lệ của các hàng trong r có giá trị 1 tại mỗi cột. Khi đó ta
định nghĩa tần số xuất hiện và độ tin cậy của luật X => B trong r như sau:
Tần số xuất hiện ơ = s(X u {B},r)
Độ tin cậy 0 =s(X u {B},r) \ s(X,r)
Với X gồm nhiều thuộc tính và B là giá trị không cố định.
Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật X => B
sao cho tần số xuất hiện của luật không nhỏ hơn ngưỡng ơ cho trước và độ tin cậy
của luật không nhỏ hơn ngưỡng 0 cho trước.
Khi thiết kế dữ liệu dùng cho kỹ thuật kết hợp cần lưu ý để giảm thiểu số lượng
các thuộc tính đầu vào bởi không gian tìm kiếm các luật sẽ tăng theo hàm mũ của số
lượng các thuộc tính đầu vào.
Giải thuật tìm các luật kết hợp được bắt đầu bằng việc tìm tất cả các tập thường
xuyên xuất hiện. Tập thường xuyên xuất hiện lớn hơn ngưỡng tần số được xác định
trước. Các luật kết hợp sẽ được tạo ra bằng cách ghép dần các tập thuộc tính dựa
trên mức độ thường xuyên.
Ví dụ: Phân tích cơ sở dữ liệu bán hàng nhận được thông tin về những khách
mua các mặt hàng máy tính có khuynh hướng mua phần mềm kế toán trong cùng
lần mua được mô tả bởi luật kết họp như sau:
13
“Neu mua máy tính thì mua phần mềm kế toán ”
[Độ hỗ trợ: 30%, Độ tin cậy: 65%]
Phương pháp này có ưu thể cơ bản là đơn giản và dễ hiểu đối với con người. Ở ví
dụ trên độ hỗ trợ 30% có nghĩa là: 30% của tất cả các giao dịch được phân tích thì
chi ra rằng máy tính và phần mềm kế toán được mua cùng nhau. Còn độ tin cậy

65% có nghĩa là: 65% các khách hàng mua máy tính thì cũng mua phần mềm. Đặc
biệt, các luật kết hợp được coi là đáng quan tâm nếu chúng thoả mãn cả hai ngưỡng
độ hỗ trợ cực tiểu và độ tin cậy cực tiểu. Những ngưỡng này thường do người dùng
hoặc các chuyên gia trong lĩnh vực xác định.
Nhược điểm cơ bản của phương pháp này là việc tăng nhanh chóng khối lượng
tính toán và các thông số. Tuy nhiên với sự phát triển nhanh chóng và mạnh mẽ của
phần cứng thì vấn đề này cũng được khắc phục.
1.2.1.4 Phân nhóm và phân đoạn
Kỹ thuật phân nhóm và phân đoạn là những kỹ thuật phân chia dữ liệu sao cho
mỗi phần hoặc mỗi nhóm giống nhau theo một tiêu chuẩn nào đó. Mối quan hệ
thành viên của các nhóm có thể dựa trên mức độ giống nhau của các thành viên và
từ đó xây dựng nên các luật ràng buộc giữa các thành viên trong nhóm. Một kỹ
thuật phân nhóm khác là xây dựng nên các hàm đánh giá các thuộc tính của các
thành phần như là hàm của các tham số của các thành phần. Kỹ thuật này được gọi
là kỹ thuật phân hoạch tối ưu.
Ví dụ: một trong những ứng dụng của kỹ thuật phân nhóm theo độ giống nhau là
cơ sở dữ liệu khách hàng để phân nhóm khách hàng theo các tham số và các nhóm
thuế có được khi thiết lập biểu thuế bảo hiểm.
Mau đầu ra của quá trình khai phá dữ liệu sừ dụng kỹ thuật này là các tập mẫu
chứa dữ liệu có chung những tính chất nào đó được phân tách từ cơ sở dữ liệu. Khi
các mẫu được thiết lập, chúng có thể được sử dụng để tái tạo các tập dữ liệu dễ hiểu
14
hơn, đồng thời cũng cung cấp các nhóm dữ liệu cho các hoạt động cũng như công
việc phân tích. Đối với cơ sở dữ liệu lớn, việc lấy ra các nhóm này là rất quan trọng.
1.2.1.5 Mạng nơron
Mạng nơron là một phương pháp khai phá dữ liệu phát triển trên cấu trúc toán
học với khả năng học trên mô hình hệ thần kinh con người.
Mạng nơron có thể đưa ra ý nghĩa từ các dữ liệu phức tạp hoặc không chính xác
và có thể được sừ dụng để chiết suất các mẫu và phát hiện xu hướng quá phức tạp
mà con người cũng như các kỹ thuật máy tính khác không thể phát hiện được.

Một trong những ưu điểm phải kể đến các mạng nơron là khả năng tạo ra các mô
hình dự đoán do có độ chính xác cao, có thể áp dụng được cho nhiều các bài toán
khác nhau đáp ứng các nhiệm vụ đặt ra của khai phá dữ liệu như phân lớp, phân
nhóm, mô hình hoá, dự báo,
Mau chiết suất bằng mạng nơron được thể hiện ở các nút đầu của mạng. Mạng
nơron sử dụng các hàm số chứ không sử dụng các hàm biểu tượng để tính mức tích
cực của các nút đầu ra và cập nhật các trọng số của nó.
Đặc điểm của mạng nơron là không cần gia công dữ liệu nhiều trước khi bắt đầu
quá trình học như các kỹ thuật khác. Tuy nhiên để có thể sử dụng mạng nơron có
hiệu quả cần phải xác định các yếu tố khi thiết kế mạng như:
Kiến trúc mạng là gì?
Hàm học cần thực hiện?
Mạng cần bao nhiêu nút?
Khi nào thì việc học dừng?
Ngoài ra còn có rất nhiều bước quan trọng cần phải làm để tiền xử lý dữ liệu
trước khi đưa vào mạng nơron để mạng có thể hiểu được.
15
Mạng nơron được đóng gói với những thông tin trợ giúp của các chuyên gia đáng
tin cậy và được họ bảo đảm các mô hình này làm việc tốt. Sau khi học, mạng có thể
được coi là một chuyên gia trong lĩnh vực thông tin mà nó vừa được học.
1.2.1.6 Giải thuật di truyền
Đây là phương pháp không chỉ phục vụ phát hiện tri thức mà còn phục vụ rất
nhiều bài toán khác. Ví dụ bài toán tối ưu hoá hoặc lập lịch. Tư tường của thuật toán
là áp dụng quy luật của sự chọn lọc tự nhiên. Người ta mô phỏng tập họp dữ liệu
ban đầu bằng ký tự nhị phân và gọi là những quần thể khởi tạo. Bằng các thao tác
lai ghép, đột biến chúng ta biến đổi quần thể gene trong quần thể là không thay đổi.
Một hàm thích nghi được xây dựng để xác định mức độ thích nghi của quần thể
theo các giai đoạn. Quá trình tiến hoá làm cho các quần thể thích nghi ngày càng
cao. về mặt lý thuyết giải thuật di truyền cho ta lời giải tối ưu toàn cục (Khác với
phương pháp mạng nơron). Tuy nhiên, người ta cũng hạn chế lời giải với một mức

độ thích nghi nào đó đề hạn chế số lượng các bước xây dựng quần thể.
Nói theo nghĩa rộng thì giải thuật di truyền mô phỏng lại hệ thống tiến hoá trong
tự nhiên, chính xác hơn là các giải thuật chỉ ra tập các cá thể được hình thành, được
ước lượng và biến đổi như thế nào. Ví dụ như xác định xem làm thế nào để lựa chọn
các cá thể tạo giống và lựa chọn các cá thể nào để loại bỏ.
Giải thuật di truyền là một giải thuật tối ưu hoá, nó được sử dụng rất rộng rãi
trong việc tối ưu hoá các kỹ thuật khai phá dữ liệu trong đó có kỹ thuật mạng nơron.
Sự liên hệ của nó với các giải thuật khai phá dữ liệu là ở chỗ tối ưu hoá là cần thiết
để xác định các giá trị tham số nào tạo ra các luật tốt nhất.
1.2.2 Phân loại các hệ thống khai phá dữ liệu
Phân loại khai thác dữ liệu dựa trên các tiêu chí khác nhau
Phân loại dựa trên kiểu dữ liệu được khai thác: Cơ sở dữ liệu quan hệ, kho dữ
liệu, cơ sở dữ liệu giao tác, cơ sở dữ liệu hướng đối tượng, cơ sở dữ liệu không
gian, cơ sở dữ liệu đa phương tiện, cơ sở dữ liệu văn bản,
16
Phân loại dựa trên dạng tri thức được khám phá: tóm tắt và mô tả, luật kết hợp,
phân lớp, phân cụm, khai phá chuỗi,
Phân loại dựa trên lĩnh vực được áp dụng: Thương mại, viễn thông, tài chính, y
học, web,
Phân loại dựa trên kỹ thuật được áp dụng: Phân tích trực tuyến (Online Analytial
Processing - OLAP), học máy (cây quyết định, mạng nơron nhân tạo, K-Means, giải
thích di truyền, máy vector hỗ trợ - SVM, tập thô, tập mờ, ). Thông thường sử
dụng tập mờ là thích hợp cho việc tìm ra và hiểu được sự liên quan của các mô hình
dữ liệu chưa đầy đủ, tạp nhiễu, thông tin hỗn tạp và tác động của con người, và tò
đó có thể cung cấp giải pháp xấp xỉ nhanh hơn. Mạng nơron có khả năng tổng quát,
không giới hạn, mạnh và học tốt trong môi trường dữ liệu giàu (data - rich), thuật
toán di truyền cung cấp khả năng tìm các thuật toán để chọn mẫu từ các dữ liệu hỗn
tạp dựa trên một số hàm tiêu chuẩn/ mục tiêu thường dùng. Tập thô thì phù hợp cho
tìm ra các mẫu khác nhau của tình trạng không rõ ràng trong dữ liệu. Một số yêu
cầu khai thác dữ liệu cần phải áp dụng phương pháp tính toán mềm (Tính toán mềm

là sự kết hợp của các phương pháp logic mờ, thuật toán di truyền)
1.2.3 Những vấn đề quan tâm trong hệ thống khai phá dữ liệu và lựa chọn các
kỹ thuật khai phả
Một số hướng nghiên cứu của khai thác dữ liệu hiện nay:
OLAM (Online Analytical Mining): Là sự tích hợp giữa cơ sở dữ liệu, kho dữ
liệu, và khai thác dữ liệu. Một số hệ cơ sở dữ liệu như Oracle. MS SQL Server đã
tích hợp tính năng xây dựng kho dữ liệu và phân tích trực tuyến (OLAP). Những
tính năng này được hỗ trợ dưới dạng các công cụ đi kèm và người sử dụng phải mua
nếu cần sừ dụng. Các nhà nghiên cứu trong lĩnh vực cơ sở dữ liệu còn muốn có
thêm sự tích hợp giữa cơ sở dữ liệu, kho dữ liệu, và khai thác dữ liệu. Khám phá
được nhiều tri thức khác nhau từ các kiểu dữ liệu khác nhau. Tính chính xác và hiệu
quả, khả năng mở rộng và tích hcrp, xử lý dữ liệu bị nhiễu không đầy đủ và tính có
ích của tri thức được khám phá. vấn đề song song hóa và phân tán quá trình khai
ĐAI HOC QUO C GI.A HA NÕI
17
thác dữ liệu. Vấn đề ngôn ngữ truy vấn trong Khai thác dữ liệu phải cung cấp cho
người sử dụng một ngôn ngữ thuận tiện, gần gũi tương tự như SQL trong Cơ sờ dữ
liệu quan hệ. Biểu diễn các tri thức khai thác được sao cho trực quan và gần gũi với
người sử dụng để người sử dụng tri thức có hiệu quả hơn.
Hiện nay người ta vẫn chưa đưa ra được một tiêu chuẩn nào trong việc quyết
định sử dụng phương pháp nào vào trong trường hợp nào thì hiệu quả.
Hầu hết các kỹ thuật khai phá dữ liệu đều là mới trong các lĩnh vực. Hơn nữa lại
có rất nhiều kỹ thuật được sử dụng cho nhiều bài toán khác nhau. Vì vậy câu hỏi
dùng kỹ thuật nào để khai phá không phải là đơn giản. Mỗi phương pháp đều có
những điểm mạnh và điểm yếu riêng của nó, nhưng đa số các điểm yếu đều có thể
khắc phục được.
Vậy phải làm thế nào để áp dụng kỹ thuật một cách đơn giản nhất, dễ sử dụng, để
không cảm thấy sự phức tạp vốn có của kỹ thuật đó và vấn đề là tất cả các mẫu tìm
được đều đáng quan tâm? Đây chính là vấn đề quan trọng đối với một hệ thống khai
phá dữ liệu. Hệ thống khai phá có thể sinh ra hàng nghìn mà thậm chí có thể hàng

triệu mẫu hoặc luật, do vậy với câu hỏi trên thì câu trả lời là: Chỉ có một phần nhỏ
trong các mẫu hay các luật là đảng quan tâm và hữu ích với người sử dụng.
Có một vài câu hỏi thường đặt ra đối vófi một hệ thống khai phá dữ liệu là:
Cái gì tạo ra các mẫu quan tâm?
Hệ thống khai phá có thể sinh ra được tất cả các mẫu quan tâm không?
Hệ thống khai phá có thể chỉ sinh các mẫu quan tâm không?
Để trả lời các câu hỏi này ta nên quan tâm đến sự gợi ý sau:
Đổi với câu hỏi 1: M au đáng quan tâm nếu: Dễ hiểu đối với con người, hợp lệ
hoặc dữ liệu được kiểm tra với độ chắc chắn nào đó, có khả năng có ích, mới lạ.
Mau cũng là đáng quan tâm nếu nó là giả thiết hợp lệ được người dùng xác nhận.
Mầu quan tâm luôn chứa đựng tri thức.
18
Có vài độ đo cho các mẫu quan tâm. Nó dựa trên cấu trúc của mẫu đã khai phá và
thống kê chúng. Chẳng hạn độ đo của luật kết hợp dạng X —> Y là độ hỗ trợ và độ
tin cậy của luật. Cụ thể người ta định nghĩa là xác suất P(X u Y) và xác suất
P(X/Y).
Nhìn chung các độ đo này được người dùng điều khiển.
Đổi với câu hỏi thứ 2: Có thể tạo ra được tất cả các mẫu đáng quan tâm không?
Vấn đề này liên quan đến tính hoàn thiện của thuật toán khai phá. Nó thường không
thực hiện được và không có khả năng đối với các hệ thống khai phá dữ liệu để sinh
ra tất các các mẫu có thể có, có thể tồn tại. Thay cho điều đó người ta tập trung vào
mục tiêu tìm kiếm. Ví dụ với Khai phá bằng luật kết hợp, người ta sử dụng các độ
đo có thể đảm bảo khai phá trọn vẹn, có nghĩa là xác định trước ngưỡng độ hỗ trợ
và độ tin cậy nhỏ nhất thì có thể tìm được.
Đối với câu hỏi thứ 3: Hệ thống khai phá có thể chỉ sinh ra các mẫu cần quan
tâm không? Đây chính là vấn đề tối ưu trong khai phá dữ liệu, v ấ n đề này là thách
thức rất lớn đối với các nhà khoa học trong lĩnh vực khai phá dữ liệu.
19
Chương 2. KHAI PHÁ DỮ LIỆU LUẬT KÉT HỢP
Khai phá dữ liệu bằng luật kết hợp là một phương pháp quan trọng và phổ biến

trong khai phá dữ liệu. Nó được ra đòi và phát triển mạnh mẽ trong những năm gần
đây. Đến nay những nghiên cứu về luật kết hợp tập trung xây dựng thuật toán khai
phá luật kết hợp mới, hiệu quả hoặc cải tiến, phát triển các thuật toán để hiệu quả
hơn.
2.1 Ý nghĩa của luật kết hợp[5]
Luật kết hợp là những luật có dạng như sau:
70% khách hàng mua đường thì mua thêm sữa, 30% giao dịch có mua cả đường
lẫn sữa.
75% bệnh nhân có hút thuốc lá và sổng ở ven vùng ô nhiễm thì bị ung thư phổi,
trong đó 25% số bệnh nhân vừa hút thuốc lá, sống ven vùng ô nhiễm vừa bị ung thư
phổi.
Ở đây vế trái (tiền đề) của luật là: “Mua đường”, “hút thuốc lá và sống ven vùng
ô nhiễm”, còn “mua sữa” và “ung thư phổi” là vế phải (kết luận) của luật.
Những con số: 30%, 25% là độ hỗ ừợ của luật (support - số phần trăm giao dịch
chứa cả vế trái lẫn vế phải), còn 70% và 75% là độ tin cậy của luật (cofidence - số
phần trăm các giao dịch thoả mãn vế ừái thì cũng thoả mãn vế phải).
Ta thấy tri thức đem lại bởi luật kết hợp ở dạng trên có một sự khác biệt cơ bản
so với thông tin thu được từ các câu lệnh truy vấn dữ liệu thông thường. Đó thường
là những tri thức, những mối liên hệ chưa được biết trước và mang tính dự báo đang
tiềm ẩn trong dữ liệu. Những tri thức này không đơn giản chỉ là kết quả của các
phép nhóm, tính tổng, sắp xếp mà là kết quả của một quá trinh tính toán khá phức
tạp và tốn nhiều thời gian.
Tuy luật kết hợp là dạng luật khác đơn giản nhưng lại mang rất nhiều ý nghĩa.
Thông tin mà dạng luật này đem lại là rất đáng kể và hỗ trợ không nhỏ trong quả
trình ra quyết định. Tìm kiếm được những luật kết hợp “quý hiếm” và mang nhiều
20
thông tin từ cơ sở dữ liệu tác nghiệp là một trong những hướng tiếp cận chính cùa
lĩnh vực khai phá dữ liệu. Đây chính là một động lực không nhỏ thúc đẩy việc tập
trung nghiên cứu của nhiều nhà tin học.
2.2 Phát biểu bài toán [1] [5]

Cho I = {i[,i2, ,in} là tập gồm n mục (thuộc tính)
T - {ti,t2, ,tm} là tập gồm m giao dịch (bản ghi). Mỗi giao dịch được định
danh bời TID (Transaction Identification).
Cho õ là một quan hệ nhị phân trên I và T (hay ô c I X T).
Nếu mục i xuất hiện trong giao dịch t thì ta viết (i,t) e ổ.
Một cơ sở dữ liệu D, về mặt hình thức chính là một quan hệ nhị phân ổ như trên,
về ý nghĩa, một sơ sở dữ liệu là một tập các giao dịch, mỗi giao dịch t là một tập
mục: t 6 21 (với 21 là tập các tập con của I).
Sau đây là một ví dụ về cơ sở dữ liệu quan hệ (dạng giao dịch):
I={A,C,D,T,W}, T={ 1,2,3,4,5,6} với thông tin về các giao dịch cho ở bảng sau:
Bảng 1: Ví dụ về một cơ sở dữ liệu giao dịch
ĐỊNH DANH CÁC
GIAO DỊCH (TDD)
TẬP MỤC
(ITEMSET)
1
A
c T
w
2
c D
w
3
A
c T
w
4
A
c D
w

5 A.
c D T
w
21
X c l được gọi là tập mục (itemset). Độ hỗ trợ (support) của một tập mục X được
ký hiệu s(X) - là phần trăm số giao dịch trong cơ sở dữ liệu chứa X. Một tập mục X
được gọi là tập mục phổ biến nếu độ hỗ trợ của nó lớn hơn hoặc bằng ngưỡng
minsup nào đó được xác định bởi người sử dụng: s(X) > minsup
Bảng sau đây sẽ liệt kê tất cả các tập mục phổ biến (frequent - itemset) trong cơ
sở dữ liệu cho ờ bảng 1 với minsup bằng 50%.
Bảng 2: Danh sách các tập mục phổ biến
_______ ________
___________
CÁC TẬP MỤC PHỒ BIÊN
Độ HÕ
TRỢ
c
100%
w , c w
83%
A, D, T, AC, AW, CD, CT, ACW
67%
AT, DW, TW, ACT, ATW, CDW, CTW,
ACTW
50%
2.3 Một số khái niệm cơ bản và các pha thực hiện.[3] [4] [5]
Luật kết hợp (Association Rule): Một luật kết hợp là một phát biểu dạng X —» Y,
trong đó X và Y là các tập mục thoả mãn điều kiện: XcI,YcI,XnY = 0 .
Đối với luật kết hợp X -» Y, X gọi là tiền đề, Y được gọi là kết quả của luật.
Độ hỗ trợ của một tập mục (itemset): Độ hỗ trợ (Support) của một tập mục X

trong tập các tác vụ D, kí hiệu: supp(X) là tỉ số giữa số các tác vụ T (của D) chứa X
và tổng số các tác vụ của D (hay số phần trăm của các tác vụ trong D có chứa X)
\{T&D\TzdX\
Supp(X)=

4
22
Độ hỗ trợ của một tập mục các giá trị giữa 0 và 1, tức là 0 < supp(X) < 1 với mọi
tập mục X.
Tập mục phổ biến (frequent itemset): Tập mục X mà thoả điều kiện: supp(X) >
minsup (với minsup là một giá trị cho trước) được gọi là tập mục phổ biến với độ
hỗ trợ cực tiểu minsup.
Độ hỗ trợ của một luật: Cho luật r = X -> Y, độ hỗ trợ của luật r kí hiệu là
supp(r) được xác định như sau: supp(r)=supp(X u Y).
Độ tin cậy của một luật (confidence) Luật r = X —> Y có độ tin cậy c trong D
nếu c là số phần trăm các tác vụ trong D mà chứa X thì cũng chứa Y. Hay đó chính
là xác suất có điều kiện P(Y/X). Ta kí hiệu độ tin cậy của luật r là conf(f). Độ tin
cậy của một luật r là conf(f). Độ tin cậy của một luật cũng có giá trị giữa 0 và 1.
Supp(X -> Y) = P(X u Y)
Conf(X -> Y) = P(Y/X) = supp(X u Y)/supp(X)
Luật kết hợp mạnh (strong) : Các luật thoả mãn cả hai ngưỡng là độ hỗ trợ cực
tiểu và độ tin cậy cực tiểu được gọi là luật kết hợp mạnh, tức là:
Supp(X -> Y) = P(X uY)> minsup
Conf(X —» Y) = P(X u Y ) = supp (X u Y)/supp(X) > minconf
Người ta thường biểu diễn bằng % thay cho các giá trị từ 0 đến 1
Bài toán khai phá luật kết hợp (ở dạng đơn giản nhất) có thể phát biểu như sau:
Cho một cơ sở dữ liệu D; Độ hỗ trợ tối thiểu minsup; Độ tin cậy tối thiểu mincof.
Hãy tìm tất cả các luật kết hợp có dạng X —» Y thoả mãn độ hỗ trợ s(X u Y) >
minsup và độ tin cậy của luật là:
c(X —>Y) = s(X u Y)/s(X) > minconf

Hầu hết các thuật toán được đề xuất để khai phá dữ liệu nhờ luật kết hợp đều
theo hướng chia bài toán thành hai pha cụ thể:
23
Pha 1: Tìm tất cả các tập mục phổ biến từ cơ sở dữ liệu, tức là tìm tất cả các tập
mục thỏa mãn s(X) > minsup. Đây là pha tốn khá nhiều thời gian của CPU và thời
gian vào ra ổ đĩa.
Pha 2: Sinh các luật tin cậy từ các tập mục phổ biến đã tìm thấy ờ pha thứ nhất.
Pha này tương đối đơn giản và tốn kém ít thời gian so với pha 1. Nếu X là tập phổ
biến thì luật kết họp được sinh ra từ X có dạng: X —► x\x , với X là tập con khác
rỗng của X, x\x là hiệu của 2 tập hợp, c là độ tin cậy của luật thỏa mãn điều kiện c
> minconf.
2.4 Một số tính chất của tập mục phổ biến và luật kết hợp
2.4.1 Một số tính chất của tập mục phổ biến
Tính chất 1 - Độ hỗ trợ của tập con
Nếu A e B với A,B là các tập mục thì supp(A) > supp(B)
Điều này là hiển nhiên vì tất cả các tảc vụ trong D hỗ trợ B thì cũng hỗ trợ A
Tính chất 2
Một tập chứa một tập không phổ biến thì cũng là tập không phổ biến.
Nếu tập A không đủ độ hỗ trợ cực tiểu, tức là supp(A) < minsup thì tập B chứa A
cũng không là tập phổ biến vì:
Supp(B) < supp(A)< minsup (theo tính chất 1)
Tính chất 3
Các tập con của tập phổ biến cũng ỉà tập phổ biến.
Nếu B là tập phổ biến trong D tức: supp(B) > minsup. Khi đó mọi tập con A của
B cũng là phổ biến vì supp(A) > supp(B) > minsup (theo tính chất 1). Trường họp
đặc biệt, nếu tập A = {i1,i2, ,ik}là tập phổ biến thì mọi tập con có (k-1) mục của nó
cũng là phổ biến. Nhưng ngược lại không đúng.
24

Khai phá dữ liệu luật kết hợp mờ và ứng dụng cho bài toán khai phá dữ liệu cước internet

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về