Tải bản đầy đủ (.pdf) (88 trang)

Áp dụng luật kết hợp trong khai phá dữ liệu cho dữ liệu ngân hàng đầu tư và phát triển việt nam

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.06 MB, 88 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ




NGUYỄN THẾ VINH




ÁP DỤNG LUẬT KẾT HỢP TRONG KHAI PHÁ
DỮ LIỆU CHO DỮ LIỆU NGÂN HÀNG ĐẦU TƯ
VÀ PHÁT TRIỂN VIỆT NAM


Ngành : CÔNG NGHỆ THÔNG TIN
Mã số : 1.01.10



LUẬN VĂN THẠC SỸ



Người hướng dẫn khoa học: PGS. TS. NGÔ QUỐC TẠO






HÀ NỘI, 2006
Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ Thông tin_ Nguyễn Thế Vinh lớp K10T3CN



LỜI CẢM ƠN


Tôi xin gửi lời cảm ơn chân thành tới thầy giáo PGS.TS Ngô Quốc Tạo và
PGS.TS Vũ Đức Thi - Viện Công nghệ thông tin đã tận tình chỉ bảo và hướng dẫn
cho tôi thực hiện luận văn này.
Tôi cũng xin bày tỏ lòng biết ơn của mình tới các thầy cô thuộc Đại học
Công nghệ-Đại học Quốc Gia Hà nội và các thầy cô Viện Công nghệ thông tin đã
truyền thụ cho tôi những kiến thức rất bổ ích, tạo cơ sở cho việc làm luận văn và
cho công việc của tôi sau này.
Lời cảm ơn cuối cùng tôi xin được gửi tới gia đình và bè bạn, những người
luôn ủng hộ, giúp đỡ và động viên tôi trong quá trình hoàn thành nghiên cứu khoa
học.

Học viên thực hiện
Nguyễn Thế Vinh

Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
1
MỤC LỤC
MỤC LỤC 1
BẢNG CÁC KÝ HIỆU VÀ TỪ VIẾT TẮT 3
DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU 4

LỜI MỞ ĐẦU 5
CHƯƠNG 1 KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC 7
1.1 Khai phá dữ liệu 7
1.1.1 Tổng quan về khai phá dữ liệu 7
1.1.2 Nhiệm vụ chính của khai phá dữ liệu 8
1.1.3 Các dạng dữ liệu có thể khai phá 9
1.1.4 Kiến trúc hệ thống khai phá dữ liệu 10
1.1.5 Quá trình khai phá dữ liệu 10
1.1.6 Các thành phần khai phá dữ liệu 11
1.1.7 Một số phương pháp khai phá dữ liệu 12
1.1.9 Các ứng dụng của khai phá dữ liệu 18
1.1.10 Phân loại các hệ thống khai phá dữ liệu 18
1.1.11 Những khó khăn trong việc khai phá dữ liệu 19
2.2. Công nghệ khám phá tri thức (KDD). 20
2.2.1. Khám phá tri thức là gì? 20
2.2.2. Vai trò và các mục tiêu chính của KDD. 22
2.2.3. Quá trình phát hiện tri thức 23
CHƯƠNG 2 LUẬT KẾT HỢP 26
2.1 Một số định nghĩa về luật và luật kết hợp 26
2.2 Tính chất của luật kết hợp 28
2.2.1 Tính chất của tập mục phổ biến. 28
2.2.2 Các tính chất của luật kết hợp 28
2.3 Những đặc trƣng cơ bản của luật 29
2.3.1 Không gian tìm kiếm 29
2.3.2 Độ hỗ trợ 31
2.4 Những hƣớng tiếp cận chính 32
CHƯƠNG 3 MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU THEO PHƯƠNG PHÁP LUẬT KẾT
HỢP 35
3.1 Khai phá luật kết hợp boolean đơn chiều và đơn mức 35
3.1 .1 Thuật toán Apriori 35

3.1.2 Thuật toán Partition (kỹ thuật BFS và giao tập hợp của các tập mục) 39
3.1.3 Thuật toán FP-Growth (kỹ thuật DFS và đếm tần suất xuất hiện tập mục) 47
Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
2
3.1.4. Thuật toán Eclat (kỹ thuật DFS và giao tập mục) 50
3.2 Khai phá luật kết hợp định lƣợng 51
3.3 Khai phá luật kết hợp trừu tƣợng, đa mức 51
3.4 Luật kết hợp có thuộc tính số và hạng mục 53
3.5. Luật kết hợp mờ 56
3.5.1 Luật kết hợp mờ với thuộc tính số được đánh trọng số 66
3.5.2 Chuyển luật kết hợp mờ về luật kết hợp với thuộc tính số 67
CHƯƠNG 4 ỨNG DỤNG THỬ NGHIỆM 68
4.1 Đặt vấn đề 68
4.2. Mô hình thử nghiệm 71
4.3. Chƣơng trình thử nghiệm 77
KẾT LUẬN 83
Những vấn đề đã đƣợc giải quyết trong luận văn 83
Hƣớng nghiên cứu trong tƣơng lai 84
TÀI LIỆU THAM KHẢO 85

Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
3
BẢNG CÁC KÝ HIỆU VÀ TỪ VIẾT TẮT

Bảng từ viết tắt

Từ hoặc cụm từ
Từ tiếng Anh

Từ viết tắt
Cơ sở dữ liệu
Database
CSDL
Công nghệ thông tin
Information Technology
CNTT
Cở sở tri thức

CSTT
Khai phá tri thức trong dữ liệu
Knowledge Discovery in Data
KDD
Khai phá dữ liệu
Data Mining
KPDL
Khám phá tri thức
Knowledge Discovery
KPTT
Ngân hàng Đầu tư và Phát triển
Việt Nam
Bank for Investment and
Development of Viet Nam
BIDV




Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN

4
DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU

Danh mục hình vẽ

Hình 1.1 Kiến trúc hệ thống khai phá dữ liệu 10
Hình 1.2 Quá trình khai phá dữ liệu 11
Hình 1.3 Ví dụ về cây quyết định 13
Hình 2.1 Dàn cho tập I={1,2,3,4} 30
Hình 3.1 Cây FP-Growth đếm mức phổ biến 42
Hình 3.2 Cây điều kiện FP - Tree 42
Hình 3.3 Mức hoạt động của giải thuật 43
Hình 3.4 Mô phỏng dữ liệu cây băm 44
Hình 3.5 Cây cấu trúc thân 45
Hình 3.6 Mô phỏng sự kết hợp đầu và thân 46
Hình 4.1 Danh sách các file dữ liệu của phân hệ tiền gửi 70
Hình 4.2 Trình tự xử lý trong ứng dụng thử nghiệm 71
Hình 4.3 Dữ liệu của hệ thống trước khi rời rạc và mờ hoá 75
Hình 4.4 Dữ liệu của hệ thống sau khi rời rạc và mờ hoá 76
Hình 4.5 Màn hình giao diện chính của chương trình 77
Hình 4.6 Màn hình giao diện hiển thị dữ liệu gốc 78
Hình 4.7 Màn hình giao diện hiển thị dữ liệu sau khi được rời rạc và mờ hoá 78
Hình 4.8 Sự phụ thuộc của thời gian xử lý vào fminsupp 79
Hình 4.9 Sự phụ thuộc của số lượng tập phổ biến và luật tin cậy vào giá trị fminsupp 80
Hình 4.10 Sự phụ thuộc của số lượng luật vào độ tin cậy tối thiểu fminconf 80
Hình 4. 11 Sự thay đổi kích thước CSDL tác động tới thời gian thực hiện khai phá 81
Hình 4.12 Sự phụ thuộc của số lượng tập phổ biến và luật kết hợp vào ngưỡng tập mờ 81
Danh mục bảng biểu

Bảng 1: CSDL khám và chuẩn đoán bệnh tim của 17 bệnh nhân 54

Bảng 2: Rời rạc hoá thuộc tính số rời rạc hữu hạn hoặc thuộc tính hạng mục 55
Bảng 3: Rời rạc hoá thuộc tính số “Lượng cholesterol trong máu” và “Tuổi” 55
Bảng 4: CSDL về khám và chuẩn đoán bệnh tim mạch của 13 bệnh nhân 57
Bảng 5: Bảng các ký hiệu sử dụng trong thuật toán khai phá luật kết hợp mờ 61
Bảng 6: TF -giá trị các thuộc tính tại các bản ghi đã được mờ hoá 63
Bảng 7: C1 - tập tất cả các tập thuộc tính có lực lượng bằng 1 64
Bảng 8: F2 - tập thuộc tính phổ biến có lực lượng bằng 2 65
Bảng 9: Các luật mờ được sinh ra từ CSDL trong bảng 4 66
Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
5
LỜI MỞ ĐẦU

Trong những thập kỷ gần đây, với sự phát triển mạnh mẽ của công nghệ điện
tử, sự ra đời của các bộ nhớ có dung lượng lớn, bộ xử lý tốc độ cao cùng với các hệ
thống mạng viễn thông. Người ta xây dựng các hệ thống thông tin nhằm tự động
hoá mọi hoạt động kinh doanh của mình. Điều này đã tạo ra một dòng dữ liệu tăng
lên không ngừng vì ngay từ những giao dịch đơn giản nhất như một cuộc gọi điện
thoại, kiểm tra sức khoẻ, sử dụng thẻ tín dụng,v.v đều được ghi vào trong máy
tính. Cho đến nay, con số này đã trở lên khổng lồ bao gồm các cơ sở dữ liệu lớn cỡ
gigabytes và thậm chí terabytes lưu trữ các dữ liệu kinh doanh ví dụ dữ liệu thông
tin khách hàng, dữ liệu lịch sử các giao dịch, dữ liệu bán hàng, dữ liệu các tài
khoản, các khoản vay, sử dụng vốn,v.v Nhiều hệ quản trị cơ sở dữ liệu (CSDL)
mạnh với các công cụ phong phú và thuận tiện đã giúp cho con người khai thác có
hiệu quả các nguồn tài nguyên dữ liệu.
Cùng với chức năng khai thác có tính chất tác nghiệp, việc khai thác các
CSDL phục vụ các yêu cầu trợ giúp quyết định ngày càng có ý nghĩa quan trọng và
là nhu cầu to lớn trong mọi lĩnh vực hoạt động kinh doanh, quản lý. Dữ liệu được
thu thập và dữ liệu ngày càng nhiều nhưng người ra quyết định trong quản lý kinh
doanh lại cần những thông tin bổ ích, những “tri thức” rút ra từ những nguồn dữ

liệu đó hơn là chính những nguồn dữ liệu đó cho việc ra quyết định của mình. Các
nhu cầu đó đã được biết đến từ lâu nhưng mới thực sự bùng nổ từ thập niên 90. Do
đó những năm gần đây đã phát triển mạnh mẽ một loạt các lĩnh vực nghiên cứu về
tổ chức các kho dữ liệu và kho thông tin. Các hệ trợ giúp quyết định, các phương
pháp phát hiện tri thức và khai phá dữ liệu.
Trong đó, khai phá dữ liệu và phát hiện tri thức đã trở thành một lĩnh vực
nghiên cứu sôi động thu hút sự quan tâm nghiên cứu của nhiều chuyên gia trong các
lĩnh vực như hệ cơ sở dữ liệu, thống kê, chiết xuất thông tin, nhận dạng, học máy,
trí tuệ nhân tạo .v.v. Phần lớn các kỹ thuật chính được áp dụng trong lĩnh vực khai
phá dữ liệu được kế thừa từ các lĩnh vực trên. Các bài toán chủ yếu trong KPDL là
phân lớp/dự đoán, phân cụm, khai phá luật kết hợp, khai phá chuỗi,v.v Lĩnh vực
này cũng là điểm hội tụ và giao thoa của rất nhiều lĩnh vực khác. KPDL đã và đang
được ứng dụng thành công vào thương mại, tài chính và thị trường chứng khoán,
sinh học, y học, giáo dục, viễn thông,v.v.
Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
6
Do KPDL là một lĩnh vực rộng lớn nên trong luận văn này chỉ đề cập đến
khía cạnh khai phá dữ liệu bằng luật kết hợp dựa trên nền tảng của một số nghiên
cứu đã được thực hiện.
Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
7
CHƢƠNG 1 KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC

1.1 Khai phá dữ liệu
1.1.1 Tổng quan về khai phá dữ liệu
Hàng nghìn năm nay vấn đề về tổ chức khai thác dữ liệu là vấn đề mà con
người phải giải quyết. Đến nay vấn đề này vẫn chưa giải quyết được triệt để. Các
chuyên gia trong lĩnh vực khác nhau trong quá trình hoạt động của mình thu thập

được một khối lượng kiến thức khổng lồ nhưng tổ chức cơ sở dữ liệu đó thành một
hệ thống để phân tích đưa ra những thông tin cần thiết trên cơ sở dữ liệu đã được
tập hợp là một vấn đề rất phức tạp.
Các hệ thống tồn tại một cách chồng chéo khiến các thông tin thừa xảy ra
nhiều và vấn đề xử lý số liệu lớn và rất phức tạp. Có một nghịch lý là chúng ta thu
thập thông tin nhanh hơn rất nhiều việc xử lý thông tin.
Cuối thế kỷ 20, phương pháp phân tích số liệu một cách trí tuệ (là phương
pháp khai thác thông tin trực tiếp từ dữ liệu thô) đã thu hút được sự quan tâm của
các nhà khoa học. Những thử nghiệm đã được áp dụng trong nhiều lĩnh vực như
phân tích thị trường tài chính, ngân hàng, đánh giá khả năng cho vay, phân tích
đánh giá những mạo hiểm trong đầu tư được tiến hành rất nhiều. Đây là vấn đề đặc
biệt khó khi ta có một lượng thông tin khổng lồ. Bài toán cần giải quyết ở đây là
phân tích số liệu ra sao? Con người và máy tính sẽ kết hợp với nhau như thế nào,
con người sẽ làm những gì và những gì giao cho máy móc. Dự đoán các vấn đề trên
trong tương lai là rất khó nhưng quan trong nhất là hiểu được giới hạn con người và
giới hạn của các thiết bị máy móc. Theo John Neumal thì số lượng neural của một
người là 10
20
bit mặc dù chúng ta không sử dụng hết số lượng này. Một số nhà bác
học đã mô phỏng các hành vi nhận dạng của não bộ (ví dụ mạng Hopfield) cho
chúng ta khả năng nhận dạng tương tự như não người. Các mẫu đã được huấn luyện
để nhận dạng sẽ kích thích ở một vùng đã được xác định trước. Người ta đã tính
được rằng nếu một hệ thống được thiết lập từ 10
20
Neural thì ghi nhận được 5.10
18

mẫu khác nhau bằng 5% số lượng Neural. Đây cũng chính là số lượng mẫu lớn nhất
mà con người có thể nhớ được. Đó là con số khổng lồ mà thiết bị điện tử không có
khả năng đạt được. Tuy nhiên, tốc độ của các Neural sinh học quá chậm do với các

công nghệ tính toán hiện nay. Vấn đề này có lý do là ở Neural sinh học tốc độ phản
Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
8
ứng nhỏ hơn Neural nhân tạo 8 lần. Từ hai yếu tố số lượng và tốc độ của Neural ta
xác định được khả năng sử dụng hệ thống trí tuệ nhân tạo trong quá trình KDD là
quá trình khai thác thông tin từ cơ sở dữ liệu. Không có một chương trình máy tính
nào hiện nay cũng như trong khoảng thời gian sắp tới có thể mô tả được độ phong
phú của trí tuệ con người. Tốt nhất chúng ta nên hạn chế các bài toán của con người
trong lĩnh vực tổ chức công việc. Máy móc tốt nhất là tập trung vào việc tìm kiếm
tri thức mới(các quy luật ẩn dưới khối dữ liệu khổng lồ).
Các hệ thống KDD có thể xác định một cách hình tượng là các bộ tăng tốc
cho trí tuệ con người. Ứng dụng của hệ thống KDD yêu cầu phải có nghệ thuật biểu
diễn và phương pháp tổ chức các bài toán. Kết quả cuối cùng là lời giải dựa trên
những thông tin đã thu thập được. Chìa khóa của vấn đề sử dụng KDD không phải
lựa chọn một hoặc vài thuật toán KDD đã biết mà dựa vào việc phân tích dữ liệu
bằng tổ hợp các phương pháp. Ta có thể lấy ví dụ trong lĩnh vực y tế. Đầu thế kỷ
21, loài người đã biết được 10
5
triệu trứng bệnh, 10
5
mẫu thuốc. 10
4
các loại bệnh
khác nhau. Rõ ràng nếu không có sự giúp đỡ của KDD thì việc khám phá ra tri thức
trong đó là điều không thể đối với bất kỳ chuyên gia nào.
Chúng ta có thể coi tri thức như thông tin tích hợp bao gồm các sự việc và
những quan hệ của chúng mà ta có thể lĩnh hội, khám phá hoặc học tập. Nói một
cách khác, tri thức có thể là dữ liệu ở mức trìu tượng hoá và khái quát cao.
1.1.2 Nhiệm vụ chính của khai phá dữ liệu

Trong mọi hoạt động sản xuất - kinh doanh - quản lý thì yếu tốt thành công
luôn gắn liền với việc nắm bắt, thống kê và khai thác thông tin hiệu quả. Giờ đây
KPDL đã và đang trở thành một trong những hướng nghiên cứu chính của lĩnh vực
khoa học máy tính và công nghệ tri thức. Do đó có thể coi mục đích chính của quá
trình KPDL là một tả và dự đoán mà các mẫu KPDL phát hiện được đều nhắm vào
mục đích này.
Để đạt được hai mục đích chính trên, nhiệm vụ chính của KPDL bao gồm:
Phân lớp: là việc học một hàm ánh xạ (hay phân loại) từ một mẫu dữ liệu
vào một trong số các lớp đã được xác định trước.
Hồi quy: là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự
đoán có giá trị thực.
Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
9
Phân nhóm: là việc mô tả chung để tìm ra các tập dữ liệu xác định hay các
nhóm để mô tả dữ liệu. Các nhóm có thể tách riêng, phân cấp hoặc chồng lên nhau.
Có nghĩa là dữ liệu có thể vừa thuộc nhóm này vừa thuộc nhóm kia.
Tóm tắt: liên quan đến các phương pháp tìm kiếm một mô tả cho một tập con
dữ liệu. Các kỹ thuật tóm tắt thường được áp dụng cho các phân tích dữ liệu tương
tác có tính thăm dò và tạo báo cáo tự động.
Mô hình phụ thuộc: là việc tìm kiếm một mô hình mô tả sự phụ thuộc giữa
các biến. Các mô hình phụ thuộc tồn tại dưới hai mức: mức cấu trúc của mô hình
xác định các biến nào là phụ thuộc cục bộ vào nhau và mức định lượng của một mô
hình xác định độ mạnh của sự phụ thuộc theo một thước đo nào đó.
Dò tìm biến đổi và phát hiện độ lệch: tập trung vào khai thác những thay đổi
đáng kể nhất trong dữ liệu từ các giá trị chuẩn hoặc được đo trước đó.
1.1.3 Các dạng dữ liệu có thể khai phá
Do KPDL được ứng dụng rộng rãi nên có rất nhiều kiểu dữ liệu khác nhau
được chấp nhập trong KPDL. Dưới đây là một số kiểu dữ liệu điển hình:
CSDL quan hệ: là các CSDL tác nghiệp được tổ chức theo mô hình dữ liệu

quan hệ ( như Oracle, IBM, DB2, MS SQL, v.v ).
CSDL đa chiều: là kho dữ liệu được tập hợp và chọn lọc từ nhiều nguồn dữ
liệu khác nhau. Dạng dữ liệu này có mang tính lịch sử (có thuộc tính thời gian) và
chủ yếu phục vụ cho quá trình phân tích cũng như là khai phá tri thức nhằm hỗ trợ
quá trình ra quyết định.
CSDL dạng giao dịch: là một dạng CSDL tác nghiệp, nhưng các bản ghi
thường là các giao dịch. Dạng dữ liệu này phổ biến trong lĩnh vực thương mại và
ngân hàng, ví dụ: dữ liệu về các giao dịch thanh toán của ngân hàng,v.v.
CSDL quan hệ-hướng đối tượng: là dạng CSDL lai giữa hai mô hình quan hệ
và hướng đối tượng.
Dữ liệu không gian và thời gian: là dạng dữ liệu có tích hợp thuộc tính về
không gian(ví dụ: dữ liệu về bản đồ) hoặc thời gian (ví dụ: dữ liệu về thị trường
chứng khoán).
CSDL đa phương tiện: dữ liệu âm thanh, hình ảnh, phim ảnh, text và web
v.v Dạng dữ liệu này hiện đang khá phổ biến trên Internet do sự ứng dụng rộng rãi
của nó.
Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
10
1.1.4 Kiến trúc hệ thống khai phá dữ liệu
KPDL là một bước lớn trong quá trình phát hiện tri thức từ số lượng lớn dữ
liệu đã được lưu trữ trong CSDL, kho dữ liệu hoặc các nơi lưu trữ khác. Kết quả
của bước này là những mẫu đáng quan tâm được đưa đến cho người dùng hoặc lưu
giữ như là tri thức mới trong CSTT.
Kiến trúc của hệ thống KPDL có thể chia thành các thành phần chính như
sau:
CSDL, kho dữ liệu hoặc nơi lưu trữ khác: là một hoặc một tập các CSDL,
kho dữ liệu, các công cụ làm sạch dữ liệu và tích hợp dữ liệu có thể thực hiện trên
chúng.
Cơ sở trí thức: là yếu tố tri thức được dùng để hướng dẫn tìm hoặc đánh giá

các mẫu kết quả tìm được.
Kỹ thuật khai phá: là các công cụ để thực hiện các nhiệm vụ như: mô tả, kết
hợp, phân lớp, phân nhóm dữ liệu
Công cụ đánh giá mẫu: gồm một số modul sử dụng các độ đo và tương tác
với các modul KPDL để tập trung vào các thuộc tính cần quan tâm.
Giao diện đồ họa: xây dựng modul cho phép giao tiếp giữa người dùng và hệ
thống KPDL.









Hình 1.1 Kiến trúc hệ thống khai phá dữ liệu
1.1.5 Quá trình khai phá dữ liệu
Quá trình KPDL là công việc khảo sát thăm dò thông tin dữ liệu, trích chọn
tri thức, thu thập thông tin, thậm chí là duyệt và tìm kiếm dữ liệu. Tuy nhiên, các
nhà thống kê thì có quan điểm cho rằng KPDL là một quá trình phân tích và đánh
Lọc
Làm sạch dữ liệu
Tích hợp dữ liệu
Giao diện đồ hoạ
Đánh giá mẫu
Kỹ thuật khai phá
CSDL, kho dữ liệu
CSDL
Kho dữ liệu

Cơ sở tri thức
Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
11
giá để thăm dò, dự đoán và ước lượng một lượng các thông tin dữ liệu với mục đích
phát hiện ra các mẫu tin thích hợp hoặc là các mối quan hệ thuộc tính giữa các yếu
tố hay các biến cố và cuối cùng là tích hợp các kết quả thu được bằng cách áp dụng
các hệ số mẫu đã xác định cho các phần dữ liệu mới phát hiện. Từ đó đưa ra các
hoạt động liên quan đến kết quả thu được.
Quá trình khai phá dữ liệu được thể hiện qua mô hình sau:






Hình 1.2 Quá trình khai phá dữ liệu

Xác định nhiệm vụ : là việc xác định chính xác và rõ ràng vấn đề cần giải
quyết.
Xác định dữ liệu liên quan: để xây dựng giải pháp
Thu thập và tiền xử lý dữ liệu liên quan: thành dạng sao cho thuật toán
KPDL có thể hiểu được.
Chọn thuật toán KPDL: cho phù hợp và thực hiện KPDL nhằm tìm được các
mẫu cần quan tâm và biểu diễn chúng dưới dạng có ý nghĩa.
Mẫu: là kết quả của quá trình KPDL, tức là hiểu và sử dụng tri thức đã tìm
được thông qua hành động.
1.1.6 Các thành phần khai phá dữ liệu
Từ các mẫu tìm kiếm được, chúng ta dự đoán những giá trị chưa biết hoặc
những giá trị trong tương lai. Và tập trung mô tả vào việc tìm kiếm các mẫu mô tả

dữ liệu làm sao cho con người có thể hiểu được. Muốn làm được tốt các công việc
đó chúng ta dựa vào một số công việc sau:
Biểu diễn mô hình: là việc dùng một ngôn ngữ L nào đó để mô tả các mẫu
hay mô hình có thể khai phá được. Nếu mô tả quá hạn chế thì sẽ không thể học
được hoặc sẽ không thể có các mẫu tạo ra được mô hình chính xác cho dữ liệu.
Nhưng nếu mô hình quá lớn thì càng làm tăng mức độ nguy hiểm do bị học quá và
Xác định
nhiệm vụ
Xác định
dữ liệu
liên quan
Thu thập và
tiền xử lý
DL
Thống kê
Tóm tắt
Dữ liệu
trực tiếp
Giải thuật
khai phá DL

Mẫu
Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
12
làm giảm khả năng dự đoán các dữ liệu chưa biết. Như thế sẽ làm cho việc tìm kiếm
càng trở nên phức tạp hơn cũng như việc hiểu được mô hình càng khó khăn hơn.
Đánh giá mô hình: là việc đánh giá, ước lượng các mô hình chi tiết có thể
đáp ứng được các tiêu chuẩn của quá trình xử lý và phát hiện tri thức, có dự báo
chính xác hay không, có thoả mãn cơ sở logic hay không. Việc đánh giá độ chính

xác phải dựa trên đánh giá chéo. Đánh giá chất lượng liên quan đến độ chính xác dự
đoán, tính mới lạ, tính hữu ích, khả năng hiểu được phù hợp với các mô hình. Cả
hai phương pháp logic và thống kê chuẩn có thể sử dụng trong mô hình kiểm định
này.
Phương pháp tìm kiếm: gồm hai thành phần: tìm kiếm tham số: thuật toán
phải tìm kiếm các tham số trong phạm vi các tiêu chuẩn đánh giá mô hình để tối ưu
hoá, đưa ra các dữ liệu quan sát được và biểu diễn mô hình đã định, tìm kiếm mô
hình: giống như một vòng lặp qua phương pháp tìm kiếm tham số, miêu tả mô hình
bị thay đổi tạo nên một họ các mô hình. Với mỗi miêu tả mô hình, phương pháp tìm
kiếm tham số được áp dụng để đánh giá chất lượng mô hình. Các phương pháp tìm
kiếm mô hình sử dụng thuật tìm kiếm heuristic vì kích thước của không gian các mô
hình có thể ngăn cản các tìm kiếm tổng thể.
Chọn mẫu dữ liệu: là một giai đoạn rất quan trọng trong kỹ thuật nhận dạng
và KPDL. Trong xác suất thống kê nhiều chiều có một phần tương tự như thế, đó là
tìm các thuộc tính hay các chỉ tiêu chính cần phân tích nhận dạng của một vec-tơ
hay một bộ giá trị thuộc tính nhiều chiều. Sau khi chọn mẫu ta thu được một tập con
hay một nhóm dữ liệu của tập các biến thuộc tính đầu vào sau khi đã loại bỏ đi các
thuộc tính ít quan trọng, thuộc tính thừa. Từ đó thu thập và kết hợp thành bộ véctơ
thuộc tính mẫu.
1.1.7 Một số phương pháp khai phá dữ liệu
Phương pháp quy nạp: có hai kỹ thuật chính để thực hiện công việc này đó
là suy diễn và quy nạp. Suy diễn: nhằm rút ra thông tin là kết quả lôgic của các
thông tin trong CSDL dựa trên một dãy các sự kiện chính để suy ra các tri thức mới
từ các tri thức đã có. Kỹ thuật suy diễn để thu được mẫu chi tiết thường sử dụng các
luật suy diễn. Quy nạp: suy ra các thông tin được sinh ra dựa trên CSDL hoặc các
kho dữ liệu đã có. Phương pháp quy nạp là tự tìm kiếm, tạo mô hình, mẫu và sinh ra
tri thức cấp cao diễn tả các đối tượng trong CSDL, liên quan trực tiếp đến các mẫu
Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
13

tìm được trong CSDL. Trong KPDL quy nạp được sử dụng để tạo cây quyết định và
luật.
Cây quyết định: ở đây ta quan tâm đến cây quyết định quy nạp được dùng
trong việc “học” tri thức thông qua phân tích cây. Cây quyết định là một mô tả tri
thức dạng đơn giản nhằm phân các đối tượng dữ liệu thành một số lớp nhất định.
Các nút của cây được gắn nhãn là tên các thuộc tính, các cạnh được gắn các giá trị
có thể của các thuộc tính, các lá miêu tả các lớp khác nhau. Các đối tượng được
phân theo lớp các đường đi trên cây, qua các cạnh tương ứng với giá trị của thuộc
tính.











Hình 1.3 Ví dụ về cây quyết định

Ví dụ về cây quyết định( X=sự kiện nào đó có thể xảy ra theo viễn cảnh được xây
dựng trong cây quyết định)
Quá trình xây dựng cây quyết định là quá trình phát hiện ra các luật phân
chia tập dữ liệu đã cho thành các lớp đã được định nghĩa trước. Trong thực tế tập
các cây quyết định có thể có đối với bài toán này rất lớn và rất khó có thể duyệt hết
được một cách tường tận.
Một cây quyết định là một cấu trúc hình cây, trong đó:
 Mỗi đỉnh trong (đỉnh có thể khai triển được) biểu thị cho một phép thử

đối với một thuộc tính.
 Mỗi nhánh biểu thị cho một kết quả của phép thử.
SV
GV
CB
KT
SV
GV
CB
3
2
Khoa
Cỡ
Người sử dụng



Tầng
Người sử dụng
Không



Không
Không
Không
1
CN
Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN

14
 Các đỉnh lá (các đỉnh không khai triển được) biểu thị các lớp hoặc các
phân bổ lớp.
 Đỉnh trên cùng trong một cây được gọi là gốc.
Việc sinh cây quyết định bao gồm hai giai đoạn:
 Xây dựng cây.
+ Tại thời điểm khởi đầu, tất cả các ca (case) dữ liệu học đều nằm tại gốc.
+ Các ca dữ liệu được phân chia đệ quy trên cơ sở các thuộc tính được
chọn.
 Rút gọn cây
+ Phát hiện và bỏ đi các nhánh chứa các điểm dị thường và nhiều trong
dữ liệu.
Luật kết hợp: là luật được tạo ra nhằm suy diễn một số mẫu dữ liệu có ý
nghĩa về mặt thống kê. Các luật có dạng: Nếu P thì Q; với P là mệnh đề đúng với
một miền dữ liệu nào đó trong kho dữ liệu và Q là mệnh đề sẽ dự đoán. Phương
pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần trong CSDL. Mẫu
đầu ra của thuật toán KPDL là tập luật kết hợp tìm được.
Cho một lược đồ R={A
1
,A
2
, ,A
p
} với các thuộc tính có miền giá trị {0,1}
và một quan hệ r trên R. Một luật kết hợp trên quan hệ r được mô tả như sau: X=>B
với X  R và B  R\X. Cho W  R, đặt s(W,r) là tần số xuất hiện của W trong r
được tính bằng tỷ lệ giữa các hàng trong r có giá trị 1 tại mỗi cột. Khi đó tần số xuất
hiện và độ tin cậy của luật X =>B trong r được định nghĩa như sau:
Tần số xuất hiện  =s(X  {B},r).
Độ tin cậy  =s(X  {B},r)\s(X,r).

Với X gồm nhiều thuộc tính và B là giá trị không cố định.
Nhiệm vụ của việc phát triển các luật kết hợp là phải tìm được tất cả các luật
X=>B sao cho tần số xuất hiện của nhỏ hơn ngưỡng  cho trước và độ tin cậy của
luật không nhỏ hơn ngưỡng  cho trước.
Khi thiết kế dữ liệu dùng cho kỹ thuật luật kết hợp cần phải lưu ý để giảm
thiểu số lượng các thuộc tính đầu vào bởi không gian tìm kiếm các luật sẽ tăng theo
hàm mũ của số lượng các thuộc tính đầu vào.
Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
15
Thuật toán tìm các luật kết hợp được bắt đầu bằng việc tìm tất cả các tập
thường xuyên xuất hiện. Tập thường xuyên xuất hiện là các tập thoả mãn tần số
xuất hiện lớn hơn ngưỡng tần số được xác định trước. Các luật kết hợp sẽ được tạo
ra bằng cách ghép dần các tập thuộc tính dựa trên mức độ thường xuyên.
Một vấn đề quan tâm phải đề cập đến là độ đo của luật: đó là độ hỗ trợ và độ
tin cậy. Chúng phản ánh sự hữu ích và sự chắc chắn của luật đã khai phá. Đặc biệt
các luật kết hợp được coi là đáng quan tâm nếu chúng thỏa mãn cả hai ngưỡng độ
hỗ trợ cực tiểu và độ tin cậy cực tiểu. Những ngưỡng này thường do người dùng
hoặc do các chuyên gia xác định.
Ví dụ: phân tích một CSDL kinh doanh bán hàng của công ty Honda về
chiến lược kinh doanh và bán xe máy, ôtô trong tương lai:
“Xe máy=>Phụ tùng xe máy”{Độ hỗ trợ 20%, độ tin cậy 80%}
Với ví dụ này, có thể hiểu độ hỗ trợ 20% có nghĩa là 20% của tất cả các tác
vụ đã phân tích chỉ ra rằng người mua xe máy và mua phụ tùng xe máy có tỷ lệ đã
được mua là cùng nhau. Còn độ tin cậy 80% có nghĩa là 80% người mua xe máy
bao giờ cũng có tỷ lệ lớn mua phụ tùng xe máy.
Nhược điểm của phương pháp này là sự gia tăng nhanh chóng khối lượng
tính toán và các thông số. Tuy nhiên với sự phát triển nhanh chóng và mạnh mẽ của
phần cứng thì các vấn đề này cũng được khắc phục.
Phân lớp, phân loại dữ liệu: cho phép ta sắp xếp các thực thể với một số

thuộc tính giống nhau vào một lớp chung. Công việc này giống việc phân loại
nhưng có điểm khác biệt là chưa có sự định nghĩa các lớp từ trước. Các phương
pháp này rất có ích trong giai đoạn đầu của quá trình nghiên cứu khi ta biết rất ít về
đối tượng cần nghiên cứu, nó là tiền đề để tiến hành các phương pháp khác về
KDD.
Nhiệm vụ của phân lớp là tìm ra được một hàm để ghép một đối tượng dữ
liệu vào một lớp trong một số lớp nào đó. Ta thấy rằng rất khó để tách lớp một cách
hoàn toàn bằng một đường biên rạch ròi có dạng đường thẳng. Ngân hàng rất muốn
sử dụng các miền đã được phân lớp để có thể đi đến quyết định một cách tự động về
việc liệu có tiếp tục cho khách tiếp tục vay nữa hay không.
Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
16
Có nhiều phương pháp phân lớp, phương pháp nổi tiếng nhất là phương
pháp K lân cận. Giả sử muốn chia các đối tượng ban đầu thành K lớp. Lựa chọn K
trung tâm ngẫu nhiên bất kỳ trong không gian các đối tượng. Sau đó tiến hành:
- Chia các dữ liệu thành K nhóm gần nhất với một trong các trung tâm.
Khoảng cách giữa các điểm với các trung tâm sẽ xác định chúng có thuộc K hay
không.
- Xác định lại các trung tâm mới bằng cách tính lại giá trị trung bình của các
biến phụ thuộc, tất nhiên các trung tâm mới sẽ khác trung tâm cũ. Phương pháp K
lân cận sẽ làm việc tốt nếu bản chất của dữ liệu là có thể phân loại. Tuy nhiên nó
khó áp dụng với một số tình huống phức tạp, ví dụ như: Phân bố hai hình xoắn
ngược chiều nhau.
Phương pháp dựa trên mẫu: là việc sử dụng các mẫu miêu tả từ cơ sở dữ liệu
tạo nên một mô hình dự đoán các mẫu mới bằng cách rút ra các thuộc tính tương tự
như các mẫu đã biết trong mô hình. Các kỹ thuật bao gồm phân lớp theo láng giềng
lân cận, các giải thuật hồi quy (Dasarathy 1991) và các hệ thống suy diễn dựa trên
tình huống (case - based reasoning) (Kolodner 1993).
Mô hình phụ thuộc dựa trên đồ thị xác suất: Các mô hình xác định sự phụ

thuộc xác suất giữa các sự kiện thông qua các liên hệ trực tiếp theo các cung đồ thị
(Peal 1988: Whittaker. 1990). Ở dạng đơn giản nhất, mô hình này xác định những
biến nào phụ thuộc trực tiếp vào nhau. Những mô hình này chủ yếu được sử dụng
với các biến có giá trị rời rạc hoặc phân loại.
Khái quát dữ liệu: khái quát dữ liệu bao gồm một số phương pháp nhằm tìm
ra một mô tả tóm tắt cho một tập con của dữ liệu. Một ví dụ đơn giản là tạo ra bảng
giá trị trung bình và độ lệch chuẩn cho tất cả các trường. Các phương pháp phức tạp
hơn được hình thành từ việc đúc rút các luật tóm tắt, các kỹ thuật suy diễn đa dạng
và phát hiện các phụ thuộc hàm giữa các biến.
Khai thác dữ liệu dựa trên văn bản: phù hợp với việc tìm kiếm, phân tích và
phân lớp các dữ liệu văn bản không định dạng. Các lĩnh vực ứng dụng như nghiên
cứu thị trường, thu thập tình báo Khai phá dữ liệu dạng văn bản đã được sử dụng
để phân tích câu trả lời cho các câu hỏi mở trong khảo sát thị trường, tìm kiếm các
tài liệu phức tạp
Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
17
Mạng neural: là một kỹ thuật phát triển dựa trên cấu trúc toán học với khả
năng học trên mô hình hệ thần kinh con người.
Mạng neural có thể đưa ra ý nghĩa từ các dữ liệu phức tạp hoặc không chính
xác và có thể được sử dụng để chiết xuất các mẫu và phát hiện xu hướng quá phức
tạp mà con người cũng như các kỹ thuật máy tính khác không thể phát hiện được.
Một trong những ưu điểm phải kể đến của mạng neural là khả năng tạo ra các
mô hình dự đoán do có độ chính xác cao, có thể áp dụng được cho rất nhiều các loại
bài toán khác nhau đáp ứng được các nhiệm vụ đặt ra của khai phá dữ liệu như phân
lớp, phân nhóm, mô hình hoá, dự báo
Mẫu chiết xuất bằng mạng neural được thể hiện ở các nút đầu của mạng.
Mạng neural sử dụng các hàm số chứ không sử dụng các hàm biểu tượng để tính
mức tích cực của các nút đầu ra và cập nhật các trọng số của nó.
Đặc điểm của mạng neural là không cần gia công dữ liệu nhiều trước khi bắt

đầu quá trình học như các kỹ thuật khác. Tuy nhiên để có thể sử dụng mạng neural
có hiệu quả cần phải xác định các yếu tố khi thiết kế mạng như:
- Mô hình mạng là gì?
- Mạng cần có bao nhiêu nút?
- Khi nào thì việc học dừng?
Ngoài ra còn có rất nhiều bước quan trọng cần phải làm để tiền xử lý dữ liệu
trước khi đưa vào mạng neural để mạng có thể hiểu được.
Mạng neural được đóng gói với những thông tin trợ giúp của các chuyên gia
đáng tin cậy và được các chuyên gia đảm bảo các mô hình này làm việc tốt. Sau khi
học mạng được coi là một chuyên gia trong lĩnh vực thông tin mà nó vừa được học
Giải thuật di truyền: Đây là phương pháp không chỉ phục vụ KPDL mà còn
phục vụ nhiều bài toán khác, ví dụ như bài toán tối ưu hoặc lập lịch. Tư tưởng của
thuật toán là áp dụng quy luật của sự chọn lọc tự nhiên. Người ta mô phỏng tập hợp
giữ liệu ban đầu bằng ký tự nhị phân và gọi là những quần thể xuất phát, bằng các
thao tác lai ghép, đột biến chúng ta biến đổi quần thể gene trong quần thể là không
thay đổi. Một hàm thích nghi được xây dựng để xác định mức độ thích nghi của
quần thể theo các giai đoạn. Quá trình tiến hoá làm cho các quần thể thích nghi
ngày càng cao. Về mặt lý thuyết giải thuật di truyền cho người ta lời giải tối ưu toàn
Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
18
cục (khác với phương pháp mạng Neural). Tuy nhiên, người ta cũng hạn chế lời giải
với một mức độ thích nghi nào đó để hạn chế số lượng các bước xây dựng các quần
thể.
Nói theo nghĩa rộng thì giải thuật di truyền mô phỏng lại hệ thống tiến hoá
trong tự nhiên, chính xác hơn là các giải thuật chỉ ra tập các cá thể được hình thành,
được ước lượng và biến đổi như thế nào. Ví dụ như xác định xem làm thế nào để
lựa chọn các cá thể tạo giống và lựa chọn các cá thể nào sẽ bị loại bỏ.
Giải thuật di truyền là một giải thuật tối ưu hoá. Nó được sử dụng nó được sử
dụng rất rộng rãi trong việc tối ưu hoá các kỹ thuật khai phá dữ liệu trong đó có kỹ

thuật mạng neural. Sự liên hệ của nó với các giải thuật khai phá dữ liệu là ở chỗ
việc tối ưu hoá cần thiết cho quá trình khai phá dữ liệu. Giai đoạn tối ưu hoá là cần
thiết để xác định các giá trị tham số nào tạo ra các luật tốt nhất.
1.1.9 Các ứng dụng của khai phá dữ liệu
KPDL tuy là một lĩnh vực mới phát triển nhưng thu hút được sự quan tâm
của rất nhiều nhà nghiên cứu nhờ vào những ứng dụng thực tiễn của nó. Có thể liệt
kê ra đây một số ứng dụng điển hình:
Phân tích dữ liệu và hỗ trợ ra quyết định;
Điều trị y học: mối liên hệ giữa triệu chứng, chẩn đoán và phương pháp điều
trị( chế độ dinh dưỡng, thuốc men, phẫu thuật, );
Phân lớp văn bản và các trang web, tóm tắt văn bản,v.v.;
Tin sinh học: tìm kiếm, đối sánh các hệ gene và thông tin di truyền, mối liên
hệ giữa một số hệ gene và một số bệnh di truyền,v.v.;
Tài chính và thị trường chứng khoán: phân tích tình hình tài chính và dự báo
giá của các loại cổ phiếu trong thị trường chứng khoán, v.v.;
1.1.10 Phân loại các hệ thống khai phá dữ liệu
KPDL là một lĩnh vực thuộc công nghệ tri thức liên quan đến nhiều lĩnh vực
nghiên cứu khác nhau như CSDL, kỹ thuật máy học, giải thuật, trực quan hoá,v.v.
Có thể phân loại các hệ thống KPDL dựa trên các tiêu chí khác nhau.
Phân loại dựa trên kiểu dữ liệu được khai phá: tóm tắt và mô tả, luật kết
hợp, phân lớp phân cụm, khai phá chuỗi,…v.v
Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
19
Phân loại dựa trên lĩnh vực được áp dụng: kinh doanh bán lẻ, viễn thông,
tin-sinh, y học, tài chính và thị trường chứng khoán, khai phá dữ liệu web,v.v.
Phân loại dựa trên kỹ thuật được áp dụng: phân tích trực tuyến (OLAP), học
máy (cây quyết định, mạng nơron nhân tạo, k-mean, thụât toán di truyền, máy vectơ
hỗ trợ -SVM, tập thô, tập mờ.v.v.) trực quan hoá, v.v.
Việc sử dụng tập mờ thường thích hợp cho việc tìm ra và hiểu được sự liên

quan của các mô hình dữ liệu chưa đầy đủ, nhiễu, thông tin hỗn tạp và tác động của
con người và từ đó có thể cung cấp giải pháp xấp xỉ nhanh hơn. Mạng nơron có khả
năng tổng quát, không giới hạn, mạnh và học tốt trong môi trường dữ liệu giàu.
Thuật toán di truyền cũng cung cấp khả năng tìm các thuật toán để chọn mẫu từ các
dữ liệu hỗn tạp dựa trên một số hàm tiêu chuẩn/mục tiêu thường dùng. Tập thô thì
lại phù hợp cho việc tìm ra các mẫu khác nhau của tình trạng không rõ ràng trong
dữ liệu. Một số yêu cầu khai thác dữ liệu cần phải áp dụng phương pháp tính toán
mềm( tính toán mềm là sự kết hợp của các phương pháp logic mờ, thuật toán di
truyền, khám phá tri thức, mạng nơron, tính toán nơron mờ, tập thô, rút ra luật, )
1.1.11 Những khó khăn trong việc khai phá dữ liệu
Những thách thức cơ bản: hiện nay thách thức lớn nhất đối với con người là
nhu cầu sử dụng thông tin. Nếu thông tin luôn đáp ứng và làm thoả mãn nhu cầu
của con người trong mọi lúc mọi nơi thì xu thế phát triển xã hội, kinh tế, chính trị,
công nghệ sẽ là mong muốn lớn nhất của loài người. Thế nhưng, trên thực tế con
người thường gặp trở ngại khách quan lẫn chủ quan. Một trong những thách thức cơ
bản mà cần phải vượt qua đó là: các CSDL lớn (ví dụ 10
6
–10
12
bản ghi); số chiều
lớn (ví dụ 10
2
– 10
3
thuộc tính); các vấn đề nảy sinh: hiệu suất, kích cỡ, chất lượng,
hiệu quả; dữ liệu và tri thức không ngừng thay đổi, khi thay đổi dữ liệu và tri thức
có thể làm cho các mẫu đã phát hiện không còn phù hợp nữa. Tương tác người- máy
và hiển thị; dữ liệu bị thiếu hoặc nhiễu; quan hệ giữa các trường phức tạp; giao tiếp
với người sử dụng và kết hợp với các tri thức đã có; đối phó với độ phức tạp tính
toán; tích hợp các hệ thống khác

Những thách thức thực tế: ngày nay các doanh nghiệp và các tổ chức luôn
chịu sức ép cạnh tranh trên thị trường. Những doanh nghiệp nào tồn tại và phát triển
thì phải nhờ vào việc khai phá tốt các thông tin, dữ liệu về lĩnh vực mà họ quan tâm,
từ đó có được các quyết định kịp thời và chính xác để tìm ra các chiến lược phát
Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
20
triển tốt trong tương lai. Trong những năm gần đây, các công cụ và kỹ thuật được
dùng để xử lý các thông tin có cấu trúc (kể cả phi cấu trúc) đã phát triển không
ngừng, từ CSDL đến kho dữ liệu và bây giờ là KPDL. KPDL đã trở thành một công
cụ hỗ trợ đắc lực cho việc ra quyết định. Chính vì vậy, lĩnh vực KPDL là tiền đề để
phát triển các nhu cầu tất yếu của các tổ chức, cá nhân trên toàn cầu. Tuy nhiên, với
mỗi tổ chức, cá nhân sẽ có mục đích đặc thù của họ, dẫn đến KPDL cũng khác
nhau. Vì vậy để lấy ra được các thông tin hữu ích, đáp ứng được đòi hỏi của người
sử dụng trong các nhiệm vụ, tình huống cụ thể khác nhau là không đơn giản bên
cạnh đó còn phải lựa chọn áp dụng phương pháp nào cho từng loại bài toán; thuật
toán tối ưu nhất; độ phức tạp tính toán cho từng thuật toán; độ phức tạp về thời
gian; nhu cầu sử dụng thông tin chính xác, hiệu quả và kịp thời
2.2. Công nghệ khám phá tri thức (KDD).
2.2.1. Khám phá tri thức là gì?
Khám phá tri thức trong các cơ sở dữ liệu là một quy trình nhận biết các
mẫu hoặc các mô hình trong dữ liệu với những tính năng: hợp thức, mới, khả ích và
có thể hiểu được. Đây là một quá trình nghiên cứu một khối lượng dữ liệu lớn bằng
các phương tiện tự động. Mục đích của sự phát hiện tri thức và khai phá dữ liệu
chính là tìm ra các mẫu và các mô hình đang tồn tại trong các cơ sở dữ liệu nhưng
vẫn còn bị che khuất bởi hàng núi dữ liệu.
Khám phá tri thức nhanh chóng phát triển cùng với nhiều lĩnh vực khác
nhau như: cơ sở dữ liệu, thống kê thông tin, học máy, trích rút tri thức hữu ích từ
những tập hợp lớn dữ liệu, tính toán song song và hiệu năng cao, thu nhận tri thức
cho những hệ thống chuyên gia và trực quan hoá dữ liệu. Các lãnh vực này đều có

một mục đích chung là rút ra tri thức từ dữ liệu của cơ sở dữ liệu lớn.
Những lĩnh vực học máy và nhận dạng có cùng với KDD mục đích nghiên
cứu những lý thuyết và giải thuật nhằm lấy ra các mẫu và mô hình từ các dữ liệu (là
những kĩ thuật khai phá dữ liệu), hướng tới việc mở rộng những lý thuyết và giải
thuật này để có thể tìm kiếm được những mẫu đặc biệt (những thứ mà có thể được
gọi là tri thức hữu ích hoặc thú vị) trong những tập hợp lớn dữ liệu của thế giới thực
tế.
Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
21
KDD cũng có nhiều điểm chung so với phương pháp thống kê, phân tích dữ
liệu. KDD thường được nhúng vào bên trong những thủ tục thống kê đặc biệt để mô
hình hoá dữ liệu và quản lý nhiễu, những thủ tục này đóng vai trò như một thành
phần trong kết cấu tổng thể của hệ khám phá tri thức.
Một lĩnh vực liên quan khác đến KDD là kho dữ liệu, đóng vai trò thu thập
và làm sạch dữ liệu, tạo ra một kho dữ liệu có đầy đủ tính năng sẵn sàng và trực
tuyến. Cách tiếp cận thông thường để phân tích kho dữ liệu được gọi là OLAP (xử
lý phân tích trực tuyến). Những công cụ OLAP cung cấp khả năng phân tích dữ liệu
đa chiều/ đa khía cạnh (multi-dimensional), đây là công cụ cấp cao hơn so với ngôn
ngữ truy vấn chuẩn SQL trong việc tóm lược tính toán theo nhiều chiều dữ liệu.
Một câu hỏi rất hay được đặt ra là phân biệt giữa công cụ KDD và OLAP.
Công cụ phân tích trực tuyến (OLAP) cũng là công nghệ hỗ trợ cho quá trình ra
quyết định. Một sự khác biệt giữa KDD và OLAP là OLAP cho ta câu trả lời với
các tình huống mà người đặt câu hỏi đã chuẩn bị trước. Còn KDD thì khác hẳn, nó
tự phát hiện ra các quy luật để từ đó người nghiên cứu rút ra các kết luận cần thiết.
Ngoài ra KDD đưa ra các giả thiết mới có thể dùng công cụ OLAP để xác nhận
hoặc loại bỏ. Như vậy KDD và OLAP có quan hệ tương hỗ, hỗ trợ nhau. Chúng ta
có thể coi cả công nghệ khám phá tri thức lẫn OLAP là những khía cạnh quan trọng
để tạo ra những công cụ thông minh có thể trích rút và quản lý thông tin.
Như ta đã biết, KDD là sự tổng hợp của các lĩnh vực kiến thức rất khác

nhau. Có hai phương án để tiếp cận KDD:
- Tiếp cận theo hướng thống kê
- Tiếp cận theo hướng mạng Neural
Trong thời gian gần đây, người ta coi phương pháp thống kê là một bộ phận
của KDD vì KDD sử dụng các phương pháp thống kê phối hợp với các phương
pháp trí tuệ nhân tạo khác. Dùng các phương pháp KDD có thể giải quyết được bài
toán sau:
- Xây dựng từ tập hợp số liệu cho trước khi mô hình sát nhau để dự đoán và
đưa ra quyết định. Trong nhiều tình huống khai thác dữ liệu không đầy đủ.
- Xác định quan hệ giữa các dữ liệu, mức độ ảnh hưởng của các yếu tố khác
nhau đến các quá trình.
Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
22
2.2.2. Vai trò và các mục tiêu chính của KDD.
- Thu thập được các tri thức thu được từ dữ liệu có sẵn:
* Nhiều cơ quan đã thu nhập được nhiều năm một khối lượng lớn các dữ
liệu. họ sẽ phải làm gì và có thể làm gì với chúng?.
* Người ta lưu trữ các dữ liệu vì họ nghĩ rằng có thể có những của cải đáng
quý nào nó đang tiềm ẩn trong chúng. Về ý nghĩa khoa học thì dữ liệu chính là
những quan sát đã được tập hợp lại một cách cẩn thận và công phu về một hiện
tượng tự nhiên hay xã hội nào đó cần phải được nghiên cứu.
* Trong kinh doanh, dữ liệu hàm chứa các thông tin về thị trường, về các
đối thủ và về các khách hàng. Trong kỹ nghệ, dữ liệu chứa các thông tin về sản
xuất, về vận hành và các khả năng tối ưu, cũng như các giải pháp chủ yếu để cải
tiến các quy trình và giải quyết các sự cố.
* Chỉ có một lượng khá nhỏ (thông thường vào khoảng 5% đến 10%) dữ
liệu đã được thu thập luôn luôn được phân tích.
* Các dữ liệu có thể chưa bao giờ được phân tích vẫn tiếp tục được thu thập
rất tốn kém với ý nghĩ lo xa rằng sau này sẽ có một cái gì đó rất quan trọng có thể

bỏ qua.
* Lượng dữ liệu quá lớn đối với cách thức phân tích cổ điển. Đôi khi, ta
không thể xem được hoặc chứa được tất cả trong bộ nhớ.
- Cung cấp công cụ cho những người sử dụng không chuyên về thống kê.
- Cần phải nhanh chóng phát hiện và đưa ra quyết định trong các tình huống
khẩn cấp trong môi trường cạnh tranh.
- Khi các cơ sở dữ liệu càng ngày càng to lên thì khả năng hỗ trợ phân tích
và ra quyết định bằng cách hỏi đáp truyền thống (kiểu SQL) sẽ không thể thực hiện
được hoặc nhiều yêu cầu mà người sử dụng quan tâm rất khó có thể mô tả được
bằng một ngôn ngữ hỏi đáp. Chẳng hạn như “hãy tìm cho tôi tất cả các bản ghi
chứng tỏ rằng có sự gian lận trong đó” hoặc “hãy tìm tất cả những bản ghi tương tự
như các bản ghi trong bảng X”.

Áp dụng luật kết hợp cho khai phá dữ liệu cho dữ liệu Ngân hàng Đầu tư và Phát triển Việt Nam
Luận văn thạc sĩ Công nghệ thông tin_ Nguyễn Thế Vinh lớp K10T3CN
23
2.2.3. Quá trình phát hiện tri thức
Quá trình phát hiện tri thức bao gồm một số bước như sau:
Bước thứ nhất là tìm hiểu lĩnh vực ứng dụng và hình thành bài toán. Bước
này rõ ràng là một điều tiên quyết cho việc rút ra được các tri thức hữu ích và cho
việc chọn các phương pháp khai thác dữ liệu thích hợp trong bước ba sao cho phù
hợp với mục đích ứng dụng và bản chất của dữ liệu.
Bước thứ hai là thu thập và xử lý thô, hay còn gọi là tiền xử lý dữ liệu nhằm
loại bỏ nhiễu hoặc dị dạng, xử lý việc thiếu dữ liệu, tiến hành các phép biến đổi
(nếu cần thiết) và rút gọn dữ liệu. Bước này thường chiếm hầu hết thời gian cần
thiết cho toàn bộ quy trình KDD.
Bước thứ ba là khai phá dữ liệu, tức là trích ra các mẫu hoặc/và các mô hình
ẩn dưới các dữ liệu. Một mô hình có thể được xem như “một biểu diễn tổng thể của
một cấu trúc nhằm tóm lược thành phần mang tính hệ thống ngụ trong dữ liệu hoặc
mô tả tập dữ liệu này có thể sinh sôi nảy nở ra sao”. Trái lại một mẫu là một cấu

trúc cục bộ chỉ liên quan tới một nhóm các biến và một số tập các sự kiện. Các lớp
chính của các phương pháp khai phá dữ liệu là mô hình dự đoán chẳng hạn như
phân loại và hồi quy: phân đoạn (chia cụm); mô hình phụ thuộc chẳng hạn như các
mô hình đồ thị hoặc ước lượng mật độ; mô hình tóm lược chẳng hạn như tìm các
mối quan hệ giữa các trường, các liên kết; và mô hình thay đổi và phát triển độ lệch
trong dữ liệu và tri thức.
Bước thứ tư là hiểu tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô tả
và dự đoán, hai mục tiêu chính của các hệ thống khám phá trong thực tế. Kinh
nghiệm cho thấy rằng các mẫu hoặc các mô hình phát hiện được từ các dữ liệu
không phải lúc nào cũng đáng quan tâm và có thể trực tiếp sử dụng được ngay và
quy trình KDD cần phải được lặp đi lặp lại có điều chỉnh theo các tri thức đã phát
hiện được. Để có thể đánh giá các luật được áp dụng trong quy trình KDD, người ta
thường chia giữ liệu thành hai tập, huấn luyện trên tập thứ nhất và kiểm chứng trên
tập thứ hai. Có thể lặp lại quy trình này một số lần với các phần chia khác nhau, sau
đó lấy trung bình các kết quả để ước lượng các luật thi hành.
Bước cuối cùng là đem tri thức đã phát hiện được vào sử dụng trong thực
tế. Trong một vài trường hợp người ta có thể sử dụng tri thức phát hiện được mà

×