Tải bản đầy đủ (.doc) (98 trang)

Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.02 MB, 98 trang )

Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
MỤC LỤC
CHƯƠNG I : KHÁI QUÁT VỀ PHÁT HIỆN TRI THỨC TỪ CƠ SỞ DỮ
LIỆU VÀ KHAI PHÁ DỮ LIỆU 3
1.1 Cơ sở tri thức 3
1.2 Phát hiện tri thức từ cơ sở dữ liệu 3
1.3 Khai phá dữ liệu 5
1.4 Kho dữ liệu 5
1.5 Ưu thế của khai phá dữ liệu 7
1.5.1 Máy học 7
1.5.2 Thống kê 8
1.6 Ứng dụng của khai phá dữ liệu 9
CHƯƠNG II : QUÁ TRÌNH KHAI PHÁ DỮ LIỆU 10
2.1. Xác định vấn đề 11
2.2 Chuẩn bị dữ liệu 12
2.2.1 Dạng chuẩn 12
2.2.2 Biến đổi dữ liệu 14
2.2.3 Dữ liệu thiếu 18
2.3 Rút gọn dữ liệu 19
2.3.1 Lựa chọn các thuộc tính 20
2.3.2 Lựa chọn các trường hợp 20
2.4 Xây dựng và đánh giá các mô hình khai phá dữ liệu 23
2.5 Triển khai mô hình và thu thập kết quả 24
CHƯƠNG III : CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU 25
3.1 Cây quyết định 25
3.2 Mạng Nơ ron 30
3.3 Kỹ thuật K- láng giềng gần nhất 33
3.4 Luật quyết định và luật liên kết 35
CHƯƠNG IV: MỘT SỐ GIẢI THUẬT KHAI PHÁ LUẬT LIÊN KẾT 38
4.1 Mô hình hình thức 38
4.1.1 Tìm kiếm các tập phần tử lớn 40


Nguyễn Tiến Thành – Công nghệ phần mềm K44
1
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
4.1.2 Xác định các tập ứng cử 41
4.1.3 Xác định tập biên 43
4.2 Thuật toán Apriori 44
4.2.1 Hàm Apriori-gen 46
4.2.2 Hàm Subset 47
4.3 Thuật toán AprioriTid 48
4.4 Thuật toán FP-growth 52
4.4.1 Cây mẫu thường xuyên : Thiết kế và xây dựng 54
4.4.2 Sử dụng cây FP trong khai phá các mẫu thường xuyên 60
CHƯƠNG V : TỔNG QUAN VỀ CHƯƠNG TRÌNH ỨNG DỤNG 69
5.1 Đặt vấn đề 69
5.2 Phương pháp giải quyết 70
5.3 Mô hình hệ thống 74
CHƯƠNG VI : PHÂN TÍCH THIẾT KẾ HỆ THỐNG 75
6.1 Biểu đồ Use Case 75
6.2 Biểu đồ tương tác 78
6.3 Biểu đồ trình tự 79
CHƯƠNG VII : XÂY DỰNG CHƯƠNG TRÌNH ỨNG DỤNG 83
7.1 Module Chuẩn bị dữ liệu 83
7.2 Module Khai phá dữ liệu 85
7.3 Module Giao diện 87
7.4 Một số kết quả 88
KẾT LUẬN 94
TÀI LIỆU THAM KHẢO 95
PHỤ LỤC 96
Nguyễn Tiến Thành – Công nghệ phần mềm K44
2

Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
CHƯƠNG I : KHÁI QUÁT VỀ PHÁT HIỆN TRI THỨC
TỪ CƠ SỞ DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU
1.1 Cơ sở tri thức
Cơ sở tri thức là một tập hợp các thông tin hữu ích về một vấn đề nào
đó. Các thông tin này đã được phân loại, định dạng theo những cách đặc
biệt. Cụ thể hơn, các thông tin được gọi là tri thức là các thông tin được
phân loại theo chủ đề, và đã qua kiểm chứng tính đúng đắn. Với các hệ
chuyên gia, cơ sở tri thức là tập các sự kiện và luật. Trước đây, các tri thức
dạng luật được thu thập từ phát biểu của các nhà chuyên gia. Điều này có
nhược điểm là một quá trình thủ công, dựa nhiều vào kinh nghiệm. Do đó
tính đầy đủ và chính xác của các tri thức phụ thuộc vào ý kiến chủ quan của
con người. Hiện nay, với sự xuất hiện của các kỹ thuật khai phá dữ liệu đã
mở ra một hướng mới trong việc thu thập tri thức. Đó là cách khai thác các
tri thức hữu ích một cách trực tiếp và tự động nhờ các bộ công cụ khai phá
dữ liệu. Nhờ đó, công việc thu thập tri thức trở nên nhanh chóng và hiệu
quả, tri thức thu được mang tính khách quan. Đồng thời cách tiếp cận này
cũng làm giảm đáng kể chi phí về thời gian và nhân lực, hỗ trợ hiệu quả
cho quá trình xây dựng các hệ chuyên gia.
1.2 Phát hiện tri thức từ cơ sở dữ liệu
Với những cơ sở dữ liệu lớn có nhiều trường điều cần thiết là phải có
một phương thức và công cụ để giúp đỡ con người trích xuất những thông
tin hữu ích (tri thức) từ chúng. Các phương thức và công cụ này là chủ đề
của phát hiện tri thức từ cơ sở dữ liệu (KDD).
Ở một mức cụ thể hơn, KDD quan tâm đến việc phát triển các phương
thức và kỹ thuật để xử lý dữ liệu. Vấn đề cơ bản trong KDD là ánh xạ các
dữ liệu mức thấp (có số lượng rất lớn để có thể hiểu và phân loại dễ dàng)
Nguyễn Tiến Thành – Công nghệ phần mềm K44
3
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức

thành các dạng đơn giản hơn (ví dụ như một báo cáo), cụ thể hơn. Trung
tâm của quá trình KDD là ứng dụng các phương pháp khai phá dữ liệu xác
định nhằm mục đích khai phá các mẫu và trích xuất thông tin.[7]
Các phương thức truyền thống nhằm chuyển dữ liệu thành các tri thức
phụ thuộc vào các phân tích và giải thích thủ công. Ví dụ như trong ngành
y tế, các chuyên gia thường phải định kỳ phân tích các xu hướng hiện tại và
các thay đổi trong dữ liệu chăm sóc sức khỏe. Sau đó họ sẽ lập một báo cáo
phân tích chi tiết để gửi lên trên, báo cáo này sẽ là cơ sở để đưa ra các
quyết định trong tương lai và lập kế hoạch cho công tác quản lý y tế. Trong
rất nhiều lĩnh vực khác như khoa học, tài chính, tiếp thị, hoạt động bán lẻ
hoạt động phân tích dữ liệu đều chủ yếu nhờ vào các chuyên gia có kinh
nghiệm.
Với các lĩnh vực trên, việc tìm kiếm thông tin từ tập dữ liệu một cách
thủ công rất tốn thời gian, tiền bạc và mang tính chủ quan. Trên thực tế, với
các dữ liệu phình to một cách nhanh chóng, cách phân tích này trở nên
không khả thi trong nhiều phạm vi. CSDL gia tăng kích thước theo hai
cách: 1.Số lượng các đối tượng bản ghi trong CSDL và 2.Số luợng các
trường hoặc thuộc tính của một đối tượng bản ghi. Một CSDL lớn có thể
bao gồm khoảng 10
9
đối tượng càng ngày càng tăng, ví dụ như các dữ liệu
thiên văn. Tương tự, số lựợng các trường có thể tăng lên thành 10
2
hay 10
3
,
ví dụ như các dữ liệu chẩn đoán bệnh. Như vậy không ai có thể phân tích
một CSDL tới hàng triệu bản ghi, mỗi bản ghi có từ hàng chục đến hàng
trăm trường.
Sự cải tiến khả năng phân tích của con người để xử lý khối lượng dữ

liệu lớn là rất cấn thiết cả về mặt kinh tế và khoa học. Các nhà kinh doanh
sử dụng dữ liệu để giành lợi thế trong cạnh tranh, tăng mức độ hiệu quả và
cung cấp thêm các dịch vụ có lợi cho người tiêu dùng. Những dữ liệu thu
thập được về môi trường là căn cứ cơ sở để chúng ta hình thành khái niệm
về thế giới hiện tại. Do máy tính cho phép con người có thể thu thập nhiều
Nguyễn Tiến Thành – Công nghệ phần mềm K44
4
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
dữ liệu hơn khả năng phân tích của con người nên rất cần có những kỹ
thuật tính toán để trợ giúp trong việc khai phá các mẫu và cấu trúc từ những
tập dữ liệu cực lớn. Do đó KDD là một giải pháp cho vấn đề của thời đại
thông tin số : quá tải dữ liệu.
1.3 Khai phá dữ liệu
KDD là một quy trình tổng thể nhằm phát hiện các tri thức hữu ích từ
dữ liệu, và khai phá dữ liệu là một bước đặc biệt của quy trình đó. Nó bao
gồm một việc phân tích dữ liệu và sử dụng các kỹ thuật nhằm tìm ra các
mẫu, các mô hình tổng thể từ dữ liệu. Mục đích của khai phá dữ liệu phụ
thuộc vào cách sử dụng hệ thống. Có hai loại mục đích chính là: dự đoán và
mô tả. Dự đoán là cách hệ thống tìm kiếm các mẫu để dự đoán hành vi của
một số thực thể trong tương lai. Mô tả là công việc của hệ thống tìm kiếm
các mẫu để biểu diễn dưới dạng dễ hiểu đối với người sử dụng.
Khai phá dữ liệu bao gồm các mô hình thích hợp nhằm xác định dạng
của mẫu và khảo sát dữ liệu. Các mô hình này đóng vai trò suy luận tri
thức: khi mô hình cho thấy các thông tin tri thức là hữu ích, các quy trình
khác của KDD sẽ được áp dụng. Có hai dạng mô hình toán học được sử
dụng : dạng thống kê và dạng logic. Hầu hết các phuơng pháp khai phá dữ
liệu đều dựa trên kỹ thuật thử và kiểm tra có trong máy học, nhận dạng mẫu
và thống kê : phân loại, gộp nhóm, hồi quy Số lượng các thuật toán khác
nhau trong mỗi loại kỹ thuật là rất nhiều, tuy nhiên chúng đều tuân theo
những nguyên tắc cơ bản của kỹ thuật.

1.4 Kho dữ liệu
Kho dữ liệu là một tập hợp dữ liệu tích hợp hướng chủ đề có tính ổn
định, thay đổi theo thời gian nhằm hỗ trợ cho việc ra quyết định. Có thể coi
kho dữ liệu là một môi trường có cấu trúc các hệ thống thông tin cung cấp
cho người dùng các thông tin khó có thể truy nhập hoặc biểu diễn trong các
Nguyễn Tiến Thành – Công nghệ phần mềm K44
5
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
cơ sở dữ liệu tác nghiệp truyền thống, nhằm mục đích hỗ trợ việc ra quyết
định mang tính lịch sử hoặc hiện tại. Như vậy một kho dữ liệu bao gồm :
• Cơ sở dữ liệu tích hợp hướng chủ đề ổn định được tổng hợp từ các
dữ liệu bằng cách lập các bảng dữ liệu
• Một hoặc nhiều công cụ để chiết xuất dữ liệu bất kỳ dạng cấu trúc
dữ liệu nào
Các kho dữ liệu được sử dụng vào các mục đích sau
• Theo cách khai thác truyền thống : kho dữ liệu được sử dụng để
khai thác các thông tin bằng các công cụ truy vấn và báo cáo. Nhờ
việc chiết xuất, tổng hợp và chuyển đổi từ các dữ liệu thô sang các
dạng dữ liệu chất lượng cao và ổn định, kho dữ liệu giúp cho việc
nâng cao các kỹ thuật biểu diễn thông tin truyền thống (truy vấn
và báo cáo). Bằng cách tạo ra một tầng ẩn giữa người dùng và cơ
sở dữ liệu, dữ liệu đầu vào của các kỹ thuật này được đặt vào một
nguồn duy nhất. Việc hợp nhất này loại bỏ được rất nhiều lỗi sinh
ra do việc phải thu thập và biểu diễn thông tin từ nhiều nguồn khác
nhau cũng như giảm bớt được sự chậm trễ do phải lấy các dữ liệu
bị phân đoạn trong các cơ sở dữ liệu khác nhau. Tuy nhiên đây
mới là cách khai thác với kỹ thuật cao để đưa ra các dữ liệu tinh và
chính xác hơn chứ chưa đưa ra được dữ liệu tri thức
• Hỗ trợ phân tích trực tuyến (OLAP) : Trong khi ngôn ngữ truy vấn
chuẩn SQL và các công cụ làm báo cáo truyền thống chỉ có thể

miêu tả những gì có trong cơ sở dữ liệu thì phân tích trực tuyến có
khả năng phân tích dữ liệu, xác định xem giả thuyết đúng hay sai
• Cơ sở cho khai phá dữ liệu : Thông thường, các dữ liệu để khai
phá được trích rút từ một kho dữ liệu chính vào một cơ sở dữ liệu
hoặc một tập hợp dữ liệu theo chủ đề (Data mart). Nếu như dữ liệu
để khai phá là một phần của kho dữ liệu thì sẽ tạo thuận lợi lớn, do
việc làm sạch dữ liệu của kho dữ liệu và của khai phá dữ liệu là
Nguyễn Tiến Thành – Công nghệ phần mềm K44
6
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
khá giống nhau. Nếu như dữ liệu cần khai phá là dữ liệu từ kho dữ
liệu đã được làm sạch thì không cần phải thực hiện quá trình làm
sạch một lần nữa. Ngoài ra, các vấn đề về hợp nhất dữ liệu cũng
được chỉ ra và được đặt vào quy trình bảo trì. Mối quan hệ giữa
nguồn dữ liệu với kho dữ liệu và dữ liệu cho khai phá dữ liệu được
thể hiện trong hình 1.1
Hình 1.1 Quan hệ giữa nguồn dữ liệu và kho dữ liệu
1.5 Ưu thế của khai phá dữ liệu
Trước khi khai phá dữ liệu xuất hiện, đã có những phương pháp khác
nhằm khai thác các thông tin có ích từ cơ sở dữ liệu như máy học, thống kê.
Tuy nhiên, khai phá dữ liệu có những ưu thế hơn hẳn chúng. Các phân tích
dưới đây sẽ giải thích điều này.
1.5.1 Máy học
Mặc dù đã có những cố gắng nhằm cải tiến các phương pháp máy học
để cho phù hợp với mục đích khai phá dữ liệu nhưng sự khác biệt giữa cách
thiết kế, các đặc điểm của cơ sở dữ liệu làm cho phương pháp máy học trở
nên kém hiệu quả với mục đích này.
Nguyễn Tiến Thành – Công nghệ phần mềm K44
7
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức

Trong quản trị cơ sở dữ liệu, một cơ sở dữ liệu là một tập hợp dữ liệu
được tích hợp một cách logic, được lưu trong một hay nhiều tệp và được tổ
chức để lưu trữ có hiệu quả, sửa đổi và lấy thông tin liên quan được dễ
dàng. Ví dụ như trong cơ sở dữ liệu quan hệ, dữ liệu được tổ chức thành
các tệp hoặc các bảng, trong đó các bản ghi có độ dài cố định. Mỗi bản ghi
là một danh sách có thứ tự các giá trị, mỗi giá trị được đặt vào một trường.
Một hệ thống quản trị cơ sở dữ liệu sẽ quản lý các thủ tục để lấy, lưu trữ và
xử lý dữ liệu trong các cơ sở dữ liệu đó.
Cơ sở dữ liệu máy học chủ yếu đề cập đến một tập các mẫu (example)
được lưu trong tệp. Các mẫu thường là các vectơ thuộc tính có độ dài cố
định. Thông tin về tên các thuộc tính, dãy giá trị của chúng đôi khi cũng
được lưu lại như trong từ điển dữ liệu. Một số thuật toán học sử dùng tập
dữ liệu và các thông tin kèm theo tập dữ liệu đó làm đầu vào, đầu ra biểu
thị kết quả của việc học.
Như vậy, cơ sở dữ liệu máy học và cơ sở dữ liệu thông thường có những
điểm tương đồng, do đó có thể áp dụng phương pháp máy học cho các dữ
liệu thông thường. Tuy nhiên, quá trình phát hiện tri thức trong cơ sở dữ
liệu làm tăng thêm các vấn đề vốn có của học máy và vượt quá khả năng
của máy học. Cơ sở dữ liệu thực tế thường đông, không đầy đủ, bị nhiễu và
có kích thước lớn hơn nhiều so với các tập dữ liệu máy học điển hình. Điều
này làm cho các thuật toán máy học trở nên không có hiệu quả.

1.5.2 Thống kê
Thống kê từ lâu đã được sử dụng một cách hiệu quả các phương pháp
thống kê vào nhiều lĩnh vực khác nhau. Đã có nhiều phương pháp ước
lượng và xác định những mẫu ngẫu nhiên được nghiên cứu và phát triển.
Mặc dù các phương pháp thống kê cung cấp một nền tảng lý thuyết
vững chắc cho các bài toán phân tích dữ liệu. Nhưng nếu chỉ thống kê
thuần túy thì chưa đáp ứng được các mục tiêu của khai phá dữ liệu. Các
Nguyễn Tiến Thành – Công nghệ phần mềm K44

8
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
phương pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu có cấu
trúc trong cơ sở dữ liệu. Ngoài ra với một cơ sở dữ liệu lớn với nhiều
trường, ví dụ như cơ sở dữ liệu bảng điểm của sinh viên thì các kết quả của
phân tích thống kê sẽ rất lớn, do đó rất khó có thể khai thác có hiệu quả.
Mặt khác, các kết quả này đòi hỏi phải có những chuyên gia phân tích trong
từng lĩnh vực, tiêu tốn nhiều nhân lực với chi phí lớn và hiệu quả không
cao.
Khác với thống kê cổ điển, khai phá dữ liệu có ưu điểm tự động hóa quá
trình thống kê một cách có hiệu quả , làm giảm khối lượng công việc của
người dùng đầu cuối. Công việc phân tích cũng được thực hiện một cách tự
động, khiến cho độ chính xác được nâng cao và rút ngắn thời gian phân
tích, đồng thời tiết kiệm chi phí nhân lực bỏ ra.
1.6 Ứng dụng của khai phá dữ liệu
Hiện nay có khá nhiều các ứng dụng của khai phá dữ liệu và KDD được
triển khai, đem lại hiệu quả cao trong thực tế, phục vụ cho sản xuất kinh
doanh và nghiên cứu khoa học.
Trong khoa học, một trong những ngành ứng dụng chính là thiên văn
học. Hệ thống SKICAT dùng để phân tích ảnh, phân loại và xếp nhóm các
vật thể không gian từ các ảnh quan sát vũ trụ. Hệ thống này được dùng để
xử lý 3 terabytes dữ liệu ảnh từ Đài thiên văn Palomar, với khoảng 1 tỉ vật
thể không gian phát hiện được. SKICAT có thể làm được những công việc
tính toán cực lớn trong việc phân loại các ảnh vật thể không rõ ràng[7]
Trong kinh doanh, các ứng dụng chính của KDD bao gồm tiếp thị, tài
chính (đặc biệt là đầu tư), phát hiện gian lận, sản xuất, viễn thông và các
Internet agent (tác tử).
Tiếp thị: ứng dụng chính là hệ thống CSDL tiếp thị, phân tích các dữ
liệu khách hàng để phân loại các nhóm khách hàng khác nhau và dự báo về
sở thích của họ.

Nguyễn Tiến Thành – Công nghệ phần mềm K44
9
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
Đầu tư: LBS Capital Management dùng để quản lý danh mục vốn đầu tư
Phát hiện gian lận : Hệ thống HNC Falcon and Nestor PRISM dùng để
theo dõi các gian lận thẻ tín dụng, có thể theo dõi hoạt động của hàng triệu
tài khoản. Hệ thống FAIS dùng để thẩm định các giao dịch thương mại có
bao gồm hoạt động chuyển tiền bất hợp pháp
Sản xuất: Hệ thống xử lý sự cố CASSIOPEE được sử dụng để phát hiện
và tiên đoán các sự cố của máy bay Boeing.
Viễn thông: Hệ thống TASA dùng để phân tích các lỗi báo động trên
đường truyền
Các tác tử thông minh: dùng để duyệt qua một môi trường nhiều thông
tin như Internet. Các hệ thống này yêu cầu người dùng mô tả sở thích cá
nhân và tìm kiếm các thông tin liên quan từ nhiều nguồn khác nhau.
CHƯƠNG II : QUÁ TRÌNH KHAI PHÁ DỮ LIỆU
Nguyễn Tiến Thành – Công nghệ phần mềm K44
10
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
2.1. Xác định vấn đề
Giai đoạn đầu tiên của quá trình khai phá tri thức là tìm hiểu dữ liệu và
vấn đề đặt ra. Nếu như không có sự hiểu biết về vấn đề thì không thể tìm ra
được một kết quả đáng tin cậy. Vì vậy, để ứng dụng một cách tốt nhất khai
phá dữ liệu, cần phải có một mô tả đầy đủ về mục tiêu cần đạt tới. Việc
trình bày rõ ràng vấn đề còn nhằm cung cấp các tiêu chí cho việc đánh giá
kết quả của quá trình khai phá tri thức. Dưới đây là một số vấn đề chính của
khai phá dữ liệu :
• Dự đoán : hai kiểu dự đoán chủ yếu là phân loại và xác định giá
trị. Các mẫu kinh nghiệm trước đây với kết quả đã biết được khảo
sát và áp dụng với trường hợp trong tương lai. Ví dụ với bảng dữ

liệu khách hàng vay nợ của một ngân hàng, trong trường hợp dự
đoán phân loại, kết quả trả về là khách hàng có khả năng trả nợ
hay không; còn với trường hợp dự đoán giá trị, kết quả trả về là
mức độ lợi nhuận hay thua lỗ của khoản nợ trên. Chuỗi thời gian
là một vấn đề đặc biệt của dự đoán, với các giá trị của một thuộc
tính được thu thập theo thời gian, ví dụ như số tiền trả nợ hằng
tháng được ghi nhận và khảo sát.
• Luật liên kết và phân tích các mối liên hệ : Ngôn ngữ của các cơ
sở dữ liệu là một dạng logic với các mệnh đề ở dạng đúng-sai. Ví
dụ, tìm các bản ghi trong đó tiền nợ đã được thanh toán, và biểu
diễn kết quả ở dạng logic, chẳng hạn “Tiền nợ được thanh toán với
độ tin cậy 90% khi khách hàng có thu nhập cao và có việc làm ổn
định”. Đây là các mối liên hệ dưới dạng luật quyết định.
• Gộp nhóm : được dùng để tìm ra các tập hợp các bản ghi tương tự
nhau trong dữ liệu mà không có điều kiện gì hạn chế. Trên thực tế,
gộp nhóm thường được dùng để xác định các nhóm khách hàng
chưa được nhận biết trước đây. Ví dụ như xác định các điểm tương
Nguyễn Tiến Thành – Công nghệ phần mềm K44
11
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
đồng của thói quen sử dụng internet, để nghĩ ra một loại hình dịch
vụ internet mới.
2.2 Chuẩn bị dữ liệu
Giai đoạn chuẩn bị dữ liệu là bước thứ hai của quá trình khai phá dữ
liệu. Hai mục tiêu chính của giai đoạn này là :
- Tổ chức lại dữ liệu vào một dạng chuẩn, tạo nguồn dữ liệu cho
chương trình khai phá dữ liệu xử lý .
- Chuẩn bị các thông tin cần thiết sao cho phù hợp với mục tiêu của
quá trình khai phá dữ liệu
2.2.1 Dạng chuẩn

Dạng chuẩn là một định dạng đơn giản của dữ liệu. Một dạng chuẩn
giúp ta hiểu được những thuận lợi và hạn chế của các phương pháp khai
phá dữ liệu nói chung. Hầu hết các phương pháp khai phá dữ liệu đều đòi
hỏi dữ liệu phải ở một dạng chuẩn nào đó.[4] Ngoài ra, nhằm mục đích
phân loại dữ liệu thì mục đích của việc khai phá phải được làm rõ. Trong
khi một số cơ sở dữ liệu có thể đã được sắp xếp vào một dạng chuẩn, một
số lớn cơ sở dữ liệu khác có thể bao gồm rất nhiều trường văn bản, với
hàng nghìn giá trị cho mỗi trường. Dữ liệu dạng này rất phức tạp, do đó để
khai phá có hiệu quả cần phải chuyển chúng về một dạng chuẩn đơn giản
hơn .
Các kỹ thuật khai phá dữ liệu có thể rất khác nhau, tuy nhiên các dạng
chuẩn của chúng có cẩu trúc tương tự nhau. Đó là một bảng bao gồm các
hàng là các trường hợp, các cột là các thuộc tính và các phần tử của bảng là
các gía trị lượng giá. Cấu trúc của bảng được minh họa trong hình 2.1
Case f
1
f
k
C
1
V
1,1
V
1,k
Nguyễn Tiến Thành – Công nghệ phần mềm K44
12
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức

C
i

V
i,1
V
i,k

C
n
V
n,1
V
n,k

Hình 2.1 Định dạng dữ liệu bảng
2.2.1.1 Các giá trị chuẩn
Dạng bảng ở hình 2.1 là một dạng chuẩn khi các thuộc tính được hạn
chế ở những kiểu nhất định. Các giá trị của mỗi trường hợp phải phù hợp
với các kiểu giá trị đã định trước. Có hai kiểu giá trị, đều được mã hóa dưới
dạng số, do đó tất cả các giá trị V
i,j
đều là con số.
• Giá trị đúng-sai (true or false) : Các giá trị này được mã hóa bằng số
1 cho giá trị true và số 0 cho giá trị false. Ví dụ như với một bảng
các hợp đồng làm ăn của một công ty, trường hợp công ty X, cột i là
thuộc tính “thanh toán”, nhận giá trị 1 nếu hợp đồng đã được thanh
toán, giá trị 0 nếu chưa được thanh toán.
• Giá trị phân loại : Các giá trị có ý nghĩa với việc phân loại dạng
X>Y. Một giá trị có thể là số tự nhiên, số thực như số năm kinh
doanh, hay số điểm của một môn học, nhiệt độ của một ngày.
Các giá trị dạng đúng-sai mô tả sự kiện khi một trong hai tình huống đối
lập xảy ra. Tuy nhiên trên thực tế, có thể có một số sự kiện có nhiều hơn 2

tình huống. Ví dụ như màu sơn của một chiếc xe có thể được mã hoá bằng
một chỉ số chọn từ một bảng các màu sơn khác nhau. Các chỉ số này đôi khi
được gọi là các biến phân loại. Trong dạng chuẩn, một biến phân loại được
biểu diễn dưới dạng m giá trị đúng-sai trong đó m là số giá trị mà biến này
có thể nhận.
Mặc dù một số cơ sở dữ liệu có thể được thiết kế dưới dạng bảng tính
hay có thể dễ dàng chuyển sang dạng bảng tính, việc ánh xạ các dữ liệu này
Nguyễn Tiến Thành – Công nghệ phần mềm K44
13
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
sang dạng chuẩn nhìn chung là không dễ dàng. Ví dụ về sự khó khăn khi
ánh xạ các dữ liệu sang dạng chuẩn là các kiểu dữ liệu thô sau
- Văn bản tự do
- Có các trường bản sao : các giá trị của cùng một thuộc tính được lưu
trữ trong nhiều trường dữ liệu
2.2.1.2 Các mục tiêu
Mục tiêu của quá trình khai phá dữ liệu cần được xác định trước khi
dạng chuẩn được đưa vào xử lý. Mục tiêu này được đưa vào dạng chuẩn
dưới hình thức là một cột thêm vào bên phải của dạng chuẩn. Giá trị của cột
mục tiêu này có thể là các giá trị đúng-sai hay các giá trị phân loại. Hình
2.2 cho thấy cấu trúc của một dạng chuẩn với cột mục tiêu G.
Case f
1
f
k
G
C
1
V
1,1

V
1,k
V
1,k+1

C
i
V
i,1
V
i,k
V
i,k+1

C
n
V
n,1
V
n,k
V
n,k+1
Hình 2.2 Dạng chuẩn
2.2.2 Biến đổi dữ liệu
Nhiệm vụ trung tâm của quá trình chuẩn bị dữ liệu là biến đổi các dữ
liệu thô sang dạng chuẩn. Đôi khi dữ liệu trong kho dữ liệu đã ở dạng
chuẩn, tuy nhiên với trường hợp dữ liệu này chưa ở dạng chuẩn thì cần phải
thực hiện bước định dạng dữ liệu để chuyển sang dạng chuẩn. Nhìn chung,
trong quá trình này cần thực hiện 2 công việc : chọn các thuộc tính và biến
đổi các thuộc tính. Quá trình biến đổi dữ liệu sang dạng chuẩn được mô tả

trong hình 2.3
Nguyễn Tiến Thành – Công nghệ phần mềm K44
14
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức

Hình 2.3 Quá trình chuyển đổi từ kho dữ liệu sang dạng chuẩn
Dựa vào những hiểu biết về vấn để và mục đích của quá trình khai phá
dữ liệu, người phân tích lựa chọn một tập các thuộc tính từ kho dữ liệu.
Trong trường hợp dữ liệu ở dạng bảng, việc lựa chọn các thuộc tính sẽ loại
bỏ một số thuộc tính, biểu diễn bởi các cột trong bảng. Lựa chọn thuộc tính
tự động thường có hiệu quả tốt trong việc tổng hợp và trích rút các thuộc
tính mới. Có nghĩa là vẫn cần phải có các quyết định của người phân tích,
nhưng khi có nghi ngờ thì cần dùng chức năng lựa chọn tự động bằng máy
tính.
2.2.2.1 Tiêu chuẩn hoá dữ liệu
Các phương pháp khai phá dữ liệu, đặc biệt là các phương pháp toán
học cần các số liệu được chuẩn hoá để đạt hiệu quả tốt. Với các giá trị có
thể được phân chia vào một khoảng xác định, chẳng hạn từ -1 đến +1. Ví dụ
Nguyễn Tiến Thành – Công nghệ phần mềm K44
15
Biến đổi thuộc tính
Dạng chuẩn
Lựa chọn thuộc tính
Kho dữ liệu
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
với mạng nơ ron việc học sẽ hiệu quả hơn nếu các giá trị dữ liệu nhập vào
càng nhỏ càng tốt. Có hai kỹ thuật dùng để tiêu chuẩn hoá dữ liệu :
- Phân lớp thập phân : giá trị mới v’(i) được tính theo công thức sau:
k
iv

iv
10
)(
)('
=
(2.1)
Trong đó v(i) là giá trị thuộc tính v của trường hợp i, k là số nguyên
nhỏ nhất sao cho max(|v’(i)|) <1. Cách phân lớp này giữ cho giá trị
trong khoảng [-1,1]. Đầu tiên, tìm giá trị lớn nhất của v(i) trong dữ
liệu, từ đó xác định số chia 10
k
sao cho giá trị v’(i) luôn nhỏ hơn 1.
Số chia này sẽ được áp dụng với tất cả các v(i) trong dữ liệu. Ví dụ,
nếu giá trị lớn nhất là 903 thì sẽ được chuyển thành 0.903 và số chia
cho tất cả v(i) là 1000.
- Độ lệch tiêu chuẩn : giá trị mới v’(i) được tính theo công thức sau:
σ
)()(
)('
vEiv
iv

=
(2.2)
Trong đó E(v) là giá trị trung bình của v, σ là độ lệch tiêu chuẩn.
Các giá trị này được tính từ tập dữ liệu bằng phương pháp xác xuất
thống kê.
2.2.2.2 Làm mịn dữ liệu
Với một thuộc tính dạng số có thể nhận những giá trị khác xa nhau, đôi
khi mỗi trường hợp(bản ghi) có một giá trị. Trong hầu hết các ứng dụng, sự

mức độ khác biệt này là có ý nghĩa, có thể ảnh hưởng tới độ hiệu quả của
ứng dụng. Do đó cần phải làm nhẵn các giá trị này. Có hai phương pháp
làm mịn các giá trị : phương pháp làm tròn và phương pháp phân lớp
Phương pháp làm tròn:
Các giá trị nguyên có thể được làm tròn về hệ thập phân theo công thức sau
Nguyễn Tiến Thành – Công nghệ phần mềm K44
16
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
iy = div(ix,10
k
)
if (mod(ix,10
k
) ≥ (10
k
)/2 then iy = iy+1 (2.3)
ix = iy × 10
k
Trong đó ix là giá trị cần làm tròn, k là hệ số làm tròn. Ví dụ số 145 được
làm tròn thành 150 với k=1 hoặc làm tròn thành 100 với k=2. Thủ tục dưới
đây mô tả quá trình làm tròn các giá trị trong bộ dữ liệu.
Đầu vào : tập các giá trị {v
i
}
Số lớn nhất các giá trị khác biệt max
s := 1
If tập {v
i
} chứa các giá trị lẻ then làm tròn thành giá trị nguyên
Sort{v

i
}
Repeat
num := số giá trị đơn trong {v
i
}
If num ≤ max then ra khỏi vòng lặp
s := s+1
For each giá trị trong tập {v
i
}
If là giá trị âm then nhân với –1
Làm tròn bằng công thức (2.3) với k = s
Chuyển thành giá trị âm nếu cần thiết;
Next giá trị tiếp
Forever
Đưa ra tập giá trị đã được làm tròn {v
i
}
Phương pháp phân lớp:
Các giá trị được sắp xếp theo thứ tự từ nhỏ đến lớn, được phân vào các
“thùng chứa”. Tiếp đó, các giá trị ở mỗi thùng sẽ được làm mịn bằng giá trị
trung bình hoặc bằng giá trị biên. Ví dụ ta có dãy các giá trị như sau
P= {1, 1, 2, 3, 3, 3, 4, 4, 5, 7}
Các giá trị này được đưa vào 3 “thùng chứa”:
Nguyễn Tiến Thành – Công nghệ phần mềm K44
17
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức



1 thùng
2 1, 1,

2 thùng
3 3, 3,
 
3 thùng
,7 ,5 4,5
Làm mịn bằng giá trị trung bình của thùng : như ví dụ trên thì giá trị trung
bình của thùng 1 là 1, thùng 2 là 3, thùng 3 là 5 nên sau khi làm mịn có kết
quả sau :

1 thùng
1 1, 1,

2 thùng
3 3, 3,

3 thùng
,5 ,5 5,5
Làm mịn băng giá trị biên : các giá trị lớn nhất và nhỏ nhất trong một thùng
gọi là giá trị biên. Các giá trị còn lại sẽ được quy về các giá trị biên này :

1 thùng
2 1, 1,

2 thùng
3 3, 3,
 
3 thùng

,7 ,4 4,4
2.2.3 Dữ liệu thiếu
Dạng chuẩn là một bảng các giá trị dạng số, do đó có thể có một số giá
trị bị thiếu. Đặc biệt với những dữ liệu lớn, số bản ghi bị thiếu giá trị
thường tương đối lớn. Do đó, vấn đề ở đây là phải bố sung các giá trị thiếu
này bằng phương pháp dự đoán. Có hai giải pháp cho vấn đề này
Phương pháp thứ nhất là phương pháp toán học, sử dụng kỹ thuật ngoại
suy các giá trị thiếu, có thể chọn một trong ba cách sau:
- Thay thế giá trị thiếu bằng một hằng số chuẩn
- Thay thế giá trị thiếu bằng giá trị trung bình cùng thuộc tính
- Thay thế giá trị thiếu bằng giá trị trung bình cùng thuộc tính và lớp
Phương pháp này có ưu điểm là đơn giản, nhưng có hạn chế là giá trị thay
thế không phải giá trị đúng hoàn toàn. Nếu thay thế giá trị thiếu bằng một
hằng số hoặc một vài giá trị định trước sẽ làm cho dữ liệu mất tính khách
quan. Ví dụ nếu giá trị thiếu được thay thế bằng trung bình của thuộc tính
cùng lớp sẽ làm cho các giá trị này hội tụ vào một tập tương ứng với lớp có
số trường hợp bị thiếu lớn nhất. Cụ thể với dữ liệu khám bệnh, có trường
hợp không cần thực hiện một loại xét nghiệm vì đã có chẩn đoán bệnh.
Nguyễn Tiến Thành – Công nghệ phần mềm K44
18
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
Nhưng điều này không dẫn tới việc luôn chẩn đoán bệnh nhân mắc chứng
bệnh đó vì thiếu xét nghiệm trên.
Phương pháp thứ hai là phương pháp logic, thường sử dụng các kỹ thuật
cây quyết định hoặc luật quyết định. Phương pháp này tỏ ra có ưu thế hơn
phương pháp toán học do tập luật được xây dựng trên dữ liệu thực, vì thế
kết quả có độ tin cậy cao hơn.
2.3 Rút gọn dữ liệu
Sau quá trình chuẩn bị, dữ liệu đã được chuyển về dạng bảng chuẩn.
Với các tập dữ liệu có kích thước vừa phải thì dữ liệu này đã sẵn sàng cho

bước khai phá. Tuy nhiên với tập dữ liệu lớn thì cần phải thực hiện việc rút
gọn dữ liệu là một bước trung gian trước khi áp dụng các kỹ thuật khai phá
dữ liệu.
Hai nguyên nhân của rút gọn dữ liệu là :
- Dữ liệu quá lớn, không phù hợp với khả năng xử lý của chương
trình.
- Thời gian thực thi chương trình quá dài.
Công việc chính trong rút gọn dữ liệu là rút gọn các dòng và cột của nó.
Quá trình này đòi hỏi phải có một kỹ thuật phù hợp sao cho dữ liệu sau khi
được rút gọn vẫn có khả năng được khai phá hiệu quả. Các kỹ thuật rút gọn
dữ liệu được áp dụng với dữ liệu đã ở dạng chuẩn. Như phần 2.2 đã đề cập,
dữ liệu này là các bảng chuẩn. Sau khi rút gọn dữ liệu, kết quả thu được là
một tập con của bảng chuẩn đó. Việc rút gọn dữ liệu được thực hiện với các
hàng, cột và các giá trị, bao gồm
- Loại bỏ một cột (thuộc tính)
- Loại bỏ một hàng (trường hợp)
Khi thực hiện các hoạt động trên phải đảm bảo giữ nguyên đặc tính của
dữ liệu nguồn. Tức là chỉ loại bỏ các dữ liệu thứ yếu hoặc làm nhẵn vừa
phải các thuộc tính.
Nguyễn Tiến Thành – Công nghệ phần mềm K44
19
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
2.3.1 Lựa chọn các thuộc tính
Với hầu hết các ứng dụng, dữ liệu thường có số hàng lớn hơn nhiều so
với số cột, tức là số trường hợp nhiều hơn số thuộc tính. Ví dụ với dữ liệu
bán hàng, số khách hàng và số giao dịch mua bán là rất lớn, tuy nhiên số
mặt hàng thì có giới hạn. Vì vậy việc loại bỏ một thuộc tính sẽ có ảnh
hưởng lớn hơn là loại bỏ một trường hợp. Dạng chuẩn ban đầu sẽ được
khảo sát, sau quá trình xử lý sẽ cho ra kết quả là một tập con của dạng
chuẩn đó nhưng với số thuộc tính ít hơn. Quá trình này được thực hiện

tương đối nhanh và làm giảm đáng kể kích thước tập dữ liệu cần xử lý.
Mục đích của việc lựa chọn thuộc tính là tìm ra tập các thuộc tính có
khả năng dự đoán tốt nhất. Để thực hiện, có thể sử dụng một số phương
pháp sau :
• Lựa chọn thuộc tính từ giá trị trung bình : Các trường hợp thuộc
những lớp khác nhau được khảo sát. Giá trị trung bình của thuộc tính
cần xem xét sẽ được so sánh. Nếu giá trị này khác xa nhau thì thuộc
tính được coi là có ý nghĩa phân loại giữa các lớp và được lựa chọn.
Nhưng nếu các giá trị này tương đương thì ý nghĩa phân loại của
thuộc tính là kém, do đó thuộc tính đó sẽ bị loại bỏ.[4]
• Lựa chọn thuộc tính dùng cây quyết định : Sử dụng cây quyết định
để phân loại các thuộc tính. Các thuộc tính nằm trong cấu trúc cây
quyết định sẽ được lựa chọn. Thuộc tính nào không được đưa vào
cây quyết định sẽ bị loại bỏ, do thuộc tính đó có ảnh hưởng không
lớn đến kết quả.
2.3.2 Lựa chọn các trường hợp
Cách tiếp cận chính để làm giảm số trường hợp cần xử lý là lấy mẫu
ngẫu nhiên. Thay vì tiến hành khai phá trên tập toàn bộ các trường hợp, các
mẫu ngẫu nhiên được thu thập. Có hai cách để lấy mẫu :
Nguyễn Tiến Thành – Công nghệ phần mềm K44
20
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
- Mẫu tăng dần
- Mẫu trung bình
2.3.2.1 Mẫu tăng dần
Phương pháp này tiến thử nghiệm với một tập mẫu lấy từ dữ liệu nguồn,
dùng mẫu này để đánh giá hiệu quả. Tiếp theo lấy các mẫu với số lượng
trường hợp tăng dần và so sánh độ hiệu quả với tập mẫu trước đó. Nếu hiệu
quả được cải thiện thì tiếp tục quá trình lấy mẫu, ngược lại quá trình sẽ
dừng. Ví dụ các tập mẫu tăng dần có thể là 10%, 20%, 33%, 50%, 67%

của tập dữ liệu nguồn. Các giá trị này có thể thay đổi tuỳ theo số lượng
trường hợp của dữ liệu nguồn và hiểu biết về lĩnh vực liên quan. Tập mẫu
khởi đầu phải có kích thước tương đối lớn để việc đánh giá được chính xác,
thông thường không ít hơn 1000 trường hợp. Hình 2.4 mô tả quá trình lấy
mẫu tăng dần và khai phá dữ liệu.
Nguyễn Tiến Thành – Công nghệ phần mềm K44
21
10% trường hợp
20% trường hợp
33% trường hợp
Thực nghiệm
Thực nghiệm
Thực nghiệm
So sánh
hiệu quả
Dừng
Dừng
So sánh
hiệu quả
.
.
.
.
.
.
.
.
.
Không tăng
Không tăng

Tăng
Tăng
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
Hình 2.4 Lấy mẫu tăng dần và khai phá dữ liệu
2.3.2.2 Mẫu trung bình
Một kho dữ liệu có thể chứa rất nhiều trường hợp, đến mức vượt quá
khả năng xử lý của chương trình khai phá. Giải pháp ở đây là nếu chương
trình chỉ có khả năng xử lý N trường hợp thì không tiến hành khai phá với
một mẫu có N trường hợp mà sẽ lấy k mẫu, mỗi mẫu có N trường hợp để
xử lý. Từ k kết quả thu được, lấy trung bình hoặc lựa chọn để có kết quả
cuối cùng. Hình 2.5 mô tả quá trình kết hợp các kết quả từ các mẫu khác
nhau.
Hình 2.5 Kết hợp các kết quả từ các mẫu khác nhau
Nguyễn Tiến Thành – Công nghệ phần mềm K44
22
.
.
.
Mẫu
1
Mẫu
2
Mẫu
k
Xử lý
Kết quả
1
Kết quả
1
Kết quả

1
Lựa chọn
hoặc lấy
trung bình
Kết quả
cuối cùng
.
.
.
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
Dữ liệu được lấy từ các mẫu trên sẽ có kích thước nhỏ hơn nhiều so với
toàn bộ kho dữ liệu. Ngoài ra, việc tổng hợp các kết quả để thu được kết
quả cuối có độ sai lệch thấp hơn so với chỉ lấy một tập mẫu. Nếu số mẫu
lấy đủ lớn, kết quả thu được sẽ tương đương với kết quả từ việc xử lý cả
kho dữ liệu.
2.4 Xây dựng và đánh giá các mô hình khai phá dữ liệu
Xây dựng mô hình khai phá dữ liệu là một quá trình lặp. Với một vấn đề
cần giải quyết, cần phải khảo sát nhiều mô hình khác nhau để tìm ra mô
hình thích hợp. Mô hình này có thể là cây quyết định, mạng nơ ron Việc
lựa chọn mô hình sẽ ảnh hưởng đến giai đoạn chuẩn bị dữ liệu. Ví dụ như
mạng nơ ron yêu cầu các giá trị rõ ràng, hoặc một số công cụ yêu cầu dữ
liệu phải ở một dạng file chuẩn, do đó phải chuyển dữ liệu về dạng chuẩn
đó. Quá trình sẽ tiếp tục với việc thử nghiệm mô hình khi dữ liệu đã sẵn
sàng.
Việc xây dựng mô hình khai phá dữ liệu đòi hỏi phải được kiểm thử
chặt chẽ nhằm đảm bảo tính chính xác và hiệu quả. Điều này được thực
hiện bằng cách thử nghiệm mô hình với một phần của dữ liệu, sau đó kiểm
chứng với dữ liệu còn lại. Mô hình được xây dựng xong khi quá trình kiểm
thử hoàn thành. Quá trình kiểm thử yêu cầu dữ liệu phải được chia làm hai
phần, phần đầu để xây dựng mô hình, phần sau để kiểm thử mô hình. Nếu

không sử dụng các dữ liệu xây dựng và kiểm thử khác nhau, độ chính xác
của mô hình sẽ bị đánh giá quá cao. Sau khi mô hình được xây dựng và
kiểm thử, sự chênh lệch của giữa các kết quả là thước đo đánh giá mức độ
hiệu quả của mô hình với các dữ liệu mới có những điểm tương đồng với
dữ liệu hiện tại.
Nguyễn Tiến Thành – Công nghệ phần mềm K44
23
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
2.5 Triển khai mô hình và thu thập kết quả
Sau khi mô hình đã được xây dựng và kiểm tra, nó sẽ được sử dụng để
tìm ra các mẫu có ý nghĩa dưới dạng biểu diễn tương ứng với các ý nghĩa
đó. Các mẫu này phải có khả năng sử dụng tiềm tàng, tức là sau khi xử lý
phải dẫn đến những hành động có ích nào đó, được đánh giá bởi một hàm
lợi ích. Ví dụ như trong dữ liệu các khoản vay, hàm lợi ích đánh giá khả
năng tăng lợi nhuận từ các khoản vay. Mẫu khai thác được phải có giá trị
với các dữ liệu mới với độ chính xác nào đó.
Với các giải thuật và các nhiệm vụ của khai phá dữ liệu rất khác nhau,
các mẫu chiết xuất được cũng rất đa dạng. Mẫu chiết xuất được có thể là
một mô tả xu hướng, một hành động ví dụ yêu cầu người dùng làm gì với
kết quả khai thác từ dữ liệu. Dạng của mẫu chiết xuất được có thể được
phân loại bởi kiểu mẫu dữ liệu mà nó mô tả. Các mẫu có thể liên quan đến
các giá trị của các trường trong cùng một bản ghi, ví dụ: Nếu độ ẩm >85%
thì dự báo= trời mưa. Các mẫu cũng có thể liên quan đến các giá trị tổng
hợp từ một nhóm các bản ghi ví dụ như các khách hàng lớn tuổi thường
thích mua quần áo mầu xám, hoặc xác định những phần có ích ví dụ nhóm
các mặt hàng kinh doanh có lãi.
Mặc dù các mẫu có thể được chiết xuất từ bất kỳ cơ sở dữ liệu nào
nhưng chỉ có những mẫu mới, có ích là đáng được xem xét.
Sau khi ứng dụng mô hình cần phải đánh giá độ hiệu quả của nó. Mặc
dù mô hình có thể làm việc tốt với những dữ liệu hiện tại nhưng vẫn phải

theo dõi độ hiệu quả của mô hình. Theo thời gian, các thông số sẽ thay đổi,
chẳng hạn thói quen mua hàng của người tiêu dùng bị ảnh hưởng bởi tỷ lệ
lạm phát. Do vậy mô hình phải được kiểm tra lại để hiệu chỉnh thậm chí là
xây dựng lại hoàn toàn. Việc so sánh giữa giá trị dự báo và giá trị theo dõi
thực tế là cách tốt nhất để kiểm soát hiệu quả của mô hình.
Nguyễn Tiến Thành – Công nghệ phần mềm K44
24
Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức
CHƯƠNG III : CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU
3.1 Cây quyết định
Cây quyết định là một mô hình vừa có khả năng mô tả vừa có khả năng
dự báo. Gọi là cây quyết định vì mô hình kết quả được biểu diễn dưới dạng
một cấu trúc cây. Cách trình bày trực quan này khiến cho mô hình cây
quyết định trở nên dễ hiểu. Do đó cây quyết định trở thành một kỹ thuật
thường dùng trong khai phá dữ liệu. Các cây quyết định thường được dùng
cho việc phân loại (dự báo trường hợp nào thuộc nhóm nào), tuy nhiên
cũng có thể dùng cho việc dự báo một giá trị cụ thể.[4]
Phương pháp cây quyết định bao gồm một số thuật toán cụ thể như
Classification and Regression Trees(CART), Chi-squared Automatic
Interaction Detection(CHAID), C4.5 và C5.0.
Các cây quyết định mô tả một cách trực quan các mối liên hệ tìm thấy
trong dữ liệu. Mỗi biểu diễn theo luật từ cây sang văn bản như If Thu nhập
= Cao And Số năm công tác >5 Then Khả năng rủi ro tài chính = Tốt.
Nguyễn Tiến Thành – Công nghệ phần mềm K44
25

×