Tải bản đầy đủ (.doc) (50 trang)

TÌM HIỂU PHẦN MỀM WEKA ỨNG DỤNG TẠO LUẬT KẾT HỢP ĐỂ QUYẾT ĐỊNH CHO VAY VỐN TRONG NGÂN HÀNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (753.53 KB, 50 trang )

Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng




Đề tài:
 !"#$%
&'()*
!+),-+-./
012304567859:;5 <=3045>6?=60@5
ABABCD EF
A-GHHIHHJI
KHHLMIHM
GVHD: PGS.TS.Đỗ Phúc Trang 1 HVTH: Lê Nhựt Trường
Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng
''

 !"
##$%&
'$%()*#+,-&
.)()/012&
'2/34
56,*789-:
;89,:
###<=
#>2/3
?@22/3
;A7BCD=2EF/2/3
;A7BCDG2EF/!
;A7BCDG2/3!"
H235I


GVHD: PGS.TS.Đỗ Phúc Trang 2 HVTH: Lê Nhựt Trường
Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng
N"
Trong thời đại bùng nổ công nghệ thông tin, các công nghệ lưu trữ dữ liệu ngày
càng phát triển tạo điều kiện cho các đơn vị thu thập dữ liệu tốt hơn. Đặc biệt trong lĩnh
vực kinh doanh, các doanh nghiệp đã nhận thức được tầm quan trọng của việc nắm bắt và
xử lý thông tin, nhằm giúp các chủ doanh nghiệp trong việc vạch ra các chiến lược kinh
doanh kịp thời mang lại những lợi nhuận to lớn cho doanh nghiệp của mình. Tất cả lý do
đó khiến cho các cơ quan, đơn vị và các doanh nghiệp đã tạo ra một lượng dữ liệu khổng
lồ cỡ Gigabyte thậm chí là Terabyte cho riêng mình. Các kho dữ liệu ngày càng lớn và
tiềm ẩn nhiều thông tin có ích. Sự bùng nổ đó dẫn tới một yêu cầu cấp thiết đó là phải có
những kỹ thuật và công cụ mới để biến kho dữ liệu khổng lồ kia thành những thông tin cô
đọng và có ích. Kỹ thuật Khai phá dữ liệu (Data mining ) ra đời như một kết quả tất yếu
đáp ứng các nhu cầu đó.
GVHD: PGS.TS.Đỗ Phúc Trang 3 HVTH: Lê Nhựt Trường
Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng
67O59GP-#
B 6Q0R61:ST0@UTV9WX
BH Y56596ZQ[6Q0R61:ST0@U
Khai phá dữ liệu (Data Mining) được định nghĩa là: quá trình trích xuất các thông
tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu
(CSDL), kho dữ liệu Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một
số thuật ngữ khác có ý nghĩa tương tự như: Khai phá tri thức từ CSDL (knowledge
mining from databases),trích lọc dữ liệu (knowledge extraction), phân tích dữ liệu/mẫu
(data/pattern analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (data
dredging). Nhiều người coi khai phá dữ liệu và một thuật ngữ thông dụng khác là khám
phá tri thức trong CSDL (Knowledge Discovery in Databases – KDD) là như nhau. Tuy
nhiên, trên thực tế, khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình khám phá tri
thức trong CSDL.
Sau đây là một số quan niệm về khai phá dữ liệu (KPDL):

KPDL là tập hợp các thuật toán nhằm chiết xuất những thông tin có ích từ kho dữ
liệu khổng lồ.
KPDL được định nghĩa như một quá trình phát hiện mẫu trong dữ liệu. Quá trình
này có thể là tự động hay bán tự động, song phần nhiều là bán tự động. Các mẫu được
phát hiện thường hữu ích theo nghĩa: các mẫu mang lại cho người sử dụng một lợi thế
nào đó, thường là lợi thế về kinh tế.
KPDL giống như quá trình tìm ra và mô tả mẫu dữ liệu. Dữ liệu như là một tập hợp
của các vật hay sự kiện, còn đầu ra của quá trình KPDL như là những dự báo của các vật
hay sự kiện mới.
KPDL được áp dụng trong các cơ sở dữ liệu quan hệ, giao dịch, cơ sở dữ liệu không
gian, cũng như các kho dữ liệu phi cấu trúc, mà điển hình là World Wide Web.
GVHD: PGS.TS.Đỗ Phúc Trang 4 HVTH: Lê Nhựt Trường
Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng
1.2. Nhiệm vụ khai phá dữ liệu là gì?
Trong mọi hoạt động sản xuất, kinh doanh thì yếu tố thành công luôn đặt lên hàng
đầu. Giờ đây KPDL đã và đang trở thành một trong những hướng nghiên cứu chính của
lĩnh vực khoa học máy tính và công nghệ tri thức. Do đó có thể coi mục đích chính của
quá trình KPDL là một mô tả và dự đoán mà các mẫu KPDL phát hiện đều được nhằm
vào mục đích này.Để đạt được mục tiêu chính trên, nhiệm vụ cơ bản nhất của KPDL là:
Phân cụm, phân loại, phân nhóm, phân lớp GNhiệm vụ là trả lời câu hỏi là một dữ liệu
mới thu thập được sẽ thuộc về nhóm nào? Quá trình này thường được thực hiện một cách
tự động.
Khai phá luật kết hợp G Nhiệm vụ là phát hiện những mối quan hệ giống nhau về cấu
trúc của các bản ghi giao dịch. Luật kết hợp X=>Y có dạng tổng quát là : Nếu một giao
dịch đã sở hữu các tính chất X, thì đồng thời nó cũng sở hữu các tính chất Y, ở một mức
độ nào đó. Khai phá luật kết hợp được hiểu theo nghĩa: biết trước các tính chất X, thì sẽ
biết được các tính chất Y là những tính chất nào?
Lập mô hình dự báo : Bao gồm 2 nhiệm vụ hoặc là phân nhóm dữ liệu vào một hay
nhiều lớp dữ liệu đã xác định từ trước, hoặc là sử dụng các trường đã cho trong một cơ sở
dữ liệu để dự báo sự xuất hiện (hoặc không xuất hiện) của các trường khác.

Phân tích sự tiến hoá G Phân tích sự tiến hoá thực hiện việc mô tả và mô hình hoá các
qui luật hay khuynh hướng của những đối tượng mà ứng xử của chúng thay đổi theo thời
gian. Phân tích sự tiến hoá có thể bao gồm cả đặc trưng hoá, phân biệt, tìm luật kết hợp,
phân lớp hay phân cụm dữ liệu liên quan đến thời gian, phân tích dữ liệu theo chuỗi thời
gian, sánh mẫu theo chu kì và phân tích dữ liệu dựa trên tính tương tự.
Hồi quy : Là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự đoán có giá
trị thực.
Phân nhóm : Là việc mô tả chung để tìm ra các tập dữ liệu xác định hay các nhóm để mô
tả dữ liệu. Các nhóm có thể tách riêng, phân cấp hoặc chồng lên nhau. Có nghĩa là dữ liệu
có thể vừa thuộc nhóm này vừa thuộc nhóm kia.
GVHD: PGS.TS.Đỗ Phúc Trang 5 HVTH: Lê Nhựt Trường
Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng
Mô hình phụ thuộc : Là việc tìm kiếm một mô hình mô tả sự phụ thuộc giữa các biến.
Các mô hình phụ thuộc tồn tại dưới hai mức: mức cấu trúc của mô hình xác định các biến
nào là phụ thuộc cục bộ vào nhau và mức định lượng của một mô hình xác định độ mạnh
của sự phụ thuộc theo một thước đo nào đó.
Dò tìm biến đổi và phát hiện độ lệch : Tập trung vào khai thác những thay đổi đáng kể
nhất trong dữ liệu từ các giá trị chuẩn hoặc được đo trước đó.
HB\1=:]59:ST0@U=^>6_[6Q0R61G
Do KPDL được ứng dụng rộng rãi nên có rất nhiều kiểu dữ liệu khác nhau được
chấp nhập trong KPDL. Dưới đây là một số kiểu dữ liệu điển hình:
CSDL quan hệ G Là các CSDL tác nghiệp được tổ chức theo mô hình dữ liệu quan hệ
( như Oracle, IBM, DB2, MS SQL, v.v ).
CSDL đa chiều : Là kho dữ liệu được tập hợp và chọn lọc từ nhiều nguồn dữ liệu khác
nhau. Dạng dữ liệu này có mang tính lịch sử (có thuộc tính thời gian) và chủ yếu phục vụ
cho quá trình phân tích cũng như là khai phá tri thức nhằm hỗ trợ quá trình ra quyết định.
CSDL dạng giao dịch:Là một dạng CSDL tác nghiệp, nhưng các bản ghi thường là các
giao dịch. Dạng dữ liệu này phổ biến trong lĩnh vực thương mại và ngân hàng, ví dụ: dữ
liệu về các giao dịch thanh toán của ngân hàng,v.v.
Dữ liệu không gian và thời gian : Là dạng dữ liệu có tích hợp thuộc tính về không

gian(ví dụ: dữ liệu về bản đồ) hoặc thời gian (ví dụ: dữ liệu về thị trường chứng khoán).
CSDL quan hệ-hướng đối tượng : Là dạng CSDL lai giữa hai mô hình quan hệ và
hướng đối tượng.
CSDL đa phương tiện : Dữ liệu âm thanh, hình ảnh, phim ảnh, text và web v.v Dạng dữ
liệu này hiện đang khá phổ biến trên Internet do sự ứng dụng rộng rãi của nó.
GVHD: PGS.TS.Đỗ Phúc Trang 6 HVTH: Lê Nhựt Trường
Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng
II. Các phương pháp khai phá dữ liệu
Quá trình khai phá dữ liệu là quá trình phát hiện mẫu trong đó giải thuật khai phá
dữ liệu tìm kiếm các mẫu đáng quan tâm theo dạng xác định như các luật, cây phân lớp,
hồi quy, phân nhóm,…
MBH67O59R61R`Ua5]R5:U=>025
Một cơ sở dữ liệu là một kho thông tin nhưng các thông tin quan trọng hơn cũng
có thể được suy diễn từ kho thông tin đó. Có hai việc chính để thực hiện việc này là suy
diễn và quy nạp.
67O59R61RbUa:0c5G Nhằm rút ra thông tin là kết quả logic của các thông tin trong cơ
sở dữ liệu. Ví dụ như toán tử liên kết áp dụng cho hai bảng quan hệ, bảng đầu chứa thông
tin về các nhân viên và các phòng ban, bảng thứ hai chứa thông tin về các phòng ban và
các trưởng phòng. Như vậy sẽ suy ra mối quan hệ giữa các nhân viên và trưởng phòng.
Phương pháp suy diễn dựa trên các sự kiện chính xác để suy ra các tri thức mới từ các
thông tin cũ. Mẫu chiết xuất được bằng cách sử dụng phương pháp này thường là các luật
suy diễn.
67O59R61R`Ua5]RG Phương pháp quy nạp suy ra các thông tin được sinh ra từ cơ sở
dữ liệu. Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ không phải bắt đầu
với các tri thức đã biết trước. Các thông tin mà phương pháp này đem lại là các thông tin
hay các tri thức cấp cao diễn tả về các đối tượng trong cơ sở dữ liệu. Phương pháp này
liên quan đến việc tìm kiếm các mẫu trong cơ sở dữ liệu.
Trong khai phá dữ liệu, quy nạp được sử dụng trong cây quyết định và tạo luật.
MBMda`Uae>fY563VTUg>
Cây `Uae>fY5hG Cây quyết định là một mô tả tri thức dạng đơn giản nhằm phân các đối

tượng dữ liệu thành một số lớp nhất định. Các nút của cây được gán nhãn là tên các thuộc
tính, các cạnh được gán các giá trị có thể của các thuộc tính, các lá miêu tả các lớp khác
nhau. Các đối tượng được phân lớp theo các đường đi trên cây, qua các cạnh tương ứng
GVHD: PGS.TS.Đỗ Phúc Trang 7 HVTH: Lê Nhựt Trường
Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng
với giá trị của thuộc tính của đối tượng tới lá. Mô tả một mẫu đầu ra có thể của quá trình
khai phá dữ liệu khách hàng xin vay vốn.
]2TUg>G Các luật được tạo ra nhằm suy diễn một số mẫu dữ liệu có ý nghĩa về mặt
thống kê. Các luật có dạng Nếu P thì Q với P là mệnh đề đúng với phần dữ liệu trong cơ
sở dữ liệu, Q là mệnh đề dự đoán. Ví dụ ta có một mẫu phát hiện được bằng phương pháp
tạo luật: Nếu giá 1 cân táo thấp hơn 5000 đồng thì số lượng táo bán ra sẽ tăng 5%. Những
luật như thế này được sử dụng rất rộng rãi trong việc miêu tả tri thức trong hệ chuyên gia.
Chúng có thuận lợi là dễ hiểu đối với người sử dụng.
Cây quyết định và luật có ưu điểm là hình thức miêu tả đơn giản, mô hình suy diễn khá
dễ hiểu đối với người sử dụng. Tuy nhiên, giới hạn của nó là miêu tả cây và luật chỉ có
thể biểu diễn được một số dạng chức năng và vì vậy giới hạn cả về độ chính xác của mô
hình. Cho đến nay, đã có rất nhiều giải thuật suy diên sử dụng các luật và cây quyết định
được áp dụng trong máy học và trong thống kê.
MB\61>60@5=1=TUg>[e>6hR
Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu
trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm
được. Ta có thể lấy một số ví dụ đơn giản về luật kết hợp như sau: Sự kết hợp giữa hai
thành phần A và B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự xuất hiện của
B trong cùng bản ghi đó: A ⇒ B.
GVHD: PGS.TS.Đỗ Phúc Trang 8 HVTH: Lê Nhựt Trường
Nợ >= nNợ < n
Không cho vay
Thu nhập < t Thu nhập >= t
Không cho vay Cho vay
Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng

Cho một lược đồ R = {A
1
,…A
p
} các thuộc tính với miền giá trị {0,1}, và một quan
hệ r trên R. Một tập luật kết hợp trên r được mô tả dưới dạng X ⇒ B với X ⊆ R và
B∈R\X. Về mặt trực giác, ta có thể phát biểu ý nghĩa của luật như sau: nếu một bản ghi
của bảng r có giá trị 1 tại mỗi thuộc tính thuộc X thì giá trị của thuộc tính B cũng là 1
trong cùng bản ghi đó. Ví dụ như ta có tập cơ sở dữ liệu về các mặt hàng bán trong siêu
thị, các dòng tương ứng với các ngày bán hàng, các cột tương ứng với các mặt hàng thì
giá trị 1 tại ô (20/10, bánh mì) xác định rằng bánh mì đã được bán ngày hôm đó và cũng
kéo theo sự xuất hiện giá trị 1 tại ô (20/10, bơ).
Cho W⊆R, đặt s(W,r) là tần số xuất hiện của W trong r được tính bằng tỷ lệ của
các dòng trong r có giá trị 1 tại mỗi cột thuộc W. Tần số xuất hiện của luật X ⇒ B trong r
được định nghĩa là s(X∪{B},r) còn gọi là độ hỗ trợ của luật, độ tin cậy của luật là
s(X∪{B},r)/s(X,r), ở đây X có thể gồm nhiều thuộc tính, B là giá trị không cố định. Nhờ
vậy mà không xảy ra việc tạo ra các luật không mong muốn trước khi quá trình tìm kiếm
bắt đầu. Điều đó cũng cho thấy không gian tìm kiếm có kích thước tăng theo hàm mũ của
số lượng các thuộc tính ở đầu vào. Do vậy cần phải chú ý khi thiết kế dữ liệu cho việc tìm
kiếm các luật kết hợp.
Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật X ⇒ B sao
cho tần số của luật không nhỏ hơn ngưỡng σ cho trước và độ tin cậy của luật không nhỏ
hơn ngưỡng θ cho trước. Từ một cơ sở dữ liệu ta có thể tìm được hàng nghìn thậm chí
hàng trăm nghìn các luật kết hợp.
Ta gọi một tập con X ⊆ R là phổ biến trong r nếu thoả mãn điều kiện s(X,r) ≥ σ.
Nếu biết tất cả các tập phổ biến trong r thì việc tìm kiếm các luật kết hợp rất dễ dàng. Vì
vậy, giải thuật tìm kiếm các luật kết hợp trước tiên đi tìm tất cả các tập phổ biến này, sau
đó tạo dựng dần các luật kết hợp bằng cách ghép dần các tập thuộc tính dựa trên mức độ
phổ biến.
Giải thuật tìm kiếm các luật kết hợp tạo ra số luật ít nhất phải bằng số các tập

thường xuyên và nếu như một tập thường xuyên có kích thước K thì phải có ít nhất là 2
K
GVHD: PGS.TS.Đỗ Phúc Trang 9 HVTH: Lê Nhựt Trường
Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng
luật kết hợp. Thông tin về các tập thường xuyên được sử dụng để ước lượng độ tin cậy
của các tập luật kết hợp.
MBi2j=kj=TUb>lm059
Kỹ thuật phân nhóm là kỹ thuật phân chia dữ liệu sao cho mỗi phần hoặc mỗi
nhóm giống nhau theo một tiêu chuẩn nào đó. Mối quan hệ thành viên của các nhóm có
thể dựa trên mức độ giống nhau của các thành viên và từ đó xây dựng nên các luật ràng
buộc giữa các thành viên trong nhóm. Một kỹ thuật phân nhóm khác là xây dựng nên các
hàm đánh giá thuộc tính của các thành phần như là hàm của các tham số của các thành
phần. Phương pháp này được gọi là phương pháp phân hoạch tối ưu (optimal
partitioning). Một ví dụ ứng dụng của phương pháp phân nhóm theo độ giống nhau là cơ
sở dữ liệu khách hàng, ứng dụng của phương pháp tối ưu ví dụ như phân nhóm khách
hàng theo số các tham số và các nhóm thuế tối ưu có được khi thiết lập biểu thuế bảo
hiểm.
Mẫu đầu ra của quá trình khai phá dữ liệu sử dụng kỹ thuật này là các tập mẫu
chứa các dữ liệu có chung những tính chất nào đó được phân tách từ cơ sở dữ liệu. Khi
các mẫu được thiết lập, chúng có thể được sử dụng để tái tạo các tập dữ liệu ở dạng dễ
hiểu hơn, đồng thời cũng cung cấp các nhóm dữ liệu cho các hoạt động cũng như công
việc phân tích. Đối với cơ sở dữ liệu lớn, việc lấy ra các nhóm này là rất quan trọng.
MBJ]595lUm25
Mạng neuron là một tiếp cận tính toán mới liên quan đến việc phát triển các cấu
trúc toán học với khả năng lọc. Các phương pháp là kết quả của việc nghiên cứu mô hình
học của hệ thống thần kinh con người. Mạng neuron có thể đưa ra ý nghĩa từ các dữ liệu
phức tạp hoặc không chính xác và có thể được sử dụng để chiết xuất các mẫu và phát
hiện ra các xu hướng quá phức tạp mà con người cũng như các kỹ thuật máy tính khác
không thể phát hiện được.
Khi đề cập đến khai thác dữ liệu, người ta thường đề cập nhiều đến mạng neuron.

Tuy mạng neuron có một số hạn chế gây khó khăn trong việc áp dụng và triển khai nhưng
GVHD: PGS.TS.Đỗ Phúc Trang 10 HVTH: Lê Nhựt Trường
Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng
nó cũng có những ưu điểm đáng kể. Một trong số những ưu điểm phải kể đến của mạng
neuron là khả năng tạo ra các mô hình dự đoán có độ chính xác cao, có thể áp dụng được
cho rất nhiều loại bài toán khác nhau đáp ứng được các nhiệm vụ đặt ra của khai phá dữ
liệu như phân lớp, phân nhóm, mô hình hoá, dự báo các sự kiện phụ thuộc vào thời gian,

Đặc điểm của mạng neuron là không cần gia công dữ liệu nhiều trước khi bắt đầu quá
trình học như các phương pháp khác. Tuy nhiên, để có thể sử dụng mạng neuron có hiệu
quả cần phải xác định các yếu tố khi thiết kế mạng như:
- Mô hình mạng là gì?
- Mạng cần có bao nhiêu nút?
- Khi nào thì việc học dừng để tránh bị “học quá”?
- …
Ngoài ra còn có rất nhiều bước quan trọng cần phải làm để tiền xử lý dữ liệu trước
khi đưa vào mạng neuron để mạng có thể hiểu được (ví dụ như việc chuẩn hoá dữ liệu,
đưa tất cả các tiêu chuẩn dự đoán về dạng số).
Mạng neuron được đóng gói với những thông tin trợ giúp của các chuyên gia đáng
tin cậy và được các chuyên gia đảm bảo các mô hình này làm việc tốt. Sau khi học, mạng
có thể được coi là một chuyên gia trong lĩnh vực thông tin mà nó vừa được học.
B1=n59:k59=oQ[6Q0R61:ST0@U
KPDL tuy là một lĩnh vực mới phát triển nhưng thu hút được sự quan tâm của rất
nhiều nhà nghiên cứu nhờ vào những ứng dụng thực tiễn của nó. Có thể liệt kê ra đây một
số ứng dụng điển hình:
- Phân tích dữ liệu và hỗ trợ ra quyết định;
- Điều trị y học: mối liên hệ giữa triệu chứng, chẩn đoán và phương pháp điều
trị( chế độ dinh dưỡng, thuốc men, phẫu thuật, );
- Phân lớp văn bản và các trang web, tóm tắt văn bản,v.v.;
GVHD: PGS.TS.Đỗ Phúc Trang 11 HVTH: Lê Nhựt Trường

Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng
- Tin sinh học: tìm kiếm, đối sánh các hệ gene và thông tin di truyền, mối liên hệ
giữa một số hệ gene và một số bệnh di truyền,v.v.;
- Tài chính và thị trường chứng khoán: phân tích tình hình tài chính và dự báo giá
của các loại cổ phiếu trong thị trường chứng khoán, v.v.
GVHD: PGS.TS.Đỗ Phúc Trang 12 HVTH: Lê Nhựt Trường
Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng
67O59MGP"#$%
C*
B080>60@U3p$l[Q
Weka là môi trường thử nghiệm Khai phá dữ liệu, do các nhà khoa học thuộc
trường Đại học Waitako, New Zealand, khởi xướng và được sự đóng góp của rất nhiều
nhà nghiên cứu trên thế giới. Weka là phần mềm mã nguồn mở, cung cấp công cụ trực
quan và sinh động cho mọi người tìm hiểu về khai phá dữ liệu. Weka còn cho phép các
giải thuật học mới phát triển có thể tích hợp vào môi trường của nó. Hệ thống được viết
bằng java. Nó chạy được hầu hết trên tất cả hệ điều hành.
Weka cung cấp nhiều giải thuật khác nhau với nhiều phương thức cho quá trình xử
lý để ước lượng kết quả bằng sơ đồ cho bất kì một dữ liệu nào.
Weka cung cấp những tính năng chính sau:
− Bao gồm nhiều công cụ đa dạng để thay đổi tập dữ liệu, xử lý dữ liệu, giải
thuật học và phương pháp đánh giá.
− Giao diện đồ họa người dùng (trực quan hóa dữ liệu).
− Môi trường để so sánh các giải thuật học.
Bạn có thể xử lý trước tập dữ liệu, cho vào trong một sơ đồ, và phân chia các lớp kết quả
và thực hiện nó mà không cần viết bất cứ một chương trình nào.
Weka lấy dữ liệu từ các file có định dạng .arff, nó được phát sinh từ một file hoặc một
bảng cơ sở dữ liệu.
Cách sử dụng Weka là thông qua giao diện đồ họa của nó
GVHD: PGS.TS.Đỗ Phúc Trang 13 HVTH: Lê Nhựt Trường
Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng

W56HG0Q2:0@5fq6<Q=oQ$l[Q
1=R6045rs5=oQ$l[Q
− WEKA 3.0: “book version”: Chỉ cho phép viết các câu lệnh.
− WEKA 3.2: “GUI version”- Graphical User interfaces (Phiên bản giao diện đồ
họa) : Ngoài việc viết các câu lệch có thể sử dụng giao diện đồ họa.
− WEKA 3.3: “Development version” (Phiên bản phát triển) :Với nhiều cải tiến.
m259R6t5RRT0=Q>025b=^iR6t5G
%uRT2mlmGSử dụng menu lựa chọn. Explorer chỉ sử dụng cho những bộ dữ liệu vừa và
nhỏ.
%uRlm0jl>lmG Cho phép người dùng thực hiện những bài tập cơ bản khi ứng dụng phân
lớp và kĩ thuật hồi quy, với những công việc có giá trị, phương pháp và tham số tốt nhất
cho vấn đề đã cho. Cho phép bạn tự động hóa xử lý, làm cho nó phân lớp và lọc dễ dàng
với những cách thiết lập tham số khác nhau trên toàn thể bảng dữ liệu
52vTl:9lwT2vG cho phép người dùng kéo thả những chiếc hộp tượng trưng cho các
giải thuật và dữ liệu để kết nối chúng lại với nhau và đưa ra cấu trúc.
A0jRTlG Sử dụng câu lệnh
GVHD: PGS.TS.Đỗ Phúc Trang 14 HVTH: Lê Nhựt Trường
Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng
%x%
Trong giao diện của Explorer có 6 tab
W56MG0Q2:0@5fq6<Q=oQ%uR2mlm
– mlRm2=lbbG Tiền xử lý dữ liệu.
– TQbb0yaG Tạo ra những chương trình để phân loại.
– TUb>lmG Tạo phân cụm cho cơ sở dữ liệu.
– bb2=0Q>lG Tạo luật kết hợp cho dữ liệu và đánh giá chúng.
– AlTl=>Q>>m0rU>lbG Lựa chọn những thuộc tính liên quan nhất trong tập dữ liệu.
– -0bUQT0zlG (Nhìn thấy sự khác nhau hai chiều của dữ liệu và sự tương tác giữa
chúng)View different two-dimensional plots of the data and interact with them.
HBH7Q:ST0@U3V2
Trong tab Preprocess có:

− Nút mở các file có sẵn trên máy.
GVHD: PGS.TS.Đỗ Phúc Trang 15 HVTH: Lê Nhựt Trường
Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng
− Nút mở file từ máy khác.
− Nút đọc dữ liệu từ một cơ sở dữ liệu.
− Nút Phần mềm tự tạo ra dữ liệu cho bạn theo những sự lựa chọn
của bạn.
Sử dụng nút có thể đọc các tập tin ở nhiều định dạng như: định dạng
ARFF, định dạng CSV, định dạng C4.5.
Khi mở một file từ mục open file sẽ hiện ra một cửa sổ như sau:
W56\G{y0Tl>m259%uR2mlm
GVHD: PGS.TS.Đỗ Phúc Trang 16 HVTH: Lê Nhựt Trường
Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng
HBMmlRm2=lbb
m259=|Qb}=oQmlRm2=lbb=^i3~59
-~59w0T>lm
Cho biết được giải thuật dùng để tiền xử lý dữ liệu đang được sử dụng. Có thể thay
đổi giải thuật đó bằng cách click vào button
-~59Umml5>lTQ>0251=j•0`UQ56@60@5>]0
 lTQ>025UQ56@GCho biết tên của bảng dữ liệu
 5b>Q5=lbm7€596hRGSố lượng các bản ghi
 >>m0rU>lbB6S59>6U•=>‚56GSố lượng các thuộc tính trong dữ liệu.
 AUj2yvl096>bG Tổng trọng lượng của mỗi bản ghi.
Ví dụ: Khi file đã được mở, màn hình sẽ được thể hiện trong hình 3, nó cho biết về
tên bảng bảng dữ liệu: Trong trường hợp này bảng dữ liệu có tên là $lQ>6lm nó có 14
bản ghi và 5 thuộc tính. Tên các thuộc tính là outlook, temperature, humidity, windy và
play. Đầu tiên, theo mặc định là thuộc tính outlook và bạn có thể chọn những thuộc tính
khác bằng cách click chuột vào nó.
-~59>>m0rU>lbNhững thuộc tính
Ở dưới hộpUmml5>lTQ>025là hộp>>m0rU>lb. Có bốn nút để thay đổi sự chọn lựa

 TTGƒ>=sfpUf7h==6<5B
 25l: Tất cả các hộp đều không được chọn.
 53lm>: Những thuộc tính trước đây không được chọn sẽ trở thành được chọn
và ngược lại.
 Q>>lm5: Cho phép người dùng lựa chọn các thuộc tính bằng cách nhập tên
thuộc tính vào.
-~59 AlTl=>l:>>m0rU>lG
GVHD: PGS.TS.Đỗ Phúc Trang 17 HVTH: Lê Nhựt Trường
Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng
 QjlGTên thuộc tính.
 aRlG Kiểu dữ liệu của thuộc tính đó.
 0bb059G cho biết số lượng và phần trăm tương ứng của số bản ghi có giá trị
rỗng trong thuộc tính.
 0b>05=>G Cho biết số lượng các giá trị trong thuộc tính.
 50`UlG cho biết số lượng và phần trăm tương ứng của các giá trị không bị
lặp lại trong thuộc tính.
Nếu thuộc tính đang chọn có kiểu dữ liệu là Nominal thì sẽ nhìn thấy trong vùng
này một table gồm có các trường số thứ tự (NO.), tên các giá trị (lable), số lượng mỗi giá
trị (Count) và trọng lượng của chúng (Weight) như sau:
Nếu thuộc tính đang chọn có kiểu dữ liệu là numeric thì table có hai trường là số
liệu thống kê (Statistic) và giá trị tương ứng (Value). Ở trường Statistic có các giá trị
Minimum (Giá trị nhỏ nhất), Maximum (Giá trị lớn nhất), mean (Giá trị trung bình), Độ
lệch chuẩn (StdDev) như hình sau:
Sau khi đưa dữ liệu vào, có thể thự hiện các thao tác để xử lý dữ liệu trước khi thực
hiện những công việc khác như phân cụm, tạo cây quyết định, luật kết hợp… Để thực
hiện xử lý dữ liệu trước hết bạn click vào button , một cây thư mục đổ xuống,
trong cây thưc mục đổ xuống như hình dưới đây:
GVHD: PGS.TS.Đỗ Phúc Trang 18 HVTH: Lê Nhựt Trường
Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng
Từ cây thư mục này có thể thực hiện các thao tác để tiền xử lý dữ liệu.

 ::
Cho phép bạn chèn thêm một thuộc tính cho bảng dữ liệu.
Chọn mục :: trong cây thư mục, ở bên phải nút Choose sẽ xuất hiện dòng chữ ::
U55Qjl:TQb>BClick chuột trái (hoặc click chuột phải chọn b62vRm2Rlm>0lb„) sẽ
xuất hiện một hộp thoại cho phép bạn thiết lập các tham số:
 >>m0rU>l5:luGVị trí của thuộc tính cần thêm vào trong bảng dữ liệu. mặc
định là cuối bảng dữ liệu (Last).
GVHD: PGS.TS.Đỗ Phúc Trang 19 HVTH: Lê Nhựt Trường
Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng
 >>m0rU>lQjlGTên của thuộc tính mới.
 >>m0rU>laRlGkiểu dữ liệu của thuộc tính mới.
 Q>lw2mjQ>Gđịnh dạng ngày
 2j05QTQrlTb: Giá trị của thuộc tính nếu thuộc tính có kiểu dữ liệu là
Nominal, các giá trị được cách nhau bằng dấu phẩy.
 ::%Rmlbb025
Cho phép chèn thêm một trường mà giá trị của trường này được tính theo một biểu
thức toán học do người dùng nhập vào.
Chọn mục ::%Rmlbb025 trong cây thư mục, ở bên phải nút Choose sẽ xuất hiện
dòng chữ ::%uRmlbb025%QH…MluRmlbb025B Click chuột trái (hoặc click chuột
phải chọn b62vRm2Rlm>0lb„) vào dòng chữ này sẽ xuất hiện một hộp thoại cho phép
bạn thiết lập các tham số:
 lrU9G Nếu chọn False thì chương trình sẽ không kiểm tra lỗi trong quá
trình thực hiện.
 %uRmlbb025GNơi để nhập biểu thức toán học.Biểu thức có thể sử dụng các
phép toán và các hàm sau: +, -, *, /, ^, log, abs, cos, exp, sqrt, floor, ceil, rint,
tan, sin…Mặc định là a1^2, a1 là thuộc tính thứ 1.
 QjlG Tên của thuộc tính mới.
GVHD: PGS.TS.Đỗ Phúc Trang 20 HVTH: Lê Nhựt Trường
Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng
 ::

Cho phép bạn chèn vào một trường ID.
Chọn mục :: trong cây thư mục, ở bên phải nút Choose sẽ xuất hiện dòng chữ
::y0mb>BClick chuột trái (hoặc click chuột phải chọn b62vRm2Rlm>0lb„)
vào dòng chữ này sẽ xuất hiện một hộp thoại cho phép bạn thiết lập các tham số:
 5:luGVị trí của thuộc tính ID được thêm vào bảng dữ liệu. Mặc định là
vị trí đầu tiên (first)
 >>m0rU>lQjlGTên của thuộc tính ID mới.
 ::-QTUlb
Chèn thêm giá trị cho một thuộc tính.
Chọn mục ::-QTUl trong cây thư mục, ở bên phải nút622bl sẽ xuất hiện dòng
chữ ::-QTUlb    TQb>  B Click chuột trái (hoặc click chuột phải chọn b62v
Rm2Rlm>0lb„) vào dòng chữ này sẽ xuất hiện một hộp thoại cho phép bạn thiết lập các
tham số:
GVHD: PGS.TS.Đỗ Phúc Trang 21 HVTH: Lê Nhựt Trường
Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng
 >>m0rU>l5:luGVị tri của thuộc tính cần thêm giá trị trong bảng dữ liệu.
 QrlTbGcác giá trị của thuộc tính cần thêm vào, mỗi giá trị cách nhau bằng
dấu phẩy.
 A2m>Gchọn False thì các giá trị trong thuộc tính không được sắp xếp mà giữ
nguyên vị trí như lúc đưa vào. Chọn true thì các giá trị trong thuộc tính được
sắp xếp tăng dần như trong từ điển.
 6Q59lQ>lw2mjQ>
Thay đổi định dạng kiểu ngày tháng.
Chọn mục 6Q59lQ>lw2mjQ> trong cây thư mục, ở bên phải nút 622bl sẽ xuất
hiện dòng chữ 6Q59lQ>lw2mjQ>TQb>waaaa::††GjjGbbBClick chuột
trái (hoặc click chuột phải chọn b62vRm2Rlm>0lb„) vào dòng chữ này sẽ xuất hiện một
hộp thoại cho phép bạn thiết lập các tham số:
GVHD: PGS.TS.Đỗ Phúc Trang 22 HVTH: Lê Nhựt Trường
Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng
 >>m0rU>l5:luG Vị trí thuộc tính cần thay đổi định dạng

 Q>lw2mjQ>G Thiết lập định dạng mới cho thuộc tính được chọn.
 2Ra
Cho phép bạn sao chép các thuộc tính trong bảng dữ liệu. Sự sao chép này phụ thuộc
vào các thông số mà bạn lựa chọn.
Chọn mục 2Ra trong cây thư mục, ở bên phải nút 622bl sẽ xuất hiện dòng chữ
2RaBClick chuột trái (hoặc click chuột phải chọn b62vRm2Rlm>0lb„) vào dòng chữ
này sẽ xuất hiện một hộp thoại cho phép bạn thiết lập các tham số:
 >>m0rU>l5:0=lbG vị trí của thuộc tính cần copy nếu chọn false ở mục
invertSelection hoặc không cần copy nếu chọn true ở mục invertSelection
 0b=ml>0zl
GVHD: PGS.TS.Đỗ Phúc Trang 23 HVTH: Lê Nhựt Trường
Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng
Chỉ thực hiện trên các thuộc tính có giá trị là kiểu dữ liệu numeric. Cho phép bạn chia
khoảng giá trị của thuộc tính đó từ min đến max thành các khoảng giá trị nhỏ hơn
Chọn mục 0b=ml>0zl trong cây thư mục, ở bên phải nút 622bl sẽ xuất hiện dòng
chữ 0b=ml>0zlHIHBIy0mb>TQb>BClick chuột trái (hoặc click chuột phải chọn
b62vRm2Rlm>0lb„) vào dòng chữ này sẽ xuất hiện một hộp thoại cho phép bạn thiết lập
các tham số:
 >>m0rU>l5:0=lbG vị trí của thuộc tính cần chia khoảng giá trị
 05bG Số khoảng sẽ được chia
 Q>6%Rmlbb025
Chỉ thực hiện trên các thuộc tính có giá trị là kiểu dữ liệu numeric.
Cho phép bạn thay đổi giá trị của các thuộc tính thông qua các biểu thức toán học. Có
thể sử dụng các phép toán và hàm sau: +, -, *, /, pow, log,abs, cos, exp, sqrt, tan, sin, ceil,
floor, rint, (, ),A,MEAN, MAX, MIN, SD, COUNT, SUM, SUMSQUARED, ifelse
-‚:kG
GVHD: PGS.TS.Đỗ Phúc Trang 24 HVTH: Lê Nhựt Trường
Tìm hiểu Weka và ứng dụng tạo luật kết hợp quyết định cho vay vốn trong ngân hàng
pow(A,6)/(MEAN+MAX)*ifelse(A<0,0,sqrt(A))+ifelse(![A>9 && A<15])
Chọn mục Q>6%Rmlbb025 trong cây thư mục, ở bên phải nút 622blsẽ xuất hiện

dòng chữ Q>6%uRmlbb025%LxBClick chuột trái (hoặc click chuột
phải chọn b62vRm2Rlm>0lb„) vào dòng chữ này sẽ xuất hiện một hộp thoại cho phép
bạn thiết lập các tham số:
 %uRmlbb025G Cho phép bạn nhập các biểu thức toán học
 952mlQ59lG Vị trí của thuộc tính sẽ được bỏ qua sự thay đổi giá trị nếu
chọn False ở InvertSelection và ngược lại.
 lm9lmv2-QTUlb
Gộp hai giá trị bất kỳ của một thuộc tính có kiểu dữ liệu Nominal thành một giá trị,
tên của giá trị mới có dạng: <tên giá trị 1>_<tên giá trị 2>
Chọn mục lm9lmv2-QTUlb trong cây thư mục, ở bên phải nút 622bl sẽ xuất
hiện dòng chữ lm9lv2-QTUlbTQb>wy0mb>ATQb>BClick chuột trái (hoặc click
chuột phải chọn b62vRm2Rlm>0lb„) vào dòng chữ này sẽ xuất hiện một hộp thoại cho
phép bạn thiết lập các tham số:
GVHD: PGS.TS.Đỗ Phúc Trang 25 HVTH: Lê Nhựt Trường

×