TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT HƯNG YÊN
KHOA CÔNG NGHỆ THÔNG TIN
BÁO CÁO TÓM TẮT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP
TRƯỜNG
NGHIÊN CỨU ỨNG DỤNG LUẬT KẾT HỢP
VÀO PHÂN TÍCH TÀI CHÍNH NGÂN HÀNG
Chủ nhiệm đề tài: Cử nhân, Nguyễn Thị Hải Năng
Hưng Yên, 11/2012
2
DANH SÁCH CÁC THÀNH VIÊN THAM GIA
THỰC HIỆN ĐỀ TÀI
Họ và tên
Học
hàm, học
vị
Đơn vị công tác
Nguyễn Thị Hải Năng
Cử nhân
Khoa Công nghệ Thông
tin, trường ĐH SPKT
Hưng Yên
3
MỤC LỤC
PHẦN I: MỞ ĐẦU 5
1.1Tổng quan tình hình nghiên cứu thuộc lĩnh vực đề tài ở trong và
ngoài nước. 5
1.2 Tính cấp thiết của đề tài 6
1.3 Mục tiêu 6
1.4 Phương pháp nghiên cứu 6
1.5 Đối tượng và phạm vi nghiên cứu. 6
1.6 Nội dung nghiên cứu. 6
PHẦN II: KẾT QUẢ NGHIÊN CỨU 8
Chương I: Tổng quan về hoạt động kinh doanh của ngân hàng
thương mại 8
1.1 Kinh doanh ngân hàng - Một loại hình kinh doanh đặc biệt 8
1.1.1 Ngân hàng - một trung gian tài chính 8
1.1.2 Các chức năng chính của ngân hàng thương mại 8
1.1.3 Những quy chế đặc thù đối với các hoạt động của ngân hàng.
8
1.2 Tìm hiểu bảng cân đối kế toán ngân hàng và các chỉ số tài
chính 8
1.2.1 Các khái niệm 8
1.2.2 Nội dung và kết cấu bảng cân đối kế toán 9
1.2.3 Mô tả các khoản mục trên bảng cân đối kế toán 9
1.2.4 Các chỉ số tài chính chủ yếu của ngân hàng 10
Chương II: Cơ sở lý thuyết về khai thác dữ liệu 10
2.1 Tổ chức và khai thác dữ liệu truyền thống 10
4
2.2 Bước phát triển của việc tổ chức và khai thác các cơ sở dữ liệu
10
2.3 Khai thác dữ liệu và quá trình phát hiện tri thức 10
2.4 Các dạng dữ liệu có thể khai thác dữ liệu 10
2.5 Nhiệm vụ chính của khai thác dữ liệu 11
2.6 Các phương pháp khai thác dữ liệu 11
2.6.1 Các thành phần của giải thuật khai thác dữ liệu 11
2.6.2 Một số phương pháp khai thác dữ liệu phổ biến 11
Chương III: Khám phá luật kết hợp 13
3.1 Ý nghĩa của luật kết hợp 13
3.2 Một số hướng tiếp cận trong khai thác luật kết hợp 13
3.3 Phát biểu bài toán khai thác luật kết hợp 14
3.4 Thuật toán Apriori nhị phân để tìm các tập phổ biến 16
3.5 Luật kết hợp có thuộc tính số và thuộc tính hạng mục 16
3.6 Phương pháp rời rạc hoá dữ liệu 16
3.7 Thuật toán khám phá luật kết hợp nhị phân áp dụng trong đề tài
17
PHẦN III: KẾT LUẬN VÀ KHUYẾN NGHỊ 20
1 Kết quả đạt được 20
2 Hướng phát trỉên trong tương lai Error! Bookmark not defined.
5
THÔNG TIN KẾT QUẢ NGHIÊN CỨU
Tên đề tài: Nghiên cứu ứng dụng luật kết hợp vào phân tích tài chính
ngân hàng.
Chủ nhiệm đề tài: Nguyễn Thị Hải Năng Tel 0912.384.299
Email:
Đơn vị chủ trì:
Khoa Công Nghệ Thông Tin trường Đại học Sư Phạm Kỹ Thuật
Hưng Yên.
Thời gian thực hiện:
Từ tháng 4 năm 2012 đến tháng 10 năm 2012
Mục tiêu:
- Tìm hiểu về một số kỹ thuật khai phá dữ liệu
- Nghiên cứu ứng dụng luật kết hợp vào phân tích tài chính ngân
hàng
Nội dung chính
- Tìm hiểu về hoạt động của ngân hàng thương mại
- Tìm hiểu một số kỹ thuật khai phá dữ liệu.
- Nghiên cứu ứng dụng luật kết hợp vào phân tích tài chính ngân
hàng
- Thuật toán luật kết hợp nhị phân ứng dụng vào phân tích tài chính
ngân hàng
Kết quả chính đạt được
Cuốn tài liệu gồm có 3 chương trình bày về: Tổng quan về hoạt động
kinh doanh của ngân hàng thương mại; Một số kỹ thuật khai phá dữ
liệu; Luật kết hợp; các hương tiếp cấn luật kết hợp; các kỹ thuật rời
rạc hoá dữ liệu chuyển thuộc tính số và hạng mục về dạng nhị phân
để áp dụng các thuật toán của luật kết hợp nhị phân; Thuật toán áp
dụng phân tích dữ liệu tài chính ngân hàng
PHẦN I: MỞ ĐẦU
1.1Tổng quan tình hình nghiên cứu thuộc lĩnh vực đề tài ở trong
và ngoài nước.
6
Có rất nhiều tác giả nghiên cứu về luật kết hợp, ứng dụng vào phân
tích tài chính như: Ứng dụng luật kết hợp vào phân tích đầu tư chứng
khoán của tác giả Ngô Sỹ Điềm.
1.2 Tính cấp thiết của đề tài
- Trong vài thập niên gần đây, khai thác dữ liệu (KTDL) đã trở thành
một trong những hướng nghiên cứu chính trong lĩnh vực khoa học
máy tính và công nghệ tri thức.
- Hoạt động tài chính nói chung và ngân hàng nói riêng là hoạt động
trong môi trường phân tán. Nghiên cứu khai thác luật kết hợp trong
môi trường tài chính vẫn là một hướng nghiên cứu mới mẻ, thực tế,
thú vị và thu hút được nhiều tác giả nghiên cứu.
- Với mục đích nghiên cứu và tìm kiếm ứng dụng, đưa các luật kết
hợp vào ứng dụng trong thực tế ngân hàng để phân tích các luật tài
chính ví dụ như với khoản tiền gửi bao nhiêu thì đảm bảo thu vốn
đúng hạn, hay khả năng vỡ nợ thường rơi vào những tài khoản bao
nhiêu v.v. giúp chuyên gia có được những thông tin có tính chất qui
luật, trợ giúp quyết định hiệu quả
1.3 Mục tiêu
Nghiên cứu các vấn đề như:
- Các chức năng của ngân hàng
- Những vấn đề chung về khai thác dữ liệu
- Phản ánh tình hình hoạt động của các loại nguồn vốn trong hoạt
động ngân hàng
- Cho phép người sử dụng tự khai thác các quy luật hoạt động của
các loại tiền gửi tiết kiệm.
1.4 Phương pháp nghiên cứu
Nghiên cứu tài liệu: Nghiên cứu các khái niệm chung về khai phá tri
thức, khai thác dữ liệu, các quy luật, luật kết hợp.
1.5 Đối tượng và phạm vi nghiên cứu.
- Khai thác dữ liệu, tình hình hoạt động của các loại nguồn vốn trong
hoạt động ngân hàng.
- Ứng dụng luật kết hợp vào phân tích tài chính ngân hàng.
1.6 Nội dung nghiên cứu.
- Tổng quan về hoạt động kinh doanh của ngân hàng thương mại.
- Cơ sở lý thuyết về khai phá dữ liệu
7
- Luật kết hợp
- Thuật toán khám phá luật kết hợp nhị phân.
8
PHẦN II: KẾT QUẢ NGHIÊN CỨU
Chương I: Tổng quan về hoạt động kinh doanh của ngân hàng
thương mại
1.1 Kinh doanh ngân hàng - Một loại hình kinh doanh đặc biệt
1.1.1 Ngân hàng - một trung gian tài chính
Ngân hàng là loại trung gian tài chính quan trọng nhất đối với mọi
người. Nghiệp vụ cơ bản nhất của Ngân hàng là nhận tiền gửi của
người tiết kiệm và cho vay lại số tiền đó. Ngân hàng trả lãi đối với
người gửi tiền và tính lãi cao hơn đối với người vay tiền. Số tiền
chênh lệch giữa hai mức lãi suất cho phép bù đắp chi phí hoạt động
Ngân hàng và đem lại lợi nhuận cho chỉ Ngân hàng.
1.1.2 Các chức năng chính của ngân hàng thương mại
Ngân hàng Thương mại Cổ phần có những chức năng của một Ngân
hàng Thương mại là: trung gian tín dụng, trung gian thanh toán và
nguồn tạo tiền.
1.1.3 Những quy chế đặc thù đối với các hoạt động của ngân
hàng.
Các ngân hàng thương mại (NHTM) là các doanh nghiệp đặc biệt
nên hoạt động của các ngân hàng cũng có những “đặc thù” khác với
các công ty đó là: sự không rõ ràng của một số nguồn thông tin tài
chính khiến khó đánh giá chất lượng hoạt động và rủi ro; sự đa dạng
về các đối tượng thụ hưởng nên khó quản lý; độ rủi ro lớn, nhiều
khoản nợ ngắn hạn nên rủi ro trong hoạt động là rất cao và rất dễ dẫn
đến phá sản; chịu sự quản lý chặt chẽ với nhiều quy định khắt khe và
chi tiết do tầm quan trọng trong hệ thống, nếu đổ vỡ có thể gây ra tổn
thất lớn và trên phạm vi rộng. Vì thế, bản thân các ngân hàng cũng
phải đưa ra các quy định rất cụ thể, rõ ràng như các hạn chế về hoạt
động (sản phẩm, chi nhánh), yêu cầu về đảm bảo an toàn (phân loại
tín dụng, dự trữ bắt buộc…).
1.2 Tìm hiểu bảng cân đối kế toán ngân hàng và các chỉ số tài
chính
1.2.1 Các khái niệm
Bảng cân đối kế toán là một báo cáo tài chính của ngân hàng khái
quát tình hình sử dụng vốn và nguồn vốn của ngân hàng vào ngày
cuối năm.
9
1.2.2 Nội dung và kết cấu bảng cân đối kế toán
Bảng Cân Đối Kế Toán được thể hiện một cách tổng quát bao gồm 2
phần:
+ Phần Tài sản (Assets) của ngân hàng thể hiện sự sử dụng vốn (ngân
quỹ) của ngân hàng, nó thể hiện hoạt động của ngân hàng.
+ Phần Nợ phải trả & vốn chủ sở hữu (Liabilities and equity) được
thể hiện một cách cụ thể từng nguồn hình thành nên ngân quỹ của
ngân hàng. Nợ phải trả không thuộc quyền sở hữu trong tài sản của
ngân hàng. Vì vậy, vốn chủ sở hữu sẽ bằng giá trị tài sản trư đi giá trị
nợ phải trả.
VỐN CHỦ SỞ HỮU = TỔNG TÀI SẢN - NỢ PHẢI TRẢ
1.2.3 Mô tả các khoản mục trên bảng cân đối kế toán
Các khoản mục tài sản (sử dụng vốn)
- Tiền mặt tại quỹ:
- Chứng từ có giá ngắn hạn:
- Đầu tư chứng khoán:
- Cho vay ( tín dung ) :
- Tài sản cố định, máy móc thiết bị:
- Tài sản khác:
Các khoản mục nguồn vốn
- Tiền gửi theo yêu cầu (thanh toán) của khách hàng: Là loại tiền gửi
có thể rút ra bất cứ lúc nào cho nhu cầu thực tế.
- Tiền gửi tiết kiệm.
- Tiền gửi của thị trường tiền tệ: Tiền gửi của khách hàng hoạt động
trên thị trường ngọai hối, thị trường tiền tệ quốc tế.
- Kỳ phiếu: là giấy nợ được ngân hàng phát hành theo điều luật của
ngân hàng như là bộ phận nguồn vốn của ngân hàng.
- Chứng chỉ tiền gửi: Các cá nhân, công ty, doanh nghiệp ký thác có
kỳ hạn được chứng nhận bằng chứng chỉ tiền gửíi của NH, lọai huy
động vốn này hiện nay chiếm vị trí lớn so với tiền gửi tiết kiệm.
- Tiền gửi có kỳ hạn khác: Tiền gửi của cá nhân, các tổ chức theo kỳ
hạn nhất định của ngân hàng, khi đến hạn mới được rút ra. Trong
trường hợp đặc biệt cần người gửi tiền cũng có thể rút tiền trước kỳ
hạn, nhưng không được hưởng lãi suất kỳ hạn.
10
- Vay ngắn hạn: Đây là khoản vay của ngân hàng nhằm bổ sung cho
vốn hoạt động kinh doanh của mình, có thể vay từ ngân hàng nhà
nước, hoặc từ các tổ chức tín dụng khác trong nước và nước ngoài.
- Nợ dài hạn: Các khoản vay dài hạn từ các tổ chức tín dụng khác, có
thể trong nước hoặc từ nước ngoài.
- Nợ phải trả khác: Các khoản nợ phát sinh trong quá trình hoạt động
của ngân hàng, như phải trả người bán người cung cấp, phải nộp
ngân sách Nhà nước, phải trả công nhân viên . .
- Vốn chủ sở hữu: Vốn chủ sở hữu bao gồm cổ phiếu thông thường,
chênh lệch tăng giá và thu nhập chưa phân phối.
1.2.4 Các chỉ số tài chính chủ yếu của ngân hàng
Tổng tài sản
Nguồn vốn:
Sử dụng vốn
Kết quả hoạt động
Chương II: Cơ sở lý thuyết về khai thác dữ liệu
2.1 Tổ chức và khai thác dữ liệu truyền thống
Sử dụng mô hình cơ sở dữ liệu quan hệ và ngôn ngữ vấn đáp chuẩn
(SQL) trong việc tổ chức và khai thác các cơ sở dữ liệu.
2.2 Bước phát triển của việc tổ chức và khai thác các cơ sở dữ
liệu
- Tạo kho dữ liệu(data warehousing) và môi trường các dữ
liệu có được gọi là các kho dữ liệu (data warehouse).
- Ứng dụng công nghệ khai phá dữ liệu nhằm khai thác dữ
liệu để tìm ra các thông tin hữu ích.
2.3 Khai thác dữ liệu và quá trình phát hiện tri thức
Khai phá dữ liệu là tìm ra những thông tin tiềm ẩn có giá trị
mà trước đó chưa được phát hiện, tìm ra những xu hướng phát triển
và những yếu tố tác động lên chúng.
Khai phá dữ liệu được sử dụng để tạo ra giả thuyết.
2.4 Các dạng dữ liệu có thể khai thác dữ liệu
- Bất kỳ loại dữ liệu được lưu trữ hay tạm thời, có cấu trúc hay bán
cấu trúc hay phi cấu trúc.
- Dữ liệu được lưu trữ: Các tệp tin truyền thống, các cơ sở dữ liệu
quan hệ, quan hệ hướng đối tượng; các cơ sở dữ liệu giao tác hay kho
11
dữ liệu; Các cơ sở dữ liệu hướng ứng dụng- cơ sở dữ liệu không gian,
thời gian, không thời gian, văn bản, đa phương tiện; Các kho thông
tin- world wide web.
- Dữ liệu tạm thời: Các dòng dữ liệu
2.5 Nhiệm vụ chính của khai thác dữ liệu
Ta có thể coi mục đích chính của khai thác dữ liệu sẽ là mô tả
(description) và dự đoán (prediction).
2.6 Các phương pháp khai thác dữ liệu
Quá trình khai phá dữ liệu là quá trình phát hiện mẫu, trong đó, giải
thuật khai phá dữ liệu tìm kiếm các mẫu đáng quan tâm theo dạng
xác định như các luật, cây phân lớp, quy hồi, phân nhóm, v.v
2.6.1 Các thành phần của giải thuật khai thác dữ liệu
Giải thuật khai phá dữ liệu bao gồm 3 thành phần chính như sau: biểu
diễn mô hình, đánh giá mô hình, tìm kiếm mô hình.
Biểu diễn mô hình: Mô hình được biểu diễn bằng một ngôn ngữ
L để mô tả các mẫu có thể khai thác được.
Đánh giá mô hình: Đánh giá xem một mẫu có đáp ứng được các
tiêu chuẩn của quá trình phát hiện tri thức hay không.
Phương pháp tìm kiếm: phương pháp tìm kiếm bao gồm hai thành
phần: tìm kiếm tham số và tìm kiếm mô hình. .
2.6.2 Một số phương pháp khai thác dữ liệu phổ biến
2.6.2.1 Phương pháp quy nạp (induction)
Phương pháp suy diễn: Nhằm rút ra thông tin là kết quả logic
của các thông tin trong cơ sở dữ liệu.
Phương pháp quy nạp: phương pháp quy nạp suy ra các thông
tin được sinh ra từ cơ sở dữ liệu.
2.6.2.2. Cây quyết định và luật
- Cây quyết định: Cây quyết định là một mô tả tri thức dạng
đơn giản nhằm phân các đối tượng dữ liệu thành một số lớp nhất
định. Các nút của cây được gán nhãn là tên các thuộc tính, các cạnh
được gán các giá trị có thể của các thuộc tính, các lá mô tả các lớp
khác nhau. Các đối tượng được phân lớp theo các đường đi trên cây,
qua các cạnh tương ứng với các giá trị của thuộc tính của đối tượng
tới lá.
12
- Tạo luật: Các luật được tạo ra nhằm suy diễn một số mẫu dữ
liệu có ý nghĩa về mặt thống kê. Các luật có dạng NẾU P THÌ Q, với
P là mệnh đề đúng với một phần trong CSDL, Q là mệnh đề dự đoán.
2.6.2.3. Phát hiện các luật kết hợp
Phương pháp này nhằm phát hiện ra các luật kết hợp giữa các thành
phần dữ liệu trong cơ sở dữ liệu.
2.6.2.4 Các phương pháp phân lớp và hồi quy phi tuyến
Các phương pháp này bao gồm một họ các kỹ thuật dự đoán để làm
cho các kết hợp tuyến tính và phi tuyến của các hàm cơ bản (hàm
sigmoid, hàm spline (hàm mành), hàm đa thức) phù hợp với các kết
hợp của các giá trị biến vào. Các phương pháp thuộc loại này như
mạng neuron truyền thẳng, phương pháp mành thích nghi, Các
phương pháp hồi quy phi tuyến mặc dù rất có khả năng diễn tả nhưng
lại rất khó diễn giải thành các luật.
2.6.2.5. Phân nhóm và phân đoạn (clustering and segmentation)
Kỹ thuật phân nhóm và phân đoạn là những kỹ thuật phân chia dữ
liệu sao cho mỗi phần hoặc mỗi nhóm giống nhau theo một tiêu
chuẩn nào đó. Mối quan hệ thành viên của các nhóm có thể dựa trên
mức độ giống nhau của các thành viên và từ đó xây dựng nên các luật
ràng buộc giữa các thành viên trong nhóm. Một kỹ thuật phân nhóm
khác là xây dựng nên các hàm đánh giá các thuộc tính của các thành
phần như là hàm của các tham số của các thành phần. Phương pháp
này được gọi là phương pháp phân hoạch tối ưu (optimal
partitioning). .
2.6.2.6. Các phương pháp dựa trên mẫu
Sử dụng các mẫu mô tả từ cơ sở dữ liệu để tạo nên một mô hình dự
đoán các mẫu mới bằng cách rút ra những thuộc tính tương tự như
các mẫu đã biết trong mô hình. Các kỹ thuật bao gồm phân lớp theo
láng giềng gần nhất, các giải thuật hồi quy (Dasarathy 1991) và các
hệ thống suy diễn dựa trên tình huống (case-based reasoning)
(Kolodner 1993).
2.6.2.7. Mô hình phụ thuộc dựa trên đồ thị xác suất
Các mô hình đồ thị xác định sự phụ thuộc xác suất giữa các sự kiện
thông qua các liên hệ trực tiếp theo các cung đồ thị (Pearl 1988;
Whittaker, 1990).
13
2.6.2.8. Mô hình học quan hệ
Mô hình học quan hệ (còn được gọi là lập trình logic quy nạp –
inductive logic programming) sử dụng ngôn ngữ mẫu theo logic vị từ
cấp 1 (first-order logic) rất linh hoạt.
2.6.2.9. Khai phá dữ liệu dạng văn bản (Text Mining)
Kỹ thuật này được ứng dụng trong một loạt các công cụ phần mềm
thương mại. Công cụ khai phá dữ liệu rất phù hợp với việc tìm kiếm,
phân tích và phân lớp các dữ liệu văn bản không định dạng. Các lĩnh
vực ứng dụng như nghiên cứu thị trường, thu thập tình báo, v.v…
Khai phá dữ liệu dạng văn bản đã được sử dụng để phân tích câu trả
lời cho các câu hỏi mở trong khảo sát thị trường, tìm kiếm các tài liệu
phức tạp.
2.6.2.10. Mạng neuron
Khi đề cập đến khai thác dữ liệu, người ta thường đề cập nhiều đến
mạng neuron. Tuy mạng neuron có một số hạn chế gây khó khăn
trong việc áp dụng và triển khai nhưng nó cũng có những ưu điểm
đáng kể. Một trong số những ưu điểm phải kể đến của mạng neuron
là khả năng tạo ra các mô hình dự đoán có độ chính xác cao, có thể
áp dụng được cho rất nhiều loại bài toán khác nhau, đáp ứng được
nhiệm vụ đặt ra của khai phá dữ liệu như phân lớp, phân nhóm, mô
hình hóa, dự báo các sự kiện phụ thuộc vào thời gian, v.v…
2.6.2.11. Giải thuật di truyền
Giải thuật di truyền, nói theo nghĩa rộng là mô phỏng lại hệ thống
tiến hóa trong tự nhiên, chính xác hơn đó là giải thuật chỉ ra tập các
cá thể được hình thành, được ước lượng và biến đổi như thế nào.
Chương III: Khám phá luật kết hợp
3.1 Ý nghĩa của luật kết hợp
Luật kết hợp là một phương pháp phổ biến và quan trọng trong khai
thác dữ liệu. Luật kết hợp giúp chúng ta tìm được các mối liên hệ
giữa các mục dữ liệu của cơ sở dữ liệu.
Độ hỗ trợ, độ tin cậy là hai thước đo cho một luật kết hợp.
Tìm kiếm được các luật kết hợp “quý hiếm” và mang nhiều thông tin
từ cơ sở dữ liệu tác nghiệp là một trong những hướng tiếp cận chính
của lĩnh vực khai thác dữ liệu.
3.2 Một số hướng tiếp cận trong khai thác luật kết hợp
14
Luật kết hợp nhị phân (binary association rule hoặc boolean
association rule):Trong dạng luật kết hợp này, các mục (thuộc tính)
chỉ được quan tâm là có hay không xuất hiện trong giao tác của cơ sở
dữ liệu chứ không quan tâm về “mức độ” xuất hiện.
Luật kết hợp có thuộc tính số và thuộc tính hạng mục (quantitative
and categorial association rule): Để phát hiện luật kết hợp có thuộc
tính này, các nhà nghiên cứu đã đề xuất một số phương pháp rời rạc
hoá nhàm chuyển dạng luật này về dạng nhị phân để có thể áp dụng
các thuật toán đã có.
Luật kết hợp tiếp cận theo hướng tập thô (mining association rules
base on rough set): Tìm kiếm luật kết hợp dựa trên lý thuyết tập thô.
Luật kết hợp nhiều mức (mulyi-level association rule): Dạng luật đầu
là dạng luật tổng quát cuả dạng luật sau và tổng quát hoá theo nhiều
mức khác nhau.
Luật kết hợp mờ (fuzzy association rule): Nhằm khắc phục các hạn
chế và chuyển luật kết hợp về một dạng tự nhiên hơn gần gũi hơn
với người sử dụng.
Luật kết hợp với thuộc tính được đánh trọng số (association rule
with weighted items): Với luật kết hợp có trọng số chúng ta sẽ khai
thác được những luật “hiếm” (độ hỗ trợ thấp, nhưng mang nhiều ý
nghĩa)
Khai thác luật kết hợp song song (parallel mining of association
rules):
Ngoài ra còn có một số hướng nghiên cứu khác về khai thác luật kết
hợp như: Khai thác luật kết hợp trực tuyến, khai thác luật kết hợp
được kết nối trực tuyến đến các kho dữ liệu thông qua công nghệ
OLAP, MOLAP, ROLAP, ADO, …
3.3 Phát biểu bài toán khai thác luật kết hợp
Cho một tập I= {i
1
, i
2
, …, i
m
} các tập m mục (hay còn gọi là thuộc
tính). X I được gọi là tập mục.
T= {t
1
, t
2
, …, t
n
} một tập gồm n giao dịch ( Transaction- còn gọi là
bản ghi) mỗi giao dịch được định danh bởi TID (Transaction
Identification)
15
R là quan hệ nhị phân trên I và T (hay R T x I). Nếu giao dịch T có
chứa mục i thì ta viết (i, t) R (hoặc iRt). (T, I, R) là ngữ cảnh khai
thác dữ liệu.
Cho một tập mục X I. Ký hiệu supp(X) là độ hỗ trợ của một tập
mục X – là tỷ lệ phần trăm số giao tác trong cơ sở dữ liệu D chứa X
trên tổng số các giao tác trong cơ sở dữ liệu D. supp(X)
=Card(X)/Card(D) %
Tập phổ biến:
Cho một tập mục X I và ngưỡng minsupp (0,1] (minsupp được
xác định bởi người sử dụng). Một tập mục X được gọi là một tập phổ
biến theo ngưỡng minsupp nếu và chỉ nếu độ hỗ trợ của nó lớn hơn
hoặc bằng một ngưỡng minsupp: supp(X) minsupp.
Độ hỗ trợ của của luật kết hợp X=> Y là tỷ lệ phần trăm các giao
dịch trong D có chứa X Y, supp(X Y)= Card(X Y)/Card(D).
Luật kết hợp có dạng X=>Y:c, trong đó:
X và Y là tập mục thoả mã điều kiện X Y=, c là độ tin cậy.
Độ tin cậy của luật c = supp(X Y)/ supp(X) % = Card(X Y)/
Card(X) %: là tỷ lệ phần trăm các giao dịch trong D có chứa X thì
chứa Y. Về mặt xác suất, độ tin cậy c của một luật là xác suất xảy ra
Y với điều kiện X xảy ra.
Luật kết hợp tin cậy: Một luật được xem là tin cậy nếu độ tin cậy c
của nó lớn hơn hoặc bằng một ngưỡng minconf (0, 1] nào đó do
người dùng xác định. Ngưỡng minconf phản ánh mức độ xuất hiện
của Y khi cho trước X (c minconf)
Luật kết hợp cần tìm là luật kết hợp thoả mãn Minsupp và minconf
cho trước.
Hầu hết các thuật toán khai phá luật kết hợp thường chia thành hai
pha:
Pha 1: Tìm tất cả các tập mục phổt biến từ cơ sở dữ liệu, tức là tìm tất
cả các tập mục X thoả mãn s(X) minsupp.
Pha 2: sinh các luật tin cậy từ các tập phổ biến đã tìm thấy ở pha 1.
Nếu X là một tập mục phổ biến thì luật kết hợp được sinh từ X có
dạng:
X’=> X’\X:c, trong đó
16
X’là tập con khác rỗng của X
X’\X là hiệu hai tập hợp X’ và X
C là độ tin cậy của luật thoả c minconf.
3.4 Thuật toán A priori-TID nhị phân để tìm các tập phổ biến
Thuật toán sử dụng các véc tơ bít cho các thuộc tính.Véc tơ nhị phân
n chiều ứng với n giao dịch trong cơ sở dữ liệu.
Cho DM = (T, I, R) với T = {t
1
, t
2
, …, t
m
} là tập giao dịch ; I = {i
1
, i
2
,
…, i
n
} là tập mục và R cho trong bảng sau:
i
1
i
2
…
i
n
t
1
1
1
0
t
2
0
1
1
.
.
.
t
m
1
0
1
Thuật toán Apriori tìm các tập phổ biến với ngưỡng minsupp được
tiến hành qua hai pha:
Pha 1: Tìm các tập phổ biến một phần tử F
1
:
F
1
= {X
I:
X
= 1 & s(X)
minsupp}.
Pha 2: Tìm F
k
có k phần tử được tổ hợp từ 2 phần tử của F
k-1
:
F
k
= {X
I:
X
= k & X = Y
Z trong đó Y, Z
F
k-1
& s(X)
minsupp}
Với k = 2, 3,
Tập tất cả các tập phổ biến F = F
1
F
2
F
k
3.5 Luật kết hợp có thuộc tính số và thuộc tính hạng mục
Để tìm kiếm luật kết hợp ta có thể phân khoảng miền giá trị của các
thuộc tính số và thuộc tính hạng mục để chuyển tất cả về thuộc tính
nhị phân nhằm mục đích áp dụng các thuật toán khai thác luật kết
hợp nhị phân.
3.6 Phương pháp rời rạc hoá dữ liệu
Trường hợp 1: Nếu A là thuộc tính số rời rạc hoặc là thuộc tính hạng
mục có miền giá trị hữu hạn dạng {v
1
, v
2
, …. ,v
k
} và k đủ nhỏ (<100)
thì ta biến đổi thuộc tính A này thành k thuộc tính nhị phân Av
1
, Av
2
,
17
……Av
k
. Giá trị của bản ghi tại trường Av
i
= 1 nếu giá trị của bản
ghi đó tại thuộc tính A ban đầu bằng v
i
, ngược lại là 0.
Trường hợp 2: Nếu A là thuộc tính số liên tục hoặc thuộc tính hạng
mục có miền giá trị hữu hạng dạng {V
1
,V
2
, … , V
p
}(p lớn) thì ta sẽ
ánh xạ thành q vùng thuộc tính nhị phân <A:start
1
… end
1
>, <A :
start
2
… end
2
>, ……… , <A : start
q
….end
q
>. Giá trị của bản ghi tại
trường <A : starti… endi> bằng True (hoặc 1) nếu giá trị của bản ghi
đó tại thuộc tính A ban đầu nằm trong khoảng [starti… endi], ngược
lại giá trị của <A : start
i
… end
i
> = False (hoặc 0).
3.7 Thuật toán khám phá luật kết hợp nhị phân áp dụng trong đề
tài
Thuật toán khám phá luật kết hợp nhị phân
Begin
(D
F
, I
F
, T
F
)= Rời_rạc_hoá_dữ_liệu (D, I, T);
F1= Tạo_F1( D
F
, I
F,
fminsupp);
F= ; R
F
= ;
K=2;
While(F
k-1
<> )
{ C
k
= Tạo_C
k
(F
k-1
);
F
k
= tính_SP_K(C
k
, D
F
, fminsupp);
R
Fk
= Tìm_Luật (F
k
, fminconf);
F = F F
K
;
R
F
= R
F
R
FK
;
k= k+1;
}
End
Chương trình Rời_rạc_hoá_dữ_liệu (D, I, T): Chương trình này thực
hiện nhiệm vụ chuyển đổi từ cơ sở dữ liệu ban đầu D sang cơ sở dữ
liệu nhị phân D
F
, các thuộc tính của D được rời rạc hoá sang dạng nhị
phân và giá trị của các thuộc tính I ở các giao tác T trong D được ánh
xạ thành một giá trị 0 hoặc 1 theo công thức sau:
mi_vi (X)=
Trong đó mi_vi(x) là giá trị của thuộc tính I
F
sau khi rời rạc các thuộc
tính hạng mục I có các tập giá trị {V1, V2, …, Vk}.
18
Chương trình con F1= Tạo_F1(D
F
, I
F
, fminsupp): Chương trình con
này sinh các tập phổ biến F1 từ tập thuộc tính I
F
trong cơ sở dữ liệu
nhị phân D
F
. Trong trường hợp này F1 là những thuộc tính chỉ xuất
hiện trong vế phải (VP) của luật.
F1 =;
For (each i I
F
and i VP)
If(supp({i}) fminsupp) then
F1 = F1 {i}
Endif
Endfor
Return F1;
Tiếp theo là xác định tập ứng viên C
K
từ tập thuộc tính F
k-1
và trong
trường hợp này tập C
k
phải chứa toàn bộ những thuộc tính thuộc vế
phải của luật để sau khi phát sinh tập phổ biến F
k
thì những luật được
khám phá sẽ là những luật thật sự quan tâm, thuật toán được cải tiến
điều kiện where như sau:
Where (P.item_1= Q.item_1) And …. And (P.item_k-2= Q.item_k-2)
AND (P.item_k-1= Q.item_k-1) And (P.item_O_k-1 <>
Q.item_O_k-1)
And (P.item_k-1 VP)
Chương trình con F
k
= Tính_SP_K(C
K
, D
K,
fminsupp): Chương trình
con này sinh các tập phổ biến F
K
từ tập thuộc tính C
K
. Chương trình
này duyệt qua cơ sở dữ liệu D
F
để cập nhật độ hỗ trợ cho các thuộc
tính trong C
K.
Sau khi duyệt xong, Tính_SP_K chỉ chọn những tập
phổ biến có độ hỗ trợ lớn hơn hoặc bằng fminsupp để đưa vào F
k.
và
tập phổ biến F
k
phải chứa vế phải của luật.
F
k
= ;
For (each X F
k-1
and XVP ) do
For(each Y F
k-1
and X# Y) do
Begin
S= X Y;
If( {S}=k and supp({S})>= fminsupp) then
F
k
= F
k
{S}
Endif
19
End
Endfor
Endfor
Chương trình con R
Fk
= Tìm_Luật (F
k
, fminconf): Chương trình con
này sinh luật kết hợp nhị phân từ các tập phổ biến F
k
. Tập luật phát
sinh là những luật quan tâm với vế phải là những thuộc tính đã xác
định.
R
Fk
= ;
For all X F
k
do
For all (Y X and X#Y and Y # and Y VP)do
r = X\Y => Y;
If(conf(r)>= fminconf) then
R
Fk
= R
Fk
{r};
Endif
Endfor
Endfor
Kết quả sau khi khám phá luật thì chúng ta sẽ có tập luật với những
luật thật sự quan tâm và chi phí khám phá ít hơn so với những
phương pháp cải tiến khác do thuật toán này chỉ phát sinh những tập
phổ biến có vế phải là những thuộc tính đã xác định và quá trình phát
sinh luật cũng chỉ phát sinh những luật có vế phải là những thuộc tính
đã được xác định.
20
PHẦN III: KẾT LUẬN VÀ KHUYẾN NGHỊ
Đề tài “Nghiên cứu ứng dụng luật kết hợp vào phân tích tài
chính ngân hàng” Cơ bản đã hoàn thành những nội dung đã đề ra.
Trong đề tài này tác giả tập trung nghiên cứu về các vấn đề:
Tổng quan về hoạt động kinh doanh của ngân hàng thương mại;
Các kỹ thuật khai phá luật kết hợp; Các kỹ thuật rời rạc hoá dữ liệu
đưa bảng khách hàng có các thuộc tính số và hạng mục về dạng dữ
liệu nhị phân, áp dụng thuật toán luật kết hợp nhị phân vào tìm các
luật kết hợp; Cải tiến thuật toán khám phá luật kết hợp nhị phân, ứng
dụng vào khai phá dữ liệu ngân hàng, nhằm tìm ra các luật kết hợp
hữu ích, trợ giúp chuyên gia trong quá trình ra quyết định.
Tuy nhiên luật kết hợp nhị phân còn có một số hạn chế khi
áp dụng với các thuộc tính số và hạng mục (Sử dụng các phương
pháp rời rạc hoá để chuyển các thuộc tính này về dạng nhị phân, nên
dữ liệu bị rời rạc, không tự nhiên). Do vậy hướng phát triển trong
tương lai của đề tài là: Áp dụng luật kết hợp mờ, luật kết hợp vào
phân tích kinh doanh tài chính ngân hàng nhằm khắc phục các nhược
điểm trên.
Trong khuôn khổ đề tài này, tác giả mới chỉ thực hiện khai
phá dữ liệu tập trung, tuy nhiên dữ liệu của ngân hàng là phân tán.Vì
vậy trong thời gian tới nhóm sẽ thực hiện nghiên cứu công cụ,
phương pháp ứng dụng luật kết hợp vào phân tích dữ liệu tài chính
ngân hàng trong môi trường dữ liệu phân tán
Cài đặt chương trình phân tích dữ liệu thật.