BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
VIỆN CÔNG NGHỆ THÔNG TIN
Phạm Hạ Thủy
NGHIÊN CỨU PHẦN TỬ NGOẠI LAI
TRONG CƠ SỞ DỮ LIỆU VÀ ỨNG DỤNG
Chuyên ngành: Bảo đảm toán học cho máy tính và hệ thống tính toán
Mã số: 62.46.35.01
TÓM TẮT LUẬN ÁN TIẾN SĨ
Hà Nội – 2007
Công trình được hoàn thành tại:
Viện Công nghệ Thông tin - Viện Khoa học và Công nghệ Việt Nam
Người hướng dẫn khoa học: 1- PGS.TS. Vũ Đức Thi
2- PGS.TS. Lê Hải Khôi
Phản biện 1: PGS.TS. Nguyễn Thanh Thuỷ
Phản biện 2: GS.TS. Đặng Huy Ruận
Phản biện 3: PGS.TS. Nguyễn Xuân Huy
Luận án được bảo vệ trước Hội đồng chấm luận án cấp Nhà nước, họp tại:
Viện Công Nghệ Thông tin - Viện Khoa họ
c và Công nghệ Việt Nam
Vào hồi 15h 30’ giờ ngày 26 tháng 08 năm 2007
Có thể tìm hiểu luận án tại:
- Thư viện Viện Công Nghệ Thông tin
- Thư viện Quốc gia Hà Nội
CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ LIÊN QUAN ĐẾN LUẬN ÁN
1. Phạm Hạ Thuỷ (2001), "Thiết kế phần mềm kiểm toán trên nền cơ sở dữ liệu của
Kiểm toán Nhà nước", Tạp chí Tin học và điều khiển T17( 3),p.61-64.
2. Phạm Hạ Thuỷ (2005), "Ứng dụng cây quyết định vào việc xác định rủi ro kiểm
toán", Tạp chí Kiểm toán Số T60 (8), p.32-35.
3. Phạm Hạ Thuỷ
(2005), “Phát hiện phần tử ngoại lai theo luật hợp thành và ứng
dụng trong việc phát hiện sai sót trong chứng từ kế toán”, Tạp chí Tin học Tài
chính, số 29, p. 24-25.
4. Phạm Hạ Thuỷ (2005), “ Xác định phần tử ngoại lai trong cơ sở dữ liệu quan hệ”,
Tạp chí Tin học và điều khiển,T21(4),p.352-360.
5. Phạm Hạ Thuỷ - Hoàng Xuân Huấn (2006), "Phát hiện phần tử ngoại lai trong cơ
sở dữ
liệu nhờ phân tích hồi qui", Tạp chí Tin học và Điều khiển, T22(1), p.45-
52.
6. Vũ Đức Thi - Phạm Hạ Thuỷ (2007), " Phụ thuộc hàm xấp xỉ và phần tử ngoại lai
đối với phụ thuộc hàm", Tạp chí Tin học và Điều khiển, T23(1), p.80-85.
Một số báo cáo tại các hội thảo quốc gia về CNTT
1. Vũ Đức Thi - Phạm Hạ Thuỷ, " Find out Strong Dependencies over Relational
Database", Hội thảo khoa học quốc gia lần thức ba " Nghiên cứu phát triển và
ứng dụng công nghệ thông tin và truyền thông" - ICT.rda'06 được tổ chức tại Hà
Nội tháng 5/2006.
2. Vũ Đức Thi- Phạm Hạ Thuỷ, "Kiểm tra một quan hệ thoả phụ thuộc hàm xấp xỉ
loại 2 và phát hiện phần tử ngo
ại lai đối với phụ thuộc hàm xấp xỉ", Hội thảo
quốc gia " Một số vấn đề chọn lọc của công nghệ thông tin" lần thứ 9 được tổ
chức tại Đà lạt tháng 6/ 2006;
1
MỞ ĐẦU
Phát hiện phần tử ngoại lai (Outlier Detection) là một trong nội
dung của khám phá tri thức trong cơ sở dữ liệu (KDD), là công việc
cần thiết trong tổ chức những kho dữ liệu lớn (Data Warehouse) và
trong quá trình tích hợp và làm sạch dữ liệu. Việc phát hiện phần tử
ngoại lai trong CSDL có vai trò quan trọng để giải quyết nhiều bài toán
thực tế: phân tích dữ liệu nhằm phát hiện những hiện tượng bấ
t thường,
những gian lận, sai sót trong hoạt động quản lý tài chính, sản xuất kinh
doanh; trong việc kiểm tra ngăn chặn những gian lận trong giao dịch
điện tử; trong việc tổ chức kiểm soát, làm sạch dữ liệu trong tổ chức
quản lý khai thác những kho dữ liệu lớn Việc giải quyết bài toán phát
hiện phần tử ngoại lai trong cơ sở dữ liệu (CSDL) có ý nghĩa cả về mặt
lý thuyế
t tổ chức cơ sở dữ liệu và thực tế ứng dụng hiện nay.
Lý thuyết về phát hiện phần tử ngoại lai cũng gắn liền với sự phát
triển của khai phá dữ liệu (Data mining) với các công trình nghiên cứu
của Barnett và Lewis (1994), của Arning, Agrawal, Raghavan (1996),
E. Knorr (1998, 2002), K. Penny và I. Jollife (2001), A. Nicholson
(2002), J. Hardin và D. Jocke (2004) và nhiều tác giả khác. Gần đây
phần tử ngoại lai vẫn là tâm điểm nghiên cứu của nhiều tác giả. Càng
ngày càng có nhiều nghiên cứ
u ứng dụng việc phát hiện phần tử ngoại
lai vào trong các lĩnh vực khác nhau của đời sống xã hội: phòng chống
tội phạm máy tính; kiểm soát mạng; xử lý nhiễu, phát hiện mẫu, phát
hiện dị thường và làm sạch dữ liệu trong học máy và nghiên cứu y
học
Tuy nhiên các phương pháp phát hiện phần tử ngoại lai của các
tác giả đi trước mới chỉ đề xuất cho các tập dữ liệu nói chung, ch
ưa đi
sâu vào các loại dữ liệu có cấu trúc cụ thể. Mặt khác việc phát hiện
phần tử ngoại lai chỉ mới dựa trên việc xử lý các phần tử trong nội bộ
của tập dữ liệu. Vai trò của các ràng buộc, luật biết trước (các thông tin
bên ngoài có tính chất qui định, định hướng) mà các phần tử của tập dữ
liệu buộc phải tuân theo chưa được đặt ra (mà trong thực t
ế những bài
toán phát hiện hiên tượng gian lận, sai sót (hiện tượng ngoại lai) trong
2
các lĩnh vực kế toán, kiểm toán, quản lý kinh tế thì lại chủ yếu là dựa
vào các qui định, các luật biết trước). Điều này làm hạn chế đến hiệu
quả của việc phát hiện khi áp dụng vào những trường hợp CSDL cụ thể
hoặc đối với mục tiêu nhằm phát hiện những phần tử vi phạm những
luật (các ràng buộc hoặc qui tắc) được cho trước.
Hoạ
t động kiểm toán của Kiểm toán Nhà nước hiện nay là việc
kiểm tra, đánh giá và xác nhận tính đúng đắn, trung thực của báo cáo
tài chính; việc tuân thủ pháp luật; tính kinh tế, hiệu lực và hiệu quả
trong quản lý, sử dụng ngân sách, tiền và tài sản nhà nước. Hiện nay
hoạt động kiểm toán nhà nước ở Việt nam được tiến hành chủ yếu bằng
cách thủ công. Việc kiểm tra đánh giá mất rất nhi
ều công sức và thời
gian, có nhiều rủi ro xẩy ra (sự bỏ sót, đánh giá sai lệch…).Vì vậy việc
nghiên cứu về mặt lý thuyết các vấn đề về tổ chức các cơ sở dữ liệu
(chứng từ, tài liệu kế toán), phân tích dữ liệu, mô hình hoá, xây dựng
các thuật toán, phương pháp giải quyết các bài toán phân tích, kiểm tra,
kiểm soát thông tin, phát hiện phần tử ngoại lai trong các CSDL, và
đặc biệt là trong các CSDL dạng quan hệ là hết sức c
ần thiết và có ý
nghĩa trong việc xây dựng các phần mềm dùng cho kiểm toán.
Luận án "Nghiên cứu phần tử ngoại lai trong cơ sở dữ liệu và
ứng dụng" được thực hiện nhằm mục tiêu đề xuất một số những mô
hình, thuật toán mới trong xử lý file dữ liệu trong hệ thống CSDL liên
quan đến việc phát hiện phần tử ngoại lai trong CSDL quan hệ và có ý
nghĩa trong việc ứng dụng vào l
ĩnh vực hoạt động quản lý tài chính và
kiểm toán nhà nước.
Những nội dung được lựa chọn nghiên cứu của Luận án là những
mô hình, phương pháp tổ chức, xử lý file dữ liệu trong CSDL quan hệ;
những phương pháp, thuật toán sử dụng trong lĩnh vực khám phá tri
thức và khai thác dữ liệu có liên quan đến việc phát hiện những phẩn tử
ngoại lai.
Trọng tâm của Luận án là giải quyết bài toán phát hiện phần t
ử
ngoại lai trong CSDL, song bên cạnh đó Luận án cũng tiến hành
nghiên cứu và đề xuất những vấn đề lý thuyết trong CSDL quan hệ như
3
thuật toán tìm khóa của một quan hệ, các điều kiện để quan hệ ở dạng
chuẩn 2NF, việc phát hiện những phần tử ngoại lai (theo nghĩa vi phạm
các ràng buộc về phụ thuộc hàm, các dạng chuẩn ). Đồng thời Luận
án cũng đề xuất một số thuật toán tìm luật kết hợp, xây dựng cây quyết
định, xây dựng mô hình lấy mẫu phục vụ cho mục đích phát hiệ
n phần
tử ngoại lai.
Một số mục tiêu cụ thể của Luận án được đặt ra là:
- Nghiên cứu phần tử ngoại lai trong cơ sở dữ liệu lớn dựa trên phụ
thuộc hàm, khoá và các dạng chuẩn nhằm giải quyết một số bài toán cụ
thể về phát hiện phần tử ngoại lai trong cơ sở dữ liệu quan hệ;
- Hoàn thiện thêm lý thuyết về phụ thu
ộc mạnh trong cơ sở dữ liệu quan
hệ và ứng dụng phụ thuộc mạnh trong việc phát hiện phần tử ngoại lai;
- Nghiên cứu phụ thuộc xấp xỉ loại 2 và ứng dụng vào việc phát hiện
phần tử ngoại lai;
- Cải tiến thuật toán xây dựng cây phân lớp và thuật toán tìm luật kết
hợp phân lớp;
- Nghiên cứu, đề xuất một số mô hình ứng dụng phát hiệ
n phần tử
ngoại lai vào thực tiễn hoạt động kiểm toán và quản lý tài chính.
Với việc hoàn thành các mục tiêu đã đặt ra, Luận án đã đạt được
một số kết quả, đóng góp một phần trong việc phát triển lý thuyết về tổ
chức và xử lý các file dữ liệu trong cơ sở dữ liệu và khai thác dữ liệu.
Luận án có ý nghĩa thực tế trong việc giải quyết mộ
t số bài toán trong
lĩnh vực kiểm toán và quản lý tài chính trong bối cảnh công cuộc tin
học hoá đang được triển khai mạnh mẽ trong các lĩnh vực này.
Luận án gồm 151 trang được bố cục thành 4 chương cùng với
phần mở đầu, kết luận và giới thiệu tài liệu tham khảo.
Chương 1. Lý thuyết cơ sở và các công trình nghiên cứu liên
quan, Luận án trình bày một số lý thuyết và công trình nghiên cứu của
các tác giả đi trướ
c làm cơ sở cho việc nghiên cứu.
4
Chương 2. Phát hiện phần tử ngoại lai trong cơ sở dữ liệu
quan hệ, Luận án trình bày những kết quả nghiên cứu của tác giả về lý
thuyết phát hiện phần tử ngoại lai trong CSDL quan hệ.
Chương 3. Cây quyết định và chọn mẫu xác định ngoại lai,
Luận án trình bày kết quả nghiên cứu của tác giả về một số thuật toán
cải tiến xây dựng cây quyết định, phát hi
ện luật kết hợp phân lớp; mô
hình chọn mẫu thống kê phát hiện phần tử ngoại lai trong CSDL quan
hệ.
Chương 4. Ứng dụng trong thực tế hoạt động kiểm toán, Luận
án trình bày một số mô hình ứng dụng kết quả nghiên cứu về phát hiện
phần tử ngoại lai trong CSDL quan hệ vào hoạt động kiểm toán và phân
tích kinh tế.
5
CHƯƠNG 1
LÝ THUYẾT CƠ SỞ VÀ CÁC CÔNG TRÌNH NGHIÊN CỨU
LIÊN QUAN
Trong nội dung của chương này, Luận án trình bày một số lý
thuyết và công trình nghiên cứu của các tác giả đi trước làm cơ sở cho
việc nghiên cứu, bao gồm: một số nội dung cơ bản về CSDL quan hệ:
các khái niệm về quan hệ, tiên đề Amstrong, phụ thuộc hàm, khoá,
dạng chuẩn của quan hệ; một số vấn đề lý thuyết về khai thác dữ liệ
u:
phát hiện phần tử ngoại lai; khai thác và tìm kiếm luật kết hợp; xây
dựng cây quyết định.
Các khái niệm về phụ thuộc hàm, khoá và các dạng chuẩn của
quan hệ được tác giả của luận án sử dụng để xây dựng khái niệm về
phần tử ngoại lai đối với phụ thuộc hàm, khoá và các dạng chuẩn cũng
như các thuật toán dùng để phát hiện phần tử ngoại lai trong từ
ng
trường hợp.
Khái niệm phần tử ngoại lai trong một tập dữ liệu dùng để chỉ những
phần tử có sự khác biệt so với đa số các phần tử còn lại của tập dữ liệu.
Có nhiều phương pháp nghiên cứu về phần tử ngoại lai, tuy nhiên các
phương pháp phát hiện phần tử ngoại lai của các tác giả đi trước mới
chỉ đề xuất cho các t
ập dữ liệu nói chung, chưa đi sâu vào các loại dữ
liệu có cấu trúc cụ thể. Việc phát hiện phần tử ngoại lai chỉ mới dựa
trên việc xử lý các phần tử trong nội bộ của tập dữ liệu, vai trò của các
ràng buộc, luật biết trước (các thông tin bên ngoài có tính chất qui
định, định hướng) mà các phần tử của tập dữ liệu buộc phải tuân theo
chưa được đặ
t ra. Điều này làm hạn chế đến hiệu quả của việc phát
hiện khi áp dụng vào những trường hợp CSDL cụ thể hoặc đối với mục
tiêu nhằm phát hiện những phần tử vi phạm những luật (các ràng buộc
hoặc qui tắc) được cho trước. Trong thực tế những bài toán phát hiện
gian lận, sai sót trong các lĩnh vực kế toán, kiểm toán, quản lý kinh tế
thì lại chủ yếu là dự
a vào các qui định, các luật biết trước. Vì vậy việc
nghiên cứu, đề xuất những mô hình, phương pháp phát hiện phần tử
ngoại lai cho những mô hình dữ liệu cụ thể, đặc biệt là đối với mô hình
6
dữ liệu quan hệ là việc cần thiết Trong Luận án này, chúng tôi đưa ra
một số phương pháp phát hiện phần tử ngoại lai trong cơ sở dữ liệu
quan hệ dựa theo phụ thuộc hàm, khóa và các dạng chuẩn có ý nghĩa
trong việc giải quyết một số bài toán cụ thể của thực tế.
Phân lớp dữ liệu (data classification) là một phương pháp quan
trọng cho nhiều ứng dụng khai phá dữ liệu nói chung và việ
c phát hiện
phần tử ngoại lai nói riêng. Phân lớp dữ liệu có ý nghĩa làm tăng hiệu
quả đối với quá trình phát hiện phần tử ngoại lai khi chúng ta tiến
hành phân lớp dữ liệu thành các tập con mà trong mỗi tập con có
những đặc trưng riêng. Các phần tử ngoại lai trong từng tập khác nhau
sẽ có khả năng xuất hiện khác nhau. Có nhiều thuật toán dùng cho việc
xây dựng cây quyết định phân lớp. Chúng tôi giới thi
ệu một số phương
pháp và thuật toán phổ biến được sử dụng như ID3, C4.5 của R.
Quinlan (1990, 1993); phương pháp phân lớp dựa trên cây quyết định
và luật kết hợp của Bing Liu, Hsu, Ma (1998); phương pháp dựa trên
cây quyết định và phụ thuộc hàm xấp xỉ của Kwok-Wa Lam và Victor
C.S.Lee (2004). Trong Luận án chúng tôi đề xuất một số cải tiến đối
với các thuật toán này có ý nghĩa làm giảm khối lượng tính toán.
CHƯƠNG 2
PHÁT HIỆN PH
ẦN TỬ NGOẠI LAI TRONG
CƠ SỞ DỮ LIỆU QUAN HỆ
Đây là chương trọng tâm, trình bày những kết quả nghiên cứu
chính của Luận án. Các nội dung chính bao gồm:
1. Mô hình phát hiện phần tử ngoại lai dựa theo luật
Trong nội dung được trình bày chúng tôi đưa ra mô hình phát
hiện phần tử ngoại lai dựa theo luật (Rules – Based) trong CSDL quan
hệ. Các ràng buộc, qui tắc đối với CSDL quan hệ được đề cập ở đây có
nhiều loạ
i khác nhau bao gồm các luật qui định về sự phụ thuộc dữ
liệu: phụ thộc hàm, khoá đối với sơ đồ quan hệ hoặc file dữ liệu; phụ
thuộc tương quan giữa các thuộc tính; một hệ ràng buộc cho trước mà
7
các phần tử của tập dữ liệu phải tuân theo; các luật qui định về các
dạng chuẩn của sơ đồ quan hệ
2.Phần tử ngoại lai đối với phụ thuộc hàm, khóa của quan hệ
Khái niệm về phần tử ngoại lai đối với phụ thuộc hàm, khóa là
các khái niệm mới mà chúng tôi đưa ra cùng với việc giải quyết vấn đề
tìm các phần tử trong một bảng dữ
liệu vi phạm các điều kiện của phụ
thuộc hàm, khóa đối với một quan hệ. Hiện tượng vi phạm này cũng
thường xảy ra trong thực tế đối với quá trình cập nhật dữ liệu vào các
bảng dữ liệu sau khi một cơ sở dữ liệu đã được thiết kế xong (sai sót
hoặc cố tình khi cập nhật dữ liệu). Các hiện tượng này cần được phát
hiện và xử lý. Việc ứng dụng lý thuyết về phát hiện phần tử ngoại lai
đối với phụ thuộc hàm, khóa vào thực tế họat động kiểm toán được
chúng tôi trình bày chi tiết trong Chương 4.
Giả sử X→ Y là một phụ thuộc hàm được giả thiết đúng trên
quan hệ r. Những cặp phần tử (t
i
, t
j
) với t
i
, t
j
∈ r mà t
i
(X) = t
j
(X) nhưng
t
i
(X) ≠ t
j
(Y) được gọi là cặp ngoại lai đối với phụ thuộc hàm X→Y.
Cho bảng dữ liệu r được giả thiết là một quan hệ trên sơ đồ quan
hệ (R,F); B được giả thiết là tập các khoá của r. Cặp phần tử (t
i
, t
j
) với
t
i
, t
j
∈ r
(i ≠ j) là một cặp ngoại lai đối với khoá nếu như đối với một khoá K∈
B, ta có t
i
(K) = t
j
(K).
Theo qui ước bảng dữ liệu được giả thiết là một quan hệ thì
không thể có 2 bộ trùng nhau hoàn toàn, do vậy nếu có 2 bộ trùng nhau
trên khoá thì chúng có thể trùng nhau trên toàn bộ R tức chúng là ngoại
lai đối với quan hệ. Hoặc chúng không bằng nhau trên các thuộc tính
còn lại (R \ K). Như vậy chúng lại là cặp ngoại lai theo phụ thuộc hàm.
Hiện tượng này thường xảy ra trong thực tế do quá trình cập nhật dữ
liệu sai do cố ý hoặc không cố ý.
Trong kết quả nghiên cứu chúng tôi đưa ra và chứng minh Định
lý 2.1 và mệnh đề 2.1. về dấu hiệu nhận biết các cặp phần tử ngoại lai đối
với phụ thuộc hàm, khóa của một quan hệ r. Dấu hiệu nhận biết được dựa
8
trên việc tính toán hệ bằng nhau E
r
của quan hệ r được định nghĩa như
sau:
E
r
= { E
i,j
: 1≤ i < j ≤m , E
i,j
= {a ∈ R: t
i
(a) = t
j
(a)}}
- Định lý 2.1 (nhận biết cặp ngoại lai đối với phụ thuộc hàm)
Cho r là một bảng dữ liệu được giả thiết là một quan hệ trên sơ
đồ quan hệ (R, F); E
r
là hệ bằng nhau của r; X
→
Y là một phụ thuộc
hàm được giả thiết đúng trên r. Cặp phần tử (t
i
, t
j
) với t
i
, t
j
∈
r là cặp
ngoại lai đối với phụ thuộc hàm X
→
Y khi và chỉ khi E
i, j
∈
E
r
mà X
⊆
E
i,j
và Y
⊄
E
i,j
.
- Mệnh đề 2.1 (Nhận biết cặp ngoại lai theo khoá)
Cho bảng dữ liệu r được giả thiết là một quan hệ trên sơ đồ quan
hệ (R, F); B được giả thiết là tập các khoá của r; E
r
là hệ bằng nhau
của r. Khi đó nếu ta có E
i,j
∈
E
r
chứa một khoá K
∈
B nào đó (tức là K
⊆
E
i,j
) thì cặp phần tử (t
i
, t
j
) với t
i
, t
j
∈
r (tương ứng với E
i,j
) là một cặp
ngoại lai đối với khoá.
Các thuật toán được đề xuất:
-Thuật toán 1 -Xác định các cặp ngoại lai đối với phụ thuộc hàm.
-Thuật toán 2 - Xác định các cặp ngoại lai theo khoá
Phần tử ngoại lai đối với một số phụ thuộc hàm đặc biệt
Trong thực tế chúng ta thường gặp một số loại phụ thuộc hàm đặc
biệt như dạng bằ
ng nhau, dạng tỉ lệ mà ta có thể xác định chính xác các
phần tử ngoại lai (không chỉ ở dạng các cặp ngoại lai) Trong mục này
chúng tôi đưa ra khái niệm cũng như các thuật toán xác định phần tử
ngoại lai đối với một số phụ thuộc hàm dạng đặc biệt này mà chúng có
ý nghĩa trong giải quyết một số bài toán trong thực tế (kiểm tra việc
khai báo thuế phải nộp, kiểm tra định mức tiêu hao nguyên vậ
t liệu ).
các thuật toán được đề xuất:
- Thuật toán 3- Xác định phần tử ngoại lai đối với phụ thuộc hàm
dạng bằng nhau
9
- Thuật toán 4- Xác định phần tử ngoại lai đối với phụ thuộc hàm dạng tỉ
lệ
3. Phần tử ngoại lai đối với hệ ràng buộc dạng phụ thuộc hàm
Trong thực tế chúng ta gặp bài toán phải kiểm tra sự thoả mãn
một hệ ràng buộc dạng phụ thuộc hàm của các bộ giá trị của một quan
hệ cho trước. Các ràng buộc này thực chất là các luật kết h
ợp
(Associate rules) đã biết trước đối với một quan hệ nào đó. Việc phát
hiện những bộ của quan hệ không thoả mãn những luật kết hợp này có
ý nghĩa trong nhiều ứng dụng thực tế của hoạt động kiểm toán. Các
khái niệm và thuật toán được chúng tôi đưa ra trong Mục 2.5 Chương 2
nhằm giải quyết bài toán về phát hiện phần tử ngoại lai đối với một hệ
các luật kết hợp trong một quan hệ.
-Thuật toán 5- Xác định phần tử ngoại lai đối với hệ ràng buộc dạng
phụ thuộc hàm.
4. Phần tử ngoại lai đối với các dạng chuẩn
Trong thực tế sau khi một CSDL quan hệ được thiết kế xong, trong quá
trình cập nhật dữ liệu xảy ra hiện tượng các bảng dữ liệu có chứa
những bản ghi làm cho bảng dữ liệ
u không còn thỏa mãn điều kiện
dạng chuẩn được thiết kế. Hiện tượng này xuất hiện khi các bản ghi
(phần tử) được cập nhật sai. Ta sẽ gọi các phần tử này là các phần tử
ngoại lai của các dạng chuẩn. Việc phát hiện ra những bản ghi này để
xử lý có ý nghĩa làm sạch dữ liệu và chuẩn hóa một quan hệ, giúp cho
việc tiến hành khai thác dữ liệu được chính xác.
Các k
ết quả nghiên cứu của chúng tôi được trình bày trong mục
2.6, Chương 2 của Luận án. Trong nội dung chúng tôi trình bày khái
niệm và một số thuật toán để phát hiện các phần tử ngoại lai theo các
dạng chuẩn 2NF, 3NF, BCNF là các dạng chuẩn được dùng phổ biến
trong thiết kế CSDL. Để xây dựng thuật toán phát hiện phần tử ngoại
lai đối với các dạng chuẩn 3NF và BCNF chúng tôi sử dụng các dấu
hiệu nhận biết một quan hệ là
ở 3NF và BCNF đã được một số tác giả
đề xuất.
10
Để xây dựng thuật toán phát hiện ngoại lai đối với 2NF, trước hết
chúng tôi đưa ra thuật toán tìm tất cả các khóa có thể từ một phản khóa
(Thuật toán 6). Chúng tôi phát biểu và chứng minh Mệnh đề 2.2 về
điều kiện cần và đủ để một quan hệ ở dạng chuẩn 2NF. Trên cơ sở đó
chúng tôi đưa ra thuật toán để kiểm tra một quan hệ ở 2NF và phát hiện
các phần tử ngoại lai
đối với dạng chuẩn này.
Mệnh đề 2.2 (Điều kiện để quan hệ ở dạng 2NF)
Giả sử quan hệ r có tập bằng nhau M = {H
1
, H
2
, ,H
q
}; tập bằng
nhau cực đại M
r
= {M
1
, M
2
, M
p
}; F
n
là tập các thuộc tính thứ cấp. Đặt
G
r
= {C
i
: C
i
= M
i
- F
n
, M
i
∈ M}. Khi đó:
a) Nếu ∀ C
i
∈ G
r
mà C
i
+
= C
i
thì r ở dạng chuẩn 2NF.
b) Nếu với ∀C
i
mà C
i
+
≠ C
i
và giả sử K(i) là tập các khóa được tạo
thành từ các tập con của C
i
, khi đó:
- Nếu ∀K∈ K(i): (K ∩ C
i
)
+
∩ F
n
= ∅ thì r ở 2NF. Trong trường
hợp ngược lại thì r không ở 2NF.
- Nếu r được giả thiết là ở 2NF thì cặp t
u
, t
v
tương ứng với E
u,v
= H
sẽ là cặp ngoại lai đối với 2NF.
Các thuật toán được đề xuất:
Thuật toán 6- Tìm tất cả các khóa có thể từ một phản khóa
Thuật toán 7 - Xác định các cặp phần tử ngoại lai đối với dạng chuẩn
2NF
Thuật toán 8- Xác định các cặp ngoại lai đối với dạng chuẩn 3NF
Thuật toán 9- Xác định các cặp ngoại lai đối với dạng chuẩn BCNF
5. Phụ thuộ
c mạnh và phần tử ngoại lai
Phụ thuộc mạnh (Strong dependencies) được một số tác giả đề xuất
vào nghiên cứu, có ý nghĩa trong việc giải quyết nhiều bài toán thực tế.
Cho R là một tập hữu hạn không rỗng các thuộc tính, r = {t
1
, t
2
,
t
m
} là một quan hệ trên R và A, B ⊆ R. Ta nói rằng B phụ thuộc
mạnh vào A trên r, kí hiệu là
BA
S
⎯→⎯ nếu: ∀ t
i
, t
j
∈ r : nếu với mỗi a ∈
A mà t
1
(a) = t
2
(a) thì ta có ∀ b∈B: h
1
(b) = h
2
(b).
11
Các phụ thuộc mạnh cũng là các phụ thuộc hàm thông thường,
tuy nhiên chúng phản ánh mối phụ thuộc dữ liệu đặc biệt giữa một tập
thuộc tính này đối với một tập thuộc tính khác (chỉ cần có sự bằng
nhau trên một cặp giá trị của một thuộc tính bất kỳ của tập thuộc tính
này (tập xác định mạnh) cũng sẽ kéo theo sự bằng nhau của tất c
ả các
cặp giá trị thuộc tính trên tập thuộc tính kia (tập phụ thuộc mạnh). Việc
phân tích các hoạt động kinh tế, sản xuất kinh doanh, phát hiện các
hiện tượng bất thường (ngoại lai) dựa trên việc phân tích phụ thuộc
mạnh (mối quan hệ giữa những yếu tố có ảnh hưởng mạnh mang tính
quyết định đến nhau) đem lại hiệu quả tốt.
Các kết quả nghiên cứu củ
a các tác giả đi trước mới chỉ dừng lại
trong phạm vi họ các phụ thuộc mạnh và cũng chưa chỉ ra phương
pháp để xác định những phụ thuộc mạnh này.
Trong kết quả nghiên cứu của Luận án, chúng tôi làm rõ mối
quan hệ giữa họ các phụ thuộc mạnh và họ phụ thuộc hàm sinh ra nó,
đồng thời trình bày phương pháp xác định các phụ thuộc mạnh trong
một sơ đồ quan hệ
cũng như trong một quan hệ. Hệ tính chất T1- T3 có
ý nghĩa dùng để xác định các phụ thuộc mạnh trong một sơ đồ quan hệ
cũng như đối với một quan hệ.
Giả sử cho SĐQH (R, F). Kí hiệu F
+
là bao đóng của F (theo Hệ
tiên đề Amstrong). Kí hiệu S
+
là các phụ thuộc mạnh được sinh ra từ F
+
theo hệ tính chất sau:
T1) Với a
∈
R , Y
⊆
R nếu {a}
→
Y
∈
F
+
thì {a}
→
Y
∈
S
+
;
T2)
∀
A,B,C
⊆
R ta có CAB
S
⎯→⎯
∈
S
+
khi và chỉ khi CA
S
⎯→⎯
∈
S
+
và
CB
S
⎯→⎯
∈
S
+
;
T3)
∀
A,C,D
⊆
R ta có CDA
S
⎯→⎯
∈
S
+
khi và chỉ khi CA
S
⎯→⎯
∈
S
+
và
DA
S
⎯→⎯
∈
S
+
;
Trong kết quả nghiên cứu của mình, chúng tôi đưa ra và chứng
minh một số các định lý và mệnh đề sau:
-Định lý 2.2 (Tính đúng đắn và đầy đủ của hệ T1-T3)
Cho (R,F) là một SĐQH, F
+
là bao đóng của F khi đó:
12
1- Tập các phụ thuộc mạnh S
+
được sinh ra từ tập F
+
theo các tính
chất T1-T3 là một họ s trên R;
2- Nếu S' là tập tất cả các phụ thuộc mạnh
∈
F
+
và S
+
được sinh ra từ
F
+
theo T1-T3 thì S' = S
+
;
3- Nếu S
+
là một họ s các PTM trong F
+
thì S
+
thoả mãn các tính chất T1-
T3.
Hệ quả
a) Cho (R, F) và (R, G) là 2 SĐQH tương đương (F
+
= G
+
), khi đó các
họ phụ thuộc mạnh sinh ra từ F
+
và G
+
theo T1-T3
là như nhau.
b) Cho một quan hệ r xác định trên tập thuộc tính R khi đó ta có thể
xây dựng một họ s các phụ thuộc mạnh S
r
+
được sinh ra từ tập F
r
- các
phụ thuộc hàm đúng trên r theo T1-T3.
- Định lý 2.3 (Sự tồn tại họ PTH sinh ra họ phụ thuộc mạnh)
Cho R là một tập các thuộc tính, S
+
là một họ s các phụ thuộc
mạnh trên R. Có thể tìm được một họ f các phụ thuộc hàm (F
+
) trên R
mà S
+
sẽ được sinh ra từ F
+
theo các tính chất T1- T3.
- Mệnh đề 2.3 (sự tồn tại phụ thuộc mạnh)
Cho SĐQH (R, F). Khi đó điều kiện để tồn tại phụ thuộc mạnh
không tầm thường trên F
+
khi và chỉ khi tồn tại ít nhất một thuộc tính
a
∈
R sao cho a
+
≠
a
với a
+
là bao đóng của a.
Vì các phụ thuộc mạnh đều có thể suy dẫn từ các phụ thuộc mạnh
dạng đơn (vế trái và vế phải chỉ có một phần tử), căn cứ vào các định
lý và mệnh đề được đề xuất, chúng tôi xây dựng các thuật toán xác
định các phụ thuộc mạnh dạng đơn. Các thuật toán được đề xuất:
Thuật toán 10- xác định các phụ thuộc mạnh dạng
đơn trong một sơ
đồ quan hệ.
Thuật toán 11- xác định các phụ thuộc mạnh dạng đơn trong một quan
hệ cho trước.
Khái niệm phần tử ngoại lai đối với phụ thuộc mạnh được trình
bày trong Mục 2.7.6. Việc xác định phần tử ngoại lai đối với một phụ
13
thuộc mạnh được đưa về việc tìm phần tử ngoại lai đối với các phụ
thuộc hàm có vế trái chỉ có một phần tử còn vế phải là vế phải của phụ
thuộc hàm mạnh ban đầu. Thuật toán được đề xuất:
Thuật toán 12- Xác định các cặp phần tử ngoại lai đối với phụ thuộc
mạnh
Việc nghiên cứu phụ thuộc mạnh có nhi
ều ứng dụng trong hoạt
động kiểm toán việc phân tích các hoạt động kinh tế, tài chính và sản
xuất kinh doanh. Trong Chương 4 chúng tôi giới thiệu một số ứng
dụng này.
6. Phụ thuộc hàm xấp xỉ loại 2
Trong thực tế chúng ta thường gặp nhiều tập dữ liệu mà trong
chúng chứa một loại phụ thuộc xấp xỉ. Đó chính là sự phụ thuộc xấp xỉ
giữa những nhóm thuộ
c tính mặc dù giữa chúng không có sự thuộc
hàm theo kiểu bằng nhau tuyệt đối (theo cách định nghĩa phụ thuộc
hàm thông thường) mà có sự phụ thuộc xấp xỉ theo kiểu tương quan
hàm số (ví dụ phụ thuộc giữa giá trị sản phẩm được sản xuất với chi
phí về nguyên vật liệu dùng cho sản xuất). Trường hợp này xảy ra khá
nhiều và liên quan đến nhiều bài toán thực tế. Vì vậy khái niệm về
phụ
thuộc hàm xấp xỉ loại 2 mà chúng tôi đưa ra phục vụ cho việc phát hiện
những phụ thuộc hàm xấp xỉ kiểu tương quan hàm số. Để phân biệt với
khái niệm phụ thuộc hàm xấp xỉ của các tác giả trước đã đưa ra (một
phụ thuộc hàm xấp xỉ là một phụ thuộc hàm hầu như đúng trên r. Độ đo
được chọn là tỉ số gi
ữa các bản ghi không thoả luật với tống số các bản ghi
của r). phụ thuộc hàm xấp xỉ mà chúng tôi xây dựng được gọi là phụ
thuộc hàm xấp xỉ loại 2. Mặc dù khái niệm mà chúng tôi đưa ra chưa
bao quát được hết các loại phụ thuộc xấp xỉ trong quan hệ, tuy nhiên
trong phần nghiên cứu các tính chất của phụ thuộc hàm xấp xỉ loại 2,
chúng tôi chứng minh rằng khái niệm này bao hàm khái niệm về phụ
thuộc hàm thông thường (khi chọn mức xấp xỉ δ =0) và phản ánh mối
phụ thuộc mới trong quan hệ. Mặt khác, khái niệm này cũng đủ để ứng
dụng giải quyết nhiều bài toán trong lĩnh vực kiểm toán (vì rằng trong
các dữ liệu thông tin chủ yếu dùng cho kiểm toán thì các thuộc tính
14
trong các quan hệ thường được qui đổi thành giá trị bằng tiền - do vậy
việc áp dụng khái niệm phụ thuộc hàm xấp xỉ loại 2 vào phát hiện
những bất thường (ngoại lai) trong dữ liệu thông tin là hợp lý).
Cho r là một quan hệ trên tập thuộc tính R={A
1
,A
2
, A
n
} trong
đó các thuộc tính A
1
,A
2
, A
n
có thể là thuộc tính định danh
(categorical), rời rạc hoặc liên tục(trường số). Đối với những thuộc tính
định danh, tất cả các giá trị có thể được ánh xạ tới một tập các số
nguyên dương liền kề.
- Định nghĩa 2.12 (phụ thuộc hàm xấp xỉ loại 2)
Giả sử r là một quan hệ trên R. X, Y
⊆
R và với một số
δ
cho
trước , 0
≤
δ
< 1, ta nói rằng X xác định hàm Y mức
δ
(hoặc nói rằng
giữa X, Y có phụ thuộc hàm xấp xỉ loại 2 mức
δ
) trên r, ký hiệu là X
≈
>
δ
Y nếu với mọi cặp bộ t
1
, t
2
∈
r, mà
ρ
(t
1
(X), t
2
(X))
≤
δ
thì ta cũng có
ρ
(t
1
(Y), t
2
(Y))
≤
δ
.
Trong đó
ρ
(t
1
(X), t
2
(X))được gọi là khoảng cách giữa t
1
, t
2
trên X
và được xác định như sau:
ρ
(t
1
(X), t
2
(X)) = max (
⏐
t
1
(A
i
) - t
2
(A
i
)
⏐
/ max(
⏐
t
1
(A
i
⏐
,
⏐
t
2
(A
i
)
⏐
), A
i
∈
X );
- Hàm max(x,y) là hàm chọn ra số lớn nhất trong 2 số x,y;
- Trường hợp max(
⏐
t
1
(A
i
⏐
,
⏐
t
2
(A
i
)
⏐
) = 0, thì ta qui ước:
⏐
t
1
(A
i
) - t
2
(A
i
)
⏐
/ max(
⏐
t
1
(A
i
⏐
,
⏐
t
2
(A
i
)
⏐
) = 0
Trường hợp với δ = 0 thì X ≈>
δ
Y sẽ là một phụ thuộc hàm
thông thường.
- Tính chất của hàm khoảng cách
ρ
(t
1
(X), t
2
(X)):
a1.
ρ
(t
1
(X), t
2
(X)) ≥ 0 với t
1
, t
2
, X tùy ý
a2.
ρ
(t
1
(X), t
2
(X))= 0
⇔
t
1
(X)= t
2
(X)
a3.
ρ
(t
1
(X), t
2
(X))
≤
ρ
(t
1
(X), t
3
(X)) +
ρ
(t
3
(X), t
2
(X))
a4. Nếu X ⊆ Y thì
ρ
(t
1
(X), t
2
(X))
≤
ρ
(t
1
(Y), t
2
(Y))
a5.
ρ
(t
1
(XY), t
2
(XY)) = max (
ρ
(t
1
(X), t
2
(X)),
ρ
(t
1
(Y), t
2
(Y)))
- Một số tính chất của phụ thuộc hàm xấp xỉ loại 2:
15
1) Cho r là một quan hệ trên tập thuộc tính R. Một phụ thuộc hàm đúng
trên r cũng là phụ thuộc hàm xấp xỉ loại 2 với mức
δ
tùy ý (0
≤
δ
<1)
đúng trên r.
2) Cho r là một quan hệ trên R; X, Y
⊆
R;
δ
1,
δ
2 là hai số sao cho 0
≤
δ
1 <
δ
2 < 1. Kí hiệu X
≈
>
δ
1
Y và X
≈
>
δ
2
Y là hai phụ thuộc hàm xấp xỉ
loại 2 mức
δ
1 và mức
δ
2 giữa X và Y trên r , khi đó nếu X
≈
>
δ
1
Y đúng
trên r thì X
≈
>
δ
2
Y cũng đúng trên r.
3) (tính phản xạ): Nếu Y
⊆
X khi đó X
≈
>
δ
Y là phụ thuộc hàm xấp xỉ
loại 2 với mức
δ
tùy ý (0
≤
δ
<1).
4) (tính bắc cầu):Nếu X
≈
>
δ
Y và Y
≈
>
δ
Z thì X
≈
>
δ
Z
5) (tính gia tăng): Với mọi X, Y, Z
⊆
R và mức
δ
nào đó, nếu X
≈
>
δ
Y thì
XZ
≈
>
δ
YZ
Khái niệm về phần tử ngoại lai đối với phụ thuộc hàm xấp xỉ loại
2 được đưa ra để chỉ cặp phần tử không thỏa mãn điều kiện của phụ
thuộc hàm xấp xỉ. Việc phát hiện phần tử ngoại lai đối với phụ thuộc
hàm xấp xỉ loại 2 được ứng dụng trong việc phân tích phát hiện hiện
tượng bấ
t thường trong sản xuất kinh doanh và quản lý tài chính.
Giả sử cho r= {t
1
, t
2
, t
m
} là một quan hệ trên tập thuộc tính R và
một số δ cho trước (0 ≤ δ < 1).
Kí hiệu E
r
δ
là hệ xấp xỉ mức δ của r được xây dựng như sau:
E
r
δ
= { E(δ)
i,j
= {a : ⎜t
i
(a)-t
j
(a) ⎜/ max(⎜t
i
(a)⎜, ⎜t
j
(a)⎜) ≤ δ ; a ∈ R}; t
i
, t
j
∈ r ; 1≤ i < j ≤ m}
- Mệnh đề 2.4 (Điều kiện để quan hệ thỏa phụ thuộc hàm xấp xỉ loại 2)
Giả sử cho r= {t
1
, t
2
, t
m
} là một quan hệ trên tập thuộc tính R
và X,Y
⊆
R, với một số
δ
cho trước (0
≤
δ
< 1); E
r
δ
là hệ xấp xỉ mức
δ
của r. Quan hệ r thỏa phụ thuộc hàm xấp xỉ loại 2 mức
δ
: X
≈
>
δ
Y khi và
chỉ khi:
∀
E(
δ
)
i,j
∈
E
r
δ
: (X
⊆
E(
δ
)
i,j
)
⇒
(Y
⊆
E(
δ
)
i,j
)
- Mệnh đề 2.5 (Nhận biết cặp ngoại lai đối với phụ thuộc hàm xấp xỉ loại
2)
16
Cho quan hệ r;
δ
là một số thực (0
≤
δ
< 1) và tập E
r
δ
là hệ xấp
xỉ mức
δ
của r; X
≈
>
δ
Y là phụ thuộc hàm xấp xỉ loại 2 mức
δ
xác định
trên r. Khi đó một cặp phần tử (t
i
, t
j
) với t
i
, t
j
∈
r, là cặp ngoại lai đối
với X
≈
>
δ
Y khi và chỉ khi X ⊆ E(δ)
i,j
và Y ⊄ E(
δ
)
i,j
với E(
δ
)
i,j
là phần
tử thuộc E
r
δ
tương ứng với cặp (t
i
, t
j
).
Dựa trên các mệnh đề này, ta có các thuật toán sau được xây
dựng:
-Thuật toán 15 - Kiểm tra một quan hệ thỏa phụ thuộc hàm xấp xỉ loại
2.
-Thuật toán 16 - xác định phần tử ngoại lai đối với phụ thuộc hàm
xấp xỉ loại 2.
Phát hiện phần tử ngoại lai bằng phân tích hồi qui
Trong trường hợp trong quan hệ, có phụ thuộc hàm xấp xỉ loại 2
có thể biểu diễ
n thông qua hàm hồi qui, chúng tôi xây dựng mô hình
xác định phần tử ngoại lai bằng phân tích hồi qui và giới thiệu chi tiết
thuật toán trong trường hợp hồi qui tuyến tính (xem mục 2.8.6, Chương
2 của Luận án).
Mô hình phát hiện phần tử ngoại lai nhờ phân tích hồi qui đã
được chúng tôi áp dụng thử nghiệm để phát hiện hiện tượng bất thường
trong hoạt động sản xuất kinh doanh của các doanh nghiệp thông qua
dữ liệu báo cáo tài chính của doanh nghiệp, trong ho
ạt động kiểm toán
tại Kiểm toán Nhà nước (xem Mục 4.2 Chương 4 Luận án).
CHƯƠNG 3
CÂY QUYẾT ĐỊNH VÀ CHỌN MẪU XÁC ĐỊNH NGOẠI LAI
Phân lớp dữ liệu là một phương pháp quan trọng cho nhiều ứng
dụng khai thác dữ liệu nói chung và việc phát hiện phần tử ngoại lai
nói riêng. Việc phát hiện các phần tử ngoại lai trong một tập dữ liệu sẽ
hiệu quả hơn nếu chúng ta có khả
năng tiến hành phân lớp tập dữ liệu
thành các tập con mà trong mỗi tập con có những đặc trưng riêng. Các
thuật toán phân lớp bằng cây quyết định (Classification Decision
17
Trees) được dùng phổ biến trong các kỹ thuật phân lớp. Thuật toán
ID3, C4.5 (Quilan - 1990, 1993) được coi là điển hình cho thuật toán
phân lớp bằng cây quyết định. Thuật toán phân lớp dựa trên cây quyết
định và luật kết hợp của Bing Liu, Hsu, Ma (1998); Thuật toán phân
lớp dựa trên cây quyết định và phụ thuộc hàm xấp xỉ của Kwok-Wa
Lam và Victor C.S.Lee (2004) đã có những cải tiến so với các thuật
toán truyền thống. Các thuật toán này dựa trên việc phân tích một tập
m
ẫu học (Training set) có dạng bảng quan hệ và tạo ra một cây quyết
định dùng để phân lớp. Tuy nhiên các thuật toán này thường có những
hạn chế khi số các thuộc tính và số bản ghi của tập mẫu học là lớn thì
số phép toán cần thực hiện là rất lớn và việc duyệt nhiều lần trên tập
mẫu học. Trong Luận án để xuất việc cải tiến các thuật toán nói trên
với mục đích giả
m số lượng thuộc tính được đưa vào xây dựng cây
quyết định và giảm số lần duyệt trên tập mẫu học.
Trong thực tế, các hoạt động kiểm tra để phát hiện sai sót, gian
lận (hiện tượng ngoại lai) trong lĩnh vực kiểm toán, quản lý tài chính
nhiều khi cần phải thực hiện việc kiểm tra bằng thủ công và thực hiện
trên những mẫu đại diện của tập dữ
liệu tổng thể liên quan đến việc
chọn mẫu để phát hiện phần tử ngoại lai. Tuy nhiên trong các kết quả
nghiên cứu trước đây về phần tử ngoại lai thì việc lấy mẫu chưa được
đặt ra. Trong nội dung của Luận án, chúng tôi đề xuất một số phương
pháp lấy mẫu để phát hiện phần tử ngoại lai có ý nghĩa trong việc áp
dụng vào họat động kiểm toán mà s
ẽ được trình bày trong Chương 4.
Các kết quả nghiên cứu, bao gồm:
1. Xây dựng cây quyết định dựa trên khoá của quan hệ
Trong kết quả nghiên cứu của mình chúng tôi đưa ra phương
pháp xây dựng cây phân lớp dựa trên khoá (siêu khóa) của tập mẫu học
có ý nghĩa giảm khối lượng tính toán bằng việc giảm số lượng thuộc
tính được xét.
Giả sử D là tập mẫu học (Training set) là một quan hệ trên lược
đồ R(a
1
, a
2
, , a
n
, C) với a
1
, a
2
, , a
n
là các thuộc tính không phân lớp,
C là thuộc tính phân lớp. Giả sử K là một khoá (hoặc một siêu khóa) và
18
không chứa thuộc tính phân lớp của D. Không mất tổng quát ta giả sử
K= {a
1
, a
2
, , a
s
} với s ≤ n.
Ta xét tập mẫu học D
k
là một quan hệ trên lược đồ R
k
(a
1
, a
2
, , a
s
,
C). Gọi D
k
là tập mẫu học khóa. Gọi T là cây phân lớp với tập mẫu học
D
k
. Chúng tôi phát biểu và chứng minh mệnh đề sau làm cơ sở cho
việc cải tiến thuật toán.
- Mệnh đề 3.1. Cây phân lớp T được xây dựng trên tập mẫu học khoá
D
k
phân lớp chính xác D
k
thì cũng phân lớp chính xác tập mẫu học D.
Khi thực hiện xây dựng cây quyết định (trong ID3, C4.5) thay
cho việc xét toàn bộ tập D thì tiến hành thực hiện xây dựng cây phân
lớp với tập mẫu học khóa D
k
. Do số thuộc tính trong tập khóa nhỏ hơn
hoặc cùng lắm là bằng R do vậy khối lượng tính toán sẽ được giảm bớt,
đặc biệt với việc chọn được khóa (siêu khóa) phù hợp (Trong cải tiến
nói trên khi lựa chọn được khóa thì theo yêu cầu phân lớp, ta có thể
thêm một số thuộc tính vào khóa để có một siêu khóa phù hợp với mục
đích phân lớp).
2. Thuật toán tìm luật kết hợp phân lớp
Các thuật toán phân lớp s
ử dụng cây quyết định và luật kết hợp
tạo ra cây quyết định mà các nút là các thuộc tính hợp. Các thuật toán
này, cần thực hiện bước tìm các luật phân lớp phổ biến của tập mẫu
học, đây là bước phải tính toán nhiều nhất. Các thuật toán tìm luật kết
hợp phân lớp tạo ra tất cả các luật phổ biến và chính xác (thoả mãn
điều kiện Minsup và Minconfd) bằng việ
c duyệt nhiều lần trên tập dữ
liệu. Trong mỗi một chu trình con duyệt, nó bắt đầu với tập hạt giống
của các mục luật là phổ biến trong mục duyệt trước. Từ tập hợp các
mục luật phổ biến này nó tạo ra luật phân lớp (CAR - Class
Association Rules). Trong các thuật toán trên phải nhiều lần duyệt tập
D với tất cả các phần tử và cần nhiều phép tính so sánh, độ phứ
c tạp
tính toán là O(n.m
2
).
Nội dung cải tiến của thuật toán tìm luật kết hợp phân lớp mà
chúng tôi đưa ra, trước hết đi tìm các luật kết hợp phân lớp có 2 phần
tử bằng cách xây dựng hệ bằng nhau của tập mẫu học. Sau đó sẽ đi xác
19
định các luật kết hợp phân lớp thoả mãn điều kiện minsup, và
minconfd. Thuật toán cũng có độ phức tạp tính toán là O(n.m
2
) nhưng
giảm được 1/2 số lượng phép toán (chi tiết xem Mục 3.2, Chương 3
của Luận án).
3. Mô hình chọn mẫu thống kê để xác định ngoại lai
Thông thường để phát hiện phần tử ngoại lai trong một tập dữ
liệu cần tiến hành duyệt toàn bộ các phần tử trong tập dữ liệu để kiểm
tra. Trong nhiều trường hợp người ta phải xét tới từng trường hợp cụ
thể và phải tiến hành kiểm tra bằng phương pháp thủ công. Việc tiến
hành kiểm tra bằng thủ công thường sẽ mất rất nhiều công sức và thời
gian. Trường hợp số lượng các phần tử trong tập dữ liệu quá lớn người
ta chỉ có thể kiểm tra được bằng những mẫu đại diện. Điều này dẫn đến
khả năng bỏ sót những phần t
ử ngoại lai và kết luận suy cho tập tổng
thể thiếu chính xác. Do vậy dẫn đến việc cần phải đưa ra những
phương pháp lấy mẫu phát hiện ngoại lai đảm bảo yêu cầu những
trường hợp ngoại lai bị bỏ sót không gây nên ảnh hưởng lớn đến kết
luận tổng thể về tập dữ liệu. Đây cũng là bài toán quan trọng trong lĩnh
vực kiểm toán (trong ki
ểm toán việc lấy mẫu kiểm toán đảm bảo rằng
những sai sót, gian lận bị bỏ sót không gây nên những sai lệch mang
tính trọng yếu) cần giải quyết nhằm giảm được chi phí kiểm toán đồng
thời đạt được yêu cầu là những kết luận kiểm toán (liên quan đến
những gian lận và sai sót phát hiện được) đủ độ chính xác và độ tin
cậy. Vấn đề chọn mẫu để phát hiện ngoại lai tr
ước đó chưa được đề
cập.
Trong Luận án chúng tôi trình bày phương pháp chọn mẫu ngẫu
nhiên để phát hiện phần tử ngoại lai trên cơ sở đảm bảo độ chính xác
và độ tin cậy cho trước. Các phương pháp mà chúng tôi đưa ra chủ yếu
là việc áp dụng các phương pháp lấy mẫu trong thống kê toán học vào
các mô hình xác định phần tử ngoại lai trên mẫu được chọn.
Hai phương pháp chọn mẫu được đề xu
ất đó là:
20
- Xác định kích thước mẫu (lấy mẫu ngẫu nhiên) sao cho tỉ lệ
phần tử ngoại lai trong mẫu sai lệch với tỉ lệ ngoại lai trong tổng thể
không vượt quá một số ε cho trước với độ tin cậy γ cho trước.
- Xác định kích thước mẫu sao cho tổng giá trị của một tiêu thức
trong mẫu sai lệch với tổng giá trị trong tổng thể không vượt quá một
số
ε cho trước với độ tin cậy γ cho trước.
Hai phương pháp này cũng được ứng dụng trong việc chọn mẫu
kiểm toán (nội dung của ứng dụng được chúng tôi trình bày trong
Chương 4 của Luận án).
CHƯƠNG 4
ỨNG DỤNG VÀO THỰC TẾ HOẠT ĐỘNG KIỂM TOÁN
Trong nội dung của chương, chúng tôi giới thiệu một số ứng
dụng các kết quả nghiên cứu của mình vào hoạt độ
ng kiểm toán thông
qua việc phân tích các cơ sở dữ liệu dạng quan hệ. Trong lĩnh vực quản
lý tài chính, và kiểm toán nhà nước việc phát hiện các hiện tượng sai
sót và gian lận trong các nghiệp vụ kinh tế phát sinh thông qua các dữ
liệu thông tin từ các báo cáo tài chính của các cơ quan đơn vị sử dụng
ngân sách nhà nước là hết sức quan trọng. Việc phát hiện này giúp cho
Nhà nước xử lý những hiện tượng tiêu cực thu hồi lại những tài sản bị
đánh cắp, ngăn chặn việc sử dụng lạng phí, làm thất thoát tài sản công.
Từ trước đến nay kiểm toán viên của Kiểm toán Nhà nước thực hiện
công việc của mình chủ yếu bằng thủ công. Để đáp ứng được yêu cầu
phát triển thì các hoạt động kiểm toán cần được tin học hoá. Công việc
này đòi hỏi có các phương pháp, thuật toán tin học để xây dựng các
phần mềm trợ giúp cho các ho
ạt động kiểm toán này. Các thuật toán,
phương pháp được trình bày trong Luận án được dùng để phục vụ mục
đích nói trên.
Các hiện tượng sai sót, gian lận có thể được phát hiện ra bằng sử
dụng các phương pháp phát hiện các phần tử ngoại lai theo luật trong
dữ liệu báo cáo tài chính (chủ yếu ở dạng CSDL quan hệ) mà đã được
chúng tôi nghiên cứu và trình bày trong các Chương 2, Chương 3.
21
Các ứng dụng được nghiên cứu áp dụng bao gồm:
- Phát hiện sai sót gian lận trong kê khai thuế và chi phí nguyên
vật liệu. Phương pháp dựa trên kết quả nghiên cứu về phát hiện phần tử
ngoại lai đối với phụ thuộc hàm và hệ ràng buộc (Mục 4.2.1 Chương
4).
- Phát hiện sự bất thường trong sản xuất kinh doanh (Mục 4.2.2,
Chương 4).
Khi trong dữ liệu báo cáo của doanh nghiệp phản ánh quá trình
sản xuất kinh doanh có sự tương quan hàm s
ố giữa các thuộc tính (phụ
thuộc hàm xấp xỉ loại 2) thì những số liệu phá vỡ sự tương quan, phản
ánh sự bất thường trong số liệu báo cáo. Chúng chứa đựng những sai
sót, gian lận trong đó. Những số liệu đó phải được tách riêng ra để
kiểm tra kỹ hơn. Phương pháp được sử dụng là phương pháp phát hiện
phần tử ngoại lai nhờ phân tích hồi qui được giới thi
ệu ở Chương 2.
- Phát hiện các chứng từ không hợp lệ. Các chứng từ không hợp
lệ là những chứng từ không được ghi chép theo đúng qui định của
nguyên tắc kế toán và chứa đựng những sai sót, gian lận. Thuật toán
phát hiện phần tử ngoại lai đối với khoá được dùng để phát hiện những
chứng từ trùng nhau. Thuật toán phát hiện phần tử ngoại lai đối với hệ
ràng buộc đượ
c dùng để phát hiện những chứng từ định khoản sai.
- Ứng dụng cây quyết định trong việc xác định rủi ro kiểm toán.
Trong hoạt động kiểm toán, khái niệm rủi ro kiểm toán để chỉ khả năng
người kiểm toán viên bỏ sót, hoặc kết luận sai về số liệu, thông tin tài
chính được kiểm toán. Việc đánh giá được mức rủi ro kiểm toán sẽ
giúp cho người kiểm toán viên định hướng, lự
a chọn phương pháp
kiểm toán thích hợp để giảm thiểu rủi ro. Trong thực tế hiện nay ở
Kiểm toán nhà nước (KTNN), việc xác định rủi ro kiểm toán được thực
hiện bằng phương pháp thủ công và phụ thuộc rất nhiều vào kinh
nghiệm và trình độ của người kiểm toán viên. Phương pháp xác định
rủi ro kiểm toán mà chúng tôi đưa ra là sử dụng phương pháp xây dựng
cây quyết định phân lớp. Phương pháp này có thể làm c
ơ sở cho việc
22
viết các chương trình xác định rủi ro kiểm toán mà trong tương lai
KTNN sẽ thực hiện.
- Ứng dụng lấy mẫu kiểm toán. Trong những trường hợp khi dữ
liệu thông tin cần kiểm tra quá lớn, không có điều kiện để kiểm tra toàn
bộ tổng thể, người kiểm toán viên sẽ tiến hành lấy mẫu để thực hiện
kiểm toán (kích thước mẫu nhỏ hơn tổng thể). Tuy nhiên, hiện nay các
ki
ểm toán viên chưa có một phương pháp cụ thể để tiến hành chọn mẫu
kiểm toán do vậy việc chọn mẫu thường là tuỳ tiện. Một số phương
pháp chọn mẫu kiểm toán được đề xuất dựa trên kết quả của Mục 3.3,
Chương 3 của Luận án.
- Ứng dụng phụ thuộc hàm mạnh vào phân tích hoạt động sản
xuất kinh doanh. Trong sản xuất kinh doanh chúng ta thấy có nhiều y
ếu
tố có quan hệ với nhau. Có những mối quan hệ phản ánh sự phụ thuộc
mạnh giữa các yếu tố (sự thay đổi của yếu tố này ảnh hưởng mạnh
hoặc quyết định đến yếu tố kia). Ví dụ trong tập dữ liệu phản ánh về
khối lượng (giá trị) sản phẩm được sản xuất với các khối lượng (giá trị)
các nguyên vật li
ệu tham gia vào quá trình sản xuất (có các định mức
qui định) thì mối quan hệ (phụ thuộc) giữa khối lượng sản phẩm được
sản xuất và khối lượng từng loại nguyên vật liệu là các phụ thuộc
mạnh. Việc phân tích kết quả hoạt động SXKD dựa trên việc phân tích
sự phụ thuộc mạnh giữa các yếu tố trong SXKD giúp cho kiểm toán
viên đánh giá được tình hình của hoạt động sản xu
ất kinh doanh
(SXKD) và các nguyên nhân chính ảnh hưởng đến kết quả của hoạt
động SXKD, từ đó giúp cho việc xác định được mục tiêu và nội dung
kiểm toán chính xác hơn.
KẾT L UẬN
Việc tổ chức các cơ sở dữ liệu, xử lý dữ liệu (mà chủ yếu là xử lý
các file dữ liệu), trao đổi thông tin là những công việc chính của những
bài toán ứng dụng công nghệ thông tin vào thực tế. Các nội dung công
việ
c này được thực hiện dựa trên những lý thuyết của công nghệ thông
tin về tổ chức quản lý cơ sở dữ liệu, xử lý trao đổi thông tin, phân tích