Audit Database - Kiểm toán cơ sở dữ liệu - Phát hiện các mẫu truy cập bất thường trong cơ sở dữ liệu quan hệ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (483.82 KB, 34 trang )

NHẬN XÉT CỦA GIÁO VIÊN

..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................

..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................
..............................................................................................................................

MỤC LỤC

Trang
Nhận xét của giáo viên....................................................................................1
Mục lục............................................................................................................2
Danh mục các hình vẽ.....................................................................................3
Lời nói đầu......................................................................................................4
1. Giới thiệu ....................................................................................................5
1.1. Methodology( Phương pháp).........................................................6
1.2. System architecture( Kiến trúc hệ thống).......................................8
1.3. Related work( công việc liên quan)...............................................9
1.4. Paper roadmap (lộ trình phát triển)..............................................11
2. Trình bày dữ liệu.......................................................................................12
3. Vai Trò Phát Hiện Bất Thường.................................................................16
3.1. Phân Loại.....................................................................................16
3.2. Thử Nghiệm Đánh Giá.................................................................19
3.2.1. Tập hợp dữ liệu.................................................................20
3.3. Kết quả.........................................................................................21
4. Phát hiện những dị thường không bị giám sát...........................................24
4.1. Hàm khoảng cách.........................................................................26
4.2. Thuật toán nhóm cụm...................................................................27
4.2.1. k-centers............................................................................27
4.2.2. k-means.............................................................................28

4.3. Phương pháp phát hiện các bất thường........................................29
4.4. Đánh giá thử nghiệm....................................................................30
Kết Luận........................................................................................................34

2

2

DANH MỤC CÁC HÌNH VẼ, BẢNG
Danh mục các hình vẽ

Trang

Hình 1. Tổng quan về quá trình ID.

7

Bảng 1. Ví dụ xây dựng Quiplet.

16

Hình 2. Zipf phân phối cho mẫu N = 10.

19

Hình 3. Hình 3: Tập dữ liệu 2: Mô tả vai trò.

22

Bảng 2. Dữ liệu thực tế: Tỉ lệ xác thực sai và từ chối sai.

23

Hình 4. Dữ liệu thực tế: Tỉ lệ xác thực sai và từ chối sai.

25

Hình 5. Dữ liệu thực tế: Tỉ lệ xác thực sai và từ chối sai.

25

Hình 6. Tập dữ liệu không được giám sát: Thuật toán k-means
- Tỉ lệ xác thực sai và từ chối sai về phương thức phát hiện
Naive Bayes.
Hình 7. Tập dữ liệu không được giám sát: Thuật toán k-centers
- Tỉ lệ xác thực sai và từ chối sai về phương thức phát hiện
Naive Bayes.
Hình 8. Tập dữ liệu không được giám sát: Thuật toán k-means
- Tỉ lệ xác thực sai và từ chối sai về phương thức phát hiện
ngoại tuyến.
Hình 9. Tập dữ liệu không được giám sát: Thuật toán k-centers
- Tỉ lệ xác thực sai và từ chối sai về phương thức phát hiện
ngoại tuyến.
Hình 10. Tập dữ liệu không được giám sát: Tỉ lệ xác chối sai
về phương thức phát hiện ngoại tuyến với xâm nhập truy vấn
từ phân bố xác suất khác nhau.

31

3

31
33
32
33

3

Lời Nói Đầu
Những nỗ lực đáng kể gần đây dành cho sự phát triển của hệ thống quản
lý cơ sở dữ liệu (DBMS)nhằm đảm bảo an ninh tốt hơn . Một phần quan trọng
của bất kì giải pháp bảo mật mạnh mẽ nào là Intrusion Detection (ID), nó có
thể phát hiện hành vi bất thường của các ứng dụng và người dùng. Ngày nay
có rất ít các cơ chế ID đề xuất các thiết kế đặc biệt để hoạt động trong các
DBMS. Trong bài báo này, chúng tôi đề xuất một cơ chế như vậy. Phương
pháp tiếp cận của chúng tôi là dựa trên khai thác truy vấn SQL được lưu trữ
trong tập tin đăng nhập của cơ sở dữ liệu kiểm toán. Kết quả của quá trình khai
thác tài nguyên được sử dụng để tạo ra các cấu hình có thể mô hình hành vi
bình thường truy cập cơ sở dữ liệu và xác định những kẻ xâm nhập. Chúng tôi
xem xét hai kịch bản để giải quyết vấn đề. Trong trường hợp đầu tiên , chúng
tôi giả định rằng cơ sở dữ liệu có một Role Based Access Control (RBAC) mô
hình tại chỗ. Ở dưới một hệ thống RBAC cho phép được liên kết với các vai
trò, nhóm nhiều người dùng, hơn là với những người dùng duy nhất. Một lợi
ích quan trọng của việc cung cấp một kỹ thuật ID cụ thể phù hợp với cơ sở dữ
liệu RBAC là nó có thể giúp bảo vệ chống lại các mối đe dọa nội bộ. Hơn nữa,
sự tồn tại của vai trò làm cho việc dùng phương pháp tiếp cận của chúng tôi có
thể dùng cả với các cơ sở dữ liệu với lượng người dùng lớn. Trong kịch bản
thứ hai , chúng tôi giả định rằng không có vai trò liên quan đến người sử dụng

cơ sở dữ liệu. Trong trường hợp này, chúng ta nhìn trực tiếp vào các hành vi
của người dùng. Chúng tôi sử dụng các thuật toán phân nhóm để tạo thành các
hồ sơ ngắn gọn đại diện cho hành vi người dùng bình thường. Để phát hiện,
chúng tôi sử dụng các cụm cấu hình như vai trò hoặc sử dụng kỹ thuật phát
hiện outlier để xác định hành vi lệch từ các cấu hình. Thử nghiệm đánh giá sơ
bộ của chúng tôi trên cả hai cơ sở dữ liệu thực tế và tổng hợp các dấu vết cho
thấy phương pháp của chúng tôi làm việc tốt trong các tình huống thực tế.
Trong quá trình thực hiện đề tài nhóm em không khỏi mắc phải thiếu sót.
Mong thầy đóng góp ý kiến để chúng em có thể hoàn thiện tốt hơn trong
những đề tài sau này.
Em xin chân thành cảm ơn!
Sinh viên thực hiện:

Hà văn Trường
Nguyễn việt Long
La Khắc Điệp
Đỗ văn Tiền
Nguyễn như Tỉnh
4

4

Kiểm toán cơ sở dữ liệu Phát hiện các mẫu truy cập bất thường
trong cơ sở dữ liệu quan hệ
1. Giới thiệu
Ngày nay, dữ liệu là một tài sản quan trọng cho các công ty và tổ chức.
Có những dữ liệu trị giá hàng triệu USD và các tổ chức cần phải rất cần thần
trong việc kiểm soát truy cập vào các dữ liệu, đối với cả người dùng bên trong
tổ chức và người dùng bên ngoài. Bảo mật dữ liệu cũng rất quan trọng khi giải

quyết các vấn đề liên quan đến sự riêng tư của dữ liệu liên quan đến cá nhân.
các công ty và tổ chức quản lý dữ liệu như vậy cần phải cung cấp đảm bảo
mạnh mẽ về tính bảo mật của những dữ liệu này để thực hiện theo quy định của
pháp luật và chính sách. Nhìn chung, bảo mật dữ liệu có vai trò trung tâm trong
bối cảnh lớn hơn của hệ thống an toàn thông tin. Vì vậy , sự phát triển của
Database Management Systems (DBMS) với đảm bảo an toàn cao là một vấn
đề nghiên cứu trọng tâm. Sự phát triển của các DBMS yêu cầu 1 phiên bản về
kiến trúc và công nghệ được thông qua bởi DBMS truyền thống. Một phần
quan trọng của thế hệ mới này security-aware DBMS là 1 cơ chế Intrusion
Detection (ID). Mặc dù DBMS cung cấp cơ chế kiểm soát truy cập, chỉ riêng
các cơ chế không đủ để đảm bảo an toàn dữ liệu. Chúng cần phải được bổ sung
bằng các cơ chế ID phù hợp , việc sử dụng các cơ chế như vậy là rất quan trọng
để bảo vệ chống lại các cuộc tấn công mạo danh và chống lại các mã độc hại
được nhúng vào trong các chương trình ứng dụng. Ngoài ra cơ chế ID có thể
giúp đỡ trong việc giải quyết các vấn đề của các mối đe dọa nội bộ, một vấn đề
ngày càng quan trọng trong các tổ chức hiện nay mà đã không đưa ra được
nhiều giải pháp. Tuy nhiên, mặc dù thực tế là xây dựng hệ thống ID cho các
mạng và hệ điều hành đã có một khu vực hoạt động nghiên cứu, đã có vài hệ
thống ID được thiết kế đặc biệt vào DBMS.
Mục tiêu của công trình nghiên cứu trong bài báo này là để giải quyết
nhu cầu đó bằng cách điều tra sự phát triển của một hệ thống ID DBMS cụ thể.
Có hai lý do chính thúc đẩy sự cần thiết của hệ thống ID. Đầu tiên là các hành
động được coi là độc hại cho một ứng dụng cơ sở dữ liệu không nhất thiết là
độc hại cho mạng hoặc hệ điều hành; do đó hệ thống ID thiết kế đặc biệt cho
sau này sẽ không có hiệu quả để bảo vệ cơ sở dữ liệu. Thứ hai, và phù hợp hơn,
là hệ thống ID được thiết kế cho các mạng và hệ điều hành không đủ để bảo vệ
cơ sở dữ liệu chống lại các mối đe dọa nội bộ, đó là một vấn đề quan trọng khi
5

5

giao dịch sự riêng tư. Có nhiều khó khăn hơn để bảo vệ chống lại các mối đe
dọa, vì chúng được xuất phát từ các đối tượng là người dùng hợp pháp của hệ
thống, và do đó có thể có quyền truy cập vào các dữ liệu và tài nguyên. Một
điểm bổ sung cần được làm rõ là chúng tôi không cung cấp một định nghĩa
chính thức về an ninh mà cơ chế ID 1 DBMS cụ thể phải đảm bảo. Tuy nhiên,
chúng tôi cho rằng một định nghĩa như vậy là cần thiết. Cụ thể hơn, một hệ
thống ID hoạt động ở cấp DBMS không chịu trách nhiệm để đảm bảo rằng các
yêu cầu bảo mật nhất định được bảo đảm. Đây là một trách nhiệm của các
thành phần khác trong cơ sở hạ tầng an ninh. Mục tiêu của hệ thống ID là để
xác định mô hình truy cập không mong muốn bởi người dùng có thẩm quyền
(và ứng dụng) và báo cáo với các bên liên quan, chẳng hạn như DataBase
Administrator (DBA) or the Site Security Officer (SSO). Hành động đáng ngờ
như vậy có thể là dấu hiệu của các cuộc tấn công có tổ chức của người sử dụng
được ủy quyền (các mối đe dọa nội bộ), hoặc trong một số trường hợp có thể
hữu ích để tiếp tục tinh chỉnh các yêu cầu an ninh ban đầu của hệ thống.

1.1. Methodology( Phương pháp)
Chìa khóa cơ bản của ý tưởng cách tiếp cận là xây dựng hồ sơ của hành
vi người dùng bình thường tương tác với một cơ sở dữ liệu. Chúng tôi dùng các
cấu hình để phát hiện các hành vi bất thường.Trong bối cảnh này, cách tiếp cận
của chúng tôi sẽ xem xét hai kịch bản ứng dụng khác nhau. Chúng tôi cho rằng
cơ sở dữ liệu có một Role Based Access Control (RBAC) mô hình tại chỗ.
Giấy phép được quy định cụ thể liên quan đến vai trò và không có liên quan
đến người dùng cá nhân. 1 hoặc nhiều vai trò được gán cho mỗi người dùng.
Hệ thống ID của chúng tôi xây dựng một hồ sơ cá nhân cho mỗi vai trò và có
thể xác định vai trò những kẻ xâm nhận, cá nhân trong khi đang nắm giữ một
vai trò cụ thể đi chệch khỏi hành vi bình thường của vai trò đó. Việc sử dụng
vai trò làm cho cách tiếp cận của chúng tôi có thể sử dụng ngay cả đối với các

cơ sở dữ liệu với một số đông người dùng. Quản lý một vài vai trò hiệu quả
hơn nhiều hơn so với quản lý nhiều người dùng cá nhân. Với liên quan đến ID,
bằng cách sử dụng vai trò đó có nghĩa là số lượng hồ sơ để xây dựng và duy trì
là nhỏ hơn nhiều hơn so với những người dùng cá nhân. RBAC đã được chuẩn
hóa.
Trong trường hợp thứ hai, chúng tôi giải quyết cùng một vấn đề điều
kiện DBMS mà không có bất kỳ định nghĩa vai trò. Đây là trường hợp cần phải
xem xét vì không phải tất cả các tổ chức phải tuân theo một mô hình RBAC
cho người dùng ủy quyền của cơ sở dữ liệu của họ. Trong bối cảnh như vậy,
mọi giao dịch có liên quan đến người sử dụng đã phát hành nó. Một phương
pháp tiếp cận cho ID trong thiết lập này sẽ xây dựng một hồ sơ khác nhau cho
mỗi người sử dụng. Đối với hệ thống với các cơ sở người dùng lớn một cách
tiếp cận như vậy sẽ cực kì kém hiệu quả. Hơn nữa, nhiều người dùng trong các
6

6

hệ thống chỉ thỉnh thoảng mới gửi các truy vấn dữ liệu. Trong trường hợp
người dùng hoạt động cao,hồ sơ sẽ phù hợp hơn, nếu người dùng không hoạt
động hồ sơ sẽ không phù hợp. Trong trường hợp đầu tiên, chúng ta sẽ thấy một
số lượng lớn các báo động sai, trong khi trường hợp thứ hai sẽ dẫn đến số
lượng lớn các báo động bị mất, báo động cần phải có được nâng lên. Chúng tôi
khắc phục những khó khăn này bằng cách xây dựng các nhóm người sử dụng
hồ sơ chỉ dựa trên những người sử dụng các giao dịch gửi đến cơ sở dữ liệu.
Do đó hồ sơ, chúng tôi xác định một sự bất thường như là một mô hình truy
cập lệch từ các cấu hình. Bài viết này nêu ra một giải pháp ID thiết kế đặc biệt
cho các hệ thống cơ sở dữ liệu, 2 vấn đề chúng ta giải quyết như sau: làm thế
nào để xây dựng và duy trì chính xác hồ sơ đại diện và nhất quán hành vi người
dùng. Dùng các hồ sơ như thế nào để thực hiện nhiệm vụ ID. Các giải pháp cho

cả hai vấn đề dựa trên việc sử dụng các dấu vết “intrusion free (xâm nhập miễn
phí)” cơ sở dữ liệu của bản ghi cơ sở dữ liệu log kiểm toán đại diện cho hành
vi người dùng bình thường. Tuy nhiên, những thông tin chứa trong các dấu vết
khác nhau tùy thuộc vào tình huống ứng dụng trong câu hỏi. Khi vai trò của
thông tin không tồn tại, vấn đề được chuyển đổi thành một vấn đề có giám sát.

Hình 1. Tổng quan về quá trình ID
Phân loại A được đào tạo bằng cách dùng một tập hợp các hồ sơ đào tạo
xâm nhập. Sau đó phân loại này được sử dụng để phát hiện các hành vi bất
thường. Ví dụ, nếu một người cho rằng để có một vai trò cụ thể trong khi phân
loại hành vi phân loại của họ mang vai trò khác, khi đó cảnh báo sẽ được nâng
lên. Mặt khác, đối với trường hợp không có thông tin về vai trò, chúng ta hình
thành giải pháp dựa trên kỹ thuật không được giám sát. Chúng tôi sử dụng các
thuật toán phân nhóm để xây dựng các nhóm người sử dụng. Những nhóm này
7

7

có thể giúp các DBA trong việc quyết định vai trò để xác định. Với mỗi người
dùng, chúng tôi duy trì các sơ đồ nhóm đại diện. Với giai đoạn ID, chúng tôi
chỉ định hai cách tiếp cận khác nhau. Phương pháp tiếp cận đầu tiên, chúng tôi
xử lý vấn đề theo cách thức tương tự như trường hợp giám sát với các nhóm
giống các lớp phân loại. Cách tiếp cận thứ hai, chúng tôi xử lý các giai đoạn
phát hiện. Khi đó, một báo động được nâng lên cho một truy vấn mới nếu nó
được đánh dấu như là một outlier đối với cụm đại diện. Thách thức chính trong
việc tấn công là có thể trích xuất các thông tin chính xác từ các dấu vết cơ sở
dữ liệu, hồ sơ chính xác có thể được xây dựng. Để giải quyết vấn đề này,
chúng tôi đưa một số đại diện cho các hồ sơ đăng nhập cơ sở dữ liệu, đặc trưng
bởi đặc tính khác nhau, tương ứng, bởi mức độ chính xác khác nhau. Bằng

cách sử dụng những đại diện chúng tôi giải quyết các kịch bản đầu tiên như là
một vấn đề phân loại và kịch bản thứ hai là một vấn đề phân nhóm.

1.2. System architecture (Kiến trúc hệ thống)
Kiến trúc của hệ thống bao gồm ba thành phần chính: thông thương cơ
chế DBMS xử lý quá trình thực hiện truy vấn, các tập tin đăng nhập cơ sở dữ
liệu kiểm toán và cơ chế ID. Các thành phần này tạo thành DBMS mới mở
rộng được tăng cường với một hệ điều hành độc lập ID ở cấp cơ sở dữ liệu.
Tổng quan về quá trình ID được thể hiện trong hình 1. Đầu tiên, chọn tính năng
chuyển đổi các truy vấn SQL thành một trong quiplet hình được hỗ trợ bởi cơ
chế ID(xem phần 2). Các công cụ phát hiện sau đó kiểm tra quiplet chống lại
các cấu hình hiện có và trình đánh giá của các truy vấn (bất thường hoặc không
bất thường) công cụ phản ứng. Các công cụ đáp ứng tham khảo một cơ sở
chính sách cơ chế phản ứng hiện ra một đáp ứng tùy thuộc vào sự đánh giá của
các truy vấn được gửi bởi các công cụ phát hiện. Một truy vấn bất thường có
thể không nhất thiết bao hàm một sự xâm nhập. Các thông tin và các chính
sách an ninh cũng phải được đưa vào tài khoản. Ví dụ, nếu người dùng đăng
nhập dưới vai trò thực hiện một số hoạt động đặc biệt để quản lý một trường
hợp khẩn cấp, cơ chế ID có thể được hướng dẫn để nâng báo động trong trường
hợp như vậy. Nếu kết quả đáp ứng quyết định để nâng cao một báo thức, một
số hành động để xử lý thealarm có thể được thực hiện. Các hành động phổ biến
nhất là gửi một cảnh báo cho người quản trị bảo mật. Tuy nhiên, hành động
khác là có thể (hình 1), chẳng hạn như vô hiệu hóa vai trò và ngắt kết nối người
sử dụng truy cập hoặc thả các truy vấn. Nếu bằng cách đánh giá, truy vấn
không phải là bất thường, kết quả đáp ứng chỉ đơn giản là cập nhật các bản ghi
kiểm toán cơ sở dữ liệu và các cấu hình với các thông tin truy vấn. Trước khi
phát hiện, các module sẽ tạo ra các hồ sơ cá nhân tạo ra các cấu hình ban đầu
từ một tập hợp các hồ sơ xâm nhập miễn phí từ cơ sở dữ liệu log kiểm tra.

1.3. Related work (Công việc liên quan)

8

8

Một số phương pháp tiếp cận đối phó với ID cho hệ điều hành và mạng
lưới đã được phát triển. Tuy nhiên chúng không đầy đủ để bảo vệ cơ sở dữ
liệu. Một mức độ trừu tượng cao và kiến trúc của một DBMS kết hợp với một
thành phần ID đã được đề xuất gần đây. Tuy nhiên, công việc này chủ yếu tập
trung về các giải pháp chung chung chứ không phải là đề xuất các phương
pháp tiếp cận thuật toán cụ thể. Cuối cùng, trong một phương pháp để ID được
mô tả là chỉ dùng cho các ứng dụng thời gian thực, chẳng hạn như giao dịch
chứng khoán được lập trình tương tác với một cơ sở dữ liệu. Ý tưởng chính
trong công việc này là để khai thác các thuộc tính thời gian thực của dữ liệu để
thực hiện nhiệm vụ ID. Kỹ thuật phát hiện bất thường để phát hiện các cuộc tấn
công vào các ứng dụng web đã được thảo luận bởi Vigna et al [15]. Ý tưởng
dựa trên phương pháp tiếp cận để phát hiện các tấn công SQL được đề xuất bởi
Valeur et al. [26]. Cơ sở của công việc này tương tự như việc chúng ta sử dụng
các kỹ thuật để phát hiện các cuộc tấn công SQL dựa trên cơ sở dữ liệu. Tuy
nhiên, phương pháp của họ tập trung vào việc phát hiện các cuộc tấn công
chống lại các cơ sở dữ liệu back-end được sử dụng bởi các ứng dụng dựa trên
web. Như vậy, kiến trúc của ID và các thuật toán phù hợp với bối cảnh đó.
Chúng tôi đề xuất cách tiếp cận 1 mục đích chung đối với phát hiện của các
mẫu truy cập bất thường trong một cơ sở dữ liệu được đại diện bởi các truy vấn
SQL gửi đến cơ sở dữ liệu. Một phát hiện bất thường hệ thống cơ sở dữ liệu
quan hệ được đề xuất bởi Spalka et al. [24 ]. Công trình này tập trung vào phát
hiện các bất thường trong một trạng thái cơ sở dữ liệu cụ thể được thể hiện bởi
các dữ liệu trong các mối quan hệ. Kỹ thuật đầu tiên họ sử dụng các chức năng
cơ bản thống kê để so sánh các giá trị tham khảo cho mối quan hệ thuộc tính
đang được theo dõi để phát hiện bất thường. Kỹ thuật thứ hai giới thiệu các

khái niệm về quan hệ ghi lại lịch sử thay đổi giá trị dữ liệu của các thuộc tính
giám sát giữa 2 hệ thống phát hiện bất thường. Công việc này bổ sung cho
công việc của chúng tôi vì nó tập trung vào các khía cạnh ngữ nghĩa của các
truy vấn SQL bằng cách phát hiện các trạng thái cơ sở dữ liệu bất thường đại
diện bởi các dữ liệu trong các mối quan hệ, trong khi chúng tôi tập trung vào
các khía cạnh cú pháp bằng cách phát hiện các mẫu truy cập bất thường trong 1
DBMS.
Một cách tiếp cận khác phù hợp hướng tới một cơ chế ID cơ sở dữ liệu
cụ thể là Hu et al. [13]. Họ đề xuất các cơ chế cho việc tìm kiếm các mối quan
hệ phụ thuộc dữ liệu giữa các giao dịch và sử dụng thông tin này để tìm bất
thường ẩn trong các bản ghi cơ sở dữ liệu. Nguyên nhân của phương pháp tiếp
cận của họ là như sau: nếu một mục dữ liệu được cập nhật, bản cập nhật này
không xảy ra một mình, nhưng được đi kèm với một tập hợp các sự kiện khác
cũng được đăng trong các tập tin ghi lưu cơ sở dữ liệu. Do đó, mỗi lần cập nhật
mục được đặc trưng bởi ba bộ: bộ đọc, bộ của các mục đã được đọc vì cập
nhật, bộ viết trước, thiết lập các hạng mục đã được viết trước khi cập nhật, và
9

9

tập hợp bài viết, tập hợp các mục đã được viết sau khi cập nhật và kết quả của
nó.Cách tiếp cận này xác định các giao dịch độc hại bằng cách so sánh những
bộ các bản cập nhật mục khác nhau.
Một cách tiếp cận nữalà khái niệm tương tự như chúng ta là một trong
những cơ sở hệ thống DEMIDS [7]. EMIDS là một phát hiện lạm dụng hệ
thống, phù hợp cho các hệ thống cơ sở dữ liệu quan hệ. Nó dùng dữ liệu đăng
nhập kiểm toán để lấy được hồ sơ mô tả mô hình điển hình truy cập của người
sử dụng cơ sở dữ liệu.Cần thiết một cách tiếp cận như vậy là giả định rằng các
mô hình truy cập của người sử dụng thường tạo thành một phạm vi hoạt động

trong đó bao gồm bộ các thuộc tính thường được tham chiếu cùng với một số
giá trị. DEMIDS giả sử kiến thức về cấu trúc và ngữ nghĩa dữ liệu được mã
hóa trong một lược đồ cơ sở dữ liệu nhất định.Các biện pháp từ xa sau đó được
sử dụng để hướng dẫn tìm kiếm cho các tập phổ biến mô tả phạm vi làm việc
của người sử dụng. Hạn chế của cách tiếp cận này là số lượng người sử dụng
cho một hệ thống cơ sở dữ liệu có thể khá lớn và duy trì (hoặc cập nhật) cấu
hình cho số lượng lớn người sử dụng rất khó. Hơn nữa, cách tiếp cận được sử
dụng bởi DEMIDS để xây dựng hồ sơ người dùng yêu cầu giả thiết về một cơ
sở dữ liệu nhất định giản đồ. Điều này có thể ảnh hưởng đến việc áp dụng của
phương pháp. Cách tiếp cận của chúng tôi là xây dựng hồ sơ bằng cách sử
dụng thông tin cú pháp từ các truy vấn SQL xuất hiện trong các bản ghi cơ sở
dữ liệu làm cho cách tiếp cận của chúng tôi tổng quát hơn. Lee et al.[18] là một
cách tiếp cận để phát hiện các truy cập cơ sở dữ liệu bất hợp pháp bằng vân tay
giao dịch. Đây là một công nghệ tóm tắt câu lệnh SQL vào dấu vân tay biểu
hiện thường nhỏ gọn. Hệ thống phát hiện xâm nhập bằng cách kết hợp các báo
cáo SQL mới với một tập dấu vân tay giao dịch hợp pháp cơ sở dữ liệu. Công
việc này có thể được phân loại như một hệ thống ID dựa trên khái niệm chữ ký
khác nhau từ phương pháp trên mà chúng tôi đề xuất trong bài báo này.
Ngoài các phương pháp tiếp cận trên, công việc trước đây của chúng tôi
về truy vấn [6] cũng có thể được mô tả như là một cơ chế ID DBMS cụ thể.
Tuy nhiên, công việc mà chúng tôi tập trung là việc xác định các loại hình cụ
thể của những kẻ xâm nhập, cụ thể là những người gây ra cuộc tấn công truy
vấn. Một người kĩ sư có thể dùng một cuộc tấn công cơ sở dữ liệu với các truy
vấn có thể làm cạn kiệt nguồn tài nguyên của DBMS làm cho nó không có khả
năng phục vụ người sử dụng hợp pháp. Cuối cùng, bài viết này mở rộng công
việc của chúng tôi theo hai hướng mới. Chúng tôi tăng cường biểu diễn của các
truy vấn SQL bằng cách lấy thông tin từ các truy vấn. Điều này có ích trong
việc phát hiện các bất thường củacác đặc tính trong các vị ngữ truy vấn được
sửa đổi mà không cần chạm vào các thuộc tính dự kiến. Hơn nữa, công việc
trước đây của chúng tôi là trường hợp mà trong đó vai trò thông tin có sẵn

trong kiểm toán cơ sở dữ liệu đăng nhập. Trong đó thiết lập các vấn đề của ID
đã được giảm xuống còn một vấn đề giám sát. Ở đây, chúng tôi cũng xem xét
10

10

các trường hợp, trong đó vai trò thông tin không có sẵn trong các bản ghi cơ sở
dữ liệu. Đây là một phần mở rộng quan trọng bởi vì nó làm cho việc áp dụng
các kĩ thuật thiết lập mà không sử dụng một mô hình RBAC để kiểm soát truy
cập.

1.4. Paper roadmap (Lộ trình phát triển)
Bài viết này được sắp xếp như sau. Mục tiếp theo mô tả các định dạng
kiểm toán hồ sơ đăng nhập và ba cấp độ đại diện khác nhau được hỗ trợ bởi
phương pháp tiếp cận của chúng tôi. Phần 3 mô tả chi tiết dựa trên vai trò phát
hiện bất thường Cách tiếp cận và báo cáo kết quả thử nghiệm có liên quan.
phần 4 giải thích các thiết lập phát hiện bất thường không được giám sát và báo
cáo các kết quả thử nghiệm có liên quan. Chúng tôi kết luận giấy bằng cách
thảo luận về công việc trong tương lai.

11

11

2. Trình bày dữ liệu
Để định danh hành vi của người dùng, chúng ta sử dụng cơ sở dữ liệu
kiểm toán thông tin về hành động của người sử dụng. Các hồ sơ kiểm toán,
sau khi xử lý, được sử dụng để tạo thành các cấu hình ban đầu đại diện cho

hành động chấp nhận được. Mỗi mục trong file kiểm toán được biểu diễn như
một đơn vị dữ liệu riêng biệt, các đơn vị này sau đó được kết hợp để tạo thành
hồ sơ mong muốn. Chúng tôi cho rằng người dùng tương tác với cơ sở dữ liệu
thông qua các lệnh, mỗi lệnh là một mục khác nhau trong tập tin nhật kí, cấu
trúc theo ngôn ngữ SQL. Ví dụ, trong trường hợp của các truy vấn select như
sau lệnh có định dạng:
SELECT [DISTINCT] {TARGET-LIST}
FROM {RELATION-LIST}
WHERE {QUALIFICATION}
Để xây dựng hồ sơ, chúng ta cần xử lý đăng nhập các mục tập tin trước
và chuyển đổi chúng sang một định dạng mà có thể được phân tích bởi các
thuật toán của chúng ta. Vì vậy, chúng ta đại diện mỗi mục nhập bởi một đơn
vị dữ liệu cơ bản bao gồm năm trường, và do đó nó được gọi là 1 quiplet.
Quiplets là đơn vị cơ bản của chúng ta để xem các tập tin đăng nhập và
là những thành phần cơ bản cho các hồ sơ hình thành. Hành động của người sử
dụng được đặc trưng bằng cách sử dụng bộ quiplets như vậy. Trong quiplet
chứa các thông tin sau đây: các lệnh SQL của người dùng, thiết lập các mối
quan hệ truy cập, và cho mỗi quan hệ như vậy, các thiết lập của các thuộc tính
tham chiếu. Thông tin này có sẵn trong ba thành phần cơ bản của các truy vấn
SQL, cụ thể là, theSQL COMMAND, theRELATIONLIST và TARGETLIST.
Chúng ta cũng xử lý theQUALIFICATIONcomponent của các truy vấn
để lấy thông tin về quan hệ và thuộc tính tương ứng của chúng, được sử dụng
trong các câu truy vấn. Do đó, hình thức trừu tượng của quiplet bao gồm 5 lĩnh
vực: (SQL Command, Projection Relation Information, Projection Attribute
Information, Selection Relation In-formation and Selection Attribute
Information). Đối với các mục đích đơn giản, chúng ta biểu diễn một quiplet
chung bằng cách sử dụng 5 ary quan hệ Q(c; PR; PA; SR; SA), trong đó c
tương ứng với lệnh, PR để quan hệ chiếu thông tin, PA là thông tin thuộc tính
tham chiếu, SR là các thông tin quan hệ lựa chọn, và SA là lựa chọn thông tin
thuộc tính. Tùy thuộc vào loại quiplet hai đối số PR ( hoặc SR) và PA ( hoặc

SA) có thể có các loại khác nhau, nhưng để đơn giản và rõ ràng, chúng ta cho
phép các kí hiệu bị quá tải. Bất cứ khi nào các loại của quilt là quan trọng,
chúng ta sẽ xác định một cách rõ ràng. Tuy nhiên, đôi khi nó không được chỉ ra
một cách rõ ràng cho tất cả các loại quiplets. Tùy thuộc vào mức độ cần thiết
trong giai đoạn xây dựng hồ sơ cá nhân và trong ID, chúng ta biểu diễn
12

12

quiplets từ các mục tập tin đăng nhập bằng cách sử dụng ba cấp độ biểu diễn
khác nhau. Mỗi cấp độ được đặc trưng bởi một số lượng khác nhau của các
thông tin được ghi. Các thông tin liên quan và thuộc tính được giả sử là có mặt
trong các điều kiện tham gia của câu. .Chúng ta không xem xét các trường hợp
của truy vấn con phức tạp mà không thể giảm điều kiện tham gia. Rõ ràng,
chúng ta chỉ hiển thị các đại diện cho các cú pháp của một lệnh được chọn. Đại
diện nhìn chung là đầy đủ để nắm bắt thông tin từ các câu lệnh SQL khác như
chèn, xóa và cập nhật. Ví dụ, lệnh chèn, chèn vào mối quan hệ và các cột được
mã hóa như mối quan hệ chiếu và các thuộc tính chiếu. Chúng ta gọi các đại
diện đơn giản nhất của kiểm toán đăng nhập bản ghi file là quiplet đơn giản
hoặc c quiplet. Một c-quiplet ghi chỉ số quan hệ, các thuộc tính riêng biệt dự
kiến và được lựa chọn bởi các truy vấn SQL. Vì vậy, c-quiplets cơ bản là mô
hình có bao nhiêu mối quan hệ và bao nhiêu thuộc tính được truy cập trong
tổng số, chứ không phải là các yếu tố cụ thể được truy cập bởi truy vấn. Các cquiplets được định nghĩa như sau: Một quiplet đơn giản hoặc c quiplet là một
đại diện một bản ghi của cơ sở dữ liệu đăng nhập kiểm toán các file đăng nhập.
Mỗi quiplet c-bao gồm 5 lĩnh vực: (SQL-CMD, PROJ-REL-COUNTER,
PROJ-ATTR-COUNTER, SEL-REL-COUNTER, SEL-ATTR-COUNTER).
Trước tiên là biểu tượng và tương ứng với các lệnh SQL ban hành. Hai lĩnh
vực tiếp theo là số, và tương ứng với số lượng các mối quan hệ, các thuộc tính
liên quan đến mệnh đề chiếu của các truy vấn SQL, Hai lĩnh vực cuối cùng là

số, và tương ứng với số lượng các mối quan hệ và các thuộc tính liên quan đến
việc lựa chọn mệnh đề của truy vấn SQL.
Trong các điều khoản của các quiplet Q (), cả hai PR (hoặc SR) và PA
(hoặc SA) tương ứng với số lượng các mối quan hệ và các thuộc tính liên quan
đến truy vấn tương ứng. Rõ ràng, một số lượng lớn các thông tin có giá trị
trong đăng nhập cơ sở dữ liệu được bỏ qua bởi c-quiplets. Tuy nhiên nó có ích
để xem xét như một đại diện dữ liệu nguyên thủy, vì nó đầy đủ trong trường
hợp có một số lượng nhỏ các vai trò khác nhau. Hơn nữa, đại diện phức tạp
hơn các mục tập tin đăng nhập được dựa trên định nghĩa c-quiplets. Đề án đại
diện thứ hai nắm bắt thêm thông tin từ các bản ghi file đăng nhập. Chúng tôi
gọi đây là đại diện, hạt trung bình quiplet hoặc m-quiplet. Những quiplets thừa
kế quiplets thô bằng cách tiếp tục khai thác các thông tin có trong các mục
đăng nhập. Giống như một c-quiplet, m-quiplet đại diện cho một mục đăng
nhập duy nhất của cơ sở dữ liệu đăng nhập tập tin. Trong trường hợp này, mặc
dù mối quan hệ từng được đại diện riêng số lượng các thuộc tính dự kiến của
nó (hoặc chọn) bởi truy vấn SQL. Như vậy, trong điều kiện của quiplet, ký
hiệu: Q (), PR, PA, SR và SA là vectơ của cùng kích thước bằng số lượng các
mối quan hệ trong cơ sở dữ liệu.
M-quiplets được định nghĩa như sau:
13

13

Định nghĩa 2 một hạt quiplet trung bình hoặc m-quiplet là một đối tượng
dữ liệu tương ứng với một mục duy nhất của file bản ghi cơ sở dữ liệu và bao
gồm 5 lĩnh vực: (SQL-CMD, PROJ-REL-BIN[], PROJ-ATTRCOUNTER[],SEL-REL-BIN[], SEL-ATTR-COUNTER[]). Các lĩnh vực đầu
tiên là biểu tượng và tương ứng với các lệnh SQL ban hành, thứ hai là một số
nhị phân (bit) vector có kích thước bằng với số lượng các mối quan hệ trong cơ
sở dữ liệu. Các bit ở vị trí i được thiết lập tới 1 nếu mối quan hệ thứ i- dự kiến

trong Truy vấn SQL. Các lĩnh vực thứ ba của quiplet là một vector của kích
thước bằng nhau về số lượng của các mối quan hệ trong cơ sở dữ liệu.
Yếu tố thứ i của các PROJ-attr-COUNTER [] vector tương ứng với số
lượng các thuộc tính của thứ-i trong mối quan hệ, theo dự kiến trong truy vấn
SQL. Các ngữ nghĩa của SEL-REL-BIN [] và SEL-attr-COUNTER [] vectơ là
tương đương với những người PROJ-REL-BIN [] và PROJ-attr COUNTER[]
vectơ, nhưng các thông tin lưu giữ trước đây tương ứng vơi các lựa chọn thay
vì dự đoán của các truy vấn SQL.
Cuối cùng, chúng ta giới thiệu một mức độ đại diện thứ ba của đăng
nhập hồ sơ tập tin mà chất chiết xuất từ các thông tin tối đa từ các tập tin đăng
nhập. Chúng ta gọi đay là đại diện tốt quiplet hoặc f quiplet. Cấu trúc của một
quiplet-f tương tự như của một quiplet-m. Đặc biệt, lần đầu tiên, thứ hai và các
lĩnh vực thứ tư của một quiplet-f tương ứng với các trường của m-quiplets. Fquiplets và m-quiplets chỉ khác nhau trong các lĩnh vực thứ ba và thứ năm.
Trong trường hợp f-quiplets, các lĩnh vực này là vector của vector và gọi là
PROJ-BIN attr [] [] và SEL-BIN-attr [] [] tương ứng. Yếu tố thứ i của PROJBIN attr [] [] là một vector tương ứng với các mối quan hệ thứ i của cơ sở dữ
liệu và có kích thước bằng nhau về số lượng các thuộc tính của quan hệ i. Yếu
tố thứ i của PROJ-BIN-attr [] [] giá trị nhị phân cho thấy các thuộc tính cụ thể
của mối quan hệ được dự đoán trong truy vấn SQL. các ngữ nghĩa của SELBIN-attr [] [] là tương tự. Đối với f-triplets, PR và SR là vector có kích thước
bằng với số lượng các mối quan hệ trong cơ sở dữ liệu trong khi PA và SA là
vectơ cùng kích thước, nhưng với mỗi phần tử là một vector của kích thước
bằng nhau số lượng các thuộc tính liên quan i. Các định nghĩa chính thức của fquiplets là như sau:
Định nghĩa 3 quiplet mịn hoặc f quiplet là một đại diện chi tiết của một
mục đăng nhập. Nó bao gồm 5 các lĩnh vực (SQL-CMD, PROJ-REL-BIN [],
PROJ-attr-BIN [] [] SEL-REL-BIN [], SEL-attr-BIN [] []). Các lĩnh vực đầu
tiên là biểu tượng và tương ứng với các lệnh SQL, thứ hai là một vector nhị
phân có chứa 1 trong i vị trí trong truy vấn SQL. Lĩnh vực thứ ba là một vector
của vector n, trong đó n là số lượng các mối quan hệ trong cơ sở dữ liệu. Yếu
tố PROJ-attr-BIN [i] [j] bằng 1 nếu các truy vấn SQL dự án thuộc tính thứ j
của mối quan hệ thứ i, và nó bằng 0 nếu ngược lại. Tương tự, lĩnh vực thứ tư
14

14

là một vector nhị phân có chứa trong nó vị trí thứ i nếu mối quan hệ thứ i được
sử dụng trong truy vấn SQL vị ngữ . Các lĩnh vực thứ năm là một vectors của
vector n, n là số lượng các mối quan hệ trong cơ sở dữ liệu. yếu tố SEL-attrBIN [i] [j] bằng 1 nếu các tài liệu tham khảo truy vấn SQL thuộc tính thứ j của
quan hệ thứ i trong truy vấn vị ngữ, nó là bằng 0 nếu ngược lại.
Bảng 1 cho thấy một lệnh SQL tương ứng với lựa chọn báo cáo và đại
diện của mình theo ba loại khác nhau của quiplets. Trong ví dụ, xem xét một
lược đồ cơ sở dữ liệu bao gồm hai mối quan hệ:
R1 ={A1, B1, C1, D1} and R2 ={A2; B2; C2; D2}.

15

15

3. Vai Trò Phát Hiện Bất Thường
Trong phần này, chúng tôi mô tả phương pháp liên quan đến vai trò của
người sử dụng có sẵn trong cơ sở dữ liệu. Vai trò thông tin này cho phép giải
quyết các vấn đề của người dung như là phân loại tiêu chuẩn.

3.1. Phân Loại
Sử dụng phân loại Naive Bayes(NBC) cho ID trong RBAC – cơ sở dữ liệu
quản lý. Mặc dù có một số giả định các mô hình về tính độc lập phân loại thuộc
tính , các thực nghiệm chứng minh rằng điều ngạc nhiên tính hữu ích trong
thực tế. Hơn nữa, NBC đã được chứng minh là có hiệu quả trong nhiều ứng
dụng thực tiễn như văn bản phân loại và chẩn đoán [9,22,11], và thường cạnh
tranh phức tạp hơn nhiều kỹ thuật [17,10]. Lý do cho sự phổ biến của NBC là

yêu cầu thấp tính toán cho cả quá trình đào tạo và phân loại nhiệm vụ . Thời
gian nhỏ chạy các giả định độc lập thuộc tính. Hơn nữa, giống như tất cả các
phân loại xác suất theo Aposteriori Xác suất tối đa (MAP) quyết định quy tắc.
NBC đến phân loại chính xác lớp chính xác hơn có khả năng xảy ra hơn so với
bất kỳ lớp khác. Nói cách khác, phân loại tổng thể ảnh hưởng đến sự thiếu hụt
của nó cơ bản của mô hình xác suất. Độc giả có thể xem trên bài viết
Domingos et al. [9] giải thích khu vực tối ưu cho NBC và thảo luận về những
lý dothực hiện có hiệu quả của nó ngay cả khi các thuộc tính trong phụ thuộc
vào giả định.
Chúng tôi lần đầu tiên mô tả các nguyên tắc chung của NBC (xem chi
tiết [22]) và sau đó hiển thị nó và được áp dụng để thiết lập của chúng tôi.
Trong thực nghiệm giám sát, mỗi trường hợp x của dữ liệu được mô tả như là
một kết hợp của các thuộc tính các giá trị, mục tiêu và chức năng f (x) chỉ có
thể đưa giá trị từ một số tập hợp hữu hạn V. Các thuộc tính tương ứng tập hợp
các quan sát và các yếu tố của V là các riêng biệt kết hợp với những quan sát.
Trong vấn đề phân loại, một tập hợp các ví dụ D T được cung cấp, và một
trường hợp mới với các giá trị thuộc tính (a1; ::: an) được đưa ra. Mục đích là
để dự đoán mục tiêu giá trị, hoặc lớp, trường mới này.
Cách tiếp cận chúng tôi mô tả ở đây là để chỉ định cho điều này lớp giá
trị có thể xảy ra nhất V Map, cho các thuộc tính (a1,…an) mô tả nó. Đó là

16

16

Lệnh SQL
SELECT
R1:A1;R1:C1;R2:B2;R2:D2
FROM R1;R2

WHERE R1:B1 = R2:B2

c-quiplet
m-quiplet
select< 2 >< 4 select < 1; 1 ><
>< 2 >< 2 >
2; 2 >
< 1; 1 >< 1; 1 >

f-quiplet
select < 1; 1 >
< [1; 0; 1; 0]
[0; 1; 0; 1] >
< 1; 1 > [0; 1
0; 0]; [0; 1; 0
0]

Bảng 1. Ví dụ xây dựng Quiplet
Sử dụng Bayes Theorem, chúng ta có thể viết lại như sau :

Phép lấy đại số cuối cùng là khả thi bởi vì mẫu số không phụ thuộc vào
sự lựa chọn của Vi và do đó nó có thể bỏ qua các đối số argmax. Ước tính p
(Vi) là đơn giản vì nó đòi hỏi chỉ cần đếm tần số V i trong dữ liệu. Tuy nhiên,
tính toán P(a1,…an|vi) là khó khăn khi xem xét một lượng lớn tập dữ liệu và
một số lượng hợp lý lớn của các thuộc tính [8]. NBC, tuy nhiên, dựa trên giả
định đơn giản hóa rằng các giá trị thuộc tính là điều kiện độc lập, và do đó

Điều này làm giảm đáng kể phép tính toán khi tính mỗi một giá trị của P
(ai|vj) chỉ đòi hỏi một số tần số trong dữ liệu có giá trị lớp bằng vj.
Vì vậy, giả định độc lập có điều kiện để giải quyết các chi phí tính toán,

Tuy nhiên, có là một vấn đề cần được thảo luận. Giả sử e sự kiện xảy ra n ej số
lần trong dữ liệu cài đặt cho vj một lớp học đặc biệt với kích thước |Dvj|. Khi
đó
cung cấp một ước lượng của các xác suất trong nhiều trường hợp.
nó cung cấp ước lượng nhỏ khi nej là rất nhỏ. Một ví dụ rõ ràng là trường hợp
17

17

nej = 0. Xác suất không tương ứng các phân loại một cách không thể đảo
ngược, kể từ khi theo phương trình 1, xác suất không khi nhân với các điều
khoản xác suất khác sẽ cung cấp cho kết quả bằng 0. Để tránh điều này chúng
tôi áp dụng một tiêu chuẩn Bayesian phương pháp tiếp cận trong ước tính xác
suất này, bằng cách sử dụng m-ước tính [22]. Định nghĩa chính thức dự toán-m
như sau:
Định Nghĩa 4 Cho 1 tập dữ liệu DT với kích thước |DT| và một sự kiện e
xuất hiện nej lần trong các tập dữ liệu cho một lớp V j với kích thước |Dvj| và ne
lần trong toàn bộ dữ liệu, sau đó ước tính sắc xuất
định là

được xác

Tham số m là 1 hằng số và được gọi là tương đương mẫu kích thước, m
liên quan đến rất nhiều đến giá trị Pej với dữ liệu. Nếu nE là 0, sau đó giả định
NBC trực tiếp áp dụng cho phát hiện bất thường khuôn khổ
bằng cách xem xét các thiết lập của vai trò trong hệ thống như các lớp và
quiplets log-file như các quan sát. Trong phần sau, chúng tôi cho thấy làm thế
nào phương trình 1 có thể được áp dụng cho ba loại của quiplets.
Đối với trường hợp của c-quiplets ứng dụng là đơn giản vì có năm thuộc

tính (c; PR, PA; SR; SA) xem xét cụ thể là lệnh, mối quan hệ đếm, đếm thuộc
tính chiếu, tính liên quan lựa chọn và tính chọn lọc thuộc quan hệ. Nếu R biểu
thị tập hợp các vai trò, vai trò dự đoán của một quan sát (ci;PRi;PAi; SRi; SAi)
là

m-quiplets, có 5 dữ liệu (c;PR;PA; SR; SA). PR;PA; SR; SA là các vecto. Ngoại trừ
thuộc tinh C, phần còn lại phụ thuộc vào PRpTA và SRSTA. Do đó có | PRpTA | + |
SRSTA | +1 phương trình 1 có thể được viết lại như sau

18

18

trong đó N là số lượng các mối quan hệ trong DBMS.
Cuối cùng, f-quiplets, có PR, SR là vecto tham chiếu vào P A, SA là vectơ
của vectơ tương ứng Phương trình là :

Với các định nghĩa trên, nhiệm vụ ID khá đơn giản. Đối với tất cả các
truy vấn mới, rMAP của nó là dự đoán của các phân loại. Nếu rMAP này khác nhau
từ vai trò ban đầu liên quan đến truy vấn, bất thường được phát hiện. Đối với
các truy vấn, các phân loại có thể được cập nhật một cách đơn giản bởi ngày
càng nhiều sự đếm tần số của các thuộc tính có liên quan. Thủ tục cho ID có
thể dễ dàng được tổng quát trường hợp khi người dùng được chỉ định nhiều
hơn một vai trò tại một thời gian. Điều này là bởi vì phương pháp của chúng tôi
phát hiện bất thường trên mỗi truy vấn cơ sở chứ không phải là cơ sở cho mỗi
người dùng. Do đó, như miễn là các vai trò liên kết với các truy vấn phù hợp
với vai trò dự đoán của các phân loại, hệ thống sẽ không phát hiện ra một sự
bất thường.

3.2. Thử Nghiệm Đánh Giá
Trong phần này, chúng tôi báo cáo kết quả từ một thử nghiệm đánh giá
của các phương pháp tiếp cận đề xuất và minh họa của nó thực hiện như một
cơ chế ID. Thiết lập thử nghiệm của chúng tôi bao gồm các thí nghiệm với cả
hai tổng hợp và thử nghiệm bộ dữ liệu. Trong công việc trước đây của chúng
tôi [5], chúng tôi đã báo cáo hiệu suất của ba loại quiplet dưới phương thức mô
hình truy cập cơ sở dữ liệu. Mục tiêu của đánh giá thực nghiệm hiện nay là
đánh giá hiệu quả hoạt động của các phương pháp trên cơ sở dữ liệu được triển
19

19

khai cho các ứng dụng. Đối với mô hình truy cập truy vấn SQLmô hình trong
một cơ sở dữ liệu triển khai thực tế, Tổng hình thức của một hàm phân bố xác
suất Zipf (pdf) thường được sử dụng để mô hình truy cập không đồng đều. Pdf
Zipf, một biến ngẫu nhiên X, định nghĩa như sau:

Trong đó N là số phần tử và s là tham số đặc trưng cho sự phân bố. Hình
2 cho thấy hàm mật độ tích lũy cho một phân phối Zipf N = 10 và các giá trị
khác nhau của s. Giả sử N ở đây biểu thị số lượng các bảng trong một lược đồ
cơ sở dữ liệu theo một số tiêu chí như trật tự từ điển. Sau đó số 2 cho thấy
rằng, khi chúng ta gia tăng, khối lượng xác suất tích lũy đối với nửa trái của
giản đồ, do đó làm cho các mô hình truy cập nhiều hơn và hơn lệch. Đối với
các thí nghiệm của chúng tôi, chúng tôi cũng sử dụng một đảo ngược Zipf phân
phối là một hình ảnh phản chiếu tương ứng Zipf hình thành với một trục thẳng
đứng.

Hình 2. Zipf phân phối cho mẫu N = 10
Trước khi mô tả các kết quả thử, cung cấp một phác thảo ngắn gọn về

các thủ tục thế hệ toàn bộ dữ liệu và các truy vấn bất thường.
3.2.1. Tập hợp dữ liệu
Bộ dữ liệu tổng hợp: Các dữ liệu tổng hợp được tạo ra theo mô hình sau
đây: Mỗi vai trò r có một xác suất, p (r), xuất hiện trong các tập tin đăng nhập.
Ngoài ra, để mỗi r quy định cụ thể vấn đề sau đây khả năng: (i) xác suất của
việc sử dụng một lệnh cho c vai trò, p (cjr), (ii) xác suất của dự án trên t bảng
được đưa ra vai trò và lệnh, p (Ptjr c), (iii) xác suất của dự một thuộc tính trong
một bảng 2 T cho vai trò, bảng và lệnh, p (Pajr; t; c), (iv) xác suất bằng cách sử
dụng một bảng t mệnh đề lựa chọn cho vai trò và lệnh, p (Stjr c) và cuối cùng,
20

20

(v) xác suất bằng cách sử dụng một lúc t trong các vị ngữ truy vấn được vai trò,
bảng và lệnh, p (Sajr; t; c). Chúng tôi sử dụng bốn lại khác nhau với các loại
chức năng phân phối xác suất cụ thể là, thống nhất, Zipf, đảo ngược Zipf và đa
thức.
Thiết lập dữ liệu: Các số liệu được sử dụng để đánh giá của phương pháp
tiếp cận bao gồm 8368 SQL từ ứng dụng trình truy vấn một máy chủ MS
SQL cơ sở dữ liệu. Các lược đồ cơ sở dữ liệu bao gồm 130 bảng và 1201 cột.
Các truy vấn trong bộ dữ liệu này bao gồm một kết hợp của lựa chọn, chèn và
cập nhật lệnh với 7583 lệnh chọn, 213 lệnh chèn và 572 lệnh cập nhật. Có là
không có phụ truy vấn trong bất kỳ. Ngoài ra, vì vai trò thông tin không có sẵn,
chúng ta xem xét các ứng dụng. Đối với một mô tả chi tiết hơn về tập dữ liệu
độc giả xem [28].
Truy vấn bất thường: Truy vấn thiết lập bất thường lưu giữ trong các
mối đe dọa nội bộ. Đối với điều này, chúng tôi tạo ra các truy vấn bất thường
từ phân phối xác suất giống như bình thường truy vấn, nhưng với vai trò thông
tin phủ nhận. Ví dụ, nếu thông tin vai trò liên kết với một truy vấn bình thường

là 0, sau đó chỉ đơn giản là thay đổi vai trò với bất cứ vai trò nào khác hơn 0
làm cho các truy vấn bất thường.

3.3. Kết quả
Bây giờ chúng ta mô tả các tập dữ liệu tổng hợp đầu tiên mà chúng ta sử
dụng. Lược đồ cơ sở dữ liệu bao gồm100 bàn và 20 cột trong mỗi bảng. Thuộc
tính vai trò csdl là 4. Truy vấn SQL trình mô hình cho các vai trò được quản lý
bởi pdf, Zipf (N = 4; s = 1). Hai vai trò đầu tiên là chỉ đọc, như vậy mà họ sử
dụng lệnh lựa chọn với xác suất 1. Vai trò đầu tiên truy cập vào bảng với một
pdf, Zipf (100), và các cột với một pdf, Zipf (20; s). Thay đổi các tham số.
Tương tự, vai trò thứ hai truy cập vào các bảng và cột với một pdf phối tương
ứng bởi R Zipf (100) và R Zipf (20). Vai trò thứ 3 là đọc-ghi như vậy mà họ
phát hành các lựa chọn, chèn, xóa và cập nhật lệnh với xác suất 00:01; 00:01;
00:01 và 00:07. Lựa chọn, xóa và chèn lệnh, các vai trò truy cập vào tất cả các
bảng và cột trong mỗi bảng với một xác suất thống nhất. Vai trò thứ ba thực
hiện lệnh cập nhật với một, pdf Zipf (100), và thứ tư với một R pdf, Zipf (100,
s). Chúng tôi sử dụng dữ liệu huấn luyện kích thước của cardinality 5000 và
thiết lập các tham số m (phương trình 2) đến 100. Hình 3 cho thấy đường (FP)
vàTỷ lệ âm (FN) cho các giá trị ngày càng tăng của s. FP và tỷ lệ FN-f quiplet
thấp nhất trong số ba loại quiplet. Ngoài ra, như chúng tôi thực hiện truy cập
cơ sở dữ liệu trở nên sai lệch bằng cách tăng s, FP tỷ lệ cho quiplet-f đi xuống.
Chúng tôi tạo ra các tập dữ liệu thứ hai như sau. Các lược đồ cơ sở dữ liệu
tương tự như trong các tập dữ liệu đầu tiên với 100 bảng và 20 cột trong mỗi
bảng. Tuy nhiên, có 9 vai trò đó truy cập vào cơ sở dữ liệu như thể hiện trong
21

21

hình 4. Vai trò 1 đến 6 chỉ đọc và vai trò 7, 8 và 9 được đọc-ghi. Hình 5 cho

thấy tỷ lệ FP và FN tập dữ liệu này. Một quan sát là mỗi hoạt động m-quiplet là
thực sự tốt hơn so với f-quiplet cho các giá trị thấp hơn và so sánh-f quiplet cho
các giá trị cao hơn của s. Điều này cho thấy m-quiplet được một sự thay thế
hiệu quả cho-f quiplet cho một DBMS với một mô hình truy cập tương tự như
của các tập dữ liệu. Cuối cùng, trình bày kết quả thử nghiệm tập dữ liệu. Các
kết quả được trung bình trên 10 lần xác nhận của tập dữ liệu. Truy vấn bất
thường được tạo ra như mô tả trước đó. M tham số trong phương trình 2
một lần nữa được thiết lập là 100. Bảng 2 cho thấy hiệu suất của ba quiplet
loại. Tỷ lệ FN cho tất cả quiplet ba loại là khá thấp. Một trong những vấn đề
quan tâm là FP cao tỷ lệ cho số liệu này. Kết quả này có thể là do bản chất cụ
thể của các tập dữ liệu thực sự, hoặc cho m và f-quiplet số lượng lớn các thuộc
tính có thể gây ra.

Hình 3: Tập dữ liệu 2: Mô tả vai trò.
Nhìn chung, việc đánh giá thử nghiệm cho thấy trong hầu hết các trường
hợp f-quiplet các mô hình truy cập của người sử dụng tốt hơn nhiều so với c
hoặc m-quiplet.

22

22

Bảng 2. Dữ liệu thực tế: Tỉ lệ xác thực sai và từ chối sai.

23

23

4. Phát hiện những dị thường không bị giám sát
Trường hợp các thông tin không có vai trò trong các tập tin nhật kí kiểm
toán. Trong trường hợp này, vấn đề hình thành các hồ sơ người dùng rõ ràng là
không bị giám sát và do đó nó được coi là một vấn đề phân cụm. Phương pháp
cụ thể mà sử dụng cho các nhiệm vụ phát hiện xâm nhập ID như sau: phân
vùng dữ liệu thành các cụm (Trong các thiết lập không được giám sát, các cụm
thu được sau quá trình phân nhóm đại diện cho các hồ sơ) bằng cách sử dụng
các kỹ thuật phân nhóm chuẩn. Duy trì một bản đồ cho mỗi người sử dụng cụm
đại diện. Cụm đại diện cho người sử dụng một cụm có chứa số lượng tối đa của
các hồ sơ cho rằng người dùng sau giai đoạn phân nhóm. Đối với mỗi truy vấn
mới theo quan sát, cụm đại diện được xác định bằng cách kiểm tra lập bản đồ
sử dụng cụm. Lưu ý giả định rằng tất cả các truy vấn được liên kết với một
người sử dụng cơ sở dữ liệu.

24

24

Hình 4. Dữ liệu thực tế: Tỉ lệ xác thực sai và từ chối sai.

Hình 5. Dữ liệu thực tế: Tỉ lệ xác thực sai và từ chối sai.
Đối với giai đoạn phát hiện, chúng tôi phác thảo hai cách tiếp cận.Trong
các phương pháp tiếp cận đầu tiên, chúng tôi áp dụng phân loại Bayes ngây thơ
một cách tương tự như trường hợp giám sát, để xác định xem người dùng có
liên quan đến truy vấn thuộc cụm đại diện hay không.Trong cách tiếp cận thứ
hai, kiểm tra astatistical được sử dụng để xác định nếu truy vấn là một outlier
trong cụm đại diện.Nếu kết quả của bài kiểm tra thống kê là tích cực, truy vấn
được đánh dấu như là bất thường và báo động được nâng lên.Các phương pháp
chúng tôi sử dụng cho clustering bao gồm một số kỹ thuật tiêu chuẩn.Phần tiếp

theo giải thích chi tiết các biện pháp khoảng cách được sử dụng cho
clustering.Sau đó chúng tôi giải thích ngắn gọn các thuật toán phân cụm và
kiểm tra thống kê để phát hiện những kẻ xâm nhập và cuối cùng là báo cáo kết
quả thực nghiệm trên chúng.

25

25

Audit Database - Kiểm toán cơ sở dữ liệu - Phát hiện các mẫu truy cập bất thường trong cơ sở dữ liệu quan hệ

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về