Fault analysis and search on cloud and inter cloud systems

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (737.42 KB, 34 trang )

Tóm tắt nội dung
Quản lý lỗi cho hệ thống thơng tin và truyền thông là vấn đề thách thức
do sự gia tăng độ phức tạp, đa dạng và qui mô của các hệ thống ngày nay.
Đặc biệt, các hệ thống tính tốn đám mây sử dụng cơng nghệ ảo hóa và phân
tán để xây dựng các cụm máy ảo kết nối số lượng lớn máy ảo nhằm giải
quyết các bài tốn tính tốn và lưu trữ trên cơ sở dữ liệu cực lớn. Cịn nữa,
các hệ thống liên kết tính toán đám mây hỗ trợ các ứng dụng và dịch vụ vận
hành trên các hệ thống tính tốn đám mây khác nhau. Báo cáo này tập trung
nghiên cứu, đề xuất và thử nghiệm giải pháp giám sát và kiểm tra sự kiện cho
các hệ thống này. Giải pháp giám sát cải tiến và áp dụng phương pháp lọc sự
kiện theo ngữ nghĩa thích nghi dữ liệu (ASF-BDT) để lọc sự kiện cảnh báo
từ hệ thống giám sát. Giải pháp kiểm tra áp dụng phương pháp cây phân loại
và truy hồi (CART) để đánh giá các sự kiện sau khi lọc. Báo cáo cũng bao
gồm thiết kế kiến trúc hệ thống cho phép vận hành với hệ thống liên kết tính
tốn đám mây và các thử nghiệm giải pháp trên tập dữ liệu sự kiện và lỗi thu
thập từ thực tế. Kết quả thử nghiệm cho thấy tính khả thi của hệ thống và các
giải pháp có hiệu quả tốt.
Từ khóa: giám sát sự kiện, giám sát lỗi, lọc ngữ nghĩa, cây dự đốn, phân
tích lỗi, tính tốn đám mây

2

Mục lục
Tóm tắt

2

Danh sách hình ảnh

5

Danh sách bảng

6

Danh sách từ viết tắt

7

1

Giới thiệu
1.1 Trình tự báo cáo . . . . . . . . . . . . . . . . . . . . . . . . . . .

8
8

2

Mơ hình tính tốn đám mây
2.1 Nền tảng tính tốn đám mây
2.1.1 Eucalyptus . . . . .
2.1.2 OpenNebula . . . .
2.1.3 Nimbus . . . . . . .
2.1.4 Xen Cloud Platform
2.1.5 OpenStack . . . . .
2.2 Quản lý lỗi và công cụ . . .
2.2.1 Swatch . . . . . . .
2.2.2 LogSurfer . . . . . .
2.2.3 Sec . . . . . . . . .

2.2.4 Ossec . . . . . . . .
2.2.5 Ganglia . . . . . . .
2.2.6 Nagios . . . . . . .
2.2.7 Collectd . . . . . . .
2.2.8 Splunk . . . . . . .
2.2.9 Savanna . . . . . . .

3

Phương pháp phân tích lỗi
15
3.1 Giám sát và thu thập sự kiện . . . . . . . . . . . . . . . . . . . . 15
3.2 Phương pháp phân tích sự kiện . . . . . . . . . . . . . . . . . . . 16

4

Đề xuất giải pháp
17
4.1 Kiến trúc hệ thống . . . . . . . . . . . . . . . . . . . . . . . . . 17
4.2 Lọc sự kiện . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.2.1 Lọc theo thuộc tính . . . . . . . . . . . . . . . . . . . . . 19

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

3

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.

9
11
11
11
11
11
11
12
12
12
13
13
13
13
14
14
14

4.3

4.2.2 Lọc theo ngữ nghĩa . . .
4.2.3 Ngưỡng giới hạn động .
Phát hiện lỗi . . . . . . . . . . .
4.3.1 Luật chia theo entropy .
4.3.2 Tiến trình phát triển cây

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

. 20
. 21
. 21
. 22
. 22

5

Đánh giá giải pháp

25

6

Kết luận

30

4

Danh sách hình vẽ
1
2
3
4
5
6
7
8

9
10

Kiến trúc chung của mơ hình tính toán đám mây . . . . . . . . . .
Kiến trúc hệ thống liên kết tính tốn đám mây tích hợp giải pháp
giám sát và phát hiện lỗi . . . . . . . . . . . . . . . . . . . . . .
Giao tiếp các thành phần của hệ thống giám sát và phát hiện lỗi . .
Giải pháp lọc ngữ nghĩa thích nghi cho các sự kiện liên quan . . .
Tiến trình phát triển cây quyết định CART . . . . . . . . . . . . .
Cây phân loại và truy hồi CART mẫu . . . . . . . . . . . . . . . .
Thu thập dữ liệu sự kiện khác nhau trong khoảng thời gian 6 ngày
Số lượng sự kiện thu được tương ứng các khoảng giá trị Φ khác
nhau của giải pháp ASF và ASF-BDT đối với các giá trị ngưỡng
khác nhau (bên trái). Thời gian thực thi của giải pháp ASF-BDT
với khoảng giá trị 0.6< Φ <0.8 đối với các giá trị ngưỡng khác
nhau (bên phải) . . . . . . . . . . . . . . . . . . . . . . . . . . .

So sánh giá trị cross-validation cho tập dữ liệu All (bên trái) và
Win (bên phải) với 2 trường hợp bổ sung và không bổ sung dữ
liệu thiếu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
So sánh độ chính xác của thử nghiệm trên tập dữ liệu All và Win
(bên trái) và toàn bộ tập dữ liệu (bên phải) . . . . . . . . . . . . .

5

9
18
19
20
23
24
25

26
27
29

Danh sách bảng
1
2

Bảng so sánh các nền tảng tính tốn đám mây . . . . . . . . . . . 12
Bảng quan hệ của vector nhị phân X và Y. . . . . . . . . . . . . . 21

6

Danh sách từ viết tắt
ASF Lọc ngữ nghĩa thích nghi
BTS Hệ thống lưu trữ lỗi
CART Cây truy hồi và phân loại
FC

Thành phần kiểm tra lỗi

FD

Thành phần cơ sở dữ liệu lỗi

FM

Hệ thống quản lý lỗi

FR

Thành phần giám sát lỗi

P2P

Mạng chia xẻ ngang hàng

7

1

Giới thiệu

Sự cải tiến về tốc độ đường truyền Internet trong những năm vừa qua không chỉ
tạo điều kiện thuận lợi cho sự phát triển các ứng dụng đòi hỏi băng thơng cao như
truyền hình, điện thoại qua Internet, v.v, mà cịn là nền tảng các mơ hình tính tốn
phân bố như mơ hình tính tốn lưới, nhóm, v.v. Mơ hình tính tốn đám mây là sự
kết hợp của tính tốn phân bố và cơng nghệ ảo nhằm cung cấp dịch vụ cho người
dùng, như là cơ sở hạ tầng cơng nghệ thơng tin, cụm máy tính ảo, và hệ thống
phần mềm, trên nền tảng Internet. Các hệ thống tính toán đám mây bao gồm một
số lượng lớn máy chủ thường được quản lí tập trung nhằm giảm chi phí quản lí và
vận hành. Các hệ thống này cần một đội ngũ quản trị hệ thống có trình độ cao và
các hệ thống hỗ trợ nhằm bảo đảm sự vận hành liên tục và hiệu quả của hệ thống.
Phân tích và xử lí lỗi trên hệ thống tính tốn đám mây và hệ thống liên kết tính
tốn đám mây là một vấn đề thách thức ngày nay do tính phức tạp, đa dạng và mở
rộng ngày càng tăng của các hệ thống phân bố và mạng truyền thơng này. Nhóm
nghiên cứu của Buyya [1] giải thích rằng hệ thống liên kết tính tốn đám mây hỗ
trợ các dịch vụ và ứng dụng chạy xuyên suốt trên nhiều hệ thống tính tốn đám
mây khác nhau. Nhóm nghiên cứu của Armbrust [2] cũng chỉ ra 10 trở ngại lớn
nhất trong vấn đề xây dựng hệ thống tính tốn đám mây. Nhiều trở ngại liên quan
đến quản lí lỗi hệ thống và mạng, như là xử lí lỗi trong hệ thống phân bố khổng
lồ, vấn đề hiệu suất khơng dự đốn trước, vấn đề dịch vụ khơng sẵn sàng.

1.1

Trình tự báo cáo

Phần 2 giới thiệu tóm tắt về mơ hình tính tốn đám mây, mơ hình liên kết tính tốn
đám mây đồng thời tập trung vào một số nền tảng phổ biến, vấn đề quản lý lỗi và
công cụ. Phần 3 mô tả các phương pháp phân tích lỗi bao gồm phương pháp giám
sát, thu thập và phân tích sự kiện đã được nghiên cứu và áp dụng. Phần 4 đề xuất

kiến trúc hệ thống phân tích và tìm kiếm lỗi cho hệ thống tính tốn đám mây và
liên kết tính tốn đám mây. Hệ thống này cũng bao gồm 2 giải pháp lọc sự kiện
và phát hiện lỗi được cải tiến từ giải pháp ASF và CART sẵn có. Phần 5 trình bày
kết quả thử nghiệm các thành phần chính của hệ thống đề xuất ở trên với các phân
tích và đánh giá chi tiết trước khi báo cáo kết thúc trong Phần 6

8

2

Mơ hình tính tốn đám mây

Mơ hình tính tốn đám mây xuất hiện trong cộng đồng công nghệ thông tin
(CNTT) vào cuối năm 2007 khi IBM và Google công bố việc hợp tác trong lĩnh
vực này. Cùng với sự phát triển mạnh mẽ của mơ hình này hiện nay, các nhà
nghiên cứu trong cùng lĩnh vực đưa ra nhiều định nghĩa cho mơ hình tính tốn
đám mây [1, 2, 3, 4]. Các định nghĩa đều thống nhất ở một vài điểm: mơ hình tính
tốn đám mây là mơ hình tính tốn phân bố được xây dựng trên nền tảng cơng
nghệ máy ảo nhằm cung cấp tài ngun tính tốn như là phần cứng máy tính, hệ
điều hành, phần mềm máy tính,. . . dưới dạng các dịch vụ vận hành trên nền tảng
Internet.
Users / Service Providers

Platform
Infrastructure
Software

Storage

Services

Primergy

Primergy

Primergy

Primergy

Primergy

Primergy

Primergy

Primergy

Primergy

Primergy

Primergy

Primergy

Virtual Machines / Clusters

Physical Resources

Hình 1: Kiến trúc chung của mơ hình tính tốn đám mây
Hình 1 mơ tả kiến trúc chung của mơ hình tính tốn đám mây. Kiến trúc này
gồm 3 thành phần chính:
• Tài ngun tính tốn vật lý bao gồm tài nguyên bộ nhớ, máy tính được kết
nối mạng và được phân chia thành các mạng ảo cục bộ sử dụng cho các mục
đích khác nhau như là một mạng ảo cục bộ sử dụng cho tính tốn sẽ cài đặt
hệ điều hành và phần mềm tính tốn chun dụng, trong khi đó một mạng
9

ảo cục bộ khác sử dụng cho dịch vụ ứng dụng sẽ cài đặt các phần mềm ứng
dụng và không quan tâm nhiều đến hệ điều hành.
• Máy ảo và cụm máy ảo xây dựng trên tài ngun tính tốn vật lý nhằm cung
cấp tài ngun tính tốn ảo cho các dịch vụ với các thuộc tính đồng nhất,
trong suốt, linh hoạt và co giãn cao. Hệ thống quản lí máy ảo có nhiệm vụ
tạo ra các tài ngun tính tốn ảo với độ tin cậy và an tồn cao. Hệ thống này
làm việc hiệu quả đòi hỏi việc tối ưu hố phân chia và sắp xếp tài ngun.
• Các dịch vụ ứng dụng được phát triển bởi các người cung cấp dịch vụ xây
dựng trên các máy ảo và cụm máy ảo cho phép người sử dụng dịch vụ truy
cập dễ dàng. Hệ thống quản lí dịch vụ có nhiệm vụ tiếp nhận các yêu cầu về
dịch vụ đồng thời giao tiếp với hệ thống quản lí máy ảo để đáp ứng các yêu
cầu này một cách tốt nhất. Ví dụ như yêu cầu mở rộng hoặc thu hẹp việc sử
dụng cụm máy ảo do nhu cầu dịch vụ tăng hoặc giảm, yêu cầu chi phí sử
dụng dịch vụ, . . .
Đặc điểm nổi bật của mơ hình này là khả năng cung cấp các dịch vụ là các ứng
dụng có tính thơng dụng cao hay cung cấp cơ sở hạ tầng CNTT theo yêu cầu đặc
thù của đơn vị ứng dụng CNTT. Cụ thể, các đặc điểm nổi bật bao gồm [5]:
• Dịch vụ tự động theo yêu cầu: người sử dụng dịch vụ tự động đăng kí và sử
dụng dịch vụ như là lưu trữ dữ liệu hoặc th máy chủ mà ít cần có sự can
thiệp của người cung cấp dịch vụ.

• Truy cập dịch vụ linh hoạt: việc sử dụng dịch vụ hoặc cung cấp dịch vụ trở
nên dễ dàng và nhanh chóng nhờ các thiết bị đầu cuối khác nhau có khả
năng truy cập Internet như là điện thoại di động, máy tính xách tay, . . .
• Tài ngun tính tốn đa dạng: ví dụ về tài nguyên bao gồm máy ảo, bộ nhớ,
khả năng lưu trữ, khả năng tính tốn và xử lí, . . . Các tài nguyên này được
quản lí một cách linh hoạt, cho phép người sử dụng dịch vụ mở rộng hoặc
thu hẹp nhu cầu sử dụng tài nguyên.
• Độ co giãn của dịch vụ cao: khả năng cung cấp nhanh chóng và tự động đáp
ứng yêu cầu sử dụng dịch vụ tại bất kì thời điểm nào với bất kì u cầu tài
ngun nào.
• Quản lí tài nguyên hiệu quả: việc sử dụng tài nguyên được giám sát và tối
ưu nhờ khả năng đo đạc chính xác việc sử dụng từng loại dịch vụ.
10

2.1
2.1.1

Nền tảng tính tốn đám mây
Eucalyptus

Eucalyptus [6] là phần mềm mã nguồn mở cho phép xây dựng hệ thống tính toán
đám mây. Eucalyptus cung cấp các dịch vụ cơ sở hạ tầng, nền tảng tính tốn và
phần mềm ứng dụng dựa trên cơng nghệ ảo hóa tài ngun phần cứng thành các
cụm máy ảo kết nối. Phần mềm này cũng cung cấp giao diện lập trình cho phép
kết hợp và sử dụng các dịch vụ tính tốn đám mây của Amazon [7].
2.1.2

OpenNebula

OpenNebula [8] là bộ công cụ mã nguồn mở cho phép xây dựng hệ thống tính tốn
đám mây. OpenNebula kết hợp các công nghệ về lưu trữ, mạng, ảo hóa và bảo mật
để triển khai các dịch vụ trên cơ sở hạ tầng phân tán các máy ảo. Bộ cơng cụ này
có nhiều ưu điểm nổi bật về cung cấp tài nguyên cho trung tâm tích hợp dữ liệu và
tính tốn hiệu năng cao với cấp độ cao về tiêu chuẩn và liên vận hành với các nền
tảng ảo hóa như Xen [9], KVM [10], VMWare [11] và VirtualBox [12].
2.1.3

Nimbus

Nimbus [13] là bộ công cụ mã nguồn mở cung cấp cơ sở hạ tầng thơng qua dịch
vụ tính tốn đám mây với độ linh hoạt và hiệu quả cao cho người dùng trong các
lĩnh vực nghiên cứu khoa học. Nimbus hỗ trợ nền tảng ảo hóa như là Xen, KVM,
etc., đồng thời cho phép triển khai hệ thống cụm máy ảo tự cấu hình. Nimbus kết
hợp các dịch vụ tính tốn đám mây khác như OpenStack [14] và Amazon [7]
2.1.4

Xen Cloud Platform

Xen Cloud Platform [15] là giải pháp mã nguồn mở sử dụng ảo hóa để cung cấp
dịch vụ ảo hóa và tính tốn đám mây. Giải pháp này sử dụng Xen Hypervisor hỗ
trợ các dịch vụ lưu trữ, tính tốn và cơng cụ quản lý hệ thống mạng. Điểm nổi bật
của Xen Cloud Platform là tối ưu sử dụng tài nguyên, phân tải hợp lý trên máy
chủ, cho phép tiết kiệm điện năng và vì vậy giảm thiểu chi phí.
2.1.5

OpenStack

OpenStack [14] là phần mềm mã nguồn mở hỗ trợ xây dựng hệ thống tính tốn
đám mây. OpenStack bao gồm 1 nhóm các dự án liên quan đến quản lý tài nguyên

11

xử lý, lưu trữ và mạng tại các trung tâm tích hợp dữ liệu. Các dự án chính bao gồm:
OpenStack Compute dùng triển khai việc quản lý và chỉ định tài nguyên cho máy
ảo; OpenStack Object Storage dùng thực hiện việc lưu trữ; và OpenStack Image
Service đảm nhận việc đăng ký và truyền tải dịch vụ cho các đĩa ảo.
Bảng 1: Bảng so sánh các nền tảng tính tốn đám mây

Phát triển
Mục đích
Người dùng
Hệ điều hành
Kiến trúc
Ngơn ngữ
Lưu trữ
Mạng
Truy cập
Cân bằng tải
Chịu lỗi
Di trú
Kết hợp EC2

2.2
2.2.1

Eucalyptus
Đại học
Cloud EC2
Doanh nghiệp

Linux
Phân cấp
Java, C, Python
Walrus
DHCP
EC2 WS API
Controller
Controller
Có

OpenNebula
Cơng nghiệp
Cloud tư nhân
Nghiên cứu
Linux
Tập trung
Java, Ruby, C++
SCP, SQLite3
Manual
EC2 WS API
Nginx
DB Backend
Chia xẻ lưu trữ
Có

Nimbus
Đại học
Cloud nghiên cứu
Nghiên cứu
Linux

Tập trung
Java, Python
SCP, GridFTP
DHCP
EC2 WS API
Broker
Kiểm tra
Có

Xen Cloud
Cơng nghiệp
Cloud tư nhân
Doanh nghiệp
Linux, Windows
Tập trung
Caml
VastSky
Open vSwitch
CLI
XAPI
Đồng bộ
Chia xẻ lưu trữ
Có

OpenStack
Cơng nghiệp
Cloud nghiên cứu
Doanh nghiệp
Linux, Windows
Phân tán

Python
OS Store
OS Compute
Web
Controller
Nhân bản
Không

Quản lý lỗi và công cụ
Swatch

Swatch [16] là phần mềm mã nguồn mở giám sát và thu thập sự kiện dựa trên luật.
Mỗi luật chứa các mẫu so trùng biểu thức chính qui nhằm loại bỏ các sự kiện phù
hợp hoặc tiến hành các hành động cụ thể cho từng sự kiện, như là in thơng báo ra
màn hình, gửi tin nhắn, hoăc thực thi 1 chương trình ngồi. Swatch cũng hỗ trợ
các chức năng liên kết các sự kiện đơn giản, như là sử dụng ngưỡng hoặc khoảng
thời gian định trước.
2.2.2

LogSurfer

LogSurfer [17] là công cụ giám sát sự kiện dựa trên Swatch nhưng được phát triển
bằng ngơn ngữ lập trình C nhằm đáp ứng yêu cầu xử lý số lượng lớn thông báo.
LogSurfer hoạt động tương đối giống với Swatch sử dụng so trùng biểu thức chính
qui và thực thi hành động đáp ứng, đồng thời bao gồm một số tính năng mới, như
là gom nhóm các thơng báo liên quan phục vụ liên kết sự kiện.

12

2.2.3

Sec

Sec [18] là một công cụ liên kết sự kiện. Tương tự như Swatch và LogSurfer, SEC
cho phép đặc tả những luật để phù hợp với sự kiện đầu vào theo từng dịng thơng
báo và thực thi hành động tương ứng. Bên cạnh việc sử dụng biểu thức chính qui,
các chương trình con có thể được tùy chỉnh để phù hợp với những dòng dữ liệu
đầu vào, hoặc đánh giá các điều kiện. Một hành động cụ thể có thể là việc tạo ra
thông báo sự kiện, lưu trữ sự kiện, hay gọi một chương trình khác. Thêm nữa, Sec
cũng cho phép việc tạo ra các sự kiện tổng hợp và ngữ cảnh linh động.
2.2.4

Ossec

Ossec [19] là hệ thống mã nguồn mở dùng để phát hiện sự xâm phạm dựa trên
máy chủ, bao gồm một ứng dụng chính, một ứng dụng nền cho các hệ điều hành
Windows và một giao diện người dùng dựa trên nền tảng web. Các chức năng
chính của Ossec là kiểm tra tồn vẹn thơng tin lưu trữ, giám sát sự kiện, phát hiện
chương trình bất hợp pháp và đáp ứng linh hoạt. Ossec hỗ trợ một số lượng lớn
hệ điều hành và có thể phân tích sự kiện từ nhiều thiết bị và chương trình khác
nhau, như các bộ định tuyến Cisco, máy chủ thư điện tử Microsoft, OpenSSH hay
NMAP3.
2.2.5

Ganglia

Ganglia [20] là phần mềm mã nguồn mở giám sát phân bố có khả năng mở rộng
dành cho hệ thống tính tốn hiệu năng cao, như các hệ thống tính tốn cụm và
lưới. Ganglia có thiết kế phân cấp hướng đến việc giám sát hệ thống tính tốn cụm

qui mơ lớn. Phần mềm này sử dụng giao thức lắng nghe/thông báo trên nền tảng
truyền thông tin đa hướng để giám sát trạng thái của các cụm, đồng thời sử dụng
một cây kết nối điềm-điểm giữa các nút đại diện cho cụm nhằm liên kết và hợp tác
các cụm.
2.2.6

Nagios

Nagios [21] là phần mềm giám sát mã nguồn mở. Trong khi Ganglia tập trung
nhiều vào giám sát và thu thập dữ liệu sự kiến, Nagios tập trung vào hoạt động
giám sát và cảnh báo cho máy chủ, ứng dụng và thiết bị mạng.

13

2.2.7

Collectd

Collectd [22] là một chương trình nền thu thập dữ liệu thống kê hiệu suất của hệ
thống theo định kì và cung cấp những cơ chế lưu trữ dữ liệu bằng nhiều cách khác
nhau, ví dụ như dữ liệu định dạng RDD (Round Robin Database).
2.2.8

Splunk

Splunk [23] là một giải pháp thương mại phân tích dữ liệu máy để khai thác thông
tin giá trị. Dữ liệu máy được tạo ra bởi các trang web, các ứng dụng, máy chủ,
mạng, các thiết bị di động, v.v. Splunk tiếp thu dữ liệu máy và cho phép người
dùng tìm kiếm và trực quan hóa dữ liệu phục vụ giám sát và phân tích dữ liệu

truyền thông và giao dịch trên mạng. Splunkstorm là một dịch vụ dựa trên nền
tảng đám mây của Splunk.
2.2.9

Savanna

Savanna [24] là dự án này vừa được khởi xướng gần đây bởi Mirantis. Mục đích
của Savanna là kết hợp với nền tảng tính tốn đám mây OpenStack cho phép người
dùng cung cấp và quản lý các cụm tính tốn phân bố Hadoop trên OpenStack một
cách dễ dàng và hiệu quả.

14

3
3.1

Phương pháp phân tích lỗi
Giám sát và thu thập sự kiện

Nhóm tác giả của nghiên cứu [25] xem xét vấn đề lỗi xảy ra đối với 1 nhóm máy
tính nối mạng khổng lồ bao gồm trên 400 máy tính trong khoảng thời gian hơn 1
năm rưỡi. Trong nghiên cứu này, nhóm tác giả sử dụng ngưỡng thời gian để lọc
những sự kiện cảnh báo thừa.
Nghiên cứu của nhóm tác giả Liang [26] đề xuất phương pháp lọc theo ngữ
nghĩa thích nghi dữ liệu để xử lý sự kiện lỗi. Phương pháp này trình bày 1 giải
pháp hữu hiệu để loại bỏ sự kiện thừa trong dữ liệu ghi nhận. Đặc biệt, nghiên cứu
này cũng so sánh phương pháp đề xuất với các nghiên cứu trước về việc lọc theo
thời gian và không gian (phương pháp STF) [27] nhằm lọc sự kiện thu thập từ siêu
máy tính Blue Gene/L với 8192 bộ xử lý. STF là một trong những công cụ lọc đầu

tiên giải quyết vấn đề dữ liệu lỗi khổng lồ.
Tác giả của nghiên cứu [28, 29] đề xuất cách tiếp cận có thể giám sát các sự
kiện đồng thời ghi lại dữ liệu. Nghiên cứu đã thu thập 1 số lượng lớn dữ liệu bao
gồm hơn 2 triệu sự kiện từ hệ thống với 193 bộ xử lý. Nghiên cứu cũng đã kết luận
rằng dữ liệu với chất lượng kém làm ảnh hưởng tính chính xác của kết quả và dữ
liệu thiếu chi tiết cần thiết, ví dụ giám sát lỗi thất bại.
Phương pháp được phát triển bởi nhóm tác giả Tsao [30] ghi nhận và sắp xếp
dữ liệu sự kiện vào 1 cấu trúc phân cấp nhằm tối ưu lưu trữ dữ liệu. Thu thập và
lọc sự kiện được nghiên cứu trên những hệ thống nhỏ thay vì những hệ thống địi
hỏi hàng ngàn bộ xử lý.
Nhóm tác giả Lin và Siewiorek [31] phát hiện dữ liệu lỗi thường xảy ra trong
nhiều tiến trình dẫn đến việc bắt buộc phải thu thập dữ liệu trong nhiều khoảng
thời gian khác nhau.
Nghiên cứu của Tang [32, 33] sử dụng mô hình tính tốn bán Markov trên 7
máy và 4 hệ thống điều khiển chỉ ra rằng sự phân bố dữ liệu lỗi có khả năng có sự
tương quan hơn là độc lập. Hơn nữa, trong nghiên cứu [34], nhóm tác giả chứng
minh rằng những lỗi xảy ra có khuynh hướng liên quan, đồng thời họ đã nghiên
cứu sự ảnh hưởng của lỗi liên quan đến hệ thống.
Trong nghiên cứu [35], nhóm tác giả cũng đã chứng minh rằng lỗi của hệ thống
thường xuyên xảy ra trên các thành phần khác nhau của hệ thống phân tán với 503
bộ xử lý.

15

3.2

Phương pháp phân tích sự kiện

Cây hồi qui và phân loại (CART) [36] đề xuất bởi nhóm tác giả Breiman được sử

dụng rộng rãi trong lĩnh vực khai phá dữ liệu. Có 2 loại cây truy hồi và cây phân
loại. Cây phân loại cho phép dự đoán kết quả thuộc về 1 trong các lớp phân loại
của dữ liệu đầu vào, ví dụ như dự đốn thời tiết hơm nay là nắng, mưa hay gió.
Cây hồi qui dự đốn kết quả có thể là 1 số thực, ví dụ như dự đốn nhiệt độ trung
bình ngày hơm nay là 25.3, 27.5 hay 29.7 độ C. Các cây hồi qui và phân loại có
nhiều điểm giống nhau và cũng có những điểm khác biệt, ví dụ như phương pháp
được dùng để xác định vị trí rẽ nhánh khi xây dựng cây. Có nhiều biến thể của giải
thuật xây dựng cây quyết định.
ID3 (Iterative Dichotomiser 3) [37] được phát triển năm 1986 bởi J. R. Quinlan. Giải thuật này tạo ra cây đa cấp cho phép tìm kiếm thuộc tính phân loại cho
mỗi nút của cây sử dụng phương pháp vét cạn. Các thuộc tính này mang lại lơi ích
thơng tin lớn nhất cho các mục tiêu phân loại. Cây được phát triển đến kích thước
cực đại sử dụng dữ liệu có sẵn sau đó được áp dụng để đánh giá dữ liệu mới hoàn
toàn.
Giải thuật C4.5 [38] là giải thuật mở rộng của giải thuật ID3 nhằm chuyển cây
được xây dựng từ giải thuật ID3 thành tập hợp các luật nếu-thì. Đánh giá độ chính
xác của các luật xác định thứ tự các luật được sử dụng. Thay vì tìm kiếm các thuộc
tính phân loại, giải thuật này sử dụng biến kiểu số để định nghĩa 1 thuộc tính rời
rạc đồng thời chia các giá trị của thuộc tính liên tục thành 1 tập hợp rời rạc các
phân đoạn.
CHAID (Chi-squared automatic interaction detector) [39] sử dụng rẽ nhánh đa
cấp để xây dựng cây phân loại. Giải thuật này tập trung vào các dự đoán và mục
tiêu phân loại. Đầu tiên giải thuật này tính tốn chi-square giữa biến mục tiêu và
mỗi dự đốn có sẵn, sau đó sử dụng dự đốn tốt nhất để chia dữ liệu mẫu thành
các phần nhỏ hơn. Quá trình này lặp lại cho các phần cho đến khi khơng cịn rẽ
nhánh. Có nhiều sự khác biệt giữa 2 giải thuật CHAID và CART: (1) CHAID sử
dụng phép đo chi-square để nhân dạng các rẽ nhánh, trong khi CART sử dụng luật
Gini và Entropy; (2) CHAID hỗ trợ rẽ nhánh đa cấp cho các dự đoán với nhiều
hơn 2 cấp, trong khi CART chỉ hỗ trợ rẽ nhánh nhị phân và nhân dạng rẽ nhánh
nhị phân tốt nhất đối với dự đoán liên tục hoặc dự đoán phân loại phức tạp; (3)
CHAID không loại bỏ nhánh cây, trong khi CART loại bỏ nhánh cây bằng cách

kiểm tra đối chiếu tập dữ liệu độc lập hoặc kiểm tra chéo tập dữ liệu.

16

4

Đề xuất giải pháp

Hệ thống giám sát mạng trong quá trình vận hành ghi lại các thơng báo lỗi, cảnh
báo, thông tin, v.v. đồng thời gửi thông báo cho người quản trị hệ thống. Người
quản trị thường xuyên kiểm tra và tìm hiểu các thơng báo để chắc chắn hệ thống
hoạt động ổn định. Tuy nhiên, số lượng thông báo rất lớn gây khó khăn trong việc
phát hiện lỗi thực sự tiềm tàng và người quản trị dễ dàng bỏ qua. Giải pháp đề
xuất tập trung vào 2 bước: (i) sử dụng phương pháp lọc ngữ nghĩa thích nghi với
ngưỡng động phù hợp với dữ liệu lọc thông báo nhằm giảm số lượng đáng kể
thông báo không cần thiết; (ii) sử dụng cây quyết định được xây dựng từ dữ liệu
lỗi trong quá khứ để đánh giá thông báo lỗi tiềm năng. Người quản trị căn cứ vào
đánh giá này để quyết định tìm hiểu thơng báo và ghi nhận lỗi nếu tồn tại.

4.1

Kiến trúc hệ thống

Kiến trúc hệ thống đề xuất được mơ tả trong Hình 2 dựa trên mạng chia xẻ ngang
hàng với các đặc điểm nổi bật về khả năng tự quản trị, khả năng mở rộng kiến
trúc và hiệu quả trong phân phối dữ liệu trong mơi trường phân bố. Chia xẻ và
tìm kiếm trong mạng chia xẻ ngang hàng rất hiệu quả do câu truy vấn có thể được
xử lý bởi 1 nhóm các máy ngang hàng trên cơ sở dữ liệu phân loại, vì vậy tránh
chi phí tính tốn cao so với sử dụng những máy chủ tập trung. Trong mơ hình liên

kết đám mây, chúng tôi đề xuất hệ thống quản lý lỗi (fault manager hay FM) cho
mỗi hệ thống tính tốn đám mây. FM bao gồm các thành phần giám sát lỗi (fault
monitor hay FR), kiểm tra lỗi (fault checker hay FC) và cơ sở dữ liệu lỗi (fault
database hay FD).
FR sử dụng các công cụ giám sát, như là Ganglia [20], Nagios [21] và Rsyslog [40], để giám sát nhiều thông số về dịch vụ, hệ thống, mạng, v.v, và thu thập
các thơng báo từ hệ thống tính tốn đám mây, đồng thời lọc thông báo không quan
trọng nhằm giảm số lượng thông báo. FR gửi các thông báo quan trọng đến người
quản trị và thành phần kiểm tra lỗi. FC hoạt động dựa trên cơ sở dữ liệu lỗi có sẵn
để tìm kiếm dữ liệu lỗi tương tự phục vụ đánh giá và phát hiện lỗi. FC bao gồm 1
động cơ máy học cho phép học từ dữ liệu lỗi từ trước, xây dựng thành cây quyết
định và sau đó dùng cây quyết định để đánh giá các thông báo lỗi. FD là thành
phần cơ sở dữ liệu thường xuyên cập nhật dữ liệu lỗi từ hệ thống thu nhận lỗi trực
tuyến, diễn đàn, kho lưu trữ trực tuyến, v.v. FM có khả năng hoạt động độc lập
trên 1 hệ thống tính tốn đám mây hoặc liên kết với các FM trên các hệ thống đám
mây khác nhằm nâng cao số lượng dữ liệu lỗi và năng lực sử dụng dữ liệu lỗi trên
17

Hình 2: Kiến trúc hệ thống liên kết tính tốn đám mây tích hợp giải pháp giám sát
và phát hiện lỗi
toàn hệ thống. Các nghiên cứu trước đây của cùng nhóm tác giả [41, 42, 43, 44]
đã đề xuất giải pháp tìm kiếm và xử lý lỗi dựa trên lý luận theo trường hợp cho
hệ thống phân bố và mạng truyền thông. Một số giải pháp của hệ thống này áp
dụng trong hệ thống này ví dụ mạng chia xẻ ngang hàng, trong khi đó hệ thống
này khơng tập trung vào lý luận theo trường hợp mà sử dụng phương pháp lọc sự
kiện và đánh giá lỗi dựa trên cây quyết định. Hình 3 mơ tả giao tiếp giữa các thành
phần của hệ thống đánh giá và phát hiện lỗi.

4.2

Lọc sự kiện

Nhóm nghiên cứu của Tran đề xuất giải pháp ASF-BDT để liên kết các sự kiện.
Giải pháp ASF nguyên thủy bao gồm nhiều phương pháp lọc và tính tốn hệ số
Phi, như mơ tả trong Hình 4. Giải pháp này lấy dữ liệu sự kiện, xử lý với các
phương pháp lọc đơn giản và phức tạp và cuối cùng trả về tập dữ liệu các sự kiện
có liên quan. Dữ liệu sự kiện thường rất lớn và bao gồm sự kiện trùng lắp. Một
giải pháp ASF hiệu quả cần loại bỏ những sự kiên trùng lắp với thời gian xử lý
thấp nhất.

18

Hình 3: Giao tiếp các thành phần của hệ thống giám sát và phát hiện lỗi
4.2.1

Lọc theo thuộc tính

Phương pháp lọc theo thuộc tính lựa chọn các sự kiện từ tập dữ liệu dựa trên các
luật đơn giản và các đặc trưng. Dữ liệu sự kiện bao gồm nhiều đặc trưng, ví dụ
như hệ thống bị tác động liên quan, thuộc tính thời gian, mức độ nghiêm trọng,
mơ tả sự kiện, v.v. Các sự kiện lỗi nghiêm trọng là những trường hợp nguy hiểm
ảnh hưởng trực tiếp đến hệ thống được lựa chọn để phân tích, trong khi các sự kiện
ít nghiêm trọng hơn có thể bị loại bỏ. Các sự kiện xảy ra đồng thời trong cùng 1
hệ thống, ví dụ như các sự kiện xảy ra gần như cùng thời điểm hoặc thể hiện sự
liên quan, có thể bị loại bỏ. Phương pháp này sử dụng khoảng cách thời gian để
xác định có hay khơng 1 cặp sự kiện liên quan. Khoảng cách thời gian dựa trên
ngưỡng để xử lý dữ liệu. Thông thường, môt hệ thống giám sát có thể gửi nhiều sự
kiện trong 1 khoảng thời gian ngắn khi lỗi xảy ra, nhựng các sự kiện này có liên
quan với nhau. Tuy nhiên, vẫn có nhiều trường hợp 2 sự kiện được ghi nhận xảy

ra cùng thời gian nhưng chúng là 2 lỗi hoàn toàn khác nhau. Hơn nữa, các sự kiện
có cùng lỗi thơng báo cũng có thể thuộc về hai lỗi khác nhau. Trường hợp này cần
xử lý bằng khoảng cách thời gian thông qua việc so sánh khoảng thời gian t giữa
2 sự kiện liên tiếp với giá trị ngưỡng được định trước T: nếu t nhỏ hợn T, 1 trong 2
sự kiện có thể bị loại bỏ. Việc chọn lựa ngưỡng T rất khó khăn do một số sự kiện
lỗi nghiêm trọng có thể bị bỏ qua nếu T quá nhỏ, ngược lại, phương pháp có thể
chọn nhiều sự kiện trùng lắp.
19

Hình 4: Giải pháp lọc ngữ nghĩa thích nghi cho các sự kiện liên quan
4.2.2

Lọc theo ngữ nghĩa

Lọc theo thuộc tính giảm phần nào sự kiện trùng lắp, phương pháp này gặp khó
khăn trong việc lựa chọn ngưỡng phù hợp dẫn đến kết quả khơng chính xác.
Phương pháp này cũng bỏ qua sự tương tự về mặt ngữ nghĩa của các sự kiện
dựa chủ yếu vào mô tả dạng ngôn ngữ tự nhiên. Vì vậy, sự kết hợp của phương
pháp lọc theo thuộc tính và theo ngữ nghĩa cho kết quả chính xác hơn nhiều. Sự
quan sát cẩn thận dữ liệu sự kiện tiết lộ rằng ngoài hệ số liên quan, sự giống nhau
giữa 2 sự kiện đóng vai trị quan trọng trong việc xác định có hay khơng 2 sự kiện
là một. Hai sự kiện có thời gian xảy ra gần nhau, ngay cả sự liên quan của 2 sự
kiện rất thấp, chúng vẫn có thể xảy ra do cùng 1 lỗi; hoặc 2 sự kiện có thời gian
xảy ra khác nhau, sự mô tả 2 sự kiện giống nhau, chúng có thể xảy ra do cùng 1
lỗi. Thực tế cho thấy rằng, phương pháp lọc theo ngữ nghĩa kiểm tra hệ số của 2
sự kiện nếu chúng không bị lọc bởi phương pháp lọc theo thuộc tính.
Giải pháp ASF bao gồm hai chức năng lọc chính là lọc theo từ điển và lọc theo
hệ số Φ. Chức năng thứ nhất liên quan đến xử lý các mô tả sự kiện là ngôn ngữ tự
nhiên. Chức năng này loại bỏ những từ khóa khơng quan trọng và lưu giữ những

từ khóa đặc trưng cho sự kiện nhằm tạo ra sự khác biệt khi so sánh với các sự kiện
khác. Nhiều từ khóa như mạo từ, giới từ, động từ chung, kí tự đặc biệt và một số
từ định nghĩa trước trong từ điển đều bị loại bỏ. Những danh từ hoặc động từ số
nhiều ở một số định dạng được xử lý bằng giải thuật gốc từ Porter [45]. Bên cạnh
đó, tính tốn hệ số Φ địi hỏi chuyển các sự kiện đã xử lý từ điển sang vector nhị
phân. Q trình chuyển như sau: cho n từ khóa tương ứng 1 vector với n thành
phần, và mỗi thanh phần tương ứng với 1 từ khóa. Việc chuyển các mô tả sự kiện
thành các vector trở nên đơn giản: giá trị 1 tương ứng mô tả sự kiện bao gồm từ
khóa và giá trị 0 tương ứng ngược lại. Sau khi tạo ra vector nhị phân cho mỗi sự
kiện, chúng tôi sử dụng hệ số tương quan của Pearson [46] để tính tốn hệ số Φ
cho cặp vector nhị phân theo Bảng 2:

20

Bảng 2: Bảng quan hệ của vector nhị phân X và Y.
Y(0)
Y(1) Tổng hàng
X(0)
n(00) n(01)
n(0+)
X(1)
n(10) n(11)
n(1+)
Tổng cột n(+0) n(+1)
n
trong đó, X(0) , X(1) , Y(0) và Y(1) lần lượt là tất cả thành phần của X hoặc của
Y với giá trị 0 hoặc 1; n(00) , n(11) lần lượt là tất cả thành phần của X and Y với
giá trị giống nhau; n(01) , n(10) lần lượt là tất cả thành phần của X và của Y với giá
trị khác nhau; n(0+) , n(1+) lần lượt là tất cả thành phần của X với giá trị 0 hoặc 1;

n(+0) , n(+1) lần lượt là tất cả thành phần của Y với giá trị 0 hoặc 1. Hệ số Φ của 2
vector X và Y được tính tốn bằng cơng thức sau:
Φ=
4.2.3

n(00) n(00) −n(01) n(10)
√
n(0+) n(1+) n(+0) n(+1)

(1)

Ngưỡng giới hạn động

Phần khó nhất của giải pháp ASF chính là lựa chọn ngưỡng phù hợp cho việc liên
quan sự kiện. Theo công thức (1), hệ số Φ nằm trong khoảng -1 đến +1, trong đó
±1 thể hiện sự liên quan hồn tồn hoặc đối nghịch hoàn toàn, và 0 thể hiện chẳng
liên quan gì cả. Liên quan ngữ nghĩa sự kiện định nghĩa mối liên quan của 2 sự
kiện theo ngữ nghĩa. Hai sự kiện có hệ số Φ từ 0.5 đến 0.8 có thể được xem như kết
quả tốt nhất của giải pháp ASF. Chúng tôi đề xuất ngưỡng giới hạn động [47] để
xác định khoảng giá trị của hệ số Φ phù hợp với tập dữ liệu sự kiện, ví dụ, khoảng
giá trị từ 0.5 đến 0.8 liên quan các sự kiện hoặc không quá đơn giản hoặc không
quá đối nghịch. Ngưỡng này thay đổi trong 1 khoảng tùy theo ảnh hưởng của giá
trị ngưỡng từ trước và giá trị hệ số Φ hiện tại theo tỉ lệ 80% và 20% (tham số thực
nghiệm):
Thresholdnew = 0.8×Thresholdold + 0.2×Φcurrent (2)

4.3

Phát hiện lỗi

Giải pháp CART [48] sử dụng tiến trình chia nhị phân để xây dựng cây quyết định.
Tiến trình này bắt đầu với nút gốc, tại đó dữ liệu được chia làm 2 nút con và mỗi
nút con tiếp tục chia thành các nút cháu. Quá trình này thực hiện đệ qui cho đến
khi khơng cịn khả năng phân chia tại nút do thiếu dữ liệu hoặc cây đạt kích thước
cực đại. Tiến trình này xử lý dữ liệu thuộc tính định dạng liên tục hoặc nhãn tương
ứng các mục tiêu và dự đoán.
21

4.3.1

Luật chia theo entropy

Cây quyết định được xây từ trên xuống và đòi hỏi chia dữ liệu thành các tập con
bao gồm các phần tử tương tự nhau (có thể gọi là đồng nhất). Giải thuật CART sử
dụng entropy để tính tốn độ đồng nhất của 1 mẫu.
H(S) = −Σx∈X P (x)logP (x)

(1)

trong đó, S là tập dữ liệu hiện hành để tính tốn entropy. X là tập các lớp trong
S. P (x) là tỉ lệ giữa số lượng phần tử trong lớp x và số lượng phần tử trong tập S.
Khi H(S)=0 tập S được phân loại hồn tồn.
Thơng tin tăng thêm IG(A, S) đánh giá sự khác nhau về entropy từ trước và
sau khi tập S được phân chia dựa trên 1 thuộc tính cụ thể A. Nói cách khác, sau
khi phân chia tập S dựa trên thuộc tính A, mức độ ổn định của tập S tăng được
bao nhiêu.
IG(A, S) = H(S) − Σt∈T P (t)H(t)
(2)

trong đó, H(S) là entropy của tập S. T là tập con được tạo ra từ việc chia tập S
dựa trên thuộc tính A. P (t) tỉ lệ giữa số lượng phần tử trong t và số lượng phần tử
trong tập S. H(t) là entropy của tập con t. Thông tin tăng thêm được tính (thay vì
entropy) cho mỗi thuộc tính cịn lại. Thuộc tính với thơng tin tăng thêm lớn nhất
được chọn để chia tập S trong bước lặp này.
4.3.2

Tiến trình phát triển cây

Tiến trình phát triển cây sử dụng tập các thuộc tính của dữ liệu làm dữ liệu đầu
vào. Một thuộc tính có thể có các kiểu dữ liệu số, liệt kê hoặc liên tục. Tiến trình
lựa chọn sự phân chia tốt nhất trong số các khả năng phân chia bao gồm tất cả khả
năng phân chia cho từng thuộc tính. Kết quả của việc phân chia là 2 tập con của
tập dữ liệu thuộc tính. Mỗi phân chia phụ thuộc vào giá trị của chỉ 1 thuộc tính.
Tiến trình bắt đầu với nút gốc của cây và thực hiện lặp lại 3 bước trên mỗi nút để
phát triển cây, như trong Hình 5.
Bước đầu tiên tìm sự phân chia tốt nhất của mỗi đặc trưng. Vì các giá trị thuộc
tính có thể được tính tốn và sắp xếp các khả năng phân chia. Sự phân chia tốt
nhất cực đại các tiêu chuẩn chỉ định trước. Bước thứ 2 tìm sự phân chia tốt nhất tại
nút trong số nhưng phân chia tốt nhất được tìm thấy trong bước 1. Sự phân chia tốt
nhất cũng cực đại các tiêu chuẩn chỉ định trước. Bước thứ 3 chia nút sử dụng sự
phân chia tốt nhất tìm thấy trong bước 2 nếu điều kiện ngừng chưa đáp ứng. Các
điều kiện ngừng tiến trình bao gồm:
22

Hình 5: Tiến trình phát triển cây quyết định CART
• nếu nút trở nên đồng nhất; i.e., nghĩa là tất cả sự kiện dữ liệu của nút có giá
trị tương đồng, nút khơng bị chia.
• nếu tất cả sự kiện dữ liệu của nút có giá trị tương đồng đối với mỗi dự đốn,

nút khơng bị chia.
• nếu độ sâu hiện hành của cây đạt giá trị giới hạn tối đa định nghĩa trước bởi
người dùng, tiến trình phát triển cây khơng tiếp tục.
• nếu kích thước nút nhỏ hơn kích thước nút tối thiểu định nghĩa trước bởi
người dùng, nút khơng bị chia.
• nếu sự phân chia nút tạo ra nút con, trong đó kích thước của nút con nhỏ
hơn kích thước nút con tối thiểu định nghĩa trước bởi người dùng, nút khơng
bị chia.
Hình 6 minh họa 1 cây CART mẫu với 4 mức (tham khảo ở trang tiếp theo).
Cây quyết định thường rất lớn khi dữ liệu lớn.

23

Hình 6: Cây phân loại và truy hồi CART mẫu

24

entropy = 1.4744
samples = 1779
value = [ 1163. 243. 202. 171.]

entropy = 1.5646
samples = 10318
value = [ 6248. 1774. 796. 1500.]

X[2] <= 3.5000
entropy = 1.55542606372
samples = 12097

entropy = 1.4311
samples = 6096
value = [ 4053. 723. 428. 892.]

entropy = 1.3791
samples = 9051
value = [ 6221. 1245. 883. 702.]

X[3] <= 2.5000
entropy = 1.40978756385
samples = 15147

X[2] <= 12.5000
entropy = 1.47891189269
samples = 27244

84.]

entropy = 1.1817
samples = 896
value = [ 655. 54. 156. 31.]

X[3] <= 2.5000
entropy = 1.16931432178
samples = 2394

X[3] <= 17.5000
entropy = 1.20066422829
samples = 2548

entropy = 1.1413
samples = 1498
value = [ 1151. 128. 135.

X[0] <= 0.5000
entropy = 1.46119573299
samples = 29792

entropy = 1.6749
samples = 50
value = [ 16. 7. 3. 24.]

X[3] <= 19.5000
entropy = 1.49392178418
samples = 154

entropy = 1.1084
samples = 104
value = [ 81. 8. 9. 6.]

5

Đánh giá giải pháp

Chúng tôi phát triển và thử nghiệm các giải pháp cho hệ thống máy tính cụm bao
gồm 100 máy tính mạng tại trung tâm tính tốn hiệu năng cao của trường Đại học
Quốc tế. Mỗi nút trang bị bộ vi xử lý Intel Xeon 2.4GHz 4 lõi và 2GB bộ nhớ. Hệ
thống máy tính cụm cài đặt và sử dụng nền tảng tính tốn Apache Hadoop [49]
cho phép thực hiện nhiều tác vụ tính tốn và ghi nhận các sự kiện trong khi thực

thi vào cơ sở dữ liệu. Các nút Hadoop sử dụng nhiều bộ thu thập sự kiện như là
Jobtracker, Namenode, ZooKeeper để ghi nhận tất cả sự kiện xảy ra. Hệ thống thử
nghiệm bao gồm 25% nút chạy khơng ổn định và có thể gây ra lỗi trong quá trình
thực thi tác vụ. Hình 7 thống kê kích thước của tập dữ liệu sự kiện và số lượng sự
kiện thu thập trong khoảng thời gian 6 ngày. Tổng kích thước của tập dữ liệu tăng
tuyến tính, đặc biệt là 3 ngày cuối tập dữ liệu đạt xấp xỉ 600MB. Tập dữ liệu sự
kiện cảnh báo cũng tăng tuyến tính giống như tập dữ liệu tổng, trong khi đó tập dữ
liệu sự kiện thơng tin và lỗi tăng chậm theo ngày. Tổng số lượng sự kiện khoảng
2.5 triệu bao gồm xấp xỉ 1.6 triệu sự kiện cảnh báo và 31 ngàn sự kiện lỗi.

Size (MB)

600

3

Log data
Info event
Warn event
Error event

6

700

Number of Events (x10 )

800

500

400
300
200
100
0

2.5
2

Log data
Info event
Warn event
Error event

1.5
1
0.5
0

1

2

3
4
Time (day)

5

6

1

2

3
4
Time (day)

5

6

Hình 7: Thu thập dữ liệu sự kiện khác nhau trong khoảng thời gian 6 ngày
Thử nghiệm thứ nhất liên quan đến thành phần giám sát lỗi nhanh chóng lọc
sự kiện tạo ra 1 tập nhỏ hơn các sự kiện có khả năng gây lỗi. Kích thước của tập dữ
liệu sự kiện cảnh báo bao gồm 1.6 triệu với nhiều sự kiện liên quan hoặc trùng lặp,
nghĩa là căn cứ trên khoảng thời gian và thông báo sự kiện. Thành phần này áp
dụng giải pháp ASF và ASF-BDT để loại bỏ các sự kiện không cần thiết nêu trên
sử dụng các giá trị ngưỡng và khoảng giá trị Φ khác nhau. Hình 8 bên trái thể hiện
giải pháp ASF-BDT với khoảng giá trị Φ có hiệu suất cao hơn ASF với khoảng
giá trị Φ không giới hạn. Số lượng sự kiện thu được tương ứng giá trị Φ >0.3
and Φ >0.5 tương đối cao so với các khoảng tương ứng giá trị 0.3< Φ <0.8 and
0.6< Φ <0.8
25

1800

2

0.8>Φ>0.3
0.8>Φ>0.6
Φ>0.3
Φ>0.5

Time Consumption (s)

Number of Results (x105)

2.5

1.5
1
0.5

1600
1400
1200
1000
800
600
400
2.5 mil. events
1.6 mil. warn events

200
0

0

10

10.01
10.03
Threshold (s)

10

10.05

10.01
10.03
Threshold (s)

10.05

Hình 8: Số lượng sự kiện thu được tương ứng các khoảng giá trị Φ khác nhau của
giải pháp ASF và ASF-BDT đối với các giá trị ngưỡng khác nhau (bên trái). Thời
gian thực thi của giải pháp ASF-BDT với khoảng giá trị 0.6< Φ <0.8 đối với các
giá trị ngưỡng khác nhau (bên phải)
Kết quả thu được tương ứng khoảng giá trị Φ >0.3 khác rất xa so với các
khoảng giá trị khác trong khoảng thời gian 10.03 giây, nghĩa là, thu được xấp xỉ
170.000 sự kiện kết quả tại T = 10.0 giây. Kết quả thu được của khoảng giá trị
tốt nhất 0.6< Φ <0.8 bao gồm số lượng tương đối thấp các sự kiện kết quả cũng
trong khoảng thời gian 10.03 giây. Như vậy, tương ứng mỗi tập dữ liệu sự kiện tồn
tại khoảng giá trị Φ để thu được kết quả lọc tốt nhất. Giải pháp ASF-BDT đề xuất
giải thuật lựa chọn khoảng giá trị Φ để lọc sự kiện hiệu quả nhất.
Hình 8 bên phải thể hiện thời gian thực thi của giải pháp ASF-BDT với khoảng
giá trị 0.6< Φ <0.8 cho tập dữ liệu tổng và tập dữ liệu sự kiện cảnh báo. Thời
gian thực thi đối với cả 2 tập dữ liệu tương đối ổn định với các giá trị ngưỡng khác

nhau. Giải pháp ASF-BDT xem xét khoảng thời gian (ngưỡng T) trước khi tiến
hành tính tốn hệ số Φ nhằm loại bỏ 1 số lượng lớn các sự kiện liên quan. Thời
gian thực thi tại T = 10.03 giây cao hơn một ít so với các ngưỡng khác do phát
hiện 1 số lượng lớn các sự kiện liên quan trong ngưỡng này. Dữ liệu sự kiện thu
thập từ các phần mềm ghi nhận sự kiện riêng biệt có các thuộc tính khác nhau cần
lưu ý nhằm giảm thời gian thực thi khi xử lý các tập dữ liệu lớn trong thực tế.
Chúng tôi sử dụng tập dữ liệu lỗi bao gồm 500.000 báo cáo lỗi để thử nghiệm
thành phần kiểm tra lỗi. Các báo cáo lỗi thu thập từ các hệ thống theo dõi lỗi trực
tuyến, hỗ trợ sản phẩm, diễn dàn trực tuyến hoặc kho lưu trữ lỗi, v.v. Tập dữ liệu
lớn tạo ra cây quyết định lớn ảnh hưởng hiệu suất đánh giá và thực thi do độ phức
tạp và tốn kém bộ nhớ của cây. Nghiên cứu [50] chỉ ra vấn đề của cây quyết định
lớn và đề xuất giải pháp xây dựng cây quyết định từ các tập dữ liệu lớn. Giải pháp
xây dựng 1 tập các cây quyết định dựa trên các tập dữ liệu huấn luyện có kích
26

Fault analysis and search on cloud and inter cloud systems

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về