HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Trần Kiên
NGHIÊN CỨU CÁC PHƯƠNG PHÁP PHÁT HIỆN BẤT
THƯỜNG VÀ XEM XÉT KHẢ NĂNG ỨNG DỤNG CHO
HỆ THỐNG MÁY CHỦ TÊN MIỀN DNS QUỐC GIA (.VN)
Chuyên ngành: Kỹ thuật điện tử
Mã số: 60.52.70
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2011
2
Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: PGS.TS Hoàng Minh
Phản biện 1: ………………………………………………………………………
Phản biện 2: ……………………………………………………………………
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện
Công nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
3
MỞ ĐẦU
Ngày nay Internet ngày càng có vai trò quan trọng và ảnh hưởng to lớn trong
mọi mặt đời sống kinh tế xã hội. Trong đó hệ thống máy chủ tên miền DNS [3] được
xem là trái tim của mạng Internet, phải được bảo vệ an toàn, đảm bảo hoạt động thông
suốt, liên tục và hiệu quả. Những năm gần đây, ngày càng nhiều các vụ tấn công vào hệ
thống máy chủ tên miền, nhiều vụ đã gây ra những hậu quả vô cùng nghiêm trọng ảnh
hưởng đến việc truy nhập Internet trên nhiều khu vực. Một trong các vụ tấn công điển
hình vào hệ thống DNS đã xảy ra ở Trung quốc vào ngày 20/5/2009, hệ quả làm cho
truy cập Internet tại 5 tỉnh miền Bắc, duyên hải Trung Quốc đã bị ảnh hưởng nặng nề
sau khi xảy ra một vụ tấn công DNS nhắm vào một công ty gây nên các yêu cầu thông
tin không trả lời làm “lụt” nhiều mạng viễn thông của Trung Quốc [25].
Ở Việt Nam, hệ thống máy chủ tên miền DNS quốc gia (.VN) do Trung tâm
Internet Việt Nam (VNNIC) quản lý hơn 10 năm qua luôn hoạt động thông suốt, an
toàn và hiệu quả góp phần không nhỏ vào sự phát triển của Internet Việt Nam. Tuy
nhiên, hệ thống DNS luôn tiềm ẩn nhiều nguy cơ bị tấn công phá hoại, trong khi đó
chúng ta lại chưa có hệ thống phát hiện sớm các hiện tượng bất thường có khả năng
ảnh hưởng đến vấn đề an toàn an ninh của hệ thống máy chủ tên miền DNS quốc
gia (.VN). Do vậy, luận văn nghiên cứu các phương pháp phát hiện bất thường và xem
xét khả năng ứng dụng cho hệ thống máy chủ tên miền DNS quốc gia (.VN) rất cần
thiết, có ý nghĩa thực tiễn và khả thi cao. Cụ thể, luận văn thực hiện việc phân tích trực
tiếp các dữ liệu truy vấn tên miền, qua đó giúp phát hiện sớm và đưa ra cảnh báo kịp
thời theo thời gian thực các vấn đề về an toàn an ninh của hệ thống máy chủ tên miền
DNS quốc gia (.VN).
Luận văn gồm các nội dung như sau:
- Mở đầu.
- Chương 1: Tổng quan hệ thống tên miền DNS.
- Chương 2: Nghiên cứu các phương pháp phát hiện bất thường.
- Chương 3: Thử nghiệm cho một số máy chủ tên miền DNS quốc gia (.VN)
- Kết luận.
Luận văn đã thực hiện được việc nghiên cứu phương pháp phát hiện bất thường
ứng dụng cho hệ thống máy chủ tên miền DNS quốc gia (.VN). Tuy nhiên, do điều kiện
thời gian và hạn chế về trình độ nên tác giả chưa nghiên cứu được phương pháp toán
thống kê (Entropy) ứng dụng cho việc phân tích, xử lý dữ liệu truy vấn tên miền. Tác
giả mong rằng sau này có điều kiện sẽ tiếp tục nghiên cứu chuyên sâu hơn về chuyên đề
này, việc ứng dụng toán thống kê sẽ giúp chúng ta giải được bài toán xử lý với khối
lượng dữ liệu lớn và phức tạp mà các phương pháp thông thường khó có thể làm được.
4
CHƯƠNG 1: TỔNG QUAN HỆ THỐNG TÊN MIỀN DNS
Tóm tắt chương
Chương 1 nghiên cứu tổng quan về hệ thống tên miền, không gian tên miền và
hoạt động của hệ thống máy chủ tên miền DNS, các biểu hiện bất thường của hệ thống
máy chủ tên miền DNS, nghiên cứu về hệ thống máy chủ tên miền DNS quốc gia (.VN)
do VNNIC quản lý, phân tích các vấn đề tồn tại đối với hệ thống máy chủ tên miền DNS
quốc gia (.VN) và đề xuất hướng nghiên cứu của luận văn.
1.1. Hệ thống tên miền DNS và các biểu hiện bất thường
1.1.1. Lịch sử phát triển của hệ thống tên miền
Vào những năm 1970, mạng máy tính ARPANET [8] chỉ bao gồm vài trăm máy
tính được kết nối với nhau. Trên mạng máy tính này, một file duy nhất HOSTS.TXT
được dùng để lưu các thông tin về máy tính trên mạng. File này lưu giữ các thông tin
ánh xạ giữa tên máy và địa chỉ của tất cả các máy nối vào mạng ARPANET. Tuy nhiên,
khi mạng ARPANET phát triển, cơ chế làm việc này không thích hợp và không thể đáp
ứng để cập nhật các thông tin được thay đổi trên mạng. Kích thước của file
HOSTS.TXT thay đổi tỷ lệ thuận với số máy tính có trên mạng. Khi mạng máy tính
ARPANET sử dụng giao thức TCP/IP thì số lượng máy tính trên mạng bùng nổ nhanh
chóng.
Việc bảo trì file HOSTS.TXT trên một mạng rộng lớn ngày một khó khăn hơn.
Trước khi file HOSTS.TXT có thể chuyển đến một máy tính trên mạng thì máy tính
này có thể đã bị thay đổi địa chỉ hay đã bị thay đổi bằng một máy tính khác.
Các nhà quản lý mạng ARPANET tiến hành xây dựng một cơ cấu mới thay thế
cho việc dùng file HOSTS.TXT để chuyển đổi giữa tên máy và địa chỉ của máy. Hệ
thống mới phải cho phép quản lý dữ liệu một cách cục bộ. Việc quản lý không tập trung
sẽ loại bỏ được các vấn đề về quá tải lưu lượng đối với một máy tính khi xử lý các dữ
liệu về chuyển đổi tên máy và địa chỉ. Việc quản lý dữ liệu cục bộ cũng làm cho việc
cập nhật dữ liệu thường xuyên được thực hiện dễ dàng hơn. Hệ thống mới phải sử dụng
không gian tên theo cơ cấu phân cấp để đặt tên cho các máy tính trên mạng. Việc này
đảm bảo được tính duy nhất về tên miền trên mạng.
Hệ thống mới này do Ông Paul Mockapetris thuộc Viện Nghiên cứu Kỹ thuật
Thông tin xây dựng. Vào năm 1984, ông đưa ra hai tài liệu tiêu chuẩn (RFC) 882 và
883 miêu tả về hoạt động của hệ thống DNS. Sau đó là hai tài liệu tiêu chuẩn (RFC)
1034 và 1035, hai RFC này xác định các chỉ tiêu hoạt động của hệ thống DNS.
5
1.1.2. Hệ thống tên miền DNS
Hệ thống tên miền là một cơ sở dữ liệu phân bố. Cơ sở dữ liệu này cho phép
quản lý một cách cục bộ các phần khác nhau trong toàn bộ hệ thống tên miền, tuy nhiên
dữ liệu trong mỗi phần này có thể được truy cập trên toàn mạng thông qua cơ chế máy
khách – máy chủ (client-server). Cơ chế đệm (caching) dữ liệu và khả năng trả lời các
yêu cầu về tên miền của các máy chủ tên miền đảm bảo tính ổn định và đồng nhất của
hệ thống tên miền.
Hệ thống tên miền bao gồm các thành phần:
- Chương trình name server (máy chủ tên miền): Chương trình máy chủ tên miền
(name server) hoạt động trên cơ chế client-server lưu giữ các thông tin về một
phần của toàn bộ dữ liệu tên miền và có nhiệm vụ trả lời các máy client (resolver)
về các thông tin liên quan đến tên miền.
- Chương trình phân giải tên miền (Resolver): Thông thường là một chương trình
có khả năng tạo ra các câu hỏi liên quan tới tên miền và gửi chúng tới máy chủ
tên miền.
- Không gian tên miền: Cấu trúc của không gian tên miền DNS, được chỉ ra trong
hình 1.1. Toàn bộ cơ sở dữ liệu về tên miền được xây dựng theo cấu trúc hình cây
ngược, với gốc của cây (root) là điểm khởi đầu. Trong hệ thống DNS, tên của gốc
(root) là một nhãn rỗng (“ ”), nhưng được viết như một dấu chấm đơn “.”
Hình 1.1: Cấu trúc không gian tên miền
6
1.1.2.1. Không gian tên miền DNS
Không gian tên miền được xây dựng theo cấu trúc hình cây ngược. Mỗi một
“node” trên cây thể hiện một phần của toàn bộ dữ liệu, hay một tên miền (domain)
trong hệ thống tên miền. Mỗi tên miền này lại có thể được chia thành các tên miền cấp
thấp hơn (sub-domain), các subdomain này là “con” của các domain “mẹ” đã sinh ra
chúng.
Mỗi phần dữ liệu trong cơ sở dữ liệu phân bố của hệ thống DNS được gắn với
một tên. Các tên này là các đường trong cấu trúc dạng hình cây ngược, cấu trúc này
chính là không gian tên miền (domain name space). Cấu trúc hình cây này được minh
hoạ trong hình 1.1. Không gian tên miền có cấu trúc tương tự với cấu trúc hệ thống file
UNIX [12]. Cấu trúc cây này có một gốc ở trên cùng và được gọi là “root”. Cấu trúc
hình cây này cho phép không gian tên miền có thể phát triển theo bất cứ hướng nào từ
các điểm giao nhau (node). Hệ thống tên miền hiện tại cho phép phát triển cấu trúc
không gian tên miền này tối đa là 127 cấp.
1.1.2.2. Tên miền (Domain name)
Mỗi một node trong cấu trúc hình cây được gắn với một nhãn nhất định (label).
Nhãn này có thể chứa tới 63 ký tự. Gốc (root) của cây không có nhãn. Một tên miền đầy
đủ của một node trên cây là một chuỗi các nhãn trên đường từ node đó đến gốc (root)
của cây, các nhãn này được phân cách với nhau bằng dấu chấm đơn ‘.’. Tên miền luôn
được đọc theo chiều từ node đến gốc (root).
Hệ thống DNS yêu cầu các node do cùng một node mẹ sinh ra phải có tên khác
nhau. Hạn chế này chỉ áp dụng với các node thuộc cùng một node mẹ, với các node do
hai node mẹ khác nhau sinh ra, chúng có thể trùng tên, nhưng vẫn đảm bảo tính duy
nhất của một tên miền trong không gian tên miền.
1.1.2.3. Miền (Domain)
Domain là một nhánh trong không gian tên miền. Tên miền của domain này
chính là tên miền của node gốc (root) của nhánh con trong không gian tên miền. Điều
này có nghĩa là tên của domain chính là tên của node ở đầu của tên miền. Ví dụ điểm
đầu của domain vnn.vn là node có tên vnn.vn
1.1.3. Các biểu hiện bất thường
1.1.3.1. Định nghĩa
Các biểu hiện trực tiếp trên hệ thống máy chủ tên miền DNS hoặc gián tiếp
thông qua các hệ thống đo lường giám sát có kết nối làm việc với các máy chủ DNS.
1.1.3.2. Các biểu hiện bất thường [5]
Lưu lượng mạng tăng cao bất thường.
Mật độ truy vấn trên các máy chủ tên miền DNS không theo quy luật thông thường.
7
Truy vấn tên miền bị chậm….
1.2. Hiện trạng hệ thống máy chủ tên miền DNS quốc gia (.VN)
1.2.1. Mô hình hệ thống máy chủ tên miền DNS quốc gia (.VN) tại Việt Nam
Hệ thống DNS quốc gia do Trung tâm Internet Việt Nam quản lý có nhiệm vụ
quản lý không gian tên miền cấp quốc gia .vn. Hệ thống DNS quốc gia có nhiệm vụ tiếp
nhận và trả lời các truy vấn tên miền .VN [2].
Hiện tại hệ thống tên miền quốc gia gồm 5 cụm máy chủ đặt trong nước (2 cụm
tại thành phố Hồ Chí Minh; 2 cụm tại Hà Nội và 1 cụm đặt tại Đà Nẵng), 4 cụm máy
chủ đặt ở nước ngoài (tại Mỹ, Nhật, Úc và Hà Lan).
HA NOI
LAO CAI
LAI CHAU
YEN BAI
SON LA
CAO BANG
BAC CAN
LANG SON
THAI NGUYEN
HA LONG
HAI PHONG
THAI BINH
NINH BINH
THANH HOA
NGHE A N
VINH
DONG HA
HUE
DA NANG
KON TUM
PLEIKU
QUI NHON
BUON MA THUOT
NHA TRANG
DA LAT
PHAN RANG
PHAN THIET
HO CHI MINH
VUNG TAU
TAY NINH
CAO LANH
CAN THO
CA MAU
Hình 1.2: Phân bổ máy chủ tên miền quốc gia
Hệ thống máy chủ DNS của các ISP có nhiệm vụ tiếp nhận và xử lý các truy vấn
tên miền (gồm cả các tên miền .vn và tên miền khác). Với các tên miền .VN, hệ thống
máy chủ tên miền của các ISP sẽ truy vấn lên hệ thống máy chủ root server và hệ thống
máy chủ tên miền quốc gia để tìm kiếm thông tin và trả lời truy vấn. Đối với các tên
miền thông thường (tên miền cấp cao, tên miền của các quốc gia khác), hệ thống máy
chủ tên miền này sẽ truy vấn lên hệ thống máy chủ root và các máy chủ tên miền khác
được đặt ở nước ngoài để tìm kiếm kết quả.
8
Hình 1.3: Phân cấp hệ thống máy chủ tên miền tại Việt Nam
1.2.2. Mô hình quản lý không gian tên miền DNS quốc gia (.VN)
Không gian tên miền .vn được quản lý theo cơ chế phân cấp và chuyển giao. Các
tên miền cấp 2 và cấp 3 thuộc hệ thống tên miền .VN sẽ được lưu giữ trên hệ thống tên
miền quốc gia. Các tên miền cấp 3 và cấp 4 sẽ được lưu giữ tại các hệ thống máy chủ
được chuyển giao, phần lớn các máy chủ được chuyển giao này là các máy chủ của các
ISP trong nước. Như vậy hầu hết các tên miền quốc gia của Việt nam do các máy chủ
tên miền trong nước quản lý.
1.2.3. Hoạt động truy vấn tên miền
Hoạt động truy vấn tên miền tại Việt Nam gồm 2 loại: Truy vấn tên miền cấp
quốc gia và truy vấn tên miền khác (tên miền cấp cao và tên miền của các quốc gia
khác).
1.2.3.1. Truy vấn tên miền DNS quốc gia (.VN)
1.2.3.2. Truy vấn tên miền cấp cao
1.3. Vấn đề tồn tại và hướng nghiên cứu của đề tài
1.3.1. Vấn đề tồn tại
Hiện nay VNNIC mới chỉ khai thác, đánh giá được tổng số truy vấn tên miền
đến các máy chủ DNS, phân chia theo tên miền .vn và tên miền không phải .VN
Những con số trên có được bằng cách thống kê số lượng truy vấn tên miền qua
nhật ký truy vấn của từng máy chủ DNS. Chưa thực hiện được việc phân tích thống kê
sâu hơn, chẳng hạn: Tỷ lệ số truy vấn theo từng loại tên miền, theo từng tên miền (trong
9
số tên miền VNNIC đã cấp, loại dịch vụ nào (A, MX, NS, CNAME) được truy vấn
nhiều nhất…hoàn toàn chưa làm được.
1.3.2. Hướng nghiên cứu của đề tài
Hệ thống DNS của VNNIC là hệ thống DNS quốc gia, toàn bộ truy vấn được tập
trung vào hệ thống này do đó ta hoàn toàn có thể thu thập được rất nhiều thông tin qua
nhật ký DNS: Chẳng hạn: Mức độ sử dụng tài nguyên Internet, tên miền nào được truy
cập nhiều, thói quen người dùng Internet vào các thời điểm, vị trí địa lý…. Qua đó có
thể phát hiện sớm các cuộc tấn công vào hệ thống mạng DNS.
Kết luận chương
Trong Chương 1, tác giả đã trình bày vắn tắt được các kiến thức cơ bản nhất về
hệ thống tên miền, các hiện tượng bất thường của hệ thống DNS, tác giả cũng đã hoàn
thành nghiên cứu về hoạt động của hệ thống máy chủ tên miền Internet quốc gia (.VN),
các vấn đề tồn tại đối với hệ thống máy chủ DNS (.VN) và đề xuất được hướng nghiên
cứu của luận văn được trình bày trong các chương tiếp theo.
10
CHƯƠNG 2: NGHIÊN CỨU CÁC PHƯƠNG PHÁP PHÁT HIỆN
BẤT THƯỜNG
Tóm tắt chương
Chương 2 nghiên cứu 2 phương pháp phát hiện bất thường của hệ thống máy
chủ tên miền DNS: (1) Phương pháp phân tích dữ liệu truy vấn DNS, (2) Phương pháp
giám sát lưu lượng mạng; nghiên cứu chi tiết các giải pháp thu thập, lưu trữ, phân tích
dữ liệu, tiếp theo phân tích, so sánh ưu và nhược điểm của từng phương pháp để làm cơ
sở lựa chọn phương pháp ứng dụng cho hệ thống máy chủ tên miền DNS quốc gia
(.VN).
2.1. Nghiên cứu các phương pháp phát hiện bất thường
2.1.1. Phương pháp phân tích dữ liệu truy vấn DNS
2.1.1.1. Giải pháp thu thập log DNS
2.1.1.1.1. Thu thập log trên từng máy chủ DNS
Cách duy nhất có thể thu thập số liệu truy vấn DNS là bật chế độ ghi lại nhật ký
truy vấn DNS của phần mềm máy chủ DNS, ta chỉ cần thêm các lệnh sau vào file cấu
hình named.conf của phần mềm DNS server, trong trường hợp này là phần mềm BIND
[7].
2.1.1.1.2. Thu thập log DNS tập trung
Như đã phân tích ở chương 1, hệ thống DNS quốc gia có nhiều máy chủ. Để có
thể thu thập log được từ nhiều máy chủ, tác giả xây dựng hệ thống thu thập log tập
trung sử dụng syslog [26]. Thông tin truy vấn tên miền của người sử dụng gửi tới các
máy chủ DNS của VNNIC sẽ được ghi lại, gửi qua syslog đến máy chủ sysog server,
máy chủ này sẽ lưu lại toàn bộ các log nhận được.
Hình 2.1: Thu thập log DNS tập trung
11
Hiện nay, các hệ thống log trên thế giới sử dụng một số công cụ thu thập và tập
trung dữ liệu log như:
- syslog-ng: Sản phẩm miễn phí của Balabit IT Security, được đánh giá là tốt nhất
và được sử dụng rộng rãi trong các hệ thống UNIX hiện nay.
- syslogd: Phần mềm tích hợp sẵn trong các hệ thống UNIX, có cơ chế lọc kém
hơn sản phẩm trên.
- wiki syslog daemon: Sản phẩm miễn phí của wikisyslog dành cho các hệ thống
Windows:
- snare agent: Sản phẩm của hãng Intersectalliance cho nhiều platform khác nhau
như UNIX, Linux, Windows (bản dành cho Client miễn phí).
Tác giả chọn giải pháp sử dụng phần mềm syslog-ng, đây là phần mềm được
đánh giá là số 1 trong các phần mềm syslog, cung cấp giải pháp lưu trữ log tập trung, an
toàn. Việc truyền thông tin từ các máy chủ đến log server tập trung có thể truyền dạng
clear text hoặc bảo mật bằng giao thức SSL.
Mô hình truyền thông giữa một máy chủ DNS và máy chủ log tập trung sử dụng
Syslog-ng.
Hình 2.2: Mô hình thu thập log qua syslog
2.1.1.2. Các giải pháp lưu trữ, sao lưu
Dữ liệu log DNS thu thập được là rất lớn, vì vậy cần một giải pháp lưu trữ tiên
tiến, lưu trữ dữ liệu lớn và có khả năng mở rộng cao. Trong phần này tác giả đi vào
phân tích các giải pháp lưu trữ để lựa chọn một giải pháp lưu trữ phù hợp cho bài toán
này.
Hệ thống lưu trữ đóng vai trò rất quan trọng trong tổng thể hệ thống hạ tầng
thông tin vì nó là nơi lưu dữ liệu của toàn hệ thống, có ý nghĩa sống còn đối với doanh
nghiệp. Các máy chủ ứng dụng, các máy chủ dịch vụ có thể bị hỏng hoàn toàn nhưng
nếu ta giữ được hệ thống lưu trữ thì hệ thống hoàn toàn có thể khôi phục lại được
nhưng ngược lại nếu ta mất hệ thống lưu trữ dữ liệu thì không gì có thể cứu vãn được.
Lưu trữ có thể được thực hiện theo nhiều cách: Sử dụng các ổ đĩa gắn trực tiếp vào
12
server cần lưu trữ, dùng các thiết bị lưu trữ ngoài hoặc xây dựng mạng dùng riêng cho
lưu trữ dữ liệu. Phương pháp lưu trữ dùng các ổ đĩa gắn trực tiếp đã xuất hiện và được
sử dụng từ rất lâu do tính dễ sử dụng của chúng. Cùng với sự phát triển của công nghệ,
đặc biệt là yêu cầu của người dùng về dữ liệu lưu trữ (dung lượng, tốc độ, khả năng
khôi phục dữ liệu, ảnh hưởng của lưu trữ đến hiệu năng của toàn hệ thống), nhiều
phương pháp lưu trữ mới được phát triển. Mỗi phương pháp có những ưu nhược điểm
riêng và được dùng cho những mục đích nhất định. Một số phương pháp lưu trữ có thể
kể đến như sau:
2.1.1.2.1. Giải pháp lưu trữ trực tiếp (Direct Attached Storage - DAS)
2.1.1.2.2. Giải pháp lưu trữ mạng (Network Attached Storage - NAS)
2.1.1.2.3. Mạng lưu trữ (Storage Area Network - SAN)
2.1.1.2.4. Giải pháp sao lưu dữ liệu
Sao lưu dữ liệu là một phần không thể thiếu của các hệ thống máy tính, hệ thống
lưu trữ. Tác giả sử dụng giải pháp sao lưu tập trung để giảm tải cho hệ thống máy chủ,
sử dụng thư viện tape có robot điều khiển để sao lưu tự động với tốc độ cao để có thể
lưu được một số lượng lớn dữ liệu nhật ký DNS.
Application
servers
Hình 2.4: Giải pháp sao lưu SAN
2.1.2. Phương pháp giám sát lưu lượng mạng
2.1.2.1. Giải pháp giám sát lưu lượng mạng
Khác với phương pháp phân tích dữ liệu truy vấn DNS thực hiện việc phân tích
trực tiếp các truy vấn tên miền của người sử dụng trên các máy chủ DNS để tìm ra các
vấn đề bất thường đang hoặc có nguy cơ xảy ra đối với hệ thống, phương pháp giám sát
lưu lượng mạng không trực tiếp phân tích các máy chủ DNS mà thực hiện việc phân
tích gián tiếp qua việc theo dõi biến động của lưu lượng mạng bằng Cacti [19].
Phương pháp giám sát lưu lượng mạng dễ thực hiện và không cần can thiệp trực
tiếp vào các máy chủ DNS. Tuy nhiên kết quả thường có độ chính xác không cao do
ngoài lưu lượng DNS, hệ thống bao gồm nhiều loại lưu lượng không mong muốn khác.
2.1.2.2. Giải pháp lưu trữ, sao lưu
13
Giải pháp giám sát lưu lượng mạng sử dụng giải pháp lưu trữ đơn giản ngay tại
máy giám sát phân tích lưu lượng. Tuy nhiên tùy vào kích cỡ dữ liệu ta có thể xây dựng
các hệ thống sao lưu tương tự giải pháp phân tích dữ liệu truy vấn DNS.
2.2. Phân tích, lựa chọn phương pháp phát hiện bất thường thử nghiệm cho hệ
thống tên miền DNS quốc gia (.VN)
Bảng 2.3: Bảng so sánh 2 phương pháp phát hiện bất thường cho mạng DNS
Giải pháp phân tích
dữ liệu truy vấn DNS
Giải pháp giám sát lưu
lượng mạng
Có khả năng phát hiện các bất
thường cho hệ thống DNS
Đáp ứng Đáp ứng
Tính chính xác
100% < 100%
Phạm vi theo dõi
Không giới hạn Giới hạn theo phân vùng
mạng
Khả năng phát triển mở rộng
Dễ dàng. Khó khăn khi phải giám
sát các máy chủ DNS
phân tán ở nhiều nơi.
Thời gian triển khai
Trung bình Nhanh
Đầu tư (chi phí)
Trung bình Thấp
Qua một số chỉ tiêu cơ bản trong bảng trên, căn cứ nhu cầu và mức độ quan
trọng của các ứng dụng DNS quốc gia .VN. Tác giả lựa chọn giải pháp phân tích dữ
liệu truy vấn DNS để thử nghiệm cho hệ thống máy chủ tên miền DNS quốc gia (.VN).
Chi tiết mô hình hệ thống, triển khai thử nghiệm, phân tích kết quả ứng dụng cho hệ
thống máy chủ tên miền DNS quốc gia (.VN) được nghiên cứu cụ thể trong chương 3.
Kết luận chương
Trong Chương 2, tác giả đã trình bày làm rõ được các phương pháp phát hiện
bất thường có thể áp dụng được cho hệ thống máy chủ tên miền DNS quốc gia (.VN),
lập bảng phân tích, so sánh ưu và nhược điểm của từng phương pháp, qua đó đề xuất
được phương pháp phát hiện bất thường ứng dụng cho hệ thống máy chủ tên miền DNS
quốc gia (.VN) để thử nghiệm trong chương 3.
14
CHƯƠNG 3: THỬ NGHIỆM CHO MỘT SỐ MÁY CHỦ TÊN
MIỀN DNS QUỐC GIA (.VN)
Tóm tắt chương
Chương 3 thực hiện việc xây dựng mô hình thử nghiệm, phân tích, thiết kế hệ
thống, phần mềm, phân tích dữ liệu và tiến hành thử nghiệm việc thu thập, phân tích
các dữ liệu truy vấn DNS (.VN), qua đó đánh giá kết quả và khả năng ứng dụng phương
pháp phát hiện bất thường lựa chọn cho hệ thống máy chủ tên miền DNS quốc gia
(.VN).
3.1. Xây dựng mô hình thử nghiệm
3.1.1. Các thành phần cơ bản của hệ thống
- Hệ thống cơ sở dữ liệu: Là cơ sở dữ liệu tập trung lưu trữ tất cả các dữ liệu thu
thập đầu vào, dữ liệu tiền xử lý, dữ liệu đã xử lý, dữ liệu quản lý….
- Hệ thống thu thập số liệu: Là các hệ thống đầu vào, gồm các hệ thống thu thập
online trên mạng, các hệ thống chương trình nhập liệu đầu vào, giao tiếp với
người nhập dữ liệu….
- Hệ thống phân tích số liệu: Là các công cụ phân tích và tính toán số liệu.
- Hệ thống lưu trữ, sao lưu dữ liệu: Là hệ thống lưu trữ, sao lưu các dữ liệu đã xử
lý nhằm bảo vệ dữ liệu và tham khảo sau này.
- Hệ thống quản trị, chiết xuất số liệu: Quản trị quyền truy nhập, quản trị hệ cơ sở
dữ liệu, lập báo cáo tùy biến.…
3.1.2. Sơ đồ hệ thống
Hình 3.1: Hệ thống lưu trữ phân tích log DNS
Hệ thống được thiết kế sử dụng đa kết nối từ máy chủ đến thiết bị chuyển mạch,
hai chuyển mạch SAN (SAN switch) chạy song song nhằm nâng cao tính dự phòng và
15
sẵn sàng của hệ thống. Dung lượng lưu trữ có thể mở rộng một cách đơn giản mà hoàn
toàn không làm thay đổi kiến trúc và dữ liệu hiện tại (xem hình dưới).
Hình 3.2: Kết nối SAN thông qua 02 SAN switch
Hệ thống lưu trữ và thu thập số liệu này có thể được đồng bộ ra nhiều điểm đảm
bảo độ an toàn cao của hệ thống và góp phần giảm tải dịch vụ tại nhiều điểm khác nhau
như hình 3.14. Có thể tiến hành đồng bộ dữ liệu từ trung tâm tại Hà Nội và hệ thống tại
thành phố Hồ Chí Minh qua kết nối Internet.
Hình 3.3: SAN có dự phòng
Sử dụng các công nghệ: Mirror, Snapshot, Replicate tạo ra các bản sao lưu dữ
liệu để phục vụ các mục đích: Backup, report, dataware house, data mining, R&D… mà
không làm ảnh hưởng đến dữ liệu chính.
16
Hình 3.4: Nhân bản dữ liệu phục vụ phân tích, báo cáo
3.1.3. Phần mềm hệ thống
Nền tảng máy chủ, hệ điều hành này được sử dụng là các máy chủ UNIX. Các
máy chủ Unix rất phù hợp cho các ứng dụng lớn, hiện nay để triển khai ứng dụng trên
Unix người ta thường sử dụng Java [4]. Java đã được VNNIC áp dụng từ năm 2001 và
hoạt động rất tốt. Do đó tác giả lựa chọn Java làm nền tảng để phát triển các ứng dụng
trong hệ thống này.
Hệ thống bao gồm nhiều thành phần, được phân chia thành nhiều lớp, về cơ bản
tác giả thiết kế hệ thống này theo mô hình 03 lớp:
- Lớp CSDL (database server).
- Lớp ứng dụng (Application).
- Lớp giao tiếp người dùng (Web).
3.1.3.1. Phần mềm cơ sở dữ liệu
Công nghệ lưu trữ của tập đoàn cơ sở dữ liệu hàng đầu Oracle [10] được đánh
giá là công nghệ cơ sở dữ liệu quan hệ tốt nhất hiện nay về tính an toàn và bảo mật. Các
phiên bản về quản trị cơ sở dữ liệu của Oracle được cập nhật liên tục và ngày càng hoàn
thiện.
3.1.3.2. Phần mềm máy chủ ứng dụng phân tích số liệu
Tác giả đề xuất sử dụng phần mềm Sun Java System Application Server
Platform Edition (PE) 9.0, đây là phần mềm thương mại miễn phí (chỉ bán chi phí hỗ
trợ khi cần) đuợc phát triển bởi hãng SUN (hiện nay đã được hợp nhất vào hãng Oracle)
và hoàn toàn tương thích với chuẩn J2EE từ phiên bản 5.0 cũng như các phiên bản
trước đây của SUN [15]. Sun cung cấp phần mềm này hoàn toàn miễn phí cho người
dùng thử nghiệm, phát triển và triển khai các ứng dụng để kinh doanh, tuy nhiên nếu
cần thiết SUN vẫn cung cấp các gói dịch vụ thương mại hỗ trợ trong việc khai thác phát
triển trên phần mềm này.
17
3.1.3.3. Phần mềm giao tiếp người dùng (web)
Tác giả đề xuất sử dụng phần mềm Sun Java System Web server 6.1 (trước đây
là Sun One Web Server) là một phần mềm Web server thương mại miễn phí (chỉ bán
chi phí hỗ trợ khi cần), bảo mật, sẵn sàng, dễ sử dụng, nó được thiết kế cho các doanh
nghiệp có ứng dụng web vừa và lớn. Có thể chạy được trên nhiều hệ điều hành khác
nhau, nó cung cấp khả năng quản trị tập trung, có thể triển khai nhiều ứng dụng như:
Web services, JavaServer Pages (JSP), Java Servlet, Microsoft Active Server Pages
(ASP), PHP, CGI. Phần mềm này được phát triển bởi hãng Sun Micro System là hãng
phát triển ra Java và hoàn toàn tương thích với J2EE.
3.1.4. Phân tích dữ liệu
3.1.4.1. Tổng quan về khai thác dữ liệu
Khai thác dữ liệu là quá trình tìm kiếm các mẫu mới, những thông tin tiềm ẩn
mang tính dự đoán trong các khối dữ liệu lớn. Những công cụ khai phá dữ liệu có thể
dự đoán những xu hướng trong tương lai, các tri thức mà khai thác dữ liệu mang lại
giúp cho các công ty kinh doanh ra các quyết định kịp thời và có thể trả lời những câu
hỏi trong lĩnh vực kinh doanh mà trước đây tốn nhiều thời gian để xử lý. Sự phân tích
một cách tự động và mang tính dự báo của khai thác dữ liệu có ưu thế hơn hẳn so với
phân tích thông thường dựa trên những sự kiện trong quá khứ của các hệ hỗ trợ ra quyết
định (decision support systems – DSSs) trước đây.
Các bước chính của quá trình khám phá tri thức như sau:
Hình 3.15: Quy trình khai thác dữ liệu
Trích chọn dữ liệu (data selection).
Tiền xử lý dữ liệu (data preprocessing).
Biến đổi dữ liệu (data transformation).
Khai thác dữ liệu (data mining).
18
Đánh giá và biểu diễn tri thức (knowledge representation & evaluation).
Các dạng thức dữ liệu có thể khai thác dữ liệu
Khai thác dữ liệu có khả năng chấp nhận một số kiểu dữ liệu khác nhau điển
hình như sau:
Cơ sở dữ liệu quan hệ (relational databases.
Cơ sở dữ liệu đa chiều (multidimention structures, data warehouses, data mart ).
Cơ sở dữ liệu giao tác (transactonal databases).
Cơ sở dữ liệu quan hệ – hướng đối tượng (object relational databases).
Dữ liệu không gian và thời gian (spatial, temporal, and time-series data).
Cơ sở dữ liệu đa phương tiện (Multimedia database).
Hướng tiếp cận và kỹ thuật chính trong khai thác dữ liệu
Một số hướng tiếp cận chính của khai thác dữ liệu được phân chia theo chức
năng hay lớp các bài toán khác nhau như sau:
Phân lớp và dự đoán (classification & prediction).
Luật kết hợp (association rules).
Khai thác mẫu tuần tự (sequential/temporal patterns).
Phân cụm (clustering/segmentation).
3.1.4.2. Phương pháp phân tích dữ liệu
Như đã phân tích ở trên, quá trình khai phá dữ liệu là một quá trình rất phức tạp,
đòi hỏi phải đầu tư rất nhiều thời gian, nhân lực, vật lực thì mới có thể giải quyết được.
Trong phạm vi luận văn này, trong điều kiện cho phép tác giả chưa thể tiến hành khai
phá dữ liệu (data mining) theo những hướng tiếp cận toán học hiện đại mà chỉ dừng ở
hướng phân tích cơ bản nhất là phân tích thống kê theo tiêu chí xác định trước và có
điều chỉnh được [1]. Quy trình phân tích dữ liệu của tác giả hoàn toàn thống nhất với
quy trình ở trên, gồm các bước sau:
Trích chọn dữ liệu (data selection: Chọn dữ liệu để phân tích.
Tiền xử lý dữ liệu (data preprocessing): Làm sạch dữ liệu log.
Biến đổi dữ liệu (data transformation): Chuyển đổi dữ liệu log thành tập các đối
tượng phục vụ cho việc phân tích ở bước sau được dễ dàng.
Khai thác dữ liệu (data mining): Phân tích thống kê các đối tượng dữ liệu được
biến đối ở trên theo các tiêu chí định trước có điều chỉnh.
Đánh giá và biểu diễn kết quả: Sử dụng các công cụ, phương pháp báo cáo để
kiết xuất kết quả.
3.2. Thử nghiệm và phân tích kết quả thử nghiệm
3.2.1. Phân tích số liệu
3.2.1.1. Số liệu log DNS
19
Như đã phân tích ở phần trên, số liệu truy vấn DNS được thể hiện qua dữ liệu
log DNS thu thập được. Thông qua dữ liệu log này, ta có thể biết được địa chỉ bắt đầu
của truy vấn, địa chỉ đích của truy vấn, thời gian truy vấn. Ngoài ra, ta cũng có thể xác
định được các thông tin khác như bản ghi DNS được truy vấn hay máy chủ DNS nào
nhận truy vấn trên.
Bảng 3.2: Số liệu log DNS sử dụng trong phân tích
STT
Các trư
ờng số liệu
Gi
ải thích
1 Thời gian Thời điểm xảy ra truy vấn
2 Địa chỉ IP nguồn Địa chỉ phát sinh truy vấn
3 Địa chỉ đích Địa chỉ được truy vấn đến
4 Bản ghi truy vấn Loại bản ghi được truy vấn
5 Tên máy chủ DNS Máy chủ DNS nhận truy vấn
Bằng cách tổ hợp các thông tin trên, tác giả có thể thống kê được những số liệu
liên quan đến hiệu năng của từng máy chủ DNS trong hệ thống, xác định được lượng
truy vấn trong nước, nước ngoài đến các tên miền .VN là bao nhiêu.…
3.2.1.2. Các tiêu chí phân tích số liệu
Dưới đây tác giả phân tích và đưa ra các tiêu chí phân tích dữ liệu cơ bản nhất.
Dựa trên các tiêu chí này, kết hợp với các yếu tố khác như thời gian, cơ sở dữ liệu tên
miền .VN, cơ sở dữ liệu tài nguyên địa chỉ IP, cơ sở dữ liệu số hiệu mạng (AS) do
VNNIC quản lý tác giả sẽ có được nhiều con số thống kê dưới nhiều góc độ khác nhau.
- Cơ sở dữ liệu tên miền cho tác giả biết chủ thể sở hữu của tên miền, các
subdomain mà tên miền đang triển khai.
- Cơ sở dữ liệu IP cho tác giả biết chủ sở hữu của địa chỉ IP đó.
- Cơ sở dữ liệu số hiệu mạng (AS) cho tác giả biết IP đó thuộc AS (nhà cung cấp
dịch vụ nào).
3.2.1.3. Các thông tin phân tích dữ liệu DNS
a. Phân bổ lượng truy vấn từ các máy chủ
Trong dữ liệu nhận được từ truy vấn DNS, ta luôn xác định được dữ liệu truy
vấn này được thực hiện ở máy chủ DNS nào. Như vậy ta sẽ xác định được trong thời
gian cụ thể tình hình chịu tải truy vấn của từng máy chủ DNS.
b. Truy vấn đến các tên miền DNS quốc gia (.VN) và tên miền quốc tế
Thông qua nhật ký truy vấn DNS, tác giả xác định được các số liệu liên quan đến
lượng truy nhập từ các IP trong nước (hoặc nước ngoài) đến tên miền nào đó (.VN)
hoặc tên miền quốc tế. Các số liệu này có thể được thống kê như sau.
- Tổng số truy vấn đến tên miền theo đơn vị thời gian.
- Tổng số truy vấn đến các tên miền cấp 2 (.VN) trong đơn vị thời gian.
- Số truy vấn tên miền (.VN) và không phải (.VN) trên từng máy chủ.
c. Phân loại các truy vấn theo đơn vị thời gian
20
- Phân loại các bản ghi (A, CNAME, MX, NS, PTR…) truy vấn để so sánh dịch vụ
của nhà cung cấp, tình trạng sử dụng dịch vụ.
- Phân loại tên miền được truy vấn: Tên miền nào có truy vấn nhiều nhất.
- Xếp hạng IP được truy vấn.
d. Thời điểm truy vấn tên miền của người sử dụng
Bằng cách thống kê lượng truy vấn tên miền theo từng thời điểm trong ngày (dựa
trên số liệu truy vấn DNS) tác giả xác định được thời điểm nào trong ngày, người dùng
truy cập Internet nhiều nhất.
e. Thống kê các thông tin liên quan đến một tên miền xác định trước
Giả sử tác giả có một danh sách các tên miền xác định trước và muốn thống kê
toàn bộ các thông tin của tên miền này dựa trên các nguồn dữ liệu truy vấn DNS.
Các thông tin có thể thống kê cho một tên miền nào đó như sau:
- Dịch vụ mà tên miền cung cấp.
- Lượng dữ liệu trao đổi vào/ra theo thời gian.
- Đánh giá phân loại.
3.2.2. Thể hiện các dữ liệu đã được phân tích
Thể hiện các dữ liệu đã được phân tích là hết sức quan trọng, qua tìm hiểu tác
giả thấy có hai phương pháp thể hiện các dữ liệu đã được phân tích là thể hiện dưới
dạng bảng, hoặc đồ thị. Trong các báo cáo có thể sử dụng một trong hai loại này hoặc
sử dụng kết hợp cả hai.
3.2.2.1. Thể hiện dưới dạng bảng
Trình bày dữ liệu phân tích được dưới dạng bảng là phương pháp đơn giản nhất
để thể hiện các dữ liệu thống kê được. Khi trình bày dữ liệu thống kê dưới dạng bảng
cần các yêu cầu sau:
- Quy mô bảng thống kê không nên quá lớn (quá nhiều chỉ tiêu…), khi có nhiều
tiêu thức cần phân bổ, có nhiều chỉ tiêu giải thích nên tách ra xây dựng một số
bảng thống kê).
- Các tiêu đề, tiêu mục trong bảng thống kê phải được ghi chính xác, đầy đủ, ngắn
gọn và dễ hiểu.
- Các chỉ tiêu giải thích trong bảng thống kê cần được sắp xếp theo thứ tự hợp lý,
phù hợp với mục đích nghiên cứu. Các chỉ tiêu có liên hệ với nhau nên sắp xếp
gần nhau.
- Các ô trong bảng thống kê dùng để ghi các con số thống kê. Nếu không có số liệu
để ghi vào một hoặc một số ô nào đó thì dùng các ký hiệu quy ước.
3.2.2.2. Thể hiện dưới dạng đồ thị
Đồ thị thống kê là các hình vẽ hoặc đường nét hình học dùng để miêu tả có tính
chất quy ước các tài liệu thống kê. Đồ thị thống kê có mấy đặc điểm sau:
- Đồ thị thống kê sử dụng con số kết hợp với hình vẽ, đường nét và màu sắc để
trình bày và phân tích các đặc trưng số lượng của hiện tượng. Vì vậy người xem
21
không mất nhiều thời gian đọc con số mà vẫn nhận thức được vấn đề chủ yếu một
cách dễ dang, nhanh chóng.
- Đồ thị thống kê trình bày một cách khái quát các đặc điểm chủ yêu về bản chất và
xu hướng phát triển của các hiện tượng.
Do các đặc điểm trên, đồ thị thống kê có tính phổ cập, được ứng dụng rộng rãi, có
sức hấp dẫn và sinh động, khả năng truyền tải thông tin đồ thị thống kê là rất cao.
3.2.3. Quy trình xử lý dữ liệu thu thập được
Việc xử lý dữ liệu được thực hiện theo quy trình sau:
- Thu thập lưu trữ vào file.
- Tiền xử lý file dữ liệu thu thập được: Quá trình này là cần thiết để loại bỏ thông
tin dư thừa, các thông tin có lỗi, sắp xếp thông tin theo tuần tự.… Sau tiền xử lý
khối lượng dữ liệu không cần thiết sẽ giảm đi, tăng tốc độ phân tích của quá trình
sau.
- Phân tích thông tin sau tiền xử lý, phân tích theo các tiêu chí cơ bản nhất. Lưu trữ
kết quả phân tích vào cơ sở dữ liệu.
- Xử lý thông tin dạng tinh: Phân tích các thông tin có được ở quá trình trước để có
được các kết quả ở dạng tường minh hơn.
- Kiết xuất kết quả phân tích theo các mẫu báo cáo.
3.2.4. Mô hình cơ sở dữ liệu cho hệ thống
3.2.4.1. Mô hình CSDL phân tích log DNS
3.2.4.2. Mô hình CSDL dành cho xếp hạng
3.2.5. Các công nghệ áp dụng trong hệ thống
Trên nền tảng (platform) lựa chọn ở phần 2, để có thể xây dựng chương trình
một cách hiệu quả tối ưu thì có một số công nghệ được áp dụng sau đây:
3.2.5.1. Công nghệ Pooling trong kết nối CSDL
3.2.5.2. Công nghệ đệm dữ liệu OSCache
3.2.5.3. Công nghệ lập lịch công việc Quartz.
3.2.5.4. Công nghệ kết xuất báo cáo JfreeChart
3.2.5.5. Công nghệ Struts
3.2.6. Phân tích, thiết kế hệ thống
3.2.6.1. Sơ đồ chức năng (use case diagram)
Hệ thống thu thập và phân tích web chủ yếu là thu thập, tổng hợp thông tin từ các
dữ liệu log DNS vào cơ sở dữ liệu. Cuối cùng, khi có nhu cầu về thống kê, các số liệu
đã tổng hợp này lại được lấy ra sử dụng cho công tác thống kê báo cáo. Với tính chất
của một hệ thống ít tương tác với người sử dụng, tập trung chủ yếu tương tác với dữ
liệu log (mà dữ liệu này bao giờ cũng có số lượng lớn và được thu thập theo đơn vị thời
gian mili giây) nên số lượng các user tương tác trong hệ thống được phân làm hai loại:
22
- Người quản trị: Xem xét và cấu hình các tham số đảm bảo cho hệ thống hoạt
động thông suốt. Quản lý các công việc đang thực hiện trong hệ thống. Các công
việc này bao gồm việc thu thập, tiến hành phân tích và ghi lại dữ liệu tổng hợp.
- Người dùng: Là những người tham gia khai thác hệ thống thông qua các báo cáo
thống kê từ dữ liệu mà hệ thống thu thập, phân tích được.
3.2.6.2. Sơ đồ tương tác (activity diagram)
Từ các trường hợp sử dụng, tương tác với hệ thống được xem xét ở mức cao như
phần trên, trong phần này ta sẽ đi chi tiết hơn vào các thành phần của hệ thống, sự phối
hợp giữa các thành phần cũng như công nghệ nào được áp dụng.
3.2.6.2.1 Cập nhật đối tượng trong hệ thống
Do đặc thù của hệ thống là các đối tượng mà nó tương tác là các dữ liệu log DNS
nên để thu thập và phân tích được dữ liệu, ta phải xác định các đối tượng nào xuất hiện
trong các dữ liệu ấy và tính chất của chúng ra sao (ngoài tính chất thời gian). Sau khi
xác định các đối tượng trong hệ thống (các đối tượng đã được trình bày trong các phần
trên) thì cần phải có quá trình nạp cũng như bổ sung các thông tin về các đối tượng này
vào hệ thống. Mục đích của việc nạp và bổ sung thông tin về các đối tượng là để hệ
thống nhận biết, phân loại các đối tượng này theo thời gian và dữ liệu thu thập được.
3.2.6.2.2 Đăng nhập hệ thống và thiết lập các tham số khác
3.2.6.2.3 Quản lý luồng công việc trong hệ thống
Việc phân tích một khối lượng lớn dữ liệu log DNS chiếm dụng nhiều tài nguyên
và thời gian của hệ thống. Yêu cầu đặt ra là phải phân tích được những dữ liệu này
trong khoảng thời gian cho phép và khối lượng tài nguyên hệ thống mà nó chiếm dụng
không quá lớn. Trong hệ thống này, sau khi thử nghiệm, tác giả quyết định sử dụng
công nghệ Quartz kết hợp với công nghệ OSCache để giải quyết bài toán trên. Công
nghệ Quartz cho phép hệ thống phân chia công việc phân tích thành nhiều công việc
con tương ứng với từng mục đích đồng thời cho phép hệ thống quản lý việc thực hiện
những công việc này theo thời gian (kích hoạt công việc, quản lý số lượng tiến trình,
tạm ngưng hay hủy bỏ công việc…). Công nghệ OSCache được áp dụng nhằm chia sẻ
tài nguyên của hệ thống cho các tiến trình thực hiện công việc. Các tiến trình này sẽ
chia sẻ dữ liệu chung trên OSCache và OSCache sẽ quản lý việc đồng bộ giữa các tiến
trình, hạn chế việc các tiến trình rơi vào trạng thái deadlock hay thắt cổ chai khi sử
dụng tài nguyên chung.
3.2.7. Triển khai hệ thống
Việc triển khai gồm các bước sau:
Cài đặt mới hệ thống web, application server, database server.
Cài đặt máy chủ thu thập số liệu DNS.
Triển khai các phần mềm quản lý hệ thống, phân tích, báo cáo số liệu.
Chuẩn bị dữ liệu.
Chạy thử.
Đánh giá.
23
3.2.7.1. Mạng, máy chủ, phần mềm
3.2.7.2. Dữ liệu
- Các máy chủ DNS quốc gia.
3.2.8. Đánh giá kết quả thử nghiệm
3.2.8.1. Hệ thống thu thập dữ liệu
Sau khi triển khai hệ thống và tiến hành công việc thu thập dữ liệu, tác giả đã lập
đánh giá về hệ thống thu thập dữ liệu:
- Đã chuẩn hóa được các số liệu thu thập, phục vụ cho chương trình phân tích.
- Các số liệu thu thập được lưu trữ theo thời gian, thuận lợi cho công tác lưu trữ
và phân tích.
- Đã triển khai các công cụ tiền xử lý dữ liệu, loại bỏ các dữ liệu thừa không cần
thiết trước khi đưa vào hệ thống phân tích.
Bảng 3.3: Số liệu về thời gian tiền xử lý của các file dữ liệu
TT Thời gian Loại
dữ liệu
Tổng số file
dữ liệu
Tổng thời gian
tiền xử lý
(phút)
Tổng thời gian
phân tách file
(phút)
1 25/098/2011 DNS 65 15 0
2 26/09/2011 DNS 56 12 0
3 27/09/2011 DNS 38 8 0
Bảng kết quả trên cho thấy, các file dữ liệu log DNS thực tế không tốn nhiều
thời gian để thực hiện tiền xử lý.
3.2.8.2. Hệ thống phân tích số liệu
So với hệ thống thu thập dữ liệu, hệ thống phân tích dữ liệu được tự động hóa
hoàn toàn. Việc tự động hóa từ khâu chọn lựa các file dữ liệu đầu vào cho đến khâu lưu
trữ các dữ liệu phân tích được làm cho công việc phân tích dữ liệu được thuận lợi,
nhanh chóng.
- Đã tiến hành phân tích được các số liệu log DNS
- Các công nghệ mới áp dụng được tích hợp tốt.
Bảng 3.4: Số liệu về thời gian phân tích file dữ liệu
TT Thời gian Loại dữ
liệu
Tổng
số file
dữ liệu
Tổng thời
gian phân
tích
(phút)
Thời gian
phân tích
trung bình
(phút/file)
Thời gian
sinh dữ liệu
(phút/file)
1 25/09/2011 DNS 65 261 4 10
2 26/09/2011 DNS 56 180 3,2 10
3 27/09/2011 DNS 38 135 3,5 10
Bảng trên cho thấy, các file dữ liệu log DNS được phân tích trong thời gian hợp
lý và có thể tiến hành phân tích online.
24
3.2.8.3. Hệ thống kết xuất báo cáo thống kê
Hiện tại hệ thống kết xuất báo cáo thống kê được xây dựng trên các công nghệ
Java, cho phép kết xuất các dữ liệu thu thập, phân tích được trong cơ sở dữ liệu thành
các dạng nhưng bảng biểu, đồ thị trực quan.
Dựa trên những kết quả mà hệ thống báo cáo, thống kê đưa ra, người sử dụng có
được thông tin về hoạt động truy vấn của hệ thống máy chủ DNS quốc gia .VN. Qua đó
cho biết tình trạng các máy chủ DNS có hoạt động bình thường hay đang có hiện tượng
bất thường, nếu có thì xảy ra ở máy chủ nào, thời gian, tần suất….
3.3. Xem xét khả năng ứng dụng cho hệ thống máy chủ tên miền DNS quốc gia (.VN)
Qua các kết quả triển khai ở trên, tác giả nhận thấy một số vấn đề sau:
- Hệ thống thu thập dữ liệu chưa tự động hoàn toàn, một số khâu trong quá trình
tiền xử lý phải làm thủ công (phải truyền file bằng FTP từ máy chủ lưu trữ lên
máy chủ phân tích), mất nhiều thời gian. Việc này hoàn toàn khắc phục được
khi có đầu tư hệ thống mạng lưu trữ SAN và các máy chủ có năng lực xử lý cao.
- Hệ thống phân tích dữ liệu còn chậm do năng lực các máy chủ phân tích yếu.
- Hệ thống báo cáo thống kê chưa có độ tùy biến cao.
Do vậy để ứng dụng được cho hệ thống máy chủ tên miền DNS quốc gia cần phải:
- Bổ sung hạ tầng kỹ thuật phục vụ cho công tác lưu trữ các số liệu log DNS:
Gồm hệ thống SAN, dung lượng tối thiểu 2TB, các máy chủ cấu hình mạnh (tối
thiểu 02 CPU Sparc 1.8 GHz, 8-16 GB RAM), sử dụng cluster chạy song song
chia tải để tiến hành phân tích số liệu được nhanh chóng.
- Cải tiến giải thuật và bổ sung các tính năng cho hệ thống phân tích dữ liệu log.
- Hệ thống lại các báo cáo thống kê, kiết xuất báo cáo thuận tiện hơn.
- Phát triển các hệ thống giám sát trực tuyến, cảnh báo tức thời khi có sự biến
động đột biến, cảnh báo khi có tấn công.
- Sử dụng các số liệu thống kê trong đề tài này vào công tác quản lý mạng, dịch
vụ cũng như quản lý nhà nước về Internet.
Kết luận chương
Trong Chương 3, tác giả đã xây dựng được mô hình, lựa chọn được phương
pháp thiết kế, thu thập, phân tích dữ liệu, triển khai ứng dụng cho một số máy chủ DNS
và đánh giá khả năng ứng dụng phương pháp phát hiện bất thường lựa chọn cho hệ
thống máy chủ tên miền DNS quốc gia (.VN).
25
KẾT LUẬN VÀ KIẾN NGHỊ
Luận văn đã nghiên cứu được 2 phương pháp phát hiện bất thường cho hoạt
động của hệ thống máy chủ tên miền miền, phân tích lựa chọn phương án phù hợp để
thử nghiệm cho hệ thống máy chủ tên miền DNS quốc gia (.VN).
Kết quả luận văn đã xây dựng được mô hình thử nghiệm, tiến hành thử nghiệm
và đánh giá kết quả ứng dụng cho hệ thống máy chủ tên miền DNS quốc gia (.VN).
Hệ thống được thiết kế và phát triển sử dụng công nghệ mới trong việc phát triển
ứng dụng đồng thời tương thích với nền tảng công nghệ trước đó của VNNIC, thiết kế
theo module nên việc mở rộng sau này rất thuận tiện.
Kết quả luận văn về cơ bản đã giải quyết được yêu cầu đặt ra đó là nghiên cứu
được phương pháp phát hiện bất thường có khả năng ứng dụng cho hệ thống máy chủ
tên miền DNS quốc gia (.VN). Tác giả đã xây dựng được mô hình, phương pháp và tiến
hành thử nghiệm đánh giá kết quả, kết quả thu được cho thấy hệ thống hoàn toàn có khả
năng phát hiện bất thường, phát hiện sớm các sự cố, các vấn đề, các hiện tượng bất
thường có khả năng xảy ra đối với hệ thống máy chủ DNS quốc gia (.VN). Các kết quả
nghiên cứu của đề tài hoàn toàn ứng dụng được cho hệ thống máy chủ tên miền DNS
quốc gia (.VN) do VNNIC quản lý và khai thác trong việc phát hiện, cảnh báo các vấn
đề bất thường góp phần đảm bảo an toàn an ninh cho mạng Internet Việt Nam.
Trong quá trình làm đề tài, trình bày báo cáo tác giả đã cố gắng đưa đầy đủ các
thông tin, các thuyết minh khoa học. Tuy nhiên do thời gian và trình độ có hạn, luận
văn không thể tránh khỏi những sai sót. Tác giả rất mong muốn được nhận được sự góp
ý để xây dựng hệ thống này một tốt hơn.
Trong thời gian tới, tác giả sẽ đề nghị cơ quan đầu tư bổ xung hệ thống máy chủ,
phần mềm để triển khai thực tế kết quả luận văn này giúp cho việc phát hiện sớm các sự
cố mạng DNS quốc gia (.VN) do VNNIC quản lý và khai thác.
Và nếu có điều kiện nghiên cứu tiếp, tác giả sẽ nghiên cứu chuyên sâu hơn về
mặt học thuật, dữ liệu truy vấn DNS ngày càng lớn nên áp dụng các phương pháp phân
tích, thống kê thông thường sẽ khó đáp ứng được, do vậy sẽ rất là khả thi khi nghiên
cứu ứng dụng lý thuyết toán xác suất thống kê Entropy [12, 13] vào việc phân tích dữ
liệu.
Tác giả xin chân thành cảm ơn Thầy PGS.TS Hoàng Minh, các thầy cô khoa
Quốc tế và Đào tạo sau Đại học, Trung tâm Internet Việt Nam và các bạn học viên lớp
CH09ĐT4, khóa học 2009-2011 đã tận tình giúp đỡ và hỗ trợ tác giả hoàn thành luận
văn này.
Xin trân trọng cảm ơn!./.