Tải bản đầy đủ (.pdf) (47 trang)

Phân tích lưu lượng mạng background và foreground

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.35 MB, 47 trang )

ĐẠI HỌC QUỐC GIA TP. HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA
--------------------

BÙI TIẾN ĐỨC

PHÂN TÍCH LƯU LƯỢNG MẠNG
BACKGROUND VÀ FOREGROUND
(NETWORK TRAFFIC ANALYSIS OF
BACKGROUND AND FOREGROUND)

NGÀNH: KHOA HỌC MÁY TÍNH
MÃ NGÀNH: 60.48.01.01

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. TRẦN MINH QUANG

TP. HỒ CHÍ MINH, tháng 12 năm 2017


CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐHQG - HCM
Cán bộ hướng dẫn khoa học: .............................................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 1: ....................................................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 2: ....................................................................
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)


Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG
Tp. HCM ngày . . . . . tháng . . . . năm . . . . .
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn
thạc sĩ)
1. .........................................................
2. .........................................................
3. .........................................................
4. .........................................................
5. .........................................................
Xác nhận của Chủ tịch Hội đồng đánh giá luận văn và Trưởng Khoa
quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA KH & KTMT

1


ĐẠI HỌC QUỐC GIA TP.HCM

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: BÙI TIẾN ĐỨC
Ngày, tháng, năm sinh: 06 / 01 / 1980

Ngành: Khoa Học Máy Tính

MSHV: 7140229
Nơi sinh: TP. HCM
Mã số: 60480101

I. TÊN ĐỀ TÀI:

PHÂN TÍCH LƯU LƯỢNG MẠNG BACKGROUND VÀ
FOREGROUND
(NETWORK TRAFFIC ANALYSIS OF BACKGROUND AND
FOREGROUND)
II. NHIỆM VỤ VÀ NỘI DUNG: Phân loại sớm lưu lượng mạng máy tính là

background hay foreground từ những packets đầu tiên.
III. NGÀY GIAO NHIỆM VỤ: (Ghi theo trong QĐ giao đề tài) 06/02/2017
IV. NGÀY HOÀN THÀNH NHIỆM VỤ: (Ghi theo trong QĐ giao đề tài)

18/06/2017
V. CÁN BỘ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên): Tiến Sĩ Trần
Minh Quang

CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)

Tp. HCM, ngày . . . . tháng .. . . năm 20....
TRƯỞNG KHOA KH & KTMT
(Họ tên và chữ ký)

TS. Trần Minh Quang


2


LỜI CẢM ƠN
Trong suốt thời gian 3 năm kể từ khi bắt đầu học cao học tại Trường Đại
học Bách khoa Tp. Hồ Chí Minh đến nay, tơi đã nhận được rất nhiều sự quan
tâm, giúp đỡ của quý Thầy Cơ, gia đình và bạn bè.
Tơi xin gửi lời cảm ơn chân thành đến quý Thầy Cô ở Khoa Khoa Học
và Kỹ thuật Máy Tính – Trường Đại Học Bách khoa Tp. Hồ Chí Minh đã
truyền đạt vốn kiến thức quý báu cho chúng tôi trong suốt thời gian học tập và
nghiên cứu tại trường.
Với lòng tri ân sâu sắc nhất, tôi xin gửi lời cảm ơn Tiến sĩ Trần Minh
Quang đã tận tâm hướng dẫn tôi qua từng buổi học trên lớp cũng như những
buổi báo cáo chuyên đề hàng tuần, thảo luận về lĩnh vực khai phá dữ liệu và
phân tích lưu lượng mạng background và foreground.
Luận văn thạc sĩ của tôi được thực hiện trong khoảng thời gian gần 1
năm. Bước đầu đi vào thực tế, tìm hiểu về lĩnh vực khai phá dữ liệu, phân tích
lưu lượng mạng background và ớc, khoảng
ba cho tới mười chín gói tin dùng cho việc mã hóa dữ liệu, khoảng
từ bốn đến mười gói tin cịn lại bắt đầu cho xác thực và trao đổi dữ
liệu giữa máy chủ và máy khách. Đặc biệt, mỗi thuộc tính đều
chiếm dụng ít hay nhiều gói tin, nên việc cắt bớt ảnh hưởng ít đến
quá trình phân loại sớm là cần thiết.

Hình 31: Kết quả phân loại sớm sau khi cắt bớt thuộc tính và gói tin
Hình 31 thể hiện kết quả xấp xỉ lỗi 20 phần trăm sau khi đã cắt bớt
thuộc tính ít ảnh hưởng đến kết quả phân loại sớm và cũng như rút bớt những
gói tin khơng cần thiết.


38


- Qua rất nhiều lần thực nghiệm trên hàng trăm giao dịch mạng khác
nhau, cũng như nhiều lần đánh giá kết quả đạt được. Hình 31 chỉ ra
rằng, sau khi cắt bớt thuộc tính và gói tin của gần 700 giao dịch
mạng được rút trích từ dữ liệu thực. Kết quả sau cùng là phân loại
sớm thành công xấp xỉ 80% trên gần 700 giao dịch mạng (TCP
Session). Tuy kết quả của cơng trình này chưa xuất sắc nhưng đã
đóng góp nhiều cho lĩnh vực phân loại sớm lưu lượng mạng máy
tính là lưu lượng nổi hay lưu lượng nền.
- Hình 31 biểu diễn tính trội về lưu lượng nổi hay lưu lượng nền dựa
vào thống kê thông tin trên 700 giao dịch mạng (TCP Session) để
phân loại sớm.
- Thách thức của phân loại sớm lưu lượng mạng máy tính nằm ở chỗ:
Chỉ duy nhất biết được đặc trưng kích thước gói tin nhưng vẫn phải
phân loại sớm được lưu lượng nền hay lưu lượng nổi.
- Kết quả phân loại sớm giao dịch mạng như hình 31 là câu trả lời
chính xác nhất vì đã giải quyết được thách thức phân loại sớm lưu
lượng mạng máy tính là lưu lượng nổi hay lưu lượng nền.
5.5. Bảng phân phối tích lũy (Cumulative distribution function)

Hình 32: Bảng Phân phối tích lũy
Hình 32 mơ tả chi tiết sự ảnh hưởng của số gói tin cần thiết cho việc
phân loại sớm.

39


5.6. Sơ đồ phân phối tích lũy (Cumulative distribution function)


Hình 33: Sơ đồ phân phối tích lũy
Hình 33 thể hiện nếu giao dịch mạng chưa nhiều gói tin và ở gói tin thứ
26 thì phân loại sớm lưu lượng mạng máy tính sẽ có kết quả tốt nhất.
5.7. Thảo luận
- [13] chỉ cần 5 gói tin là đã phân loại sớm được thành công các ứng
dụng email, web, download, ... Một con số q ấn tượng so với
cơng trình nghiên cứu này.
- Bản chất của Support Vector Machone (SVN) là học (learn) từ các
điểm dữ liệu cố định (support vector) để xây dựng một siêu phẳng
(hyperplane) nhằm phục vụ cho mục đích phân loại tập dữ liệu.
- [13] đã sử dụng các vector: Địa chỉ nguồn, địa chỉ đích, cổng
nguồn, cổng đích, giao thức (udp, tcp), kích thước gói tin (payload),
… như là đặc trưng (đặc trưng hoặc thuộc tính là cách gọi của cơng
trình nghiên cứu này) và được xem như nguồn ngun liệu cho mơ
hình phân loại sớm của mình.
- Ví dụ cụ thể: POP3 là giao thức được ứng dụng trong hộp thư điện
tử. Chỉ truyền tải nội dung “một chiều” từ server email về client
email thông qua ứng dụng outlook, MAC mail, … Thông qua
những vector, đặc trung này, [13] dễ dàng phân loại được ứng dụng
nào đó vừa sử dụng giao thức POP3.
40


- Câu hỏi đặt ra: người dùng đăng nhập vào email của mình sẽ tạo ra
lưu lượng nổi, ứng dụng outlook cũng với tài khoản này sẽ âm thầm
tự động tải về nội dung email sẽ tạo ra lưu lượng nền. Nếu nhiều
email rác xuất hiện sẽ tạo ra lượng lớn lưu lượng nền thì [13] khơng
thể có khả năng dò ra (detectable) đây là lưu lượng nền để chặn lại.
Tại sao vậy?

- Điểm mấu chốt tạo nên thành công của [13] chính là các ứng dựng
ln ln sử dụng cố định giao thức trên tầng ứng dụng, rồi sau đó
thơng qua đóng gói (encapslate) lại vận chuyển qua tầng vận
chuyển. Chính đặc trưng cố định này đã tạo ra các điểm dữ liệu
(support vector) hỗ trợ (support) để tạo nên siêu phẳng (hyperplane)
cho mục đích phân loại sớm từng loại ứng dụng.
- Những đặc trưng cố định này của các điểm dữ liệu (support vector)
sẽ không tồn tại nếu như [13] phân loại sớm lưu lượng mạng máy
tính là lưu lượng nền hay lưu lượng nổi. Vì sao?
- Hình 33 chỉ ra rằng, một giao dịch mạng bất kì khơng tồn tại sự cố
định đặc trưng nào có thể để tạo ra điểm dữ liệu (support vector) để
tạo ra siêu phẳng cho mục đích phân loại mà chỉ chứa một hay vài
ngẫu nhiên đặc trưng và đây chính là thách thức lớn nhất của cơng
trình nghiên cứu này. Do đó, [13] khơng có cách nào phân loại
được lưu lượng nổi hay lưu lượng nền với những đặc trưng được
phân phối ngẫu nhiên khơng cố định, khơng biết trước.
- Vì vậy, với mục tiêu phân loại sớm ứng dụng với nhiều điểm đặc
trưng (thuộc tính, support vector) cố định thì chỉ cần năm gói tin là
chính xác. Vì sao? Vì gói tin thứ 3,4,5 cho biết nhiều đặc trưng cố
định: địa chỉ nguồn, địa chỉ đích, cổng nguồn, cổng đích, tải trọng
(payload), … Nhưng phân loại sớm lưu lượng nền hay lưu lượng
nổi thì khơng được vì các đặc trưng (support vector) của lưu lượng
nền và lưu lượng nổi là phân phối ngẫu nhiên, khơng cố định như
hình 33 đã trình bày.
- Cơng trình nghiên cứu hiện tại nếu thêm những đặc trưng trên thì
chẳng những phân loại được ứng dụng mà cịn phân loại ln được
lưu lượng nền hay lưu lượng nổi. Lưu lượng nền do các ứng dụng
tự động tạo ra và lưu lượng nổi do người dùng ứng dụng tạo thành.
Do đó, đặc trưng của một giao dịch mạng luôn luôn biến động và
41



không tồn tại cố định một đặc trưng nào cả. Vì vậy, trong trường
hợp tốt nhất, cơng trình nghiên cứu này chỉ cần bốn gói tin là phân
loại được lưu lượng nổi hay lưu lượng nền. Trường hợp xấu nhất thì
chỉ cần tới gói tin thứ 26 là phân loại được lưu lượng nổi hay lưu
lượng nền. Vì mất khoảng tối đa mười chín gói tin để hồn thành
cho trao đổi khóa bất đối xứng để mã hóa dữ liệu trao đổi.
- Bên cạnh kết quả mà cơng trình này đạt được cũng nảy sinh ra ra
thách thức lớn mới. Đó là bài tốn rút trích và hiệu chỉnh đặc trưng
trong q trình xây dựng mơ hình phân loại để rút ngắn sai số cũng
như gói tin hơn nữa.
5.8. Mở rộng
- Cải tiến sự ảnh hưởng của đặc trưng để giảm sai số trong phân loại
sớm.
- Mở rộng ra thêm với giao thức UDP (User Datagram Protocol).
- Sau khi phân loại sớm thì cho biết ln là ứng dụng gì.
5.9. Kết quả đạt được:
- Cơng trình nghiên cứu trên đã chứng minh được số gói tin tối thiểu
từ 4 đến 26 là phân loại sớm được.
- Đóng góp thêm phương pháp giải quyết trong vấn đề phân loại
sớm.
- Là nền tảng cho những cơng trình nghiên cứu khác kế thừa để xây
dựng tiếp theo.

42


CHƯƠNG 6:


KẾT LUẬN

Cơng trình nghiên cứu trên đã chứng minh được với số gói tin tối thiểu
từ 4 đến 26 là phân loại sớm được lưu lượng nền hay lưu lượng nổi của một
giao dịch mạng.
Đóng góp thêm cho khoa học phương pháp giải quyết vấn đề phân loại
sớm lưu lượng mạng máy tính.
Nhu cầu phân loại lưu lượng mạng là lưu lượng nền hay lưu lượng nổi
đã hình thành trải qua quá trình dài nghiên cứu từ khi mạng máy tính ra đời.
Mỗi cơng trình nghiên cứu để phân loại lưu lượng mạng đều có những ưu
khuyết điểm khác nhau. Các cơng trình này thường sử dụng rất lớn gói tin
hoặc nhiều giao dịch mạng (TCP Session) để phân tích.
Việc phát hiện sớm và phân loại các giao dịch mạng (TCP Session) là
lưu lượng nền (Background Traffic) hay lưu lượng nổi (Foreground Traffic)
từ những gói tin đầu tiên của cơng trình nghiên cứu này có thể xem như là
bước đột phá trong lĩnh vực phân tích lưu lượng mạng nói riêng và lĩnh vực
cơng nghệ thơng tin nói chung.
Việc phân loại sớm giao dịch mạng từ những gói tin đầu tiên đã góp
phần khơng nhỏ để giúp nâng cao chất lượng phục vụ lên. Hỗ trợ cho quá
trình phát hiện và phịng chống tấn cơng mạng là tiền đề của quá trình thiết kế
và xây dựng hệ thống Sosftware Defined Networking cũng như tối ưu hóa hệ
thống. Và cũng là nền tảng cho những cơng trình khác kế thừa để xây dựng
tiếp theo.

43


TÀI LIỆU THAM KHẢO
[1]


[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

Q. T. Minh, H. Koto, T. Kitahara, L. Chen, S. I. Arakawa, S. Ano, et
al., "Separation of Background and Foreground Traffic Based on
Periodicity Analysis," 2015 IEEE Global Communications Conference
(GLOBECOM), 2015, pp. 1-7.
Z. Kenesi, Z. Szabo, Z. Belicza, and S. Molnár, "On the effect of the
background traffic on TCP's throughput," 10th IEEE Symposium on
Computers and Communications (ISCC'05), 2005, pp. 631-636.
J. Huang, F. Qian, Z. M. Mao, S. Sen, and O. Spatscheck, "Screen-off
traffic characterization and optimization in 3G/4G networks,"
Proceedings of the 2012 ACM conference on Internet measurement
conference, 2012, pp. 357-364.
M. Suzuki, M. Watari, S. Ano, and M. Tsuru, "Traffic classification on
mobile core network considering regularity of background traffic,"
2015 IEEE International Workshop Technical Committee on

Communications Quality and Reliability (CQR), 2015, pp. 1-6.
M. Arumaithurai, X. Fu, and K. Ramakrishnan, "NF-TCP: a network
friendly TCP variant for background delay-insensitive applications,"
International Conference on Research in Networking, 2011, pp. 342355.
K. V. Vishwanath and A. Vahdat, "Evaluating distributed systems:
Does background traffic matter?,"
USENIX Annual Technical
Conference, 2008, pp. 227-240.
T. T. Nguyen and G. Armitage, "A survey of techniques for internet
traffic classification using machine learning," IEEE Communications
Surveys & Tutorials, vol. 10, no. 4, 2008, pp. 56-76.
F. Silveira, C. Diot, N. Taft, and R. Govindan, "ASTUTE: Detecting a
different class of traffic anomalies," ACM SIGCOMM Computer
Communication Review, vol. 40, no. 4, 2010, pp. 267-278.
G. Nychis and D. R. Licata, "The impact of background Network
traffic on foreground network traffic," The Proceeding of the IEEE
Global Telecommunications Conference, GLOBECOM, 2001, pp. 116.

44


[10] J. Zhang, Y. Xiang, Y. Wang, W. Zhou, Y. Xiang, and Y. Guan,
"Network traffic classification using correlation information," IEEE
Transactions on Parallel and Distributed Systems, vol. 24, no. 1, 2013,
pp. 104-117.
[11] J. Zhang, Y. Xiang, W. Zhou, and Y. Wang, "Unsupervised traffic
classification using flow statistical properties and IP packet payload,"
Journal of Computer and System Sciences, vol. 79, no. 5, 2013, pp.
573-585.
[12] J. Zhang, C. Chen, Y. Xiang, W. Zhou, and A. V. Vasilakos, "An

effective network traffic classification method with unknown flow
detection," IEEE Transactions on Network and Service Management,
vol. 10, no. 2, 2013, pp. 133-147.
[13] G. G. Sena, and P. Belzarena, "Early traffic classification using support
vector machines," The Proceedings of the 5th International Latin
American Networking Conference, ACM, 2009, pp. 60-66.

45


PHẦN LÝ LỊCH TRÍCH NGANG
Họ và tên: BÙI TIẾN ĐỨC
Ngày, tháng, năm sinh: 06/01/1980
Nơi sinh: TP.HCM
Địa chỉ liên lạc: 527 Lê Quang Định, Phường 1, Quận Gị Vấp
Q TRÌNH ĐÀO TẠO

(Bắt đầu từ Đại học đến nay)
Q TRÌNH CƠNG TÁC

(Bắt đầu từ khi đi làm đến nay)

46



×