Tải bản đầy đủ (.pdf) (162 trang)

Một số phát hiện mới trong đo lường và phân tích lưu lượng internet mô hình và các thuộc tính phân loại lưu lượng theo ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.06 MB, 162 trang )

...

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

NGUYỄN TÀI HƯNG

MỘT SỐ PHÁT HIỆN MỚI TRONG ĐO LƯỜNG VÀ PHÂN
TÍCH LƯU LƯỢNG INTERNET. MƠ HÌNH VÀ CÁC THUỘC
TÍNH PHÂN LOẠI LƯU LƯỢNG THEO ỨNG DỤNG

LUẬN ÁN TIẾN SĨ KỸ THUẬT

HÀ NỘI - 2007


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

NGUYỄN TÀI HƯNG

MỘT SỐ PHÁT HIỆN MỚI TRONG ĐO LƯỜNG VÀ PHÂN
TÍCH LƯU LƯỢNG INTERNET. MƠ HÌNH VÀ CÁC THUỘC
TÍNH PHÂN LOẠI LƯU LƯỢNG THEO ỨNG DỤNG

Chuyên nghành:
Mã số:

Kỹ thuật viễn thông
62.52.70.05


LUẬN ÁN TIẾN SĨ KỸ THUẬT

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. PHẠM MINH HÀ

Hà Nội - 2007


i

Lời cam đoan
Tôi xin cam đoan luận án này là cơng trình nghiên cứu của chính bản thân. Các kết
quả nghiên cứu trong luận án là trung thực và chưa được cơng bố trong bất kỳ cơng
trình nào khác.
Tác giả luận án

NGUYỄN TÀI HƯNG


ii

Mục lục
Lời cam đoan ..........................................................................................................................i
Mục lục ..................................................................................................................................ii
Danh mục các chữ viết tắt......................................................................................................v
Danh mục các từ khoá và ký hiệu.........................................................................................vi
Danh mục các hình vẽ và đồ thị...........................................................................................vii
Danh mục các bảng...............................................................................................................ix
MỞ ĐẦU ...............................................................................................................................1
1. Tính cấp thiết của đề tài.............................................................................................1

2. Đối tượng, mục tiêu và phạm vi nghiên cứu của luận án .............................................2
3. Phương pháp nghiên cứu của luận án ...........................................................................3
4. Ý nghĩa khoa học và thực tiễn của luận án ...................................................................5
5. Bố cục của luận án ........................................................................................................5
Ch−¬ng 1 TỔNG QUAN VỀ PHÂN TÍCH VÀ NHẬN DẠNG LUỒNG LƯU LƯỢNG
INTERNET............................................................................................................................8
1.1
Nhu cầu phân tích và nhận dạng luồng lưu lượng ứng dụng Internet ...................8
1.2
Các nghiên cứu liên quan.....................................................................................10
1.3
Kết luận về vấn đề nghiên cứu của luận án .........................................................15
Ch−¬ng 2 ĐO LƯỜNG VÀ LẤY MẪU LƯU LƯỢNG INTERNET ............................17
2.1
Giới thiệu chung ..................................................................................................17
2.2
Đo lường thụ động ...............................................................................................19
2.2.1
Khảo sát các phương pháp và ứng dụng đo lường thụ động ...................21
2.2.1.1 Tiến trình bắt giữ gói lưu lượng...............................................................21
2.2.1.2 Tiến trình phân tích thơ dữ liệu gói bắt được ..........................................22
2.2.1.3 Đo lường mạng đường trục......................................................................24
2.2.1.4 Đo lường mạng nội bộ .............................................................................25
2.2.1.5 Đo lường mạng quay số (Dial-up và ADSL)...........................................26
2.2.2
Các phương pháp nén dữ liệu đo .............................................................27
2.2.3
Vấn đề đồng bộ thời gian.........................................................................28
2.3
Kỹ thuật lấy mẫu lưu lượng mạng Internet..........................................................29

2.3.1
Thuật toán lấy mẫu ..................................................................................30
2.3.1.1 Lấy mẫu hệ thống ....................................................................................30
2.3.1.2 Lấy mẫu ngẫu nhiên.................................................................................31
2.3.1.3 Lấy mẫu phân tầng...................................................................................32
2.3.2
Tần số lấy mẫu và khoảng lấy mẫu..........................................................32
2.4
Phần mềm BKCAP ..............................................................................................33
2.4.1
Yêu cầu thiết kế .......................................................................................33
2.4.2
Thiết kế hệ thống .....................................................................................35
2.4.3
Đánh giá hiệu suất hoạt động của BKCAP..............................................39
2.5
Tổ chức cơ sở dữ liệu đo......................................................................................40
2.5.1 Các tệp dữ liệu lưu lượng sử dụng trong luận án ..............................................40
2.5.2
Tỉ lệ phần trăm số lượng luồng theo từng ứng dụng ...............................44
2.6
Kết luận...............................................................................................................45
Ch−¬ng 3 PHÂN TÍCH LUỒNG LƯU LƯỢNG IP TRÊN INTERNET .......................47
3.1
Khái niệm luồng lưu lượng trên Internet .............................................................48


iii
3.1.1
Định nghĩa................................................................................................48

3.1.2
Cơ chế kết thúc luồng ..............................................................................49
3.1.3
Các thuộc tính của luồng .........................................................................50
3.2
Phân tích các luồng lưu lượng IP trên Internet ....................................................51
3.2.1
Cơ sở toán học thống kê ..........................................................................51
3.2.1.1 Lý thuyết lưu lượng và Internet ...............................................................51
3.2.1.2 Phương pháp dự đoán phân bố phù hợp với dữ liệu đo thực nghiệm......55
3.2.2
Phân tích phân bố I.A.T của các luồng lưu lượng IP...............................60
3.2.2.1 Phân bố I.A.T của các luồng lưu lượng IP của tất cả các ứng dụng ........60
3.2.2.2 Phân bố I.A.T của các luồng lưu lượng IP của từng ứng dụng riêng lẽ ..67
3.2.2.3 Mơ hình đánh giá độ dài phần đi của phân bố quá trình đến của các
luồng lưu lượng IP ...................................................................................................73
3.2.3
Phân bố kích thước luồng lưu lượng IP ...................................................80
3.2.3.1 Phân bố kích thước luồng theo gói ..........................................................81
3.2.3.2 Phân bố kích thước luồng theo byte ........................................................82
3.2.3.3 Phân bố thời lượng luồng.........................................................................84
3.3
Kết luận...............................................................................................................85
Ch−¬ng 4 MƠ HÌNH TỰ ĐỘNG NHẬN DẠNG VÀ PHÂN LOẠI LUỒNG LƯU
LƯỢNG IP TRÊN INTERNET...........................................................................................87
4.1
Giới thiệu chung ................................................................................................87
4.2
Cơ sở lý thuyết học tự động.................................................................................89
4.2.1

Định nghĩa................................................................................................89
4.2.2
Thành phần ..............................................................................................89
4.2.3
Học có giám sát và học khơng có giám sát..............................................90
4.2.4
Lựa chọn thuộc tính .................................................................................90
4.2.4.1 Tổ chức tìm kiếm .....................................................................................91
4.2.4.2 Mơ hình hốn đổi.....................................................................................92
4.2.4.3 Mơ hình bộ lọc.........................................................................................93
4.2.5
Thuật tốn phân loại (thuật tốn học) ......................................................94
4.2.5.1 Thuật toán C4.5........................................................................................94
4.2.5.2 Thuật toán Naive Bayes / NBD ...............................................................96
4.2.5.3 Thuật toán lân cận gần nhất (kNN)..........................................................97
4.2.5.4 AdaBoost – kỹ thuật “Boosting” .............................................................97
4.3
Xây dựng mơ hình nhận dạng và phân loại luồng lưu lượng IP bằng phương pháp
học tự động ......................................................................................................................98
4.3.1
Chuẩn bị dữ liệu.....................................................................................100
4.3.2
Xây dựng tập các thuộc tính của luồng lưu lượng IP ............................101
4.3.2.1 Các thuộc tính liên quan đến các phân bố về tải tin và i.a.t gói và luồng
105
4.3.2.2 Các thuộc tính xác định tính qui luật của tải tin và tốc độ truyền .........108
4.3.2.3 Các thuộc tính thể hiện tính chất tương tác: dịng lệnh và bàn phím.....109
4.3.2.4 Các thuộc tính thể hiện các phiên làm việc kiểu truyền dữ liệu ............111
4.3.2.5 Các thuộc tính thể hiện hướng truyền....................................................112
4.3.3

Lớp lưu lượng ........................................................................................115
4.3.4
Cơng cụ phân tích ..................................................................................117
4.3.5
Phương pháp đánh giá hiệu suất của các bộ phân loại...........................119
4.3.6
Lựa chọn thuộc tính ...............................................................................121


iv
4.3.7
Xây dựng mơ hình .................................................................................127
4.3.8
Mơ phỏng và đánh giá mơ hình .............................................................128
4.3.8.1 Tỉ lệ phân loại đúng và sai .....................................................................128
4.3.8.2 Tốc độ phân loại và thời gian học..........................................................132
4.3.8.3 Sự phụ thuộc vào kích thước dữ liệu mẫu .............................................133
4.3.8.4 Sự phụ thuộc vào thời gian time-out của luồng .....................................133
4.3.8.5 Sự phụ thuộc vào kích thước cửa sổ luồng ............................................135
4.4
Kết luận..............................................................................................................137
KẾT LUẬN VÀ KIẾN NGHỊ ...........................................................................................139
1. Kết quả nghiên cứu ...................................................................................................139
2. Hướng phát triển của đề tài....................................................................................140
DANH MỤC CÁC CƠNG TRÌNH ...................................................................................141
TÀI LIỆU THAM KHẢO .................................................................................................142
PHỤ LỤC A - MỘT SỐ CÔNG CỤ THU THẬP VÀ ĐO LƯỜNG LƯU LƯỢNG GÓI
HIỆN CÓ. ..........................................................................................................................149



v

Danh mục các chữ viết tắt
Từ viết tắt
Nghĩa tiếng Việt
Một số từ viết tắt quan trọng sử dụng trong luận án
Đơn vị dữ liệu ứng dụng/giao thức
ADU/PDU
Phần mềm bắt gói và phân tích lưu
BKCAP
lượng Internet
Phần mềm phân loại lưu lượng
BKCLASS
Internet
Hàm mật độ xác suất luỹ tích/luỹ
CDF/CCDF
tích bù
Tấn cơng từ chối dịch vụ
DoS
Khoảng thời gian giữa các thời điểm
I.A.T
đến
Giao thức điều khiển Internet
ICMP

Nghĩa tiếng Anh
Application/Protocol Data Unit
Bach Khoa Packet Capturing
Bach Khoa Traffic Classification
Complement/Cummulative

Density Function
Denial of Services
Inter-arrival time

Internet
Control
Message
Protocol
Lượng thông tin (của 1 thuộc tính)
Information Gain
IG
kiến trúc đo lường luồng lưu lượng IP Flow Import Export
IPFIX
IP
Bộ công cụ tạo luồng lưu lượng
HUT Flow Analysis
HFA
Giao thức web bảo mật
Hyper Text Transfer Protocol,
HTTPS
Secured
Chỉ số kiểm tra mức độ phù hợp
Kolmogorov-Smirnov
KS
Thuật toán học tự động
K Nearest Neighbors
kNN
Bộ thư viện các hàm bắt gói
Libraries for packet capturing
Libpcap

Giao thức điều khiển truy nhập
Media Access Control
MAC
thuật toán học tự động
Naive Bayes Discretization
NBD
Nghiên cứu sinh
Researcher
NCS
Giao thức nhận thư điện tử
Post Office Protocol v3
POP3
Chất lượng dịch vụ
Quality of Services
QoS
Chỉ số kiểm tra mức độ phù hợp
Sum of Square due to Error
SSE
Chương trình truy nhập từ xa an Secured SHell
SSH
tồn
Chỉ số kiểm tra mức độ phù hợp
R-Square
R2
Chương trình truy nhập từ xa
Remote login
rlogin
Giao thức gửi thư điện tử
Simple Mail Transfer Protocol
SMTP

Trễ phía phát ->phía thu ->phía phát Round Trip Time
RTT
Thời gian sống của gói trên mạng
Time to live
TTL
TP, FP, TN, Các chỉ số tính độ tin cậy của thuật True positive, False Positive,
toán học tự động
True Negative & False Negative
FN


vi

Danh mục các từ khoá và ký hiệu
Các từ khoá
Học tự động
Phân loại lưu lượng
Phân tích luồng
Vệt dài
AdaBoost
Goodness-of-fit
Promiscuous
Script
Time-out
Trace

Là chương trình máy tính hoặc thuật tốn cho phép học tự động các
qui luật (phân loại) từ dữ liệu mẫu.
Là quá trình nhận dạng lưu lượng của 1 ứng dụng hoặc nhóm ứng
dụng trên mạng Internet từ đó phân chia thành các nhóm khác nhau.

Là q trình áp dụng các kỹ thuật và mơ hình thống kê tốn học để
tìm hiểu các đặc tính đặc trưng của các luồng lưu lượng Internet
Là đặc tính của các phân bố có hàm mật độ xác suất có phần đi
kéo dài, hay có nghĩa có lượng biến thiên vô hạn (suy giảm chậm
theo qui luật luỹ thừa).
Một kỹ thuật học tự động cho phép tăng độ chính xác của thuật tốn
học bằng cách kết hợp nhiều thuật tốn học kém chính xác hơn
Mức độ phù hợp giữa phân bố dữ liệu thực nghiệm với một phân bố
giả định nào đấy
Chế độ hoạt động của các card giao tiếp mạng cho phép chuyển tiếp
tất cả các gói lưu thơng trong mạng
Một chương trình con cho phép thực hiện mà không cần biên dịch
trước sang ngôn ngữ máy.
Khoảng thời gian tối đa giữa hai gói liên tiếp được xem là cùng 1
luồng
Tệp lưu trữ các gói lưu lượng bắt được theo khuôn dạng của
Tcpdump

Các ký hiệu
Phần lớn các ký hiệu trong luận văn này tuân theo ký hiệu chuẩn. Các phương trình
được đánh số tuần tự riêng. Các ký hiệu hay dùng trong luận văn được liệt kê trong
bảng dưới đây.
Bảng một số ký hiệu
Ký hiệu

Ý nghĩa

α
τ


Tham số của các phân bố vệt dài, thể hiện mức độ kéo dài của phần đuôi của phân bố.
Biến thời gian time-out trong định nghĩa các luồng lưu lượng IP.
Phân bố Dirac
Khoảng cách hình học Ơ clit giữa 2 điểm trên toạ độ (x,y)
Hàm mật độ xác suất (pdf)
Hàm mật độ xác suất luỹ tích (cdf)
Hàm mật độ xác suất luỹ tích thực nghiệm
Hàm mật độ xác suất luỹ tích bù (ccdf)
Entropy của biến ngẫu nhiên X
Xác suất biến ngẫu nhiên X lấy giá trị y
Xác suất dữ liệu y thuộc lớp cj

δ (t )
D(x,y)
f(x)
F(X)
Fe(X)
1-F(X)
H(X)
P(X=y)
P(cj|y)


vii

Danh mục các hình vẽ và đồ thị
Hình 2-1 Kiến trúc phần mềm bắt và phân tích gói lưu lượng Internet BKCAP ......37
Hình 2-2 Tổ chức cơ sở dữ liệu luồng lưu lượng đo được trong BKCAP .................38
Hình 2-3 Sơ đồ bố trí hệ thống đo và thu thập dữ liệu lưu lượng thực tế tại EVN
Telecom ......................................................................................................................40

Hình 2-4 Định dạng fs ......................................................................................................42
Hình 2-5 Phân chia các gói lưu lượng thành các luồng tương ứng .............................43
Hình 2-6 Phân bố số lượng luồng giữa các ứng dụng, thống kê từ các tệp dữ liệu đo
DL1 và DL7 ...............................................................................................................45
Hình 3-1 Đồ thị log-log CCDF của các phân bố vệt dài (theo [34][35])...........................54
Hình 3-2 Hàm CDF I.A.T của các luồng lưu lượng thực nghiệm trong tệp dữ liệu
DL1, với các giá trị time-out khác nhau .................................................................61
Hình 3-3 Biểu đồ phân bố I.A.T luồng lưu lượng của một số dữ liệu đo ..................64
Hình 3-4 Hàm ccdf I.A.T của các luồng lưu lượng (a) trên thang tuyến tính và (b) thang
logarit – DL2, 60s ........................................................................................................66
Hình 3-5 Phân bố I.A.T của các luồng lưu lượng của một số ứng dụng chính trong hai
tập dữ liệu DL1 và DL4. Tần suất xuất hiện ở đây là các giá trị đã được chuẩn hố.
.....................................................................................................................................72

Hình 3-6 Đồ thị Q-Q giữa dữ liệu thực nghiệm của ứng dụng imap và các phân bố
giả định, DL1, 60s .....................................................................................................75
Hình 3-7 Vùng đi dài của đồ thị log-log CCDF của phân bố I.A.T luồng lưu lượng
Internet (2, 4, 8, 16, 32, 64, 128, 256 và 512 là các mức tổng hợp dữ liệu tương ứng).
.....................................................................................................................................78

Hình 3-8 Đồ thị log-log CCDF phân bố kích thước luồng lưu lượng Internet theo
gói trong các tệp dữ liệu DL1 và DL7 và thời gian time-out là 60s ...................81
Hình 3-9 Đồ thị CCDF (thang logarit) phân bố kích thước các luồng lưu lượng IP
trong dữ liệu DL1 theo byte. ....................................................................................83
Hình 3-10 Đồ thị CDF phân bố kích thước thời lượng các luồng lưu lượng IP, xét
trong dữ liệu DL1 và thời gian Time-out = 60s.....................................................84
Hình 4-1 Mơ hình phân loại lưu lượng Internet ở mức luồng .............................................88

Hình 4-2 Mơ hình lựa chọn thuộc tính cho q trình phân loại tự động ....................93
Hình 4-3 Lưu đồ thuật tốn phân loại luồng lưu lượng sử dụng kỹ thuật học tự động

...................................................................................................................................100

Hình 4-4 Mơ phỏng khái niệm các phân bố rời rạc tải tin và I.A.T của các gói thuộc
luồng..........................................................................................................................107
Hình 4-5 Phân bố số lượng luồng trong cửa sổ quan sát ............................................108
Hình 4-6 Lưu đồ qúa trình học, đánh giá và kiểm tra mơ hình phân loại ................121
Hình 4-7 Thứ tự 20 thuộc tính quan trọng nhất ...........................................................126
Hình 4-8 Độ chính xác của các thuật toán phân loại khác nhau khi thực hiện trên
tồn bộ 42 thuộc tính...............................................................................................129
Hình 4-9 Độ chính xác của các thuật toán phân loại khác nhau khi thực hiện trên 15
thuộc tính quan trọng nhất ......................................................................................129
Hình 4-10 Độ tin cậy hay tỉ lệ phân loại đúng của các lớp lưu lượng tương ứng ...130


viii
Hình 4-11 Độ tin cậy phân loại của các lớp lưu lượng tính trung bình trên tất cả các tập dữ
liệu và các thuật tốn học...........................................................................................131
Hình 4-12 Độ chính xác trung bình theo kích thước tập dữ liệu mẫu ......................133

Hình 4-13 Độ chính xác phân loại theo thời gian time-out của luồng, tệp dữ liệu
mẫu là DL7 và sử dụng cả 42 thuộc tính luồng ...................................................134
Hình 4-14 Biến thiên độ tin cậy theo thời gian time-out của luồng, dữ liệu DL7, sử
dụng 42 thuộc tính ...................................................................................................135
Hình 4-15 Sự phụ thuộc giữa độ chính xác và khoảng chồng lấn cửa sổ ................137
Hình 4-16 Sự phụ thuộc giữa độ chính xác và kích thước cửa sổ .............................137


ix

Danh mục các bảng

Bảng 1-1 Chín thuộc tính cơ bản của kết nối mạng theo Lee và Stolfo .....................12
Bảng 1-2 Các thuộc tính luồng tương tác theo Paxson và Zhang ...............................13
Bảng 1-3 Các thuộc tính sử dụng để phân chia lưu lượng theo Hernandez-Campos14
Bảng 2-1 Một số phép đo điển hình trên mạng Internet ...............................................17
Bảng 2-2 Ví dụ tệp xml mô tả cấu trúc giao thức RTP..................................................37
Bảng 2-3 Các tệp dữ liệu lưu lượng Internet dùng trong luận án................................41
Bảng 2-4 Dữ liệu luồng lưu lượng phục vụ phân tích quá trình đến ..........................43
Bảng 3-1 Các thơng số thống kê thời điểm đến (I.A.T) của các luồng lưu lượng ....61
Bảng 3-2 Tóm tắt kết quả sự phù hợp giữa phân bố i.a.t thực nghiệm của các luồng lưu
lượng của các ứng dụng trong dữ liệu DL7 (τ = 60s) với một số phân bố giả định
.....................................................................................................................................79

Bảng 4-1 Số lượng luồng của mỗi tệp dữ liệu tương ứng ..........................................101
Bảng 4-2 Tập các thuộc tính của luồng phục vụ bài tốn phân loại lưu lượng .......102
Bảng 4-3 Danh sách các lớp lưu lượng.........................................................................116
Bảng 4-4 Danh sách các thuộc tính luồng lưu lượng IP .............................................122
Bảng 4-5 Kết qủa lựa chọn thuộc tính theo giải thuật CFS .......................................124
Bảng 4-6 Kết quả lựa chọn thuộc tính theo các mơ hình bộ lọc khác và mơ hình hốn đổi
...................................................................................................................................125

Bảng 4-7 Danh sách 15 thuộc tính tốt nhất ..................................................................126
Bảng 4-8 Các thông số hiệu suất của các thuật toán phân loại lưu lượng ................132


1

MỞ ĐẦU
1. Tính cấp thiết của đề tài
Xu hướng hội tụ công nghệ trong lĩnh vực viễn thông đã làm cho mạng
Internet trở thành hạ tầng truyền thông chủ yếu của tất cả các ứng dụng thông tin

liên lạc, từ các ứng dụng truyền thống như duyệt web, gửi thư điện tử, truyền file,
vv... đến các ứng dụng thời gian thực như VoIP, truyền hình trực tuyến, trị chơi
trực tuyến và các dịch vụ chia sẽ. Việc triển khai các ứng dụng thời gian thực này
tạo ra thách thức rất lớn đối với Internet trên hai khía cạnh: (i) cung cấp chất lượng
dịch vụ (QoS) và (ii) giám sát mức chất lượng dịch vụ do mạng cung cấp.
Để xây dựng kiến trúc cung cấp QoS và/hoặc mơ hình giám sát mức chất
lượng mà mạng cung cấp, việc đầu tiên và đóng vai trị quan trọng nhất là phải xác
định được các biểu hiện hoạt động và biến thiên của lưu lượng của các ứng dụng
trên Internet, từ đó tìm ra các đặc trưng lưu lượng của từng loại ứng dụng. Từ các
đặc trưng này sẽ tiến hành xây dựng các mơ hình nhận dạng lưu lượng ứng dụng và
do đó có thể áp dụng các mức ưu tiên xử lý khác nhau với chúng.
Thực tế cũng đã có nhiều nghiên cứu về các đặc tính và biểu hiện biến thiên
của lưu lượng Internet. Có thể chỉ ra những nghiên cứu điển hình bao gồm: On the
Self-Similar Nature of Ethernet Traffic (bản đầy đủ),” IEEE/ACM Transactions on
Networking, 2(1), trang 1-13, 1994, của các tác giả Leland, W., M. Taqqu, W.
Willinger, và D. Wilson; Wide area Internet traffic patterns and characteristics,
IEEE Network Mag. Tập 11(6), trang 10-23, 1997 của các tác giả Kevin Thompson,
Gregory J. Miller, và Rick. Wilder; luận án tiến sĩ của K.C.Claffy, Internet traffic
characterization, University of California, San Diego, 1994; vv...
Kết quả khảo sát của NCS về những nghiên cứu này cho thấy:
- Do đặc điểm của mạng Internet là một hệ thống phân tán và hoạt động trên cơ
chế phân lớp, nên cụm từ “Lưu lượng Internet” được hiểu là tập hợp của rất
nhiều định nghĩa, khái niệm và đối tượng khác nhau. Do đó các nghiên cứu về
lưu lượng Internet rất phong phú và thường được giới hạn trong một phạm vi
mạng cụ thể, một lớp nhất định trên mơ hình phân lớp TCP/IP hoặc một đối
tượng lưu lượng cụ thể nào đó.
- Các nghiên cứu trước đây, đa phần tập trung nghiên cứu và đánh giá đặc tính lưu
lượng Internet ở mức gói (hay nói cách khác đối tượng nghiên cứu là các gói IP)



2

và kết quả đã xác nhận các đặc tính cụm, tự đồng dạng và có sự tương quan
trong thời gian dài của chúng.
- Một số nghiên cứu, bao gồm cả luận án TS của K.C.Claffy, đã khảo sát các đặc
tính của lưu lượng Internet ở mức luồng, trong đó họ định nghĩa luồng lưu lượng
Internet hoặc là dựa trên cơ chế làm việc của giao thức TCP (dùng cờ SYN và
FIN/RESET để đánh dấu sự bắt đầu hoặc kết thúc một luồng lưu lượng), hoặc
định nghĩa luồng lưu lượng tương ứng với một phiên làm việc của giao thức ứng
dụng. Cách định nghĩa luồng lưu lượng này chỉ hữu ích cho việc đánh giá hiệu
suất hoạt động của các giao thức đầu cuối cũng như giúp định cỡ cho các hệ
thống đầu cuối của mạng Internet mà thường không giúp việc đánh giá hiệu suất
hoạt động hoặc các vấn đề khác của bản thân mạng Internet (hay cụ thể hơn là
các bộ định tuyến hoạt động ở lớp IP).
- Trong đồ án TS của K.C.Claffy, tác giả chủ yếu nghiên cứu các đặc tính của các
luồng lưu lượng Internet tổng hợp bao gồm kích thước luồng và q trình đến
của luồng và đánh giá sự phụ thuộc của chúng vào giá trị time-out sử dụng trong
quá trình định nghĩa luồng cũng như các tham số môi trường, mà chưa đưa ra
kết luận là các đặc tính này tuân theo phân bố gì và cũng chưa nghiên cứu riêng
rẽ cho từng ứng dụng trong lưu lượng tổng hợp.
Như vậy có thể thấy vấn đề phân tích và đặc tính hố các luồng lưu lượng
Internet ở lớp IP còn phải được nghiên cứu và khảo sát một cách chi tiết, đặc biệt
theo hướng làm rõ các đặc tính đặc trưng theo ứng dụng hoặc nhóm ứng dụng của
chúng. Điều này rất quan trọng trong việc tìm kiếm mơ hình phân chia lưu lượng
Internet một cách tự động và trong thời gian thực nhằm thay thế cho các mơ hình
phân chia lưu lượng dựa trên giá trị cổng ứng dụng hiện đang gặp nhiều vấn đề về
độ chính xác.

2. Đối tượng, mục tiêu và phạm vi nghiên cứu của luận án
Với hiện trạng như phần trên, mục tiêu nghiên cứu của luận án là sử dụng các

mơ hình phân tích và dự đốn nhằm tìm hiểu các biểu hiện hoạt động và biến thiên
của các luồng lưu lượng IP trên Internet và từ đó xây dựng mơ hình cho phép tự
động nhận dạng và phân chia lưu lượng thành các nhóm ứng dụng khác nhau, góp
phần giải quyết thách thức mà các nhà cung cấp dịch vụ truy nhập (ISP/IXP) cũng
như các nhà cung cấp nội dung (ICP) Internet hiện nay đang gặp phải. Trọng tâm
nghiên cứu là xác định tập các thuộc tính của luồng lưu lượng IP trên mạng đồng


3

thời nhận biết các dấu hiệu phân biệt chúng với nhau. Vì thế đối tượng nghiên cứu
của luận án là các luồng lưu lượng IP trên Internet.
Có thể tóm tắt phạm vi nghiên cứu của luận án bao gồm việc nghiên cứu giải
quyết các vấn đề:
- Thu thập và xây dựng một cơ sở dữ liệu lưu lượng Internet đầy đủ và tin cậy
- Thực hiện các phân tích thống kê và mơ hình hố các luồng lưu lượng đo ở
lớp IP nhằm tìm hiểu các biểu hiện hoạt động và biến thiên của chúng cũng
như các đặc tính đặc trưng theo kiểu ứng dụng.
- Xây dựng mơ hình cho phép tự động nhận dạng với độ chính xác cao lưu
lượng của các nhóm ứng dụng điển hình trên Internet nhằm thay thế cho mơ
hình phân chia theo giá trị cổng ứng dụng hiện đang gặp nhiểu trở ngại do có
chế cấp phát động cổng ứng dụng của mạng Internet.
- Đánh giá hiệu suất và độ chính xác của mơ hình tìm được trên dữ liệu thực
nghiệm thu thập từ mạng.
Tuy nhiên do thực tế Internet là mạng thông tin tồn cầu có qui mơ và số lượng
ứng dụng vơ cùng lớn, đồng thời trạng thái hoạt động của mạng cũng thể hiện sự
biến thiên rất lớn trên nhiều mặt, như biến thiên về tải lưu lượng, biến thiên theo
khu vực địa lý, biến thiên theo vùng mạng hay biến thiên theo kiểu ứng dụng, vv...
Do đó việc nghiên cứu biểu hiện hoạt động của các luồng lưu lượng IP trên tồn
mạng Internet là điều khơng thể thực hiện được. Hơn nữa do điều kiện khách quan

nên dữ liệu lưu lượng đo của luận án, được thu thập tại mạng ISP/IXP của cơng ty
Thơng tin viễn thơng điện lực, có thể khơng hồn tồn mang tính đại diện cho lưu
lượng của mạng Internet tồn cầu. Vì thế các kết quả nghiên cứu của luận án trước
hết thể hiện các biểu hiện hoạt động và biến thiên của các luồng lưu lượng IP trong
phạm vi một mạng ISP/IXP điển hình sau đó, hy vọng phần nào, thể hiện đặc tính
của mạng Internet nói chung. Đồng thời mơ hình nhận dạng luồng lưu lượng IP do
luận án đề xuất phù hợp trước hết cho những ứng dụng của các mạng ISP/IXP.

3. Phương pháp nghiên cứu của luận án
Phương pháp luận khoa học sử dụng trong luận án này là sự kết hợp giữa mơ
hình phân tích và các phép đo thực nghiệm. Phương pháp sử dụng các mơ hình phân
tích có nhiều ưu điểm như khả năng kiểm soát được hoạt động của mơ hình và cung
cấp các chi tiết về mối quan hệ giữa các tham số đầu vào với kết quả đầu ra, tuy
nhiên nó cũng có nhược điểm là thường phải sử dụng các “tóm tắt” của hệ thống ở
mức cao nên đơi khi mơ hình khơng phản ánh đúng bản chất thực tế của quá trình


4

lưu lượng. Do đó cần thiết phải có sự kiểm tra hoạt động của các mơ hình phân tích
trên dữ liệu đo thực nghiệm từ mạng thực tế.

Cụ thể lưu lượng thu thập từ mạng Internet được xử lý để tạo các tệp dữ liệu
luồng. Các tệp dữ liệu luồng này sau đó được phân tích bằng các mơ hình và
phương pháp thống kê để tìm hiểu biểu hiện hoạt động và biến thiên của chúng
cũng như nguyên nhân gây ra các biểu hiện đó. Hai phương pháp thống kê quan
trọng được sử dụng luận án này bao gồm: (i) phương pháp đánh giá hình dạng và
dự đốn các thơng số liên quan của phân bố dữ liệu thực nghiệm, như các hàm
phân bố xác suất (pdf), phân bố xác suất luỹ tích (cdf), phân bố xác suất luỹ tích bù
(ccdf), đồ thị Q-Q, biểu đồ, mơ hình dự đốn MLE, mơ hình tổng hợp dữ liệu và (ii)

phương pháp đánh giá mức độ phù hợp giữa phân bố dữ liệu thực nghiệm với
các phân bố lý thuyết (phương pháp thích hợp hố các đường cong), như mơ
hình tính tốn các chỉ số thống kê SSE (Sum of Square due to Error), R2, mơ hình


5

kiểm tra KS (Kolmogorov-Smirnov). Chi tiết của hai phương pháp này sẽ được trình
bày trong mục 3.2.1 của chương 3.
Kết quả của q trình phân tích và mơ hình hố luồng lưu lượng IP là tập các
thuộc tính đặc trưng cùng với kiểu giá trị của chúng. Dựa trên tập thuộc tính này,
tiến hành xây dựng các tập dữ liệu mẫu và dữ liệu kiểm tra chứa các luồng lưu
lượng (thể hiện dưới dạng bản ghi các thuộc tính của nó) đã được phân loại một
cách thủ cơng. Các thuật tốn học tự động của trí tuệ nhân tạo sau đó được “luyện
trên các tập dữ liệu mẫu và kiểm nghiệm trên tập dữ liệu kiểm tra để tìm ra qui luật
nhận dạng và phân loại luồng lượng IP. Nói cách khác luận án khơng sử dụng một
thuật tốn cố định cho trước để xây dựng các bộ phân loại lưu lượng, thay vào đó
các thuật tốn học tự động sẽ học các qui luật phân loại trực tiếp trên dữ liệu lưu
lượng thể hiện dưới dạng tập các thuộc tính đặc trưng của luồng có sự kết hợp với
các mơ hình lựa chọn thuộc tính đã được tác giả cải tiến cho phù hợp với bài toán
nhận dạng luồng lưu lượng. Chi tiết về các thuật toán này cũng như những lĩnh vực
liên quan của lý thuyết học tự động được trình bày chi tiết trong phần 4.3 của
chương 4. Có thể tóm tắt phương pháp nghiên cứu của luận án như lưu đồ ở trên.

4. Ý nghĩa khoa học và thực tiễn của luận án
Luận án đã đề xuất và xây dựng thành cơng một mơ hình mới cho phép nhận
dạng các luồng lưu lượng của các nhóm ứng dụng trên mạng Internet bằng cách sử
dụng các thuật tốn học tự động của trí tuệ nhân tạo trên cơ sở tập các thuộc tính
đặc trưng của các luồng lưu lượng IP. Mơ hình này đã cung cấp một phương thức
mang tính hệ thống và khoa học cao cho phép giải quyết các vấn đề còn tồn tại

cũng như mới nảy sinh của mạng Internet hiện nay trong việc cung cấp và giám sát
các mức chất lượng của mạng. Từ kết quả mô phỏng trên dữ liệu lưu lượng đo thực
nghiệm cho thấy mơ hình có tính ứng dụng thực tế rất cao, chỉ cần một số hiệu
chỉnh nhỏ là có thể áp dụng trên các bộ định tuyến hoạt động trên mạng.

5. Bố cục của luận án
Luận án được tổ chức bao gồm phần mở đầu, 4 chương nội dung và kết luận
như sau:
Chương 1 trình bày tổng quan tình hình nghiên cứu tại Việt Nam và trên thế
giới trong lĩnh vực kỹ thuật lưu lượng mạng Internet thông qua việc khảo sát các
nghiên cứu liên quan đến vấn đề của luận án.
Chương 2 khảo sát các phương pháp đo lường và thu thập thông tin về lưu
lượng mạng Internet hiện có và từ đó tìm một cơng cụ đo lường thích hợp để thu


6

thập dữ liệu lưu lượng mạng thực tế phục vụ cho các q trình phân tích, mơ hình
hố và mơ phỏng tiếp theo. Thực tế, NCS đã phát triển một phần mềm đo lường lưu
lượng mạng riêng dựa trên thư viện các hàm bắt gói LIBPCAP cải tiến, và được đặt
tên là BKCAP. Trong phần mềm này, NCS đã thực hiện một số cải tiến về vấn đề
lấy mẫu và lọc gói nhằm giảm khối lượng dữ liệu đo và đồng thời đưa ra phương
pháp tổ chức dữ liệu đo bằng cơ sở dữ liệu quan hệ (SQLite) nhằm lưu trữ một
lượng lớn dữ liệu đo cũng như tạo sự dễ dàng cho các phép phân tích thống kê.
Ngồi ra một cải tiến mới của BKCAP là nó có khả năng bắt và giải mã bất kỳ giao
thức mạng và ứng dụng mới nào bằng cách định nghĩa khuôn dạng và các qui tắc
phân tích tiêu đề dưới dạng các tệp xml.
Chương 3 tập trung vào q trình phân tích thống kê các đặc tính và biểu hiện
của luồng lưu lượng IP. Được bắt đầu bằng việc khảo sát các khái niệm luồng lưu
lượng Internet đang được sử dụng hiện nay và trình bày định nghĩa luồng sử dụng

trong luận án. Phần tiếp theo của chương xác định các yếu tố và đặc tính cần phân
tích của các luồng lưu lượng và bản thân các mơ hình phân tích có thể. Cuối cùng là
mơ phỏng và đánh giá mơ hình phân tích trên dữ liệu luồng tạo ra từ các gói lưu
lượng thu thập được bằng phần mềm BKCAP và một số dữ liệu gói trên mạng
Internet (để đảm bảo tính tổng quát). Hướng phân tích luồng ở đây được thực hiện
với mục tiêu là nhằm phát hiện ra một số thuộc tính bất biến của chúng làm cơ sở
cho thuật toán nhận dạng lưu lượng ứng dụng ở phần tiếp theo. Một số tham số và
phân bố quan trọng của các luồng lưu lượng Internet được khảo sát trong chương
này, bao gồm: phân bố khoảng thời gian giữa các thời điểm đến, phân bố kích
thước, phân bố thời lượng và tỉ lệ số lượng luồng giữa các ứng dụng, vv...
Chương 4 dựa trên kết quả khảo sát và đánh giá các phương pháp phân loại
lưu lượng mạng Internet hiện có ở chương 1, đề xuất một mơ hình mới cho phép
nhận dạng lưu lượng của các ứng dụng trên mạng Internet. Phần đầu của chương
trình bày tóm tắt cơ sở lý thuyết học tự động và đánh giá khả năng áp dụng chúng
vào quá trình nhận dạng lưu lượng. Phần chính của chương tập trung phân tích và
mơ phỏng thực nghiệm để xác định và tính tốn kiểu giá trị của các thuộc tính quan
trọng của các luồng lưu lượng IP như là các dấu hiệu cho phép phân biệt lưu lượng
giữa các nhóm ứng dụng khác nhau. Phần quan trọng tiếp theo là thiết kế một mơ
hình và qui trình phân loại mới bằng cách sử dụng kết hợp tập thuộc tính luồng tìm
được ở trên với các thuật tốn học tự động của trí tuệ nhân tạo. Cuối cùng là đánh
giá độ chính xác và tin cậy của mơ hình phân loại cũng như hiệu suất hoạt động của
chúng.


7

Luận án kết thúc bằng các kết luận về những kết quả nghiên cứu quan trọng
cũng như khả năng ứng dụng của chúng trong việc giải quyết các thách thức của
mạng Internet hiện nay và đề xuất các hướng nghiên cứu tiếp theo trong lĩnh vực
phân tích và nhận dạng lưu lượng ứng dụng Internet.



8

Ch−¬ng 1 TỔNG QUAN VỀ PHÂN TÍCH VÀ NHẬN DẠNG
LUỒNG LƯU LƯỢNG INTERNET
Chương này sẽ trình bày về hiện trạng và các nhu cầu cần thiết phải thực hiện
phân tích và nhận dạng các luồng lưu lượng IP trên Internet, khảo sát các nghiên
cứu liên quan trên thế giới và tại Việt Nam từ đó nhằm trả lời hai câu hỏi quan
trọng là (i) tại sao cần phải tiến hành phân tích và nhận dạng các luồng lưu lượng
IP trên Internet? và (ii) có thể tự động nhận dạng các luồng lưu lượng IP theo kiểu
ứng dụng của chúng hay khơng?

1.1 Nhu cầu phân tích và nhận dạng luồng lưu lượng ứng dụng
Internet
Trong lĩnh vực nghiên cứu mạng Internet hiện nay, có nhiều nghiên cứu nhằm
đưa ra các cơ chế, thuật toán và kỹ thuật mới cung cấp chất lượng dịch vụ (QoS)
cho các ứng dụng. Tuy nhiên một lĩnh vực rất quan trọng là phương pháp giám sát
các mức chất lượng mà mạng cung cấp cho người dùng để có thể biết rõ ràng người
dùng đang nhận được mức chất lượng như thế nào lại chưa được nghiên cứu một
cách hệ thống và chi tiết. Việc giám sát mức chất lượng mạng cung cấp cho người
dùng chỉ có thể thực hiện được thông qua việc theo dõi các biểu hiện hoạt động và
biến thiên của lưu lượng mạng.
Ngoài ra sự phát triển quá nhanh của mạng Internet hiện nay cả về qui mô và
số lượng ứng dụng đã làm xuất hiện nhiều vấn đề mà trước đây khi thiết kế mạng
Internet người ta đã không gặp phải, như: khả năng cung cấp chất lượng dịch vụ
(QoS), khả năng phát hiện và ngăn chặn các cuộc tấn công trên mạng, khả năng
nhận dạng và chống thư rác, khả năng điều khiển truy nhập mạng đối với từng ứng
dụng, mơ hình hoá cơ chế chia sẻ tài nguyên giữa các ứng dụng trên mạng và dự
đoán xu hướng tăng trưởng lưu lượng của từng ứng dụng hoặc loại ứng dụng. Giải

quyết các vấn đề này là nhiệm vụ không đơn giản và điều kiện tiên quyết để có thể
thực hiện được là phải tìm ra cơ chế hoặc mơ hình cho phép tự động nhận dạng lưu
lượng của từng loại ứng dụng trong các luồng lưu lượng tổng hợp vận chuyển trên
Internet. Hay nói cách khác cần có một giải pháp phân chia lưu lượng tổng hợp trên
mạng thành các nhóm khác nhau. Lưu lượng trong một nhóm là những lưu lượng có
biểu hiện hoạt động và các thuộc tính thống kê tương tự nhau và do đó có đặc tính
sử dụng tài nguyên mạng gần giống nhau. Từ đó có thể cung cấp nhiều mức chất
lượng khác nhau bằng cách áp dụng mức ưu tiên xử lý phù hợp cho các nhóm lưu


9

lượng và đương nghiên công việc giám sát mức chất lượng mà mạng cung cấp cho
người dùng cũng dễ dàng hơn. Đồng thời, việc nhận biết được đâu là các luồng lưu
lượng bình thường và đâu là các luồng lưu lượng bất thường sẽ giúp phát hiện ra
các cuộc tấn cơng trong mạng nếu có và đề xuất giải pháp ngăn chặn.
Hay như trong một ví dụ khác về hiện tượng tắc nghẽn trong mạng Internet,
nguyên nhân gây ra hiện tượng tắc nghẽn có thể là từ một trong các nguồn như: các
máy chủ cung cấp nội dung trên mạng bị quá tải, các đường truy nhập có hệ số sử
dụng băng thông quá cao, lỗi đường truyền hay lỗi định tuyến trong mạng đường
trục, hay các ứng dụng tranh nhau chiếm dụng một tài nguyên tắc nghẽn nào đấy,
vv... Tuy nhiên việc xác định xem những luồng lưu lượng nào đang góp phần gây
nên hiện tượng tắc nghẽn đó chỉ có thể thực hiện được nếu biết được tồn bộ thông
tin định tuyến trên mạng là điều gần như không thể thực hiện được đối với Internet.
Hướng giải quyết khác có thể là sử dụng các mơ hình dự đoán thống kê và kỹ thuật
học tự động để nhận dạng các hiện tượng và thông số quan trọng nào của các luồng
lưu lượng đang góp phần gây nên hiện tượng tắc nghẽn và với thơng tin này các ISP
có thể thực hiện việc điều chỉnh cân bằng tải để định hướng lại một số luồng lưu
lượng đi các hướng khác nhằm giảm áp lực tắc nghẽn cho điểm đang xét.
Về phía người dùng, thơng tin về đường đi của các luồng lưu lượng của các

ứng dụng khác nhau sẽ giúp cho việc giám sát mức chất lượng mà mạng cung cấp
cho họ.
Phương pháp nhận dạng lưu lượng ứng dụng trên mạng Internet phổ biến hiện
nay thường được thực hiện ở mức gói, theo đó các bộ định tuyến trong mạng khi
nhận được một gói lưu lượng sẽ tiến hành kiểm tra một số trường trong phần tiêu đề
của gói (ví dụ, cổng ứng dụng) để đưa ra các quyết định gói đó thuộc nhóm lưu
lượng nào và tiếp theo áp dụng mức xử lý chuyển tiếp gói tương ứng. Nhược điểm
của phương pháp phân loại này là tạo ra lượng tải xử lý rất lớn cho các bộ định
tuyến, đặc biệt trong các mạng tốc độ cao, do phải kiểm tra từng gói lưu lượng với
rất nhiều trường tiêu đề nên sẽ làm giảm hiệu suất và tốc độ chuyển tiếp gói. Ngồi
ra, thường thì các bộ định tuyến dựa vào trường ToS (Type of Service) trong phần
tiêu đề của gói IP để đưa ra quyết định phân loại, nhưng trong thực tế mạng Internet
hiện nay đa phần các bộ định tuyến không hỗ trợ trường ToS hoặc nếu có hỗ trợ thì
cũng chỉ trên một vùng mạng hạn chế nên gây trở ngại cho thuật toán nhận dạng lưu
lượng của các ứng dụng
Tóm lại với tất cả các yêu cầu ứng dụng và thách thức công nghệ như trên,
mạng Internet hiện nay cần một nghiên cứu mới mang tính tổng thể và tồn


10

diện các biểu hiện hoạt động và biến thiên của các luồng IP nhằm tìm kiếm
một mơ hình tự động nhận dạng chúng theo các nhóm ứng dụng. Trên cơ sở đó
giải quyết triệt để các vấn đề mới nảy sinh của Internet, bao gồm: cung cấp
chất lượng dịch vụ, phát hiện các cuộc tấn công, điều khiển truy nhập tài nguyên
hay đánh giá hiệu suất hoạt động của mạng.

1.2 Các nghiên cứu liên quan
Một trong những nghiên cứu đầu tiên về lưu lượng Internet ở mức luồng là
[33], trong nghiên cứu này các tác giả tập trung nghiên cứu cơ chế kết thúc của các

luồng lưu lượng IP bằng phương pháp thiết lập thời gian time-out thích ứng và từ đó
mơ hình hố các thơng số thống kê tương ứng của các luồng lưu lượng. Bằng các
phép phân tích thống kê trên các tệp dữ liệu lưu lượng đo lớn các tác giả đã chứng
minh rằng việc thiết lập thời gian time-out của luồng một cách thích ứng với phân
bố và tốc độ đến của các gói trong khoảng thời gian đầu của luồng sẽ cho phép đánh
giá hiệu suất hoạt động của mạng chính xác hơn so với trường hợp thiết lập thời
gian time-out cố định và do đó việc mơ hình hố các đại lượng của luồng lưu lượng
như kích thước và thời lượng luồng cũng phản ánh đúng bản chất thực tế của lưu
lượng hơn. Tuy nhiên trong nghiên cứu này, mặc dù có nhắc đến, nhưng các tác giả
đã chưa khảo sát chi tiết ảnh hưởng của thời gian time-out đến quá trình đến (khởi
tạo) của các luồng lượng IP.
Kimberly C. Claffy, Hans-Werner Braun, Kevin Thompson và G. Miller
trong các nghiên cứu [9], [100] và [101] đã tiến hành khảo sát phân bố kích thước
luồng lưu lượng Internet, kết quả cho thấy phần lớn các luồng lưu lượng Internet có
kích thước rất bé và phần lớn số lượng gói và byte được vận chuyển trong một số ít
luồng lưu lượng có kích thước lớn. Đặc điểm này tồn tại trên nhiều mức tổng hợp
lưu lượng khác nhau và được các tác giả gọi là hiện tượng “voi và chuột”, trong đó
hình tượng con voi được ví cho những luồng lưu lượng kích thước lớn ít ỏi và chuột
được ví với các luồng lưu lượng kích thước bé nhưng lại có số lượng rất lớn. Thực
tế có nhiều phương pháp nhận dạng các luồng lưu lượng “voi”, nhưng một định
nghĩa hay được sử dụng đó là các luồng lưu lượng có tốc độ (kích thước/thời lượng)
lớn hơn 1% hệ số sử dụng liên kết.
Trên một hướng nghiên cứu khác liên quan đến việc khảo sát thời lượng của
các luồng lưu lượng Internet, Nevil Brownlee và KC Claffy trong nghiên cứu [102]
đã cố gắng phân chia các luồng lưu lượng theo thời lượng của chúng, kết quả cho
thấy 45% số lượng luồng có thời lượng bé hơn 2 giây và được ví với hình tượng con


11


chuồn chuồn và ít hơn 2% số lượng luồng kéo dài quá 15 phút nhưng lại mang hơn
50% tổng số byte lưu lượng trên liên kết và được ví với hình tượng con rùa.
Sarvotham và các cộng sự trong nghiên cứu [103] đã khảo sát tính cụm của
lưu lượng trong các luồng lưu lượng Internet, kết quả phát hiện ra có một số ít các
kết nối chứa lượng lưu lượng rất lớn và họ gọi đó là các luồng lưu lượng Alpha hay
nói cách khác luồng lưu lượng Alpha là các luồng có tốc độ đỉnh vượt quá một mức
ngưỡng cho trước. Cụ thể hơn họ nhận dạng các kết nối truyền liên tục một số
lượng lớn byte trong những khoảng thời gian 500ms là luồng lưu lượng Alpha, các
luồng còn lại được gọi là luồng lưu lượng Beta. Kết quả cũng cho thấy các gói
truyền trong các luồng lưu lượng này cũng có đặc tính cụm giống như khi xét lưu
lượng Internet ở mức gói.
Zhang và các cộng sự trong nghiên cứu [75] khi khảo sát các luồng lưu
lượng có độ dài trên 30 giây đã phát hiện ra rằng có sự tương quan lớn giữa kích
thước và tốc độ (kích thước/thời lượng) của luồng và họ giải thích nguồn gốc của sự
tương quan này là do hành vi của người dùng hay nói cách khác người dùng thường
có xu hướng truyền lượng thơng tin lớn khi có nhiều băng thông. Các nghiên cứu
sau này cũng cho thấy đối với các luồng lưu lượng kích thước bé cũng tồn tại sự
tương quan giữa kích thước và tốc độ luồng nhưng nguyên nhân thì là do các cơ chế
hoạt động và điều khiển của giao thức mạng.
Phương pháp phân loại lưu lượng Internet phổ biến nhất hiện nay đang
được áp dụng là sử dụng số hiệu cổng ứng dụng TCP hoặc UDP trong phần tiêu đề
của gói IP. Theo IANA [60] thì mỗi ứng dụng trên mạng Internet được gắn một số
cổng ứng dụng thuộc 1 trong 3 khoảng giá trị là (i) các cổng ứng dụng phổ biến (01023), (ii) các cổng ứng dụng đã đăng ký (1024-49151) và các cổng ứng dụng dùng
riêng (49152-65535). Tuy nhiên phương pháp này hiện nay gặp rất nhiều hạn chế
do không phải tất cả các ứng dụng trên mạng đều tuân thủ số cổng ứng dụng được
cấp phát ví dụ các hacker có thể sử dụng các cổng tiêu chuẩn để gán cho các ứng
dụng tấn công của họ nhằm vượt qua hệ thống tường lửa. Hơn nữa hiện nay rất
nhiều ứng dụng mới ra đời sử dụng những cổng ứng dụng hoàn toàn mới kết hợp
với cơ chế cấp phát động cổng ứng dụng làm cho kết quả phân loại không chính
xác.

Trong các nghiên cứu [44] và [45] Dunigan cùng với các cộng sự đã trình
bày một phương pháp cho phép đặc tính hố các luồng lưu lượng dựa trên phép
phân tích thống kê đa biến thiên (multi-variate). Theo đó từng gói trong luồng lưu
lượng sẽ được phân loại dựa trên 3 tham số: kích thước gói, trễ so với gói trước nó


12

(I.A.T) và hướng truyền của gói. Hai tham số đầu được đánh giá thông qua phân bố
rời rạc tương ứng của chúng, còn tham số thứ 3 được đánh giá dựa trên hướng
truyền của gói và gói liền trước (tổng cộng có 4 giá trị có thể). Q trình phân loại
này đưa ra một tập hữu hạn kết quả (10 loại đối với kích thước gói x 10 loại đối với
giá trị I.A.T x 4 loại đối với hướng truyền = 400 loại) và họ xem giá trị của mỗi loại
là 1 biến ngẫu nhiên thể hiện tỉ lệ phần trăm gói của một luồng nào đó là thuộc một
loại cụ thể. Tuy nhiên thay vì nghiên cứu từng ứng dụng mạng riêng biệt, họ tiến
hành phân loại luồng một cách hệ thống hơn bằng phương pháp thống kê PCA
(Principle Component Analysis), theo đó họ áp dụng phép phân tích PCA để tìm ra
3 biến ngẫu nhiên thể hiện sự khác nhau rõ nét nhất giữa các loại luồng lưu lượng.
Sau đấy mỗi luồng lưu lượng có thể được mơ tả chỉ bằng 3 thuộc tính tương ứng
của nó, từ đó họ định nghĩa một khái niệm gọi là hồ sơ luồng lưu lượng: là hàm 3
chiều của 3 biến ngẫu nhiên dự đoán từ một số luồng cùng loại. Vì thế để biết 1
luồng bất kỳ chưa được phân loại thuộc về 1 lớp nào đó, người ta tiến hành tính
tốn 3 thành phần (thuộc tính) quan trọng trên (gọi là PCA) của luồng, và luồng sẽ
thuộc lớp nào mà giá trị PCA vừa tính có xác suất giống với hồ sơ 1 luồng thuộc lớp
đó nhất. Tuy nhiên các nhà nghiên cứu đã chỉ ra rằng độ chính xác của phương pháp
phân loại này không cao khi so sánh các tập dữ liệu đo khác nhau, nghĩa là tính tốn
hồ sơ luồng lưu lượng trên một tập dữ liệu và sau đó áp dụng (so sánh) với các
luồng của một tập dữ liệu đo khác.
Trong một nghiên cứu khác về việc phát hiện các tấn công lạ trong mạng,
Lee và Stolfo trong nghiên cứu [24] đã có một khảo sát tính tốn tương đối đầy đủ

trên cơ sở dữ liệu mạng DARPA [46], theo đó họ đã tìm ra được 41 thuộc tính có
thể sử dụng để mơ tả 1 luồng lưu lượng của một ứng dụng điển hình cụ thể. Để tìm
ra 41 thuộc tính này từ chín thuộc tính cơ bản trong [47], người ta áp dụng các
phương pháp xử lý dữ liệu quan hệ để tìm các mối liên hệ giữa các bản ghi luồng
lưu lượng nhằm xác định các điển hình và từ đó tìm ra 41 thuộc tính luồng. Bốn mốt
thuộc tính này lại được chia thành ba loại khác nhau: 9 trong số đó là các thuộc tính
cơ bản của các kết nối TCP/IP (bảng 4-1), 13 là các thuộc tính liên quan đến nội
dung và cuối cùng 19 là các thuộc tính thống kê của các kết nối trong quá khứ.
Paxson và Zhang đã có một nghiên cứu rất quan trọng, trong đó họ đã phát
triển một thuật tốn đa mục đích để nhận dạng các phiên làm việc tương tác liên
quan đến hành vi người dùng bằng cách kiểm tra kích thước gói, nhãn thời gian và
hướng truyền của gói, theo một bộ tiêu chuẩn cho trước.

Bảng 1-1 Chín thuộc tính cơ bản của kết nối mạng theo Lee và Stolfo


13
Thuộc tính
thời lượng
kiểu giao thức
dịch vụ
số byte nguồn
số byte đích
cờ
land
đoạn lỗi
khẩn cấp

Mô tả
chiều dài (s) của kết nối

kiểu giao thức TCP, UDP
dịch vụ mạng phía đích (HTTP, Telnet, vv...)
số lượng byte dữ liệu trao đổi giữa nguồn và đích
số lượng byte dữ liệu trao đổi giữa đích và nguồn
trạng thái của kết nối (hoạt động bình thường hoặc
lỗi)
1 - kết nối từ/tới cùng một host/cổng;
0 - trường hợp khác
số đoạn dữ liệu lỗi
số gói khẩn cấp

Kiểu giá trị
liên tục
rời rạc
rời rạc
liên tục
liên tục
rời rạc
rời rạc
liên tục
liên tục

Kết quả nghiên cứu cho thấy các gói dữ liệu do người dùng gõ vào từ bàn
phím có độ dài tương đối bé khoảng 20 bytes hoặc ít hơn và đồng thời do tốc độ gõ
của người dùng tương đối chậm nên trễ giữa hai gói liên tiếp dạng này nằm trong
khoảng 10-2000 ms. Từ quan sát này, người ta đi xây dựng 3 dấu hiệu: (i) dấu hiệu
đánh giá tần suất xuất hiện khoảng thời gian giữa các gói (I.A.T) bé nằm trong
khoảng (10-2000)ms, (ii) dấu hiệu đánh giá tỉ lệ các gói có kích thước bé và (iii)
dấu hiệu định lượng các gói nhỏ được nhóm lại với nhau. Do đó có thể nói Paxson
và Zhang đã phát triển một phương pháp nhận dạng các luồng lưu lượng tương tác,

bằng cách xây dựng và đánh giá 3 thuộc tính luồng lấy giá trị liên tục từ 0-1, giá trị
càng gần 1 càng chứng tỏ luồng lưu lượng có tính tương tác cao và một luồng lưu
lượng sẽ được phân loại là luồng tương tác nếu giá trị của cả 3 tham số trên nằm
trên một mức ngưỡng cho trước.
Bảng 1-2 Các thuộc tính luồng tương tác theo Paxson và Zhang
Thuộc tính

β
γ
α

Mơ tả

Kiểu giá
trị
Tỉ lệ gói có kích thước bé (<=20 bytes)
Liên tục
Dấu hiệu về tần suất xuất hiện của các gói nhỏ liên tiếp
Liên tục
Tỉ lệ thời gian giữa các thời điểm đến (I.A.T) của các gói Liên tục
kích thước bé (<= 20 bytes) nằm trong khoảng (10-2000)ms

Ngoài ra Paxson và Zhang cũng đã phát triển một số các thuật toán đặc biệt
để nhận dạng các giao thức tương tác cụ thể, như: SSH, RLOGIN, TELNET, FTP,
NAPSTER (nhạc trực tuyến), vv... Tuy nhiên đa phần các thuật toán này đều yêu
cầu phải truy nhập vào nội dung của gói tin, trừ thuật tốn nhận dạng SSH thì ngồi
3 dấu hiệu trên cịn thêm một thuộc tính khác là kích thước gói.
Hernandez-Campo và các cộng sự trong khi nghiên cứu các luồng lưu
lượng TCP [48] đã cố gắng xác định tập các thông số thống kê của các kết nối TCP



14

để cho phép nhóm các kết nối lại thành những nhóm liên kết thống kê. Họ cũng đã
nghiên cứu theo hướng tìm hiểu các biểu hiện của lưu lượng mà không cần sử dụng
số cổng ứng dụng cũng như không cần phải phân tích nội dung các gói tin, thay vào
đó họ cố gắng phân loại lưu lượng dựa trên đặc tính sử dụng tài nguyên mạng với
mục đích là tạo ra các nhóm lưu lượng tương đương, ví dụ nhóm lưu lượng truyền
file, nhóm lưu lượng thời gian thực hay nhóm lưu lượng tương tác. Ý nghĩa khoa
học lớn nhất trong hướng nghiên cứu của họ là không sử dụng đơn vị dữ liệu là gói
mà thay vào đó họ định nghĩa một đơn vị dữ liệu gọi là ADU (đơn vị dữ liệu ứng
dụng), một ADU có thể chứa vài gói dữ liệu. Cụ thể họ sử dụng sự thay đổi số thứ
tự khung phát và khung phúc đáp của giao thức TCP để xác định các biên của 1
ADU. Sau đó thay vì mơ hình hố kiểu trao đổi các gói trong kết nối TCP họ mơ
hình hoá sự trao đổi các ADU. Mỗi kết nối TCP khi đó được mơ tả bằng một véc tơ
n chiều (c1, c2, ..., cn), trong đó n là số ADU của kết nối, và gọi là các epoch. Mỗi
epoch ci = (ai, bi, ti), trong đó ai là số lượng byte truyền bởi bên khởi tạo kết nối, bi
là số lượng byte truyền theo hướng ngược lại, và ti là khoảng thời gian rỗi giữa
ADU đó và ADU tiếp theo.
Bảng 1-3 Các thuộc tính sử dụng để phân chia lưu lượng theo Hernandez-Campos
Thuộc tính
N
Atot, btot
amax, bmax, tmax
amin, bmin
aµ, bµ, aδ, bδ
a1q, b1q
a2q, b2q
a3q, b3q
avs, bvs

ah, bh
aρ, bρ
ρ1(a1,...n, b1....n)
ρ2(b1,...n-1, a1....n)

Mô tả
số lượng epoch
Tổng số byte truyền trên mỗi hướng
Số byte và s lớn nhất của mỗi epoch
số byte bé nhất của mỗi epoch
Số lượng byte trung bình và độ lệch tiêu chuẩn
của mỗi epoch
đại lượng thống kê thứ nhất (first quantile)
đại lượng thống kê thứ hai (second quantile)
đại lượng thống kê thứ ba (third quantile)
Tổng biến thiên
thể hiện tính đồng nhất
hệ số tự tương quan bước 1
Tương quan Spearman
Tương quan Spearman bước 1

Kiểu giá trị
Liên tục
Liên tục
Liên tục
Liên tục
Liên tục
Liên tục
Liên tục
Liên tục

Liên tục
Liên tục
Liên tục
Liên tục
Liên tục

Cuối cùng họ xác định được 26 thuộc tính tổng cộng sử dụng cho quá trình
phân loại lưu lượng, như trong bảng 4-3.
Andrew W.Moore và Dennis Zuev trong nghiên cứu [49] đã áp dụng một
trong các phương pháp học tự động đơn giản nhất dựa trên cơng thức xác suất có
điều kiện Bayes để phân loại lưu lượng Internet thành các nhóm khác nhau như:
nhóm lưu lượng cụm, nhóm lưu lượng cơ sở dữ liệu, nhóm lưu lượng tương tác,


×