Tải bản đầy đủ (.pdf) (11 trang)

Đánh giá hiệu năng xác suất dừng mạng thông tin vệ tinh chuyển tiếp hai chiều sử dụng mã fountain

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (639.05 KB, 11 trang )

Đánh Giá Hiệu Năng Xác Suất Dừng Mạng
Thông Tin Vệ Tinh Chuyển Tiếp Hai Chiều Sử
Dụng Mã Fountain
Đặng Thế Hùng∗ , Trần Trung Duy† , Lê Chu Khẩn† và Đỗ Quốc Trinh∗


Học Viện Kỹ Thuật Quân Sự
Học Viện Công Nghệ Bưu Chính Viễn Thông
Email: , , ,


Tóm tắt—Trong bài báo này, chúng tôi nghiên cứu và
đánh giá hiệu năng xác suất dừng (Outage Probability - OP)
cho mạng thông tin vệ tinh chuyển tiếp hai chiều (two-way
relaying) sử dụng mã Fountain. Trong mô hình nghiên cứu,
hai thiết bị mặt đất truyền thông với nhau thông qua một
thiết bị vệ tinh đóng vai trò là nút chuyển tiếp trung gian. Để
giảm số khe thời gian truyền dữ liệu, kỹ thuật mã hoá mạng
ba-pha (three-phase network coding) được áp dụng. Chúng
tôi đưa ra các biểu thức tính xác suất dừng của hệ thống trên
kênh truyền Shadowed-Rician. Cuối cùng, các biện luận và
nhận xét cho các kết quả phân tích sẽ được trình bày nhằm
nêu lên những đặc tính của hệ thống.
Từ khóa—Thông tin vệ tinh, chuyển tiếp hai chiều, xác
suất dừng, mã Fountain.

I. GIỚI THIỆU
Trong thời gian gần đây, lĩnh vực thông tin vệ tinh nhận
được sự chú ý đặc biệt từ các nhà nghiên cứu trong nước
và quốc tế bởi khả năng cung cấp dịch vụ cho các hệ thống
cố định và di động trên mặt đất [1]. Ưu điểm của truyền


thông vệ tinh là khả năng cung cấp dịch vụ với vùng bao
phủ rộng, nên rất phù hợp trong những ứng dụng về quảng
bá và định vị.
Công nghệ vô tuyến dựa vào thông tin vệ tinh (satellite
communications) có khả năng cung cấp các hình thức liên
lạc cần thiết, cho phép việc thực hiện trao đổi thông tin
nhanh chóng, liên tục, ổn định trong một phạm vi địa lý
rất rộng và có thể được triển khai với các điều kiện địa
hình phức tạp khác nhau. Liên lạc qua thông tin vệ tinh
nhằm hỗ trợ việc sử dụng các công nghệ phát triển hiện
có, cụ thể như mạng tế bào (cellular networks), các mạng
diện rộng (wide area networks), mạng Internet, truyền hình
hội nghị (video teleconferencing),. . . đang được ứng dụng
rộng rãi như một nguồn thông tin quan trọng trong quá
trình chia sẻ thông tin, phục vụ nhiều lĩnh vực trong đời
sống, xã hội như thương mại, quân sự, y tế, giáo dục. . .
Một vệ tinh sử dụng một bộ lặp (repeater) tần số vô
tuyến, cung cấp như một trạm chuyển tiếp (relay station)
giữa máy phát và máy thu. Để liên lạc thông qua vệ tinh,
trước tiên máy phát chuyển đổi tín hiệu (dữ liệu, âm thanh,
hình ảnh,. . . ) thành tín hiệu điện từ. Dữ liệu được phát đến
vệ tinh sử dụng các bộ khuếch đại công suất cao hoặc thiết

152

kế ănten để hướng tín hiệu về phía vệ tinh. Do đó, yêu cầu
về độ tin cậy, ổn định, đáp ứng chất lượng dịch vụ, chia sẻ
và sử dụng hiệu quả tài nguyên tần số trong liên lạc thông
tin vệ tinh là rất quan trọng trong việc kết nối kênh thông
tin đường lên và được xuống trong mạng.

Xuất phát từ đặc điểm trên, hiện nay đã có nhiều công
trình công bố liên quan đến thông tin vệ tinh ở nhiều góc
độ khác nhau. Cụ thể, trong công trình [2], các tác giả
đánh giá hiệu năng xác suất dừng (Outage Probability OP) của hệ thống chuyển tiếp hai chặng thông qua vệ tinh.
Cụ thể, một thiết bị mặt đất gửi dữ liệu đến một thiết bị
mặt đất khác ở khoảng cách địa lý xa, nhờ vào sự chuyển
tiếp của vệ tinh. Các tác giả của công trình [3] nghiên
cứu hệ thống chuyển tiếp lai ghép giữa vệ tinh và mặt đất
(Hybrid Satellite-Terrestrial Relay Systems), ở đây các trạm
chuyển tiếp được triển khai để giúp vệ tinh chuyển tiếp dữ
liệu đến đầu cuối dưới mặt đất. Trong tài liệu [4], mô hình
truyền dữ liệu giữa nhiều người dùng di động và một trạm
cố định mặt đất thông qua vệ tinh đã được nghiên cứu và
phân tích. Tài liệu [5] giới thiệu mô hình truyền thông vệ
tinh hai chiều (two-way satellite communication), trong đó
vệ tinh GEO (Geostationary Earth Orbit) đóng vai trò là
nút chuyển tiếp AF (Amplify-and-Forward) trung gian cho
hai thiết bị mặt đất muốn gửi dữ liệu đến nhau. Thật vậy,
kỹ thuật truyền thông hai chiều giúp hệ thống giảm bớt
số khe thời gian truyền, do đó nâng cao tốc độ dữ liệu và
giảm thời gian trễ. Các tác giả của bài báo số [6] phát triển
mô hình truyền thông vệ tinh hai chiều trong [5] với các
trạm mặt đất được trang bị nhiều ănten. Công trình [7] đề
xuất kỹ thuật điều chế vi sai (differential modulation) ứng
dụng trong chuyển tiếp hai chiều sử dụng vệ tinh. Trong
công trình [8], phương pháp ước lượng kênh truyền tại các
trạm mặt đất được đề xuất nhằm áp dụng hiệu quả cho mô
hình chuyển tiếp vệ tinh hai chiều. Tác giả trong bài báo
[9] đưa ra giải pháp truyền chùm tia (beamforming) và kỹ
thuật vector kết hợp (combining vector) cho các trạm nhiều

ănten tại mặt đất.
Mã Fountain (Fountain Codes) [10] gần đây cũng thu hút
nhiều sự quan tâm của cộng đồng nghiên cứu bởi ưu điểm
dễ triển khai và thích ứng trong các điều kiện kênh truyền
khác nhau. Máy phát sử dụng mã Fountain có thể phát số


lượng các gói tin được mã hóa không giới hạn cho đến khi
máy thu nhận đủ thông tin để khôi phục dữ liệu gốc [11],
[12]. Như đã được chứng minh trong công trình [12], năng
lượng tiêu thụ và thời gian truyền của các mạng sử dụng
mã Fountain giảm đáng kể bởi khả năng tích lũy thông
tin (information accumulation) tại các đầu thu. Các tác giả
trong tài liệu [13] đề xuất mô hình chuyển tiếp cộng tác sử
dụng mã Fountain. Trong mô hình này, nút chuyển tiếp nào
nhận đủ thông tin đầu tiên sẽ trở thành nguồn mới, và tiếp
tục truyền tin về đích và các nút chuyển tiếp giữa nút này
và đích. Các công trình [14], [15] nghiên cứu ứng dụng
mã Fountain trong các hệ thống thông tin vệ tinh. Trong
[14], các tác giả thiết kế mô hình lớp chéo (cross-layer)
với mã Fountain LT (Luby Transform) và mã LDPC (Low
Density Parity Check) cho các hệ thống quảng bá vệ tinh
đa phương tiện. Tài liệu [15] giới thiệu hai ứng dụng của
mã Fountain cho các hệ thống thông tin vệ tinh, sử dụng
các thuật toán giải mã lặp mềm (soft iterative decoding
algorithms).
Trong bài báo này, chúng tôi đề xuất mạng thông tin vệ
tinh chuyển tiếp hai chiều ba pha sử dụng mã Fountain.
Trong mô hình này, hai nguồn (hai thiết bị mặt đất) gửi dữ
liệu cho nhau với sự giúp đỡ của một vệ tinh. Trong hai

pha đầu tiên, hai nguồn sẽ lần lượt gửi thông tin lên vệ
tinh. Tiếp theo, vệ tinh sẽ kết hợp (XOR) các dữ liệu nhận
được, và cùng lúc gửi dữ liệu này đến hai nguồn. Chúng
tôi đánh giá hiệu năng xác suất dừng (Outage Probability OP) của hệ thống trên kênh truyền Shadowed-Rician bằng
các biểu thức toán học.
Phần còn lại của bài báo được tổ chức như sau: trong
phần II, chúng tôi miêu tả mô hình đề xuất và nguyên lý
hoạt động của mô hình này. Trong phần III, chúng tôi đánh
giá hiệu năng dừng của mô hình bằng các biểu thức toán
học. Phần IV cung cấp các kết quả phân tích lý thuyết và
các nhận xét, biện luận. Cuối cùng, kết luận và hướng phát
triển của bài báo được đưa ra trong phần V.
II. MÔ HÌNH HỆ THỐNG
Hình 1, mô tả chuyển tiếp hai chiều ba pha trong thông
tin vệ tinh. Trong Hình 1, hai thiết bị mặt đất S1 và S2
muốn gửi dữ liệu cho nhau. Do khoảng cách vị trí địa lý,
hai nguồn này không thể gửi dữ liệu trực tiếp cho nhau, mà
phải cần sự giúp đỡ của hệ thống vệ tinh (ký hiệu R trên
Hình 1). Cụ thể, nguồn S1 cần gửi dữ liệu x1 đến nguồn
S2 , và ngược lại nguồn S2 muốn gửi dữ liệu x2 đến nguồn
S1 . Giả sử, các thiết bị S1 , S2 và R chỉ sử dụng 01 ănten
phát và thu.
Theo phương thức chuyển tiếp thông thường, hệ thống
phải cần 04 khe thời gian để truyền dữ liệu. Ví dụ, hai
khe thời gian đầu S1 gửi x1 đến R, và R chuyển tiếp x1
đến S2 . Tương tự, trong hai khe thời gian kế tiếp, S2 gửi
x2 đến R, và R chuyển tiếp x2 đến S1 . Như vậy, tốc độ
truyền dữ liệu của hệ thống chỉ là 02/04 (hai dữ liệu trên
bốn khe thời gian). Nhằm nâng cao tốc độ truyền dữ liệu,
cũng như để giảm thời gian truyền, chúng tôi đề xuất sử

dụng kỹ thuật chuyển tiếp hai chiều ba pha như sau: trong

153

Hình 1. Mô hình chuyển tiếp hai chiều ba pha trong thông tin vệ tinh.

khe thời gian đầu tiên, S1 gửi x1 đến R và trong khe thời
gian thứ hai, S2 gửi x2 đến R. Nếu sau hai khe thời gian
này, R có thể giải mã thành công cả hai dữ liệu x1 và x2 ,
R sẽ XOR chúng lại để đạt được x⊕ = x1 ⊕ x2 . Kế tiếp,
R sẽ quảng bá x⊕ đến cả S1 và S2 trong khe thời gian
thứ ba. Nếu S1 giải mã thành công x⊕ , nút này có thể đạt
được dữ liệu x2 bằng cách XOR x⊕ với chính dữ liệu của
S1 : x⊕ ⊕ x1 = x2 . Một cách tương tự, S2 cũng có được
x1 nếu S2 giải mã thành công x⊕ . Do đó, mô hình đề xuất
sẽ đạt được tốc độ truyền dữ liệu là 02/03 (hai dữ liệu trên
ba khe thời gian).
Xét sự truyền dữ liệu giữa S1 và R trong khe thời gian
thứ nhất. Tỷ số SNR (Signal-to-Noise Ratio) giữa S1 và R
được xác định như sau:
ψS1 →R =

PS1 γS1 →R
= ∆1 γS1 →R ,
2
σR

(1)

2

với PS1 là công suất phát của S1 , σR
là phương sai của
2
nhiễu cộng tại R, ∆1 = PS1 /σR , và γS1 →R là độ lợi kênh
Shadowed-Rician giữa S1 và R. Như đã được đưa ra trong
[3], [4], hàm mật độ xác suất (PDF: Probability Density
Function) của γS1 →R được viết ra như sau:
(
) m1
(
)
1
2m1 b1
x
fγS1 →R (x) =
exp −
2b1 2m1 b1 + Ω1
2b1
(
)
Ω1 x
×1 F1 m1 ; 1;
. (2)
2b1 (2m1 b1 + Ω1 )

Trong công thức (2), Ω1 là công suất trung bình của
thành phần LOS (Line Of Sight), 2b1 là công suất trung
bình của thành phần đa đường (multi-path), m1 là tham số
đặc trưng Nakagami của kênh truyền, và 1 F1 (.; .; .) là hàm
confluent hypergeometric [16].

Như đã được đưa ra trong các tài liệu [12], [13], thời
gian cần thiết để nút R nhận đủ lượng tin χ1 để khôi phục
dữ liệu gốc của S1 được xác định như sau:


χ1
χ1
t1 =
=
.
log2 (1 + ψS1 →R )
log2 (1 + ∆1 γS1 →R )

(3)

Tiếp đến, ta xét khe thời gian thứ hai, ở đây S2 gửi x2
lên R. Tỷ số SNR của liên kết S2 → R được tính như sau:
ψS2 →R =

PS2 γS2 →R
= ∆2 γS2 →R ,
2
σR

với Ω2 là công suất trung bình của thành phần LOS, 2b2
là công suất trung bình của thành phần đa đường, và m2
là tham số đặc trưng Nakagami của kênh truyền. Do đó,
thời gian cần thiết để R nhận đủ lượng tin χ2 nhằm khôi
phục dữ liệu gốc của S2 sẽ là
χ2

χ2
t2 =
=
. (6)
log2 (1 + ψS2 →R )
log2 (1 + ∆2 γS2 →R )
Tiếp theo, ta xét đến sự truyền dữ liệu x⊕ từ vệ tinh R
đến hai trạm mặt đất S1 và S2 trong khe thời gian thứ ba.
Cũng vậy, tỷ số SNR nhận được tại S1 và S2 lần lượt là
ψR→S1
ψR→S2

(

ρ1 =

(7)

III. XÁC SUẤT DỪNG HỆ THỐNG
Trong phần này, xác suất dừng (OP) của hệ thống sẽ
được định nghĩa và phân tích. Đầu tiên, ta định nghĩa xác
suất dừng của sự truyền dữ liệu giữa máy phát X và máy
thu Y là xác suất mà thời gian truyền giữa X và Y lớn hơn
một khoảng thời gian cho phép. Với định nghĩa này, xác
suất dừng của liên kết S1 → R sẽ được viết như sau:
(9)

với τ1 là thời gian trễ tối đa cho phép.

154


2

χ1
τ1

(10)

)

−1

∆1

.

(11)

Trong công thức (11), FγS1 →R (ρ1 ) là hàm phân phối tích
lũy (CDF) của γS1 →R , và được xác định như sau:
∫ ρ1
FγS1 →R (ρ1 ) =
fγS1 →R (x) dx.
(12)
0

Thay hàm PDF của fγS1 →R (x) trong công thức (2) vào
trong (12), và sử dụng MATHEMATICA để tính tích phân,
ta sẽ đạt được giá trị của OP1 .
Một cách tương tự, ta có thể tính được xác suất dừng

của sự truyền dữ liệu giữa S2 và R trong khe thời gian thứ
hai như sau:
(
)
OP2 = Pr (t2 > τ2 ) = Pr FγS2 →R (ρ2 )
∫ ρ2
=
fγS2 →R (x) dx,
(13)
0

với τ2 là thời gian trễ tối đa cho phép, và
(

ρ2 =

với PR là công suất phát của R, σS21 và σS22 lần lượt
là phương sai của nhiễu cộng tại S1 và S2 , ∆3 =
PR /σS21 , ∆4 = PR /σS22 , γR→S1 và γR→S2 lần lượt là độ
lợi kênh truyền giữa R và S1 , giữa R và S2 .
Do đó, thời gian cần thiết để S1 và S2 nhận đủ lượng
tin χ3 để giải mã được dữ liệu x⊕ lần lượt được viết ra
như sau:
χ3
χ3
t3 =
=
,
log2 (1 + ψR→S1 )
log2 (1 + ∆3 γR→S1 )

χ3
χ3
=
. (8)
t4 =
log2 (1 + ψR→S2 )
log2 (1 + ∆3 γR→S2 )

OP1 = Pr (t1 > τ1 ) ,

với

(4)

2
với PS2 là công suất phát của S2 , ∆2 = PS2 /σR
, và γS2 →R
là độ lợi kênh truyền giữa S2 và R. Tương tự, hàm PDF
của γS2 →R được viết ra như sau:
(
) m2
(
)
2m2 b2
x
1
exp −
fγS2 →R (x) =
2b2 2m2 b2 + Ω2
2b2

(
)
Ω2 x
×1 F1 m2 ; 1;
, (5)
2b2 (2m2 b2 + Ω2 )

PR γR→S1
=
= ∆3 γR→S1 ,
σS21
PR γR→S2
=
= ∆4 γR→S2 ,
σS22

Thay công thức (3) vào công thức (9), ta có:
)
(
χ1
OP1 = Pr log2 (1 + ∆1 γS1 →R ) <
τ1
= Pr (γS1 →R < ρ1 ) = FγS1 →R (ρ1 ) ,

2

χ2
τ2

)


−1

∆2

.

(14)

Tuy nhiên, ta lưu ý rằng OP1 và OP2 chỉ là xác suất
dừng tại R trong khe thời gian thứ nhất và thứ hai. Đối
với hệ thống đề xuất, ta định nghĩa xác suất dừng của hệ
thống là xác suất mà một trong hai nút S1 và S2 bị dừng,
hoặc cả hai nút này bị dừng. Thật vậy, OP của hệ thống sẽ
được viết ra như sau:
OPht =1 − Pr (t1 ≤ τ1 ) × Pr (t2 ≤ τ2 )
× Pr (max (t3 , t4 ) ≤ τ3 )
=1 − (1 − OP1 ) × (1 − OP2 ) × OP3 ,

(15)

Trong biểu thức (15), OP3 = Pr (max (t3 , t4 ) ≤ τ3 ) là
xác suất mà cả hai nút S1 và S2 đều có thể giải mã thành
công x⊕ , và do đó có thể đạt được x2 và x1 , ở đây τ3
là thời gian trễ tối đa cho phép ở khe thời gian thứ ba.
Ta có thể thấy (1 − OP1 ) × (1 − OP2 ) × P3 là xác suất
mà cả hai nút S1 và S2 nhận dữ liệu thành công. Vì vậy,
1 − (1 − OP1 ) × (1 − OP2 ) × P3 sẽ là xác suất dừng của
hệ thống. Bởi vì OP1 và OP2 đã được tính trong các công
thức (12) và (13) nên bây giờ chúng ta chỉ tập trung tính

OP3 . Thực hiện một số phép biến đổi, ta có thể đạt được:
OP3 = Pr (max (t3 , t4 ) ≤ τ3 )
= Pr (t3 ≤ τ3 ) Pr (t4 ≤ τ3 )
= [1 − Pr (t3 > τ3 )] [1 − Pr (t4 > τ3 )] .

(16)


Tiếp theo, thay các công thức của (8) vào trong (16), ta
đạt được:
[
][
]
OP3 = 1 − FγR→S1 (ρ3 ) 1 − FγR→S2 (ρ3 )
][
]
[
∫ ρ3
∫ ρ3
fγR→S1 (x) dx 1 −
fγR→S2 (x) dx ,
= 1−

10 0

0

0

(17)

(

ρ3 =

2

χ3
τ3

OPht

với

)

−1

∆3

10 -1

.

(18)
10 -2

IV. KẾT QUẢ LÝ THUYẾT
Trong phần này, các kết quả lý thuyết sẽ được đưa ra
nhằm đánh giá và phân tích xu hướng hiệu năng của hệ
thống. Để dễ dàng quan sát sự biến thiên của xác xuất

dừng hệ thống (OPht ) , ta có thể giả sử rằng: m1 = m2 =
m3 = m4 = m, b1 = b2 = b3 = b4 = b, Ω1 = Ω2 = Ω3 =
Ω4 = Ω, ∆1 = ∆2 = ∆3 = ∆, χ1 = χ2 = χ3 = χ và
τ1 = τ2 = τ3 = τ.
Trong tất cả các kết quả, các tham số kênh truyền sẽ
được thiết lập như sau: m = 10.1, b = 0.126 và Ω =
0.835 [3], [6]. Chúng tôi sử dụng phần mềm máy tính
MATHEMATICA để tính các giá trị của OP1 , OP2 và
OP3 , sau đó đạt được giá trị của OPht dựa vào công thức
(15). Để vẽ các kết quả, chúng tôi sử dụng phần mềm
MATLAB.

10 0

10 -1

χ=1
χ = 1.5
χ=2

10 -3

0

5

10

15


20

25

∆ (dB)

Hình 3. Xác suất dừng hệ thống vẽ theo ∆ (dB) khi τ = 1.

suất phát của toàn hệ thống. Do đó, để bảo đảm yêu cầu
chất lượng dịch vụ và tốc độ truyền dữ liệu thì hệ thống
nên được thiết kế có độ trễ phù hợp, cũng như tăng công
suất phát.
Hình 3 vẽ xác suất dừng hệ thống OPht theo giá trị của
∆ (dB) khi τ = 1. Tương tự như Hình 2, ta nhận thấy
rằng OPht giảm khi công suất phát của các thiết bị tăng.
Hơn nữa, khi lượng tin cần thiết để khôi phục dữ liệu gốc
χ càng lớn thì xác suất dừng hệ thống càng lớn. Vậy nên,
hiệu năng hệ thống phụ thuộc vào số lượng gói mã hóa
nhận được yêu cầu tại máy thu, do đó, cần phải thiết kế
hệ thống phù hợp bảo đảm độ tin cậy và khả năng giải mã
thành công dữ liệu gốc.

OPht

V. KẾT LUẬN

10 -2

τ = 0.5
τ =1

τ = 1.5

10 -3

0

5

10

15

20

25

∆ (dB)

Hình 2. Xác suất dừng hệ thống vẽ theo ∆ (dB) khi χ = 1.

Hình 2 vẽ xác suất dừng hệ thống OPht theo giá trị của
∆ (dB) khi χ = 1. Ta có thể thấy rằng xác suất dừng giảm
khi tăng ∆ (hay tăng công suất phát). Hơn nữa, khi thời
gian trễ tối đa τ càng thấp thì OPht càng lớn. Vậy nên,
khả năng giải mã thành công dữ liệu của các thiết bị đầu
cuối phụ thuộc rất lớn vào thời gian trễ cho phép và công

155

Trong bài báo này, chúng tôi đề xuất và đánh giá hiệu

năng của hệ thống chuyển tiếp hai chiều trong thông tin
vệ tinh, thông qua thông số xác suất dừng hệ thống. Việc
áp dụng kỹ thuật chuyển tiếp hai chiều ba pha sẽ giúp hệ
thống giảm thời gian truyền, và do đó có thể nâng cao tốc
độ truyền dẫn. Hơn nữa, tồn tại một sự đánh đổi về tốc
độ truyền dẫn và chất lượng dịch vụ của toàn hệ thống.
Do đó, để bảo đảm hiệu năng của hệ thống truyền dẫn thì
cần thiết kế hệ thống có độ trễ và số gói mã hóa yêu cầu
nhận được tại máy thu một cách thích hợp để có thể giải
mã thành công dữ liệu gốc.
Trong tương lai, chúng tôi sẽ tiếp tục phát triển mô hình
hệ thống trong bài báo với các trạm mặt đất được trang bị
với nhiều ănten, và đánh giá các hiệu năng khác của hệ
thống như tỷ lệ lỗi bít, dung lượng kênh trung bình, v.v.
LỜI CẢM ƠN
Nghiên cứu này được tài trợ bởi Học viện Công nghệ
Bưu chính Viễn thông cơ sở tại thành phố Hồ Chí Minh


năm 2019 với mã số 05-HV-2019-RD_VT2.
TÀI LIỆU THAM KHẢO
[1] B. Evans, M. Werner, E. Lutz, M. Bousquet, G. E. Corazza,
G. Maral, and R. Rumeau, “Integration of satellite and terrestrial
systems in future multimedia communications,” IEEE Wireless Commun., vol. 12, no. 5, pp. 72–80, Oct. 2005.
[2] K. Guo, D. Guo, Y. Huang, X. Wang, and B. Zhang, “Performance
analysis of a dual-hop satellite relay network with hardware impairments,” in Proc. of 25th Wireless and Optical Communication
Conference (WOCC), Chengdu, China, May 2016, pp. 1–5.
[3] H. Wu, Y. Zou, W. Cao, Z. Chen, T. A. Tsiftsis, M. R. R.
Bhatnagar, and R. C. De Lamare, “Impact of hardware impairments
on outage performance of hybrid satellite-terrestrial relay systems,”

IEEE Access, vol. 7, p. 35103 – 35112, Mar. 2019.
[4] X. Wu, M. Lin, H. Kong, Q. Huang, J.-Y. Wang, and P. K.
Upadhyay, “Outage performance for multiuser threshold-based df
satellite relaying,” IEEE Access, vol. 7, pp. 103 142 – 103 152, Jul.
2019.
[5] B. Ji, Y. Huang, H. Wang, and L. Yang, “Performance analysis of
two-way relaying satellite mobile communication,” in Proc. of 6th
International ICST Conference on Communications and Networking
in China (CHINACOM), Harbin, China, Aug. 2011, p. 1099 – 1103.
[6] M. K. Arti and M. R. Bhatnagar, “Making two-way satellite relaying
feasible: A differential modulation based approach,” IEEE Commun.
Lett., vol. 18, no. 7, p. 1187 – 1190, Jul. 2014.
[7] M. R. Bhatnagar, “Making two-way satellite relaying feasible: A
differential modulation based approach,” IEEE Trans. Commun.,
vol. 63, no. 8, pp. 2836 – 2847, Aug. 2015.

156

[8] M. K. Arti, “Two-way satellite relaying with estimated channel
gains,” IEEE Trans. Commun., vol. 64, no. 7, p. 2808 – 2820, Jul.
2016.
[9] ——, “A novel beamforming and combining scheme for two-way
af satellite systems,” IEEE Trans. Veh. Technol., vol. 66, no. 2, pp.
1248 – 1256, Feb. 2017.
[10] D. J. C. MacKay, “Fountain codes,” IEE Proceedings - Communications, vol. 152, no. 6, pp. 1062–1068, Dec. 2005.
[11] J. Castura and Y. Mao, “Rateless coding for wireless relay channels,”
IEEE Trans. Wireless Commun., vol. 6, no. 5, pp. 1638–1642, May
2007.
[12] A. F. Molisch, N. B. Mehta, J. S. Yedidia, and J. Zhang, “Performance of fountain codes in collaborative relay networks,” IEEE
Trans. Wireless Commun., vol. 6, no. 11, pp. 4108 – 4119, Nov.

2007.
[13] T. T. Duy, A. Anpalagan, and H. Y. Kong, “Multi-hop cooperative
transmission using fountain codes over rayleigh fading channels,” J.
Commun. Networks, vol. 14, no. 3, pp. 267–272, Jun. 2012.
[14] W. Zhenbang, W. Zhenyong, G. Xuemai, and G. Qing, “Cross-layer
design of lt codes and ldpc codes for satellite multimedia broadcast/multicast services,” Chinese Journal of Aeronautics, vol. 26,
no. 5, pp. 1269–1275, Oct. 2013.
[15] M. Zhang, S. Chan, and S. Kim, “Soft iterative decoding algorithms
for rateless codes in satellite systems,” Algorithms, vol. 12, no. 8,
(151), Jul. 2019.
[16] I. S. Gradshteyn and I. M. Ryzhik, “Table of Intergals,” Series, and
Products. 7th ed. Academic Press, 2007.


Phân tích dữ liệu số chiều lớn bằng một số phương
pháp học máy
Vũ Việt Vũ
Viện Công nghệ Thông tin,
Đại học Quốc gia Hà Nội
Hà Nội, Việt Nam


Lê Thị Kiều Oanh
Khoa Công nghệ Thông tin
Trường Đại học Kinh tế - Kỹ thuật Công nghiệp,
Hà Nội, Việt Nam


Abstract—Dữ liệu số chiều lớn luôn là một thách thức trong
quá trình xử lý đối với các thuật toán trong khai phá dữ liệu và

phát hiện tri thức về dữ liệu. Với sự bùng nổ về Internet và các
hệ thống sinh dữ liệu như mạng xã hội, báo chí, văn bản dữ liệu
mới được sinh ra hàng ngày là rất lớn. Hơn nữa những loại dữ
liệu này thường phi cấu trúc, số chiều lớn đòi hỏi phải có các
thuật toán hiệu quả để xử lý. Trong nghiên cứu này, chúng tôi
tập trung vào thử nghiệm phân tích các bộ dữ liệu số chiều lớn
hay gặp trên thực tế (KDD’99, Dữ liệu văn bản) bằng các thuật
toán học máy cơ bản như: K-Means, DBSCAN, hay Support
Vector Machine. Kết quả thực nghiệm sẽ là tiền đề cho các
nghiên cứu tiếp theo và sâu hơn về lĩnh vực khai phá và phân tích
dữ liệu với số chiều lớn.
Keywords—phân cụm, K-Means, DBSCAN, phân tích dữ liêu,
dữ liệu số chiều lớn.

I. GIỚI THIỆU
Công nghệ thông tin hiện này là một trong các lĩnh vực chủ
chốt quyết định đến sự phát triển kinh tế xã hội của mỗi quốc
gia. Sự hiện diện của CNTT trong rất nhiều các lĩnh vực đã
đem lại những hiệu quả rất lớn. Cuộc cách mạng công nghiệp
lần thứ 4 đang diễn ra mạnh mẽ cũng chính là cuộc cách mạng
liên qua đến CNTT với các trụ cột nghiên cứu là Trí tuệ nhân
tạo, dữ liệu lớn và Internet vạn vật (IoT). Tại Việt nam hiện
nay nghiên cứu về ứng dụng CNTT, Trí tuệ nhân tạo cũng như
các hệ thống xử lý dữ liệu đang rất sôi động thu hút một lượng
lớn các nhà nghiên cứu, các chuyên gia, các kỹ sư về CNTT.
Hàng loạt những ứng dụng CNTT ra đời như các hệ thống
khai phá dữ liệu phục vụ trong y tế, các hệ thống giám sát an
ninh mạng, camera thông minh, các hệ thống khai phá dữ liệu
văn bản cũng như phân tích dữ liệu đã cho thấy tầm quan trọng
của việc nghiên cứu và ứng dụng công nghệ thông tin.

Trong bài báo này chúng tôi sẽ nghiên cứu thực nghiệm
một số tập dữ liệu số chiều lớn sử dụng thuật học máy cơ bản
như K-Means [1,2], DBSCAN [3], hay Support Vector
Machine (SVM) [4,7]. Loại dữ liệu thứ nhất chúng tôi sử dụng
là dữ liệu kiểu văn bản, đây là loại dữ liệu phi cấu trúc, cần
biến đổi sang dạng vector số (sử dụng BoW, TF-IDF), dữ liệu

thứ hai chúng tôi sử dụng là dữ liệu trong bài toán phát hiện tấn
công mạng KDD’991. Cả hai loại dữ liệu này đều có nhiều ứng
dụng trong thực tiễn trong lĩnh vực khai phá dữ liệu và phát
hiện tri thức cũng như trong bài toán an ninh mạng. Dữ liệu số
chiều lớn trong một số nghiên cứu hiểu là dữ liệu có số lượng
thuộc tính lớn hơn khoảng 20 [3].
Phần tiếp theo của bài báo được trình bày như sau: phần II
trình bày một số thuật toán học máy cơ bản, phần III trình bày
kết quả thực nghiệm và cuối cùng phần IV là kết luận của bài
báo.
II. MỘT SỐ THUẬT TOÁN HỌC MÁY CƠ BẢN
Học máy là một lĩnh vực rất quan trọng của Trí tuệ nhân
tạo. Các thuật toán học máy được phát triển nhằm mục đích
học được từ các dữ liệu mẫu thu được bằng thực nghiệm. Học
máy có các dạng cơ bản như học có giám sát, học không giám
sát, học bán giám sát, học tăng cường. Hai dạng cơ bản nhất là
học có giám sát và học không giám sát. Học có giám sát cần
phải có tập mẫu để xây dựng mô hình học cho các bài toán dự
đoán, phân lớp, nhận dạng,… Trong khi học không giám sát
chỉ dựa vào tập dữ liệu cho bởi người sử dụng để phân tích
cấu trúc, phân cụm, phát hiện dị thường,… Trong phần tiếp
theo chúng tôi sẽ trình bày hai thuật toán không giám sát cơ
bản là K-Means và DBSCAN và một thuật toán học có giám

sát là Support Vector Machine.
II.1 Thuật toán phân cụm K-Means
Thuật toán K-Means là một trong những thuật toán ra đời
sớm nhất và được được xếp hạng một trong mười thuật toán
hiệu quả và được dùng nhiều nhất trong lĩnh vực khai phá dữ
liệu và phát hiện tri thức từ dữ liệu [1]. Ý tưởng cơ bản của
thuật toán như sau: với tập dữ liệu với n điểm và số cụm k cho
trước, sử dụng một hàm độ đo khoảng cách, thuật toán sẽ chia
các điểm vào k cụm sao cho hàm mục tiêu F sau đây đạt giá trị
nhỏ nhất:

157

1

/>

k

n

F   xi j   c j

phải chứa các điểm lõi. Quá trình xây dựng các cụm sẽ dừng
lại cho đến khi không tìm thêm được siêu cầu mới nào nữa.
Khi đó ta sẽ thu được các điểm thuộc cùng một cụm và sẽ gán
nhãn cho chúng. Chú ý rằng sẽ còn một số điểm dữ liệu không
thuộc cụm nào và cũng phải là điểm lõi, các điểm này gọi là
các điểm dị thường của dữ liệu.
Độ phức tạp của thuật toán DBSCAN là O(n2) hoặc

O(nlogn) trong trường hợp dự liệu có số chiều nhỏ. Thuật toán
DBSCAN sử dụng hai tham số MinPts và ; hai thuật toán này
trên thực tế được lựa chọn dựa trên tập dữ liệu được phân
cụm. Hình 2 minh họa quá trình tìm kiếm các cụm của thuật
toán DBSCAN.

2

j 1 i 1

Trong công thức trên cj là trọng tâm của cụm thứ j.
Thuật toán 1: Thuật toán K-Means;
Input: Tập dữ liệu X = {x1, x2,…,xn}, xiRn, số lượng
cụm k,
Output: k cụm của X
Begin
- Lấy ngẫu nhiên k trọng tâm từ tập dữ liệu X
Repeat
- Gán mỗi điểm x X vào cụm gần nó nhất
- Tính toán lại các trọng tâm cjcủa mỗi cụm:
Until (Hàm F hội tụ - các trọng tâm của cụm không thay
đổi được nữa)
End;
Độ phức tạp của thuật toán K-Means là O(n.k) trong đó n
là số điểm của dữ liệu và k là số cụm của dữ liệu. Đây là thuật
toán hiệu quả vì có độ phức tạp nhỏ.Tuy nhiên hạn chế của
thuật toán K-Means là chất lượng phân cụm sẽ phụ thuộc vào
việc lựa chọn k trọng tâm đầu tiên cũng như thuật toán KMeans chỉ tìm được các cụm có dạng hình cầu.
II.2 Thuật toán phân cụm DBSCAN
Một trong những thuật toán thu hút được nhiều nhà nghiên

cứu (có lẽ chỉ sau thuật toán K-Means) quan tâm trong khoảng
20 năm trở lại đây là thuật toán phân cụm dựa trên mật độcó
tên DBSCAN [3]. Thuật toán được đề xuất năm 1996 bởi giáo
sư Ester và các cộng sự. Thuật toán DBSCAN có khả năng
phát hiện được các cụm có hình dạng bất kỳ và khả năng phát
hiện dị thường sau quá trình phân cụm.


p

Hình 2. Quá trình xây dựng các cụm của thuật toán DBSCAN
II.3 Thuật toán phân lớp Support Vector Machine
Support Vector Machine (SVM), được nghiên cứu và giới
thiệu bởi Vapnik năm 1995 [4], là một phương pháp học có
giám sát dựa trên lý thuyết thống kê sử dụng cho bài toán phân
lớp và nhận dạng đối tượng. Ý tưởng cơ bản của thuật toán
như sau: cho một tập huấn luyện được biểu diễn trong không
gian d chiều {x1, x2, …, xn}, không mất tính tổng quát, xét bài
toán 2 lớp, mỗi phần tử dữ liệu xi sẽ thuộc về một trong hai
lớp kí hiệu là +1 hoặc -1. Phương pháp SVM sẽ tìm ra một
siêu phẳng tốt nhất để có thể chia các điểm trên không gian
này thành hai lớp riêng biệt tương ứng lớp +1 và lớp -1. Với
dữ liệu huấn luyện trong không gian d chiều thì hàm biểu diễn
siêu phẳng sẽ là một đa thức d biến. Chúng ta sẽ lần lượt
nghiên cứu các trường hợp cơ bản của phương pháp SVM
trong các mục tiếp theo sau đây.
a) Trường hợp dữ liệu có thể phân tách tuyến tính

Hình 1. Ví dụ về điểm lõi p với MinPts = 5
Thuật toán DBSCAN dựa trên ý tưởng cơ sở sau đây: mỗi

cụm sẽ gồm các điểm dữ liệu có mật độ cao và phân tách giữa
các cụm là các vùng có mật độ thấp. Thuật toán DBSCAN sử
dụng hai tham số là MinPts và . DBSCAN đưa ra khái niệm
điểm lõi (core) như sau: với một điểm dữ liệu p bất kỳ, p được
gọi là điểm lõi nếu trong siêu cầu có tâm là p với bán kính  có
ít nhất MinPts điểm dữ liệu (xem hình 1).
Với định nghĩa điểm lõi như trên, quá trình xây dựng một cụm
của thuật toán DBSCAN sẽ là sự kết nối liên tục của các siêu
cầu mới được tạo nên từ các điểm nằm trong siêu cầu cũ và

158

wx+b>0

wx+b>0

wx+b=0

wx+b=0

wx+b<0

wx+b<0

Hình 3. Dữ liệu huấn luyện phân tách tuyến tính


Trường hợp đơn giản nhất đối với phương pháp SVM là
khi dữ liệu huấn luyện có thể phân tách tuyến tính tức là giữa
hai lớp bất kỳ luôn tồn tại siêu phẳng phân tách sao cho dữ

liệu ở mỗi lớp sẽ nằm về một phía của siêu phẳng đó (xem
hình 3). Với tập dữ liệu huấn luyện X, giả sử tồn tại một siêu
mặt phẳng phân tách các dữ liệu mẫu thành hai loại +1 và -1.
Điểm x (trong không gian d chiều) nằm trên siêu mặt thỏa
mãn w. x + b = 0, trong đó w là pháp tuyến của siêu mặt, |b|/
||w|| là khoảng cách từ siêu mặt đến gốc toạ độ, và ||w|| là độ
lớn (theo khoảng cách Ơcơlit) của w. Đặt (d +) và (d_) là
khoảng cách ngắn nhất tương ứng từ siêu mặt phân cách đến
điểm mẫu dương và mẫu âm gần nhất. Định nghĩa lề (margin)
của siêu phẳng phân cách (kí hiệu là r) là d+ và d_. Rõ ràng với
một tập dữ liệu phân tách tuyến tính sẽ tồn tại nhiều siêu
phẳng thỏa mãn yêu cầu, mục tiêu của thuật toán SVM là sẽ
tìm siêu mặt có khoảng cách lề là cực đại.

Việc tìm siêu mặt sẽ tương ứng với việc giải bài toán sau:
min P (w,b)=

1 2
w
2

(4)

yi (w ( xi )  b)  1

(5)

Sử dụng phương pháp Lagrange, bài toán trên chuyển về việc
tìm các điểm yên ngựa của hàm sau:


Lw, b,  

1 2 n
w   i  yi w.xi  b   1 (6)
2
i 1

với i là các hệ số Lagrange. Phương trình trên trở thành cực
đại L(w, b, ) với i  0 với mọi i.
Lấy vi phân từng phần của L ta có:
n
L(,  ,  )
    yii xi  0

i 1

(7)

L(,  ,  ) n
  yii  0
b
i 1

(8)

Thay vào công thức trên, bài toán tối ưu chuyển về bài toán
cực đại hàm sau:
W

n


W     i 
i 1

H2

(9)

i  i  0,



 i yi i  0

Bờ
Gốc tọa độ

1 n
  i  j y i y j xi . x j
2 i , j 1

H1

Hình 4. Siêu mặt phân tách tuyến tính
Chúng ta có thể mô hình hóa ý tưởng trên đây bằng toán học
như sau: Giả sử mọi điểm trong tập mẫu thỏa các ràng buộc:
xiw + b ≥ + 1
với yi = + 1 (1)
và xiw + b ≤ - 1
với yi = - 1 (2)

Kết hợp hai bất đẳng thức (1) và (2) thành một bất đẳng thức
ràng buộc như sau:
yi(xiw + b) – 1 ≥ 0  i
(3)
Các mẫu dữ liệu thỏa mãn công thức (1) nằm trên siêu mặt H1:
xiw + b =1 có vector pháp tuyến là w, và khoảng cách đến gốc
tọa độ là |1 − b|/||w||. Tương tự, các mẫu thỏa mãn công thức
(2) nằm trên siêu phẳng H2: xiw + b = - 1, có pháp tuyến là w
và khoảng cách đến gốc tọa độ là |-1 - b|/ ||w||. Khi đó, d+ = d_
= 1 / ||w|| và độ lớn của lề là r =2 /||w||. Chú ý rằng H1 và H2
song song với nhau và không có điểm dữ liệu nào nằm giữa
chúng. Vì vậy, ta có thể tìm cặp siêu phẳng có lề là cực đại,
bằng việc cực tiểu hóa ||w|| với ràng buộc (3). Những điểm
huấn luyện thoả mãn phương trình (3) (tức những điểm nằm
trên một trong hai siêu mặt H1, H2), và việc loại bỏ chúng sẽ
làm thay đổi lời giải, được gọi là các vector hỗ trợ, đó là các
điểm được bao bằng các hình tròn trong hình 4 và kí hiệu các
support vector (các điểm được bao bằng viền tròn).

Bài toán cực đại hóa hàm mục tiêu trên là giải được theo
phương pháp quy hoạch toàn phương phổ biến (chẳng hạn như
phương pháp gradient), hàm phân lớp sẽ có dạng như công
thức (10):

 n

f x   sgn  i0 yi xi .x  b 
 i 1



(10)

b) Trường hợp dữ liệu phân tách tuyến tính có nhiễu
Trên thực tế dữ liệu nói chung là không sạch, tức là sẽ
có các nhiễu do các lỗi trong quá trình thu thập là không thể
tránh khỏi. Trong trường hợp này phương pháp SVM phải
thay đổi để phù hợp với ràng buộc có nhiễu.

159

i

j
Hình 5. Ví dụ về dữ liệu có nhiễu


Hình 5 mô tả dữ liệu huấn luyện trong trường hợp có nhiễu.
Trong hình 5, các điểm hình vuông (chẳng hạn thuộc lớp +1)
lại nằm vào lớp có điểm hình tròn (lớp -1) và ngược lại. Trong
trường hợp này thuật toán SVM sẽ tìm siêu phẳng phân tách
với lỗi phát sinh là nhỏ nhất có thể. Để thực hiện ý tưởng này
chúng ta sử dụng bộ tham số nới lỏng (slack variables)  =
{1,…,n} và một tham số C, bài toán tìm siêu phẳng với lề
cực đại được biểu diễn như sau:

yi (w.x i  b)  1  i ,i  1,..., n (11)

i  0, i  1,..., n
c) Trường hợp dữ liệu huấn luyện không phân tách tuyến tính
Trường hợp thứ ba đó là dữ liệu huấn luyện không phân

tách tuyến tính như hình 6.

Một số hàm hạt nhân sử dụng cho phương pháp SVM được
nghiên cứu và giới thiệu như sau:
Hàm Polynomial: K(x,y) = (x.y + 1)p
Hàm Radial: K(x,y) = exp(-||x-y||2/22)
Hàm Nơ ron: K(x,y) = tank(a.x.y - b)
Cuối cùng hàm phân lớp cho một đối tượng x mới sẽ là:

 n

f ( x)  sgn  i0 yi K ( xi , x)  b 
 i 1


d) Phương pháp SVM cho bài toán nhiều lớp
Các nghiên cứu ở trên ứng với trường hợp bài toán phân
lớp nhị phân, trong trường hợp tổng quát với k lớp, chúng ta
sẽ sử dụng phương án phân tách từng lớp với các lớp còn lại.
Như vậy chúng ta sẽ thực hiện T(T-1)/2 lần phân lớp nhị phân
trong trường hợp bài toán T lớp.
III. KẾT QUẢ THỰC NGHIỆM

2

x1

(14)

III.1 Dữ liệu thực nghiệm


1
0
-1
-2
-

-

0

1

2

2 liệu 1huấn luyện không phân tách tuyến
Hình 6. Ví dụ về dữ

Theo [4], ý tưởng cơ bản để giải quyết bài toán này là đi
tìm một phép biến đổi dữ liệu huấn luyện sang không gian có
số chiều lớn hơn sao cho trong không gian này dữ liệu là phân
tách tuyến tính bằng cách sử dụng một hàm hạt nhân K
(Kernel function). Giả sử rằng có một phép ánh xạ chuyển
toàn bộ dữ liệu sang không gian mới : x (x),  x X,
sao cho trong không gian mới các dữ liệu được ánh xạ là phân
tách tuyến tính, chúng ta sẽ đi giải bài toán tìm lề cực đại cho
bài toán SVM bằng cách cực đại hóa hàm W như sau:
n

W      i 

i 1

1 n
  i j yi y j xi .x j  (12)
2 i , j 1

i  i  0,


 i yi i  0.

Thuật toán huấn luyện sẽ chỉ phụ thuộc duy nhất vào tích vô
hướng trong không gian đặc trưng – tức là hàm (xi) . (xj).
Giả sử rằng chúng ta có một hàm đối xứng
K(xi, xj) = (xi) . (xj),
(13)
khi đó thuật toán luyện chỉ cần duy nhất hàm K mà không cần
sử dụng đến ánh xạ .

Dữ thực nghiệm sẽ gồm dữ liệu dạng văn bản và dữ liệu
trích từ tập dữ liệu KDD’99.
a) Dữ liệu văn bản
Dữ liệu văn bản thuộc dạng phi cấu trúc nên để phân cụm
được văn bản chúng ta phải sử dụng phương pháp biểu diễn
văn bản dạng vector hay nói cách khác cần phải có một cách
biểu diễn văn bản sao cho phù hợp với bài toán phân cụm.
Phương pháp phổ biến dùng để chuyển văn bản sang vector là
BoW (Bag of Word) hoặc TF-IDF.
Phương pháp BoW như sau:
- Xây dựng từ điển các từ, độ dài của từ điển cũng chính là

độ dài của vector biểu diễn.
- Với mỗi văn bản đầu vào ánh xạ để đếm xem tại vị trí thứ j
của vector có bao nhiêu từ xuất hiện trong văn bản i.
Cách biểu diễn này đơn giản, dễ thực hiện tuy nhiên trên
thực tế có một số nhược điểm dẫn đến chất lượng phân loại
không tốt. Vì nếu chỉ căn cứ vào tần số xuất hiện của các từ,
có những từ trong văn bản rất hay xuất hiện nên sẽ không có
nhiều đóng góp trong việc phân biệt văn bản này với văn bản
khác. Trên thực tế phương pháp này ít sử dụng và thay bằng
phương pháp TF-IDF.
Phương pháp TF-IDF
Phương pháp phổ biến là sử dụng một phương pháp thống
kê có tên là TF-IDF, giá trị TF-IDF của một từ là một con số
thu được qua thống kê thể hiện mức độ quan trọng của từ này
trong một văn bản, mà bản thân văn bản đang xét nằm trong
một tập hợp các văn bản.
f (t , d )
TF (t , d ) 
d

160


|d| là tổng số từ trong văn bản d.
f(t,d) là số lần xuất hiện từ t trong văn bản d

IDF (t , D)  ln

(1265 chiều), các cụm có thể bị giao nhau nên thuật toán
DBSCAN đạt độ chính xác không cao.


D
d  D : t  d

Cuối cùng ta có:

TFIDF t , d , D  TF t , d  IDF t , D

Giá trị TF-IDF của từ t là cao thể hiện t là từ xuất hiện
nhiều trong văn bản này, và xuất hiện ít trong các văn bản
khác.Điều này sẽ giúp cho quá trình phân lớp văn bản được
chính xác hơn.
Trong thực nghiệm này bộ dữ liệu gồm 5 cụm (với các chủ
đề Xe, Tennis, Giáo dục, Bóng đá và Du lịch) với 600 phần tử
dữ liệu.
b) Dữ liệu KDD’99
Dữ liệu thứ hai mà chúng tôi quan tâm là dữ liệu trong bài
toán phát hiện tấn công trên mạng thông qua các kết nối giao
dịch. Dữ liệu KDD có 41 thuộc tính, trong đó nhãn lớp là bình
thường hoặc không bình trong đó kết nối là không bình
thường thuộc một số loại tấn công khác nhau. Thuộc tính 2, 3,
4 là các thuộc tính ký hiệu nên chúng ta phải chuyển sang
dạng số trước khi đưa vào huấn luyện. Trong thực nghiệm này
chúng tôi sẽ chọn một số tập dữ liệu con của KDD để tiến
hành kiểm thử.
III.2 Đánh giá chất lượng phân cụm và phân lớp
Để đánh giá kết quả phân cụm, chúng ta dùng chỉ số Rand
Index (RI), một trong những chỉ số phổ biến dùng trong các
nghiên cứu [6]. Chỉ số Rand Index dùng để so sánh kết quả
giữa hai phân cụm P1 và P2 có n điểm dữ liệu. Giả sử a là tổng

số cặp xi và xj thuộc cùng một cụm trong cả P1 và P2, b là tổng
số cặp xi và xj thuộc hai cụm khác nhau trong cả P1 và P2, chỉ
số RI được tính bằng công thức sau:

RI 

ab
n(n  1)

RI sẽ có giá trí từ 0 đến 1, RI càng lớn thì độ chính xác của
quá trình phân cụm càng lớn. Việc đánh giá chất lượng phân
lớp sẽ bằng tỷ số giữa các dữ liệu phân lớp đúng so với toàn
bộ dữ liệu kiểm thử.
III.3. Kết quả thực nghiệm
Kết quả phân cụm cho K-Means và DBSCAN được cho
trong bảng 1, kết quả của SVM (sử dụng LIBSVM [10]) được
cho trong bảng 2.
Với tập dữ liệu văn bản, thuật toán K-Means cho kết quả
70.2% theo Rand Index trong khi thuật toán DBSCAN đạt
được 60.2%. Có thể thấy tập dữ liệu này có số chiều rất lớn

TT

Tập dữ liệu

K-Means

DBSCAN

1


Document

70.2 %

60.2 %

2

KDD

50.3 %

69.4%

Bảng 1. Kết quả thực nghiệm với K-Means và DBSCAN

1

Dữ liệu huấn
luyện
75000

Dữ liệu
kiểm thử
13583

Độ chính
xác
69.8%


2

100000

18086

69.8%

3

125000

22544

67.4%

TT

Bảng 2. Kết quả thực nghiệm với SVM cho dữ liệu KDD
Với dữ liệu KDD, thuật toán K-Means đạt chất lượng
tương đối thấp 50.2%, trong khi thuật toán DBSCAN đạt 69%.
Có thể giải thích việc đạt kết quả như sau: dữ liệu KDD nhiều
chiều và không phân tách tuyến tính nên sử dụng K-Means
không hiệu quả. Trong khi tham chiếu đến DBSCAN và SVM
kết quả tương đối ngang nhau, và có thể giải thích rằng đối với
dữ liệu KDD chúng ta phải sử dụng đến công cụ học máy có
khả năng phát hiện cấu trúc các cụm có dạng bất kỳ, không
phân rã bằng siêu phẳng tuyến tính.
Như vậy việc sử dụng một số phương pháp học máy như

phân cụm, phân lớp có thể phân tích được cấu trúc dữ liệu cần
khai phá như thế nào, sự phân bố các đối tượng trong các
cụm/các lớp, cũng như có xuất hiện các phần từ ngoại lai trong
dữ liệu hay không. Với kết quả phân cụm, chúng ta có thể cải
tiến bằng cách sử dụng cũng như phát triển các thuật toán
phân cụm bán giám sát như những nghiên cứu trong thời gian
gần đây [8,9]. Đối với kết quả của thuật toán SVM với bộ dữ
liệu KDD chúng ta có thể tiếp tục nghiên cứu cải tiến bằng
việc tối ưu tham số, giảm số chiều hoặc sử dụng các phương
pháp lai như các nghiên cứu gần đây [11,12].
IV. KẾT LUẬN
Trong bài báo này chúng tôi tiến hành nghiên cứu thực
nghiệm một số tập dữ liệu số chiều lớn sử dụng thuật toán
phân cụm dữ liệu và thuật toán phân lớp dữ liệu. Cụ thể dữ
liệu kiểu văn bản và dữ liệu trong bài toán phát hiện tấn công
trên mạng KDD’99 đã được thử nghiệm. Đây là hai dạng dữ
liệu có nhiều ứng dụng trong thực tiễn. Đây là nghiên cứu
bước đầu, làm tiền đề cho các nghiên cứu lý thuyết và thực
nghiệm tiếp theo cho hai bài toán an ninh mạng và khai phá dữ
liệu văn bản.

161


[1]
[2]
[3]

[4]
[5]


[6]
[7]

Cao Ngọc Ánh, Vũ Việt Vũ, Phùng Thị Thu Hiền, Thuật toán phân cụm
K-Means*, Tạp chí Khoa học và Công nghệ - Đại học Thái Nguyên, Số
169(09), ISSN 1859-2171, trang 159-164, 2017.
[9] S. Basu, I. Davidson, and K. L. Wagstaff, Constrained Clustering:
Advances in Algorithms, Theory, and Applications, Chapman and
Hall/CRC Data Mining and Knowledge Discovery Series, 1st edn.,
2008.
[10] Chang, Chih-Chung and Lin, Chih-Jen, ―LIBSVM: A library for support
vector machines,‖ ACM Transactions on Intelligent Systems and
Technology, vol. 2(3), 27:1—27:27, 2011.
[11] Abdulla Amin Aburomman, Mamun Bin Ibne Reaz: A novel SVMkNNPSO ensemble method for intrusion detection system. Appl.Soft
Comput. 38: 360-372, 2016.
[12] Bin Luo, Jingbo Xia: A novel intrusion detection system based on
feature generation with visualization strategy. Expert Syst. Appl. 41(9):
4139-4147, 2014.
[8]

TÀI LIỆU THAM KHẢO
Rui Xu, Donald C. Wunsch II: Survey of clustering algorithms. IEEE
Trans. Neural Networks 16(3): 645-678, 2005.
Anil K. Jain: Data clustering: 50 years beyond K-means. Pattern
Recognition Letters (PRL) 31(8):651-666, 2010.
Martin Ester, Hans-Peter Kriegel, Jörg Sander, Xiaowei Xu: A DensityBased Algorithm for Discovering Clusters in Large Spatial Databases
with Noise. In proceeding of SIGKDD Conference on Knowledge
Discovery and Data Mining, pp: 226-231, 1996.
V. Vapnik, The Nature of Statistical Learning Theory. New York:

Springer-Verlag, 1995.
Markus M. Breunig, Hans-Peter Kriegel, Raymond T. Ng, Jörg Sander:
LOF: Identifying Density-Based Local Outliers. SIGMOD Conference
pp. 93-104, 2000.
W. M. Rand. Objective criteria for evaluation of clustering methods.
Journal of the American Statistical Association, 66(1971), pp. 846-850.
Vũ Việt Vũ, Lựa chọn tập dữ liệu huấn luyện cho phương pháp Support
Vector Machine, Kỷ yếu Hội thảo toàn quốc về Điện tử, truyền thông và
công nghệ Thông tin (REV), ISBN: 978-604-931-253-3, Tháng 12, pp:
3.28-3.32, 2016.

162



×