Tải bản đầy đủ (.doc) (21 trang)

Giấu tin trong mô hình sinh thơ lục bát

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (190.15 KB, 21 trang )

GIẤU TIN TRONG MÔ HÌNH SINH
THƠ LỤC BÁT

Nguyễn Vũ Linh, Nguyễn Xuân Hoài, Nguyễn Văn Xuất
Nhóm nghiên cứu NC (Natural Computation Group),
Khoa CNTT – Học viện Kỹ Thuật Quân Sự.
E-mail: , ,


Tóm tắt..................................................................................................................3
I. Đặt vấn đề..........................................................................................................3
II. Giấu tin............................................................................................................4
III. Giấu tin bằng mô hình sinh thơ lục bát.......................................................9
IV Kết luận.........................................................................................................21
V. TÀI LIỆU THAM KHẢO.............................................................................21


Tóm tắt
Bài báo này trình bày một nghiên cứu của nhóm tác giả về các phương
pháp giấu tin bằng mô hình sinh ngôn ngữ và thể hiện cụ thể trong việc sinh một
dạng văn bản đặc biệt, dạng thơ lục bát cổ truyền. Kết quả nghiên cứu cho thấy
giấu tin trong mô hình sinh thơ lục bát là một kỹ thuật giấu tin hứa hẹn mang đặc
trưng ngôn ngữ và văn hoá Việt nam, đồng thời nghiên cứu cũng chỉ ra một số
cách tấn công và chống tấn công vào các file chứa thơ.

I. Đặt vấn đề
Giấu tin là để thông tin được truyền đi một cách bí mật, tránh việc ăn cắp
thông tin hay xuyên tạc nó. Người ta đã sử dụng nhiều kỹ thuật để giấu thông tin
cần truyền vào nhiều nơi như giấu vào file ảnh, file văn bản, file âm thanh …
Thông điệp mật thường được chèn vào file chứa, ghi đè lên một phần file chứa
(thay thế) hoặc file chứa được sinh ra có chứa thông điệp. Ta gọi là các phương


pháp chèn, thay thế và sinh. Trên thực tế người ta chủ yếu dùng phương pháp
chèn và thay thế, phương pháp sinh cũng đã được nghiên cứu trong [1] nhưng rất
hạn chế và khó áp dụng vào thực tế . Dùng phương pháp chèn thì sẽ làm tăng
kích thước file chứa, phương pháp thay thế thì sẽ làm giảm chất lượng file chứa,
đây là những điều không thể tránh khỏi. Với phương pháp sinh, vì file chứa là
được sinh ra mới hoàn toàn nên không sợ có sự thay đổi về kích thước hay chất
lượng file nhưng nội dung file chứa thường khó giống thật ( ví dụ như sinh file
ảnh thì ảnh đó phải là ảnh gì đó hoặc file văn bản thì nội dung không được ngô
nghê quá). Và điều này có thể hạn chế được.
Vậy ta chọn mô hình sinh để giấu tin, nhưng vấn đề đặt ra là sinh cái gì?


Thực tế xảy ra chiến tranh, khi điều kiện truyền đa phương tiện số không
thực hiện được, thông tin chỉ có thể truyền qua sóng radio hay những tài liệu viết
tay như các bài phát thanh, bình luận, báo in, thư tay. Giấu tin vào những đoạn
văn bản đó là một ý tưởng rất hay. Như vậy ta sẽ chọn mô hình sinh ngôn ngữ để
nghiên cứu, cụ thể là mô hình sinh thơ lục bát, một thể thơ cổ truyền đặc sắc và
rất Việt Nam.
II. Giấu tin
1. Định nghĩa
Giấu tin là thao tác nhúng thông tin vào trong các dạng dữ liệu số hóa như
tập tin ảnh, tập tin âm thanh, tập tin văn bản … Thao tác này được tiến hành theo
nhiều cách khác nhau tùy theo từng phương pháp và mục đích. Nhìn chung bài
toán giấu tin gồm hai quá trình :
- Nhúng tin ( hay còn gọi là mã hóa ).
- Trích rút tin ( giải mã ).
Ví dụ :
- Trên ảnh :
Mã hóa thông điệp và nhúng các bít của thông điệp vào trong ảnh



Bức ảnh dưới đã được nhúng thông tin.
- Trên văn bản :
Giả sử đối tượng chứa là đoạn văn bản có nội dung sau
“Apparently neutral’s protect is thoroughly discounted and ignored.
Isman hard hit. Blockade issue affects for pretext embargo on by-products,
ejecting suets and vegetable oils”
Và thông điệp cần chuyển tải là : “Pershing sails for YN June 1”
Đoạn văn bản trên chính là đoạn thông điệp mật mà gián điệp Đức đã sử
dụng trong chiến tranh thế giới lần II.
2. Đối tượng của bài toán giấu tin
Trong bài toán giấu tin có 4 đối tượng chính là:
- Thông tin mật : Là thông tin nhúng vào đối tượng chứa và là thông tin
cần được bảo vệ. Tùy theo từng phương pháp cụ thể thông tin này được bảo vệ
với các mức độ khác nhau.


- Đối tượng chứa : Là đối tượng dùng để chứa thông điệp mật. Đối tượng
này còn được gọi là Cover - <Data Type>, tùy thuộc vào loại dữ liệu mà nó
mang tên khác nhau : Cover – Image, Cover – Audio, Cover – Text …
- Đối tượng đã nhúng: Là đối tượng chứa sau khi nhúng thông tin mật, còn
được gọi là Stego - <Data Type>, với Data Type tương ứng với kiểu dữ liệu của
đối tượng chứa. Ví dụ nếu đối tượng chứa là ảnh thì đối tượng đã nhúng là Stego
– Image. Một số tài liệu đã gọi đối tượng đã nhúng là đối tượng đã đánh dấu.
- Khóa mật: Là khóa tham gia vào quá trình nhúng, tùy theo từng thuật
toán mà khóa này có tham gia hay không. Đối tượng này còn có tên Stego – Key.
3. Yêu cầu trong một bài toán giấu tin
- Tính bền vững : Thể hiện khả năng ít bị thay đổi trước những tấn công từ
bên ngoài như thay đổi định dạng, nội dung. Hiện nay chưa có phương pháp nào
đảm bảo biện pháp này một cách tuyệt đối. Với từng ứng dụng cụ thể thì yêu cầu

này cũng thể hiện khác nhau.
- Khả năng không bị phát hiện: thể hiện ở việc khó xác định được đối
tượng có chứa thông tin mật hay không. Hầu hết các phương pháp giấu tin dựa
trên đặc điểm của hai hệ tri giác người: thị giác và thính giác. Khả năng này còn
gọi là khả năng giả dạng.
- Khả năng lưu trữ: Khả năng này thể hiện ở lượng thông tin của thông
điệp mật có thể nhúng trong đối tượng chứa. Do tính bảo mật nên khả năng lưu
trữ luôn bị hạn chế. Do đó trong trường hợp muốn ẩn một thông tin có kích
thước tương đối lớn ta thường chia nhỏ ra nhiều thành phần và thực hiện nhúng
từng phần.


Khả năng Lưu trữ

Lưu trữ

Bảo mật
Khả năng không
bị phát hiện

Bản
quyền

Tính bền
vững

4. Steganography
Steganography là một trong hai kỹ thuật ( Steganography và
Watermarking ) của lĩnh vực giấu tin. Kỹ thuật sử dụng trong bài báo này là
Steganogaphy. Ta có thể hiểu kỹ thuật này như sau:

Giấu thông tin (Steganography) là một kỹ thuật nhúng thông tin
(embeding) vào trong một nguồn đa phương tiện gọi là phương tiện chứa (host
data) mà không gây ra sự nhận biết về sự tồn tại của thông tin giấu (invisible).
Sự khác biệt chủ yếu giữa mã hóa thông tin và giấu thông tin là phương
pháp mã hóa làm cho các thông tin hiện rõ là nó có được mã hóa hay không còn
đối với phương pháp giấu tin thì người ta sẽ khó mà biết được là có thông tin
giấu bên trong do tính chất ẩn của thông tin được giấu.
Còn với Watermarking thì Steganography quan tâm đến ứng dụng che
giấu các bản tin đòi hỏi có độ bí mật và dung lượng càng lớn càng tốt (thường
là truyền thông tin). Thông tin được giấu sao cho người khác không biết được là


có thông tin giấu trong đối tượng chứa. Còn Watermarking quan tâm nhiều đến
giấu những mẩu tin ngắn nhưng đòi hỏi độ bền vững cao (thường là chữ ký số).
Bảo mật cho chính đối tượng chứa (host data).
5. Phân loại
Nếu xem xét các phương pháp giấu tin qua việc xem thông điệp được ẩn
như thế nào và nơi thông điệp sẽ được ẩn người ta chia Steganography thành 3
loại: Giấu tin bằng phương pháp chèn, giấu tin bằng phương pháp thay thế, giấu
tin bằng phương pháp sinh.
a. Giấu tin dựa vào phương pháp chèn
Kỹ thuật chèn này có sự khác biệt là ở chỗ nó tìm một vị trí trong file mà
ứng dụng bỏ qua khi đọc file. Về cơ bản, bạn chèn dữ liệu vào một file, việc này
làm tăng kích thước của file lên nhưng không làm ảnh hưởng đến sự thể hiện (tái
hiện, nghe nhìn) của dữ liệu.
Ví dụ với một vài file có gọi cờ EOF. Cờ này báo hiệu cho ứng dụng rằng
đang đọc file đến tận cuối file và vì thế có thể dừng việc xử lý file. Bạn có thể ẩn
dữ liệu vào sau vạch EOF và ứng dụng sẽ bỏ qua nó mặc dù dữ liệu ẩn vẫn có ở
trong file.
Thuộc tính chính của kỹ thuật này là ta chỉ thêm dữ liệu vào file, không

sửa hay thay đổi một chút nào nội dung đang có của file.
Cái tốt hơn ở đây là với sự chèn vào ta có thể ẩn về mặt lý thuyết khá
nhiều thông tin bạn muốn mà không làm giảm chất lượng file chứa.
Và tệ ở chỗ là một vài điểm trong file sẽ lớn hơn bình thường.
b. Giấu tin dựa vào phương pháp thay thế


Chính là chèn dữ liệu trên file, thường là ghi đè. Phương pháp này đơn
giản nhưng nên cẩn thận. Thủ thuật là tìm thông tin không quan trọng trong file,
thông tin có thể ghi đè lên mà không gây tác động gì đến file, hoặc không ảnh
hưởng gì nhiều.
Ví dụ trong file Word thì một vài dữ liệu giữa dấu Begin-text và End-text
có ảnh hưởng nhỏ tới văn bản và có thể ghi đè lên. Khác với cách chèn thì ghi đè
làm cho kích thước file không thay đổi.
Nhưng hạn chế là ở chỗ lượng dữ liệu ẩn phụ thuộc vào file chứa vì số
lượng dữ liệu không quan trọng trong file là hạn chế.
c. Giấu tin bằng phương pháp sinh
Cả hai kỹ thuật trên đều đòi hỏi phải có cách ẩn và file chứa. Với kỹ thuật
sinh việc giấu tin được dùng để tạo file chứa.
Một ví dụ khá phổ biến của kỹ thuật giấu tin này là khi ta dùng file chứa
để tạo một ảnh Fractal. Một ảnh Fractal có thuộc tính giới hạn toán học, nhưng
về cơ bản nó là tập hợp của những mẫu và đường trong những màu khác nhau.
Ta có thể dùng thông điệp ẩn của bạn để xác định góc, độ dài và mầu của mỗi
đường.
Trong các mô hình sinh, thông tin được chứa trong chính mô hình sinh file
chứa (mô hình này thường được giữ kín), do đó việc phát hiện, hay tác động lên
tin mật trên đường truyền sẽ khó khăn hơn (do thông tin mật không chứa đựng
trong file chứa truyền đi).
III. Giấu tin bằng mô hình sinh thơ lục bát
1. Giấu tin bằng mô hình sinh



a. Yêu cầu của bài toán
Yêu cầu đặt ra ở đây là giấu thông tin bằng một mô hình sinh nào đó. Ở
đây ta sử dụng mô hình sinh ngôn ngữ. Như vậy, khi đưa vào một thông điệp thì
mô hình sẽ sinh ra một file văn bản mà nội dung file ẩn giấu (chứ không chứa)
thông điệp cần nhúng. Xuất phát từ đặc trưng của Steganography với mong
muốn che giấu đi sự tồn tại của tin được nhúng, đòi hỏi file được sinh ra ở trên
phải giả dạng được một dạng văn bản nào đó nhằm tránh đi sự nghi ngờ có thông
tin ẩn trong quá trình truyền file.
Ngược lại, khi nhận được file giấu, sử dụng mô hình đã dùng để sinh ta
phải lấy lại được thông điệp đã giấu.
Ngoài ra, đoạn văn bản giấu thông tin có thể bị tấn công trong quá trình
truyền vì vậy vấn đề cần giải quyết là làm thế nào hạn chế được sự tấn công đó.
b. Phương pháp giấu tin bằng mô hình sinh ngôn ngữ
Đúng như tên của phương pháp, vấn đề cần nghiên cứu là sự kết hợp của
hai kỹ thuật: giấu tin và sinh ngôn ngữ bằng văn phạm. Đây cũng là hai kỹ thuật
khó đạt được giải pháp tối ưu và hiện còn rất nhiều vấn đề cần bàn đến.
Thực chất, phương pháp được xây dựng dựa trên sự đan xen các bước của
hai kỹ thuật trên và chia làm 2 quá trình:
+ Quá trình giấu:
- Xây dựng văn phạm sinh ngôn ngữ
- Mã hóa văn phạm
- Mã hóa thông điệp cần truyền
- Sinh ngôn ngữ theo văn phạm và theo mã của thông điệp


+ Quá trình trích rút
- Lấy nội dung file chứa
- Dùng văn phạm để giải mã

- Giải mã thông điệp
2. Chọn loại văn bản cần sinh
a. Chọn thể thơ lục bát
Theo yêu cầu đặt ra, điều đáng quan tâm là tăng cường khả năng giả dạng
của file chứa thông điệp. Vì vậy ta cần xây dựng một văn phạm sản sinh ra ngôn
ngữ một cách tự nhiên nhất. Sinh ngôn ngữ tự nhiên bằng văn phạm đã rất khó
được tự nhiên, thêm sự ràng buộc của thông điệp giấu làm cho độ tự nhiên lại
càng giảm đi. Vậy nên ta sẽ không quá phức tạp khâu mã hóa văn phạm và thông
điệp cần giấu.
Giải pháp cho vấn đề trên như sau:
Ta chọn xây dựng văn phạm sinh thơ lục bát. Lục bát là thể thơ truyền
thống của Việt Nam, một bài thơ lục bát là tập hợp của nhiều câu lục bát, mỗi
câu thường ngắt nhịp theo 2 tiếng, độ dài của bài thơ là không giới hạn. Điều
này thuận lợi cho việc xây dựng văn phạm, mã hóa văn phạm, có khả năng
chống tấn công, đặc điểm thể loại thơ (mức độ trừu tượng của ngữ nghĩa, tính
chất vần điệu chặt chẽ) còn hạn chế được sự nghi ngờ do vẫn còn sự ngô nghê
của câu chữ.
b. Về thể thơ lục bát
- Về số câu chữ


Một bài thơ lục bát là tập hợp của các câu thơ lục bát, một câu lục bát gồm
câu lục (6 tiếng) và câu bát (8 tiếng). Trong câu thơ nhịp thường được ngắt theo
2 tiếng (nhịp chẵn). Cũng có trường hợp ngoại lệ mỗi nhịp là 3 tiếng ( với câu 6)
và 4 tiếng (với câu 8).
- Gieo vần phối điệu
Thể thơ lục bát có cước vận và yêu vận, tức là vừa gieo vần chấn, vừa gieo
vần lưng. Tiếng cuối của câu lục gieo vần xuống tiếng 6 của câu bát, tiếng cuối
của câu bát lại gieo vần xuống tiếng 6 của câu lục tiếp theo.
Về phối điệu thơ lục bát có các luật “Nhất tam ngũ bất luận, nhị tứ lục

phân minh” tức là các tiếng lẻ thì gì cũng được nhưng với các tiếng chẵn phải
tuân theo đúng niêm luật.
Luật phối điệu như sau:

O

O

B

O

T

O

B

B

O

T

O

B

O


B

Trong đó:
B : Thanh bằng
T : Thanh trắc
O : Thanh tự do ( bằng hoặc trắc)
Ngoài ra còn có luật trầm bổng, tức là tiếng thứ 6 và tiếng thứ 8 của câu
bát mặc dù đều là thanh bằng nhưng có sự chuyển đổi từ âm trầm (huyền) sang
âm bổng (không).


Luật gieo vần và phối điệu trên làm cho bài thơ lục bát nhịp nhàng chặt
chẽ.
c. Văn phạm sinh thơ lục bát
Văn phạm được xây dựng có dạng văn phạm phi ngữ cảnh.
Giả sử gọi văn phạm là GLB = (N,T,P,k) thì :
k: ký tự bắt đầu là thể thơ lục bát
N tập các biến:
Ta thấy một bài thơ lục bát là một chuỗi các câu lục bát, mỗi câu lục bát
lại gồm 1 câu lục và 1 câu bát.
STT
1
2
3
4
5
6
7
8
9

10
11
12
13
14
15
16
17
18
19
20

Tên biến
Thơ lục bát
Câu 1
Câu tiếp theo
Câu 2
Câu lục 1
Câu lục 2
Câu bát 1
Câu bát 2
Nhịp bằng
Nhịp trắc
Nhịp sáu 1
Nhịp sáu 2
Nhịp tám 1

Ký hiệu
K
C1

CT
C2
CL1
CL2
CB1
CB2
NB
NT
NS1
NS2
NT1

Nhịp tám 2
Nhịp tám 3
Tiếng sáu 1
Tiếng sáu 2
Tiếng tám 1
Tiếng tám 2
Tiếng tám 3

NT2
NT3
TS1
TS2
TT1
TT2
TT3


STT

21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36

Tên biến
Vần
Vần 1
Vần 2
Tiếng
Tiếng bằng
Tiếng trắc
Thanh bằng
Thanh trắc
Thanh tám 1
Thanh tám 2
Phép toán
Đảo thanh

Phụ âm
Phụ âm đầu
Phụ âm cuối
Nguyên âm

Ký hiệu
V0
V1
V2
TG
TB
TT
THB
THT
TH3
TH4
PT
DT
PA
PAD
PAC
NA

T là tập các ký tự kết thúc: tập thanh âm (không, huyền, ngã ,hỏi, sắc,
nặng), tập các vần, nguyên âm, phụ âm …
P : tập luật
1

<k>  <C1> <CT>


2

<CT>  <C2>  <C2> <CT>

3

<C1>  <CL1> <CB1>

4

<C2>  <CL2> <CB2>

5

<CB2>  <NB> <NT> <NT3> <NT2>

6

<NT3>  <TG> <TT3>

7

<TT3>  <V0> <TH3>  <PA> <V0> <TH3>

8

<CL2> 

9


<NS2>  <TG> <TS2>

<NB> <NT> <NS2>


10

<TS2>  <V2> <THB>  <PA> <V2> <THB>

11

<CB1>  <NB> <NT> <NT1> <NT2>

12

<NT1>  <TG> <TT1>

13

<TT1>  <V1> <TH3>  <PA> <V1> <TH3>

14

<TH3>  <PT> <THB>

15

<NT2>  <TG> <TT2>

16


<TT2>  <V2> <TH4>  <PA> <V2> <TH4>

17

<V2>  <PT> <V0>

18

<TH4>  <PT> <DT(TH3)>

19

<CL1>  <NB > <NT> <NS1>

20

<NS1>  <TG> <TS1>

21

<TS1>  <V1> <THB>  <PA> <V1> <THB>

22

<V1>  <PT> <V0>

23

<NB>  <TG> <TB>


24

<NT>  <TG> <TT>

25

<TB>  <V0> <THB>  <PA> <V0> <THB>

26

<TT>  <V0> <THT>  <PA> <V0> <THT>

27

<TG>  <TB>  <TT>

28

<V0>  <NA>  <NA> <PAC>

29

<PA>  <PAD>  <PAC>

30

<THB>  {Huyền, Không}

32


<THT>  {Sắc, Hỏi, Ngã, Nặng}

33

<DT>  {Huyền} <PT> {Không} {Không} <PT>

34

{Huyền}
<PT>  {=}

35

< NA>  {Tập nguyên âm}

36

<PAD>  {Tập phụ âm đầu}


37

<PAC>  {Tập phụ âm cuối}

Tập nguyên âm : {a, ă, â, e, ê, i, o, ô, ơ, u, ư, y,
ai, ao, au, ay, âu, ây, eo, êu, ia, iê, iu, oa, oi, oe, oă,
oo, ôi, ơi, ua, uâ, uă, uê, uô, ui, uy, ưa, ưi, ươ, ưu, yê, iêu, oai,
oao, oay, oeo, uôi, uây, uyê, ươi, ươu, uya, uyu, yêu }
Tập phụ âm đầu : {b, d, đ, g, h, k, l, r, s, v, x, gh, gi, kh, ph, qu, th, tr, ngh}

Tập phụ âm cuối: {c, p, t, m, n, ch, ng, nh}
Như vậy thơ lục bát (k) là tập dẫn xuất của các câu lục bát liên tiếp. Ngôn
ngữ sinh bởi văn phạm này chính là tập các bài thơ lục bát dẫn xuất từ k
L(GLB)={w | w  T và k *  w }

4. Giấu tin bằng thơ lục bát
Ta đã có được văn phạm sinh thơ, bây giờ sẽ tìm cách giấu thông tin vào
thơ qua quá trình sinh đó. Dưới đây là một số phương pháp giấu tin vào thơ, các
phương pháp chủ yếu dựa vào tập T và sự khác nhau của các phương pháp này
cũng bởi các cách xây dựng tập T khác nhau.
a. Phương pháp 1
Trong phương pháp này ta sẽ lấy từ để xây dựng thơ theo tập luật P.
Khi xem xét tiếng Việt dưới góc độ Công nghệ thông tin ta thấy mọi từ
trong tiếng Việt có cấu trúc như sau:
[<Phụ âm>] & <Nguyên âm>


Trong đó thành phần có thể có hoặc không, thành phần
<Nguyên âm> bắt buộc phải có. [7]
Dựa vào nguyên âm bắt buộc phải có, nguyên âm được chia làm 4 loại
tương ứng với độ dài nguyên âm là 1, 2, 3, 4. [7]
Ở đây là dựa vào độ dài các nguyên âm (vần) sẽ cấu tạo nên từ trong quá
trình sinh. Tức là khi sinh văn bản, cùng với luật sinh thì việc lấy vần của từ cần
đưa vào (theo độ dài vần) phải phù hợp với mã đưa vào của thông tin giấu đã
được mã hóa. Lấy độ dài nào theo mã nào sẽ được quy định trong luật mã hóa,
luật này đặt ra cho tập T.
Có nhiều cách để mã hóa trong phương pháp này, mỗi cách có thể coi là
một luật và tương ứng với một hàm nhất định nào đó, với các biến là các thành
phần của văn phạm sẽ được dùng để quy ra mã dạng bít.
Dưới đây tôi chỉ nêu lên một trường hợp, với hàm có dạng

f(n)=αn
chọn tham số α = 4 tương ứng với 4 loại vần.
Khi đó n thay đổi thì việc mã hóa sẽ khác nhau (ta tạm thời chọn với 4
dạng bít với độ dài là 2), ví dụ:
Với n = 1, thì 4 loại độ dài nguyên âm (vần) sẽ tương ứng với 4 dạng bít
00, 01, 10, 11
Với n = 2 thì, độ dài vần của 2 từ liên tiếp so với một dạng mã sẽ là : 00 –
11, 12, 13, 14; 01 – 21, 22, 23, 24; 10 – 31, 32, 33, 34; 11 – 41, 42, 43 ,44.
Tức là nếu 2 bít của tin là 00 thì nhịp đó có thể lấy hai tiếng có độ dài vần
lần lượt là 1 và 1, 1 và 2 , 1 và 4 hoặc 1 và 4.


Với n  3 tương tự, tuy nhiên phải xét nhiều trường hợp hơn.
b. Phương pháp 2
Phương pháp này ta lấy từng nhịp để đưa vào thơ, vậy nên việc tổ chức tập
T cũng khác đi. Tập T sẽ là một tập các nhịp được xây dựng sẵn (sử dụng từ điển
từ) với đủ các thuộc tính.
Còn về mã hóa tập từ này:
Yêu cầu mã hóa đòi hỏi: khi mã hóa một chuỗi bít bất kỳ vẫn thỏa mãn
yêu các cầu sinh thơ. Tức là cùng một dạng từ (cùng vần, số tiếng, loại từ, chủ
đề, thanh) phải mã hóa được hết các giá trị dưới dạng chuỗi bít nhị phân theo độ
dài nhất định. Như vậy yêu cầu văn phạm phải phong phú về bộ từ. Ở đây ta
chọn độ dài chuỗi bít là 2, tức là phải có 4 từ cùng một dạng nào đó.
Ví dụ, khi cần lấy đến nhịp 3, phải có vần “a”, phải lấy thanh “huyền”
nhưng mã bít của thông điệp đưa vào lúc thì là 00, lúc thì 01, 10, 11, vậy thì
trong từ điển phải có ít nhất 4 từ khác nhau cùng vần “a”, cùng thanh “huyền”
khác nhau về mã 2 bít để có thể đưa vào được nhịp 3.
5. Tấn công và chống tấn công
a. Tấn công
Việc tấn công vào thông tin ẩn gọi là Steganalysis. Steganalysis được chia

làm 2 nội dung: kiểu tấn công chỉ phát hiện ra thông tin ẩn, kiểu tấn công bóp
méo thông tin ẩn (khi đã phát hiện hoặc có thể chưa phát hiện ra).
Công việc dò tìm phát hiện chủ yếu dựa vào việc phân tích chất lượng file
và so sánh kích thước file với file gốc. Còn bóp méo thì đa dạng hơn, chỉ là thay
đổi nội dung một phần hay toàn bộ file theo nhiều cách khác nhau. Nhiều khi
còn là hủy hẳn file bị nghi ngờ đi.


b. Chống tấn công
Đặc trưng của phương pháp giấu tin bằng mô hình sinh đã hạn chế được
rất nhiều việc tấn công bởi file được sinh ra là hoàn toàn mới. Kẻ tấn công sẽ
không có file gốc để so sánh về chất lượng cũng như kích thước file.
Khả năng chống tấn công của phương pháp này còn thể hiện ở chỗ nội
dung thông điệp không nằm trong nội dung vật lý của file nên việc bóp méo file
bị ảnh hưởng ít hơn.
Dựa vào đặc trưng của thơ lục bát (độ dài bài thơ là không hạn chế không gian giấu là không hạn chế, có thể chia khổ) ta có thể lặp lại tin giấu trong
nhiều khổ. Như vậy việc tấn công vào một phần file văn bản sẽ không thể làm
mất hẳn tin giấu. Tuy vậy hai khổ thơ có thể cùng một mẩu thông điệp nhưng nội
dung bề ngoài là phải hoàn toàn khác nhau.
Ngoài ra, kỹ thuật sinh ngôn ngữ càng tốt thì khả năng giả dạng càng cao,
tức khả năng chống phát hiện càng cao. Đây có lẽ là biện pháp quan trọng nhất.
Hai phương pháp nêu trên cũng xuất phát từ nhu cầu tăng khả năng giả dạng, tức
nhu cầu tăng về độ tự nhiên của bài thơ.
6. Nhận xét đánh giá thực nghiệm
a. Kết quả
Kết quả chung là đều đã giấu tin được thông qua các bài thơ lục bát và lấy
lại được tin từ các bài thơ đó. Phục vụ mục đích chống tấn công, các bài thơ đều
được chia khổ và có khả năng lặp lại nhiều lần thông điệp giấu, độ dài khổ có thể
thay đổi, khi lấy lại thông điệp nếu file bị thay đổi một vài phần vẫn có thể lấy
lại được tin gốc. Cùng một tin giấu có thể đưa ra hai bài thơ khác nhau.

b. Nhận xét và đánh giá


So với các phương pháp chèn và thay thế, phương pháp này có không gian
lưu trữ lớn hơn, khả năng bền vững cao hơn nhưng lại dễ bị phát hiện hơn do độ
tự nhiên của file thơ chỉ là tương đối. Đây cũng là điểm yếu chung của phương
pháp giấu tin bằng mô hình sinh.
So sánh 2 phương pháp đã nêu, phương pháp 1 đa dạng hơn về phương
pháp mã hóa và giấu tin nhưng độ tự nhiên của thơ còn kém. Phương pháp 2, độ
giả dạng của thơ tốt hơn nhiều, nhưng việc mã hóa cũng chỉ đơn giản là mã hóa
bộ từ điển và bộ từ điển phải phong phú.
IV Kết luận
Bài báo trình bày một nghiên cứu mới trong lĩnh vực giấu tin phục vụ cho
công tác đảm bảo an toàn thông tin:
Nghiên cứu một số phương pháp giấu tin bằng mô hình sinh thơ lục bát,
thử nghiệm kết quả và nhận xét đánh giá các phương pháp. Xem xét các khả
năng tấn công và đề xuất giải pháp chống tấn công hiệu quả.

V. TÀI LIỆU THAM KHẢO
[1]

Peter Wayner, “Disappearing Cryptography – Information Hiding:

Steganography & Watermarking”, Morgan Kaufmann(MK) Publishers, 2002
[2]

Eric Cole, Ronald D. Krutz, Consulting Editor, “Hiding in Plain Sight:

Steganography and the Art of Covert Communication ”, Wiley, Inc, 2003
[3]


Neil F. Jonhson, Zoran Duric, Sushil Jajodia – Center for Secure

Information

Systems

George

Mason

University

“Information

Hiding:

Steganography and Watermarking-Attacks and Countermeasures”, Kluwer
Academic Publishers, 2001


[4]

Lưu Anh Khoa, Lê Thị Hoàng Ngân, “Ẩn dữ liệu trên âm thanh số”, Luận

văn cử nhân tin học, Đại học Khoa Học Tự Nhiên TP Hồ Chí Minh, 2005
[5]

Lê Huy Thọ, “Nghiên cứu xây dựng mô hình và đề xuất giải pháp tự động


sản sinh một số dạng văn bản đặc biệt trên ngôn ngữ tiếng Việt”, Luận văn Thạc
sỹ tin học, Học viện Kỹ Thuật Quân Sự, 2004
[6]

Nguyễn Văn Xuất, “Automat Ngôn Ngữ Hình Thức và Nguyên Lý Chương

Trình Dịch”, Học viện Kỹ Thuật Quân Sự, 2004
[7]

Nguyễn Văn Xuất, “Xem xét tiếng Việt dưới góc độ công nghệ thông tin”,

Hội nghị khoa học lần thứ 14 ITMATH’06, Học viện Kỹ Thuật Quân Sự, Trang
110, 2006.
[8]

Trần Quốc Dũng, “Giấu tin trong dữ liệu đa phương tiện một công nghệ

mới trong bảo mật thông tin”, Tạp chí Bưu Chính Viễn Thông và Công Nghệ
Thông Tin, 10/10/2003.
[9]

“Steganography, Steganalysis”, Wikipedia – the free encyclopedia



×