Tải bản đầy đủ (.pdf) (58 trang)

Kỹ thuật giấu tin trong tệp văn bản và ứng dụng (LV thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.1 MB, 58 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐH CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NGUYỄN THỊ PHƯƠNG CHI

KỸ THUẬT GIẤU TIN
TRONG TỆP VĂN BẢN VÀ ỨNG DỤNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN, 2017


ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐH CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NGUYỄN THỊ PHƯƠNG CHI

KỸ THUẬT GIẤU TIN
TRONG TỆP VĂN BẢN VÀ ỨNG DỤNG
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: PGS.TS. ĐẶNG VĂN ĐỨC

THÁI NGUYÊN, 2017


i



LỜI CAM ĐOAN

Tôi xin cam đoan luận văn “Kỹ thuật giấu tin trong tệp văn bản và ứng
dụng” là sản phẩm của riêng cá nhân, không sao chép lại của người khác.
Trong toàn bộ nội dung của luận văn, những điều được trình bày hoặc là của
cá nhân hoặc là được tổng hợp, nghiên cứu từ nhiều nguồn tài liệu. Tất cả các
tài liệu tham khảo đều có xuất xứ và trích dẫn rõ ràng.
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo
quy định cho lời cam đoan của mình.

Thái Nguyên, ngày 25 tháng 07 năm 2017
Học viên
Nguyễn Thị Phương Chi


ii

LỜI CẢM ƠN

Lời đầu tiên, tôi xin bày tỏ lòng biết ơn đến PGS.TS. Đặng Văn Đức Viện Công Nghệ Thông Tin, người đã tận tình hướng dẫn, chỉ bảo và giúp đỡ
tôi trong suốt quá trình nghiên cứu và hoàn thành luận văn này.
Tôi xin chân thành cảm ơn các thầy cô giáo trường Đại học Công nghệ
Thông tin và Truyền thông - Đại học Thái Nguyên đã giảng dạy và cung cấp
cho chúng tôi những kiến thức rất bổ ích trong thời gian học cao học, giúp tôi
có nền tảng tri thức để phục vụ nghiên cứu khoa học sau này.
Tôi cũng xin cảm ơn Lãnh đạo và đồng nghiệp tại đơn vị trường THPT
Bãi Cháy nơi tôi công tác đã tạo điều kiện và giúp đỡ tôi trong suốt quá trình
nghiên cứu và hoàn thành luận văn. Tôi cũng xin bày tỏ lòng cảm ơn đến gia
đình và bạn bè, những người luôn quan tâm, động viên và khuyến khích tôi

trong quá trình học tập.

Thái Nguyên, ngày 25 tháng 06 năm 2017
Nguyễn Thị Phương Chi


iii

MỤC LỤC

MỞ ĐẦU ...........................................................................................................1
1. Nhu cầu bảo mật thông tin .............................................................................1
2. Lý do lựa chọn đề tài......................................................................................2
3. Mục tiêu nghiên cứu.......................................................................................2
4. Đối tượng và phạm vi nghiên cứu..................................................................3
5. Phương pháp nghiên cứu................................................................................3
6. Cấu trúc của luận văn.....................................................................................3
CHƯƠNG 1: TỔNG QUAN VỀ GIẤU TIN .................................................5
1.1. Tổng quan về giấu tin..................................................................................5
1.1.1 Vài nét về lịch sử giấu tin ....................................................................5
1.1.2. Khái niệm cơ bản về giấu tin ..............................................................6
1.1.3. Phân loại kỹ thuật giấu tin cơ bản.......................................................8
1.1.4. Mô hình kỹ thuật giấu tin....................................................................9
1.1.5. Môi trường giấu tin. ..........................................................................13
1.1.6. Khả năng ứng dụng của giấu tin .......................................................14
1.1.7. Tổng kết chương 1 ............................................................................16
CHƯƠNG 2. CÁC KỸ THUẬT GIẤU TIN TRONG VĂN BẢN.............17
2.1 Các loại bảng mã tiếng Việt .......................................................................17
2.1.1. Bộ gõ Unicode ..................................................................................17
2.1.2. Bộ gõ VISCII ....................................................................................17

2.1.3. Bộ gõ TCVN3 ...................................................................................18
2.1.4. Bộ gõ VNI.........................................................................................18
2.2 Các loại văn bản .........................................................................................18
2.2.1. Bảng mã ASCII.................................................................................18
2.2.2. Siêu văn bản HTML..........................................................................20


iv

2.2.3 Văn bản theo chuẩn pdf .....................................................................21
2.2.4 Văn bản theo chuẩn Microsoft Word (.doc hoăc .docx)....................22
2.3. Các tiệm cận của giấu tin trong văn bản. ..................................................22
2.3.1. Watermarking trực tiếp trên văn bản ................................................22
2.2.2.Watermarking trên văn bản đã định dạng..........................................26
2.2.3.Watermarking trên tập tin hình ảnh quét từ văn bản .........................27
2.4. Giấu tin trong tệp MS Word .....................................................................28
2.4.1. Lựa chọn thuộc tính giấu tin trong tệp MS Word.............................28
2.4.2 Mô tả thuật toán .................................................................................32
2.4.3 Bảo mật ..............................................................................................34
2.5. Tổng kết chương 2 ....................................................................................36
CHƯƠNG 3. XÂY DỰNG CHƯƠNG TRÌNH GIẤU TIN TRONG
TÀI LIỆU............................................................................................. 37
3.1. Mô tả bài toán giấu tin trong tệp văn bản MS Word ................................37
3.2. Lựa chọn ngôn ngữ và cài đặt ..................................................................37
3.3 Giao diện chương trình ..............................................................................37
3.3.1 Mẫu thiết kế .......................................................................................37
3.3.2. Quy trình công thức xử lý .................................................................38
3.4. Demo chương trình ...................................................................................38
3.4.1. Thông tin giấu ...................................................................................38
3.4.2. Giấu tin..............................................................................................39

3.4.3. Giải mã tin đã giấu............................................................................39
3.3.4. Trích xuất tin.....................................................................................40
3.5. Chạy thực nghiệm .....................................................................................42
3.6. Đánh giá kết quả đạt được.........................................................................48
KẾT LUẬN VÀ KHUYẾN NGHỊ................................................................49
TÀI LIỆU THAM KHẢO .............................................................................50


v

DANH MỤC HÌNH VẼ

Hình 1.1. Lược đồ chung cho giấu tin ............................................................. 6
Hình 1.2. Kỹ thuật giấu tin................................................................................ 7
Hình 1.3. Một cách phân loại các kỹ thuật giấu tin .......................................... 8
Hình 1.4. Lược đồ chung cho quá trình giấu tin. ............................................ 12
Hình 1.5. Sơ đồ quá trình giải mã ................................................................... 12
Hình 2.1. mô tả nhúng thông tin bản quyền vào các khoảng trống sau mỗi dòng. ... 24
Hình 2.1.a Đoạn văn bản trước khi nhúng. .................................................... 24
Hình 2.1.b. Đoạn văn bản sau khi nhúng........................................................ 24
Hình 2.2. Đoạn văn bản chứa dữ liệu nhúng sử dụng các khoảng trống sau
mỗi từ............................................................................................. 25
Hình 2.3. Ví dụ nhúng bản quyền bằng phương pháp cú pháp ...................... 25
Hình 2.4. Ví dụ về các cặp từ đồng nghĩa....................................................... 26
Hình 2.5. Ví dụ về dịch chuyển dòng ............................................................. 26
Hình 2.6. Ví dụ dịch chuyển từ ....................................................................... 27
Hình 2.7. Ví dụ về dịch chuyển ký tự ............................................................. 27
Hình 2.8. Ví dụ thay đổi đặc trưng.................................................................. 27
Hình 2.9. Ví dụ thay đổi màu sắc các ký tự .................................................... 28
Hình 2.10. Ví dụ thay đổi màu sắc các ký tự .................................................. 29

Hình 2.11. Ví dụ thay đổi khoảng trống các ký tự.......................................... 30
Hình 3.1. Giao diện chương trình ................................................................... 37
Hình 3.2. Thông tin giấu ................................................................................. 38
Hình 3.3. Giấu tin............................................................................................ 39
Hình 3.4. Nhập mật khẩu giấu tin ................................................................... 39
HÌNH 3.5. GIảI MÃ TIN ĐÃ GIấU 40


1

MỞ ĐẦU

1. Nhu cầu bảo mật thông tin
Cuộc cách mạng thông tin dữ liệu số đã đem lại những thay đổi sâu sắc
trong xã hội và trong cuộc sống. Những thuận lợi thông tin dữ liệu số mang
lại cũng đề ra những thách thức và cơ hội mới cho quá trình đổi mới. Sự ra
đời những phần mềm có tính năng mạnh, các thiết bị mới như máy ảnh kỹ
thuật số, máy quét chấtlượng cao, máy in, máy ghi âm kỹ thuật số, … đã với tới
thế giới tiêu dùng rộng lớn để sáng tạo, xử lý và thưởng thức các dữ liệu số.
Cùng với sự bùng nổ của Internet - phương tiện multimedia, các dữ liệu
số được lan truyền và sao chép rất nhanh chóng dễ dàng,những vấn nạn như
ăn cắp bản quyền, xuyên tạc thông tin, truy nhập thông tin trái phép... Vậy,
vấn đề bảo mật thông tin số ngày càng trở nên cấp bách, đòi hỏi phải không
ngừng tìm kiếm các giải pháp mới, hữu hiệu cho an toàn và bảo mật thông tin.
Ngày nay, cùng với sự phát triển mạnh mẽ của ngành khoa khọc công nghệ
thông tin, internet đã trở thành một phương tiện, một nhu cầu không thể thiếu
đối với mọi người, nhu cầu trao đổi thông tin qua mạng ngày càng lớn vì vậy
việc đảm bảo an toàn và bảo mật thông tin cho dữ liệu truyền trên mạng là rất
quan trọng. Nhiều kỹ thuật mã hóa thông tin ra đời nhằm quyết vấn bảo mật
dữ liệu. Tuy nhiên một văn bản được mã hóa sẽ dễ dàng gây sự chú ý, các tin

tặc sẽ tìm mọi các để giải mã, đánh cắp thông tin [2].
Một công nghệ mới phần nào giải quyết được những khó khăn trên là
kỹ thuật giấu thông tin trong các nguồn đa phương tiện như: Âm thanh, hình
ảnh, văn bản…. Xét theo khía cạnh mục đích và cách thực hiện thì giấu tin
cũng là một dạng mật mã nhằm đảm bảo tính an toàn của thông tin, nhưng
phương pháp này ưu điểm ở chỗ là giảm được khả năng phát hiện ra sự tồn tại
của các tin cần giấu trong các dữ liệu được truyền đi trên mạng [2][3]. Ngoài


2

các nhà khoa học nước ngoài quan tâm đến lĩnh vực nghiên cứu này [3], các
nhà khoa học trong nước cũng đã có nhiều công bố về các lĩnh vực liên quan.
2. Lý do lựa chọn đề tài
Từ trước đến nay, nhiều phương pháp bảo vệ thông tin đã được đưa ra,
trong đó giải pháp dùng mật mã được ứng dụng rộng rãi nhất. Thông tin ban
đầu được mã hoá để lưu trữ hoặc truyền trên mạng, sau đó bên nhận sẽ được
giải mã nhờ khoá của hệ mã để có thông tin rõ. Kỹ thuật cổ điển này đã và
đang được sử dụng rộng rãi và có nhiều ứng dụng trong thực tế. Cho đến nay
đã có rất nhiều hệ mã đối xứng, bất đối xứng…, phức tạp được sử dụng như
DES, RSA, NAPSACK..., rất hiệu quả và phổ biến.
Một phương pháp mới khác đã và đang được nghiên cứu và ứng dụng
mạnh mẽ ở nhiều nước trên thế giới, đó là phương pháp giấu tin (DataHiding)
được quan tâm phát triển trong nhiều năm nay. Giấu tin là một công nghệ mới
rất phức tạp, đang được tập trung nghiên cứu ở nhiều nước trên thế giới như
Đức, Mỹ, Italia, Canada, Nhật Bản... Giấu tin là nhúng thông tin vào trong
một tệp dữ liệu khác. Tệp dữ liệu khác có thể là ảnh, âm thanh, video và văn
bản (dữ liệu đa phương tiện). Đã có nhiều phương pháp kèm theo các thuật
toán hiệu quả đã được công bố trên thế giới về chủ đề này. Tuy nhiên, những
kết quả thực nghiệm cho thấy cần phải có thêm thời gian để nghiên cứu thẩm

định, tuy nhiên các nhà khoa học khẳng định rằng đây là một công nghệ mới
đầy hứa hẹn cho vấn đề an toàn và bảo mật thông tin.
Với mục đích tìm hiểu học hỏi về cácmô hình, kỹ thuật giấu thông tin
nhằm bảo vệ thông tin quan trọng trong các dữ liệu đa phương tiện,trong đó
tập trung vào dữ liệu văn bản, học viên đã chọn thực hiện đề tài luận văn: “Kỹ
thuật giấu tin trong tệp văn bản và ứng dụng”.
3. Mục tiêu nghiên cứu


3

Trong luận văn, ngoài việc nghiên cứu tổng quan kỹ thuật giấu tin nói
chung, sẽ trung sâu hơn vào giấu tin trong tệp văn bản. Sau đó, học viên sẽ
thực nghiệm với tệp văn bản MS Word vì tệp văn bản MS Word là một trong
những khuôn dạng tệp văn bản được sử dụng nhiều nhất hiện nay.
4. Đối tượng và phạm vi nghiên cứu
Trong khuôn khổ của luận văn, tác giả chỉ tập trung nghiên cứu và tìm
hiểu tổng quan về các phương pháp các kỹ thuật giấu tin trong tệp văn bản.
Nghiên cứu khả năng ứng dụng trong một mô hình thử nghiệm cụ thể là giấu
tin trong tệp văn bản MS Word .
5. Phương pháp nghiên cứu
Thực hiện nghiên cứu lý thuyết thông qua tổng hợp các bài báo khoa
học đã được công bố trong và ngoài nước và một số luận văn liên quan đến
chủ đề này đã được thực hiện kết hợp với thực nghiệm thông qua chương
trình thử nghiệm giấu tin trong tệp Word.

6. Cấu trúc của luận văn
Ngoài phần mở đầu trình bày về mục tiêu luận văn, bài toán cần giải
quyết, phương pháp nghiên cứu … và phần kết luận trình bày tóm tắt các kết
quả đạt được của luận văn và các nhiệm vụ cần giải quyết tiếp theo, luận văn

được trình bày thành ba chương như sau:
Chương 1: Tổng quan về giấu tin trong dữ liệu đa phương tiện
1.1. Lịch sử giấu tin
1.2. Khái niệm giấu tin
1.3. Mô hình giấu tin cơ bản
1.4. Một số kỹ thuật giấu tin
1.5. Khả năng ứng dụng giấu tin
Chương 2: Các kỹ thuật giấu tin trong văn bản


4

2.1. Các loại bảng gõ tiếng Việt
2.2. Các loại văn bản
2.3. Các tiệm cận của giấu tin trong văn bản
2.4. Giấu tin trong tệp MS Word
Chương 3. Xây dựng chương trình thử nghiệm
3.1.

Mô tả bài toán giấu tin trong tệp văn bản MS Word

3.2.

Lựa chọn dữ liệu thử nghiệm, công cụ phát triển phần mềm thử

nghiệm
3.3.

Xây dựng phần mềm thử nghiệm


3.4.

Đánh giá kết quả đạt được


5

CHƯƠNG 1: TỔNG QUAN VỀ GIẤU TIN

Chương này trình bày một số khái niệm về giấu tin, mô hình tổng quát
giấu tin và tách tin giấu trong dữ liệu đa phương tiện. Sau đó trình bày về
cách phân loại giấu tin và khả năng ứng dụng của giấu tin trong thực tế.
1.1. Tổng quan về giấu tin
1.1.1 Vài nét về lịch sử giấu tin
Từ Steganography bắt nguồn từ Hi Lạp và được sử dụng cho tới ngày
nay, nó có nghĩa là tài liệu được phủ (covered writing). Có nhiều câu chuyện
lịch sử xoay quanh kỹ thuật giấu tin được lưu truyền. Có lẽ những ghi chép
sớm nhất về kỹ thuật giấu tin thuộc về sử gia Hy Lạp Herodotus. Khi bạo
chúa Hi Lạp Histiaeus bị vua Darius bắt giữ ở Susa vào thế kỷ thứ năm trước
Công Nguyên, ông ta đã gửi một thông báo bí mật cho con rể của mình là
Aristagoras ở Miletus. Histiaeus đã cạo trọc đầu của một nô lệ tin cậy và xăm
một thông báo trên da đầu của người nô lệ ấy. Khi tóc của người nô lệ đủ dài
người nô lệ được gửi tới Miletus.
Một câu chuyện khác về thời Hi Lạp cổ đại cũng do Herodotus ghi lại.
Demeratus, một người Hi Lạp, cần thông báo cho Sparta rằng Xerxes định
xâm chiếm Hi Lạp. Để tránh bị phát hiện, anh ta đã bóc lớp sáp ra khỏi các
viên thuốc và khắc thông báo lên bề mặt các viên thuốc này, sau đó bọc lại
viên thuốc bằng một lớp sáp mới.
Ý tưởng về che giấu thông tin đã có từ hàng nghàn năm về trước nhưng
kỹ thuật này được dùng chủ yếu trong quân đội và trong các cơ quan tình báo.

Ngày nay, kỹ thuật giấu tin được nghiên cứu để phục vụ các mục đích như
bảo vệ bản quyền, hay giấu tin mật về quân sự và kinh tế.


6

1.1.2. Khái niệm cơ bản về giấu tin
1.1.2.1. Định nghĩa kỹ thuật giấu tin
Giấu thông tin là kỹ thuật nhúng (embedding) [1][9]một lượng thông tin
số nào đó vào trong một đối tượng dữ liệu số khác. Một trong những yêu cầu
cơ bản của giấu tin là đảm bảo tính chất ẩn của thông tin được giấu đồng thời
không làm ảnh hưởng đến chất lượng của dữ liệu gốc.
Sự khác biệt chủ yếu giữa mã hóa thông tin và giấu thông tin là mã hóa
làm cho các thông tin hiện rõ là nó được mã hóa hay không, còn giấu thông
tin thì người ta khó biết được là có thông tin giấu bên trong.

Hình 1.1. Lược đồ chung cho giấu tin
Hình 1.1[4]: Biểu diễn quá trình giấu tin cơ bản. Phương tiện chứa bao
gồm các đối tượng được dùng làm môi trường để giấu tin như: text, audio,
video, ảnh, … thông tin giấu là mục đích của người sử dụng. Thông tin giấu
là một lượng thông tin mang một ý nghĩa nào đó như: ảnh, logo, đoạn văn
bản, … tùy thuộc vào mục đích của người sử dụng. Thông tin sẽ được giấu
vào trong phương tiện chứa thông qua chương trình. Sau khi giấu tin ta thu
được phương tiện chứa bản tin đã giấu và phân phối trên mạng. Sau khi nhận
được đối tượng phương tiện có giấu tin, quá trình giải mã được thực hiện


7

thông qua chương trình giải mã tương ứng với chương trình mã hóa cùng với

khóa của quá trình mã hóa. Kết quả thu được gồm phương tiện chứa gốc và
thông tin đã giấu. Bước tiếp theo thông tin giấu sẽ được xử lý kiểm định so
sánh với thông tin giấu ban đầu.
1.1.2.2. Mục đích của giấu tin.
Có hai mục đích của giấu tin:
- Trao đổi thông tin mật.
- Bảo đảm an toàn (bảo vệ bản quyền) cho chính các đối tượng chứa dữ
liệu giấu trong đó.
Có thể thấy hai mục đích này hoàn toàn trái ngược nhau và dần phát triển
thành hai lĩnh vực với những yêu cầu và tính chất khác nhau.

Hình 1.2 - Kỹ thuật giấu tin
Kỹ thuật giấu thông tin bí mật (Steganography): với mục đích đảm bảo
an toàn và bảo mật thông tin tập trung vào các kỹ thuật giấu tin để có thể giấu
được nhiều thông tin nhất. Thông tin mật được giấu một cách vô hình trong
một đối tượng khác sao cho người khác khó phát hiện được.
Kỹ thuật giấu thông tin theo kiểu đánh dấu (Watermarking): để bảo vệ
bản quyền của đối tượng chứa thông tin, thường tập trung một số yêu cầu như
đảm bảo tính bền vững. Đây là ứng dụng cơ bản nhất của kỹ thuật thủy vân số.


8

1.1.3. Phân loại kỹ thuật giấu tin cơ bản.
Do kỹ thuật giấu thông tin số mới được hình thành trong thời gian gần
đây nên xu hướng phát triển chưa ổn định. Nhiều phương pháp mới, theo
nhiều khía cạnh khác nhau đang và chắc chắn sẽ được đề xuất, bởi vậy một
định nghĩa chính xác, một sự đánh giá phân loại rõ ràng chưa thể có được. Sơ
đồ phân loại trên hình 1.3 được Fabien A. P. Petitcolas đề xuất năm 1999.


Hình 1.3: Một cách phân loại các kỹ thuật giấu tin
Sơ đồ phân loại này như một bức tranh khái quát về ứng dụng và kỹ
thuật giấu thông tin. Dựa trên việc thống kê sắp xếp các công trình đã công bố
trên một số tạp chí, cùng với thông tin về tên và tóm tắt nội dung của nhiều
công trình đã công bố trên Internet, có thể chia lĩnh vực giấu tin ra làm hai
hướng lớn, đó là watermarking và steganography.
1.1.3.1. Kỹ thuật giấu tin mật (Steganography):
Với mục đích tập trung vào các kỹ thuật giấu tin sao cho người khác khó
phát hiện được một đối tượng có giấu tin bên trong hay không. Hơn nữa, nếu
phát hiện có tin giấu thì việc giải tin cũng khó thực hiện được. Đồng thời, các
kỹ thuật giấu tin mật còn quan tâm lượng tin có thể được giấu, lượng thông
tin dấu được càng nhiều càng tốt. Tuy nhiên lượng thông tin giấu càng lớn thì
tính ẩn của thông tin giấu càng thấp.


9

1.1.3.2. Kỹ thuật thủy vân số (Watermarking):
Dựa theo ảnh hưởng các tác động từ bên ngoài có thể chia watermark
thành hai loại, một loại bền vững với các tác động sao chép trái phép, loại thứ
hai lại cần tính chất hoàn toàn đối lập: dễ bị phá huỷ trước các tác động nói
trên. Cũng có thể chia watermark theo đặc tính, một loại cần được che giấu để
chỉ có một số người tiếp xúc với nó có thể thấy được thông tin, loại thứ hai
đối lập, cần được mọi người nhìn thấy.
So sánh giữa Steganography và Watermarking
Steganography
Mục đích

Watermaking


- Che giấu sự hiện hữu của - Thêm vào thông tin bản
thông tin
quyền
- Thông tin cần giấu độc lập - Thông tin cần giấu gắn với
với vỏ bọc
vỏ bọc
- Ứng dụng truyền dữ liệu
mật

Yêu cầu

- Ứng dụng cho sở hữu bản
quyền

- Không phát hiện được thông
tin giấu
- Tiêu chuẩn bền vững
- Dung lượng tin được giấu

Tấn công - Phát hiện ra thông điệp
thành công bí mật

- Watermaking bị phá vỡ

1.1.4. Mô hình kỹ thuật giấu tin
1.1.4.1. Các thành phần trong kỹ thuật giấu tin
- Các phương tiện chứa tin:
Để có thể che giấu thông tin an toàn và hiệu quả, ngoài việc phải có
thuật toán giấu tin tốt, giao thức liên lạc đảm bảo, phương tiện chứa phù hợp
cũng là yếu tố quan trọng.



10

Phương tiện chứa trước khi giấu tin có thể là bất kỳ dạng dữ liệu nào mà
máy tính có thể đọc được như file hình ảnh, âm thanh số, bản tin dạng text, …
Nhưng phương tiện chứa phải có đủ lượng thông tin dư thừa tối thiểu, để có
thể giấu thông tin, vì dữ liệu khi biến đổi để giấu tin, có thể bị phát hiện.
Có hai yêu cầu đặt ra với phương tiện chứa:
- Phương tiện chứa tin phải được giữ bí mật.
- Không sử dụng phương tiện chứa tin đến lần thứ hai.
Yêu cầu thứ nhất để tránh kẻ tấn công có phương tiện chứa đó, thì việc
giấu tin trở lên vô nghĩa. Yêu cầu thứ hai để tránh kể tấn công có thể so sánh
hai phiên bản phương tiện chứa nó, để phát hiện những chỗ khác nhau, dẫn
đến nghi ngờ về một liên lạc bí mật. Do đó phải hủy toàn bộ các phương tiện
chứa đã được dùng tại phía người gửi, và phương tiện chứa sau khi đã tách
lấy thông tin ở người nhận.
Để tránh việc nghi ngờ của kẻ tấn công, phương tiện chứa trước khi giấu
tin và sau khi giấu tin, phải đảm bảo giống nhau về mặt tri giác, sau đó mới
đến các yêu cầu về thuộc tính thống kê, về chất lượng, …
Có thể sử dụng nhiều loại phương tiện chứa khác nhau, nhưng vì lý do
phổ biến và dễ thực hiện, ảnh luôn được coi là phương tiện chứa chủ yếu.
- Thông tin cần che giấu
Thông điệp mà hai đối tác cần trao đổi, có thể là bất cứ loại dữ liệu nào.
Với kỹ thuật hiện nay, có thể giấu nhiều loại dữ liệu trong phương tiện chứa.
Do yêu cầu an toàn, kích thước của phương tiện chứa phải lớn hơn rất nhiều
kích thước của thông điệp, nên thông điệp dạng text (có kích thước nhỏ)
thường được dùng nhiều nhất. Tuy nhiên người ta có thể giấu cả ảnh, bản đồ
với yêu cầu ở mức độ cần thiết, phương tiện chứa là ảnh hay bản đồ khác.



11

- Khóa giấu tin
Khóa giấu tin là thành phần quan trọng quyết định độ bảo mật của hệ
thống giấu tin. Khóa giấu tin có thể phân loại theo hình thức phân phối và có
hai hình thức:
Phân phối khóa: Một trung tâm sản xuất, phân phối khóa tới các đối tác
liên lạc theo một kênh an toàn. Cách làm này khá phức tạp vì đòi hỏi một
kênh an toàn để chuyển khóa, khi các đối tác ở xa thì việc chuyển khóa là một
vấn đề đáng quan tâm.
Thỏa thuận khóa: Hai đối tác có thể trực tiếp thỏa thuận khóa với nhau
hay thông qua một trung tâm. Khóa được quy ước lấy từ cơ sở dữ liệu nào đó
mà hai phía cùng sở hữu. Cách làm này tuy có một số yếu tố bất lợi, nhưng
thực hiện đơn giản hơn so với trao đổi khóa.
Trong giấu tin bí mật có thể dùng cả khóa bí mật và khóa công khai.Để đảm
bảo bí mật liên lạc, khóa giấu tin cần đáp ứng được hai yêu cầu:
 Một là khóa giấu tin phải đảm bảo “tính tri giác”, tức là khóa phải
góp phần thông tin giấu, để tránh bị đối phương phát hiện.
 Hai là khóa đồng thời phải đủ mạnh, để nếu đối phương có nghi
ngờ và kiểm tra phương tiện chứa, cũng “khó” thể lấy được thông
tin giấu trong đó.
Giấu thông tin vào phương tiện chứa (hình 1.4) và tách lấy thông tin
(hình 1.5) là hai quá trình trái ngược nhau.
1.1.4.2. Quá trình giấu tin:
Thuật toán giấu tin được dùng để giấu thông tin (là một lượng thông tin
mang một ý nghĩa nào đó tùy thuộc vào mục đích của người sử dụng) vào một
phương tiện chứa (bao gồm các đối tượng được dùng làm môi trường để giấu
tin như văn bản, audio, video, ảnh…) Thông tin sẽ được giấu vào trong
phương tiện chứa nhờ một bộ nhúng. Bộ nhúng là những chương trình theo

những thuật toán để giấu tin và được thực hiện với một khoá bí mật được


12

dùng chung bởi người mã và người giải mã, việc giải mã thông tin chỉ có thể
thực hiện được khi có khoá bí mật giống như các hệ mã mật cổ điển. Sau khi
giấu tin ta thu được phương tiện chứa đã giấu và được phân phối trên các môi
trường khác nhau.

Hình 1.4: Lược đồ chung cho quá trình giấu tin.
1.1.4.3. Quá trình tách tin:
Bộ giải mã thực hiện quá trình giải mã trên phương tiện chứa đã chứa dữ
liệu và trả lại thông điệp ẩn trong đó. Quá trình giải mã được thực hiện thông
qua một bộ giải mã tương ứng với bộ nhúng thông tin cùng với khóa của quá
trình nhúng. Kết quả thu được gồm phương tiện chứa gốc và thông tin đã
giấu. Tùy trường hợp, thông tin nhận được có thể cần xử lí, kiểm định so
sánh với thông tin giấu ban đầu.

Hình 1.5. Sơ đồ quá trình giải mã


13

1.1.5. Môi trường giấu tin.
1.1.5.1 Giấu tin trong ảnh số (Data Hiding in Image)
Giấu thông tin trong ảnh hiện nay chiếm tỉ lệ lớn nhất trong các chương
trình ứng dụng, các phần mềm, hệ thống giấu tin trong đa phương tiện bởi
lượng thông tin được trao đổi bằng ảnh là rất lớn, hơn nữa giấu thông tin
trong ảnh cũng đóng vai trò hết sức quan trọng đối với hầu hết các ứng dụng

bảo vệ an toàn thông tin như: nhận thực thông tin, xác định xuyên tạc thông
tin, bảo vệ bản quyền tác giả, điều khiển truy cập, giấu thông tin mật... Thông
tin sẽ được giấu cùng với dữ liệu ảnh nhưng chất lượng ảnh ít thay đổi và
chẳng ai biết được đằng sau ảnh đó mang những thông tin có ý nghĩa. Ngày
nay, khi ảnh số đã được sử dụng khá phổ biến, thì giấu thông tin trong ảnh đã
đem lại nhiều ứng dụng quan trọng trên các lĩnh vực của đời sống xã hội. Một
trong số ứng dụng về nhận diện thẻ chứng minh, thẻ căn cước, hộ chiếu..., người
ta có thể giấu thông tin trên các ảnh thẻ để xác định thông tin thực.
Một đặc điểm của giấu thông tin trong ảnh đó là thông tin được giấu một
cách “vô hình”. Nó như là cách thức truyền thông tin mật cho nhau mà người
khác không thể biết được, bởi sau khi giấu thông tin thì chất lượng ảnh gần
như không thay đổi, đặc biệt đối với ảnh màu hay ảnh xám.
1.1.5.2. Giấu tin trong audio[3][5]
Kỹ thuật giấu thông tin trong audio phụ thuộc vào hệ thống thính giác
của con người (HAS - Human Auditory System). HAS cảm nhận được các tín
hiệu ở dải tần rộng và công suất thay đổi lớn, nhưng lại kém trong việc phát
hiện sự khác biệt nhỏ giữa các dải tần và công suất. Điều này có nghĩa là, các
âm thanh to, cao tần có thể che giấu được các âm thanh nhỏ thấp một cách dễ
dàng. Kênh truyền tin cũng là một vấn đề. Kênh truyền hay băng thông chậm
sẽ ảnh hưởng đến chất lượng thông tin sau khi giấu. Giấu thông tin trong
audio yêu cầu rất cao về tính đồng bộ và tính an toàn của thông tin.


14

1.1.5.3. Giấu tin trong video
Giấu tin trong video cũng được quan tâm và được phát triển mạnh mẽ
cho nhiều ứng dụng như điều khiển truy cập thông tin, nhận thực thông tin và
bảo vệ bản quyền tác giả. Ta có thể lấy một ví dụ là các hệ thống chương
trình trả tiền xem theo video clip (pay per view application). Một phương

pháp giấu tin trong video được đưa ra bởi Cox [7] là phương pháp phân bố
đều. Ý tưởng cơ bản của phương pháp là phân phối thông tin giấu dàn trải
theo tần số của dữ liệu chứa gốc. Các thuật toán trước đây thường cho phép
giấu ảnh vào trong video, nhưng gần đây kỹ thuật cho phép giấu cả âm thanh
và hình ảnh vào video..
Kỹ thuật giấu thông tin bằng video áp dụng cả đặc điểm thị giác và thính
giác của con người.
1.1.5.4. Giấu tin trong văn bản
Trong trao đổi thông tin qua hệ thống máy tính, văn bản chiếm một tỷ lệ
rất lớn so với các loại phương tiện chứa khác. Tuy vậy, giấu tin trong văn bản
lại chưa được quan tâm nghiên cứu nhiều. Các nghiên cứu về giấu tin trong
văn bản được chia theo hai hướng, thứ nhất văn bản được sử dụng để giấu tin
là những văn bản được chụp lại và lưu trên máy như một bức ảnh nhị phân.
Theo hướng này, các kỹ thuật giấu tin được thực hiện như kỹ thuật giấu tin
trong ảnh[6]. Hướng thứ hai, phương tiện chứa sử dụng cho quá trình giấu tin
được lưu dưới dạng văn bản. Theo hướng này, các kỹ thuật giấu tin cũng tiến
hành như giấu tin trong ảnh bằng cách thay đổi một số ký tự tại một số vị trí
trên văn bản mà không làm ảnh hưởng nhiều đến nội dung văn bản gốc.
Luận văn này tập trung nghiên cứu khảo sát một số kỹ thuật giấu tin
trong văn bản, cụ thể là văn bản tạo ra bới MS Word.
1.1.6. Khả năng ứng dụng của giấu tin
• Bảo vệ bản quyền tác giả (copyright protection)[7]: Đây là ứng dụng
cơ bản nhất của kỹ thuật thuỷ vân số. Giả sử có một thành phẩm dữ liệu đa


15

phương tiện như ảnh, âm thanh, video cần được lưu thông trên mạng. Để bảo
vệ các sản phẩm chống lại hành vi lấy cắp hoặc làm nhái cần phải có một kỹ
thuật để đảo bảo bản quyền cho tác giả của sản phẩm này. Việc chứng thực

bản quyền cho tác giả chính là việc nhúng thuỷ vân ( công việc này cần phải
đảm bảo không để lại một ảnh hưởng lớn nào đến việc cảm nhận sản phẩm).
Yêu cầu kỹ thuật đối với sự chứng nhận bản quyền là phải tồn tại bền vững
cùng với sản phẩm, muốn bỏ thuỷ vân này mà không được phép của người
chủ sở hữu thì chỉ còn cách là phá huỷ sản phẩm.
• Nhận thực thông tin hay phát hiện xuyên tạc thông tin (authentication
and tamperdetection): Một tập thông tin sẽ được giấu trong phương tiện chứa,
sau đó được sử dụng để nhận biết xem dữ liệu trên phương tiện gốc có bị thay
đổi hay không. Các thuỷ vân nên được ẩn để tránh sự tò mò của đối phương,
hơn nữa việc làm giả các thuỷ vân hợp lệ hay xuyên tạc thông tin nguồn cũng
cần xem xét. Trong các ứng dụng thực tế, người ta mong muốn tìm được vị trí
bị xuyên tạc cũng như phân biệt được các thay đổi (ví dụ như phân biệt xem
một đối tượng đa phương tiện chứa thông tin giấu đã bị thay đổi, xuyên tạc
nội dung hay là chỉ bị nén mất dữ liệu). Yêu cầu chung đối với ứng dụng này
là khả năng giấu thông tin cao và thuỷ vân không cần bền vững.
• Dấu vân tay hay dán nhãn (fingerprinting and labeling): Thuỷ vân
trong những ứng dụng này được sử dụng để nhận diện người gửi hay người
nhận một thông tin nào đó. Ví dụ như các vân khác nhau sẽ được nhúng vào
các bản copy khác nhau của thông tin gốc trước khi chuyển cho nhiều người.
Với những ứng dụng này thì yêu cầu là đảm bảo độ an toàn cao cho các thuỷ
vân, tránh khả năng xoá dấu vết trong khi phân phối.
• Điều khiển truy cập (copy control): Các thiết bị phát hiện thuỷ vân (ở
đây sử dụng phương pháp phát hiện thuỷ vân đã giấu mà không cần thông tin
gốc) được gắn sẵn vào trong các hệ thống đọc ghi, tùy thuộc vào việc có thủy


16

vân hay không để điều khiển (cho phép/cấm) truy cập.Ví dụ như hệ thống
quản lí sao chép DVD đã được ứng dụng ở Nhật.

• Truyền thông tin mật (steganography): Các thông tin giấu được trong
những trường hợp này càng nhiều càng tốt. Việc giải mã để nhận được thông
tin cũng không cần phương tiện chứa gốc.
1.1.7. Tổng kết chương 1
Chương 1 trình bày tổng quan về kỹ thuật giấu tin, các khái niệm cơ bản
về giấu tin, tìm hiểu kiến trúc mô hình giấu tin, các phương tiện để giấu tin và
các ứng dụng của việc giấu tin.


17

CHƯƠNG 2. CÁC KỸ THUẬT GIẤU TIN TRONG VĂN BẢN
Chương này trước hết trình bày một số khuôn mẫu tệp văn bản được lưu
trữ trong máy tính. Sau đó trình bày một số phương pháp những thông tin
trong văn bản MS Word.
2.1 Các loại bảng mã tiếng Việt
Bảng mã tiếng Việt là một loại phần mềm hỗ trợ soạn thảo văn bản bằng
tiếng Việt trên máy tính, thường cần phải có phông ký tự chữ Quốc ngữ đã
được cài đặt trong máy tính. Các bộ gõ tiếng Việt khác nhau sẽ hỗ trợ một hay
nhiều bảng mã và kiểu gõ. Mỗi bảng mã quy định việc thể hiện font chữ khác
nhau và mỗi kiểu gõ quy định việc viết dấu bằng các tổ hợp phím khác nhau.
2.1.1. Bộ gõ Unicode
Là bộ mã chuẩn quốc tế được thiết kế để dùng làm bộ mã duy nhất cho
tất cả các ngôn ngữ khác nhau trên thế giới, kể cả các ngôn ngữ sử dụng ký tự
tượng hình phức tạp như tiếng Trung, tiếng Thái... Vì điểm ưu việt đó,
Unicode đã và đang từng bước thay thế các bộ mã truyền thống, kể cả bộ mã
tiêu chuẩn ISO 8859 và hiện đang được hỗ trợ trên rất nhiều phần mềm cũng
như các trình ứng dụng.
Vì những khó khăn kỹ thuật trong những năm trước đây, đã xuất hiện
rất nhiều bảng mã tiếng Việt khác nhau và không tương thích với nhau. Chỉ

sau khi Unicode được sử dụng rộng rãi thì chuẩn tiếng Việt mới được quy về
một mối.
2.1.2. Bộ gõ VISCII:
(Viết tắt của Vietnamese Standard Code for Information Interchange
trong tiếng Anh) là một bảng mã do nhóm Viet-Std đề xướng vào năm 1992
dùng để gõ tiếng Việt. Bảng mã này thay thế các ký tự ít được dùng, hay các
ký tự được dùng trong các ngôn ngữ khác, bằng những ký tự chữ Quốc ngữ


18

có dấu. VISCII trước đây được dùng trong nhiều hệ điều hành như MS-DOS,
Windows, Unix, Mac OS,...
2.1.3. Bộ gõ TCVN3
Bảng mã theo tiêu chuẩn (cũ) của Việt Nam. Các font chữ trong bảng
mã này có tên bắt đầu bằng .Vn và mỗi font có hai loại thường và hoa (font
chữ hoa kết thúc bằng H). Ví dụ: .VnTime, .VNSouthernH. Ngày nay TCVN
đã quy định sử dụng font Unicode trong soạn thảo văn bản.
2.1.4. Bộ gõ VNI
Bảng mã do công ty VNI (Vietnam-International) sở hữu bản quyền. Các
font chữ trong bảng mã VNI có tên bắt đầu bằng VNI-, ví dụ như VNI-Times.
Unicode, TCVN3, VNI là ba bảng mã thông dụng nhất, ngoài ra còn có
các bảng mã như BK HCM, Vietware, VIQR... Tổng cộng có khoảng 14 bảng
mã tiếng Việt khác nhau.
2.2 Các loại văn bản
2.2.1. Bảng mã ASCII
ASCII (American Standard Code for Information Interchange) là bộ mã
đầutiên lúc máy tính được phát minh. ASCII quy định mối tương quan giữa
các kiểu bít số với ký hiệu/ biểu tượng trong ngôn ngữ viết, vì vậy cho phép
các thiết bị số liên lạc với nhau và xử lý, lưu trữ, trao đổi thông tin hướng ký

tự.ASCII được công bố làm tiêu chuẩn lần đầu tiên vào năm 1963 bởi Hiệp
hội tiêu chuẩn Hoa Kỳ.
ASCII là mã 7 bit, tức là nó dùng 7bit biểu diễn 128 mã , phần lớn là
các ký số,ký tự tiếng Anh, những ký tự đặc biệt và thông dụng khác như các
dấu cộng, trừ, phần trăm … Mặc dù đơn vị dữ liệu là 8 bit nhưng chỉ có 7 bit
được dùng, bit thứ tám thường được dùng bit chẵn-lẻ để kiểm tra lỗi trên các
đường thông tin hoặc kiểm tra chức năng đặc hiệu theo thiết bị. Các máy tính
không dùng chẵn-lẻ thường thiết lập bit thứ tám là zero, nhưng một số thiết bị
như máy PRIME chạy PRIMOS thiết lập bit thứ tám là một.


×