Tải bản đầy đủ (.pdf) (35 trang)

Nghiên cứu và áp dụng watermarking bảo vệ bản quyền sách tiếng việt báo cáo tổng kết kết quả đề tài khoa học công nghệ cấp trường msđt t khmt 2010 23

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (895.5 KB, 35 trang )


Danh sách các cán bộ tham gia thực hiện đề tài
(Ghi rõ học hàm, học vị, đơn vị công tác gồm bộ môn, Khoa/Trung tâm)

STT

Tên cán bộ

1

PGS.TS. Đặng Trần Khánh

2

ThS. Nguyễn Văn Đồn

Cơ quan cơng tác
Bộ mơn HTTT, Khoa
KH&KT Máy tính, ĐHBKĐHQG Tp. HCM
Bộ mơn HTTT, Khoa
KH&KT Máy tính, ĐHBKĐHQG Tp. HCM

1


MỤC LỤC
DANH MỤC HÌNH ........................................................................................ 3
DANH MỤC BẢNG........................................................................................ 3
CHƯƠNG 1. GIỚI THIỆU ........................................................................... 4
CHƯƠNG 2. KỸ THUẬT WATERMARKING .......................................... 5
2.1.



Giới thiệu watermarking ...................................................................... 5

2.2.

Ứng dụng của watermarking ............................................................... 6

2.3.

Nguyên lý cơ bản của watermarking ................................................... 7

2.4.

Phương pháp đánh giá giải pháp watermarking ................................ 9

2.5.

Các hình thức tấn cơng vào watermarking ......................................... 9

CHƯƠNG 3. CÁC NGHIÊN CỨU LIÊN QUAN ...................................... 10
3.1.

Ngoài nước .......................................................................................... 10

3.1.1. Watermarking trực tiếp trên văn bản.................................................. 11
3.1.2. Watermarking trên văn bản đã định dạng .......................................... 13
3.1.3. Watermarking trên tập tin hình ảnh quét từ văn bản .......................... 14
3.2.

Trong nước .......................................................................................... 14


CHƯƠNG 4. GIẢI PHÁP ĐỀ XUẤT ......................................................... 15
4.1.

Đặc điểm tiếng Việt ............................................................................. 15

4.2.

Quy tắc nhúng thông tin ..................................................................... 16

4.3.

Quy tắc lấy lại thông tin ..................................................................... 19

CHƯƠNG 5. THỰC NGHIỆM ................................................................... 21
5.1.

Xây dựng phần ứng dụng nhúng thông tin ....................................... 21

5.1.1. Chuyển định dạng từ Microsoft Word sang PostScript ...................... 22
5.1.2. Tạo thông tin bản quyền .................................................................... 23
5.1.3. Nhúng thông tin vào tập tin PostScript .............................................. 23
5.1.4. Chuyển định dạng từ PostScript sang định dạng PDF ........................ 23
5.2.

Xây dựng ứng dụng rút trích thơng tin ............................................. 24

5.3.

Đánh giá .............................................................................................. 25


CHƯƠNG 6. KẾT LUẬN VÀ KIẾN NGHỊ ............................................... 27
TÀI LIỆU THAM KHẢO ............................................................................ 28
PHỤ LỤC

................................................................................................ 31
2


DANH MỤC HÌNH
Hình 2.1 - Phân loại kỹ thuật giấu tin ................................................................ 5
Hình 2.2 - Ngun lý nhúng thơng tin ............................................................... 8
Hình 2.3 - Ngun lý lấy lại thơng tin ............................................................... 8
Hình 2.4 - Các yêu cầu đối với watermarking ................................................... 9
Hình 3.1 - Ví dụ thay đổi khoảng trống để nhúng thơng tin ............................ 11
Hình 3.2 - Ví dụ thay đổi khoảng trống cuối hàng để nhúng thông tin ............ 12
Hình 3.3 - Ví dụ nhúng thơng tin bằng phương pháp cú pháp ......................... 12
Hình 3.4 - Ví dụ về một số cặp từ động nghĩa ................................................. 13
Hình 3.5 - Ví dụ dịch chuyển hàng để nhúng thơng tin ................................... 13
Hình 3.6 - Ví dụ dịch chuyển từ để nhúng thơng tin........................................ 13
Hình 3.7 - Ví dụ dịch chuyển ký tự để nhúng thơng tin ................................... 13
Hình 3.8 - Ví dụ thay đổi đặc trưng hiển thị của ký tự để nhúng thơng tin ...... 14
Hình 3.9 - Ví dụ thay đổi màu sắc các ký tự để nhúng thơng tin ..................... 14
Hình 4.1 - Các ký tự thuộc nhóm 1 ................................................................. 17
Hình 4.2 - Các ký tự thuộc nhóm 2 ................................................................. 17
Hình 4.3 - Các ký tự thuộc nhóm 3 ................................................................. 18
Hình 4.4 - Chọn tâm dịch chuyển.................................................................... 18
Hình 4.5 - Các vị trí dịch chuyển các ký tự một mức và hai mức. ................... 18
Hình 4.6 - Ví dụ tính d, h và d’, h’. ................................................................. 19
Hình 4.7 - Quy tắc xử lý phần ký tự dịch chuyển 1 mức ................................. 20

Hình 4.8 - Quy tắc xử lý phần ký tự dịch chuyển 2 mức ................................. 20
Hình 5.1 - Giao diện nhúng thơng tin .............................................................. 22
Hình 5.2 - Giải thuật lấy lại thông tin đã nhúng .............................................. 24
Hình 5.3 – Giao diện rút trích thơng tin .......................................................... 25
Hình 5.4 – Một đoạn văn bản mẫu .................................................................. 25
Hình 5.5 – Biểu đồ so sánh số lượng bit nhúng được trên các văn bản mẫu .... 26
Hình C.1 – Cơng cụ Doc to Image Converter.................................................. 31
Hình C.2 – Chọn định dạng cho công cụ Doc to Image Converter .................. 32
Hình C.3 – Giao diện nhúng thơng tin............................................................. 32
Hình C.4 – Giao diện chuyển định dạng tập tin ............................................... 33
Hình C.5 – Giao diện rút trích thơng tin .......................................................... 34

DANH MỤC BẢNG
Bảng 4.1 – Bảng chữ cái tiếng Việt ................................................................. 15
Bảng 5.1 - Số liệu số lượng bit có thể nhúng trên các văn bản mẫu ................. 26
3


Chương 1. GIỚI THIỆU
Sự phát triển mạnh của Internet đã tạo nên sự thay đổi lớn trong nhiều
lĩnh vực của đời sống, kinh tế-xã hội. Cùng với sự phát triển này, các công
nghệ mới lần lượt ra đời cho phép thực hiện các thao tác lưu trữ, sao phép và
phân phối các loại dữ liệu như: văn bản, âm thanh, hình ảnh, phim, bản đồ số…
một cách dễ dàng và nhanh chóng. Tuy nhiên, mơi trường Internet và các cơng
nghệ mới cũng tạo thuận lợi cho việc sử dụng trái phép và giả mạo đối với tất
cả các loại dữ liệu, đặc biệt là dữ liệu văn bản ở dạng sách.
Tại Việt Nam số lượng sánh được xuất bản mỗi năm là rất lớn. Theo Cục
Xuất bản (Bộ Thông tin và Truyền thơng), trong năm 2008, tồn ngành đã xuất
bản được trên 25.000 cuốn với gần 280 triệu bản sách. Các đầu sách xuất bản
đủ thể loại từ chính trị, pháp luật, tơn giáo, kinh tế, nghệ thuật, văn hóa... đến

sách giáo khoa. Với số lượng lớn như trên, các cơ quan chức năng (thanh tra
Bộ Thông tin và Truyền thông, thanh tra các sở Thông tin và Truyền thông)
thực hiện chức năng quản lý nhà nước để làm lành mạnh hóa mơi trường cạnh
tranh trong ngành xuất bản gặp rất nhiều khó khăn.
Hiện nay, ngành xuất bản nước ta đang đối mặt với nhiều vấn đề, trong
đó vấn đề nổi cộm nhất là vấn nạn vi phạm bản quyền. Với những tiến bộ
không ngừng của khoa học công nghệ, việc in sách lậu ngày càng trở nên dễ
dàng và nhanh chóng, đặc biệt có thể in giả cả tem chống sách giả. Trước vấn
nạn này, các nhà xuất bản trong nước cũng như các nhà xuất bản nước ngoài
xếp hàng kêu ca về chuyện bị vi phạm tác quyền [19]. Gần đây, ngày 9/7/2009
sáu nhà xuất bản ngoại văn tại Việt Nam đồng loạt đưa ra 393 tựa sách của
mình bị làm lậu và đồng thanh kêu cứu [19]. Hiệp hội các nhà xuất bản Quốc tế
tại Việt Nam cũng mới vừa phát hiện ra gần 400 tên sách của các nhà xuất bản
tên tuổi bị vi phạm bản quyền được công khai xuất bản và phát hành càng
khiến cho vấn đề này trở nên thêm nóng bỏng. Một số nhà xuất bản vì sốt ruột
trước tình trạng ấn phẩm của mình bị in lậu, nên đã tự đầu tư tìm hiểu và phát
giác nhiều vụ việc như: nhà xuất bản Trẻ, cơng ty Trí Việt, nhà xuất bản Ngoại
văn tại Việt Nam [7]. Vấn nạn sách lậu được xem là căn bệnh nan y của toàn xã
hội [18,20], trong khi các nhà xuất bản, thậm chí cơ quan chức năng, tỏ ra rất
nghiệp dư và non tay trong việc phát hiện sách lậu cũng như trong việc đối phó
với các đối tượng làm sách lậu [7].
Ngày nay, kỹ thuật watermarking đang được ứng dụng mạnh mẽ trong
lĩnh vực bảo vệ bản quyền sở hữu. Kỹ thuật này cho phép nhúng thơng tin bí
mật (thơng tin bản quyền) vào đối tượng dữ liệu cần bảo vệ. Đối tượng sau khi
được nhúng thơng tin bí mật có sự thay đổi khơng đáng kể và vẫn được sử dụng
một cách bình thường. Khi cần thiết, thơng tin bí mật sẽ được lấy ra làm bằng
chứng chứng minh quyền sở hữu. Đề tài này tập trung nghiên cứu kỹ thuật
watermarking trên dữ liệu văn bản (sách) nhằm đề xuất một giải pháp áp dụng
kỹ thuật watermarking bảo vệ bản quyền sách tiếng Việt.
4



Chương 2. KỸ THUẬT WATERMARKING
2.1.

Giới thiệu watermarking

Gần đây, các phương pháp giấu tin (information hiding) đang được
nghiên cứu và ứng dụng mạnh mẽ trong các lĩnh vực an toàn và bảo mật thông
tin. Giấu tin là kỹ thuật cho phép giấu thơng tin (nhúng thơng tin) vào đối
tượng khác. Ngồi ra, giấu tin cịn có nghĩa là làm cho thơng tin không thể
nhận biết được (imperceptible) hoặc giữ thông tin tồn tại ở trạng thái bí mật [3].
Giấu thơng tin thường có hai hướng tiếp cận là steganography và watermarking
(minh họa trên Hình 2.1). Steganography là kỹ thuật giấu tin vào đối tượng
khác để truyền tin trong trường hợp giao tiếp bí mật [1]. Watermarking là kỹ
thuật giấu tin vào đối tượng nhằm khẳng định bản quyền hoặc chống xuyên tạc
thơng tin [2,4].
Information Hiding

Steganography

Watermarking

Hình 2.1 - Phân loại kỹ thuật giấu tin

Watermarking thực hiện trên dữ liệu dạng số được gọi là digital
watermaking. Thuật ngữ digital watermarking được xuất hiện đầu tiên vào năm
1993, khi Tirkel đưa ra hai phương pháp giấu tin trên ảnh [4] (hai phương pháp
này dựa trên việc thay đổi giá trị các bit màu có trọng số thấp). Kỹ thuật digital
watermarking là một lĩnh vực nổi bật trong lĩnh vực khoa học máy tính, mật

mã, xử lý tín hiệu và truyền thơng [16]. Bên cạnh đó, digital watermaking cịn
là một phương pháp tốt để bảo vệ quyền sở hữu trí tuệ [4]. Hiện nay,
watermarking là kỹ thuật vẫn còn trong giai đoạn phát triển. Tương lai của
watermarking đầy hứa hẹn và ngày càng có nhiều công ty nghiên cứu về digital
watermarking ra đời.
Tùy theo tiêu chí phân loại mà kỹ thuật watermarking được chia thành
nhiều loại khác nhau. Các loại kỹ thuật watermarking bao gồm: watermarking
bền vững (robust watermarking), watermarking dễ vỡ (fragile watermarking),
watermarking có sử dụng thêm khóa (public/private watermarking),
watermarking nổi (visible watermarking) và watermarking chìm (invisible
watermarking) [2]. Robust watermarking: thơng tin nhúng có độ bền vững cao,
luôn tồn tại với dữ liệu chứa cho dù dữ liệu chứa bị biến đổi phức tạp. Fragile
watermarking: tồn bộ dữ liệu sau khi nhúng thơng tin bí mật dễ dàng bị phá
hủy nếu dữ liệu bị thay đổi nhỏ hoặc bị sao chép trái phép. Public/private
watermarking: có sử dụng thêm các khóa bí mật trong việc nhúng hoặc lấy lại
thơng tin. Khố bí mật được sử dụng để quy định người nào có thể truy xuất
5


vào thông tin nhúng. Visible watermarking: là kỹ thuật cố tình cho người sử
dụng biết thơng tin nhúng. Invisible watermarking che giấu thông tin nhúng,
người sử dụng không hay biết dữ liệu đã được nhúng thông tin.
2.2.

Ứng dụng của watermarking

Hiện nay, watermarking đang được ứng dụng rộng rãi trong nhiều lĩnh
vực như: bảo vệ bản quyền (copyright protection), chứng thực nội dung
(authentication hoặc tampering detection), dán nhãn sản phẩm (fingerprinting
hoặc labling), theo dõi phát sóng (broadcast monitoring), điều khiển sao chép

(copy control)… Các ứng dụng của digital watermarking được trình bày cụ thể
dưới đây:
− Bảo vệ bản quyền: watermarking được sử nhiều nhất trong lĩnh vực
bảo vệ bản quyền [1]. Thơng tin bản quyền (thơng tin bí mật) được
nhúng vào sản phẩm (phương tiện chứa) dùng làm bằng chứng cho
quyền sở hữu sản phẩm. Thông tin bản quyền được sử dụng trong
trường hợp cần giải quyết tranh chấp hoặc cần chứng minh quyền sở
hữu sản phẩm. Watermarking để bảo vệ bản quyền cần phải có độ bền
vững cao [15].
− Chứng thực nội dung: watermarking được ứng dụng trong việc làm
bằng chứng xác định nội dung dữ liệu là đúng nguyên bản, chưa bị
thay đổi. Tránh trường hợp dữ liệu bị thay đổi với mục đích xấu hay
cịn gọi là xun tạc nội dung [3].
− Dán nhãn sản phẩm: watermarking dùng để ghi thông tin dùng để
nhận diện ra nguồn gốc nhà sản xuất (creator), thông tin người sử
dụng (recipient), số hiệu sản phẩm (serical code)… Thông tin nhận
này diện này phải đặc trưng, duy nhất cho từng loại sản phẩm [15].
− Theo dõi phát sóng: hệ thống theo dõi phát sóng dùng để tự động giám
sát việc phát sóng có đúng nội dung, thời lượng và thời điểm hay
không. Hệ thống này cần có một bộ phận nhận tín hiệu phát sóng và so
sánh với tín hiện gốc đã được lưu trữ trước đó. Việc so sánh này dựa
vào thơng tin đã nhúng trong tín hiệu phát sóng bằng kỹ thuật
watermarking. Hệ thống theo dõi phát sóng được ứng dụng trong
trường hợp tổ chức đăng ký quảng cáo nhằm mục đích theo dõi được
tình trạng thơng tin quảng cáo trên các phương tiện thông tin đại
chúng [3].
− Điều khiển sao chép: watermarking có thể được sử dụng trong các hệ
thống phân phối dữ liệu đa phương tiện. Trong trường hợp này
watermarking được dùng để điều khiển sao chép đối với các thiết bị
đọc ghi dữ liệu. Các thiết bị đọc ghi cần phải có thêm bộ phận phát

hiện ra thơng tin đã nhúng trong sản phẩm, đồng thời có khả năng tạo
ra thông tin cần nhúng và nhúng vào sản phẩm. Watermarking trong
6


điều khiển sao chép đã được ứng dụng trong việc quản lý sao chép
DVD tại Nhật Bản. Thông tin đánh dấu trong các đĩa DVD mang ý
nghĩa chỉ trạng thái cho phép sao chép dữ liệu như: không được sao
chép, được sao chép 1 lần... Trước khi sao chép dữ liệu, bộ đọc ghi sẽ
đọc thông tin đã nhúng trong đĩa DVD gốc. Tuỳ theo dữ liệu nhúng
mà bộ đọc ghi thực hiện việc sao chép dữ liệu hoặc không thực hiện
[3].
2.3.

Nguyên lý cơ bản của watermarking

Watermarking là một lĩnh vực mới. Lĩnh vực này còn đang ở trong giai
đoạn phát triển nên nguyên lý cơ bản được trình bày theo nhiều dạng khác nhau
và vẫn còn thay đổi [2]. Ý tưởng cơ bản của ditital watermarking là nhúng
thông tin (watermark) vào dữ liệu chứa (host data). Thông tin nhúng phải bí
mật và hồn tồn được che phủ bởi dữ liệu chứa. Thơng tin đã nhúng phải đảm
báo sẽ trích dẫn ra được khi cần thiết [1,4].
Nhằm mục đích tăng tính bảo mật khi nhúng thơng tin và khi trích dẫn
thơng tin có thể dùng thêm các khố bảo vệ (secure key). Việc sử dụng các
khoá bảo vệ này đảm bảo thông tin nhúng là hợp lệ, trách trường hợp dữ liệu bị
nhúng bằng thông tin giả mạo [1,2].
Để thiết kế một hệ thống watermarking cho phép nhúng thông tin bí mật
(I) vào dữ liệu chứa gốc (X) để tạo thành dữ liệu đã nhúng thơng tin bí mật (Y)
bao gồm các công việc sau [1]:
− Xây dựng thông tin cần nhúng (W). Thơng tin bí mật (I) phải được

chuyển dạng thích hợp (W) trước khi nhúng vào dữ liệu chứa (X).
W=h(I)
Để đảm bảo tính bí mật có thể sử dụng thêm khố bí mật K.
W=h(I,K)
Nếu cần xây dựng thơng tin nhúng đặc trưng cho từng bảo sao dữ liệu
chứa thì sử dụng thêm dữ liệu chứa gốc để tạo thông tin nhúng.
W=h(I,K,X)
− Xây dựng phương pháp nhúng thông tin vào sản phẩm (watermark
encoder). Nếu việc nhúng dữ liệu vào dữ liệu chứa khơng cần sử dụng
khố (K) thì:
Y=f(X,W)
Nếu việc nhúng dữ liệu vào phương tiện chứa có sử dụng khố (K) thì:
Y=f(X,K,W)

7


Trên Hình 2.3 thể hiện ngun lý nhúng thơng tin vào dữ liệu. Để
nhúng thông tin cần phải cung cấp thơng tin cần nhúng (W), dữ liệu
chứa gốc (X). Khố K có thể được sử dụng hoặc khơng.
W
K

WATERMARK

Y

ENCODER
X
Hình 2.2 - Nguyên lý nhúng thông tin


− Xây dựng phương pháp lấy lại thông tin. Thông tin đã nhúng I được
lấy lại dựa trên phương pháp nhúng dữ liệu. Tuỳ thuộc vào dữ liệu
chứa có thể phải sử dụng thêm sản phẩm gốc trong quá trình lấy lại I.
Nếu việc nhúng dữ liệu vào dữ liệu chứa khơng cần sử dụng khố K
và không cần sử dụng dữ liệu gốc ban đầu khi lấy lại thơng tin thì:
I=g(Y)
Nếu việc nhúng dữ liệu vào dữ liệu chứa có sử dụng khố K và không
cần sử dụng dữ liệu gốc ban đầu khi lấy lại thơng tin thì:
I=g(Y,K)
Nếu việc nhúng dữ liệu vào dữ liệu chứa khơng sử dụng khố K và
cần dữ liệu chứa gốc khi lấy lại thơng tin thì:
I=g(Y,X)
Nếu việc nhúng dữ liệu vào dữ liệu chứa có sử dụng khố K và cần dữ
liệu chứa gốc thì:
I=g(Y,K,X)
Y
K
X

WATERMARK

I

DECODER

Hình 2.3 - Nguyên lý lấy lại thơng tin

Trên Hình 2.4 thể hiện ngun lý lại thông tin đã nhúng trong dữ liệu
(Y). Để lấy lại thơng tin có thể phải sử dụng thêm dữ liệu chứa gốc

(X) hoặc/và khố bí mật (K).

8


2.4.

Phương pháp đánh giá giải pháp watermarking

Các kỹ thuật digital watermarking được đánh giá dựa trên các yêu cầu:
độ bền vững của thông tin (robustness), độ bảo mật (security) và độ ẩn thơng
tin (invisibility) (như minh họa trên Hình 2.2). Kỹ thuật digital watermarking
đạt được các yêu cầu này càng cao càng tốt, nhưng tăng chất lượng một yêu cầu
thì các yêu cầu khác sẽ bị ảnh hưởng [4,9].
Robustness

Security

Invisibility

Hình 2.4 - Các yêu cầu đối với watermarking

Độ bền vững thông tin là khả năng tồn tại của thông tin nhúng trong dữ
liệu chứa (sản phẩm). Dữ liệu chứa sau khi được nhúng thơng tin có thể sẽ chịu
nhiều sự biến đổi. Ví dụ dữ liệu hình ảnh có thể phải chịu các phép biến đổi
như: thay đổi kích thước ảnh (resizing), cắt xét ảnh (cropping), quay
ảnh(rotation), v.v. Các giải pháp watermarking có độ bền vững cao thì thơng tin
nhúng trong dữ liệu chứa vẫn có thể tồn tại và lấy ra được mặc dù phương tiện
chứa bị biến đổi.
Độ bảo mật là khả năng bảo vệ thông tin nhúng trong dữ liệu chứa. Các

giải pháp watermarking có độ bảo mật cao sẽ khơng cho phép người tấn cơng
có thể biết được thông tin đã nhúng trong trong dữ liệu chứa là gì. Thơng
thường để bảo vệ thơng tin nhúng, các giải pháp mã khóa được sử dụng.
Độ ẩn thơng tin nhúng cho biết chất lượng của dữ liệu chứa sau khi
nhúng thông tin. Độ ẩn thông tin được áp dụng cho các giải pháp watermarking
chìm. Thơng thường, sau khi nhúng thơng tin vào dữ liệu chứa thì dữ liệu chứa
sẽ có sự thay đổi nhỏ. Sự thay đổi nhỏ này thường là không đáng kể và vẫn
đảm bảo chất lượng dữ liệu chứa. Dữ liệu chứa sau khi đã nhúng thơng tin vẫn
được sử dụng một cách bình thường bởi các ứng dụng. Các giải pháp
watermarking chìm thường cố gắng giấu thông tin sao cho không thể phát hiện
ra là dữ liệu chứa đã được nhúng thơng tin.
2.5.

Các hình thức tấn cơng vào watermarking

Các hình thức tấn cơng vào watermarking được chia thành 4 loại sau:
Gây nhiễu, vơ hiệu hóa thông tin đã nhúng, nhúng lại thông tin, gỡ bỏ thông tin
đã nhúng [1]. Cụ thể những loại tấn công này như sau:
− Gây nhiễu là cách tấn công thực hiện một số thao tác biến đổi trên
toàn bộ dữ liệu, mục đích làm nhiễu hoặc làm suy yếu thơng tin đã
9


nhúng [1]. Ví dụ: các tập tin hình ảnh đã nhúng thơng tin bí mật bị gây
nhiễu bằng cách dịch chuyển, xóa bỏ một số điểm ảnh trong dữ liệu
ảnh.
− Phương pháp vơ hiệu hố thơng tin đã nhúng làm vơ hiệu hóa mối liên
hệ giữa thơng tin nhúng và dữ liệu chứa nó và làm cho các chương
trình lấy lại thơng tin nhúng khơng cịn khả năng tìm ra được thơng tin
đã nhúng [1,13], ví dụ: phóng to, thu nhỏ dữ liệu hình ảnh, quay dữ

liệu hình ảnh, dịch chuyển không gian và thời gian trong dữ liệu phim.
− Hình thức tấn cơng nhúng lại thơng tin sẽ thực hiện nhúng thơng tin
khác vào dữ liệu đã có thơng tin bí mật. Dữ liệu có thể bị nhúng lại
nhiều lần. Khi nhúng lại thơng tin có thể thơng tin nhúng ban đầu bị
hư hỏng, sai lạc, hoặc vô hiệu hóa [1]. Nhiều khi thơng tin nhúng lại
cùng tồn tại với thơng tin nhúng trước đó.
− Hình thức tấn cơng gỡ bỏ thơng tin nhúng cần phải phân tích dữ liệu
đã nhúng thơng tin. Từ đó tìm ra thơng tin đã nhúng và gỡ bỏ thơng tin
này.
Các hình thức tấn cơng gây nhiễu, vơ hiệu hóa thơng tin đã nhúng và
nhúng lại thơng tin là những hình thức tấn cơng dễ thực hiện. Đồng thời, ba
hình thức tấn cơng này không cần phải quan tâm tới thông tin đã nhúng và
phương pháp đã nhúng trước đó. Hình thức tấn cơng gỡ bỏ thơng tin đã nhúng
là hình thức tấn cơng phức tạp nhất và có xác suất thành cơng khơng cao [1].

Chương 3. CÁC NGHIÊN CỨU LIÊN QUAN
3.1.

Ngoài nước

Dữ liệu văn bản (text document) là dạng dữ liệu thông dụng và được sử
dụng nhiều nhất trong thực tế. Dữ liệu văn bản có mặt ở khắp nơi và tồn tại ở
nhiều định dạng như: sách, báo, hợp đồng, quảng cáo, trang web… [17]. Các
vấn đề bảo vệ bản quyền sở hữu, phân quyền truy cập hợp lệ, theo dõi việc sử
dụng dữ liệu văn bản… là các vấn đề lớn cần giải quyết. So với các dạng dữ
liệu khác như: âm thanh, hình ảnh, phim… dữ liệu văn bản có ít đặc tính để
nhúng thông tin bí mật hơn [17,25]. Mặc khác, thơng tin bí mật sau khi nhúng
vào dữ liệu văn bản thường dễ dàng bị gỡ bỏ bởi các ứng dụng tự động nhận
dạng ký tự (optical character recognition) [17]. Vì vậy, giải pháp nhúng thơng
tin bí mật và tính bền vững của thơng tin đã nhúng là những thách thức lớn khi

áp dụng kỹ thuật watermarking trên dữ liệu văn bản.
Watermarking trên dữ liệu văn bản đã được nhiều nhà khoa học quan
tâm nghiên cứu. Trong thời gian gần đây, hàng loạt các phương pháp trong lĩnh
vực này đã được cơng bố. Trong [23], nhóm tác giả đã chia các phương pháp
giấu tin trên văn bản thành các nhóm: giấu tin trực tiếp trên văn bản, giấu tin
10


trên văn bản ở định dạng nhất định và giấu tin trên tập tin hình ảnh quét từ văn
bản. Chi tiết về ba nhóm phương pháp này sẽ được sẽ trình bày trong các phần
dưới đây.
3.1.1. Watermarking trực tiếp trên văn bản

Kỹ thuật watermaking trực tiếp trên dữ liệu văn bản ở dạng ký tự chưa
định dạng (plain text) thực hiện bằng cách sử dụng một số phương pháp giấu
tin trong văn bản. Tuy nhiên, sau khi sử dụng kỹ thuật watermaking thì văn bản
có sự thay đổi lớn và người đọc dễ dàng phát hiện ra. Nhóm phương pháp
watermarking trực tiếp trên văn bản bao gồm 3 nhóm phương pháp nhỏ: nhóm
phương pháp sửa khoảng trống (open space methods), nhóm phương pháp cú
pháp (syntactic methods) và nhóm phương pháp ngữ nghĩa (semantic methods).
Nhóm phương pháp sửa khoảng trống nhúng bản quyền vào văn bản
bằng dựa trên sự thay đổi các khoảng trống giữa các từ trong văn bản, khoảng
trống ở cuối mỗi hàng hoặc khoảng trống giữa các ký tự trong các từ [3,5]. Có
hai lý do để lựa chọn nhúng thông tin dựa vào các khoảng trống. Lý do thứ nhất
là khi thay đổi một số khoảng trống trong câu một khoảng cách nhỏ thì nghĩa
của câu khơng bị thay đổi. Lý do thứ hai là người đọc thường chỉ tập trung vào
nội dung văn bản và không nghi ngờ văn bản đã nhúng thơng [5].

(a)


(b)
Hình 3.1 - Ví dụ thay đổi khoảng trống để nhúng thơng tin

Hình 3.1 biểu diễn một ví dụ một đoạn văn bản được nhúng thông tin
dựa vào việc thay đổi khoảng trống giữa các từ trong văn bản. Phần (a) biểu
diễn đoạn văn bản sau khi nhúng thơng tin bí mật, phần (b) biểu diễn đoạn văn
bản sau khi nhúng thông tin bí mật có thêm chú thích chỉ dễ theo dõi. Ở ví dụ
này, qui tắc nhúng như sau: Một khoảng trống mà trước đó có hai khoảng trống
tức là nhúng bit 0, hai khoảng trống mà trước đó có một khoảng trống tức là
11


nhúng bit 1. Thơng tin bí mật được nhúng trong ví dụ này là chuỗi ký tự “BK”
theo mã ASCII (American Standard Character Interchange). Mã ASCII của ký
tự “B” là 01000010, của ký tự “K” là 10001011 nên chuỗi bit đã được nhúng là
0100001010001011.

(a)

(b)
Hình 3.2 - Ví dụ thay đổi khoảng trống cuối hàng để nhúng thơng tin

Hình 3.2 biểu diễn một đoạn văn bản được nhúng thông tin bằng cách
thay đổi khoảng trống cuối mỗi hàng trong câu [5]. Phần (a) biểu diễn đoạn văn
bản gốc, phần (b) biển diễn đoạn văn bản đã nhúng thơng tin bí mật.
Nhóm phương pháp cú pháp dựa trên sự nhập nhằng giữa các dấu chấm
câu để nhúng thông tin và cấu trúc của văn bản sau khi nhúng thơng tin bí mật
thường bị thay đổi. Để thực hiện nhúng thông tin vào văn bản bằng nhóm
phương pháp cú pháp thì rất khó khăn do phải làm thủ cơng bằng sức người là
chính. Tuy nhiên, thơng tin bí mật được nhúng vào văn bản theo nhóm phương

pháp này có độ bền vững rất cao. Hình 3.3 biểu diễn một ví dụ nhúng thơng tin
vào văn bản dựa vào việc thay đổi cách sử dụng dấu chấm, dấu phảy [11].
See e.g., page 100.
See e.g. page 100.
Hình 3.3 - Ví dụ nhúng thơng tin bằng phương pháp cú pháp

Nhóm phương pháp ngữ nghĩa nhúng thơng tin vào văn bản thơng qua
việc thay đổi chính các từ trong văn bản [5]. Các từ đồng nghĩa được sử dụng
theo một quy tắc nhất định để nhúng thông tin bí mật. Phương pháp này gán
cho mỗi cặp từ đồng nghĩa hai giá trị chính (primary value) và phụ (secondary
value). Ví dụ cặp từ đồng nghĩa “big” và “larger”, từ “big” được gán giá trị
chính, từ “large” được gán giá trị phụ. Khi sử dụng từ có giá trị chính có nghĩa
là nhúng bit 1 và khi sử dụng từ giá trị phụ có nghĩa là nhúng bit 0 [5]. Ưu
điểm duy nhất của phương pháp này là thông tin nhúng có độ bền vững cao,
ngay cả khi người sử dụng thực hiện gõ lại văn bản. Tuy nhiên, ngữ nghĩa của
văn bản có thể bị thay đổi sau khi nhúng thơng tin bí mật. Hình 3.4 biểu diễn ví
dụ một số cặp từ đồng nghĩa, các từ phía bên trái là các từ có giá trị chính, các
từ phía bên phải là các từ có giá trị phụ [5].
12


Hình 3.4 - Ví dụ về một số cặp từ động nghĩa
3.1.2. Watermarking trên văn bản đã định dạng

Thông tin bí mật được nhúng vào văn bản ở một định dạng nhất định
như: PDF (Portable Document Format), PS (PostScript), RTF (Rich Text
Format)… thường dựa trên đặc điểm vị trí hiển thị các ký tự trong văn bản. Có
thể thực hiện nhúng thông tin bằng cách dịch chuyển các hàng [1,2,4,8,10],
dịch chuyển các từ [1,2,8,10], dịch chuyển các ký tự [13], hoặc thay đổi một số
thuộc tính đặc biệt của các đối tượng ở định dạng Word [24].

Phương pháp dịch chuyển hàng sẽ thực hiện dịch chuyển một số hàng
trong văn bản lên trên hoặc xuống dưới một khoảng cách rất nhỏ, người đọc
khơng thể phát hiện được. Thơng tin bí mật được nhúng vào thơng qua việc
dịch chuyển này. Hình 3.5 biểu diễn một ví dụ dịch chuyển hàng văn bản có
nội dung “Chứng thực nội dung” lên trên một khoảng nhỏ.

Hình 3.5 - Ví dụ dịch chuyển hàng để nhúng thông tin

Phương pháp dịch chuyển từ dịch chuyển một số từ trong văn bản sang
trái hoặc sang phái một khoảng cách rất nhỏ. Thơng tin bí mật được giấu vào
văn bản thơng qua việc dịch chuyển [14]. Hình 3.6 biển diễn ví dụ dịch chuyển
từ “bản” trong cụm từ “Bảo vệ bản quyền” sang phải một khoảng nhỏ.

Hình 3.6 - Ví dụ dịch chuyển từ để nhúng thơng tin

Phương pháp dịch chuyển từng ký tự trong văn bản dịch chuyển nột số
ký tự trong các từ những khoảng cách rát nhỏ [13]. Hình 3.7 biển diễn ký tự
“T” trong từ “DATA” đã được dịch sang phải một khoảng nhỏ.

Hình 3.7 - Ví dụ dịch chuyển ký tự để nhúng thông tin

13


3.1.3. Watermarking trên tập tin hình ảnh quét từ văn bản

Văn bản trước tiên được quét (scan) thành các tập tin hình ảnh. Sau đó sẽ
thực hiện nhúng thơng tin bí mật. Có thể áp dụng nhóm phương pháp
watermarking trên văn bản ở một định dạng nhất định vào các tập tin hình ảnh
qt từ văn bản. Ngồi ra, đối với tập tin hình ảnh qt từ văn bản cịn được

nhúng thơng tin bí mật dựa vào đặc điểm hiển thị đặc trưng và đặc điểm màu
sắc của các ký tự [12].
Phương pháp thay đổi đặc điểm đặc trưng của ký tự nhúng thơng tin bí
mật thơng qua việc thay đổi hình dạng một số ký tự trong văn bản. Hình 3.8
biển diễn một ví dụ thay đổi đặc điểm đặc trưng của ký tự “v” và ký tự “q” để
nhúng thơng tin. Trong ví dụ này ký tự “v” và ký tự “q” đã được thay đổi đặc
điểm đồ hoạ khác với bình thường.

Hình 3.8 - Ví dụ thay đổi đặc trưng hiển thị của ký tự để nhúng thông tin

Phương pháp dựa vào đặc điểm màu sắc của các ký tự thực hiện thay đổi
màu sắc các ký tự một lượng nhỏ khơng đáng kể. Thơng tin bí mật sẽ được
nhúng vào văn bản dựa trên sự thay đổi màu sắc này. Hình 3.9 biểu diễn một ví
dụ nhúng thông tin vào văn bản thông qua việc thay đổi màu sắc các ký tự theo
quy tắc: màu bình thường có nghĩa là nhúng bit 1, màu nhạt hơn bình thường
có nghĩa là nhúng bit 0 [12].

Hình 3.9 - Ví dụ thay đổi màu sắc các ký tự để nhúng thông tin

3.2.

Trong nước

Tại Việt Nam, kỹ thuật watermarking đã được đầu tư nghiên cứu tại một
số trường đại học trong những năm gần đây. Các loại dữ liệu được nghiên cứu
để áp dụng watermarking nhiều nhất là hình ảnh, âm thanh, phim và văn bản.
Một số trường đại học đã thành lập nhóm nghiên cứu về lĩnh vực này, ví dụ
như Nhóm nghiên cứu Ứng dụng Bảo mật Dữ liệu, tại khoa Khoa học và Kỹ
thuật Máy tính, trường Đại học Bách khoa Tp. Hồ Chí Minh
(, www.cse.hcmut.edu.vn/~asis). Đặc biệt, Nhóm

nghiên cứu Ứng dụng Bảo mật Dữ liệu đã có các cơng trình được cơng bố trên
các tạp chí/hội nghị chuyên ngành trong nước về việc áp dụng watermarking
trên văn bản sử dụng đặc điểm đặc trưng của tiếng Việt [6,23].
14


Tại [23], nhóm tác giả đề xuất giải pháp nhúng thơng tin bí mật vào văn
bản tiếng Việt dựa trên việc dịch chuyển lên/xuống một khoảng nhỏ các dấu
thanh và các dấu đặc biệt [23]. Phương pháp dịch chuyển dấu này có độ ẩn
thơng tin đã nhúng cao, tuy nhiên số lượng thông tin nhúng vào mỗi văn bản
tiếng Việt còn hạn chế.
Dựa trên phương pháp được đề xuất tại [23], một phương pháp mới đã
được phát triển tại [6]. Phương pháp mới này dịch chuyển các dấu thanh và các
dấu đặc biệt cùng lúc theo hai chiều lên/xuống và trái/phải, đồng thời sử dụng
chữ ký điện tử nhằm làm tăng tính bảo mật. Việc dịch chuyển cả hai chiều dấu
thanh và các dấu đặc biệt làm cho lượng thông tin nhúng vào mỗi dấu tiếng
Việt tăng lên.

Chương 4. GIẢI PHÁP ĐỀ XUẤT
4.1.

Đặc điểm tiếng Việt

Tiếng Việt là ngôn ngữ của người Việt (người Kinh) và là ngơn ngữ
chính thức tại Việt Nam. Đây là tiếng mẹ đẻ của khoảng 85% dân cư Việt Nam
và gần ba triệu Việt kiều ở hải ngoại. Ngồi ra, tiếng Việt cịn là ngơn ngữ thứ
hai của các dân tộc thiểu số tại Việt Nam. Tiếng Việt được coi là một trong số
các ngôn ngữ thuộc hệ ngơn ngữ Nam Á, nhóm Mơn-Khmer, nhánh ViệtMường. Nguồn từ vựng của tiếng Việt được vay mượn từ tiếng Hán. Trước đây
hệ thống chữ viết tiếng Việt sử dụng chữ Hán (chữ Nho, sau đó được cải biên
thành chữ Nôm). Ngày nay, hệ thống chữ viết tiếng Việt dùng hệ chữ viết như

ký tự La-tinh gọi là chữ Quốc ngữ [21].
Bảng chữ cái tiếng Việt có tất cả 29 chữ cái như trình bày trên Bảng 4.1
Các chữ cái "F", "J", "W" và "Z" khơng có trong bảng chữ cái tiếng Việt. "F",
"J", "W" và "Z" được sử dụng để viết các từ vay mượn từ tiếng nước ngoài.
A Ă Â B C D Đ E Ê G H I K L M
A ă â b C d đ e ê G h i k l m
N O Ô Ơ P Q R S T U Ư V X Y
N o ô ơ P q r s t U ư v x y
Bảng 4.1 – Bảng chữ cái tiếng Việt

Cấu tạo cơ bản của tiếng Việt bao gồm:
− Âm tiết: là đơn vị phát âm tự nhiên nhỏ nhất trong ngôn ngữ. Trong
tiếng Việt, một âm tiết bao giờ cũng được phát ra với một thanh điệu,
15


và tách rời với âm tiết khác bằng một khoảng trống. Trên chữ viết, mỗi
âm tiết tiếng Việt được ghi thành một "chữ" và đọc thành một "tiếng".
Ví dụ: cơng nghệ thông tin gồm 4 chữ, 4 tiếng hoặc 4 âm tiết.
− Nguyên âm: các nguyên âm của tiếng Việt gồm: a, ă, â, e, ê, i, o, ô, ơ,
u, ư và y. Trong đó, một số nguyên âm có dấu phụ như: ă, â, ê, ô, ơ và
ư.
− Bán nguyên âm: chỉ có 3 trường hợp oa, oe, uy thì có o và u là bán
ngun âm, đóng vai trị đệm cho ngun âm. Có nghĩa là o và u
không được xem là nguyên âm trong tổ hợp 3 âm tiết trên.
− Phụ âm: các phụ âm là b, c, d, đ, g, h, k, l, m, n, p, q, r, s, t, v, và x.
− Tổ hợp phụ âm: tiếng Việt có các phụ âm ghép chuẩn là ch, gh, kh, ng,
ngh, nh, ph, th, tr, gi và qu.
− Tổ hợp bán phụ âm: tiếng Việt có hai tổ hợp bán phụ âm là gi và qu.
Tại đây, i và u không là nguyên âm, mà chỉ là một bộ phận của phụ âm

bất khả phân ly.
Ngoài ra, tiếng Việt là ngôn ngữ thanh điệu. Trong tiếng Việt có sáu
thanh: ngang (khơng dấu: a), huyền (dấu nghiêng trái: à), sắc (dấu nghiêng
phải: á), hỏi (dấu hỏi: ả), ngã (dấu ngã: ã), và nặng (dấu chấm: ạ). Trong hệ
thống chữ viết tiếng Việt, hầu hết các dấu thanh được đặt trên ký tự nguyên âm,
riêng dấu nặng được đặt dưới ký tự nguyên âm. Ngoài ra, trong bảng chữ cái
tiếng Việt cịn có một số ký tự đặc biệt gồm hai phần: phần ký tự La-tinh phía
dưới và phần dấu đặc biệt phía trên như: ă, â, ê, ơ.
Đặc điểm chữ viết của tiếng Việt là phần dấu thanh hoặc dấu đặc biệt và
phần ký tự La-tinh hoàn toàn tách biệt nhau nên khi thay đổi vị trí phần dấu
thanh hoặc dấu đặc biệt lên/xuống hoặc trái/phải một khoảng rất nhỏ thì người
đọc sẽ khơng phát hiện được. Mặt khác, việc thay đổi vị trí này hồn tồn
khơng làm thay đổi ngữ nghĩa của văn bản tiếng Việt. Vì vậy, có thể lợi dụng
vào sự thay đổi vị trí này để nhúng thơng tin bí mật vào văn bản tiếng Việt
[6,23].
4.2.

Quy tắc nhúng thông tin

Chúng tôi tiếp tục phát triển giải pháp áp dụng watermarking vào văn
bản tiếng Việt thông qua việc dịch chuyển các dấu thanh và các dấu đặc biệt
[6,23]. Trong văn bản tiếng Việt, tất cả các ký tự có dấu tiếng Việt như: á, ấ, ỏ,
ọ… và các ký tự có dấu đặc biệt bên trên như: ă, â, ê, ô… được chọn để nhúng
thông tin. Do đặc điểm chữ viết của ký tự i và j cũng gồm 2 phần tách biệt nhau
nên i và j cũng được chọn để nhúng thơng tin. Ngồi ra, trong quá trình khảo
sát các văn bản tiếng Việt, chúng tơi nhận thấy một số dấu câu (ví dụ như: !
(dấu chấm than), ? (dấu chấm hỏi), : (dấu hai chấm)…) và một số ký hiệu tốn
học (ví dụ như: = (dấu bằng), ≥ (dấu lớn hơn hoặc bằng), ≤ (dấu nhỏ hơn hoặc
16



bằng), ≈ (dấu gần bằng)…) cũng có đặc điểm gồm hai phần tách biệt nhau. Vì
vậy, một số dấu câu và một số ký hiệu toán học cũng được chọn để nhúng
thơng tin. Tồn bộ các ký tự được đề xuất chọn để nhúng thơng tin được trình
bày đầy đủ trên Hình 4.1, Hình 4.2 và Hình 4.3.
Đối với những ký tự được chọn nhúng thơng tin bí mật có một dấu phía
trên như: i, j, ă, â, Ă, Â, Ô…, thông tin sẽ được nhúng dựa vào việc dịch
chuyển các dấu ngay phía trên nguyên âm. Đối với các ký tự có hai dấu phía
trên như: ằ, ắ, Ắ, Ầ, Ế… thì thơng tin sẽ được nhúng dựa vào việc dịch chuyển
dấu phía trên cùng (giữ ngun dấu cịn lại). Các ký tự vừa có dấu đặc biệt bên
trên và vừa có dấu nặng bên dưới như: ậ, ộ, ệ… thì thơng tin bí mật sẽ được
nhúng dựa vào việc dịch chuyển cả dấu đặc biệt phía trên và dấu nặng bên
dưới.
Dựa vào khoảng trống (khoảng cách) giữa phần dấu được chọn dịch
chuyển và phần ký tự còn lại, chúng tôi chia những ký tự được chọn để giấu tin
thành 3 nhóm. Nhóm 1 (minh họa trên Hình 4.1), chứa các ký tự có khoảng
trống này lớn. Nhóm 2 (minh họa trên Hình 4.2) chứa các ký tự có khoảng
trống này nhỏ, và nhóm 3 (minh họa trên Hình 4.3) chứa những ký tự có đồng
thời phần dấu đặc biệt phía trên và có dấu nặng ở bên dưới (khoảng trống giữa
dấu nặng và ký tự La-tinh là nhỏ, khoảng trống giữa dấu đặc biệt và ký tự Latinh hoa là nhỏ, và khoảng trống giữa dấu đặc biệt và ký tự La-tinh thường là
lớn). Các ký thuộc nhóm 1 hoặc nhóm 2 có 3 phần tách biệt nhau như: ằ, ỗ... thì
chỉ chọn giấu tin thơng qua sự thay đổi vị trí của dấu thanh phía trên cùng.

a)

b)

Hình 4.1 - Các ký tự thuộc nhóm 1

a)


b)

Hình 4.2 - Các ký tự thuộc nhóm 2

17


a)

b)

Hình 4.3 - Các ký tự thuộc nhóm 3

Để nhúng thơng tin bí mật vào văn bản tiếng Việt, các dấu thanh, các dấu
đặc biệt, một phần các dấu chấm câu và một phần các ký hiệu toán học sẽ được
dịch trái/phải và lên/xuống một khoảng nhỏ. Tâm dịch chuyển được chọn là
góc dưới bên trái của các phần được chọn để dịch chuyển. Hình 4.4 thể hiện ba
ví dụ chọn tâm cụ thể.

Hình 4.4 - Chọn tâm dịch chuyển

Để giấu tin bí mật vào văn bản tiếng Việt, các dấu thanh và các dấu đặc
biệt của những ký tự thuộc nhóm 1 sẽ được dịch chuyển hai mức. Gọi t1 là độ
lớn khoảng dịch chuyển mức 1, t2 là độ lớn khoảng dịch chuyển mức 2.
Khoảng cách dịch chuyển t1, t2 cần phải chọn đủ nhỏ để người rất khó phát
hiện được (thơng thường t2 gấp đơi t1). Dùng 2 bits để biểu thị cho sự dịch
chuyển lên/xuống hai mức và dùng 2 bits để biểu diễn cho sự dịch chuyển
trái/phải hai mức. Như vậy mỗi ký tự thuộc nhóm 1 sẽ giấu được 4 bits dữ liệu.
Chi tiết các vị trí dịch chuyển hai mức được minh họa trên phần b của Hình 4.5

[6].
Các ký tự thuộc nhóm 2 chỉ được chọn dịch chuyển một phần ký tự một
mức. Tổ hợp hai chiều dịch chuyển lên/xuống và trái/phải sẽ có 4 trạng thái nên
mỗi ký tự thuộc nhóm 2 sẽ giấu được 2 bits dữ liệu. Chi tiết các vị trí dịch
chuyển một mức được minh họa trên phần a của Hình 4.5 [6].

a)

b)

Hình 4.5 - Các vị trí dịch chuyển các ký tự một mức và hai mức.

18


Đối với các ký tự thuộc nhóm 3, dấu nặng phía dưới và dấu đặc biệt phía
trên ký tự La-tinh hoa sẽ được dịch chuyển lên/xuống và trái/phải một mức
(giấu được 2 bits), dấu đặc biệt phía trên ký tự La-tinh chữ thường sẽ được dịch
chuyển lên/xuống và trái/phải hai mức (giấu được 4 bits).
Chuỗi bit thơng tin bí mật cần nhúng vào văn bản tiếng Việt sẽ được cắt
2 bit hoặc 4 bit và nhúng liên tục vào các ký tự được chọn trong văn bản từ trái
qua phải, từ trên xuống dưới. Khi chuỗi bit thơng tin bí mật đã nhúng hết vào
văn bản thì sẽ xoay vịng nhúng lặp lại chuỗi bit này.
Văn bản tiếng Việt sau khi được nhúng thơng tin bí mật sẽ được in và
công bố rộng rãi theo nhu cầu. Ở đây chúng tôi chưa đưa ra giải pháp xử lý
phần nhúng thông tin vào các hình ảnh, hình vẽ trong văn bản tiếng Việt.
4.3.

Quy tắc lấy lại thông tin


Việc xử lý lấy lại thơng tin đã giấu trong sách tiếng Việt có thể thực hiện
trên sách điện tử (văn bản điện tử) hoặc hình ảnh sau khi qt (scan) từ sách.
Thơng thường, các máy quét (scan) cho phép quét tài liệu với nhiều độ phân
giải khác nhau. Khi quét tài liệu với độ phân giải lớn thì dễ nhận dạng các dấu
tiếng Việt và việc lấy lại thơng tin có độ chính xác cao. Tuy nhiên, nếu quét với
độ phân giải lớn thì việc xử lý lấy lại thơng tin sẽ mất nhiều thời gian do phải
xử lý nhiều hơn. Nếu quét với độ phân giải nhỏ thì việc lấy lại thơng tin đã
nhúng sẽ khó hơn và độ chính xác thấp hơn. Do đó, độ phân giải quét ảnh văn
bản sẽ được chọn dựa trên sự dung hòa giữa hai yếu tố tốc độ xử lý và độ chính
xác.
Thơng tin bí mật được lấy lại dựa trên vị trí tuyệt đối giữa phần ký tự
được chọn dịch chuyển và phần ký tự không dịch chuyển nên khi xử lý lấy lại
thông tin cần phải sử dụng văn bản gốc ban đầu.
d

d’

h

h’

a)

b)

Hình 4.6 - Ví dụ tính d, h và d’, h’.

Gọi h và d là khoảng cách giữa phần ký tự được chọn dịch chuyển và
phần ký tự không dịch chuyển theo chiều ngang và theo chiều thẳng đứng; w1,
w2 là độ lớn khoảng cách dịch chuyển tương ứng với mức 1 và mức 2 (trong

văn bản cần lấy lại thông tin). Giả sử d, h là thông tin khoảng cách trước khi
giấu thơng tin bí mật và d’, h’ là thơng tin khoảng cách sau khi nhúng thơng tin
bí mật. Hình 4.6 minh họa một ví dụ tính d, h và d’, h’ với d’<d và h’>h. Trong
văn bản, các ký tự ln có phơng chữ nhất định, kích thước chữ nhất định nên
19


d, h, w1 và w2 luôn được biết trước. d’, h’ sẽ được tính thơng qua việc xử lý
hình ảnh sách điện tử hoặc hình ảnh sách sau khi quét.
So sánh giữa h và h’, d và d’ sẽ lấy ra được thông tin đã giấu. Tùy theo phần
dịch chuyển theo một mức hoặc hai mức mà có cách xử lý khác nhau. Các quy
tắc xử lý các ký có phần dịch chuyển theo một mức và hai mức được thể hiện
trên Hình 4.7 và Hình 4.8 [6].
(h’–h = w1) và (d’–d = w1)

“00”

(h’–h = w1) và (d’–d = -w1)

“01”

(h’–h = -w1) và (d’–d = w1)

“10”

(h’–h = -w1) và (d’–d = -w1)

“11”

Hình 4.7 - Quy tắc xử lý phần ký tự dịch chuyển 1 mức


(h’–h = w2) và (d’–d = w2)
(h’–h = w2) và (d’–d = w1)
(h’–h = w2) và (d’–d = -w1)
(h’–h = w2) và (d’–d = -w2)
(h’–h = w1) và (d’–d = w2)
(h’–h = w1) và (d’–d = w1)
(h’–h = w1) và (d’–d = -w1)
(h’–h = w1) và (d’–d = -w2)
(h’–h =-w1) và (d’–d = w2)
(h’–h =-w1) và (d’–d = w1)
(h’–h =-w1) và (d’–d = -w1)
(h’–h =-w1) và (d’–d = -w2)
(h’–h = -w2) và (d’–d = w2)
(h’–h = -w2) và (d’–d = w1)
(h’–h = -w2) và (d’–d = -w1)
(h’–h = -w2) và (d’–d = -w2)

“0000”
“0001”
“0010”
“0011”
“0100”
“0101”
“0110”
“0111”
“1000”
“1001”
“1010”
“1011”

“1100”
“1101”
“1110”
“1111”

Hình 4.8 - Quy tắc xử lý phần ký tự dịch chuyển 2 mức

Để lấy lại thơng tin bí mật, ảnh văn bản sẽ được sử lý để lấy ra các ký tự
được chọn nhúng thông tin bản quyền theo thứ tự từ trên xuống dưới và từ trái
qua phải (tương tự như lúc xử lý nhúng thơng tin bí mật). Sau đó, tùy theo phần
dịch chuyển của ký tự theo một mức hoặc hai mức mà áp dụng các quy tắc
thích hợp như thể hiện trên Hình 4.7 và Hình 4.8 để rút trích ra thơng tin đã
nhúng trước đó.

20


Chương 5. THỰC NGHIỆM
Chúng tôi đã xây dựng một hệ thống thử nghiệm theo phương pháp đề
xuất. Ứng dụng thử nghiệm áp dụng cho văn bản tiếng Việt có nhiều phông chữ
(font), nhiều kiểu chữ (style) và nhiều cỡ chữ (size) khác nhau. Các thao tác
dịch chuyển để giấu tin sẽ được thực hiện trên định dạng Postscript và các thao
tác rút trích thơng tin được thực hiện trên tập tin hình ảnh quét từ văn bản.
Khoảng cách dịch chuyển mức một là 1/300 inch và mức hai là 1/150 inch.
Chức năng giấu tin của ứng dụng thử nghiệm hỗ trợ tốt đối với những
văn bản tiếng Việt sử dụng phông chữ Arial, Times New Roman, Tahoma,
Verdana, VNI Helve, VNI-Times và cỡ chữ lớn hơn 11. Chức năng rút trích
thơng tin cịn hạn chế vì cơng việc xử lý để rút trích thơng tin từ các tập tin
hình ảnh văn bản rất phức tạp và liên quan nhiều đến lĩnh vực xử lý ảnh.
5.1.


Xây dựng phần ứng dụng nhúng thông tin

Mỗi tập tin sách trước khi in sẽ nằm ở một định dạng văn bản nhất định.
Hiện nay có rất nhiều định dạng văn bản khác nhau như: PDF, PS, RTF…
Trong các định dạng dữ liệu văn bản, PS (PostScript) là một định dạng có nhiều
tính năng nổi trội và được sử dụng rộng rãi. Ngồi ra, PostScript cịn là ngơn
ngữ lập trình. PostScript cho phép thao tác biểu diễn ký tự giống như hình ảnh
nên rất thuận tiện. Vì vậy, chọn PostScript là định dạng dữ liệu để nhúng thông
tin.
Tại Việt Nam, phần mềm sử dụng để soạn thảo văn bản thơng dụng nhất
là Microsoft Word (gần đây có OpenOffice). Do đó yêu cầu tập tin sách tiếng
Việt sẽ để ở định dạng Microsoft Word. Tập tin sách tiếng Việt phải được
chuyển từ định dạng Microsoft Word sang định dạng PostScript trước khi
nhúng thông tin bản quyền. Sau khi nhúng thông tin tập tin sách tiếng Việt sẽ
được để ở định dạng PostScript hoặc chuyển sang định dạng các tập tin hình
ảnh có định dạng PDF. Tập tin sách sau khi nhúng bản quyền sẽ được in thành
sách và phát hành rộng rãi.
Phần ứng dụng thử nghiệm nhúng thông tin bí mật hỗ trợ tốt đối với
những văn bản có cỡ chữ lớn hơn bằng 12 và áp dụng đối với nhiều phông chữ
hỗ trợ tiếng Việt, đặc biệt hoạt động tốt với sáu loại phông chữ: Arial, Times
New Roman, Tahoma, Verdana, VNI Helve, VNI-Times. Hình 5.1 thể hiện
giao diện chính của phần ứng dụng nhúng thơng tin bí mật.

21


Hình 5.1 - Giao diện nhúng thơng tin

Các cơng việc cần thực hiện khi nhúng thông tin vào tập tin sách tiếng

Việt bao gồm:
− Chuyển tập tin sách tiếng Việt từ định dạng Microsoft Word sang
định dạng PostScript.
− Tạo thông tin bản quyền.
− Thực hiện nhúng thông tin bản quyền vào tập tin ở định dạng
PostScript.
− Chuyển tập tin định dạng PostScript sang định dạng PDF (có thể
thực hiện hoặc không).
5.1.1. Chuyển định dạng từ Microsoft Word sang PostScript

Để chuyển dữ liệu từ định dạng Microsoft Word sang định dạng
PostScript có rất nhiều phương pháp như: sử dụng chức năng in ra tập tin (print
to file) trong Microsoft Word, sử dụng chương trình Adobe Writer, sử dụng
phần mềm DOC to Image Converter… PostScript là một ngơn ngữ lập trình
nên có nhiều cách khác nhau để biểu diễn cùng một dữ liệu. Do đó cùng một dữ
liệu dạng Microsoft Word nếu chuyển sang PostScript theo các cách khác nhau
thì sẽ thu được tập tin PostScipt có độ phức tạp khác nhau. Thơng thường, mã
PostScipt sinh ra rất nhiều và khó đọc hiểu.
Trong các phương pháp chuyển đổi định dạng từ Microsoft Word sang
PostScript, phương pháp sử dụng phần mềm DOC to Image Converter có mã
PostScript sinh ra có đặc điểm dễ dàng nhận dạng các thành phần của ký tự đặc
trưng của tiếng Việt. Đây chính là đặc điểm thuận lợi để thực hiện thao tác
nhúng thơng tin bản quyền. Vì vậy phần mềm DOC to Image Converter được
22


lựa chọn để chuyển đổi định dạng từ Microsoft Word sang PostScript. DOC to
Image Converter là phần mềm thương mại, có bán tại Sau khi cài đặt phần mềm DOC to Image Converter
một thanh công cụ (toolbar) trong sẽ được kích hoạt. Sử dụng thanh cơng cụ
này để chuyển tập tin Microsoft Word hiện hành sang định dạng PostScript.

5.1.2. Tạo thông tin bản quyền

Thông tin bản quyền (thông tin bí mật) phải được chuyển sang dạng nhị
phân trước khi thực hiện nhúng vào tập tin sách tiếng Việt. Ngoài ra, trước khi
chuyển đổi sang mã nhị phân có thể sử dụng thêm các phương pháp mã hóa dữ
liệu nhằm đảm bảo chỉ những người có đủ quyền mới hiểu được thông tin bản
quyền [22].
5.1.3. Nhúng thông tin vào tập tin PostScript

PostScript là ngôn ngữ mô tả trang in nên việc biểu diễn dữ liệu chỉ quan
tâm tới vị trí các đối tượng đồ họa trong văn bản. Trong văn bản, các ký tự
chính là các đối tượng đồ họa. Các hàng, các đoạn văn bản chỉ khác nhau về vị
trí tọa độ khi hiển thị do đó rất khó phân biệt giữa các hàng, các đoạn văn bản
với nhau. Trong q trình nhúng thơng tin vào văn bản, các bit dữ liệu sẽ được
nhúng liên tục vào văn bản theo thứ tự từ trái qua phải và từ trên xuống dưới.
Chuỗi bit thông tin bản quyền sẽ được nhúng xoay vịng. Dịch chuyển được
một phần ký tự có nghĩa là nhúng được 2 (hai) hoặc 4 (bốn) bit. Khi nhúng đến
chuỗi bit cuối thì tiếp tục nhúng từ chuỗi bit đầu tiên.
Khoảng cách dịch chuyển các phần ký tự trong tập tin sách tiếng Việt để
nhúng thông tin phải dung hòa giữa hai yếu tố: đủ nhỏ để tài liệu đã nhúng
thơng tin có sự thay đổi khơng đáng kể nhằm đảm bảo tính thẩm mỹ của văn
bản, đủ lớn để thuận tiện trong việc lấy lại thông tin đã nhúng. Tập tin
PostScript được sinh ra bởi phần mềm Doc to Image Converter cho phép thay
đổi vị trí biểu diễn một đối tượng với độ chính xác 1/1200 inch. Qua thử
nghiệm tôi thấy sử dụng khoảng cách dịch chuyển t1=1/300 inch và t2=1/150
inch là hợp lý.
5.1.4. Chuyển định dạng từ PostScript sang định dạng PDF

Tập tin sách tiếng Việt sau khi nhúng thơng tin bản quyền sẽ có định
dạng PostScript và có thể được sử dụng để in ấn ngay. Ngồi ra, nếu cần thiết

có thể chuyển tập tin sách tiếng Việt từ định dạng PostScript sang định dạng
PDF. PDF là định dạng được sử dụng rộng rãi trong thực tế (được sử dụng
nhiều trong mơi trường Internet). Có nhiều phần mềm hỗ trợ chuyển định dạng
PostScript sang định dạng PDF như: Adobe Acrobat, GhostScript...
GhostScript là phần mềm mã nguồn mở có thể tải xuống từ địa chỉ
www.ghostscript.com. Vì vậy, chọn sử dụng phần mềm GhostScript để chuyển
đổi định dạng.
23


5.2.

Xây dựng ứng dụng rút trích thơng tin

Khi cần kiểm tra, sách sẽ được quét sang dạng hình ảnh và được xử lý để
lấy lại thông tin bản quyền. Ảnh sẽ được lưu với với định dạng Bitmap (.bmp),
ảnh xám (graysacle) 8 bit. Trong quá trình xử lý hình ảnh với độ phân giải càng
cao sẽ cho thông tin càng chính xác. Tuy nhiên, khi độ phân giải cao thì thời
gian xử lý sẽ lớn. Qua thực nghiệm, chúng tôi lựa chọn độ phân giải hình ảnh là
300 DPI. Quá trình lấy lại thơng tin đã nhúng được thực hiện theo giải thuật
được biểu diễn trên Hình 5.2.
Bước 1: Đọc tập tin hình ảnh lấy ra các dịng văn bản
Bước 2: Xét từng dòng văn bản. Mỗi dòng văn bản thực hiện các
công việc sau:
− Lấy một ký tự trong dòng văn bản theo chiều từ trái sang phải
ra xem xét
− Dựa vào các mặt nạ xây dựng để nhận dạng ra các dấu tiếng
Việt. Khi nhận dạng được dấu thì sẽ tính khoảng cách từ dấu
tới ký tự hoặc dấu phía dưới để tính ra chuỗi bit đã nhúng
Hình 5.2 - Giải thuật lấy lại thông tin đã nhúng


Nhận dạng ra các dòng văn bản bằng cách xét các pixel theo từng tọa độ
từ lề trái qua lề phải văn bản:
− Nếu tất cả các pixel trên đường thẳng pixel từ lề trái sang lề phải
đều có giá trị màu là trắng thì coi là khoảng trống.
− Nếu có pixel có giá trị màu khác màu trắng thì vùng dữ liệu đó
thuộc trong một dịng văn bản.
Việc rút trích thông tin bản quyền trong ứng dụng thử nghiệm này dựa
vào bộ các mặt nạ nhận dạng các phần dịch chuyển (ví dụ như các dấu tiếng
Việt) xây dựng trước để nhận dạng ra các phần ký tự trong trong tập tin hình
ảnh. Khi nhận dạng ra phần ký tự dịch chuyển một dấu, khoảng cách từ dấu tới
ký tự nguyên âm hoặc các dấu mũ, dấu “ă” phía dưới sẽ được tính tốn để biết
lấy ra dữ liệu đã nhúng. Hình 5.3 thể hiện giao diện chính phần ứng dụng rút
trích thơng tin.

24


×