Tải bản đầy đủ (.pdf) (64 trang)

Nghiên cứu ứng dụng kỹ thuật giấu tin nhạy cảm cao để xác định tính toàn vẹn của tài liệu được quyets và lưu trữ dưới dạng số mã số v2018 02

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.75 MB, 64 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC MỞ HÀ NỘI

BÁO CÁO TỔNG KẾT

ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƯỜNG

NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT GIẤU TIN
NHẠY CẢM CAO ĐỂ XÁC ĐỊNH TÍNH TỒN VẸN
CỦA TÀI LIỆU ĐƯỢC QUÉT VÀ LƯU TRỮ DƯỚI
DẠNG SỐ
Mã số: V2018-02

Chủ nhiệm đề tài: TS. Nguyễn Đức Tuấn

Hà Nội, 04/2019


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC MỞ HÀ NỘI

BÁO CÁO TỔNG KẾT

ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƯỜNG

NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT GIẤU TIN
NHẠY CẢM CAO ĐỂ XÁC ĐỊNH TÍNH TỒN VẸN
CỦA TÀI LIỆU ĐƯỢC QUÉT VÀ LƯU TRỮ DƯỚI
DẠNG SỐ
Mã số: V2018-02


PTK. Phụ trách Khoa CNTT

Hà Nội, 04/2019

Chủ nhiệm đề tài


DANH SÁCH THÀNH VIÊN THAM GIA NGHIÊN CỨU ĐỀ TÀI

TT

Họ và Tên

Đơn vị công tác

Nội dung nghiên cứu cụ
thể được giao

1

Nguyễn Đức Tuấn

Khoa CNTT

Chủ nhiệm đề tài

2

Lê Hữu Dũng


Khoa CNTT

Thiết kế cơ chế trao đổi khoá,
được dùng để mã hoá thông
tin


MỤC LỤC
TÓM TẮT KẾT QUẢ NGHIÊN CỨU ....................................................................... 1
PHẦN MỞ ĐẦU ........................................................................................................... 3
1.1. Tính cấp thiết của đề tài ............................................................................................................ 3
1.2. Tình hình nghiên cứu của đề tài ............................................................................................... 3
1.2.1. Ngoài nước ........................................................................................................................... 3
1.2.2. Trong nước ........................................................................................................................... 5
1.3. Mục tiêu ...................................................................................................................................... 5
1.4. Phương pháp nghiên cứu .......................................................................................................... 6
1.5. Nội dung nghiên cứu .................................................................................................................. 6

PHẦN NỘI DUNG ....................................................................................................... 7
CHƯƠNG 1: CÁC TÀI LIỆU THƯỜNG ĐƯỢC SỐ HOÁ TẠI ĐẠI HỌC MỞ
HÀ NỘI.......................................................................................................................... 7
1.1. Các tài liệu thường được số hoá và gửi đi thông qua thư điện tử tại Trường Đại học Mở
Hà Nội ................................................................................................................................................ 7
1.2. Các đặc tính của các tài liệu được số hoá ................................................................................ 9

CHƯƠNG 2: TỔNG QUAN VỀ GIẤU TIN TRONG ẢNH SỐ ............................ 11
2.1. Giấu tin ..................................................................................................................................... 11
2.2. Ẩn giấu thông tin vào ảnh số .................................................................................................. 12
2.2.1. Các yếu tố được xem xét trong các kỹ thuật giấu tin vào ảnh số ....................................... 13
2.3. Các định dạng ảnh số phổ biến............................................................................................... 14

2.3.1. Ảnh số được biểu diễn (lưu trữ) trong máy tính................................................................. 14
2.3.2. Ảnh số định dạng không nén .............................................................................................. 15
2.3.3. Ảnh số định dạng nén (mất dữ liệu) ................................................................................... 19
2.4. Các phương án giấu tin trong miền giá trị/không gian của ảnh số ..................................... 23
2.4.1. Kỹ thuật giấu tin vào các bit có trọng số thấp (Least Significant Bit) ............................... 23
2.4.2. Kỹ thuật giấu tin lựa chọn theo điều kiện .......................................................................... 24
2.4.3. Kỹ thuật giấu tin dựa trên sự sai khác giữa các điểm ảnh (Pixel Value Differencing –
PVD)............................................................................................................................................. 25
2.4.4. Kỹ thuật giấu tin dựa trên bảng màu .................................................................................. 26
2.5. Kỹ thuật giấu tin trong miền tần số ....................................................................................... 26
2.5.1. Kỹ thuật giấu tin dựa trên LSB .......................................................................................... 26
2.5.2. Kỹ thuật giấu tin theo khối (matrix embedding) ................................................................ 27

CHƯƠNG 3: CÁC GIẢI PHÁP XÁC ĐỊNH TÍNH TỒN VẸN CỦA ẢNH SỐ 31
3.1. Giả mạo ảnh trong lịch sử ....................................................................................................... 31
3.2. Ảnh số và tính tồn vẹn ........................................................................................................... 32
3.3. Các kỹ thuật phát hiện chỉnh sửa ảnh số ............................................................................... 34
3.3.1. Kỹ thuật phân tích phát hiện chủ động ............................................................................... 34
3.3.2. Kỹ thuật phân tích phát hiện bị động ................................................................................. 34

CHƯƠNG 4: LƯỢC ĐỒ GIẤU TIN NHẠY CẢM VÀ ỨNG DỤNG ................... 37
4.1. Các phép biểu diễn nhị phân trong máy tính ........................................................................ 37
4.1.1. Mã nhị phân - Pure binary code ......................................................................................... 37
4.1.2. Mã Gray (mã nhị phân phản xạ - Canonical Gray Code)................................................... 37
4.2. Giấu tin theo khối lựa chọn thích nghi .................................................................................. 38
4.3. Lược đồ giấu tin theo khối lựa chọn thích nghi .................................................................... 39
4.3.1. Thuật tốn nhúng tin theo khối lựa chọn thích nghi........................................................... 39
4.3.2. Ứng dụng lược đồ trong việc xác định tính toàn vẹn của tài liệu ...................................... 40
4.4. Ứng dụng ký và xác định tính tồn vẹn của tài liệu ............................................................. 41



4.4.1. Cơ chế chuyển giao khoá: .................................................................................................. 41
4.4.2. Các chức năng cơ bản của hệ thống ................................................................................... 43
4.4.3. Giao diện người dùng ......................................................................................................... 44
4.4.4. Chất lượng cảm quan và tính an ninh của ảnh quét tài liệu đã được nhúng tin ................. 47
4.4.5. An ninh trước dạng tấn cơng trích lọc ................................................................................ 50
4.4.6. Hiệu năng hoạt động: ......................................................................................................... 50

KẾT LUẬN VÀ KIẾN NGHỊ .................................................................................... 52
TÀI LIỆU THAM KHẢO.......................................................................................... 54


DANH MỤC BẢNG BIỂU
Bảng 2-1. Các tuỳ chọn màu của định dạng PNG ................................................................... 17
Bảng 4-1. Bảng gom nhóm các chức năng cụ thể.................................................................... 43
Bảng 4-2. Thời gian thực hiện nhúng chữ ký .......................................................................... 50
Bảng 4-3. Thời gian thực hiện xác nhận chữ ký ...................................................................... 51


DANH MỤC CÁC CHỮ VIẾT TẮT
Chữ viết
Ý nghĩa
tắt
1. Tiếng Việt
CNTT
Công nghệ Thông tin
CSDL
Cơ sở dữ liệu
2. Tiếng Anh
JPEG

Joint Photographic Experts Group
DWT
Discrete Wavelet Transformation (phép biến đổi wavelet rời rạc)
DCT
Discrete Cosine Transformation (phép biển đổi cô sin rời rạc)
ROI
Region of Interest (vùng quan tâm)
SHA
Secure Hash Algorithm (thuật toán băm an ninh)
MD5
Message Digest 5 (thuật tốn băm 5)
LSB
Least Significant Bit (bit có trọng số thấp nhất)
AES
Advanced Encrytion Standard (chuẩn mã hoá tiên tiến)
RGB
Red Gren Blue (3 thành phần màu của một điểm ảnh)
GIF
Graphic Interchange Format
PNG
Portable Network Graphics
PGM
Portable Graymap
TIFF
Tagged Image File Format
RLE
Run Length Encoder (thuật toán nén dữ liệu đơn giản dựa trên độ dài)
PVD
Pixel Value Differencing (sai khác về giá trị của điểm ảnh)
ME

Matrix Embedding (nhúng tin theo khối)
MME
Modified Matrix Embedding (nhúng tin theo khối điều chỉnh)
SVD
Singular Value Decomposition (phép phân tích)
PCA
Principle Component Analysis (phân tích thành phần chính)
PBC
Pure Binary Code (mã Nhị phân quy ước)
CGC
Canonical Gray Code (mã Gray phản xạ)
AC
Hệ số AC
DC
Hệ số DC (hệ số DCT lớn nhất)
PNRG
Pseudorandom Number Generator (bộ sinh số giả ngẫu nhiên)
dB
Đơn vị Decibel
PSNR
Peak signal-to-noise ration (tỉ số tín hiệu cực đại trên nhiễu)
MSE
Mean squared error (sai số tồn phương trung bình)
PDF
Portable Document Format


DANH MỤC CÁC HÌNH ẢNH
Hình 1.1. Một phần của cơng văn về việc triển khai kế hoạch hoạt động NCKH ..................... 8
Hình 1.2. Một phần của thơng báo về kết quả và công tác trao giải Cuộc thi Olympic Tin học

.................................................................................................................................................... 8
Hình 1.3. Một phần của Kế hoạch tổ chức xét giải sinh viên nghiên cứu khoa học .................. 9
Hình 1.4. Một phần của Danh mục các môn/học phần xin xét miễn ......................................... 9
Hình 2.1. Ảnh dạng bitmap (mành) và ảnh dạng véc-tơ [14] .................................................. 15
Hình 2.2. Ảnh dạng sử dụng bảng màu [16] ............................................................................ 16
Hình 2.3. Ảnh PNG sử dụng bảng màu (color palette) [18] .................................................... 17
Hình 2.4. Cách màu sắc được biểu diễn trong ảnh PNG [20].................................................. 18
Hình 2.5. Thuật tốn nén ảnh JPEG [24] ................................................................................. 20
Hình 2.6. Thuật tốn nén ảnh JPEG-2000 ............................................................................... 21
Hình 2.7. Mã dữ liệu theo dạng Zig-zig [26]. .......................................................................... 22
Hình 2.8. 3 bit dữ liệu được ẩn giấu bằng phương pháp LSB vào 3 byte dữ liệu mang.......... 23
Hình 2.9. Cách các giá trị màu của điểm ảnh được lưu trữ trong ảnh chỉ mục [30] ................ 26
Hình 3.1. Ảnh chân dung tổng thống Mỹ Abraham Lincoln và ảnh chỉnh sửa [35] ............... 31
Hình 3.2. Số tiền đã bị chỉnh sửa trong ảnh số (được quét bởi máy quét) của tấm séc [36] ... 33
Hình 3.3. Hoạt động thử tên lửa của Iran đã bị chỉnh sửa [37]................................................ 33
Hình 4.1. Sơ đồ khái niệm của hệ thống kiểm tra tính tồn vẹn của tài liệu quét ................... 40
Hình 4.2. Sơ đồ chuyển giao khố ........................................................................................... 42
Hình 4.3. Sơ đồ phân cấp chức năng Hệ thống xác thực tính tồn vẹn của ảnh qt tài liệu .. 43
Hình 4.4. Giao diện thực đơn ngữ cảnh với ứng dụng HOU-DIGI-VERI .............................. 45
Hình 4.5. Giao diện rút gọn của ứng dụng HOU-DIGI-VERI................................................. 45
Hình 4.6. Giao diện đầy đủ của ứng dụng HOU-DIGI-VERI ................................................. 46
Hình 4.7. Ảnh quét và ảnh kết quả sau khi ký ......................................................................... 48
Hình 4.8 Ảnh gốc trong thư viện SIPI và ảnh đã được ký ....................................................... 49


TÓM TẮT KẾT QUẢ NGHIÊN CỨU
Tên đề tài: Nghiên cứu ứng dụng kỹ thuật giấu tin nhạy cảm cao để xác định tính
tồn vẹn của tài liệu được qt và lưu trữ dưới dạng số.
Mã số: V2018-2
Chủ


nhiệm

đề

tài:

Nguyễn

Đức

Tuấn.

Tel:

0902260782.

E-mail:


Cơ quan chủ trì đề tài: Trường Đại học Mở Hà Nội
Cơ quan và cá nhân phối hợp thực hiện: ThS. Lê Hữu Dũng, Khoa Công nghệ
Thông tin.
Thời gian thực hiện: 04/2018 – 05/2019
Mục tiêu:
- Nghiên cứu phát triển một lược đồ giấu tin vào ảnh số nhạy cảm với các biến đổi
nhỏ trên đối tượng mang tin.
- Xây dựng một phần mềm ứng dụng lược đồ giấu tin vào ảnh số để xác định tính
tồn vẹn của các tài liệu in, được qt và lưu trữ dưới dạng ảnh số.
Nội dung chính

Nghiên cứu các thuật tốn nhúng tin vào ảnh số. Sau đó xác định, thuật toán phù
hợp để ứng dụng trong phát hiện sửa đổi. Dựa trên các thơng tin đó, nghiên cứu thiết kế
lược đồ ẩn giấu thông tin vào ảnh số, có độ nhạy cảm cao, khi có bất kỳ sự thay đổi nào
dù nhỏ của đối tượng mang tin (ảnh số) cũng sẽ làm thay đổi dữ liệu được nhúng bởi
thuật tốn. Từ đó, ứng dụng để xác định tính tồn vẹn của tài liệu in được số hố bằng
máy qt thơng qua một phần mềm. Phần mềm cịn cho phép ký các tài liệu thông qua
các chuỗi định danh tài liệu được cung cấp trong tài liệu. Nếu ảnh quét tài liệu bị chỉnh
sửa (dù là nhỏ), thì phần mềm sẽ khoanh vùng các khu vực bị chỉnh sửa trong ảnh quét
của tài liệu.
Kết quả đạt được:
1. Kết quả nghiên cứu
-

Một lược đồ ẩn giấu thơng tin có độ nhạy cảm cao trước các biến đổi nhỏ
trên các đối tượng mang tin.

-

Một cơ chế chuyển giao khoá dùng để mã hoá chữ ký.
1


2. Sản phẩm
-

Sản phẩm ứng dụng: 01 phần mềm ứng dụng để ký và gửi các ảnh số được
số hoá bởi máy quét. Từ đó xác định được liệu tài liệu đó là nguyên bản
hay đã bị chỉnh sửa (với phép chỉnh sửa dù là nhỏ nhất).

-


Sản phẩm khoa học: 01 bài báo trên tạp chí trong danh mục được tính điểm
bởi hội đồng chức danh giáo sư nhà nước, “Lược đồ giấu tin an ninh theo
khối cải tiến trên nhiều lớp bít của ảnh số sử dụng mã Gray phản xạ”, số 13
(04/2019) chuyên sang Công nghệ Thông tin và Truyền thơng, thuộc Tạp
chí Khoa học và Kỹ thuật, Học viện Kỹ thuật Quân sự.

-

Sản phẩm đào tạo:
o 01 đề tài nghiên cứu khoa học sinh viên “Nghiên cứu thuật toán
giấu tin theo khối và ứng dụng vào bài tốn kiểm tra tính tồn vẹn
của ảnh số”. Đề tài đã đạt giải Nhì NCKH SV cấp Khoa và giải B
NCKH SV cấp Trường.
o 01 luận văn thạc sỹ của học viên Nguyễn Thị Tươi với đề tài
“Nghiên cứu thuật tốn giấu tin điều chỉnh thích nghi trong ảnh số
và ứng dụng để phân phối khoá đối xứng”. Đề tài đã được bảo vệ
thành công vào ngày 12/05/2019 trước hội đồng theo quyết định
1821/QĐ-ĐHM.

2


PHẦN MỞ ĐẦU
1.1. Tính cấp thiết của đề tài
Hiện nay, với sự phát triển mạnh mẽ của công nghệ truyền tải dữ liệu, rất nhiều tổ
chức cá nhân đã sử dụng các dịch vụ Internet để chuyển đi rất nhiều thơng tin có giá trị.
Tại các cơ quan, tổ chức, doanh nghiệp, để nhanh chóng gửi đi các văn bản (cơng văn,
quyết định) có tính cấp bách, cần phải triển khai sớm đến các bộ phận, phòng ban, trung
tâm ở xa, các tài liệu này sẽ được quét bằng máy quét, lưu trữ dưới dạng ảnh số và gửi

đi thông qua email.
Tuy nhiên, hiện nay, đa phần các cơ quan, tổ chức đều sử dịch các dịch vụ thư điện
tử (email) cơng cộng, được cung cấp miễn phí (Google Mail, Yahoo Mail,…). Vì vậy,
các tài liệu này sẽ đối mặt với rất nhiều nguy cơ bị tiến công, chỉnh sửa nội dung thông
qua các phần mềm xử lý ảnh khi các tài liệu này được chuyển qua môi trường Internet.
Các chỉnh sửa này sẽ có thể gây ra nhiều thiệt hại khi mà người nhận khơng có cách nào
xác định được các thơng tin bên trong tài liệu có phải là thơng tin gốc hay khơng. Điều
này gặp nhiều khó khăn khi mà các thông tin được hiển thị ở dạng hình ảnh và khơng
có ảnh gốc để đối chiếu.
Vì vậy, trong đề tài này, các kỹ thuật giấu tin độ nhạy cảm cao trước các biến đổi
được áp dụng trên đối tượng mang tin được nghiên cứu. Từ đó, phát triển một giải pháp
để ứng dụng các thuật toán giấu tin trong việc xác định tính tồn vẹn của các ảnh quét
của các tài liệu in.
1.2. Tình hình nghiên cứu của đề tài
1.2.1. Ngồi nước
Đã có một số phương pháp được đề xuất, dựa trên các thuật toán giấu tin để
kiểm định tính tồn vẹn của thơng tin khi chúng được truyền gửi qua mạng Internet.
Để có thể xác định được tính tồn vẹn của các tài liệu in được số hố (thơng
qua máy qt) và lưu trữ dưới dạng ảnh số, nhóm tác giả [1] đã đề xuất một giải pháp
để xác định tính tồn vẹn của các tài liệu này. Trong giải pháp này, nhóm tác giả thực
hiện nhúng chính nội dung của văn bản vào ảnh qt của chính nó (từ bản in) để có thể
xác định được nội dung có bị chỉnh sửa hay khơng.

3


Trong [2], các tác giả đã sử dụng hàm băm để tạo dữ liệu tóm lược từ nguồn
dữ liệu ban đầu, sau đó ẩn giấu dữ liệu băm này bên trong ảnh số. Nếu ảnh mang tin bị
thay đổi thì dữ liệu ẩn giấu bên trong nó cũng sẽ bị thay đổi theo. Từ đó xác định được
sự tồn vẹn của ảnh mang tin. Tuy nhiên, nhóm tác giả đã chèn mã băm của từ ảnh quét

của tài liệu vào phần dữ liệu của ảnh, sau Start of Marker và trước End of Marker. Đây
là hai dữ liệu đánh dấu điểm bắt đầu và kết thúc của dữ liệu ảnh trong một tệp ảnh; phân
biệt với các thông tin phụ trợ của ảnh số. Cách thức này dễ dàng bị kẻ tiến công phát
hiện và thay thế mã băm bằng một mã khác để đánh lừa bộ phận xác định tính tồn vẹn
dữ liệu của hệ thống. Bất cứ ai có một chút kiến thức về cơng nghệ thơng tin đều có thể
sử dụng một số cơng cụ để mở tệp ảnh dưới dạng nhị phân. Từ đó dễ dàng xác định
được vùng dữ liệu được chèn thêm vào tệp định dạng ảnh.
Để tăng cường khả năng xác định tính toàn vẹn của ảnh số, trong [3], các tác
giả đã giới thiệu một phương pháp trích lọc các đặc tính (đặc trưng) của ảnh, từ đó có
thể xác định được sự thay đổi của ảnh. Bằng cách so sánh các đặc trưng được trích lọc
từ ảnh nghi vấn với các đặc trưng thường có trong các ảnh số (được tổng hợp trong một
tập các thuộc tính), có thể xác định được tính tồn vẹn của ảnh số. Tuy nhiên, phương
pháp này không thể chỉ ra được vùng nào của ảnh đã bị thay đổi/chỉnh sửa.
Đối với lĩnh vực y học, việc chữa bệnh từ xa hiện nay đã khá phổ biến. Các
hình ảnh về bệnh nhân được truyền đi thơng qua Internet đến các bác sĩ ở cách xa hàng
nghìn kilơ-mét. Thật khơng may, các hình ảnh này có thể bị can thiệp, chỉnh sửa, làm
sai lệch các chuẩn đoán của các bác sĩ nếu nó khơng được truyền thơng qua một kênh
an tồn. Vì vậy, nhóm tác giả [4], đã giới thiệu một phương pháp xác định tính tồn vẹn
của ảnh chụp trong Y học. Đầu tiên, vùng ảnh quan trọng (ROI – Region of Interest),
được trích xuất và được băm bởi thuật tốn mật mã MD5, sau đó dữ liệu băm sẽ được
ẩn giấu vào trong ảnh y khoa. Mọi thay đổi được áp dụng trên ảnh y khoa sẽ làm thay
đổi dữ liệu băm được giấu bên trong nó. Tuy nhiên, giải pháp này phải được thực hiện
một cách cẩn thận nếu không việc nhúng tin sẽ làm thay đổi chính các vùng ảnh quan
trọng.
Tương tự, các tác giả trong [5] cũng đưa ra giải pháp sử dụng ROI của ảnh
y khoa, sau đó thực hiện việc băm dữ liệu ROI thơng qua thuật tốn SHA (Secure Hash
Algorithm), một thuật tốn băm có độ an tồn cao hơn MD5 khi loại bỏ được sự đụng
4



độ trong thuậ toán MD5. Tiếp theo, dữ liệu băm sẽ được giấu vào ảnh bằng kỹ thuật
giấu tin dựa trên biến đổi wavelet rời rạc. Việc xác định tính toàn vẹn của ảnh được
thực hiện bằng cách so sánh dữ liệu băm nhận được (thơng qua kênh chuyển khố) và
dữ liệu băm trích xuất từ ảnh.
1.2.2. Trong nước
Có khá nhiều các giải pháp ẩn giấu thông tin đã được đề xuất. Chẳng hạn,
để tạo ra một kênh truyền tin an toàn, các tác giả trong tài liệu [6] đã đề xuất một giải
pháp giấu tin dựa trên thuật toán LSB (sử dụng các bit có trọng số thấp) áp dụng cho
ảnh màu 24 bit. Dữ liệu cần giấu sẽ được mã hoá bằng thuật toán AES trước khi được
nhúng vào ảnh số. Tuy nhiên, giải pháp này sẽ tạo ra sự biến đổi có thể nhận biết được
(bằng phương pháp dựa trên thống kế) do các LSB của các điểm ảnh sẽ được thay thế
bởi dữ liệu.
Bài báo [7] đề xuất một phương pháp ẩn giấu thông tin trong lưới 3D. Từ
một đối tượng lưới tam giác 3D, chọn một tam giác ban đầu và một cạnh ban đầu trong
tam giác đó. Sau đó dựa trên một quan hệ giữa các tam giác này trong lưới để ẩn giấu
thông tin. Phương pháp nhúng tin này không phù hợp để áp dụng cho các ảnh số thơng
thường vì phải sử dụng các ảnh số với các tam giác được sinh.
Các tác giả trong tài liệu [8] lại đưa ra một phương pháp ẩn giấu thông tin
dựa trên bảng màu cho ảnh GIF. Với phương pháp này, việc giấu tin được thực hiện
bằng thay đổi các bít có trọng số thấp của các điểm ảnh. Tuy nhiên, việc này sẽ cần phải
được thực hiện một cách cẩn thận. Vì việc thay đổi có thể khiến điểm ảnh được liên kết
đến một màu khác hoàn toàn trong bảng màu được sử dụng trong ảnh GIF.
Các tác giả trong tài liệu [9] lại đưa ra giải pháp sử dụng kỹ thuật nhúng tin
trong dữ liệu âm thanh (audio) để ứng dụng cho việc bảo vệ bản quyền audio và truyền
thông tin mật bằng audio.
Tuy nhiên, chưa có nhiều giải pháp mà các thuật tốn giấu tin được ứng dụng
để xác định tính tồn vẹn của ảnh số.
1.3. Mục tiêu
Nghiên cứu các thuật toán nhúng tin vào ảnh số. Sau đó xác định, thuật toán phù
hợp để ứng dụng trong phát hiện sửa đổi. Dựa trên các thơng tin đó, nghiên cứu thiết kế

lược đồ ẩn giấu thơng tin vào ảnh số, có độ nhạy cảm cao, khi có bất kỳ sự thay đổi nào
5


dù nhỏ của đối tượng mang tin (ảnh số) cũng sẽ làm thay đổi dữ liệu được nhúng bởi
thuật toán. Từ đó, ứng dụng để xác định tính tồn vẹn của tài liệu in được số hố bằng
máy qt thơng qua một phần mềm. Phần mềm còn cho phép ký các tài liệu thông qua
các chuỗi định danh tài liệu được cung cấp trong tài liệu. Nếu ảnh quét tài liệu bị chỉnh
sửa (dù là nhỏ), thì phần mềm sẽ khoanh vùng các khu vực bị chỉnh sửa trong ảnh quét
của tài liệu.
1.4. Phương pháp nghiên cứu
Thực hiện nghiên cứu các thuật toán giấu tin trong ảnh số đã được giới thiệu, ưu và
nhược của từng phương pháp.
Từ đó thực hiện cải tiến phương pháp phù hợp để xây dựng một lược đồ giấu tin
mới có thể ứng dụng vào việc kiểm thử tính tồn vẹn của tài liệu được quét ở dạng ảnh.
Phương pháp mới sẽ được triển khai thơng qua phần mềm, sau đó là q trình thực
nghiệm với nhiều dạng ảnh quét khác nhau của các tài liệu.
1.5. Nội dung nghiên cứu
- Nghiên cứu đặc điểm của các tài liệu thường được số hố (thơng qua máy quét)
tại các phòng ban, trung tâm của Trường.
- Nghiên cứu các giải pháp xác định tính tồn vẹn của thơng tin.
- Nghiên cứu các giao thức trao đổi khoá được sử dụng để mã hố thơng tin. Cụ
thể là để mã hoá chữ ký được ký vào trong ảnh của tài liệu.
- Nghiên cứu các giải pháp ẩn giấu thông tin có độ nhạy cảm cao. Tập trung vào
các thuật toán mà một thay đổi dù nhỏ nhất của dữ liệu mang tin cũng sẽ làm thay đổi
dữ liệu được nhúng.
- Nghiên cứu để áp dụng kỹ thuật ẩn giấu thơng tin có độ nhạy cảm cao trên ảnh
số.
- Nghiên cứu cơ chế xác định tính tồn vẹn của thơng tin sử dụng ẩn giấu thông
tin trong ảnh quét của tài liệu.


6


PHẦN NỘI DUNG

CHƯƠNG 1: CÁC TÀI LIỆU THƯỜNG ĐƯỢC SỐ HOÁ TẠI ĐẠI HỌC
MỞ HÀ NỘI
1.1. Các tài liệu thường được số hố và gửi đi thơng qua thư điện tử tại
Trường Đại học Mở Hà Nội
Trường Đại học Mở Hà Nội là một tổ chức hoạt động trong hệ thống trường đại học
quốc gia do Bộ Giáo dục và Đào tạo trực tiếp quản lý và được hưởng mọi quy chế của
một trường đại học công lập. Tuy nhiên, Nhà trường không được đầu tư [10] nhiều về
cơ sở vật chất như các cơ sở giáo dục công lập khác. Vì vậy, Nhà trường chưa có được
một địa điểm tập trung nên khu giảng đường của các Khoa chuyên môn thuộc Trường
Đại học Mở Hà Nội nằm rải rác khắp các quận của thành phố Hà Nội và một trung tâm
tại Đà Nẵng. Do vậy, khi có bất cứ văn bản nào được gửi đến thì bộ phận văn phòng
của các Khoa (tại nhà B101 Nguyễn Hiền), sẽ thực hiện việc số hố các tài liệu này
thơng qua máy quét (scanner), lưu trữ các tài liệu này dưới dạng ảnh số. Và các ảnh số
của các tài liệu sẽ được đính kèm và gửi đến các khu giảng đường, các cán bộ, giảng
viên của các Khoa thông qua thư điện tử.
Ngoài ra, trong các hoạt động quản lý và tổ chức đào tạo, có rất nhiều tài liệu được
số hố thơng qua máy qt, chẳng hạn như hồ sơ xin xét công nhận môn/học phần sẽ
được các trạm đào tạo chuyển về các Khoa chuyên môn thông qua email. Các hồ sơ này
gồm các ảnh quét của đơn xin xét công nhận, bảng điểm, bằng đại học, cao đẳng đã
được cơng chứng.
Các tài liệu thường được số hố và gửi đi là:
- Các công văn,

7



Hình 1.1. Một phần của cơng văn về việc triển khai kế hoạch hoạt động NCKH

- Các quyết định liên quan đến các hoạt động đào tạo, nhân sự,
- Các thông báo: về việc đặt viết bài, mời viết bài, các cuộc thi, các hoạt động xã
hội, các hoạt động nội bộ của các đơn vị trong Trường,

Hình 1.2. Một phần của thông báo về kết quả và công tác trao giải Cuộc thi Olympic Tin học

- Các quy định,
- Các bản dự thảo các quy định cần được lấy ý kiến đóng góp,
- Các kế hoạch cơng việc,

8


Hình 1.3. Một phần của Kế hoạch tổ chức xét giải sinh viên nghiên cứu khoa học

- Các văn bản liên quan đến quá trình đào tạo: danh sách sinh viên cùng với bảng
điểm phục vụ cho việc xét công nhận học phần cho sinh viên, danh sách sinh viên được
công nhận kết quả điểm rèn luyện, danh sách sinh viên được cơng nhận tốt nghiệp.

Hình 1.4. Một phần của Danh mục các môn/học phần xin xét miễn

1.2. Các đặc tính của các tài liệu được số hố
Các văn bản thường được số hoá bằng máy quét tại Trường Đại học Mở Hà Nội
thường có các đặc tính sau:
- Có thời hạn, cần được gửi đến các cơ sở của đơn vị trực thuộc một cách nhanh
chóng để triển khai thực hiện.

9


- Chứa nhiều thơng tin có giá trị, có ảnh hưởng lớn đến các hoạt động của các đơn
vị trong Trường. Hoặc ảnh hưởng đến việc ra quyết định đối với một hoạt động nào đó
vì thơng thường, các đơn vị sẽ dựa vào nội dung của các văn bản này để triển khai các
hoạt động.
- Tính nhạy cảm cao: sự tồn vẹn của thơng tin (ngày tháng, các con số) có ảnh
hưởng rất lớn đối với các hoạt động của các đơn vị nếu bị thay đổi.
- Có thể chứa thông tin định danh văn bản, chẳng hạn như số Thông báo, số Quyết
định, …
- Chứa các mốc thời gian/thời hạn. Nếu các mốc này bị chỉnh sửa sẽ dẫn đến những
chậm trễ trong quá trình thực hiện.

10


CHƯƠNG 2: TỔNG QUAN VỀ GIẤU TIN TRONG ẢNH SỐ
2.1. Giấu tin
Ẩn giấu thông tin là kỹ thuật được phát triển trong các cuộc chiến tranh của con
người để có thể gửi các thông tin quan trọng một cách an tồn. Cách đây hàng nghìn
năm, con người đã biết sử dụng các kỹ thuật giấu tin một cách thủ công. Trong cuộc
chiến giữa người Hy Lạp và Ba Tư, Histiaeus, một bạo chúa, khi bị giam cầm trong
ngục, đã thường xun gửi thơng điệp đến con rể của mình bằng cách cạo trọc đầu của
những người nô lệ và viết lên đó; đợi sau khi tóc của họ mọc lại thì gửi họ đến chỗ con
rể của mình [11]. Ngồi ra, các loại hố chất (nước xà phịng, coban clorua,…) cũng
được sử dụng như một loại mực vơ hình để viết các thơng điệp mật.
Khi máy tính được phát minh và cùng với sự phát triển mạnh mẽ của các cơng nghệ
truyền thơng, ngày càng có rất nhiều dữ liệu quan trọng được truyền đi trong môi trường
Internet. Lúc này, kỹ thuật sử dụng các hàm toán học để biến đổi đối tượng mang dữ

liệu nhằm thể hiện các bit dữ liệu của thông điệp cần giấu, được phát triển. Quá trình
nhúng tin tạo ra những thay đổi dựa trên những hạn chế trong hệ thống giác quan của
con người. Chẳng hạn, con người không thể phân biệt được sự thay đổi rất nhỏ về mức
xám của các điểm ảnh trong các ảnh sắc xám. Hoặc không thể nghe được các âm thanh
có tần số trên 20.000 Hz trong các tệp âm thanh.
Với sự phát triển mạnh mẽ của các cơng nghệ truyền dẫn, đặc biệt là mạng Internet,
có rất nhiều dữ liệu được truyền tải. Một trong những dữ liệu được truyền tải nhiều nhất
là dữ liệu đa phương tiện (ảnh số, âm thanh, vi-đê-ô). Đây là các dữ liệu phục vụ cho
việc trao đổi thơng tin, giải trí của rất nhiều người dùng thông qua các dịch vụ nghe
nhạc, xem film, hay truyền thông kỹ thuật số. Nhờ có các đường truyền chất lượng và
tốc độ cao, các dữ liệu đa phương tiện đã được cung cấp đến người dùng với chất lượng
cao hơn rất nhiều so với trước đây.
Cũng nhờ đó mà, tác giả, chủ sở hữu của các dạng dữ liệu này có thể thu hồi vốn
đầu tư và có lãi. Nhưng sự dễ dàng trong việc chia sẻ các tài nguyên này cũng tạo điều
kiện cho sự vi phạm bản quyền trên qui mô rộng lớn và với mức độ nghiêm trọng hơn.
Chính vì vậy, các kỹ thuật thuỷ vân số (Digital Watermarking) được phát triển để bảo

11


vệ bản quyền cho các dữ liệu đa phương tiện. Có rất nhiều các mơ hình thuỷ vân số
khác nhau cho từng loại nội dung đa phương tiện (ảnh số, vi-đê-ơ, và tín hiệu âm thanh).

2.2. Ẩn giấu thơng tin vào ảnh số
Là các kỹ thuật ẩn giấu thông tin được thực hiện bằng cách thay thế các dữ liệu của
ảnh số bởi các dữ liệu mật sao cho sự biến đổi trên các ảnh mang dữ liệu là nhỏ nhất.
Khi mà ảnh số là các đối tượng dữ liệu đa phương tiện được truyền tải phổ biến nhất
trên Internet, lại có sự dư thừa dữ liệu có thể sử dụng để giấu tin. Hay nói cách khác,
ảnh số chứa những thơng tin mà khi loại bỏ chúng thì người xem cũng khó có thể nhận
ra sự khác biệt giữa ảnh gốc và ảnh đã bị chỉnh sửa.

Đối với máy tính, ảnh số là một tập hợp các đối tượng có cường độ ánh sáng khác
nhau ở các khu vực khác nhau của hình ảnh. Các đối tượng này được biểu diễn dưới
dạng một lưới với các điểm được gọi là các điểm ảnh. Hầu hết ảnh số trên Internet chứa
một bản đồ các điểm ảnh nơi mà mỗi điểm ảnh được sắp đặt và màu của nó. Các điểm
ảnh có thể được hiển thị theo chiều ngang thành từng dòng liên tiếp nhau [12].
Số lượng bit trong một lược đồ màu (color scheme), được gọi là độ sâu màu (bit
depth), để chỉ số lượng bit được sử dụng để biểu diễn một điểm ảnh. Độ sâu màu thấp
nhất là 8, nghĩa là 8-bit được sử dụng để mô tả màu của mỗi điểm ảnh. Ảnh số có độ
sâu mà là 8 được gọi là ảnh xám với 256 mức độ xám. Các ảnh màu thường lưu trữ
trong các tệp 24-bit và sử dụng mơ hình màu RGB, hay cịn gọi là màu trung thực (true
color). Mỗi điểm ảnh được biểu diễn bởi 24-bit và được chia thành 03 thành phần màu:
Red (đỏ), Green (xanh lá cây) và Blue (xanh da trời). Với sự phối hợp của 03 thành
phần màu, mỗi điểm ảnh có thể thể hiện 16 triệu màu sắc khác nhau. Đây là định dạng
ảnh có khả năng mang nhiều bit tin vì sự thay đổi đối với các thành phần màu là khó
nhận biết. Vì vậy, các định dạng ảnh này được sử dụng phổ biến trong các thuật toán
giấu tin.
Tuy nhiên, với ảnh màu 24-bit (hoặc ảnh màu sử dụng nhiều bit hơn như 32-bit),
dung lượng lưu trữ sẽ cao và gặp nhiều khó khăn khi truyền đi trên Internet với mức
băng thơng hạn chế. Vì vậy, để giảm thiểu dung lượng của ảnh số, một số kỹ thuật đã
được phát triển. Các kỹ thuật này sử dụng các cơng thức tốn học để phân tích và cắt
bỏ dữ liệu hình ảnh, dẫn đến kích thước lưu của tệp ảnh sẽ được giảm thiểu. Quá trình
này gọi là nén ảnh.
12


Có 02 dạng nén ảnh là: mất và khơng mất dữ liệu. Cả hai dạng đều giúp tối ưu
không gian lưu trữ nhưng các thức thực hiện là khác nhau. Nén mất dữ liệu tạo ra các
tệp nhỏ hơn bằng cách loại bỏ các dữ liệu hình ảnh dư thừa từ ảnh gốc. Nó loại bỏ các
chi tiết nhỏ mà mắt người khó phân biệt được khi loại bỏ chúng ra khỏi ảnh số. Vì vậy,
ảnh kết quả sẽ gần giống với ảnh gốc nhất nhưng không phải là bản sao nguyên vẹn.

Một kỹ thuật nén phổ biến của dạng nén này là JPEG (Joint Photographic Experts
Group).
Ngược lại, dạng nén không mất dữ liệu không loại bỏ các thông tin từ ảnh gốc mà
là biểu diễn các dữ liệu này dưới dạng các cơng thức tốn học. Vì vậy, tính tồn vẹn của
ảnh gốc sẽ được duy trì và hình ảnh được giải nén sẽ giống y hệt hình ảnh gốc.
Q trình nén ảnh có một ảnh hưởng khơng nhỏ đối với việc lựa chọn các thuật toán
giấu tin để sử dụng. Các kỹ thuật dựa trên quá trình nén ảnh mất dữ liệu sẽ cho kết quả
là các tệp ảnh có kích thước nhỏ nhưng khả năng giấu tin cũng thấp trong khi lại dễ gây
mất mát dữ liệu.
2.2.1. Các yếu tố được xem xét trong các kỹ thuật giấu tin vào ảnh số
- Dung lượng giấu (embeding capacity): là số lượng bit tin tối đa có thể
nhúng vào một ảnh số. Yếu tố này thường bị giới hạn bởi số lượng các điểm ảnh, cũng
như các đặc điểm của ảnh mang. Nếu ảnh mang có nhiều vùng ảnh có độ phức tạp cao
thì việc nhúng một lượng dữ liệu nhiều hơn (so với một ảnh có nhiều vùng ảnh phẳng)
sẽ khơng tạo ra nhiều sự biến đổi có thể gây chú ý.
- An ninh chống phát hiện (security): là khả năng chống lại việc sự tồn tại
của tin giấu bên trong ảnh mang tin trước các phép tấn công phát hiện (dựa trên thống
kê và cảm quan).
- Chất lượng cảm quan (perceptual quality): là chất lượng cảm quan của
ảnh mang tin. Hay nói cách khác, đây khả năng mà con người có thể nhận biết được
bằng các giác quan của mình. Các ảnh có nhiều vùng ảnh phức tạp sẽ khiến người xem
khó nhận biết những thay đổi hơn.
Ba yếu tố trên có mối quan hệ ràng buộc lẫn nhau. Nếu tăng dung lượng tin
(số bit dữ liệu) được giấu, sẽ tạo ra nhiều suy biến/biến đổi hơn trên ảnh mang. Điều
này làm giảm tính an ninh của tin được giấu khi người xem có thể dễ dàng nhận biết

13


các nhiễu được tạo ra bởi quá trình nhúng tin dù chỉ có ảnh mang tin mà khơng cần có

ảnh gốc.
Trong trường hợp ngược lại, nếu giảm lượng tin giấu vào trong ảnh số thì
các suy biến gây ra bởi quá trình nhúng cũng được giảm thiểu. Vì vậy, chất lượng cảm
quan cũng như tính bí mật (an ninh) của tin được giấu cũng sẽ tăng lên.
Vì vậy, rất nhiều các nhà nghiên cứu đã thiết kế các thuật toán giấu tin với
mục tiêu là đạt được sự cân bằng giữa ba yếu tố trên. Hoặc tuỳ thuộc vào phạm vi áp
dụng của bài toán để lựa chọn tối ưu một yếu tố nào đó.

2.3. Các định dạng ảnh số phổ biến
2.3.1. Ảnh số được biểu diễn (lưu trữ) trong máy tính
Trong máy tính, một ảnh số là một mảng các số thể hiện độ sáng của rất
nhiều điểm (gọi là điểm ảnh). Các điểm ảnh này tạo nên dữ liệu ảnh dạng raster (mành
hoá) hay bitmap. Một ảnh thường có kích thước 640 x 480 điểm ảnh và 256 màu sắc
(hoặc là 8-bit dữ liệu được sử dụng để biểu diễn một điểm ảnh) [13]. Các ảnh có kích
thước như trên sẽ chứa một lượng 300 kilobits dữ liệu. Ngồi ra, ảnh số cũng được thể
hiện thơng qua các đoạn thẳng vào và đường cong được định nghĩa bằng các đối tượng
toán học gọi là véc-tơ.
Các điểm ảnh trong ảnh số dạng mành thường được biểu diễn bằng 8-bit, 24bit hoặc 32-bit. Với các ảnh 24-bit, các điểm ảnh sẽ là sự kết hợp của 3 thành phần màu
R (đỏ), xanh lá cây G (Green), và xanh da trời B (Blue). Trong khi đó, các ảnh 32-bit
sẽ có thêm thành phần thể hiện sự trong suốt Alpha.
Mỗi kênh màu R, G, và B trong không gian màu RGB sẽ được biểu diễn bởi
một con số, và con số này được thể hiện bởi một số các bit. Chẳng hạn, với ảnh sắc xám
(gray-scale), số lượng bit được sử dụng để biểu diễn một điểm ảnh là 8. Từ đây, chúng
ta có khái niệm bit-plane (lớp bit), được sử dụng để chỉ tất cả các bit tại một vị trí điểm
ảnh trên ảnh.

14


Hình 2.1. Ảnh dạng bitmap (mành) và ảnh dạng véc-tơ [14]


Các điểm ảnh của ảnh số dạng mành sẽ là nơi được sử dụng để ẩn giấu các
thông tin mật nhờ sự tương tự của màu sắc thể hiện bởi các điểm ảnh. Với hai điểm ảnh
khác nhau một đơn vị giá trị thì mắt người rất khó có thể phân biệt được.
Với ảnh dạng mành, chúng ta có các định dạng ảnh được sử dụng phổ biến
như JPEG (Joint Photographic Experts Group) /JFIF (JPEG File Interchange Format),
JPEG 2000, TIFF (Tagged Image File Format), GIF (Graphics Interchange Format),
BMP (BMP file Format/Windows bitmap), PNG (Portable Network Graphics), và PGM
(portable graymap). Các định dạng này lại được chia thành hai dạng lưu trữ không mất
dữ liệu (lossless) và mất dữ liệu (lossy). Hay còn được gọi là ảnh được biểu diễn theo
miền giá trị/không gian (spatial image) và miền tần số (frequency).
2.3.2. Ảnh số định dạng không nén
2.3.2.1. Định dạng ảnh GIF
Đây là định dạng ảnh được phát triển bởi lập trình viên Steve
Wilhite, khi ông đang làm việc tại một công ty cung cấp dịch vụ Internet là CompuServe
vào năm 1987 và sau đó định dạng này đã trở nên phổ biến trên thế giới nhờ tính khả
chuyển của nó [15]. Định dạng này hỗ trợ các điểm ảnh 8-bit, cho phép một ảnh đơn lẻ
có thể tham chiếu đến bảng màu của nó (với 256 màu được chọn từ khơng gian màu 24bit RGB).
Điều đặc biệt là định dạng này hỗ trợ dạng hoạt hoạ (hình ảnh chuyển
động) và cho phép một bảng màu riêng biệt (lên đến 256 màu) cho mỗi khung hình. Các
ảnh GIF được nén bằng thuật tốn Lempel-Ziv-Welch (LZW) khơng mất dữ liệu để
giảm kích thước của tệp mà không làm ảnh hưởng đến chất lượng cảm quan.
15


Hình 2.2. Ảnh dạng sử dụng bảng màu [16]

Một hạn chế của định dạng ảnh này là bất kỳ ai viết chương trình để
tạo ra nó hoặc để hiển thị các ảnh GIF đều phải trả tiền bản quyền. Có lẽ đây là lý do
cơ bản mà ảnh GIF thường ít khi được những nhà khoa học trong lĩnh vực ẩn giấu thông

tin sử dụng.
2.3.2.2. Định dạng ảnh PNG (Portable
Là định dạng ảnh mành (raster) hỗ trợ nén dữ liệu bảo toàn. PNG
được tạo ra như là một định dạng được cải tiến, thay thế cho định dạng GIF như là một
định dạng hình ảnh khơng u cầu được cấp quyền bởi người sở hữu khi sử dụng. Định
dạng này hiện nay đang được sử dụng rất phổ biến trên Internet [17].
PNG hỗ trợ ảnh dạng dựa trên bảng màu (palette-based image) với
các bảng màu 24-bit RGB hoặc 32-bit RGBA, ảnh sắc xám (hỗ trợ kênh alpha hoặc
không), và ảnh màu không sử dụng bảng màu.

16


Hình 2.3. Ảnh PNG sử dụng bảng màu (color palette) [18]

Các điểm ảnh trong ảnh PNG có thể chứa các dữ liệu mẫu dạng chỉ
số trong một bảng riêng (palette), hoặc dữ liệu mẫu, được mã hoá giữa một và bốn số.
Trong cả hai chế độ, các số được tham chiếu như là các kênh và mỗi giá trị trong ảnh
sẽ được mã bằng một kênh giống hệt nhau.
Các định dạng cho phép mã hoá mỗi một giá trị như là các số nguyên
dương sử dụng một số bit cố định, được đề cập đến trong đặc tả PNG như là độ sâu bit.
Cần chú ý, đây không phải là độ sâu màu và đại lượng này được tổng kết lại trong bảng
cùng với tổng số các bit được sử dụng cho mỗi một điểm ảnh [19].
Bảng 2-1. Các tuỳ chọn màu của định dạng PNG
Số bit cho một điểm ảnh
Tuỳ chọn màu (Color Option)

Các kênh (Channels)

Được đánh chỉ mục (Indexed)


Số bit trên kênh
1

2

4

8

16

1

1

2

4

8

Mức xám (Grayscale)

1

1

2


4

8

16

Mức xám và Alpha

2

16

32

Truecolor

3

24

48

Truecolor và Alpha

4

32

64


Giá trị của các kênh sẽ phụ thuộc vào ảnh là màu hay xám và nó có
kênh alpha hay khơng. PNG cho phép các kết hợp của các kênh (gọi là kiểu màu color
type).
Các kiểu màu được xác định bởi một giá trị 8-bit nhưng chỉ 3 bit
thấp trong đó được sử dụng:
17


×