Tải bản đầy đủ (.docx) (72 trang)

BẢO vệ bản QUYỀN CÔNG KHAI CHO cơ sở

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (917.13 KB, 72 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2

TRƯƠNG CÔNG KHANH

BẢO VỆ BẢN QUYỀN CÔNG KHAI CHO CƠ SỞ
DỮ LIỆU QUAN HỆ

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

HÀ NỘI, NĂM 2015


2
2

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2

TRƯƠNG CÔNG KHANH

BẢO VỆ BẢN QUYỀN CÔNG KHAI CHO CƠ SỞ
DỮ LIỆU QUAN HỆ
Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số

: số: 60 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS. LƯU THỊ BÍCH HƯƠNG



HÀ NỘI, NĂM 2015


3

LỜI CẢM ƠN
Trong thời gian thực hiện và nghiên cứu luận văn, tôi đã nhận được sự
giúp đỡ tận tình của các cơ quan, tổ chức, cá nhân. Tôi xin bày tỏ lòng cảm ơn
sâu sắc nhất tới các tập thể, cá nhân đã tạo điều kiện giúp đỡ tôi trong suốt
thời gian thực hiện và nghiên cứu luận văn.
Trước hết với lòng biết ơn chân thành sâu sắc nhất, tôi xin gửi lời cảm
ơn tới Cô giáo TS. Lưu Thị Bích Hương, người đã trực tiếp chỉ bảo, hướng
dẫn khoa học, người đã tận tình dạy dỗ và hướng dẫn tôi trong suốt quá trình
nghiên cứu, hoàn thành luận văn.
Tôi cũng xin được gửi lời cảm ơn tới các thầy giáo, cô giáo công tác tại
Viện công nghệ thông tin và Trường Đại học Sư phạm Hà Nội 2, những
người đã tận tình giảng dạy, truyền thụ cho tôi những kiến thức khoa học căn
bản trong quá trình học tập tại trường.
Cuối cùng, tôi xin gửi lời cảm ơn chân thành tới gia đình, bạn bè, các
đồng nghiệp đã động viên, sát cánh cùng tôi trong suốt quá trình học tập và
thực hiện nghiên cứu đề tài
Hà Nội, ngày … tháng … năm 2015

Học viên

Trương Công Khanh


4


LỜI CAM ĐOAN
Tên tôi là: Trương Công Khanh
Lớp: Cao học K17
Khóa học: 2013 - 2015
Chuyên ngành: Khoa học máy tính
Mã số chuyên ngành: 60 48 01 01
Tôi xin cam đoan rằng số liệu và kết quả nghiên cứu trong luận văn này
là trung thực và không trùng lặp với các đề tài khác. Tôi cũng xin cam đoan
rằng mọi sự giúp đỡ cho việc thực hiện luận văn này đã được cảm ơn và các
thông tin trích dẫn trong luận văn đã được ghi rõ nguồn gốc
Hà Nội, ngày … tháng … năm 2015
Học viên

Trương Công Khanh


5

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Từ viết tắt
CSDL
MSB
LSB
DB-CA
NHĐT
KT-ĐBCLGD

Từ đầy đủ
Cơ sở dữ liệu

Most Significant Bit (Bit ý nghĩa nhất)
Least Significant Bit (Bit ít ý nghĩa nhất)
Cơ quan đăng ký bản quyền
Ngân hàng đề thi
Khảo thí – Đảm bảo chất lượng giáo dục


6

DANH MỤC CÁC HÌNH VẼ


7

MỤC LỤC


8

MỞ ĐẦU
1.

Lý do chọn đề tài
Trong thực tế việc chứng minh quyền sở hữu đối với các cơ sở dữ liệu
quan hệ sau khi đã phân phối hoặc chuyển giao đang là một vấn đề quan trọng
trong các môi trường ứng dụng dựa trên Internet và trong nhiều ứng dụng
phân phối sản phẩm. Trong những năm gần đây, công nghệ thông tin phát
triển với tốc độ chóng mặt về cả phần cứng và phần mềm, đặc biệt là tốc độ
phát triển của Internet và các công nghệ có liên quan đã đưa đến một tiểm
năng chưa từng có đối với việc truy nhập và phân phối lại các sản phẩm kỹ

thuật số. Sự phát triển của công nghệ đa phương tiện với khả năng sao chép
mô phỏng đã mở ra nhiều hướng mới cho sự phát triển lược đồ thuỷ vân, đặt
biệt là lĩnh vực bảo mật cơ sở dữ liệu. Thuỷ vân cơ sở dữ liệu cũng không
nằm ngoài quy luật phát triển đó. Ban đầu, thuỷ vân được sử dụng để nhúng
vào các sản phẩm đa phương tiện như âm thanh, hình ảnh, video… Nhưng
hiện nay, thuỷ vân đã được ứng dụng vào một lĩnh vực hết sức mới mẻ có liên
quan đến quyền sở hữu trí tuệ. Đó là lĩnh vực thuỷ vân cơ sở dữ liệu quan hệ,
đây là một trong những lĩnh vực quan trọng và có ứng dụng nhiều trong cuộc
sống. Thuỷ vân đã được sử dụng với mong muốn có thể cho phép chứng minh
được tác giả và nguồn gốc của cơ sở dữ liệu để từ đó chứng minh dữ liệu là
chuẩn xác.
Xây dựng một hệ thống nhằm đáp ứng nhu cầu bảo vệ bản quyền ngân
hàng đề thi các học phần tại đơn vị công tác là mục tiêu để tôi thực hiện công
trình nghiên cứu của mình. Tôi mong muốn những kiến thức của tôi sẽ góp
phần vào việc nâng cao công tác Khảo thí, Đảm bảo chất lượng tại đơn vị
đang công tác, qua đó giúp nâng cao chất lượng Đào tạo tại trường Đại học
Thủ đô Hà Nội.


9

Xuất phát từ thực tế đó, em xin chọn đề tài “Bảo vệ bản quyền công
khai cho cơ sở dữ liệu quan hệ” để làm luận văn thạc sĩ dưới sự hướng dẫn
của TS. Lưu Thị Bích Hương.
2.

Mục đích nghiên cứu
Nghiên cứu tổng quan về thủy vân và lược đồ thủy vân sử dụng bit MSB
để bảo vệ bản quyền công khai cho cơ sở dữ liệu quan hệ, từ đó xây dựng
chương trình thử nghiệm để bảo vệ bản quyền cho ngân hàng đề thi các học

phần của trường Đại học Thủ đô Hà Nội.

3.

Nhiệm vụ nghiên cứu
- Tìm hiểu tổng quan về thủy vân.
- Lược đồ thủy vân sử dụng bit MSB để bảo vệ bản quyền công khai cho cơ
sở dữ liệu quan hệ.
- Cài đặt chương trình thử nghiệm.

4.

Đối tượng nghiên cứu
- Lược đồ thủy vân cơ sở dữ liệu quan hệ.

5.

Giả thuyết khoa học
Luận văn nếu hoàn thành sẽ góp phần nâng cao công tác Khảo thí, Đảm
bảo chất lượng tại đơn vị đang công tác, qua đó giúp nâng cao chất lượng Đào
tạo tại trường Đại học Thủ đô Hà Nội.

6.

Phương pháp nghiên cứu
- Tìm kiếm và nghiên cứu tài liệu liên quan, tiến hành phân tích, đánh giá và
đưa ra những đề xuất.
- Tiếp thu các kết quả nghiên cứu về mặt lý thuyết, trên cơ sở đó cài đặt thử
nghiệm, đánh giá và so sánh với những phương pháp, lược đồ thủy vân đã có.



10

Chương 1
TỔNG QUAN VỀ THỦY VÂN CƠ SỞ DỮ LIỆU QUAN HỆ
1.1. Một số khái niệm cơ bản
1.1.1. Thủy vân
Từ “thuỷ vân” có xuất xứ từ kỹ thuật đánh dấu nước thời xưa. Đây là kỹ
thuật đánh dấu chìm một hình ảnh, một logo, hay một dữ liệu nào đó lên trên
giấy nhằm mục đích trang trí và phân biệt được xuất xứ của sản phẩm giấy.
Như vậy, thông tin cần giấu được gọi là thuỷ vân (watermark). Thuỷ vân mô
tả thông tin có thể được dùng để chứng minh quyền sở hữu hoặc chống xuyên
tạc.
Có hai loại thuỷ vân, đó là: thuỷ vân bền vững và thuỷ dễ vỡ. Thuỷ vân
bền vững (robust watermark): Là thuỷ vân tồn tại bền vững cùng với dữ liệu,
không dễ dàng bị phá huỷ trước những biến đổi, tấn công lên dữ liệu. Các
lược đồ này thường được dùng trong các ứng dụng bảo vệ bản quyền, chứng
minh quyền sở hữu. Thuỷ vân dễ vỡ (fragile watermark): Là thuỷ vân dễ bị
biến đổi trước những biến đổi hay tấn công lên dữ liệu. Các lược đồ này
thường được dùng trong các ứng dụng chứng thực thông tin, đảm bảo sự toàn
vẹn dữ liệu.
1.1.2. Thủy vân cơ sở dữ liệu
Ngày nay, việc sử dụng các cơ sở dữ liệu trong các ứng dụng càng ngày
càng tăng lên đang tạo ra một nhu cầu tương tự đối với thủy vân cơ sở dữ liệu.
Internet ngày càng phát triển đưa đến một sức ép rất nặng nề cho những người
bảo vệ dữ liệu trong việc tạo ra các dịch vụ cho phép người sử dụng tìm kiếm
và truy cập cơ sở dữ liệu từ xa. Mặc dù xu hướng này là hữu ích cho người
dùng nhưng nó cũng bộc lộ một mối nguy hiểm cho những nhà cung cấp dữ



11

liệu trước những kẻ trộm cắp dữ liệu. Do đó, những người cung cấp dữ liệu
đòi hỏi phải có công nghệ nhận dạng được những bản sao của các cơ sở dữ
liệu của họ bị đánh cắp.
Cho dù có khá nhiều điều có thể kế thừa được từ các kết quả đã đạt
được về thủy vân đối với dữ liệu đa phương tiện nhưng cho đến nay vẫn còn
rất nhiều thách thức kỹ thuật mới đối với lĩnh vực thủy vân các cơ sở dữ liệu
quan hệ bởi vì các dữ liệu quan hệ và các dữ liệu đa phương tiện khác nhau ở
khá nhiều khía cạnh quan trọng. Ví dụ như, các phần khác nhau của một đối
tượng đa phương tiện không thể cắt bỏ hoặc thay thế một cách tùy ý mà
không gây ra những thay đổi về nội dung trong đối tượng. Ngược lại, việc
thêm, bớt và cập nhật các bộ của một quan hệ lại là những phép toán chuẩn
trong cơ sở dữ liệu. Do những khác nhau lớn này mà các lược đồ thủy vân
được phát triển cho các dữ liệu đa phương tiện không thể được sử dụng trực
tiếp để thủy vân các quan hệ.
Định nghĩa 1.1: Thủy vân cơ sở dữ liệu quan hệ [3].
Thủy vân cơ sở dữ liệu quan hệ là một kỹ thuật nhúng một số thông tin
nào đó (được gọi là thông tin thủy vân W) vào cơ sở dữ liệu quan hệ nhằm
mục đích bảo vệ bản quyền hoặc sự toàn vẹn cho cơ sở dữ liệu này. Thủy vân
có thể ở dạng ẩn hoặc hiện và có thể là bền vững hoặc dễ vỡ.
Một thuỷ vân có thể được áp dụng cho bất kỳ cơ sở dữ liệu quan hệ nào
có các thuộc tính mang một đặc điểm là những thay đổi nhỏ tại một số giá trị
của chúng không làm ảnh hưởng đến các ứng dụng.
Đối với hầu hết các cơ sở dữ liệu quan hệ trong đó có chứa các tham số
thì những sai lệch do hệ thống thuỷ vân gây ra có thể được điều chỉnh sao cho
chúng nằm trong miền dung sai của độ đo.
Để chủ sở hữu của cơ sở dữ liệu có thể giữ bí mật cho thông tin thủy vân
W và là người duy nhất có thể tìm lại được thông tin này thì cần phải trộn W



12

với một dữ liệu được gọi là khóa do chính chủ cơ sở dữ liệu lựa chọn. Thông
tin thứ hai này được gọi là khóa thủy vân và được chúng tôi định nghĩa như
sau:
Định nghĩa 1.2: Khóa thủy vân [3].
Khóa thủy vân là một lượng dữ liệu do chủ sở hữu cơ sở dữ liệu lựa chọn
và nhằm mục đích xác định thủy vân trong lược đồ thủy vân. Ký hiệu là K.
Khóa K sẽ được kết hợp với thủy vân W để nhúng vào cơ sở dữ liệu.
Khóa thủy vân chính là mấu chốt của lược đồ thủy vân cơ sở dữ liệu có sử
dụng khóa thủy vân.
Khóa thủy vân sẽ được nhúng vào trong cơ sở dữ liệu quan hệ bằng
nhiều cách. Thông thường khóa thủy vân sẽ được nhúng với dữ liệu trong cơ
sở dữ liệu quan hệ rồi đưa vào trong thuật toán sử dụng. Điều quan trọng ở
đây chính là việc ta giấu khóa thủy vân vào trong thuật toán như thế nào để
không bị phát hiện đồng thời có thể chứng minh được đây chính là cơ sở dữ
liệu quan hệ của mình. Hay nói cách khác, việc đưa khóa vào trong cơ sở dữ
liệu quan hệ là một trong những điểm quan trọng của bài toán bảo vệ bản
quyền và đảm bảo sự toàn vẹn dữ liệu trong cơ sở dữ liệu quan hệ có sử dụng
khóa.
1.1.3. Lược đồ thủy vân
Lược đồ thủy vân cơ sở dữ liệu quan hệ bao gồm 2 phần: nhúng thủy
vân và phát hiện thủy vân. Khi nhúng thủy vân, một khóa thủy vân K do chủ
sở hữu cơ sở dữ liệu tự chọn sẽ được sử dụng để nhúng thủy vân W vào cơ sở
dữ liệu gốc. Sau khi nhúng thủy vân, các cơ sở dữ liệu sẽ được đưa vào trong
môi trường Internet. Để xác minh quyền sở hữu của một cơ sở dữ liệu đáng
ngờ, quá trình xác minh cơ sở dữ liệu bị nghi ngờ được thực hiện như là đầu
vào và bằng cách sử dụng khóa thủy vân K (được sử dụng trong giai đoạn
nhúng) thủy vân nhúng (nếu có) được lấy ra và so sánh với các thông tin thủy



13

vân ban đầu. Hình 1.1 là sơ đồ mô tả lược đồ thủy vân cơ sở dữ liệu quan hệ
cơ bản [8]..
Khóa K
Cơ sở dữ liệu gốc

Nhúng thủy vân

Cơ sở dữ liệu đã nhúng thủy vân

Thông tin thủy vân (W)
Khóa K
Cơ sở dữ liệu nghi ngờ

Phát hiện thủy vân

Khẳng định đúng hoặc sai

Thông tin thủy vân (W)

Hình 1.1. Sơ đồ mô tả lược đồ thủy vân cơ sở dữ liệu quan hệ cơ bản
1.2. Các yêu cầu cơ bản của thuỷ vân trên cơ sở dữ liệu quan hệ
Chúng ta có thể thấy rằng thủy vân các dữ liệu quan hệ có những yêu cầu
kỹ thuật cao và có các ứng dụng thực tế có ý nghĩa xứng đáng được quan tâm
thích đáng từ phía cộng đồng những người nghiên cứu, phát triển cơ sở dữ
liệu. Cần phải xác định một hệ thống thủy vân và kèm theo đó là nghiên cứu,
phát triển các lược đồ thủy vân nhất định. Những lược đồ này chắc chắn là sẽ

kế thừa phần lớn từ các nguyên tắc thủy vân đang tồn tại.
Giả sử, A là chủ nhân của quan hệ R chứa η bộ, trong đó anh ta đã đánh
dấu ω bộ. Hệ thống thủy vân cần phải thỏa mãn những tính chất sau đây.


14

1.2.1 Khả năng có thể phát hiện (Detectability)
A cần phải có khả năng phát hiện thủy vân của anh ta bằng cách xem
xét ω bộ từ cơ sở dữ liệu nghi ngờ. Rõ ràng nếu mẫu bit (thủy vân) của anh ta
có mặt ở tất cả ω bộ thì anh có lý do chính xác để nghi ngờ có sự sao chép trái
phép. Tuy nhiên, A cũng có thể ngờ vực ngay cả khi mẫu của anh chỉ có mặt
ở ít nhất là τ bộ (τ ≤ ω), trong đó τ phụ thuộc vào ω và một giá trị α cho
trước, được gọi là mức ý nghĩa của phép thử. Giá trị của τ được xác định sao
cho xác suất để A sẽ tìm thấy mẫu bit của anh trong ít nhất τ bộ từ ω bộ là
nhỏ hơn α.
1.2.2 Tính bền vững (Robustness)
Các thủy vân cần phải bền vững trước những tấn công nhằm xóa bỏ
chúng. Ví dụ với tư cách là kẻ tấn công, B thay đổi ξ bộ trong quan hệ R của
A. Chúng ta nói rằng thủy vân là an toàn đối với tấn công này nếu kẻ tấn công
không thể phá hủy các dấu hiệu thủy vân ở ít nhất τ bộ, trong đó τ phụ thuộc
vào ω và α như đã nói ở trên.
1.2.3 Cập nhật phần tăng thêm (Incremental Updatability)
Sau khi có quan hệ R đã thủy vân, A có thể cập nhật R khi cần thiết mà
không làm hỏng thủy vân. Khi A thêm/bớt các bộ hoặc sửa đổi các giá trị của
các thuộc tính của R, thủy vân cần phải có khả năng cập nhật trên những phần
gia tăng. Tức là, các giá trị thủy vân chỉ phải tính toán lại đối với các bộ được
thêm vào hoặc bị sửa đổi.
1.2.4 Không dễ cảm nhận được (Imperceptibility)
Thuỷ vân ẩn, không dễ nhận thấy được bằng mắt thường của con

người. Sự thay đổi do các dấu hiệu thuỷ vân gây ra cho dữ liệu quan hệ không
được làm giảm giá trị sử dụng của cơ sở dữ liệu. Hơn nữa, các phép đo thống


15

kê thông thường như trung bình, phương sai của các thuộc tính số cũng không
nên bị ảnh hưởng đáng kể.
1.2.5 Hệ thống mù (Blind System)
Việc phát hiện thuỷ vân không nên đòi hỏi các thông tin về cơ sở dữ
liệu gốc và cả thuỷ vân gốc. Một hệ thống thủy vân như vậy được gọi là hệ
thống mù. Tính chất này rất quan trọng vì nó cho phép có thể phát hiện thuỷ
vân trong bản sao của quan hệ cơ sở dữ liệu cho dù quan hệ gốc đã được cập
nhật.
1.3. Những tấn công trên thuỷ vân cơ sở dữ liệu quan hệ
Vì các quan hệ cơ sở dữ liệu luôn được cập nhật nên các thuỷ vân được
giấu trong một quan hệ có thể bị mất do những cập nhật thông thường cũng
như các tấn công có chủ đích.
1.3.1 Cập nhật thông thường
Giả sử B lấy trộm dữ liệu của A mà không nhận ra nó đã được thủy
vân. Sau đó, B có thể cập nhật dữ liệu đã ăn trộm khi anh ta sử dụng nó.
Kỹ thuật đánh dấu cần đảm bảo rằng A không bị mất thủy vân của anh
ngay cả các dữ liệu bị ăn trộm, thậm chí đối với cả những cập nhật của B. Tức
là các phép toán cập nhật thông thường như xóa, sửa, bổ sung các bộ trong cơ
sở dữ liệu quan hệ.
Các lược đồ thuỷ vân cần đảm bảo rằng người chủ cơ sở dữ liệu không
bị mất thuỷ vân ngay trong dữ liệu bị kẻ khác ăn trộm, thậm chí đối với
những cập nhật của tên trộm đó.
1.3.2 Tấn công có chủ đích
B có thể biết dữ liệu anh ta ăn trộm có chứa thủy vân, nhưng anh ta có

thể cố xóa thủy vân này hoặc thử dùng các phương tiện khác để đòi quyền sở
hữu trái phép. Hệ thống đánh dấu cần phải bảo vệ A trước những tấn công
gây hại của B. Nghĩa là các cơ sở dữ liệu có thể bị những kẻ xấu ăn trộm,


16

tấn công nhằm mục đích đòi quyền sở hữu trái phép hay phá huỷ dữ liệu, phá
huỷ thuỷ vân,... Do đó, hệ thống thuỷ vân cần phải bảo vệ người chủ cơ sở dữ
liệu trước những tấn công gây hại của kẻ trộm.
Một số tấn công gây hại như [3].:
Tấn công vào các bit: Cách tấn công gây hại đơn giản nhất là cố gắng
phá huỷ thuỷ vân bằng cách cập nhật một số bit. Nếu tên trộm B có thể thay
đổi tất cả các bit, thì anh ta có thể dễ dàng phá huỷ thuỷ vân. Tuy nhiên, việc
này cũng làm cho dữ liệu của anh ta không còn sử dụng được nữa. Do đó, tác
hại của một cuộc tấn công cần phải được xem xét trên cơ sở mối quan hệ giữa
số bit mà B và A thay đổi, vì mỗi thay đổi có thể được coi như một sai sót.
Càng có nhiều sai sót càng làm cho dữ liệu kém hữu dụng.
Tấn công ngẫu nhiên: Tấn công này sẽ gán các giá trị bit ngẫu nhiên
cho một số vị trí bit nào đó. Một tấn công zero hoá đặt giá trị của một số vị trí
bit bằng zero. Một tấn công đổi bit sẽ đổi giá trị của một số vị trí bit từ 0
thành 1 hoặc ngược lại từ 1 thành 0. Các phép cập nhật thông thường có thể
được coi là một tấn công ngẫu nhiên.
Tấn công bằng cách làm tròn số : Kẻ tấn công có thể thử làm mất các
dấu hiệu trong một thuộc tính kiểu số bằng cách làm tròn tất cả các giá trị của
thuộc tính này. Anh ta phải đoán một cách chính xác có bao nhiêu vị trí tham
gia trong thuỷ vân. Nếu anh ta đoán non thì tấn công có thể không thành
công. Nếu đoán già, thì anh ta đã làm giảm chất lượng của dữ liệu hơn mức
cần thiết. Thậm chí, ngay cả khi đoán đúng thì dữ liệu của anh ta cũng không
tương thích với dữ liệu của người chủ dữ liệu vì nó ít chính xác hơn.

Tấn công tập hợp con: Kẻ tấn công có thể lấy đi một tập con các bộ
hoặc các thuộc tính của quan hệ đã thuỷ vân với hy vọng làm mất thuỷ vân
đó.


17

Tấn công cộng: Kẻ tấn công có thể cộng thêm thủy vân của anh ta vào
quan hệ đã thủy vân của chủ sở hữu và đòi quyền sở hữu.
Tấn công ngược lại: Kẻ tấn công có thể phát động một cuộc tấn
công ngược lại để đòi chủ quyền nếu anh ta có thể khám phá thành công một
thủy vân bịa đặt. Cái thủy vân mà kẻ tấn công công bố thực ra chỉ là một xuất
hiện ngẫu nhiên mà thôi.
1.4. Các ứng dụng chủ yếu của thuỷ vân cơ sở dữ liệu quan hệ
1.4.1 Bảo vệ bản quyền hoặc chứng minh quyền sở hữu
Ngày nay, việc bảo vệ bản quyền hoặc chứng minh quyền sở hữu
(Copyright Protection or Proving Ownership) đối với các nguồn cơ sở dữ liệu
quan hệ ở bên ngoài là một vấn đề quan trọng trong các môi trường ứng dụng
dựa vào Internet và trong nhiều ứng dụng phân phối dữ liệu. Đây là ứng dụng
cơ bản nhất của lược đồ thuỷ vân. Một thông tin nào đó (hay còn gọi là thuỷ
vân) mang ý nghĩa quyền sở hữu sẽ được nhúng vào trong dữ liệu quan hệ.
Thuỷ vân đó chỉ một mình người chủ sở hữu hợp pháp cơ sở dữ liệu đó có và
được dùng làm minh chứng cho bản quyền sản phẩm [9]..
1.4.2 Chứng thực thông tin (Authentication)
Một tập thông tin sẽ được giấu trong cơ sở dữ liệu quan hệ. Sau đó, các
thông tin này sẽ được sử dụng để nhận biết xem dữ liệu gốc có bị thay đổi hay
không. Bằng lược đồ thuỷ vân, người ta có thể lấy thông tin đã giấu vào trong
dữ liệu quan hệ đó ra. Nếu thông tin lấy ra trùng với thông tin ban đầu đem
giấu thì chứng tỏ dữ liệu gốc không bị thay đổi. Ngược lại, thông tin lấy ra và
thông tin ban đầu có sự khác biệt thì chứng tỏ dữ liệu đã bị thay đổi, xuyên

tạc. Trong các ứng dụng thực tế, người ta mong muốn tìm được vị trí bị xuyên
tạc, cũng như phân biệt được các thay đổi [9]..


18

1.5. Các lược đồ thủy vân cơ sở dữ liệu quan hệ
Thuỷ vân trên cơ sở dữ liệu quan hệ là một kỹ thuật mới và rất phức tạp.
Cho đến nay mới chỉ có một vài cách tiếp cận bài toán thuỷ vân cơ sở dữ liệu
quan hệ cho ứng dụng bảo vệ bản quyền. Việc lựa chọn lược đồ thủy vân nào
là tuỳ thuộc vào yêu cầu của ứng dụng. Một số lược đồ thuỷ vân trên cơ sở dữ
liệu quan hệ như:


Lược đồ thủy vân sử dụng các bit ít ý nghĩa nhất (LSB)



Lược đồ thuỷ vân dựa vào kỹ thuật tối ưu hoá



Lược đồ thủy vân sử dụng ảnh nhị phân.

a. Lược đồ thủy vân sử dụng các bit ít ý nghĩa nhất
Các lược đồ thủy vân dựa trên các bit ít ý nghĩa nhất (LSB - Least
Significant Bit) áp dụng cho cơ sở dữ liệu quan hệ có dữ liệu kiểu số. Tư
tưởng chính của lược đồ này là sử dụng các bit ít ý nghĩa nhất (LSB) để thủy
vân cho cơ sở dữ liệu quan hệ chứa các thuộc tính kiểu số chấp nhận được
những thay đổi nhỏ mà không làm ảnh hưởng tới ý nghĩa của dữ liệu. Lược

đồ này sử dụng các bit ít ý nghĩa nhất của các bộ trong cơ sở dữ liệu quan hệ
để xây dựng ra thủy vân nhúng cho toàn bộ cơ sở dữ liệu. Đồng thời, sử dụng
mức ý nghĩa để phát hiện thủy vân đã được nhúng vào trong cơ sở dữ liệu.
Ưu điểm của lược đồ này là:
- Lược đồ tương đối đơn giản và áp dụng được cho các cơ sở dữ liệu
chứa các thuộc tính kiểu số chấp nhận thay đổi nhỏ.
- Là một trong những lược đồ thủy vân đầu tiên cho việc bảo vệ bản
quyền cơ sở dữ liệu quan hệ.
- Khả năng phát hiện mù và chi phí thấp khi xác minh quyền sở hữu các
dữ liệu.
Nhược điểm của lược đồ này là:
- Nếu giá trị dữ liệu nhận giá trị null (rỗng) nhưng vẫn thủy vân.


19

- Miền ứng dụng hẹp (chỉ áp dụng cho cơ sở dữ liệu có chứa các thuộc
tính kiểu số).
- Cơ sở dữ liệu bị sửa đổi không còn là dữ liệu gốc ban đầu.
- Việc xác định mức ý nghĩa của phép thử phức tạp.
b. Thủy vân dựa vào các phép hoán vị
Để giải quyết bài toán thủy vân cơ sở dữ liệu quan hệ khi những thay đổi
Bryan Stephenson đã phát triển một lược đồ thủy vân đơn giản nhưng hiệu
quả dựa vào việc hoán vị giá trị các thuộc tính. Ý tưởng của lược đồ này là
hoán đổi vị trí giá trị của một số thuộc tính trong một vài bộ của cơ sở dữ liệu
với nhau thỏa mãn một khoảng cách được xây dựng. Sử dụng số lượng các
giá trị bị hoán đổi để kiểm soát sự sai khác của cơ sở dữ liệu nằm trong một
giới hạn mà cơ sở dữ liệu có thể chấp nhận được.
Ưu điểm của lược đồ này là:
- Có thể áp dụng cho nhiều loại dữ liệu nhưng sử dụng tốt nhất cho dữ

liệu kiểu số.
- Không làm thay đổi giá trị của dữ liệu.
Nhược điểm của lược đồ này là:
- Cơ sở dữ liệu vẫn bị sửa đổi tuy chỉ ở một số lượng bộ nhất định và
được kiểm soát bởi khoảng cách;
- Chưa xây dựng được hàm khoảng cách;
- Việc cân đối giữa khả năng nhận nhầm và đoán sai phụ thuộc vào mức ý
nghĩa và tỉ lệ hoán vị khó xác định.
c. Thủy vân dựa vào việc chèn thêm ảnh nhị phân
Năm 2008 các tác giả Al-Haj, A. and Odeh, A. đã đưa ra một lược đồ
thủy vân cơ sở dữ liệu quan hệ để bảo vệ bản quyền bằng cách chèn thêm một
bức ảnh nhị phân vào thuộc tính văn bản chứa nhiều từ.


20

Ý tưởng chính của lược đồ thủy vân này xuất phát từ việc nhúng bức ảnh
nhị phân đó vào một thuộc tính kiểu văn bản có chứa nhiều từ. Các điểm ảnh
của ảnh nhị phân sẽ được phân đoạn thành M xâu nhị phân ngắn có độ dài N.
Các xâu nhị phân này sẽ được đổi sang dạng thập phân để nhúng vào thuộc
tính kiểu văn bản có chứa nhiều từ của các bộ đã được chọn của quan hệ. Các
từ trong các thuộc tính kiểu văn bản được viết cách nhau đúng một dấu cách.
Việc nhúng thủy vân được thực hiện rất đơn giản. Giả sử giá trị thập phân của
xâu nhị phân thứ j là dj thì để thủy vân giá trị này vào thuộc tính văn bản, chỉ
việc thêm một dấu cách vào sau từ thứ dj+1 của xâu văn bản này, các khoảng
cách còn lại của xâu vẫn giữ nguyên. Để làm được điều đó cần phải chọn ảnh
nhị phân phù hợp với các quan hệ cần thủy vân. Thuật toán sẽ nhúng thủy vân
vào từng nhóm, với cách chia đơn giản mỗi nhóm gồm M bộ và sẽ nhúng M
xâu nhị phân ngắn vào mỗi nhóm.
Ưu điểm của lược đồ này là:

- Dùng để bảo vệ bản quyền cơ sở dữ liệu có dữ liệu kiểu văn bản.
- Quan hệ sau nhúng không ảnh hưởng đến giá trị sử dụng của dữ liệu.
Nhược điểm của lược đồ này là:
- Cách chia nhóm tuần tự không phụ thuộc vào bất kỳ một tham số nào
nên một kẻ tấn công có thể dễ dàng phát hiện ra các nhóm và phát hiện ra ảnh
đã nhúng.
- Kích thước của ảnh nhị phân nhỏ
Tiếp theo chương này là chương 2 trình bày lược đồ thủy vân cơ
sở dữ liệu sử dụng bit ý nghĩa nhất (MSB - Most Significant Bit) dùng để bảo vệ
bản quyền công khai cơ sở dữ liệu quan hệ mà không làm thay đổi dữ liệu .


21

1.6. Kết luận chương 1
Chương 1 đã tìm hiểu các khái niệm về thủy vân, các yêu cầu cơ bản
của thủy vân cơ sở dữ liệu quan hệ cũng như các tấn công trên thủy vân các
cơ sở dữ liệu quan hệ. Đồng thời cũng đưa ra một số ứng dụng chủ yếu của
lược đồ thủy vân. Trong chương này, giới thiệu ba lược đồ thủy vân dùng để
bảo vệ bản quyền.


22

Chương 2
LƯỢC ĐỒ THỦY VÂN SỬ DỤNG BIT MSB
2.1. Giới thiệu
Hiện nay, các lược đồ thủy vân đã được mở rộng kế thừa từ các nội
dung đa phương tiện sang các cơ sở dữ liệu quan hệ để bảo vệ bản quyền dữ
liệu ngay cả khi dữ liệu đã được xuất bản hoặc phân phối. Hầu hết các lược

đồ thủy vân cơ sở dữ liệu quan hệ đều dựa vào khóa bí mật vì thế đòi hỏi phải
có một khóa bí mật để chứng minh bản quyền. Điều đó có nghĩa là bản quyền
chỉ có thể được minh chứng và được công nhận trước công chúng (ví dụ trước
tòa án…).
Tuy nhiên, sau khi chứng minh quyền sở hữu khóa bí mật này đã bị lộ
và vì vậy thủy vân đã nhúng sẽ dễ dàng bị phá hủy bởi những kẻ phá hoại.
Ngoài ra, hầu hết các lược đồ thủy vân hiện có đều làm sai lệch dữ liệu trong
quá trình thủy vân, có thể là thay đổi các bit ít ý nghĩa nhất hoặc thay đổi các
giá trị thực. Những sai lệch này chắc chắn sẽ làm giảm giá trị sử dụng của dữ
liệu. Trong luận văn này, sẽ tìm hiểu một lược đồ thủy vân mà bất cứ ai cũng
có thể chứng minh quyền sở hữu dữ liệu một cách công khai bao nhiêu lần tùy
ý. Lược đồ thủy vân này không làm sai lệch dữ liệu và phù hợp với mọi kiểu
dữ liệu để thủy vân. Hơn nữa lược đồ này còn bền vững trước các tấn công
điển hình như là thêm hoặc xóa các bộ hoặc các thuộc tính, thay đổi giá trị
một cách ngẫu nhiên hoặc có lựa chọn.
Thủy vân không nên làm ảnh hưởng đến sự hữu ích của dữ liệu và phải
đủ khó đối với những người muốn phát hiện ra nó và phá hủy nó một cách trái
phép mà không làm suy giảm giá trị sử dụng của dữ liệu. Vì vậy, thủy vân có
thể giúp ngăn chặn việc sao chép trái phép bằng cách cung cấp một phương
tiện dể chứng minh bản quyền gốc của một bản sao dữ liệu được phân phối.


23

Trong những năm gần đây, các nhà nghiên cứu đã phát triển một số
lược đồ thủy vân để bảo vệ bản quyền các cơ sở dữ liệu quan hệ. Có một điểm
chung của các lược đồ này là chúng đều dựa vào một khóa bí mật trong thuật
toán nhúng thủy vân và thuật toán phát hiện thủy vân. Nhờ vào khóa này,
người chủ của sản phẩm sẽ có thể chứng minh chủ quyền của mình đối với
sản phẩm của mình.

Một điểm chung nữa là quá trình thủy vân có làm dữ liệu bị sai lệch.
Hầu hết các lược đồ thủy vân đều thay đổi các thuộc tính số trong khi các
lược đồ khác lại hoán vị các giá trị cùng loại. Những sai lệch chỉ được thực
hiện trong giới hạn sao cho tính hữu dụng của dữ liệu đối với các ứng dụng
nhất định không bị ảnh hưởng và việc phát hiện thủy vân có thể thực hiện
được ngay cả khi có những tấn công thay đổi giá trị hoặc lựa chọn các bộ.
Hai đặc điểm nêu trên có thể ảnh hưởng nghiêm trọng đến khả năng
ứng dụng của các lược đồ thủy vân cơ sở dữ liệu quan hệ.
Thứ nhất là, cách tiếp cận dựa vào khóa bí mật là không phù hợp cho
việc chứng minh trước công chúng. Để chứng minh bản quyền đối với một dữ
liệu đáng ngờ, người chủ sở hữu phải tiết lộ khóa bí mật của mình ra công
chúng để phát hiện thủy vân. Sau khi đã sử dụng một lần, khóa này không còn
bí mật nữa. Khi biết được khóa này, một người sử dụng không bản quyền có
thể vô hiệu hóa việc phát hiện thủy vân gốc bằng cách gỡ bỏ thủy vân gốc
khỏi dữ liệu được bảo vệ hoặc thêm một thủy vân giả vào dữ liệu không được
thủy vân.
Thứ hai là, những sai lệch được đưa vào trong quá trình thủy vân có thể
ảnh hưởng đến giá trị sử dụng của dữ liệu. Ngay cả khi có thể ấn định một số
kiểu ràng buộc nhất định để hạn chế sai sót (ví dụ như các giá trị trung bình
và các phương sai của những thuộc tính được thủy vân) trước hoặc trong khi


24

thủy vân thì cũng rất khó, thậm chí không thể đảm bảo có thể xác định được
tất cả các ràng buộc.
Trong luận văn này, tôi giới thiệu một lược đồ thủy vân cơ sở dữ liệu
được sử dụng để bảo vệ bản quyền bằng cách kiểm chứng công khai và không
đưa vào bất kỳ một sự sai lệch nào đối với dữ liệu.
Lược đồ này được phát triển một phần nhờ vào những nét chính của

các lược đồ thủy vân khóa công khai trong lĩnh vực thủy vân đa phương tiện.
Tuy nhiên, giữa thủy vân đa phương tiện và thủy vân cơ sở dữ liệu quan hệ có
những khác nhau rất cơ bản. Lược đồ của này có bốn đặc điểm nổi bật sau
đây:
- Thứ nhất là lược đồ này thuộc kiểu kiểm chứng công khai. Việc phát hiện
thủy vân để chứng minh bản quyền có thể được thực hiện bởi bất kỳ ai và bao
nhiêu lần khi cần thiết.
- Thứ hai là lược đồ này không gây ra bất kỳ một sai lệch nào đối với dữ liệu và
có thể được sử dụng để thủy vân dữ liệu thuộc bất kỳ kiểu dữ liệu nào bao
gồm số nguyên, số thực, ký tự và logic.
- Thứ ba là lược đồ này rất hiệu quả đối với việc cập nhật tăng thêm dữ liệu. Nó
được thiết kế phù hợp với các phép toán thông thường của cơ sở dữ liệu như
thêm, xóa và thay đổi giá trị các bộ.
- Thứ tư là lược đồ này rất bền vững. Rất khó để có thể vô hiệu hóa được thủy
vân và minh chứng bản quyền bằng các tấn công cơ sở dữ liệu thông thường
và các tấn công khác.
Với những đặc tính này, lược đồ thủy vân này có thể được áp dụng
trong thực tế để bảo vệ bản quyền các cơ sở dữ liệu đã được công bố hoặc
phân phối.
2.2. Lược đồ thủy vân
Cho r là một quan hệ thuộc lược đồ R(P, A1,..., Aγ), trong đó P là thuộc
tính khóa chính; A1 ,..., Aγ là các thuộc tính đều có thể được chọn để thuỷ vân.


25

Gọi ω là số các bộ trong quan hệ r. Với mỗi thuộc tính của một bộ sẽ được
biểu diễn dưới dạng nhị phân chuẩn, bit MSB của nó có thể được sử dụng để
làm thuỷ vân. Giả sử là mọi thay đổi thực hiện trên bit MSB của giá trị thuộc
tính sẽ dẫn đến một sai sót không thể chấp nhận được đối với giá trị sử dụng

của dữ liệu.
Các thuộc tính để thủy vân có thể nhận bất kỳ một kiểu dữ liệu nào. Lược
đồ thủy vân sẽ xét đến bốn kiểu dữ liệu thường dùng đó là: kiểu số, kiểu ký
tự, kiểu Boolean và kiểu datetime. Các thuộc tính đều được thể hiện dưới
dạng các xâu bit trong hệ thống máy tính.
Giả sử chủ nhân của quan hệ r sở hữu một khóa thuỷ vân K. Khóa này
phải đủ dài và được sử dụng trong khi nhúng thủy vân và phát hiện thuỷ vân.
Khóa thủy vân K được sử dụng để quyết định kết cấu của thủy vân công khai
rw. Thủy vân rw là một quan hệ với lược đồ Rw(P, W1 , . . . , Wη ), trong đó W1, .
. . , Wη là các thuộc tính nhị phân, P là thuộc tính khóa chính. So sánh với
quan hệ r, quan hệ thuỷ vân rw có cùng số bộ ω và có cùng thuộc tính khóa
chính P. η là số các thuộc tính nhị phân trong thuỷ vân rw và v là số bit nhị
phân của rw. Ở đây η được coi là một tham biến điều khiển để xác định số
lượng các bit nhị phân v trong rw, trong đó v = ω.η và η ≤ γ. Trong trường hợp
này, gọi η là tham biến sinh thuỷ vân.
Trong phần sinh thuỷ vân rw, bit MSB của các giá trị đã chọn dựa vào
khóa thủy vân và khóa chính của bộ, được sử dụng để tạo thuỷ vân. Toàn bộ
quá trình này không làm thay đổi bất kỳ một giá trị nào của dữ liệu gốc. Việc
sử dụng các bit MSB sẽ giúp ngăn chặn những tấn công thay đổi giá trị dữ
liệu. Vì khóa thủy vân K, thủy vân rw và thuật toán nhúng thủy vân đều công
khai nên bất kỳ ai cũng có thể tìm được các bit MSB trong r để sinh rw. Tuy
nhiên, một kẻ tấn công không thể thay đổi các bit MSB này mà không sinh ra
các sai lệch không thể chấp nhận được đối với dữ liệu.


×