Tải bản đầy đủ (.pdf) (61 trang)

Nghiên cứu kỹ thuật phát hiện sự thay đổi dữ liệu trong cơ sở dữ liệu quan hệ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.19 MB, 61 trang )


S
ố hóa bởi Trung tâm Học liệu

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG
–––––––––––––––––



LÊ THỊ HOÀNG




NGHIÊN CỨU KỸ THUẬT PHÁT HIỆN SỰ THAY ĐỔI
DỮ LIỆU TRONG CƠ SỞ DỮ LIỆU QUAN HỆ

Chuyên ngành: Khoa học máy tính
Mã số : 62.48.01



LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH









Thái Nguyên, năm 2013


1
MỞ ĐẦU
1. Lý do chọn đề tài
Ngày nay, việc sử dụng các cơ sở dữ liệu quan hệ, đặc biệt là cơ sở dữ
liệu quan hệ trong các ứng dụng ngày càng tăng. Tốc độ phát triển Internet và
các cơng nghệ có liên quan hiện đang đưa đến một sức ép rất nặng nề cho
những người đảm bảo dữ liệu trong việc tạo ra các dịch vụ (thường được gọi
là các dịch vụ web hoặc các tiện ích điện tử) cho phép người dùng có thể tìm
kiếm và truy cập cơ sở dữ liệu quan hệ từ xa. Mặc dù xu hướng này là hữu ích
cho người dùng cuối nhưng nó cũng bộc lộ mối nguy hiểm cho những nhà
cung cấp dữ liệu trước những kẻ trộm cắp dữ liệu. Do đó, những nhà cung cấp
dữ liệu đòi hỏi phải có các cơng cụ hỗ trợ cho việc bảo vệ bản quyền sản
phẩm của họ, nhận dạng được những bản sao các cơ sở dữ liệu quan hệ của họ
bị đánh cắp hoặc bị xun tạc với ý đồ xấu.
Một trong những cơng cụ rất hữu ích dùng để bảo vệ bản quyền và chống
giả mạo đối với các cơ sở dữ liệu quan hệ đó là lược đồ thủy vân số. Hiện tại,
đã có khá nhiều lược đồ thủy vân được đề xuất, trong đó có thể chia thành hai
lớp. Một lớp là các lược đồ thủy vân dùng để bảo vệ bản quyền cho các cơ sở
dữ liệu quan hệ, điển hình là lược đồ thủy vân dựa vào các bit ít ý nghĩa nhất
(LSB), lược đồ thủy vân dựa vào các bit ý nghĩa nhất (MSB) và lược đồ thủy
vân dựa vào phương pháp tối ưu hóa các ràng buộc. Lớp thứ hai là các lược
đồ thủy vân dùng để đảm bảo sự tồn vẹn cho các cơ sở dữ liệu quan hệ, điển
hình là lược đồ khoanh vùng và phát hiện giả mạo cho cơ sở dữ liệu quan hệ
có thuộc tính phân loại, phát hiện giả mạo và khơi phục dữ liệu gốc cho cơ sở
dữ liệu quan hệ có khả năng chịu được một số thay đổi nhỏ trong dữ liệu.
Ngày nay, xu hướng nghiên cứu các lược đồ thủy vân dùng để đảm bảo sự

tồn vẹn cho cơ sở dữ liệu quan hệ ngày càng được quan tâm hơn từ các nhu
cầu thực tế của chủ sở hữu cơ sở dữ liệu quan hệ. Các lược đồ này thực hiện
Số hóa bởi Trung tâm Học liệu />
2
nhiệm vụ kiểm tra xem cơ sở dữ liệu quan hệ có bị giả mạo hay khơng vì thế
mà khơng gây tốn kém cho chủ sở hữu cơ sở dữ liệu quan hệ như việc sử
dụng các lược đồ thủy vân để bảo vệ bản quyền cho cơ sở dữ liệu quan hệ. Vì
vậy, gần đây một số lược đồ thủy vân dùng để đảm bảo sự tồn vẹn cho cơ sở
dữ liệu quan hệ đã được đề xuất. Tuy nhiên, các lược đồ thủy vân chủ yếu
được sử dụng cho các cơ sở dữ liệu quan hệ chứa các thuộc tính số. Nhưng
trong thực tế có khá nhiều cơ sở dữ liệu quan hệ mà các thuộc tính của chúng
có kiểu khơng phải kiểu số, ví dụ như kiểu văn bản, kiểu bộ nhớ,… Xuất phát
từ thực tế trên, em chọn đề tài “Nghiên cứu kỹ thuật phát hiện sự thay đổi
dữ liệu trong cơ sở dữ liệu quan hệ”
2. Đối tƣợng và phạm vi nghiên cứu
Nghiên cứu, đánh giá kỹ thuật thủy vân dễ vỡ trên cơ sở dữ liệu quan
hệ có các thuộc tính phân loại
Các cơng cụ lập trình và phần mềm dùng để cài đặt chương trình thử
nghiệm.
3. Hƣớng nghiên cứu đề tài
Tìm hiểu cơ bản về giấu tin và thủy vân.
Nghiên cứu và thực hiện cài đặt thử nghiệm lược đồ thủy vân dễ vỡ
dùng để phát hiện sự thay đổi dữ liệu trong cơ sở dữ liệu quan hệ có các thuộc
tính phân loại.
4. Phƣơng pháp nghiên cứu
Phương pháp nghiên cứu chủ yếu ở đây là phương pháp tiếp cận lý
thuyết, sau đó áp dụng lý thuyết vào một ngơn ngữ lập trình cụ thể để kiểm
chứng. Dựa trên những kết quả kiểm chứng đó để đưa ra các kết luận và các
đề xuất nhằm hồn thành mục tiêu nghiên cứu của luận văn.
Số hóa bởi Trung tâm Học liệu />

3
Cụ thể trong luận văn này, tác giả lấy thơng tin điểm tuyển sinh đầu
vào của Trường Dự bị Đại học Dân tộc Trung ương làm cơ sở dữ liệu phục vụ
cho việc kiểm chứng lý thuyết
5. Ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài
Mục tiêu của đề tài có ý nghĩa khoa học và có ý nghĩa thực tiễn trong
việc phát hiện sự thay đổi dữ liệu đối với các cơ sở dữ liệu quan hệ sau khi đã
phân phối hoặc chuyển giao. Đồng thời việc “phát hiện” này cũng là một vấn
đề rất quan trọng trong mơi trường ứng dụng dựa trên Internet nhằm phát tán
và truyền tải thơng tin.
Nội dung chính của luận văn:
Tìm hiểu cơ bản về thủy vân, trình bày kỹ thuật phát hiện sự thay đổi của
dữ liệu trong cơ sở dữ liệu quan hệ. Thực hiện cài đặt thử nghiệm. Nhận xét
đánh giá lược đồ thủy vân.
Luận văn gồm 3 chương:
Chƣơng 1: Thủy vân cơ sở dữ liệu và các vấn đề liên quan
Nhằm giới thiệu cơ bản về giấu tin và thủy vân, giấu tin và thủy vân trên
ảnh, thủy vân cơ sở dữ liệu quan hệ, thủy vân bền vững, thủy vân dễ vỡ.
Chƣơng 2: Nghiên cứu kỹ thuật phát hiện sự thay đổi dữ liệu trong
cơ sở dữ liệu quan hệ
Trình bày các thuật tốn nhúng thủy vân và phát hiện sự thay đổi dữ liệu
trên cơ sở dữ liệu quan hệ.
Chƣơng 3: Cài đặt và thực nghiệm
Cài đặt thử nghiệm lược đồ thủy vân dễ vỡ trong cơ sở dữ liệu quan hệ.
Đánh giá lược đồ thủy vân đã được xây dựng.
Kết luận: Tóm tắt và đánh giá các kết quả nghiên cứu đã đạt được. Đưa
ra hướng phát triển và cải tiến lược đồ thủy vân.
Số hóa bởi Trung tâm Học liệu />
4
Tơi xin chân thành cảm ơn thầy giáo PGS. TS Bùi Thế Hồng đã tận tình

hướng dẫn, tạo mọi điều kiện giúp đỡ tơi hồn thành đề tài luận văn này.
















Số hóa bởi Trung tâm Học liệu />
5
Chƣơng 1
THỦY VÂN CƠ SỞ DỮ LIỆU QUAN HỆ
VÀ CÁC VẤN ĐỀ LIÊN QUAN
1.1. Tổng quan về thủy vân cơ sởdữ liệu quan hệ
1.1.1. Một số khái niệm cơ bản
1.1.1.1. Khái niệm thủy vân
Thuật ngữ “thuỷ vân” có xuất xứ từ kỹ thuật đánh dấu nước thời xưa.
Đây là kỹ thuật đánh dấu chìm một hình ảnh hay một dữ liệu nào đó lên trên
giấy nhằm mục đích trang trí và phân biệt được xuất xứ của sản phẩm giấy.
Như vậy, thơng tin cần giấu được gọi là thuỷ vân (watermark). Thuỷ vân chứa
đựng thơng tin có thể được dùng để chứng minh quyền sở hữu hoặc chống

xun tạc, giả mạo.
Có thể phân chia thủy vân thành 2 loại:
Thuỷ vân bền vững (robust watermark): là thuỷ vân tồn tại bền vững
cùng với dữ liệu, khơng dễ dàng bị phá huỷ trước những biến đổi, tấn cơng
lên dữ liệu. Các thủy vân này thường được dùng trong các ứng dụng bảo vệ
bản quyền, chứng minh quyền sở hữu.
Thuỷ vân dễ vỡ (fragile watermark): là thuỷ vân dễ bị biến dạng trước
những thay đổi hay tấn cơng lên dữ liệu. Các thủy vân này thường được dùng
trong các ứng dụng nhận thực thơng tin, đảm bảo tính tồn vẹn dữ liệu.
Các kỹ thuật thuỷ vân ngay từ khi mới ra đời đã nhận được sự quan tâm
rất lớn của các nhà khoa học. Thuỷ vân đã được nghiên cứu và áp dụng trong
nhiều mơi trường dữ liệu khác nhau như: dữ liệu đa phương tiện (hình ảnh,
text, âm thanh, video, ), hay các sản phẩm phần mềm, và gần đây là
những nghiên cứu trên mơi trường cơ sở dữ liệu quan hệ. Trong các mơi
trường dữ liệu đó thì dữ liệu đa phương tiện (đặc biệt là hình ảnh) được
nghiên cứu và áp dụng sớm nhất và là mơi trường chiếm tỷ lệ chủ yếu. Tuy
Số hóa bởi Trung tâm Học liệu />
6
nhiên, hiện nay các nhà khoa học đang tập trung nghiên cứu các kỹ thuật thuỷ
vân trên cơ sở dữ liệu quan hệ do nhu cầu đảm bảo an tồn cơ sở dữ liệu của
chủ sở hữu trước những tấn cơng từ bên ngồi.
1.1.1.2. Lịch sử phát triển của thuỷ vân
Tanaka (1990), Caronni và Tirkel (1993) lần lượt đưa ra những ấn bản
đầu tiên về thủy vân nhưng chưa nhận được sự quan tâm đúng mức. Đến năm
1995, chủ đề này mới bắt đầu được quan tâm và từ đó, thủy vân đã phát triển
tốc độ nhanh với nhiều hướng nghiên cứu và phương pháp thực hiện khác
nhau. Thủy vân được ứng dụng trong nhiều lĩnh vực như bảo vệ quyền sở
hữu, điều khiển việc sao chép, xác thực giấy tờ, đảm bảo tính tồn vẹn hay
truyền đạt thơng tin khác, Trong đó, ứng dụng phổ biến là cung cấp bằng
chứng về bản quyền tác giả của các dữ liệu số bằng cách nhúng các thơng tin

bản quyền và đảm bảo tính tồn vẹn của dữ liệu.
1.1.1.3. Mơ hình tổng qt của lược đồ thủy vân
Trong q trình nghiên cứu và phát triển các lược đồ thủy vân, các nhà
nghiên cứu đã đưa ra các ý tưởng khác nhau cho việc đưa các thơng tin vào
trong dữ liệu. Tuy nhiên, các lược đồ thủy vân sử dụng chung một mơ hình
tổng qt và các ý tưởng sử dụng chúng để phát triển thêm. Một lược đồ thủy
vân bao gồm hai phần chính:
- Nhúng thủy vân: Đưa thơng tin cần nhúng vào dữ liệu cần bảo vệ
- Phát hiện thủy vân: Trích thơng tin đã được nhúng vào dữ liệu
Q trình nhúng thủy vân đảm nhiệm vai trò đưa các thơng tin của chủ sở
hữu vào trong dữ liệu mà khơng làm ảnh hưởng tới giá trị sử dụng của dữ
liệu. Trong q trình này, các dữ liệu đầu vào bao gồm dữ liệu cần nhúng
thủy vân, khóa thủy vân, thủy vân và các tham số khác. Trong đó:
- Dữ liệu cần nhúng có thể là dữ liệu đa phương tiện, cơ sở dữ liệu quan
hệ,… cần bảo vệ.
Số hóa bởi Trung tâm Học liệu />
7
- Thủy vân có thể là một chuỗi thơng tin ở dạng văn bản, hình ảnh, hay
chuỗi bit bất kỳ. Thủy vân có thể được đưa vào trực tiếp hoặc được sinh ra
trong thuật tốn nhúng thủy vân.
- Khóa thủy vân là một đại lượng giúp tăng độ bảo mật của thủy vân và
có thể được sử dụng để chứng minh quyền sở hữu dữ liệu. Khóa thủy vân
thuộc sở hữu của chủ dữ liệu. Thơng thường, khóa thủy vân là bí mật. Trong
các hệ thống thực tế, thường sử dụng ít nhất là một khóa thủy vân thậm chí có
thể kết hợp nhiều khóa thủy vân.
- Các tham số khác có thể được sử dụng trong từng lược đồ thủy vân
khác nhau. Các tham số này thơng thường là mức ý nghĩa, các thơng số ảnh
hưởng hoặc số lượng nhóm…. Chúng có ảnh hưởng rất lớn đối với lược đồ
thủy vân và thơng thường việc xác định các tham số này khơng dễ dàng.
Các yếu tố đầu vào kết hợp với thuật tốn nhúng thủy vân sẽ trả lại kết

quả là dữ liệu mới đã được nhúng thơng tin thủy vân. Dữ liệu này sẽ được
đem sử dụng hoặc phân phối. Hình 1.1 mơ tả tổng qt q trình nhúng thủy
vân.

Hình 1.1. Sơ đồ q trình nhúng thủy vân
Trong q trình sử dụng dữ liệu, khi nghi ngờ có xuất hiện giả mạo chủ sở
hữu dữ liệu có thể sử dụng q trình phát hiện thủy vân để kết luận xem dữ
liệu có bị xâm hại hay khơng. Trong q trình này, các yếu tố đầu vào là dữ
Thuật tốn
nhúng thủy vân
Dữ liệu cần
nhúng thủy
vân
Thủy vân
Khóa
thủy vân
Dữ liệu sau khi
nhúng thủy vân
Số hóa bởi Trung tâm Học liệu />
8
liệu cần phát hiện thủy vân, khóa thủy vân, thủy vân (có thể có hoặc khơng)
và các tham số khác. Ở đây, khóa thủy vân, thủy vân, và các tham số khác
phải trùng với q trình nhúng thủy vân. Kết hợp các yếu tố này với thuật
tốn phát hiện thủy vân sẽ đưa ra kết luận về dữ liệu có bị xâm hại hay khơng.
Q trình phát hiện thủy vân được mơ tả bằng Hình 1.2.

Hình 1.2. Sơ đồ q trình phát hiện thủy vân
1.1.2. Thuỷ vân cơ sở dữ liệu quan hệ
Ngày nay, các cơ sở dữ liệu quan hệ được sử dụng ngày càng nhiều trong
các ứng dụng. Do đó, những người cung cấp dữ liệu đòi hỏi phải có cơng

nghệ nhận dạng được những bản sao các cơ sở dữ liệu quan hệ của họ bị đánh
cắp.
Cho dù có khá nhiều điều có thể học hỏi được từ các kết quả đã đạt được
về thủy vân dữ liệu đa phương tiện nhưng cho đến nay vẫn còn rất nhiều
thách thức kỹ thuật mới đối với lĩnh vực thủy vân các cơ sở dữ liệu quan hệ
bởi vì các dữ liệu quan hệ và các dữ liệu đa phương tiện khác nhau ở khá
nhiều khía cạnh quan trọng. Chẳng hạn như, các phần khác nhau của một đối
tượng đa phương tiện khơng thể cắt bỏ hoặc thay thế một cách tùy ý mà
khơng gây ra những thay đổi về cảm quan trong đối tượng. Ngược lại, việc
thêm, bớt và cập nhật các bộ của một bảng quan hệ lại là những phép tốn
trong cơ sở dữ liệu quan hệ. Do những khác nhau này mà các kỹ thuật được
Thuật tốn phát
hiện thủy vân
Dữ liệu cần phát
hiện thủy vân
Kết luận về
dữ liệu
Thủy vân
Khóa
thủy vân
Số hóa bởi Trung tâm Học liệu />
9
phát triển cho các dữ liệu đa phương tiện khơng thể được sử dụng trực tiếp để
thủy vân các quan hệ.
Thuỷ vân cơ sở dữ liệu quan hệ là phương pháp nhúng một lượng thơng
tin nào đó vào trong cơ sở dữ liệu quan hệ. Thuỷ vân cơ sở dữ liệu quan hệ có
thể là thuỷ vân bền vững hoặc thủy vân dễ vỡ.
Trong một số trường hợp, cơ sở dữ liệu quan hệ chứa các thuộc tính mang
ý nghĩa quan trọng khơng thể chấp nhận các sửa đổi cho các thuộc tính này
trong cơ sở dữ liệu quan hệ. Thủy vân cho những cơ sở dữ liệu quan hệ như

vậy khá phức tạp đòi hỏi việc nhúng thủy vân vào trong cơ sở dữ liệu quan hệ
một cách đặc biệt. Chẳng hạn như, với các cơ sở dữ liệu quan hệ tuyển sinh
chứa thuộc tính điểm là khơng thể thay đổi (hay cơ sở dữ liệu quan hệ dân số
chứa thuộc tính số con). Cách nhúng thủy vân cho các cơ sở dữ liệu quan hệ
này có thể là đổi chỗ các bộ trong cơ sở dữ liệu quan hệ [5] hoặc xây dựng
hẳn một cơ sở dữ liệu quan hệ khác là bản sao của cơ sở dữ liệu quan hệ gốc
[2]. Ngồi ra, còn nhiều cách để sử dụng nhưng phải tùy vào từng lược đồ
thủy vân đề xuất.
Trong các trường hợp còn lại, cơ sở dữ liệu quan hệ chứa các thuộc tính
chấp nhận được những thay đổi nhỏ trên thuộc tính mà khơng làm ảnh hưởng
đến giá trị sử dụng của cơ sở dữ liệu quan hệ. Khi đó, việc nhúng thủy vân
cho cơ sở dữ liệu quan hệ này dễ dàng hơn so với trường hợp trước.
Ví dụ, dữ liệu khí tượng được sử dụng để xây dựng các mơ hình dự báo
thời tiết. Độ chính xác của vectơ gió và nhiệt độ tương ứng trong dữ liệu này
được đo chính xác đến 1.8 m/s và 0.5
o
C. Các sai số được đưa vào do thuỷ
vân có thể dễ dàng được hạn chế trong sự cho phép của các dữ liệu này. Hay
một ví dụ khác đáng chú ý là các nhà xuất bản sách khi in các bảng tốn học
(như các bảng logarit và lịch thiên văn) thường cố ý đưa vào một số lỗi nhỏ
để có thể dễ dàng nhận dạng các bản sao bị ăn cắp.
Số hóa bởi Trung tâm Học liệu />
10
Đối với hầu hết các cơ sở dữ liệu quan hệ trong đó có chứa các tham số
thì những sai lệch do hệ thống thuỷ vân gây ra có thể được điều chỉnh sao cho
chúng nằm trong miền dung sai của độ đo. Việc đánh giá độ đo và ảnh hưởng
của thủy vân đến giá trị sử dụng của cơ sở dữ liệu quan hệ khi nhúng thủy vân
rất quan trọng quyết định giá trị sử dụng của lược đồ thủy vân được xây dựng
có tốt hay còn chưa tốt.
Đối với cơ sở dữ liệu quan hệ, khóa thủy vân, kiểu dữ liệu và việc sử

dụng các cơng cụ hỗ trợ cho việc nhúng thủy vân vào trong cơ sở dữ liệu là
một trong những vấn đề cơ bản của một lược đồ thủy vân. Các khái niệm cơ
bản về chúng sẽ được trình bày ở phần tiếp theo.
1.1.3. Khái niệm về khóa thủy vân
Khóa thủy vân là một khái niệm dành cho các thuật tốn thủy vân cơ sở
dữ liệu mà trong đó ta có sử dụng đến một số dữ liệu làm khóa để tạo ra thủy
vân hoặc nhận biết thủy vân trong cơ sở dữ liệu. Khóa thủy vân được sử dụng
phải là khóa bí mật. Tức là, khóa thủy vân chỉ có chủ sở hữu cơ sở dữ liệu
hoặc cơ quan mà chủ sở hữu cơ sở dữ liệu đăng ký quyền sở hữu có được.
Khi khóa thủy vân bị lộ hoặc bị lấy cắp, thì có thể sẽ mất đi cơ sở dữ liệu.
Khóa thủy vân chính là mấu chốt của thủy vân cơ sở dữ liệu có sử dụng
khóa thủy vân. Thơng thường, khóa thủy vân là đại diện cho quyền sở hữu cơ
sở dữ liệu của chủ sở hữu.
Khóa thủy vân có thể được nhúng vào trong cơ sở dữ liệu bằng nhiều
cách. Điều quan trọng ở đây chính là việc ta giấu khóa thủy vân vào trong cơ
sở dữ liệu như thế nào để khơng bị phát hiện đồng thời vẫn có thể lấy ra được
thủy vân giúp cho việc chứng minh được quyền sở hữu cơ sở dữ liệu của chủ
sở hữu. Hay nói cách khác, việc đưa khóa vào trong cơ sở dữ liệu là một trong
những vấn đề quan trọng của bài tốn bảo vệ bản quyền cơ sở dữ liệu quan hệ
hay đảm bảo tính tồn vẹn của cơ sở dữ liệu có sử dụng khóa. Phương pháp
Số hóa bởi Trung tâm Học liệu />
11
hay được sử dụng hiện nay là sử dụng hàm băm. Hàm băm đảm bảo được các
u cầu về bảo mật cũng như chi phí tính tốn thấp.
1.1.4. Hàm băm mật mã
1.1.4.1. Khái niệm hàm băm
Hàm băm là một hàm ánh xạ một dữ liệu có độ dài thay đổi thành một dữ
liệu có độ dài cố định.
1.1.4.2. Tính chất của hàm băm
Ở đây, khơng có một định nghĩa hình thức bao trùm tất cả các tính chất

mong muốn của một hàm băm mật mã học. Các tính chất được nêu ra ở đây
được coi là u cầu tiên quyết:
- Tính chất khơng có ngược: Cho trước h việc tìm m sao cho h = hash(m)
là rất khó.
- Tính chất đơn ánh: Cho thơng điệp m1, việc tìm một thơng điệp m2
(khác m1) sao cho hash(m1) = hash(m2) là rất khó.
Một số hàm băm mật mã hay được sử dụng:
- MD4
- MD5
- RSA
1.1.4.3. Hàm băm mật mã MD5
Giới thiệu:
MD5 (Message-Digest algorithm 5) là một hàm băm để mã hóa với
giá trị băm là 128 bit. Từng được xem là một chuẩn trên Internet, MD5 đã
được sử dụng rộng rãi trong các chương trình an ninh mạng, và cũng thường
được dùng để kiểm tra tính ngun vẹn của tập tin.
Thuật tốn nhận vào 1 thơng điệp độ dài tùy ý và tạo ra một số 128 bit,
là một dạng “vân tay” hay “mã số thơng điệp“ của đầu vào. Người ta cho rằng
Số hóa bởi Trung tâm Học liệu />
12
sẽ khơng khả thi về mặt tính tốn để tạo ra 2 thơng điệp có cùng mã số thơng
điệp, hoặc tạo ra một thơng điệp với mã số cho trước.
Thuật tốn MD5 được thiết kế để chạy tương đối nhanh trên các máy 32
bit, có thể được thực hiện một cách khá gọn.
Ứng dụng:
Thuật tốn MD5 được dự tính áp dụng cho những ứng dụng chữ ký điện
tử, ở đó một file lớn phải được “nén” một cách an tồn trước khi mã hóa với
một khóa cá nhân (private key) dưới một hệ mã hóa cơng khai như RSA.
MD5 được sử dụng rộng rãi trong thế giới phần mềm để đảm bảo tính
xác thực. Người sử dụng có thể so sánh giữa thơng số kiểm tra phần mềm

bằng MD5 được cơng bố với thơng số kiểm tra phần mềm tải về bằng MD5.
Hệ điều hành Unix sử dụng MD5 để kiểm tra các gói mà nó phân phối, trong
khi hệ điều hành Windows sử dụng phần mềm của hãng thứ ba.
MD5 được dùng để mã hóa mật khẩu. Mục đích của việc mã hóa này
là biến đổi một chuỗi mật khẩu thành một đoạn mã khác, sao cho từ đoạn
mã đó khơng thể nào lần trở lại mật khẩu. Có nghĩa là việc giải mã là khơng
thể hoặc phải mất một khoảng thời gian vơ tận (đủ để làm nản lòng các
hacker).
1.1.5. Dữ liệu
Lược đồ thủy vân được xây dựng cho các cơ sở dữ liệu quan hệ với các
kiểu dữ liệu xác định. Ví dụ, một số lược đồ thủy vân chỉ xây dựng được cho
cơ sở dữ liệu quan hệ chứa các thuộc tính có kiểu số. Với các cơ sở dữ liệu
quan hệ chứa các thuộc tính khơng phải kiểu số thì lược đồ thủy vân này
khơng thể áp dụng được [3][6]. Vì vậy, kiểu dữ liệu của cơ sở dữ liệu quan hệ
là yếu tố đầu tiên ảnh hưởng đến việc xây dựng thành cơng một lược đồ thủy
vân.
Số hóa bởi Trung tâm Học liệu />
13
Với cơ sở dữ liệu quan hệ bao gồm một số kiểu dữ liệu như: kiểu số, kiểu
văn bản, kiểu ngày tháng, kiểu bộ nhớ,… Hai kiểu dữ liệu thường được sử
dụng là kiểu số và kiểu văn bản. Hiện nay, đã có khá nhiều các nghiên cứu về
lược đồ thủy vân cho cơ sở dữ liệu chứa kiểu dữ liệu là kiểu số [1][2].
Nhưng dữ liệu kiểu văn bản lại chiếm một phần khơng nhỏ trong cơ sở dữ
liệu quan hệ và bản thân dữ liệu kiểu số cũng có thể được quy về dữ liệu kiểu
văn bản nếu coi nó như là một chuỗi số. Gần đây, bắt đầu có một số nghiên
cứu về lược đồ thủy vân dành cho dữ liệu kiểu khơng phải kiểu số (kiểu văn
bản) đã được đề xuất [6]. Tuy nhiên, việc xây dựng một lược đồ thủy vân cho
cơ sở dữ liệu quan hệ có thuộc tính khơng phải kiểu số còn gặp nhiều khó
khăn. Một số khó khăn:
- Vấn đề về ngữ nghĩa của dữ liệu. Với dữ liệu kiểu số thì khơng có khó

khăn xảy ra nhưng với dữ liệu khơng phải kiểu số vấn đề ngữ nghĩa rất quan
trọng. Việc thay đổi một giá trị có thể ảnh hưởng tới ngữ nghĩa của dữ liệu và
bằng việc sử dụng một số cơng cụ phân tích ngữ nghĩa thủy vân được nhúng
có thể bị phát hiện.
- Vấn đề về mức ảnh hưởng của các thuộc tính khơng phải kiểu số trong
cơ sở dữ liệu quan hệ. Với cơ sở dữ liệu quan hệ chứa các thuộc tính khơng
phải kiểu số có thể chứa các thuộc tính có ảnh hưởng cao và các thuộc tính có
ảnh hưởng khơng cao đến giá trị sử dụng của cơ sở dữ liệu. Vì vậy, việc xây
dựng lược đồ thủy vân cần chọn lựa các thuộc tính có ảnh hưởng khơng cao
trong cơ sở dữ liệu.
1.2. Sự cần thiết của các kỹ thuật thuỷ vân cơ sở dữ liệu quan hệ
Hiện nay, có khá nhiều tài liệu về thuỷ vân các dữ liệu đa phương tiện.
Hầu hết các kỹ thuật này ban đầu được phát triển cho các bức ảnh tĩnh và sau
đó được mở rộng cho video và audio. Cho dù có khá nhiều điều có thể học hỏi
được từ các kết quả đã đạt được về thuỷ vân dữ liệu đa phương tiện nhưng
Số hóa bởi Trung tâm Học liệu />
14
cho đến nay vẫn còn rất nhiều thách thức kỹ thuật mới đối với lĩnh vực thuỷ
vân cơ sở dữ liệu quan hệ bởi vì các dữ liệu quan hệ và các dữ liệu đa phương
tiện khác nhau ở khá nhiều khía cạnh quan trọng. Những khác biệt đó bao
gồm:
- Một đối tượng đa phương tiện chứa một lượng rất lớn các bit với sự dư
thừa đáng kể. Các bit dư thừa này có thể được sử dụng để đưa các thơng tin
thủy vân vào trong đó. Thơng thường chúng được sử dụng như một mặt nạ
chứa các thơng tin thủy vân. Việc thay đổi một hoặc một vài bit dư thừa
khơng làm ảnh hưởng đến giá trị sử dụng của dữ liệu. Trong khi đó, một quan
hệ cơ sở dữ liệu quan hệ chứa các bộ, mỗi bộ này biểu diễn một đối tượng
riêng biệt. Thuỷ vân cần phải được trải rộng trên tất cả các đối tượng riêng
biệt này. Việc thay đổi bất kỳ một bit nào cũng ảnh hưởng đến giá trị của các
bộ trong cơ sở dữ liệu.

- Vị trí tương đối về khơng gian/thời gian của các phần khác nhau của
một đối tượng đa phương tiện có đặc thù là khơng thay đổi. Trong khi đó, một
cơ sở dữ liệu quan hệ chứa các bộ của một quan hệ lại cấu thành một tập hợp
và do vậy có thể sắp thứ tự giữa các đối tượng trong cơ sở dữ liệu quan hệ.
Tuy nhiên, thứ tự này có thể thay đổi nếu cách sắp xếp thay đổi hoặc do một
ngun nhân nào đó.
- Các phần khác nhau của một đối tượng đa phương tiện khơng thể bị cắt
bỏ hoặc thay thế một cách tuỳ ý mà khơng gây ra những thay đổi về cảm quan
trong đối tượng. Ngược lại, việc thêm, bớt, và cập nhật các bộ của một bảng
quan hệ lại là những phép tốn chuẩn trong cơ sở dữ liệu quan hệ. Do đó, sẽ
rất khó để phát hiện những xâm hại đơn giản như xóa bỏ một số bộ hoặc thay
thế chúng bằng các bộ của các quan hệ khác.
Số hóa bởi Trung tâm Học liệu />
15
Do có những khác nhau như đã nêu trên đây mà các kỹ thuật được phát
triển cho các dữ liệu đa phương tiện khơng thể được sử dụng trực tiếp để thuỷ
vân các dữ liệu quan hệ.
Thật vậy, giả sử chúng ta ánh xạ một quan hệ thành một bức ảnh bằng
cách xem mỗi giá trị thuộc tính như một điểm ảnh. Nhưng khơng may là “bức
ảnh” được định nghĩa như vậy sẽ thiếu rất nhiều tính chất của một bức ảnh
thật. Ví dụ, các điểm ảnh nằm cạnh nhau trong một bức ảnh thật thường có
quan hệ mật thiết với nhau và quan hệ này là cơ sở cho nhiều kỹ thuật thuỷ
vân ảnh tĩnh. Các kỹ thuật thuỷ vân trên miền biến đổi của ảnh thường thực
hiện theo quy trình: trước hết áp dụng một phép biến đổi (cosine rời rạc -
DCT, sóng nhỏ - DWT, . . .) miền giá trị của bức ảnh, sau đó nhúng thuỷ vân
vào miền đã biến đổi rồi biến đổi ngược trở lại. Cách làm này trải các tín hiệu
thuỷ vân như phủ một màn nhiễu trên tồn bộ bức ảnh. Áp dụng trực tiếp các
kỹ thuật này cho một quan hệ sẽ làm sai lệch giá trị của tất cả các thuộc tính.
Điều đó có thể sẽ khơng được chấp nhận. Hơn nữa, một thuỷ vân như vậy có
thể khơng tồn tại được ngay cả trước những cập nhật nhỏ đối với quan hệ.

Các lược đồ thủy vân văn bản thường lợi dụng các tính chất đặc biệt của
văn bản đã được định dạng. Thủy vân thường được nhúng vào văn bản bằng
cách thay đổi khoảng cách giữa các từ và các dòng văn bản. Một số kỹ thuật
dựa vào việc nhấn mạnh một vài câu trong văn bản. Nhìn chung, các kỹ thuật
này có thể sử dụng để thủy vân các quan hệ chỉ chứa các thuộc tính kiểu văn
bản, còn đối với các quan hệ chứa các thuộc tính kiểu khác thì rất khó áp
dụng.
Bên cạnh đó, như các phân tích trong phần 1.1, có thể thấy cơ sở dữ liệu
quan hệ ngày càng được sử dụng nhiều hơn và cũng tiềm ẩn nhiều nguy cơ bị
tấn cơng hơn. Vì vậy, u cầu đặt ra là tìm các phương pháp nhằm đảm bảo
Số hóa bởi Trung tâm Học liệu />
16
tính tồn vẹn của cơ sở dữ liệu quan hệ. Trong các phương pháp đó, thủy vân
cơ sở dữ liệu quan hệ là một phương án được nhiều sự quan tâm.
Tuy nhiên, như đã phân tích ở trên, khơng thể áp dụng trực tiếp các lược
đồ thủy vân dữ liệu đa phương tiện cho cơ sở dữ liệu quan hệ. Chính vì vậy,
xây dựng các lược đồ thủy vân cho cơ sở dữ liệu quan hệ là thực sự cần thiết.
1.3. Các u cầu cơ bản của thuỷ vân trên cơ sở dữ liệu quan hệ
Chúng ta có thể thấy rằng thủy vân các dữ liệu quan hệ có những thách
thức kỹ thuật đáng kể và có các ứng dụng thực tế có ý nghĩa xứng đáng được
quan tâm thích đáng từ phía cộng đồng những người nghiên cứu cơ sở dữ liệu
quan hệ. Cần phải xác định một hệ thống thủy vân và kèm theo đó là phát
triển các kỹ thuật nhất định. Những kỹ thuật này chắc chắn là sẽ dựa phần lớn
vào các ngun tắc thủy vân đang tồn tại. Tuy nhiên, chúng cũng sẽ đòi hỏi
phải có những mở rộng và các sáng kiến mới.
Để minh họa cho sự khả thi của một lược đồ thủy vân cơ sở dữ liệu quan
hệ, trình bày một kỹ thuật hữu hiệu thỏa mãn những tiêu chuẩn của một hệ
thống thủy vân. Kỹ thuật này chỉ đánh dấu các thuộc tính kiểu số và giả thiết
là các thuộc tính được đánh dấu có thể chấp nhận những thay đổi nhỏ ở một
số giá trị. Ý tưởng cơ bản là đảm bảo tại một số vị trí bit của một số thuộc

tính trong một số bộ có chứa các giá trị nhất định. Các bộ, các thuộc tính
trong một bộ, các vị trí bit trong một thuộc tính và các giá trị bit nhất định này
đều phải được xác định một cách chính xác và logic dưới sự kiểm sốt của
một khóa bí mật của chủ sở hữu quan hệ. Mẫu bit này sẽ hình thành ra thủy
vân. Chỉ duy nhất chủ sở hữu của khóa bí mật mới có thể tìm lại được thủy
vân với một xác suất cao. Các phân tích chi tiết chỉ ra rằng thủy vân này có
thể bền vững trước một loạt các tấn cơng gây hại khác nhau.
Để đơn giản trong khi biện luận, sử dụng ba nhân vật điển hình vẫn
thường được dùng trong các ví dụ về mật mã, giấu tin và thủy vân. Đó là một
Số hóa bởi Trung tâm Học liệu />
17
cơ gái tên là Alice và bạn trai của cơ tên là Bob. Hai người này thường hay
gửi thư cho nhau và ở giữa là một anh chàng tên là Mallory thường xun làm
phiền họ.
Giả dụ, Alice là chủ nhân của quan hệ R chứa  bộ, trong đó cơ đã đánh
dấu  bộ. Hệ thống thủy vân cần phải thỏa mãn những tính chất sau đây.
1.3.1. Khả năng có thể phát hiện
Alice cần phải có khả năng phát hiện thủy vân của cơ bằng cách xem xét

bộ từ cơ sở dữ liệu quan hệ nghi ngờ. Rõ ràng là nếu mẫu bit của cơ (thủy
vân) có mặt ở tất cả

bộ thì cơ có lý do xác đáng để nghi ngờ có sự sao chép
trái phép. Tuy nhiên, Alice cũng có thể ngờ vực ngay cả khi mẫu của cơ chỉ
có mặt ở ít nhất là

bộ (






), trong đó

phụ thuộc vào

và một giá trị


cho trước, được gọi là mức ý nghĩa của phép thử. Giá trị của

được xác định
sao cho xác suất để Alice sẽ tìm thấy mẫu bit của cơ trong ít nhất

bộ từ


bộ là nhỏ hơn

.
Một hướng khác, Bob muốn xác nhận thư được gửi từ Alice là ngun
vẹn khơng bị thay đổi trong q trình gửi. Cơ sở dữ liệu quan hệ được gửi tới
từ Alice phải chứa đúng mẫu bit đã được nhúng.  bộ sẽ được xem xét để xác
minh tính tồn vẹn của bức thư. Khi có bất kỳ thay đổi nào trong mẫu bit thì
bức thư đã bị ai đó sửa đổi. Bob có thể u cầu Alice gửi lại thư hoặc anh có
thể khoanh vùng các sai sót và vẫn có thể đọc được các nội dung bên trong.
1.3.2. Tính bền vững và dễ vỡ
Các thủy vân cần phải bền vững trước những tấn cơng nhằm xóa bỏ
chúng. Ví thể với tư cách là kẻ tấn cơng, Mallory thay đổi


bộ trong quan hệ
R của Alice. Chúng ta nói rằng thủy vân là an tồn đối với tấn cơng này nếu
kẻ tấn cơng khơng thể phá hủy các dấu hiệu thủy vân ở ít nhất

bộ, trong đó


phụ thuộc vào



như đã nói ở trên.
Số hóa bởi Trung tâm Học liệu />
18
Ngược lại, trong các lược đồ thủy vân dễ vỡ, khi có bất kỳ tần cơng nào
lên dữ liệu thì các thủy vân cần khơng còn ngun vẹn. Vì vậy, với tư cách
người tấn cơng, Mallory mong muốn thay đổi

bộ trong quan hệ R của Alice
mà vẫn khơng làm thay đổi thủy vân. Khi đó, nếu những thay đổi của Mallory
làm thay đổi các thủy vân được giấu thì ta có thể kết luận rằng quan hệ đã bị
tấn cơng.
1.3.3. Khả năng cập nhật dữ liệu
Sau khi có quan hệ R đã thủy vân, Alice có thể cập nhật R khi cần thiết
mà khơng làm hỏng thủy vân. Khi Alice thêm/bớt các bộ hoặc sửa đổi các giá
trị của các thuộc tính của R, thủy vân cần phải có khả năng cập nhật trên
những phần gia tăng. Tức là, các giá trị thủy vân chỉ phải tính tốn lại đối với
các bộ được thêm vào hoặc bị sửa đổi.
Tuy nhiên, khi quan hệ R đã được thủy vân được cập nhật dữ liệu thì Bob
sẽ xem đây là các tấn cơng trên quan hệ R. Để giải quyết vấn đề này, Alice có

thể cập nhật và thủy vân lại quan hệ R và gửi sang cho Bob. Vấn đề này giải
quyết cho bài tốn đảm bảo tính tồn vẹn của quan hệ trong q trình truyền
tải.
1.3.4. Tính ẩn và hiện
Hầu hết trong các lược đồ thủy vân, thuỷ vân có tính ẩn, khơng dễ nhận
thấy được bằng mắt thường của con người. Sự thay đổi do các dấu hiệu thuỷ
vân gây ra cho dữ liệu quan hệ khơng được làm giảm giá trị sử dụng của cơ sở
dữ liệu quan hệ. Hơn nữa, các phép đo thống kê thơng thường như trung bình,
phương sai của các thuộc tính số cũng khơng nên bị ảnh hưởng đáng kể.
Tuy nhiên, trong một số trường hợp, thủy vân có tính hiện, dễ dàng nhận
thấy bằng mắt thường hoặc bằng một số phương pháp kiểm tra. Nhưng sự
thay đổi do các thủy vân gây ra cho dữ liệu quan hệ khơng làm ảnh hưởng tới
Số hóa bởi Trung tâm Học liệu />
19
giá trị sử dụng của cơ sở dữ liệu quan hệ. Tính hiện của dữ liệu có thể giúp
cho việc dễ vỡ của thủy vân khi có bất kỳ tấn nào trên dữ liệu được nhúng.
1.3.5. Phát hiện mù
Việc phát hiện thuỷ vân khơng nên đòi hỏi các thơng tin về cơ sở dữ liệu
quan hệ gốc và cả thuỷ vân gốc. Một hệ thống thủy vân như vậy được gọi là
hệ thống mù. Tính chất này rất quan trọng vì nó cho phép có thể phát hiện
thuỷ vân trong bản sao của cơ sở dữ liệu quan hệ cho dù quan hệ gốc đã được
cập nhật.
Tuy nhiên, để phát hiện mù được đối với cơ sở dữ liệu thì một số thơng số
liên quan đến chủ sở hữu vẫn là cần thiết để chứng minh cơ sở dữ liệu thuộc
quyền sở hữu hoặc chứng minh tính tồn vẹn của cơ sở dữ liệu.
1.4. Những tấn cơng trên hệ thuỷ vân cơ sở dữ liệu quan hệ
Vì các cơ sở dữ liệu quan hệ ln được cập nhật nên các thuỷ vân được
giấu trong một quan hệ có thể bị mất do những cập nhật thơng thường cũng
như các tấn cơng có chủ đích.
1.4.1. Cập nhật thơng thường

Giả sử Mallory lấy trộm dữ liệu của Alice mà khơng nhận ra nó đã được
thủy vân. Sau đó, Mallory có thể cập nhật dữ liệu đã ăn trộm khi anh ta sử
dụng nó. Kỹ thuật đánh dấu cần đảm bảo rằng Alice khơng bị mất thủy vân
của cơ ngay trong các dữ liệu bị ăn trộm, thậm chí đối với cả những cập nhật
của Mallory. Tức là các phép tốn cập nhật thơng thường như xóa, sửa, bổ
sung các bộ trong cơ sở dữ liệu quan hệ.
Các kỹ thuật thuỷ vân cần đảm bảo rằng người chủ cơ sở dữ liệu quan hệ
khơng bị mất thuỷ vân ngay trong dữ liệu bị kẻ khác ăn trộm, thậm chí đối với
những cập nhật của tên trộm đó.
1.4.2. Tấn cơng có chủ đích
Số hóa bởi Trung tâm Học liệu />
20
Mallory có thể biết dữ liệu anh ta ăn trộm có chứa thủy vân, nhưng anh ta
có thể cố xóa thủy vân này hoặc thử dùng các phương tiện khác để đòi quyền
sở hữu trái phép.
Hệ thống đánh dấu cần phải đảm bảo Alice trước những tấn cơng gây hại
của Mallory. Nghĩa là các cơ sở dữ liệu quan hệ có thể bị những kẻ xấu ăn
trộm, tấn cơng nhằm mục đích đòi quyền sở hữu trái phép hay phá huỷ dữ
liệu, phá huỷ thuỷ vân, Do đó, hệ thống thuỷ vân cần phải đảm bảo người
chủ cơ sở dữ liệu quan hệ trước những tấn cơng gây hại của kẻ trộm.
Một số tấn cơng gây hại:
- Tấn cơng vào các bit: Cách tấn cơng gây hại đơn giản nhất là cố gắng
phá huỷ thuỷ vân bằng cách cập nhật một số bit. Nếu tên trộm Mallory có thể
thay đổi tất cả các bit, thì anh ta có thể dễ dàng phá huỷ thuỷ vân. Tuy nhiên,
việc này cũng làm cho dữ liệu của anh ta khơng còn sử dụng được nữa. Do
đó, tác hại của một tấn cơng cần phải được xem xét trên cơ sở mối quan hệ
giữa số bit mà Mallory và Alice thay đổi, vì mỗi thay đổi có thể được coi như
một sai sót. Càng có nhiều sai sót càng làm cho dữ liệu kém hữu dụng.
- Tấn cơng ngẫu nhiên: Tấn cơng này sẽ gán các giá trị ngẫu nhiên cho
một số vị trí bit nào đó. Một tấn cơng zero hố đặt các giá trị của một số vị trí

bit bằng zero. Một tấn cơng đổi bit sẽ đổi giá trị của một số vị trí bit từ 0
thành 1 hoặc ngược lại từ 1 thành 0. Các phép cập nhật thơng thường có thể
được coi là một tấn cơng ngẫu nhiên.
- Tấn cơng bằng cách làm tròn số: Kẻ tấn cơng có thể thử làm mất các
dấu hiệu trong một thuộc tính kiểu số bằng cách làm tròn tất cả các giá trị của
thuộc tính này. Anh ta phải đốn một cách chính xác có bao nhiêu vị trí tham
gia trong thuỷ vân. Nếu anh ta đốn non thì tấn cơng có thể khơng thành cơng.
Nếu đốn già, thì anh ta đã làm giảm chất lượng của dữ liệu hơn mức cần
Số hóa bởi Trung tâm Học liệu />
21
thiết. Thậm chí, ngay cả khi đốn đúng thì dữ liệu của anh ta cũng khơng
tương thích với dữ liệu của người chủ dữ liệu vì nó ít chính xác hơn.
- Tấn cơng tập hợp con: Kẻ tấn cơng có thể lấy đi một tập con các bộ
hoặc các thuộc tính của quan hệ đã thuỷ vân với hy vọng làm mất thuỷ vân đó.
- Tấn cơng cộng: Mallory có thể cộng thêm thủy vân của anh ta vào quan
hệ đã thủy vân của Alice và đòi quyền sở hữu.
- Tấn cơng ngược lại: Mallory có thể phát động một cuộc tấn cơng ngược
lại để đòi chủ quyền nếu anh ta có thể khám phá thành cơng một thủy vân bịa
đặt. Cái thủy vân mà Mallory cơng bố thực ra chỉ là một xuất hiện ngẫu nhiên
mà thơi.
1.5. Các ứng dụng chủ yếu của thủy vân cơ sở dữ liệu quan hệ
1.5.1. Bảo vệ bản quyền hoặc chứng minh quyền sở hữu
Ngày nay, việc bảo vệ bản quyền hoặc chứng minh quyền sở hữu
(Copyright Protection or Proving Ownership) đối với các nguồn cơ sở dữ liệu
quan hệ ở bên ngồi là một vấn đề quan trọng trong các mơi trường ứng dụng
dựa vào Internet và trong nhiều ứng dụng phân phối dữ liệu. Đây là ứng dụng
cơ bản nhất của kỹ thuật thủy vân. Một thơng tin nào đó (hay còn gọi là thủy
vân) mang ý nghĩa quyền sở hữu sẽ được nhúng vào trong dữ liệu quan hệ.
Thuỷ vân đó chỉ một mình người chủ sở hữu hợp pháp cơ sở dữ liệu quan hệ
đó có và được dùng làm minh chứng cho bản quyền sản phẩm.

Vấn đề chứng minh bản quyền hay quyền sở hữu cơ sở dữ liệu cần được
thực hiện bởi một bên thứ ba. Bên thứ ba có thể là một tổ chức thuộc chính
phủ hay một tổ chức cá nhân làm việc trong ngành chứng thực có uy tín và
được cấp phép chứng thực.
Để có thể chứng thực quyền sở hữu cơ sở dữ liệu, chủ sở hữu cơ sở dữ
liệu cần phải đăng ký với tổ chức chứng thực các thơng tin liên quan vào
trong một văn bản được gọi là giấy chứng thực. Giấy chứng thực bao gồm các
Số hóa bởi Trung tâm Học liệu />
22
thơng tin như: Định danh của chủ sở hữu cơ sở dữ liệu, khóa thủy vân, thủy
vân, các thơng tin pháp lý và tổ chức uy tín cấp giấy chứng thực.
Các thơng tin pháp lý bao gồm: thời gian bắt đầu có hiệu lực, thời gian kết
thúc, thời gian giấy chứng thực lần đầu tiên. Các thơng tin này giúp cho việc
xem xét quyền sở hữu cơ sở dữ liệu và cũng là các thơng tin pháp lý được sử
dụng khi có tranh cãi về quyền sở hữu cơ sở dữ liệu.
Việc chứng minh quyền sở hữu cơ sở dữ liệu được thực hiện qua các
bước sau:
- Kiểm tra các thơng tin pháp lý còn thỏa mãn hay khơng.
- Sử dụng các thơng tin về khóa thủy vân, thủy vân, cơ sở dữ liệu và
thuật tốn phát hiện thủy vân để xác minh quyền sở hữu.
- Kết luận quyền sở hữu và cấp một giấy chứng nhận mới.
1.5.2. Chứng minh tính tồn vẹn
Một tập thơng tin sẽ được giấu trong cơ sở dữ liệu quan hệ. Sau đó, các
thơng tin này sẽ được sử dụng để nhận biết xem dữ liệu gốc có bị thay đổi hay
khơng. Bằng kỹ thuật thuỷ vân, người ta có thể lấy thơng tin đã giấu vào trong
dữ liệu quan hệ đó ra. Nếu thơng tin lấy ra trùng với thơng tin ban đầu đem
giấu thì chứng tỏ dữ liệu gốc khơng bị thay đổi hay là tồn vẹn. Ngược lại,
thơng tin lấy ra và thơng tin ban đầu có sự khác biệt thì chứng tỏ dữ liệu đã bị
thay đổi, hoặc bị xun tạc.
Trong các ứng dụng thực tế, người ta mong muốn tìm được vị trí bị xun

tạc, phân biệt được các thay đổi và khơi phục lại được dữ liệu gốc. Tuy nhiên,
việc đáp ứng được tất cả các u cầu trên là vơ cùng khó khăn. Ngay cả bản
thân việc xác định vị trí bị xun tạc trong cơ sở dữ liệu quan hệ cũng đã rất
khó và thường phải có thêm các ràng buộc cần thiết. Chẳng hạn như, khoanh
vùng xun tạc tại một khu vực (nhóm) sẽ dễ hơn rất nhiều so với xác định vị
trí chính xác của xun tạc.
Số hóa bởi Trung tâm Học liệu />
23
Cũng tương tự như vậy, việc phân biệt các thay đổi và khơi phục dữ liệu
gốc cũng gặp những khó khăn nhất định. Việc khơi phục dữ liệu gốc thường
chỉ thực hiện được đối với những thay đổi nhỏ (thường là một thuộc tính của
một bộ). Tuy nhiên, để có thể khơi phục được như vậy cũng u cầu rất nhiều
ràng buộc.
1.6. Các lƣợc đồ thủy vân cơ sở dữ liệu quan hệ
Thuỷ vân trên cơ sở dữ liệu quan hệ là một lược đồ mới và rất phức tạp.
Cho đến nay mới chỉ có một số cách tiếp cận bài tốn thuỷ vân cơ sở dữ liệu
quan hệ. Việc lựa chọn lược đồ thủy vân phụ thuộc vào u cầu của ứng
dụng. Các lược đồ thủy vân được chia làm hai loại chính:
- Lược đồ thủy vân được sử dụng cho bảo vệ bản quyền cơ sở dữ liệu
quan hệ.
- Lược đồ thủy vân được sử dụng cho đảm bảo tính tồn vẹn cơ sở dữ
liệu quan hệ.
Các lược đồ thủy vân sử dụng cho bảo vệ bản quyền cơ sở dữ liệu quan hệ
gồm có:
- Kỹ thuật thuỷ vân sử dụng các bit ít ý nghĩa nhất (LSB).
- Kỹ thuật thuỷ vân sử dụng các bit ý nghĩa nhất (MSB).
- Lược đồ thủy vân dựa trên hốn vị.
Các lược đồ thủy vân sử dụng đảm bảo tính tồn vẹn cho cơ sở dữ liệu
quan hệ gồm có:
- Lược đồ thủy vân cơ sở dữ liệu quan hệ chứa các thuộc tính kiểu số

chấp nhận những thay đổi nhỏ.
- Lược đồ thủy vân cơ sở dữ liệu quan hệ chứa các thuộc tính khơng phải
kiểu số.
- Lược đồ thủy vân cơ sở dữ liệu quan hệ chứa các thuộc tính phân loại.
Số hóa bởi Trung tâm Học liệu />
24
1.6.1. Lược đồ thủy vân sử dụng các bit ít ý nghĩa nhất (LSB)
Ý tưởng:
Lược đồ thủy vân [1] sử dụng các bit ít ý nghĩa nhất (LSB) được sử dụng
cho cơ sở dữ liệu quan hệ chứa các thuộc tính kiểu số chấp nhận được những
thay đổi nhỏ mà khơng làm ảnh hưởng tới ý nghĩa của dữ liệu. Kỹ thuật này
sử dụng các bit ít ý nghĩa nhất của các bộ trong cơ sở dữ liệu quan hệ để xây
dựng ra thủy vân nhúng cho tồn bộ cơ sở dữ liệu. Đồng thời, sử dụng mức ý
nghĩa để phát hiện thủy vân đã được nhúng vào trong cơ sở dữ liệu.
Ưu điểm:
- Kỹ thuật tương đối đơn giản và áp dụng được cho các cơ sở dữ liệu
chứa các thuộc tính kiểu số chấp nhận thay đổi nhỏ.
- Là một trong những kỹ thuật đầu tiên cho việc bảo vệ bản quyền cơ sở
dữ liệu quan hệ.
- Khả năng phát hiện mù, và chi phí ít cho việc đăng kí các dữ liệu xác
minh quyền sở hữu.
Nhược điểm:
- Miền ứng dụng hẹp (chỉ áp dụng cho cơ sở dữ liệu có chứa các thuộc
tính kiểu số).
- Cơ sở dữ liệu bị sửa đổi khơng còn là dữ liệu gốc ban đầu.
- Việc xác định mức ý nghĩa phức tạp.
1.6.2. Lược đồ thủy vân sử dụng các bit ý nghĩa nhất (MSB)
Ý tưởng:
Lược đồ thủy vân [4] sử dụng các bit ý nghĩa nhất (MSB) được sử dụng
cho cơ sở dữ liệu quan hệ chứa các thuộc tính kiểu số. Kỹ thuật này xây dựng

một cơ sở dữ liệu quan hệ mới R’ là một bản sao của cơ sở dữ liệu quan hệ
gốc R có chứa cùng các thuộc tính. Trong đó, thuộc tính khóa chính của cơ sở
dữ liệu R trùng với cơ sở dữ liệu R và các thuộc tính còn lại chỉ chứa các giá
Số hóa bởi Trung tâm Học liệu />

×