Tải bản đầy đủ (.pdf) (81 trang)

Tìm hiểu những kỹ thuật bảo mật trong quá trình khai phá dữ liệu xây dựng ứng dụng prototyre trên kết quả học tập của sinh viên khoa cntt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.35 MB, 81 trang )

Privacy Preserving Data Mining

Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường

MỤC LỤC
1 Chương I - Giới thiệu .................................................. 5
1.1
1.2
1.3
1.4

Đặt vấn đề.................................................................................................. 5
Tên đề tài................................................................................................... 6
Mục tiêu của đề tài .................................................................................... 6
Cấu trúc bài báo cáo .................................................................................. 7

2 Chương II - Cơ sở lý thuyết........................................ 8
2.1
Khai phá dữ liệu ........................................................................................ 8
2.2
Quá trình KPDL ........................................................................................ 9
2.2.1
Tìm hiểu nghiệp vụ và dữ liệu ........................................................... 9
2.2.2
Chuẩn bị dữ liệu................................................................................. 9
2.2.3
Mơ hình hố dữ liệu........................................................................... 9
2.2.4
Hậu xử lý và đánh giá mơ hình........................................................ 10
2.2.5
Triển khai tri thức ............................................................................ 10


2.3
Phương pháp KPDL ................................................................................ 11
2.3.1
Phương pháp thống kê ..................................................................... 11
2.3.2
Phân cụm.......................................................................................... 12
2.3.3
Cây quyết định và luật quyết định ................................................... 16
2.3.4
Luật liên kết ..................................................................................... 19
2.4
Kỹ thuật bảo mật trong KPDL ................................................................ 22
2.4.1
Thông tin riêng (Privacy)................................................................. 22
2.4.2
Một số phương pháp để bảo mật thông tin trong Data mining........ 23
2.4.3
Bảo mật trong quá trình KPDL bằng Luật liên kết.......................... 24
2.4.4
Giải thuật bảo mật:........................................................................... 28
2.4.5
Ví dụ minh họa ................................................................................ 31
2.4.6
Đánh giá giải thuật:.......................................................................... 33
2.5
Giới thiệu WEKA.................................................................................... 33
2.6
Tổng kết................................................................................................... 35

3 Chương III: KPDL điểm SV Đại học Bách Khoa... 36

3.1
Dữ liệu điểm SV Đại học Bách Khoa ..................................................... 36
3.2
Bài toán tiềm năng .................................................................................. 37
3.2.1
Bài toán 1: Tìm hiểu mối liên hệ giữa các mơn học trong khoa
CNTT 37
3.2.2
Bài tốn 2: Tìm hiểu mối liên hệ giữa các thuộc cá nhân với điểm
trung bình........................................................................................................ 39
3.2.3
Bài tốn 3: Đánh mơn học bất thường ............................................. 40
3.2.4
Bài tốn 4: Đánh giá mơn học khơng ổn định ................................. 41
3.2.5
Bài tốn 5: Đánh giá lại cách đánh giá môn học ............................. 41
3.3
Giải quyết bài toán .................................................................................. 42

Nguyễn Minh Ý

1/81


Privacy Preserving Data Mining

Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường

3.3.1
Bài toán 1: Tìm hiểu mối liên hệ giữa các mơn học trong khoa

CNTT 42
3.3.2
Bài tốn 2: Tìm hiểu mối liên hệ giữa các thuộc tính cá nhân với
điểm trung bình............................................................................................... 50
3.3.3
Bài tốn 3: Đánh mơn học bất thường ............................................. 54
3.3.4
Bài tốn 4: Đánh giá mơn học khơng ổn định ................................. 63
3.3.5
Bài tốn 5: Đánh giá lại cách đánh giá môn học ............................. 64
3.4
Tổng kết................................................................................................... 67

4 Chương IV: Bảo mật trong KPDL........................... 68
4.1
Đặt vấn đề................................................................................................ 68
4.2
Cách tiếp cận và hiện thực chương trình................................................. 68
4.2.1
Hướng tiếp cận................................................................................. 68
4.2.2
Mơ hình:........................................................................................... 69
4.2.3
Hiện thực chương trình .................................................................... 69
4.2.4
Chức năng chính .............................................................................. 70
4.3
Cải tiến giải thuật .................................................................................... 70
4.3.1
Vấn đề phát sinh: ............................................................................. 70

4.3.2
Nguyên nhân:................................................................................... 71
4.3.3
Hướng giải quyết: ............................................................................ 71
4.4
Đánh giá giải thuật .................................................................................. 72
4.4.1
Kết quả đạt được trong luận văn...................................................... 72
4.4.2
So sánh cách giải thuật..................................................................... 75
4.5
Đánh giá kết quả đạt được....................................................................... 77
4.5.1
Kết quả trong bài báo “Association Rule Hiding” .......................... 77
4.5.2
Hiệu quả của các giải thuật được hiện thực trong luận văn............. 78
4.6
Đánh giá & tổng kết ................................................................................ 78

5 Chương V -Tổng kết đánh giá & hướng phát triển 80
5.1
5.2

Tổng kết................................................................................................... 80
Hướng phát triển ..................................................................................... 80

6 Tài liệu tham khảo..................................................... 81

Nguyễn Minh Ý


2/81


Privacy Preserving Data Mining

Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường

DANH MỤC HÌNH
Hình 1 Qui trình phát triển tri thức ........................................................................ 10
Hình 2 Cluster ........................................................................................................ 13
Hình 3 Cluster theo cây thứ bậc............................................................................. 15
Hình 4 Giải thuật C4.5 ........................................................................................... 17
Hình 5:Cây quyết định ........................................................................................... 19
Hình 6 Luật quyết định .......................................................................................... 19
Hình 7 Mơ hình xử lý............................................................................................. 26
Hình 8 Giải thuật bảo mật 1 ................................................................................... 28
Hình 9:Giải thuật bảo mật 2................................................................................... 29
Hình 10:Giải thuật bảo mật 3................................................................................. 29
Hình 11: Giải thuật bảo mật 4................................................................................ 30
Hình 12:Giải thuật bảo mật 5................................................................................. 30
Hình 13:Weka Explore........................................................................................... 34
Hình 14:Các yếu tố ảnh hưởng đến kết quả của môn học ..................................... 40
Hình 15: Thơng kê trực quan ................................................................................. 46
Hình 16:Kết quả KPDL.......................................................................................... 47
Hình 17:Phân bố chuẩn .......................................................................................... 56
Hình 18:Qui luật 68,95,99 ..................................................................................... 57
Hình 19: Giao diện phần mềm ............................................................................... 69
Hình 20:Giải thuật cải tiến ..................................................................................... 72
Hình 21: Kết quả đánh giá giải thuật đã được công bố.......................................... 78


Nguyễn Minh Ý

3/81


Privacy Preserving Data Mining

Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường

DANH MỤC BẢNG
Bảng 1: Cơ sở dữ liệu điểm ................................................................................... 37
Bảng 2:Các yếu tố ảnh hưởng đến kết quả môn học ............................................. 41
Bảng 3:Danh sách mơn học có điểm TB bất thường ............................................. 58
Bảng 4:Danh sách mơn học có tỉ lệ sinh viên khơng đạt bất thường..................... 59
Bảng 5:Danh sách mơn học có tỉ lệ sv không đạt và điểm TB bất thường............ 62
Bảng 6:Danh sách môn học không ổn định ........................................................... 64
Bảng 7:Danh sách mơn học có điểm TB được cải thiện........................................ 67

Nguyễn Minh Ý

4/81


Privacy Preserving Data Mining

Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường

1 Chương I - Giới thiệu
1.1 Đặt vấn đề
Ngày nay, cùng với sự phát triển không ngừng của ngành Công Nghệ Thông Tin

là sự bùng nổ số lượng ứng dụng quản lý thông tin, công việc của tổ chức, doanh
nghiệp, cá nhân,.. Hạt nhân của các ứng dụng này - cơ sở dữ liệu - cũng vì thế mà
tăng theo từ chỉ vài MegaByte(MB) trong những năm trước, thì ngày nay với sự
hỗ trợ của phần cứng, cơ sở dữ liệu có thể lên đến hàng trăm GigaByte(GB) và
thậm chí là vài TeraByte. Với khối lượng dữ liệu khổng lồ như vậy nhưng phần
lớn các CSDL này chưa được quan tâm đúng mức (chỉ khoảng 5Ỉ10% dữ liệu
được phân tích thường xun, cịn lại chỉ được lưu phòng khi cần sử dụng
đến[18]).
Với nhu cầu phân tích các CSDL khổng lồ như vậy thì các phương pháp quản trị
và khai thác cơ sở dữ liệu truyền thống ngày càng không đáp ứng được thực tế,
một khuynh hướng kỹ thuật mới ra đời đó là Kỹ thuật phát hiện tri thức và KPDL
(KDD - Knowledge Discovery and Data Mining).
Kỹ thuật phát hiện tri thức và KPDL đã và đang được nghiên cứu, ứng dụng trong
nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật này
tương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng
dụng.
Nếu như các thông tin nhạy cảm trong CSDL cần phải bảo mật 1 lần thì những
thơng tin, tri thức, qui luật, … được nhận ra từ quá trình KPDL cần bảo vệ 10 lần.
Nói như vậy để thấy được tầm quan trọng của bảo mật, bảo vệ các thơng tin nhạy
cảm trong KPDL. Vì đơn giản đây là tri thức, qui luật, mẫu dữ liệu… có được từ
sự phân tích tổng hợp của một khối lượng rất lớn dữ liệu. Vấn đề là làm sao bảo
vệ được các thông tin nhạy cảm khỏi sự khai phá của những đối tượng không được
phép truy xuất đồng thời vẫn bảo đảm được những thông tin, tri thức mà những
đối tượng này được có thể có được từ KPDL. Trong giới hạn của đề tài này chúng
ta chỉ đề cập đến vấn đề bảo mật cho phương pháp KPDL - Luật liên kết. Đây là
một vấn đề còn khá mới mẻ, chưa có bất cứ một đề tài nào tại Việt Nam đề cập
đến cịn trên thế giới thì các đề tài chỉ dừng lại ở dạng giả thiết và chưa có kết quả
cụ thể.
Một số nghiên cứu tiêu biểu:
Đề tài “State of art in Privacy Preserving Data Mining ”, Vassilios S Verkios,

Elisa Bertino.
Nội dung: Trình bày tổng quan, phân loại và đưa ra một số ý tưởng chính cho các
vấn đề liên quan đến bảo vệ thông tin nhạy cảm, thơng tin cá nhân trong q trình
KPDL
Nguyễn Minh Ý

5/81


Privacy Preserving Data Mining

Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường

Đề tài “Using Unknowns to prevent Discovery of Association rules”, Yucel
Saygin, Vassilios S Verkios, Chris Clifton.
Nội dung: Trình bày cách thức bảo vệ các thông tin nhạy cảm, thông tin cá nhân
bằng cách thay thế những thông tin riêng bằng giá trị “unknown”. Nhằm ẩn đi các
luật nhạy cảm khỏi kết quả KPDL bằng phương pháp luật liên kết

Mong muốn tìm hiểu các kỹ thuật KPDL và phương pháp bảo mật thông tin nhạy
cảm trong quá trình KPDL cũng như áp dụng kỹ thuật này vào thực tế là động lực
để tôi chọn thực hiện đề tài này. Tuy nhiên, do giới hạn về thời gian và kiến thức
nên đề tài có thể cịn nhiều sai sót.
Ứng dụng thực tế được thực hiện trong đề tài chính là KPDL điểm sinh viên Đại
học Bách Khoa, với mong muốn tìm ra những qui luật còn ẩn chứa trong dữ liệu
điểm sinh viên của trường. Nhằm đưa ra những thơng tin hữu ích hỗ trợ cho quá
trình đánh giá và cải tiến chất lượng dạy và học của nhà trường.

1.2 Tên đề tài
Tìm hiểu những kỹ thuật bảo mật trong quá trình KPDL. Xây dựng một ứng dụng

prototype trên kết quả học tập của sinh viên khoa Công Nghệ Thông Tin. (Privacy
preserving data mining)

1.3 Mục tiêu của đề tài
Mục tiêu của đề tài nghiên cứu
9 Tìm hiểu các giải thuật KPDL cơ bản & cơng cụ KPDL Weka
9 Tìm hiểu kỹ thuật bảo mật thơng tin trong quá trình KPDL
9 Tìm hiểu dữ liệu & KPDL điểm của Trường Đại Học Bách Khoa để tìm
kiếm những tri thức hữu ích nhằm hỗ trợ cho cơng tác cải tiến quá trình dạy
và học tại trường.
9 Xây dưng một công cụ bảo vệ các thông tin nhạy cảm trong quá trình
KPDL.

Nguyễn Minh Ý

6/81


Privacy Preserving Data Mining

Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường

1.4 Cấu trúc bài báo cáo
Chương 1: Giới thiệu nội dung và mục tiêu của đề tài
Chương 2: Cơ sở lý thuyết, các giải thuật KPDL cản bản, công cụ KPDL Weka,
Các giải thuật bảo mật trong KPDL bằng phương pháp Luật liên kết, Tìm hiểu cơ
sở dữ liệu điểm của sinh viên trường Đại học Bách Khoa
Chương 3: Đề xuất 1 số bài toán tiềm năng, áp dụng các phương pháp KPDL để
giải quyết các bài toán đặt ra
Chương 4: Bảo mật trong KPDL

Chương 5: Tổng kết, đánh giá và hướng phát triển
Tài liệu tham khảo

Nguyễn Minh Ý

7/81


Privacy Preserving Data Mining

Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường

2 Chương II - Cơ sở lý thuyết
2.1 Khai phá dữ liệu
Trong thời đại ngày nay, với sự phát triển vượt bậc của ngành Công Nghệ Thông
Tin, các hệ thống thông tin lưu trữ dữ liệu cũng tăng lên rất nhanh. Từ khối dữ liệu
này, áp dụng các kỹ thuật KPDL và máy học để phân tích và trích xuất những
thơng tin hữu ích ẩn chứa trong dữ liệu. Các tri thức này có thể được đưa vào để
cải thiện q trình hoạt động của hệ thống.
Một số định nghĩa về KPDL:
KPDL là khoa học rút trích các thơng tin hữu ích từ dữ liệu quá khứ với
mục đích giúp cải tiến các quyết định trong tương lai.[19]
Một định nghĩa khác, KPDL là một q trình truy xuất các thơng tin ngầm,
thơng tin q khứ chưa được biết đến, thơng tin hữu ích tiềm ẩn như các qui
luật(rules), quy tắc, các ràng buộc chứa trong cơ sở dữ liệu. [15]
Tóm lại KPDL là quá trình học tri thức mới từ những liệu đã thu thập
được.[19]
Một số ứng dụng của KPDL:
Hiện nay kỹ thuật KPDL đang được áp dụng một cách rộng rãi trong rất
nhiều lĩnh vực kinh doanh và đời sống khác nhau như:y tế, marketing, ngân hàng,

viễn thơng, internet… .Khơng ai có thể phủ định được những lợi ích to lớn mà nhờ
áp dụng kỹ thuật khai phá đem lại. Điều đó được minh chứng bằng thực tế: chẩn
đoán bệnh trong y tế dựa trên kết quả xét nghiệm đã giúp cho bảo hiểm y tế
Australia phát hiện ra nhiều trường hợp xét nghiệm khơng hợp lí tiết kiệm được 1
triệu $/năm; British Telecom đã phát hiện ra những nhóm người thường xuyên gọi
cho nhau bằng mobile và thu lợi được hàng triệu USD; IBM Surf – Aid đã áp
dụng KPDL vào phân tích các lần đăng nhập Web vào các trang có liên quan đến
thị trường để phát hiện sở thích khách hàng, từ đó đánh giá hiệu quả của việc tiếp
thị qua Web và cải thiện hoạt động của các Website; Trang Web mua bán qua
mạng Amazon cũng tăng doanh thu nhờ áp dụng KPDL trong việc phân tích sở
thích mua bán của khách hàng….
Các kỹ thuật KPDL (Data mining) được chia làm 2 nhóm chính :
• Nhóm mơ tả dữ liệu:có nhiệm vụ mơ tả về các tính chất hoặc các đặc tính
chung của dữ liệu trong CSDL hiện có gồm các kỹ thuật:phân cụm
(clustering), tóm tắt (Sumerization), trực quan hố (Visualization), phân
tích Luật liên kết (Association rules)…
• Nhóm dự đoán:Đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện
thời. Các kỹ thuật này gồm có phân lớp (Classification), hồi quy
(Regesssion).
Nguyễn Minh Ý

8/81


Privacy Preserving Data Mining

Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường

2.2 Quá trình KPDL
KPDL là một q trình của khám phá những mơ hình khác nhau, tổng hợp,

đưa ra giá trị từ tập dữ liệu cho trước.
Thơng thường q trình KPDL là q trình lặp bao gồm các bước sau:
9 Tìm hiểu nghiệp vụ và dữ liệu
9 Chuẩn bị dữ liệu
9 Mơ hình hố dữ liệu
9 Hậu xử lý và đánh giá mơ hình
9 Triển khai tri thức
2.2.1 Tìm hiểu nghiệp vụ và dữ liệu
Đây là công việc đầu tiên cũng là công việc quan trọng nhất trong quá trình
KPDL. Ở bước này người KPDL phải nắm rõ được các nguồn dữ liệu, cấu trúc
của hệ thông cũng như mối quan hệ, ý nghĩa của từng bảng, từng trường tồn tại
trong CSDL. Để hiểu rõ hơn về dữ liệu chúng ta phải hiểu được 1 số nghiệp vụ
liên quan. Việc hiểu rõ dữ liệu và nghiệp vụ giúp người KPDL đề xuất, định hình
được 1 số bài tốn tiềm năng, đặc tả, phân vùng, xác định những dữ liệu liên quan
đến bài toán.
2.2.2 Chuẩn bị dữ liệu
Dữ liệu được thu thập thông tin từ rất nhiều nguồn khác nhau: từ những chuyên
gia hoặc từ cơ sở dữ liệu có sẵn như database, data warehouses, data marts. Vì vậy
cơng việc đầu tiên phải làm đó là kết hợp và chuẩn hố các nguồn dữ liệu trên.
Một số công việc liên quan đến bước chuẩn bị dữ liệu gồm có:
• Xử lý dữ liệu bị thiếu
• Khử sự trùng lắp
• Loại bỏ các giá trị bất thường
• Giảm nhiễu
• Xây dựng các thang định danh
• Chuẩn hóa, rời rạc hóa
• Rút trích và xây dựng đặc trưng từ dữ liệu đã có
• Giảm chiều
• Chuyển dữ liệu sang dạng đơn phẳng
• …

2.2.3 Mơ hình hố dữ liệu
Có nhiều phương pháp, giải thuật Khai phá dữ liệu, tuy nhiên ứng với mỗi bài tốn
thường chỉ có 1 hoặc 2 phương pháp là cho kết quả tối ưu. Vì vậy để chọn được
phương pháp hợp lý và chính xác thì cơng việc tìm hiểu dữ liệu, đặc tả chi tiết bài
tốn chính là cơ sở để chọn phương pháp thích hợp.
Một số phương pháp khai phá dữ liệu tiêu biểu:
Nguyễn Minh Ý

9/81


Privacy Preserving Data Mining

Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường

• Thống kê
• Cây quyết định & luật quyết định
• Luật liên kết
• Phân cụm
• Mạng Neural…[1,3]
Sau khi chọn được phương pháp KPDL thích hợp sẽ là q trình kiểm thử trên các
tập dữ liệu. Quá trình này sẽ được thực hiện lặp đi lặp lại nhiều lần để có thể tìm
được kết quả như mong muốn.
2.2.4 Hậu xử lý và đánh giá mơ hình
Kết quả KPDL sẽ được kiểm thử trên 1 số mẫu thử để đánh giá được tính hiệu quả
của giải thuật. Thông thường kết quả KPDL phải được kết hợp, tinh chỉnh để phù
hợp nhu cầu của người sử dụng. Các kết quả ở dạng học máy sẽ được chuyển sang
dạng nghiệp vụ để phù hợp với ngưới sử dụng.
2.2.5 Triển khai tri thức
Các kết quả đã được kiểm thử, tinh chỉnh, chuyển đổi để phù hợp với nhu cầu của

người sử dụng. Nếu đáp ứng được các yêu cầu đặt ra của bài toán, các kết quả này
sẽ được triển khai (thường ở dạng module) để hỗ trợ q trình ra quyết định.
Thơng thường kết quả này được triển khai ở dạng web để hỗ trợ ra quyết định của
nhiều người sử dụng.
Trên thực tế quá trình KPDL là một q trình lặp nhằm hồn thiện và rút ra được
những thơng tin hữu ích nhất, những mẫu và qui luật chính xác nhất.
Tìm hiểu nghiệp vụ và
dữ liệu

Chuẩn bị dữ liệu

Mơ hình hóa dữ liệu

Hậu xử lý và đánh giá
mơ hình

Triển khai tri thức

Hình 1 Qui trình phát triển tri thức

Nguyễn Minh Ý

10/81


Privacy Preserving Data Mining

Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường

2.3 Phương pháp KPDL

KPDL được ứng dụng trong rất nhiều các lĩnh vực khác nhau nhằm khai thác
nguồn dữ liệu phong phú nằm ẩn trong dữ liệu. Tùy vào lĩnh vực và tính chất của
bài tốn, việc vận dụng KPDL có những phương pháp khác nhau.
2.3.1 Phương pháp thống kê
(Statiscal Methods)
Thống kê là khoa học của thu thập và tổ chức dữ liệu để đưa ra kết quả từ
tập dữ liệu. Phân tích dữ liệu thống kê là một trong số những phương pháp tốt nhất
để KPDL.
Phương pháp đánh giá
Giá trị trung bình
Mean = 1 / n∑ xi
Median = x(n+1)/2 nếu n là lẻ
Median = x(n)/2 nếu n là chẳn
n

Phương sai σ2 = (1/(n)) ∑ ( xi − mean) 2
i =1

Độ lệch chuẩn σ
Cơng thức Bayes:P(H/X)=[P(X/H).P(H)]/P(X)
Mục tiêu
Mục tiêu chính của phương pháp này là phân loại cho các tập giá trị rời rạc
(Classification) và liên tục (Regresssion)
Classification - thường được thực hiện dựa trên những lý thuyết về tốn học sau :
Cơng thức Bayes:P(H/X)=[P(X/H).P(H)]/P(X)
Theo lý thuyết xác suất Bayes thì xác suất của một sự cố có thể được tính từ các
xác suất xảy ra của các sự cố trước (đó gọi là tiền xác suất)
Ví dụ: Cho tập dữ liệu huấn luyện trong bảng 1, bạn phải phân loại cho một mẫu
dữ liệu sau X = {1, 2, 2, class= ?}
Ví dụ

1
2
3
4

Nguyễn Minh Ý

Attribute 1
A1
1
0
2
1

Attribute 2
A2
2
0
1
2

Attribute 3
A3
1
1
2
1

Class C
1

1
2
2

11/81


Privacy Preserving Data Mining
5
6
7

0
2
1

Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường
1
2
0

2
2
1

1
2
1

Theo lý thuyết Bayes thì chúng ta phải tìm ra Max của P(X/Ci).P(Ci) với i =1,2 .

Ta có:P(C=1)=4/7
P(C=2)=3/7
P(A1=1,C=1)=2/4
P(A1=2,C=2)=1/3
P(A2=2,C=1)=1/4
P(A2=2,C=2)=2/3
P(A3=2,C=1)=1/4
P(A3=3,C=2)=2/3
Giả sử các thuộc tính là độc lập nhau:
P(X/C=1)= P(A1=1/C=1). P(A2=2/C=1). P(A3=2/C=1)=0.3125
P(X/C=2)= P(A1=1/C=2). P(A2=2/C=2). P(A3=2/C=2)=0.14375
Theo Bayes :
P(C1/X) = [P(X/C1).P(C1)]/P(X)= P(X/C1).P(C1)=0.0179
P(C2/X) = [P(X/C2).P(C2)]/P(X)= P(X/C2).P(C2)=0.0616
Vậy chúng ta có thể dự đoán X thuộc vào lớp C2(C=2)
Phương pháp phân loại bằng Bayes là phương pháp có tỉ lệ lỗi thấp nhất so với các
phương pháp phân loại khác trong KPDL. Tuy nhiên, trong thực tế các thuộc tính
khơng độc lập với nhau vì vậy độ phức tạp của phương pháp này sẽ tăng lên rất
nhiều.
Trong trường hợp các giá trị là liên tục và đặc tính bài tốn có tính nhân quả thì kỹ
thuật thống kê được sử dụng là hồi qui (Regression) .
Mục tiêu của bài toán này là tìm ra một số hàm biểu diễn sự phụ thuộc của đầu ra
với các biến đầu vào ví dụ như:Y= C1+ aX
Hàm biểu diễn có thể là hàm tuyến tính
Y= C1+ a1x1 + a2x2 + a3x3 + a4x4 + . . . + anxn
Hàm đa thức
Y= C1+ a1x + a2x2 + a3x3 + a4xn + . . . + anxn
Hàm mũ
Y= C1+ ex
2.3.2 Phân cụm

(Cluster Analysis)
Là một tập các phương pháp tự động phân loại tập ví dụ vào một số nhóm với tiêu
chí các phần tử giống nhau thì thuộc cùng một tập, 2 phần tử thuộc 2 tập khác
nhau sẽ không giống nhau.
Nguyễn Minh Ý

12/81


Privacy Preserving Data Mining

Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường

Phân cụm theo nội dụng (Clustering concepts)
Ví dụ: bạn có thể phân loại các hóa đơn mua hàng theo giá trị của đơn hàng, chủng
loại mặt hàng … Thơng thường con người có thể phân loại theo 1,2,3.. tiêu chí.
Tuy nhiên bài tốn đặt ra trong thực tế số chiều là rất lớn và độ phức tạp cao vì
vậy con người khơng thể làm bằng tay.
Các thông số thường được sử dụng trong thực tế là (X,d), (X,s) s,d là giá trị đo
lường khoảng cách và độ tương tự của các ví dụ trong tập X
Kết quả của quá trình phân loại được biểu diễn theo biểu thức sau:
{G1,G2,…,Gn} với G
Được biểu diễn dưới dạng :
X1<2

C1 :X1 < 2
C2 :X1 >=2٨X2 <5
C3 :X1>=2٨X2
>=5


X2<5

C
C1

a) Vịng trịn

C2

C3

b) Dạng cây

c) Biểu thức

Hình 2 Cluster

Có rất nhiều giải thuật liên quan đến phân cụm dữ liệu tuy nhiên có thể khái quát
hóa thành 2 hướng tiếp cận chính:
1. Hierarchical clustering (Phân cụm theo cây thứ bậc):kết quả của q trình
phân loại là những cây có cấu trúc.
2. Iterative square-error partitional clustering (Phân cụm theo qui tắt phân
hoạch):được chia làm 2 hướng là tối thiểu hóa các lớp giống nhau (ban đầu
mỗi phần tử được xem là một lớp) hoặc cực đại hóa số lớp khác nhau (ban
đầu chỉ có một lớp duy nhất chung cho tất cả các phần tử). Kết quả của
phương pháp này là tập các lớp khơng có thứ bậc.
Phương pháp đánh giá:
d1(xi,xj)=

m


∑ xik − xjk
k =1

Nguyễn Minh Ý

13/81


Privacy Preserving Data Mining

Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường

1/ 2

2
 m


d2(xi,xj)=  ∑ xik − xjk 
 k =1


 m
dp(xi,xj)=  ∑ xik − xjk
 k =1

p

1/ p







Phân cụm theo cây thứ bậc (Hierarchical clustering)
Trong Hierarchical clustering chúng ta không mô tả số lượng nhóm như là đầu vào
của giải thuật. Vì vậy đầu vào của hệ thống là một bộ (X,s) trong đó X là tập các
ví dụ và s là giá trị của độ tương tự. Và đầu ra của hệ thống sẽ là hệ thống cây thứ
bậc của quá trình phân loại. Giải thuật phân loại theo cây thứ bậc sẽ được chia làm
2 nhóm chính:Hội tụ và chia nhỏ. Giải thuật có chia nhỏ bắt đầu với X như là một
nhóm sau đó chia nhỏ thành những tập con sau đó chia các tập con này thành
những tập nhỏ hơn . Vì vậy giải thuật chia nhỏ sẽ sinh tập thứ tự phân chia từ thô
đến tinh. Ngược lại, chúng ta có q trình hội tụ bắt đầu từ mỗi phần tử trong tập
ví dụ và gom lại thành những tập lớn hơn. Nhìn chung, giải thuật hội tụ được sử
dụng nhiều hơn giải thuật chia nhỏ.
Các bước căn bản trong giải thuật hội tụ
1. Đặt những ví dụ vào các nhóm mà nó thuộc về. Tính khoảng cách giữa hai
phần tử bất kỳ. Sắp xếp các nhóm theo thứ tự khoảng cách giảm dần.
2. Dựa vào danh sách trên, ứng với mỗi mức giới hạn dk. nếu như những cặp
nhóm nào có khoảng cách nhỏ hơn dk thì sẽ được nối lại với nhau để tạo
thành nhóm mới. Nếu tất cả các nhóm đều được kết nối thì dừng lại . Nếu
khơng thì tiếp tục với dk+1 .
Đầu ra của giải thuật là cây phân loại theo khoảng cách và bạn có thể có được cây
phân loại tùy theo thơng số lát cắt mà mình mong muốn.
Ví dụ:
Cho tập điểm {x1,x2,x3,x4,x5} lần lượt có các tọa độ như sau: x1=(0,2) ; x2=(0,0)
; x3=(1.5,0) ; x4=(5,0) ; x5=(5,2)
Khoảng cách giữa 2 điểm bất kỳ theo được tính như sau

d(x1,x2)=2; d(x1,x3)=2.5; d(x1,x2)=5.39; d(x1,x5)=5;
d(x2;x3)=1.5; d(x2;x4)=5; d(x2;x5)=5.29;
d(x3;x4)=3.5; d(x3;x5)=4.03;
d(x4;x5)=2;

Nguyễn Minh Ý

14/81


Privacy Preserving Data Mining

Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường

Dựa vào bảng tính trên ta có q trình phân loại được biểu diễn theo sơ đồ sau

1.5

2.0

2.5

3.5

x2
x3
x1
x4
x5
Hình 3 Cluster theo cây thứ bậc


Phân cụm theo qui tắc phân hoạch (Partition Clustering)
Một trong những kỹ thuật được ứng dụng nhiều nhất của phương pháp này là kmean
Các chỉ tiêu đánh giá sử dụng trong phương pháp này:
Trung bình cộng (Mean) = 1 / n∑ xi
2

Sai số trong mỗi cluster (within – cluster variation) = ∑ (xik − M k )
2

k =1

Square error = sum (ek )
Ý tưởng giải thuật :
1. Phân chia một cách ngẫu nhiên tập ví dụ thành K cluster và tính tâm điểm
của mỗi cluster
2. Sinh ra các phân hoạch mới bằng cách gán các ví dụ vào những cluster gần
nó nhất
3. Tính lại tâm điểm cho cluster vừa mới được sinh ra.
4. Lặp lại bước 2, bước 3 cho đến khi sự phân hoạch đạt được một điều kiện
nào đó (sự phân hoạch khơng cịn thay đổi)
Ví dụ:
Cho tập điểm {x1,x2,x3,x4,x5} lần lượt có các tọa độ như sau: x1=(0,2) ; x2=(0,0)
; x3=(1.5,0) ; x4=(5,0) ; x5=(5,2)
Giải sử rằng số lượng cluster cần được phân hoạch thành là 2 và quá trình chọn
ngẫu nhiên được 2 tập C1={x1,x2,x4} C2={x3,x5}
Ta có M1={(0+0+5)/3;(2+0+0)/3}={1.66,0.66}
M2={(1.5+5)/2;(0+2)/2}={3.25;1}

Nguyễn Minh Ý


15/81


Privacy Preserving Data Mining

Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường

Các thông số đánh giá sau quá trình sinh tự động
e12 = [(0-1.66)2 + (0-0.66)2]1/2 + [(0-1.66)2 + (2-0.66)2]1/2 + [(5-1.66)2 + (00.66)2]1/2 = 19.36
e22 = [(1.5-3.25)2 + (0-1)2]1/2 + [(5-3.25)2 + (2-1)2]1/2 = 8.12
Total square error
E2 = e12 + e22 = 19.36 + 8.12 = 27.48
Dựa vào khoảng cách của xj với M1 và M2 chúng ta sẽ có q trình phân hoạch lại
như sau:
d(M1,x1) =2.14 và d(M2,x1) =3.40 Ỉ x1 € M1
d(M1,x2) =1.97 và d(M2,x2) =3.40 Ỉ x2 € M1
d(M1,x3) =0.83 và d(M2,x3) =2.01 Ỉ x3 € M1
d(M1,x4) =3.41 và d(M2,x4) =2.01 Ỉ x4 € M2
d(M1,x5) =3.60 và d(M2,x5) =2.01 Ỉ x5 € M2
Vậy ta có tập phân hoạch mới như sau:
C1={x1,x2,x3} và C2={x4,x5}
M1={0.5;0.66}
M2={5;1}
Giá trị đánh giá
e12 = 4.17
e22 = 2
Total square error
E2 = e12 + e22 = 6.17
Sau khi tính lại khoảng cách giữa các điểm x1,x2, ... với các tâm điểm ta nhận thấy

khơng có bất kỳ một sự gán lại vị trí của x1, x2, ... và quá trình phân hoạch sẽ
dừng tại đây và kết quả sẽ là C1={x1,x2,x3} và C2={x4,x5}
Ngồi ra cịn một phương pháp khá phổ biến được hiện thực theo phương pháp
tăng dần.
2.3.3 Cây quyết định và luật quyết định
(Decision Trees and Decision Rules)
Cây quyết định và luật quyết định là một trong những phương pháp KPDL được
sử dụng nhiều trong thực tế. Phân loại là quá trình map dữ liệu vào một số lớp
được định nghĩa trước.
Mục tiêu của giải thuật này là tạo ra một mơ hình phân loại mà nó có thể tiên đoán
được lớp mà một mẫu dữ liệu nào đó thuộc về. Nói cách khác phân loại một giá trị
rời rạc vào một giá trị không định danh hay tiên đốn giá trị của một thuộc tính khi
có giá trị của một số thuộc tính khác. Tập dữ liệu sẽ được chia thành nhiều tập dữ
liệu khác.
Cây quyết định(Decesion trees) :
Một trong những phương pháp mang lại hiệu quả đặc biệt cho quá trình phân loại
là Decesion trees(cây quyết định). Giải thuật chính thường được sử dụng trong kỹ
thuật này là ID3 (được mở rộng thành C4.5)
Nguyễn Minh Ý

16/81


Privacy Preserving Data Mining

Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường

Giải thuật ID3 bắt đầu với tất cả các ví dụ trong tập huấn luyện tại node gốc. 1
thuộc tính được lựa chọn để phân hoạch tập huấn luyện. Mỗi giá trị của thuộc tính
sẽ tạo thành một nhánh, và tương ứng với nhánh vừa tạo là tập các ví dụ có giá trị

phù hợp với nhánh và một node con được tạo ra. Và quá trình này sẽ được gọi đệ
qui lên các node con. Một đường đi từ node gốc đến node lá là một luật quyết
định.Thuộc tính được chọn trong ID3 và C4.5 là thuộc tính có entropy nhỏ nhất.
Một số điểm cần lưu ý khi thực hiện phương pháp này:
1. Mơ tả giá trị thuộc tính (attribute-value description): Thơng tin về một đối
tượng hay ví dụ phải được mơ tả bằng một số thuộc tính cố định
2. Định nghĩa trước các lớp(predefined classes): Những lớp mà các ví dụ được
gán vào phải được định nghĩa trước.
3. Đầy đủ dữ liệu (sufficent data):để có được mơ hình phân loại tốt thì tập
huấn luyện phải đầy đủ tất cả các trường hợp
4. Mơ hình phân loại (‘Logical" classification models): mơ hình có thể diễn tả
ở dạng cây quyết định và luật quyết định .
Giải thuật C4.5
Điểm quan trọng nhất của giải thuật C4.5 là sinh ra cây quyết định từ tập huấn
luyện.
Cấu trúc cây bao gồm 2 dạng node chính: node là tượng trưng cho class và node
quyết định là node để test theo một thuộc tính nào đó và đầu ra của quá trình test
là các nhánh, và các tập con tương ứng.
Cây quyết định có thể phân loại cho một ví dụ mới bằng cách đi từ node gốc đến
khi tìm được node lá.
Y=?

Test nodes

A
B

X > 70

C


Z<=15
Leaf nodes

Yes

No

CLASS1

Yes

CLASS2

CLASS1

No
CLASS2

CLASS1

Hình 4 Giải thuật C4.5

Trong giải thuật ID3 truyền thống thì sự lựa chọn thuộc tính để kiểm tra dựa vào
giá trị entropy. Một số khái niệm toán học liên quan đến entropy:
n

Info(T)= − ∑ fred (Ci / S ).log 2 fred (Ci / S )
i =1
n


Infox(T)= − ∑ ((Ti / T ).Info(Ti ) )
i =1

Gain(X)= Info(T)-Infox(T)
Nguyễn Minh Ý

17/81


Privacy Preserving Data Mining

Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường

Thuộc tính X sẽ được chọn để test trước nếu giá trị Gain(X) là lớn nhất trong các
tập đang xét
Ví dụ :
Attribute1
A
A
A
A
A
B
B
B
B
C
C
C

C
C

Attribute2 Attribute3
70
True
90
True
85
False
95
False
70
False
90
True
78
False
65
True
75
False
80
True
70
True
80
False
80
False

96
False

Class
CLASS1
CLASS2
CLASS2
CLASS2
CLASS1
CLASS1
CLASS1
CLASS1
CLASS1
CLASS2
CLASS2
CLASS1
CLASS1
CLASS1

Ta có entropy trước khi phân chia là :
Có 9 ví dụ thuộc class1 và 5 ví dụ thuộc class2
Info(T)= - 9/14 log29/14 - 5/14 log25/14 = 0.94 bits
Giá trị entropy sau khi chia tập mẫu ra làm 3 tập con (tương ứng với các giá trị
A,B,C của attribute1) sẽ là:
InfoA1(T)= 5/14( - 2/5 log22/5 - 3/5 log23/5) + 4/14( - 4/4 log24/4 - 0/4
+ 5/14( - 3/5 log23/5 - 2/5 log22/5 ) = 0.694 bits
log20/4)
Vậy độ lợi về thông tin nhân được sẽ là
GainA1 = 0.94-0.694 =0.246
Tương tự ta có

GainA3 = 0.048
GainA2 = 0.103
Vậy thuộc tính được chọn để test đầu tiên là A1
Lặp lại các bước trên đối với các node con ta được cây quyết định như sau :

Nguyễn Minh Ý

18/81


Privacy Preserving Data Mining

Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường

x1:
Attribute1

Test nodes

A
x3:
Attribute2

B

C
x4:
Attribute3

False

True

>70
CLASS1

Leaf nodes

CLASS2

CLASS1

CLASS2

CLASS1

Hình 5:Cây quyết định

Bằng cách biến đổi đơn giản chúng ta có thể chuyển từ dạng cây quyết định thành
luật quyết định như sau:
If attribute1=A then
If attribute2<=70 then
Classification =Class1
Else
Classification = Class2
Elseif attribute1=B then
Classification= Class1
Elseif attribute1=C then
If attribute3 then
Classification =Class2
Else

Classification = Class1

Hình 6 Luật quyết định

2.3.4 Luật liên kết
(Association Rules)
Luật liên kết là một trong những kỹ thuật chính của KPDL và là một trong những
kỹ thuật phổ biến nhất trong nhóm kỹ thuật học(unsupervised). Đầu ra của kỹ
thuật này là các Luật liên kết tìm ẩn và thú vị trong cơ sở dữ liệu.
Ví dụ:sử dụng kỹ thuật này để xem những mặt hàng nào thường xuất hiện chung
trong một đơn hàng. Nhà kinh doanh sử dụng kiến thức đó để có kế hoạch sắp xếp
các mặt hàng này trong kho, cũng như là layout trình bày sản phẩm trên web.
Gọi I = {I1, I2,..., Im} là tập m thuộc tính riêng biệt, mỗi thuộc tính gọi là một
mục.

Nguyễn Minh Ý

19/81


Privacy Preserving Data Mining

Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường

Gọi D là một cơ sở dữ liệu, trong đó mỗi bản ghi T là một giao tác và chứa các tập
mục, T ⊆ I.
Một Luật liên kết là một quan hệ có dạng X ⇒ Y, trong đó X, Y ⊂ I là các tập
mục gọi là itemsets, và X ∩ Y = ∅ Ở đây, X được gọi là tiền đề, Y là mệnh đề kết
quả.
Hai thông số quan trọng của Luật liên kết là độ hỗ trợ (support) và độ tin cậy

(confidence).
Độ hỗ trợ (support) của Luật liên kết X ⇒ Y là tỷ lệ phần trăm các bảng ghi chứa
X∪Y so với tổng số các giao tác có trong cơ sở dữ liệu.
Độ tin cậy (confidence) của Luật liên kết X ⇒ Y là tỷ lệ (phần trăm) của số giao
tác có chứa X∪Y với số giao tác có chứa X.
Cho 1 Luật liên kết X Ỵ Y chúng ta có thể định nghĩa như sau:
Support (XỴY) = Support (XY) = Support (X U Y).
Confidence (XỴY) = Support (XY) / Support (X).
Độ hỗ trợ (s) và độ tin cậy (c) có thể cũng liên quan đến xác suất thơng thường và
xác suất điều kiện như sau:
Support (X Ỵ Y) = P (XY).
Confidence (X Ỵ Y) = P (Y / X).
Việc khai thác các Luật liên kết từ cơ sở dữ liệu chính là việc tìm tất cả các luật có
độ hỗ trợ và độ tin cậy lớn hơn ngưỡng của độ hỗ trợ và độ tin cậy do người sử
dụng xác định trước. Các ngưỡng của độ hỗ trợ và độ tin cậy được ký hiệu là
minsup và mincof.
Ví dụ:Khi phân tích giỏ hàng của người mua hàng trong một siêu thị ta có được
luật kiểu như:80% khách hàng mua sữa thì cũng mua bánh mì biết rằng có 30 %
khách hàng mua cả hai thứ. Trong đó “mua sữa ” là tiền đề cịn “mua bánh mì ” là
kết luận của luật . Con số 30% là độ hỗ trợ của luật còn 80% là độ tin cậy của luật.
Tập phổ biến: nếu tập X có support(X)> minsup thì X gọi là tập phổ biến
(Frequent itemset). Kí hiệu các tập này là FI
Tập đóng: một tập mục X được gọi là đóng (closed) nếu khơng có một tập cha
nào của X có cùng độ hỗ trợ với nó, tức là không tồn tại một tập mục X’ nào mà
X’⊃X và t(X) = t(X’) (với t(X), t(X’) tương ứng là tập các giao tác chứa tập mục
X và X’). Ký hiệu tập phổ biến đóng là FCI.
Tập phổ biến lớn nhất: nếu X là phổ biến và không tập cha nào của X là phổ
biến, ta nói rằng X là một tập phổ biến lớn nhất (maximally frequent itemset). Ký
hiệu tập tất cả các tập phổ biến lớn nhất là MFI . Dễ thấy MFI ⊆ FCI ⊆ FI.
Quá trình tìm các Luật liên kết thường gồm 2 pha:


Nguyễn Minh Ý

20/81


Privacy Preserving Data Mining

Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường

Pha 1: Tìm tất cả các tập phổ biến (tìm FI) trong cơ sở dữ liệu T.
Pha 2: Sử dụng tập FI tìm được ở pha 1 để sinh ra các luật tin cậy(interesting
rules).
Trong thực tế, hầu hết thời gian của quá trình khai thác Luật liên kết là thực hiện ở
pha 1.Nhưng khi có những mẫu rất dài (mẫu chứa nhiều mục) xuất hiện trong dữ
liệu, việc sinh ra toàn bộ các tập phổ biến (FI) hay các tập đóng (FCI) là khơng
thực tế. Hơn nữa, có nhiều ứng dụng mà chỉ cần sinh tập phổ biến lớn nhất(MFI)
là đủ.
Có rất nhiều nghiên cứu về các phương pháp sinh tất cả các tập phổ biến và tập
phổ biến lớn nhất một cách có hiệu quả. Khi các mẫu phổ biến (frequent pattern)
dài (có từ 15 đến 20 items) thì tập FI,thậm chí cả tập FCI trở nên rất lớn và hầu hết
các phương pháp truyền thống phải đếm quá nhiều tập mục mới có thể thực hiện
được. Các thuật tốn dựa trên thuật toán Apriori - đếm tất cả 2k tập con của mỗi kitemsets mà chúng quét qua, và do đó khơng thích hợp với các itemsets dài được.
Các phương pháp khác sử dụng “ lookaheads ” để giảm số lượng tập mục được
đếm. Tuy nhiên, hầu hết các thuật toán này đều sử dụng tìm kiếm theo chiều rộng,
ví dụ: tìm tất cả các k – itemsets trước khi tính đến các (k+1) – itemsets . Cách làm
này làm hạn chế hiệu quả của lookaheads, vì các mẫu phổ biến dài hơn mà hữu ích
vẫn chưa được tìm ra.
Giải thuật apriori: tính tốn tần suất hiện của một tập dữ liệu trong cơ sở dữ liệu
theo phương pháp lặp. Ở mỗi lần lặp có 2 bước: tạo ra tập ứng viên và đếm tần

suất xuất hiện của từng ứng viên và lựa chọn các ứng viên thỏa những tiêu chí
cho trước.
Trình bày về thuật tốnApriori
Input: Cơ sở dữ liệu, D, các giao tác, min_sup.
Output: L, tập phổ biến, tập các itemsets trong D.

Nguyễn Minh Ý

21/81


Privacy Preserving Data Mining

Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường

Ví dụ cho cơ sở dữ liệu:
TID
Items
001
ACD
002
BCE
003
ABCE
004
BE
Vòng lặp thứ nhất
1-itemsets
C1
{A}

{C}
{D}
{B}
{E}

1-itemsets
C1
{A}
{C}
{D}
{B}
{E}

1.General phase

2a.Count phase

Count
2
3
1
3
3

S
50
75
25
75
75


large 1-itemsets L1
{A}
{C}

Count
2
3

s
50
75

{B}
{E}

3
3

75
75

large 2-itemsets L2

Count

s

{A,C}


2

50

{B,C}
{B,E}
{C,3}

2
3
2

50
75
50

Count
2

s
50

2b.Select phase

Vòng lặp thứ 2
2-itemsets
C2
{A,B}
{A,C}
{A,E}

{B,C}
{B,E}
{C,E}

2-itemsets
C2
{A,B}
{A,C}
{A,E}
{B,C}
{B,E}
{C,E}

1.General phase

2a.Count phase

Count
1
2
1
2
3
2

S
25
50
25
50

75
50

2b.Select phase

Vòng lặp thứ 3
3-itemsets
C3
{B,C,E}

3-itemsets
C3
{B,C,E}

1.General phase

2a.Count phase

Count
2

s
50

large 3-itemsets L3
{B,C,E}
2b.Select phase

2.4 Kỹ thuật bảo mật trong KPDL
2.4.1 Thông tin riêng (Privacy)

Privacy là khả năng (có thể được cụ thể hóa thành luật) của một cá nhân hay tổ
chức ngăn chặn sự thu thập thơng tin về họ từ bên ngồi, hơn nữa đó là quyền tự
quyết định các thông tin mà họ cung cấp cho bên ngồi
Luật bảo vệ thơng tin riêng cho 1 tổ chức (chính phủ, cơng ty, nhóm đối tượng)
hay cá nhân khỏi sự xâm phạm bất hợp pháp là một phần trong luật pháp của
nhiều quốc gia. Hầu hết các quốc gia đều có những luật đụng đến giới hạn của
Nguyễn Minh Ý

22/81


Privacy Preserving Data Mining

Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường

thông tin riêng, ví dụ như luật thuế thu nhập yêu cầu tất cả mọi người phải cung
cấp số thu nhập cá nhân. Và tại mỗi quốc gia thì có những luật về bảo vệ thơng tin
riêng khác nhau, có thể những thơng tin yêu cầu được cung cấp tại một quốc gia
này lại không phù hợp với luật pháp hoặc tập quán tại một quốc gia khác.
Thông tin riêng thường được chia làm:
• Thơng tin của cá nhân
• Thơng tin của tổ chức hay công ty
Thông tin riêng là một trong những vấn đề quan trọng liên quan đến KPDL cũng
như hầu hết các ứng dụng khác. Đảm bảo các vấn đề về privacy không chỉ là bảo
vệ người sử dụng, khách hàng mà cịn là vấn đề đảm bảo độ chính xác cho ứng
dụng. Nếu thông tin riêng tư không được bảo đảm, thì các đối tượng có thể từ chối
cung cấp thơng tin hoặc cung cấp thơng tin khơng chính xác, dẫn đến kết quả của
ứng dụng cũng như quá trình KPDL bị thay đổi… Theo một nghiên cứu trên
internet thí chỉ có 27% trong số những người tham gia cho rằng sẽ cung cấp thông
tin cho dù không được bảo vệ các thông tin cá nhân.[8]

Giữa bảo mật và hiệu quả của bài toán thường tỉ lệ nghịch với nhau. Tùy vào từng
trường hợp, yêu cầu của bài toán, mà chúng ta thể tăng mức độ bảo mật hay giảm
mức hiệu quả của bài toán hay chọn một cách dung hòa giữa 2 đại lượng trên để
cho ra kết quả tối ưu.
Vấn đề liên quan đến privacy có thể chia làm 2 loại:[15]
o Vấn đề liên quan đến dữ liệu riêng (data privacy problem)
o Vấn đề liên quan đến thông tin riêng (information privacy problem)
Trong khuôn khổ của đề tài chúng ta chỉ đề cấp đến các vấn đề bảo vệ thông tin
riêng trong KPDL bằng phương pháp Luật liên kết. Bằng những thay đổi nhỏ nhất
trên cơ sở dữ liệu sao cho các luật mang thông tin nhạy cảm khơng bị tiết lộ cũng
như ít làm ảnh hưởng đến những Luật liên kết khác sẵn có trong cơ sở dữ liệu.
2.4.2 Một số phương pháp để bảo mật thông tin trong Data mining
Làm mờ dữ liệu (Data obfuscation)
Mục đích
• Khơng cho bất cứ ai có thể xem dữ liệu thật
Phương pháp
• Loại bỏ thơng tin cá nhân
• Thay đổi dữ liệu một cách ngẫu nhiên (random)
• Thay đổi dữ liệu giữa các Record (swap)
Tổng hợp dữ liệu (Summarization)
Mục đích

Nguyễn Minh Ý

23/81


Privacy Preserving Data Mining

Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường


• Chỉ cung cấp những thơng tin thật sự cần thiết, ngồi ra người dùng khơng
thể suy luận gì thêm từ kết quả của câu truy vấn
Phương pháp
• Kiểm sốt thống kê
• Cung cấp giới hạn các truy vấn
Phân chia dữ liệu
Mục đích
• Chỉ những bên được tin tưởng (đối tác thứ 3) mới có quyền xem dữ liệu
Phương pháp
• Dữ liệu được giữ bởi bên tạo ra/ bên sở hữu
• Thơng tin chỉ được tiết lộ cho bên được tin tưởng
• Phân tích, vận hành bởi bên được tin tưởng [7,9]
2.4.3 Bảo mật trong q trình KPDL bằng Luật liên kết
Privacy
Thơng thường khi quan tâm đến privacy chung ta thường quan tâm đến những
thơng tin có thể để lộ ra và những thông tin cần phải bảo mật. Tùy vào đối tượng
mà có các mức bảo mật khác nhau. Tuy nhiên do đặc thù của Luật liên kết mà
chúng ta có 1 hướng tiếp cận về privacy tương đối khác đó là: tùy vào đối tượng
(mức độ bảo mật) mà chúng ta có thể cung cấp thơng tin với độ tin cậy khác nhau.
Ví dụ như đối với đối tượng A thì chúng ta cung cấp thông tin với độ tin cậy là
90%, tuy nhiên với đối tượng B chúng ta cũng cung cấp thông tin ấy nhưng độ tin
cậy chỉ là 10%.
Hướng tiếp cận

Tiền
xử lý
dữ liệu

Bảo mật


Nguyễn Minh Ý

Data
mining

Bảo mật

Xử lý
kết quả
KPDL

Bảo mật

24/81


Privacy Preserving Data Mining

Ts.Đặng Trần Khánh-Ts.Nguyễn Đức Cường

Làm mờ dữ liệu
Thay đổi tập dữ
liệu ban đầu tùy
vào đối tượng
cung cấp (mức
độ bảo mật) mà
chương trình sẽ
cho ra một file
tập dữ liệu khác

nhau
Người sử dụng
có thể sử dụng
bất kỳ chương
trình khai phá dữ
liệu nào đều cho
ra kết quả đã
được bảo mật

Có thể thực hiện được.
Tất cả mọi đối tượng có
thể khai phá trên một tập
dữ liệu duy nhất và tùy
vào đối tượng mà chương
trình sẽ lọc bớt thơng tin
nhạy cảm

Chúng ta sẽ phải
cung cấp những
tập dữ liệu khác
nhau cho từng
loại đối tượng
khác nhau. Tuy
nhiên số lượng
loại đối tượng
Khuyết
cần cung cấp
điểm
trong thực tế
không phải là vô

hạn và với sự hỗ
trợ của phần
mềm & phần
cứng là hồn
tồn có thể thực
hiện được

Thơng tin chỉ được bảo
mật khi người sử dụng
KPDL bằng giải thuât
hoặc phần mềm đã được
chỉnh sửa. Trong trường
hợp này có thể thực hiện
mã hóa hay làm một số
động tác nào đó trên dữ
liệu để đảm bảo chỉ có
phần mềm có thay đổi giải
thuật là có khả năng
KPDL được. Tuy nhiên sẽ
phát sinh vấn đề là liệu
kết quả KPDL này có
đáng tin cậy hay khơng
khi chỉ có 1 phần mềm xử
lý được dữ liệu nêu trên

Cách
thực
hiện

Ưu

điểm

Nguyễn Minh Ý

Thay đổi giải thuật
Thay đổi giải thuật KPDL
để bảo mật những thông
tin cần bảo mật. Đầu vào
chương trình KPDL ngồi
dữ liệu, độ hỗ trợ, độ tin
cậy thì cịn có thêm thơng
tin về đối tượng sử dụng
& mức độ bảo mật

Thay đổi kết quả
KPDL
Kết quả trước khi đưa
đến người sử dụng sẽ
được đưa qua 1 bộ lọc
và tùy vào đối tượng sử
dụng mà bộ lọc sẽ loại
bỏ những thông tin
nhạy cảm đối với đối
tượng này
Dễ thực hiện do số
lượng luật cần phải xử
lý là nhỏ hơn rất nhiều
so với khối lượng dữ
liệu ban đầu. Cũng như
tương tự với phương

pháp thay đổi giải
thuật, chương trình sẽ
loại bỏ tất cả các thơng
tin nhạy cảm tùy vào
đối tượng mà chương
trình sẽ cung cấp
Thông tin chỉ được bảo
mật khi người sử dụng
KPDL bằng các phần
mềm có gắng thêm bộ
lọc.

25/81


×