Tải bản đầy đủ (.pdf) (24 trang)

một số tìm hiểu về khai phá dữ liệu bảo vệ tính riêng tư

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.08 MB, 24 trang )

11/7/2012
Hà Quang Thụy ‐ KTLab 1
Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN 
Một số tìm hiểu
về khai phá dữ liệu bảo vệ tính riêng tư
Hà Quang Thụy
Phòng TN Công nghệ tri thức, Khoa Công nghệ Thông tin,
Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
Ngày 06 tháng 11 năm 2012
Nội dung
Đặt vấn đề
Xuất xứ
Khái niệm
Tình hình nghiên cứu về PPDM
Một số tiếp cận và thuật toán PPDM
Một số tiếp cận
Thuật toán PPDM cho một vài bài toán
Xu hướng nghiên cứu PPDM
Tiêu đề báo cáo:
“khai phá dữ liệu”
“tính riêng tư” và “bảo vệ tính riêng tư”
“một số tìm hiểu”
November 7, 2012
11/7/2012
Hà Quang Thụy ‐ KTLab 2
Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN 
1. Đặt vấn đề

Nội dung

Sơ bộ về Khai phá dữ liệu



Sơ bộ về khai phá dữ liệubảovệ tính riêng tư

Tình hình nghiên cứuvề tính riêng tư
November 7, 2012
1a. Sơ bộ về khai phá dữ liệu

Khái niệm

Khai phá dữ liệu (Data Mining: DM) ~ Phát hiệntrithứctừ
CSDL (Knowledge Discovery in Databases: KDD).

Đadạng về tên gọi, đadạng về nội dung song nội dung phổ
biếnnhấtlà“Tríchchọncácmẫuhoặctrithứchấpdẫn(không
tầmthường, ẩn, chưabiết và hữudụng tiiềmnăng)từ mộttập
hợplớndữ liệu” [FPS96]. “bấtcứ tên gọi nào, bảnchấtcủalĩnh
vực khai phá dữ liệu là tìm kiếmtrithứcmớivàhữuíchtrong
dữ liệu” “the age of Big Data”[SF11]

Mô hình quá trình khai phá dữ liệu đượccảitiến, phù hợpvới
mục tiêu kinh doanh và mụctiêupháttriểntổ chức. Mộtsố mô
hình thiên hướng công nghệ.
November 7, 2012
[FPS96] Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth (1996). From
Data Mining to Knowledge Discovery: An Overview, Advances in Knowledge
Discovery and Data Mining 1996: 1-34.
[SF11] Gregory Piatetsky-Shapiro, Usama Fayyad (2011). An Introduction to SIGKDD
and A Reflection on the Term ‘Data Mining’, KDD Newsletter, July 2011, 13 (1):102-
103. Former Chair, ACM SIGKDD and Chair, ACM SIGKDD.
11/7/2012

Hà Quang Thụy ‐ KTLab 3
Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN 
November 7, 2012 5
Quá trình KPDL [FPS96]
November 7, 2012 6
Quá trình KPDL [HK06]
[HK06] J. Han and M. Kamber (2006). Data Mining-Concepts and Techniques (2
nd
edition), Morgan Kaufmann, 2006.
Tiếng Việt “khai mỏ ?”
11/7/2012
Hà Quang Thụy ‐ KTLab 4
Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN 
November 7, 2012 7
Chuẩn công nghiệp CRISP-DM, 2000
[CCKKR00] Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas
Reinartz, Colin Shearer and Rüdiger Wirth (2000). CRISP-DM 1.0: Step-by-
ste
p data mining guide, The CRISP-DM consortium, August 2000.
November 7, 2012 8
Mô hình quá trình C-KDD, 2010
[Pan10] Ding Pan (2010). An Integrative Framework for Continuous Knowledge
Discovery, Journal of Convergence Information Technology (JCIT),5(3):46-
53, May 2010..
11/7/2012
Hà Quang Thụy ‐ KTLab 5
Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN 
November 7, 2012 9
Khai phá dữ liệu quá trình [IEEE-TFPM12]
[IEEE-TFPM] The IEEE Task Force on Process Mining (2012). Process Mining

Manifesto,
/>KPDL : tính liên ngành [HK06]
November 7, 2012
11/7/2012
Hà Quang Thụy ‐ KTLab 6
Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN 
KPDL : lĩnh vực hấp dẫn
November 7, 2012
Data Mining và Machine Learning: Tốp thuật ngữ mọi lĩnh vực nghiên cứu !
/>Số bài báo với tiêu đề chứa “Data Mining” công bố hàng năm theo Google Scholar
* KDD-2011 (San Diego, CA, USA): hơn 1.100 người tham gia từ khắp nơi trên thế
giới[SF11]
ACM-SIGKDD : Tổ chức nghề KDD [SF11]
November 7, 2012

ACM-SIGKDD

The Association for Computing Machinery's Special Interest Group on Knowledge
Discovery and Data Mining. />
Knowledge Discovery in Data (KDD) đầu tiên, Gregory Piatetsky-Shapiro, 1989;
KDD toàn cầu đầu tiên, Usama Fayyad và Ramasamy Uthurusamy, 1998.

2006: Công bố chương trình đào tạovề KDD

Giảithưởng thường niên: The Innovation Award và the Service Award : “Nobel”
prizes of data mining [SF11]. SIGKDD Doctoral Dissertation Award (Từ 2008)

Một số nhà khoa học

Usama M. Fayyad: Chief Data Officer and Executive Vice President, Yahoo! Inc.,

Chair, ACM SIGKDD. Gregory Piatetsky-Shapiro: the President of KDnuggets,
Former Chair, ACM SIGKDD,

The Innovation Award: Dr. J. Ross Quinlan, Dr. Christos Faloutsos, Dr. Padhraic
Smyth, Dr. Raghu Ramakrishnan, Dr. Usama M. Fayyad, Dr. Ramakrishnan
Srikant, Dr. Leo Breiman, Dr. Jiawei Han,Dr.Heikki Manilla, Dr. Jerome H.
Friedman, và Dr. Rakesh Agrawal

The Service Award: Dr. Bharat Rao, Prof. Osmar R. Zaïane, Dr. Sunita
Sarawagi, Dr. Robert Grossman, Dr. Won Kim, The Weka team, Dr. Xindong Wu,
Dr. Usama Fayyad, Dr. Ramasamy Uthurusamy, và Dr. Gregory Piatetsky-
Shapiro.
11/7/2012
Hà Quang Thụy ‐ KTLab 7
Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN 
1.b. Khai phá dữ liệu bảo vệ tính riêng tư
November 7, 2012

Nhu cầu bảo vệ tính riêng tư [AS00]

Hầuhếtngườisử dụng web quan tâm bảovệ tính riêng tư

Theo thống kê

17% tuyệt đối không cung cấp thông tin riêng tư

56% cung cấp thông tin riêng tư nếucóbiện pháp bảovệ

27% sẵn sàng cung cấp thông tin riêng tư




86% cho rằng cung cấpthôngtincánhânđể nhậnmộtlợiíchnàođó
là sự lựachọn cá nhân

82% coi trọng chính sách bào vệ tính riêng tư trong hệ thống

Mức độ bảomậtcácthuộctínhriêngtư khác nhau (họ tên, nghề
nghiệp, lứatuổi, sở thích, nơicư trú, vị trí hiệntại…) là khác nhau
[AS00] Rakesh Agrawal, Ramakrishnan Srikant (2000). Privacy-Preserving Data
Mining, SIGMOD Conference 2000: 439-450
(525 chỉ dẫn – ACM Digital Labrary , 1910 chỉ dẫn- Google Scholar)
KPDL vi phạm tính riêng tư: Ví dụ
November 7, 2012

Gregory Piatetsky-Shapiro [Shap95]

Phát hiệnmẫu mua hàng ⇒ gửiquảng cáo quá mứctới khách hàng ⇒
phiền toái cho khách hàng

Hãng Lotus: Kế hoạch bán đĩa CD-ROM chứadữ liệu100triệuhộ gia
đình (120 triệu khách hàng) tạo ra bão phản đối.

A. Divanis & V. S. Verykios [DV09], D. O’Leary [Leary95]

Danh tính cá nhân đượcchỉ dẫntừ dữ liệuhoặctrithức liên quan tớicá
nhân bị tiếtlộ cho bên thứ ba không tin cậy. Ví dụ, tri thức về nhóm
người có nguy cơ cao về bệnh tậtcóthể dẫntới tình huống ngườiquản
lý có hành động buộcthôiviệcmộtnhânviêncókhả năng thuộc nhóm
tương ứng vớimẫu nói trên


Bí mậtthương mạinhạycảmcủa doanh nghiệp bị tiếtlộ từ dữ liệuhoặc
tri thức tạolợithế cho đốithủ cạnh tranh
[Shap95] Gregory Piatetsky-Shapiro (1995). Guidelines for Eating of the Tree of Knowledge,
or Knowledge Discovery in Databases vs. Personal Privacy, Experts Annual
Index, 10(2): 46-47.
[DV09] Aris Gkoulalas-Divanis, Vassilios S. Verykios (2009). An overview of privacy
preserving data mining. ACM Crossroads 15(4) (2009)
[Leary95] Daniel O'Leary (1995). Some Privacy Issues in Knowledge Discovery: OECD
Personal Privacy Guidelines, Experts Annual Index, 10(2): 48-52.
11/7/2012
Hà Quang Thụy ‐ KTLab 8
Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN 
KPDL vi phạm tính riêng tư: Ví dụ (tiếp)
November 7, 2012

Dự án Total Information Awareness (TIA) của Bộ
Quốc phòng Mỹ có khai phá dữ liệu

Phản đốicủa the ACM U.S. Public Policy Committee (USACM) : TIA có
thể tạorarủi ro an ninh (Security Risks), rủiroriêngtư (Privacy Risks),
rủirokinhtế (Economic Risks), rủi ro cá nhân (Personal Risks)

Dự luật S.188/2003 nghiêm cấm khai phá dữ liệu được đề xuất

Lập luận của Hiệp hội KPDL ACM-SIGKDD [Kim03]

Mộtdự án PH tri thứclớn đòi hỏi nhiềucôngnghệ mà công nghệ KPDL
chỉ là một trong sốđó


Công nghệ KPDL dựatrênnềntảng lâu đời phân tích thống kê và trí tuệ
nhân tạo song chưa hoàn hảo. Tính không hoàn hảocủamọi công nghệ.

Để đảmbảo riêng tư thì cần phát triển nghiên cứuvàtriển khai ứng dụng
về KPDL liên quan (đặcbiệtlàKPDLbảomậtdữ liệuvàbảovệ tính
riêng tư: data security and privacy-preserving data mining)
[Kim03] Won Kim (2003). “Data Mining” Is NOT Against Civil Liberties, ACM Special
Interest Group on Knowledge Discovery and Data Mining,
www.acm.org/sigkdd/, June 30, 2003.
Quản lý danh tiếng
November 7, 2012

Quản lý danh tiếng (Reputation Management)

Thành phần quan hệ công chúng (Public Relations: PR)
quan trọng

Hệ thống quản lý danh tiếng trựctuyến trên Internet

SEM (Search Engine Marketing) và SEO (Search Engine
Optima)

Hệ thống tìm kiếmthựcthể
o
Nhàkhoahọc: ví dụ DBLP ( />ArnetMiner ( />o
Người và doanh nghiệp: ví dụ zoominfo ( />iSearch ()

Xếphạng trường đạihọc
11/7/2012
Hà Quang Thụy ‐ KTLab 9

Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN 
DBLP:
-
trier.de/~ley/pers/hd/n/Nguyen:Hung_Son.html
November 7, 2012
Cung cấp thông tin cá nhân: Quảng bá thông tin về nhà khoa học
ArnetMiner: />nguyen-670591.html
November 7, 2012
Quáng bá thông tin có cung cấptiểusử cá nhân song đảmbảo tính riêng tư

×