11/7/2012
Hà Quang Thụy ‐ KTLab 1
Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN
Một số tìm hiểu
về khai phá dữ liệu bảo vệ tính riêng tư
Hà Quang Thụy
Phòng TN Công nghệ tri thức, Khoa Công nghệ Thông tin,
Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
Ngày 06 tháng 11 năm 2012
Nội dung
Đặt vấn đề
Xuất xứ
Khái niệm
Tình hình nghiên cứu về PPDM
Một số tiếp cận và thuật toán PPDM
Một số tiếp cận
Thuật toán PPDM cho một vài bài toán
Xu hướng nghiên cứu PPDM
Tiêu đề báo cáo:
“khai phá dữ liệu”
“tính riêng tư” và “bảo vệ tính riêng tư”
“một số tìm hiểu”
November 7, 2012
11/7/2012
Hà Quang Thụy ‐ KTLab 2
Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN
1. Đặt vấn đề
•
Nội dung
Sơ bộ về Khai phá dữ liệu
Sơ bộ về khai phá dữ liệubảovệ tính riêng tư
Tình hình nghiên cứuvề tính riêng tư
November 7, 2012
1a. Sơ bộ về khai phá dữ liệu
•
Khái niệm
Khai phá dữ liệu (Data Mining: DM) ~ Phát hiệntrithứctừ
CSDL (Knowledge Discovery in Databases: KDD).
Đadạng về tên gọi, đadạng về nội dung song nội dung phổ
biếnnhấtlà“Tríchchọncácmẫuhoặctrithứchấpdẫn(không
tầmthường, ẩn, chưabiết và hữudụng tiiềmnăng)từ mộttập
hợplớndữ liệu” [FPS96]. “bấtcứ tên gọi nào, bảnchấtcủalĩnh
vực khai phá dữ liệu là tìm kiếmtrithứcmớivàhữuíchtrong
dữ liệu” “the age of Big Data”[SF11]
Mô hình quá trình khai phá dữ liệu đượccảitiến, phù hợpvới
mục tiêu kinh doanh và mụctiêupháttriểntổ chức. Mộtsố mô
hình thiên hướng công nghệ.
November 7, 2012
[FPS96] Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth (1996). From
Data Mining to Knowledge Discovery: An Overview, Advances in Knowledge
Discovery and Data Mining 1996: 1-34.
[SF11] Gregory Piatetsky-Shapiro, Usama Fayyad (2011). An Introduction to SIGKDD
and A Reflection on the Term ‘Data Mining’, KDD Newsletter, July 2011, 13 (1):102-
103. Former Chair, ACM SIGKDD and Chair, ACM SIGKDD.
11/7/2012
Hà Quang Thụy ‐ KTLab 3
Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN
November 7, 2012 5
Quá trình KPDL [FPS96]
November 7, 2012 6
Quá trình KPDL [HK06]
[HK06] J. Han and M. Kamber (2006). Data Mining-Concepts and Techniques (2
nd
edition), Morgan Kaufmann, 2006.
Tiếng Việt “khai mỏ ?”
11/7/2012
Hà Quang Thụy ‐ KTLab 4
Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN
November 7, 2012 7
Chuẩn công nghiệp CRISP-DM, 2000
[CCKKR00] Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas
Reinartz, Colin Shearer and Rüdiger Wirth (2000). CRISP-DM 1.0: Step-by-
ste
p data mining guide, The CRISP-DM consortium, August 2000.
November 7, 2012 8
Mô hình quá trình C-KDD, 2010
[Pan10] Ding Pan (2010). An Integrative Framework for Continuous Knowledge
Discovery, Journal of Convergence Information Technology (JCIT),5(3):46-
53, May 2010..
11/7/2012
Hà Quang Thụy ‐ KTLab 5
Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN
November 7, 2012 9
Khai phá dữ liệu quá trình [IEEE-TFPM12]
[IEEE-TFPM] The IEEE Task Force on Process Mining (2012). Process Mining
Manifesto,
/>KPDL : tính liên ngành [HK06]
November 7, 2012
11/7/2012
Hà Quang Thụy ‐ KTLab 6
Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN
KPDL : lĩnh vực hấp dẫn
November 7, 2012
Data Mining và Machine Learning: Tốp thuật ngữ mọi lĩnh vực nghiên cứu !
/>Số bài báo với tiêu đề chứa “Data Mining” công bố hàng năm theo Google Scholar
* KDD-2011 (San Diego, CA, USA): hơn 1.100 người tham gia từ khắp nơi trên thế
giới[SF11]
ACM-SIGKDD : Tổ chức nghề KDD [SF11]
November 7, 2012
•
ACM-SIGKDD
The Association for Computing Machinery's Special Interest Group on Knowledge
Discovery and Data Mining. />
Knowledge Discovery in Data (KDD) đầu tiên, Gregory Piatetsky-Shapiro, 1989;
KDD toàn cầu đầu tiên, Usama Fayyad và Ramasamy Uthurusamy, 1998.
2006: Công bố chương trình đào tạovề KDD
Giảithưởng thường niên: The Innovation Award và the Service Award : “Nobel”
prizes of data mining [SF11]. SIGKDD Doctoral Dissertation Award (Từ 2008)
•
Một số nhà khoa học
Usama M. Fayyad: Chief Data Officer and Executive Vice President, Yahoo! Inc.,
Chair, ACM SIGKDD. Gregory Piatetsky-Shapiro: the President of KDnuggets,
Former Chair, ACM SIGKDD,
The Innovation Award: Dr. J. Ross Quinlan, Dr. Christos Faloutsos, Dr. Padhraic
Smyth, Dr. Raghu Ramakrishnan, Dr. Usama M. Fayyad, Dr. Ramakrishnan
Srikant, Dr. Leo Breiman, Dr. Jiawei Han,Dr.Heikki Manilla, Dr. Jerome H.
Friedman, và Dr. Rakesh Agrawal
The Service Award: Dr. Bharat Rao, Prof. Osmar R. Zaïane, Dr. Sunita
Sarawagi, Dr. Robert Grossman, Dr. Won Kim, The Weka team, Dr. Xindong Wu,
Dr. Usama Fayyad, Dr. Ramasamy Uthurusamy, và Dr. Gregory Piatetsky-
Shapiro.
11/7/2012
Hà Quang Thụy ‐ KTLab 7
Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN
1.b. Khai phá dữ liệu bảo vệ tính riêng tư
November 7, 2012
•
Nhu cầu bảo vệ tính riêng tư [AS00]
Hầuhếtngườisử dụng web quan tâm bảovệ tính riêng tư
Theo thống kê
17% tuyệt đối không cung cấp thông tin riêng tư
56% cung cấp thông tin riêng tư nếucóbiện pháp bảovệ
27% sẵn sàng cung cấp thông tin riêng tư
và
86% cho rằng cung cấpthôngtincánhânđể nhậnmộtlợiíchnàođó
là sự lựachọn cá nhân
82% coi trọng chính sách bào vệ tính riêng tư trong hệ thống
Mức độ bảomậtcácthuộctínhriêngtư khác nhau (họ tên, nghề
nghiệp, lứatuổi, sở thích, nơicư trú, vị trí hiệntại…) là khác nhau
[AS00] Rakesh Agrawal, Ramakrishnan Srikant (2000). Privacy-Preserving Data
Mining, SIGMOD Conference 2000: 439-450
(525 chỉ dẫn – ACM Digital Labrary , 1910 chỉ dẫn- Google Scholar)
KPDL vi phạm tính riêng tư: Ví dụ
November 7, 2012
•
Gregory Piatetsky-Shapiro [Shap95]
Phát hiệnmẫu mua hàng ⇒ gửiquảng cáo quá mứctới khách hàng ⇒
phiền toái cho khách hàng
Hãng Lotus: Kế hoạch bán đĩa CD-ROM chứadữ liệu100triệuhộ gia
đình (120 triệu khách hàng) tạo ra bão phản đối.
•
A. Divanis & V. S. Verykios [DV09], D. O’Leary [Leary95]
Danh tính cá nhân đượcchỉ dẫntừ dữ liệuhoặctrithức liên quan tớicá
nhân bị tiếtlộ cho bên thứ ba không tin cậy. Ví dụ, tri thức về nhóm
người có nguy cơ cao về bệnh tậtcóthể dẫntới tình huống ngườiquản
lý có hành động buộcthôiviệcmộtnhânviêncókhả năng thuộc nhóm
tương ứng vớimẫu nói trên
Bí mậtthương mạinhạycảmcủa doanh nghiệp bị tiếtlộ từ dữ liệuhoặc
tri thức tạolợithế cho đốithủ cạnh tranh
[Shap95] Gregory Piatetsky-Shapiro (1995). Guidelines for Eating of the Tree of Knowledge,
or Knowledge Discovery in Databases vs. Personal Privacy, Experts Annual
Index, 10(2): 46-47.
[DV09] Aris Gkoulalas-Divanis, Vassilios S. Verykios (2009). An overview of privacy
preserving data mining. ACM Crossroads 15(4) (2009)
[Leary95] Daniel O'Leary (1995). Some Privacy Issues in Knowledge Discovery: OECD
Personal Privacy Guidelines, Experts Annual Index, 10(2): 48-52.
11/7/2012
Hà Quang Thụy ‐ KTLab 8
Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN
KPDL vi phạm tính riêng tư: Ví dụ (tiếp)
November 7, 2012
•
Dự án Total Information Awareness (TIA) của Bộ
Quốc phòng Mỹ có khai phá dữ liệu
Phản đốicủa the ACM U.S. Public Policy Committee (USACM) : TIA có
thể tạorarủi ro an ninh (Security Risks), rủiroriêngtư (Privacy Risks),
rủirokinhtế (Economic Risks), rủi ro cá nhân (Personal Risks)
Dự luật S.188/2003 nghiêm cấm khai phá dữ liệu được đề xuất
•
Lập luận của Hiệp hội KPDL ACM-SIGKDD [Kim03]
Mộtdự án PH tri thứclớn đòi hỏi nhiềucôngnghệ mà công nghệ KPDL
chỉ là một trong sốđó
Công nghệ KPDL dựatrênnềntảng lâu đời phân tích thống kê và trí tuệ
nhân tạo song chưa hoàn hảo. Tính không hoàn hảocủamọi công nghệ.
Để đảmbảo riêng tư thì cần phát triển nghiên cứuvàtriển khai ứng dụng
về KPDL liên quan (đặcbiệtlàKPDLbảomậtdữ liệuvàbảovệ tính
riêng tư: data security and privacy-preserving data mining)
[Kim03] Won Kim (2003). “Data Mining” Is NOT Against Civil Liberties, ACM Special
Interest Group on Knowledge Discovery and Data Mining,
www.acm.org/sigkdd/, June 30, 2003.
Quản lý danh tiếng
November 7, 2012
•
Quản lý danh tiếng (Reputation Management)
Thành phần quan hệ công chúng (Public Relations: PR)
quan trọng
Hệ thống quản lý danh tiếng trựctuyến trên Internet
SEM (Search Engine Marketing) và SEO (Search Engine
Optima)
Hệ thống tìm kiếmthựcthể
o
Nhàkhoahọc: ví dụ DBLP ( />ArnetMiner ( />o
Người và doanh nghiệp: ví dụ zoominfo ( />iSearch ()
Xếphạng trường đạihọc
11/7/2012
Hà Quang Thụy ‐ KTLab 9
Chuỗiseminar “An toàn thông tin” củaKhoaCNTT, Trường ĐHCN, ĐHQGHN
DBLP:
-
trier.de/~ley/pers/hd/n/Nguyen:Hung_Son.html
November 7, 2012
Cung cấp thông tin cá nhân: Quảng bá thông tin về nhà khoa học
ArnetMiner: />nguyen-670591.html
November 7, 2012
Quáng bá thông tin có cung cấptiểusử cá nhân song đảmbảo tính riêng tư