Tải bản đầy đủ (.pdf) (10 trang)

Tích hợp thông tin không thuần nhất về ngữ nghĩa trong môi trường phân tán

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (398.88 KB, 10 trang )

Tích hợp thông tin không thuần nhất về ngữ
nghĩa trong môi trường phân tán

Nguyễn Thế Cường

Trường Đại học Công nghệ
Luận văn ThS chuyên ngành: Công nghệ thông tin; Mã số: 1 01 10
Người hướng dẫn: PGS.TS. Trần Đình Quế
Năm bảo vệ: 2007

Abstract: Tổng quan về tích hợp thông tin và phân lớp dữ liệu phân tán: nhu cầu tích
hợp thông tin, những vấn đề cần quan tâm trong xây dựng hệ tích hợp dữ liệu, những
phương pháp tích hợp thông tin. Giới thiệu Ontology và vai trò biểu diễn ngữ nghĩa
dữ liệu của Ontology trong việc tích hợp thông tin phân tán và không thuần nhất. Giới
thiệu một số giải thuật thường được sử dụng trong phân lớp dữ liệu. Khảo sát về phân
lớp NB, phân lớp TANB trong môi trường tập trung và phân tán do sự đơn giản trong
cài đặt và độ chính xác chấp nhận được của các phân lớp này đối với những nguồn dữ
liệu cần phân lớp. Trình bày kết quả thực nghiệm cho phân lớp NB và TANB. Đưa ra
kết luận, đánh giá về phân lớp NB và TANB.
Keywords: Công nghệ thông tin, Dữ liệu, Môi trường phân tán, Tích hợp thông tin

Content
MỞ ĐẦU
Đặt vấn đề
Những phát triển trong công nghệ truyền thông và trong công nghệ lưu trữ dữ liệu
dưới dạng số cùng với sự phát triển về khả năng thu nhận và lưu trữ dữ liệu tạo nên sự phong
phú và đa dạng về các dạng và các nguồn dữ liệu. Hiện nay, chúng ta đã có khả năng thu thập
các nguồn dữ liệu lớn thuộc nhiều lĩnh vực khác nhau, như trong y học (dữ liệu về ADN, dữ
liệu về các chuỗi protein, dữ liệu về các chuỗi gen), trong thương mại (dữ liệu về hàng hoá,
dữ liệu khách hàng, dữ liệu về các giao dịch), trong địa lý (dữ liệu về thông tin bề mặt trái
đất).


Sự đa dạng về nguồn thông tin trong cùng một lĩnh vực đặt ra khó khăn cho nhu cầu
kết hợp các nguồn dữ liệu để cung cấp những thông tin cần thiết cho người sử dụng. Xét ví
dụ về một người dùng muốn tìm mua một máy tính xách tay trên mạng. Để có thể đưa ra
được quyết định cuối cùng, người dùng sẽ truy cập đến nhiều trang web khác nhau. Tại mỗi
trang web, người dùng có thông tin về giá thành, chế độ bảo hành, thời gian bảo hành. Sau
khi so sánh các thông số trên, người dùng sẽ đưa ra được loại máy tính mà mình cần mua.
Trong tự động hóa quá trình tìm kiếm thông tin, các hệ thống trợ giúp người dùng sẽ
lấy thông tin từ các nguồn dữ liệu tại các trang web khác nhau, thực hiện việc so sánh và đưa
ra gợi ý cho người dùng. Thông thường dữ liệu từ các nguồn này có các đặc trưng phân tán,
tự trị và không thuần nhất.
 Tính phân tán: Các nguồn dữ liệu thường được lưu trữ phân tán tại các vị trí
khác nhau và hoàn toàn độc lập với nhau. Do vậy, khi cần lấy thông tin, hệ thống
phải xác định được vị trí lưu trữ của các nguồn dữ liệu.
 Tính không thuần nhất: Thể hiện dưới nhiều dạng: không thuần nhất về cấu trúc,
không thuần nhất về khuôn dạng dữ liệu và không thuần nhất về ngữ nghĩa.
Không thuần nhất về cấu trúc có nghĩa là mỗi nguồn dữ liệu khác nhau sử dụng
một cấu trúc khác nhau để lưu trữ dữ liệu. Không thuần nhất về khuôn dạng dữ
liệu là các nguồn dữ liệu không sử dụng cùng một khuôn dạng trong quá trình lưu
trữ dữ liệu. Đặc biệt là không thuần nhất về ngữ nghĩa, đó là việc sử dụng những
biểu diễn khác nhau cho một đối tượng. Dạng đơn giản của không thuần nhất ngữ
nghĩa là sử dụng các tên gọi khác nhau cho một đối tượng xác định. Xét ví dụ về
hai bảng dữ liệu của công ty kinh doanh thiết bị xe máy Honda.





Khi muốn so sánh giá của các thiết bị thuộc hai nguồn dữ liệu D1 và D2, hệ
thống cần hiểu rằng “Lốp sau” ở nguồn D1 và “Lốp 2.75” ở nguồn D2 là cùng chỉ
đến một đối tượng. Trong quá trình lưu trữ, “Thiết bị” ở nguồn D1 và “Mặt hàng”

ở nguồn D2 đều là tên trường dữ liệu lưu trữ tên của các đối tượng.
Thiết bị
Giá bán
VAT
Lốp trước
137.060
13.706
Lốp sau
155.100
15.510
Đĩa phanh
750.000
75.000
Dây
phanh
28.500
2.850
Hộp dầu
160.000
16.000




Bảng 1: Nguồn dữ liệu D1

Mặt hàng
Giá
Thuế
Lốp 2.75

155.100
15.500
Vành đúc
1.150.000
115.000
Phanh đĩa
1.000.000
100.000
Má phanh
61.000
6.100
Vành nan
169.000
16.900




Bảng 2: Nguồn dữ liệu D2

 Tính tự trị: Các nguồn dữ liệu xác định cấu trúc và định dạng lưu trữ khi xây
dựng. Các hệ thống khác khi muốn sử dụng thông tin của các nguồn chỉ có thể lấy
thông tin mà không thể thay đổi về cấu trúc cũng như định dạng. Hoạt động của
các nguồn dữ liệu là hoàn toàn độc lập với các đối tượng khác.
Để có thể tích hợp thông tin trong môi trường phân tán và không thuần nhất, cần phải
đưa ra các giải pháp cho vấn đề phân tán và không thuần nhất về ngữ nghĩa. Trong phần tiếp
theo, luận văn tập trung trình bày các nghiên cứu về tích hợp thông tin và giải pháp thuần
nhất ngữ nghĩa cho các nguồn dữ liệu.
Những nghiên cứu về tích hợp và phân lớp dữ liệu phân tán
Tích hợp thông tin là cách tiếp cận thông tin bằng cách kết hợp các thành phần dữ liệu

từ các hệ thống quản lý dữ liệu, các hệ thống quản lí nội dung, các kho dữ liệu và các ứng
dụng thương mại khác vào một miền chung. Tích hợp thông tin được nghiên cứu và sử dụng
rộng rãi trong lĩnh vực tài chính [21] với giải pháp quản lí các biểu diễn ngữ nghĩa dựa trên
EOC (Equational Ontological Conflicts), nhằm tạo ra sự thuần nhất trong việc biểu diễn và
tính toán dữ liệu tại các nguồn dữ liệu khác nhau.
Trong sinh học [8], Caragea (2005) cùng các cộng sự xây dựng INDUS (Intelligent
Data Understanding System) như một hệ thống trả lời các truy vấn người dùng từ các nguồn
dữ liệu phân tán và không thuần nhất về ngữ nghĩa. INDUS xây dựng một hệ thống các
ontology cho quá trình thuần nhất ngữ nghĩa các nguồn dữ liệu. Để giải quyết vấn đề mất
thông tin trong việc sử dụng định dạng dựa trên CAD như DXF để biểu diễn dữ liệu cho bài
toán tích hợp thông tin địa lý, F. Fonseca đưa ra một hướng tiếp cận dựa trên role [22]. Ở
đây, role thực hiện vai trò cầu nối giữa các cấp độ chi tiết khác nhau trong một cấu trúc
ontology.
Một trong lớp những giải thuật học máy, phân lớp dữ liệu nhận được sự quan tâm
của nhiều nhà nghiên cứu. Caragea [10] trình bày các giải thuật học từ dữ liệu thông qua việc
cải tiến các giải thuật phân lớp tập trung thành các giải thuật phân lớp phân tán trong môi
trường không thuần nhất về ngữ nghĩa. Ferrari [20] khi nghiên cứu về gien liên quan đến
công việc quản gia đã sử dụng phân lớp Naïve Bayes để phân lớp dữ liệu. Phân lớp được sử
dụng trong việc phân loại các văn bản trong các công việc văn phòng ([36],[43]) và phân loại
thư điện tử [54]. Trong lĩnh vực tài chính, việc nhận dạng giả mạo cũng cần đến các giải thuật
phân lớp dữ liệu ([13],[47]). ([1],[27]) đã xây dựng hệ thống phân lớp dữ liệu về bệnh nhân
nhằm xác định các trường hợp có khả năng mắc bệnh ung thư cho các nghiên cứu về y học.
Mục tiêu của luận văn
Với nguồn dữ liệu huấn luyện sử dụng trong giai đoạn xây dựng mô hình và nguồn dữ
liệu kiểm thử sử dụng trong giai đoạn phân lớp, bài toán phân lớp dữ liệu trong môi trường
phân tán được chia thành các lớp bài toán sau:
 Bài toán 1: Phân lớp dữ liệu với nguồn dữ liệu huấn luyện ở dạng phân tán và
nguồn dữ liệu kiểm thử ở dạng tập trung.
 Bài toán 2: Phân lớp dữ liệu với nguồn dữ liệu huấn luyện ở dạng tập trung và
nguồn dữ liệu kiểm thử ở dạng phân tán.

 Bài toán 3: Phân lớp dữ liệu với nguồn dữ liệu huấn luyện ở dạng phân tán và
nguồn dữ liệu kiểm thử ở dạng phân tán.
Luận văn tập trung giải quyết bài toán 1 với nguồn dữ liệu huấn luyện ở dạng phân
tán và nguồn dữ liệu kiểm thử ở dạng tập trung. Sau khi giải quyết xong bài toán 1, bằng cách
xây dựng nguồn dữ liệu tập trung dựa trên những dữ liệu huấn luyện phân tán và phân tán
nguồn dữ liệu kiểm thử ta có được hướng giải quyết cho bài toán 2. Giải pháp cho bài toán 3
dựa vào giải pháp cho vấn đề phân tán của nguồn dữ liệu huấn luyện (bài toán 1) và giải pháp
cho vấn đề phân tán của nguồn dữ liệu kiểm thử (bài toán 2).
Mục tiêu nghiên cứu cụ thể của luận văn:
 Tìm hiểu sự không thuần nhất về ngữ nghĩa tồn tại giữa những nguồn dữ liệu tự trị,
phân tán cho việc tích hợp dữ liệu. Dựa trên cách tiếp cận ontology, luận văn tích
hợp các nguồn dữ liệu phân tán và không thuần nhất về ngữ nghĩa thông qua việc
tích hợp các ontology.
 Tìm hiểu về phân lớp, các phương pháp phân lớp dữ liệu. Nghiên cứu các phương
pháp dựa trên xác suất là Naïve Bayes (NB) và Tree Augmented Naïve Bayes
(TANB). Trình bày việc áp dụng phân lớp NB, TANB cho các nguồn dữ liệu tập
trung và phân tán.
Tóm tắt nội dung luận văn
Phần còn lại của luận văn được tổ chức như sau:
Chương 1: Tổng quan về tích hợp thông tin và phân lớp dữ liệu phân tán. Trong
chương này, luận văn sẽ trình bày về nhu cầu tích hợp thông tin cũng như những vấn đề cần
quan tâm và phương pháp tích hợp thông tin từ các nguồn dữ liệu phân tán. Đồng thời, giới
thiệu về phân lớp dữ liệu phân tán và các phương pháp được sử dụng trong phân lớp dữ liệu.
Chương 2: Ontology trong tích hợp thông tin phân tán và không thuần nhất. Trình
bày phương pháp tích hợp thông tin dựa trên tích hợp các ontology của các nguồn dữ liệu mở
rộng với ontology. Trong đó, luận văn cũng đưa ra được vai trò biểu diễn ngữ nghĩa dữ liệu
của ontology trong việc tích hợp thông tin phân tán và không thuần nhất.
Chương 3: Phân lớp dữ liệu tập trung và phân tán. Nội dung chương này nhằm
trình bày một số giải thuật thường được sử dụng trong phân lớp dữ liệu. Luận văn tập trung
trình bày về phân lớp NB, phân lớp TANB trong môi trường tập trung và phân tán do sự đơn

giản trong cài đặt và độ chính xác chấp nhận được của các phân lớp này đối với những nguồn
dữ liệu cần phân lớp.
Chương 4: Cài đặt thử nghiệm. Phần này trình bày kết quả thực nghiệm cho phân
lớp NB và TANB. Sau đó, luận văn đưa ra kết luận, đánh giá về phân lớp NB, TANB và hiệu
quả của các phân lớp này đối với dữ liệu phân tán.
Kết luận trình bày những nghiên cứu về tích hợp thông tin không thuần nhất về ngữ
nghĩa, những đóng góp của luận văn và những định hướng nghiên cứu sắp tới.

References
[1] C.F. Aliferis, D. Hardin, P. P. Massion (2002) “Machine Learning Models For Lung
Cancer Classification Using Array Comparative Genomic Hybridization”. In:
Proceedings of the 2002 American Medical Informatics Association (AMIA) Annual
Symposium, 2002, pp. 7-11
[2] An Introduction to Data Mining.

[3] A. Atramentov (2003) “Multi-relational decision tree algorithm - implementation and
experiments”. MS. Thesis. Iowa State University, Ames, Iowa.
[4] F. Baader, I. Horrocks, U. Sattler (2001) “Description Logics as Ontology Languages
for the Semantic Web”. In D. Hutter and W. Stephan, editors, Festschrift in honor of
Jorg Siekmann, Lecture Notes in Artificial Intelligence. Springer, 2003.
[5] A. Berson, S. Smith, K. Thearling “An Overview of Data Mining Techniques”:

[6] Piero Bonatti, Yu Deng, V.S. Subrahmanian (2003) “An Ontology-Extended
Relational Algebra”, Proceedings of the IEEE Conference on Information Integration
and Reuse, IEEE Press.
[7] D. Caragea, J. Pathak, V.G. Honavar (2004) “Learning Classifiers from Semantically
Heterogeneous Data”. Conference on Cooperative Information Systems.
[8] D. Caragea, J. Pathak, J. Bao, A. Silvescu, C. Andorf, D. Dobbs, V. Honavar (2004)
“Information Integration and Knowledge Acquisition from Semantically
Heterogeneous Biological Data Sources”. In: Proceedings of the 2nd International

Workshop on Data Integration in Life Sciences (DILS'05), San Diego, CA.
[9] D. Caragea, J. Reinoso, A. Silvescu, V. Honavar (2003) “Statistics Gathering for
Learning from Distributed, Heterogeneous and Autonomous Data Sources”. In
International Workshop on Information Integration on the Web, IJCAI 2003.
[10] D. Caragea (2004) “Learning classifiers from distributed, semantically heterogeneous,
autonomous data sources”. Ph.D Thesis. Iowa State University.
[11] G. Casella and R.L. Berger. Statistical Inference. Duxbury Press, Belmont, CA, 2001.
[12] J. Cerquides, R. L´opez de M`antaras (2003) “Tractable Bayesian Learning of Tree
Augmented Naive Bayes Models”. In : Proceedings of the Twentieth International
Conference on Machine Learning (ICML 2000), pages 75-82, 2003
[13] P. K. Chan, Wei Fan, A. L. Prodromidis, S. J. Stolfo (1999) “Distributed Data Mining
in Credit Card Fraud Detection”. IEEE Intelligent Systems, Bd. 14, Nr. 6, S. 67 74,
1999.
[14] Ningjiang “Jay” Cheng (2001) “An Integration Framework for Airport Automation
Systems”. The MITRE Corporation, McLean, Virginia.
[15] J. Davies

, D. Fensel, F. V. Harmelen (2002) ―TOWARDS THE SEMANTIC WEB‖.
ISBN:0470848677. John Wiley & Sons, Inc. New York, NY, USA.
[16] “Digital Human Ontology” (2002) A EC/NSF Workshop of Scientists. National
Institutes of Health Bethesda, Marryland, 20894 USA.
[17] Y. Ding, S. Foo (2000) “Ontology Research and Development Part 1 – A Review of
Ontology Generation”. Journal of Information Science 28(2), pages 123-136.
[18] Oliver M. Duschka (1997) “Query planning and optimization in information
integration“, Ph.D Thesis. Stanford University, December 1997.
[19] Charles Elkan (1997) “Naïve Bayesian Learning”. Department of Computer Science -
Harvard University.
[20] L. De Ferrari (2005) “Mining housekeeping genes with a Naive Bayes classifier”
Master of Science Thesis, School of Informatics University of Edinburgh.
[21] A. Firat, S. Madnick, B. Grosof (2002) “Financial Information Integration In the

Presence of Equational Ontological Conflicts”, MIT Sloan School of Management
Cambridge, MA USA.(Proceedings of the Workshop on Information Technology and
Systems (WITS), Barcelona, Spain, December 14-15, 2002, pp. 211-216 )
[22] F. T. Fonseca (2001) “Role-Based Geographic Information Integration”. Geoinfo
2001—III Workshop Brasileiro de Geoinformatica, Rio de Janeiro, Brazil, pp. 31-38.
[23] N. Friedman, D. Geiger, M. Goldszmidt (1997) “Bayesian Network Classifiers”.
Journal of Machine Learning, volume 29, number (2-3), p.p (131-163). 1997.
[24] J.A. Goguen (2004) “Data, Schema, Ontology and Logic Integration”. University of
California, Sandiego. In: Proceedings, CombLog'04 Workshop. Lisbon, 2830 July
2004.
[25] Cheng H. Goh (1997) ―Representing and Reasoning about Semantic Conflicts in
Heterogeneous Information Sources‖. PhD. Thesis, MIT.
[26] Nicola Guarino (1998) “Formal Ontology and Information Systems”. National
Research Council, LADSEB-CNR, Corso Stati Uniti 4, I-35127 Padova, Italy.
[27] I. Guyon, J. Weston, S. Barnhill, V. Vapnik (2000) “Gene Selection for Cancer
Classification using Support Vector Machines”. Journey of Machine Learning Volume
46 , Issue 1-3 Pages: 389 – 422. ISSN:0885-6125 ( 2002).)
[28] A. Haller, E. Oren (2006) “A process ontology to represent semantics of different
process and choreography meta-models”. DERI – Digital Enterprise Research
Institute.
[29] J. Heflin, J. Hendler, S. Luke: “Applying Ontology to the Web: A Case Study”. In:
Proceedings of the International Work-Conference on Artificial and Natural Neural
Networks, IWANN'99.
[30] D. Heimbigner, D. McLeod (1985) “A Federated Architecture for Information
Management”. ACM Transaction on Office Information Systems 3(3):253-278. 1985.
[31] M. O. Jewell, F. Lawrence, M. M. Tuffield (2005) “OntoMedia: An Ontology for the
Representation of Heterogeneous Media”.In: Proceedings of Multimedia Information
Retrieval Workshop (MMIR 2005) SIGIR, Brazil.
[32] Thorsten Joachims (2001) “A Statistical Learning Model of Text Classification for
Support Vector Machines”. In: Proceedings of {SIGIR}-01, 24th {ACM} International

Conference on Research and Development in Information Retrieval.
[33] Eamonn J. Keogh, Michael J. Pazzani (1999) “Learning Augmented Bayesian
Classifiers: A Comparison of Distribution-based and Classification-based
Approaches”. In: Proceedings of the Seventh International Workshop on Artificial
Intelligence and Statistics (Ft. Lauderdale, FL, 1999) 225-230.
[34] R. Knappe, H. Bulskov, T. Andreasen (2003) “On Similarity Measures for Concept –
based Querying” In: Proceedings IFSA'03 International Fuzzy Systems Association
World Congress, Istanbul, Turkey, June 29 - July 2 2003
[35] C. Knoblock, S. Kambhampati (2002) “Information Integration on Web”. AAAI
Tutorial (MA1).
[36] Xiaoli Li, Bing Liu (2002) “Learning to Classify Texts Using Positive and Unlabeled
Data”. In: Proceedings of Eighteenth International Joint Conference on Artificial
Intelligence (IJCAI-03).
[37] Xiao Li (2003) “Augmented Naïve Bayesian Classifiers for Mixed-Mode Data”.

[38] P. McBrien, A. Poulovassilis (2001) “A Semantic Approach to Integrating XML and
Structured Data Sources”. In: Proceedings of the 13th International Conference on
Advanced Information Systems Engineering.
[39] K. McGarry, S. Garfield, N. Morris, S. Wermter (2007) “Integration of Hybrid Bio-
Ontologies using Bayesian Networks for Knowledge Discovery”. NESYS-07,
Workshop on Neuro-Symbolic Learning and Reasoning, International Joint
Conference on Artificial Intelligence (IJCAI-07), Hydrabad, India, January 6-12,
2007
[40] Christopher Menzel (2004) “Basic Semantic Integration”. In: Proceedings of
Dagstuhl Seminar 04391, Dagstuhl, Germany (2004).
[41] Tom M. Mitchell (1997): ―Machine Learning‖. 414 pages. ISBN 0070428077 -
WCB/McGraw-Hill.
[42] María Auxilio Medina Nieto (2003) “An Overview of Ontologies”. Technical report.
Universidad De Las Américas Puebla.
[43] K. Nigam, A.K. Mccallum, S. Thrun, T. Mitchell: “Text Classification from Labeled

and Unlabeled Documents using EM”. Journal of Machine Learning, volume 39,
number 2/3, pages = 103-134, 2000.
[44] Natalya F. Noy, Deborah L. McGuinness (2000) “Ontology Development 101: A
Guide to Creating Your First Ontology”. Stanford University, Stanford, CA, 94305.
[45] N. F. Noy (2004) “Semantic Integration: A Survey Of Ontology-Based Approaches”.
SIGMOD Record, 2004, 33(4):65-70.
[46] Chris Partridge (2002) ―The Role of Ontology in Integrating Semantically
Heterogeneous Databases‖, Technical LADSEB-CNR Technical Report 05/2002,
June 2002. Italy.
[47] C. Phua, D. Alahakoon, V. Lee (2004) “Minority Report in Fraud Detection:
Classification of Skewed Data”. ACM SIGKDD Explorations Newsletter Volume
6, Issue 1 (June 2004) Special issue on learning from imbalanced datasets. Pages: 50
– 59. 2004.
[48] M. A. Roth, D. C. Wolfson, J. C. Kleewein, C. J. Nelin (2002) ―Information
integration: A new generation of information technology‖, IBM SYSTEMS
JOURNAL.
[49] N. Sebe, M.S. Lew, I. Cohen, A. Garg, T.S. Huang (2002) “Emotion Recognition
Using a Cauchy Naive Bayes Classifier”. In ICPR, 2002.
[50] Jeffrey W. Seifert (2004) “Data Mining: An Overview”. Analyst in Information
Science and Technology Policy, Resources, Science, and Industry Division.
[51] “Semantic Integration: Strategies and Tools” (2003) TopQuadrant Technology
Briefing. TopQuadrant, Inc. USA.
[52] E. T. M. Spanaki (2004) “From ontology design to ontology implementation: A web
tool for building geographic ontologies”. In: 8th AGILE Conference on Geographic
Information Science, Estoril, Portugal, May 26 – 28, 2005.
[53] H. Stuckenschmidt, F. van Harmelen (2001) “Ontology-Based Metadata Generation
from Semi-Structured Information”. In: Proceedings of the first intenational
conference on knowledge capture (K-CAP'01), pages 440-444.
[54] R. Tailby, R. Dean, B. Milner, D. Smith (2006) “Email classification for automated
service handling”. In: Proceedings of the 2006 ACM symposium on Applied

computing, Dijon, France SESSION: Information access and retrieval (IAR) Pages:
1073 – 1077. 2006
[55] “The Data Warehousing Information Center”.
[56] K. Thearling: “An Introduction to Data Mining”.
[57] O. Udrea, Yu Deng, A. Hung, V.S. Subrahmania (2001) “Probabilistic Ontologies and
Relational Databases”. In: Proceedings of the Fourth International Conference on
Ontologies, Databases and Applications of Semantics (ODBASE), Agia Napa, Cyprus,
Oct 31 - Nov 4, 2005.
[58] H. Wache, T. Vogele, U. Visser (2001) “Ontology-based Integration of Information –
A Survey of Existing Approaches”. In: Proceedings of the IJCAI-01 Workshop:
Ontologies and Information Sharing.
[59] Z. Wang, G.I. Webb, F. Zheng (2004) “Selective Augmented Bayesian Network
Classifiers Based on Rough Set Theory”. In: Proceedings of the Eight Pacific-Asia
Conference on Knowledge Discovery and Data Mining (PAKDD 04) pages 319-328.
[60] G.I. Webb, J.R. Boughton, Z. Wang (2005) “Not so Naïve Bayes: Aggregating One-
Dependence Estimators”. Journey of Machine Learning, 58, 5–24.
[61] Zhijun Zhang (2005) “Ontology Query Languages for The Semantic Web: A
Performance Evaluation”. Master Thesis. The University of Georgia.
[62] D. Zuev, A. W. Moore (2005) “Traffic Classification using a Statistical Approach”. In:
Proceedings of Sixth Passive and Active Measurement Workshop (PAM 2005),
March/April 2005, Boston, MA.



×