Tải bản đầy đủ (.pdf) (5 trang)

DSpace at VNU: Phương pháp tìm cặp không đồng nghĩa tự động áp dụng cho bài toán đối sánh ontology

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (338.82 KB, 5 trang )

Phương pháp tìm cặp không đồng nghĩa tự
động áp dụng cho bài toán đối sánh ontology
Đặng Thị Thường
Trường Đại học Công nghệ
Luận văn ThS Chuyên ngành: Hệ thống thông tin; Mã số 60 48 01 04
Người hướng dẫn: TS. Phạm Hồng Thái
Năm bảo vệ: 2014

Keywords. Hệ thống thông tin; Cặp không đồng nghĩa; Bài toán đối sánh ontology;
Phương pháp phân lớp.


8

MỞ ĐẦU

Đối sánh ontology (Ontology matching) là một bài toán quan trọng trong lĩnh
vực khai phá web nói chung và lĩnh vực web ngữ nghĩa nói riêng. Kết quả khả quan
trong việc giải quyết bài toán này sẽ hỗ trợ tốt cho việc mở rộng các hệ thống ontology
sẵn có.
Bài toán này nhận được nhiều sự quan tâm của cộng đồng nghiên cứu, trong các
hội nghị lớn về Web ngữ nghĩa như: WWW, ISWC, SemWeb.Pro,… đều xuất hiện các
phiên trình bày về bài toán đối sánh ontology. Bên cạnh đấy, cũng có khá nhiều các
ứng dụng hay kho dữ liệu lớn đang áp dụng bài toán này như: Freebase, Yago, SMatch, H-Match, Cupid …
Mặc dù nhận được nhiều sự quan tâm của cộng đồng nghiên cứu và ứng dụng,
bài toán đối sánh ontology vẫn là bài toán mở với nhiều thách thức được đặt ra. Một
trong những thách thức lớn nhất đó chính là việc làm sao áp dụng các phương pháp tự
động để giảm chi phí trong quá trình đối sánh.
Từ những vấn đề nêu trên, cho thấy việc tìm ra phương pháp tìm cặp đồng nghĩa
áp dụng cho bài toán đối sánh ontology có đầy đủ cơ sở khoa học và thực tiễn.
Nội dung đề tài tập trung vào các phương pháp đối sánh ontology dựa vào độ


tương tự giữa hai xâu nói chung và phương pháp đối sánh ontology sử dụng phương
pháp học máy nói riêng. Bên cạnh đấy, luận văn lựa chọn một miền dữ liệu cụ thể và
đưa ra các tìm hiểu, đánh giá về các đặc trưng của miền dữ liệu đã lựa chọn. Dựa trên
các phương pháp và đặc trưng đã tìm hiểu được, luận văn xây dựng một mô hình giải
quyết toán áp dụng cho một miền dữ liệu đó. Phần cuối cùng của đề tài sẽ là các kết
quả thực nghiệm của mô hình và các ý kiến đánh giá .
Nội dung chính trong luận văn gồm 4 chương:
Chương 1: Giới thiệu về Ontology và bài toán đối sánh
Chương 2: Một số hướng tiếp cận giải quyết bài toán đối sánh ontology
Chương 3: Mô hình giải quyết bài toán đối sánh onology dựa trên bài toán phân
lớp thống kê
Chương 4: Thực nghiệm và đánh giá


47

TÀI LIỆU THAM KHẢO
Tiếng Việt
[1]

Trần Thắng Bình, Ngô Mạnh Quyền, Chu Thị Phương Thảo (2014), Tích hợp
Ontology y sinh sử dụng phương pháp học sự tương tự giữa hai chuỗi, Công

[2]

trình dự thi giải thưởng “ Sinh viên nghiên cứu khoa học năm 2014”, ĐHCN –
ĐHQGHN.
Phan Xuân Hiếu, Hà Quang Thuy, Doan S., Giáo trình khai phá dữ liệu web

[3]


(2009).
Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy (2012), Giáo trình Khai

[4]

Phá Dữ Liệu Web, Nhà Xuất bản Đại Học Quốc Gia Hà Nội, Tr 227- 266.
Nguyễn Minh Tuấn (2012), Phân lớp câu hỏi hướng tới tìm kiếm ngữ nghĩa tiếng
việt trong lĩnh vực y tế, Khóa luận tốt nghiệp đại học chính qui, ĐHCNĐHQGHN.

Tiếng Anh
[5] Castano, S., Ferrara, A., Montanelli, S., (2005), Dynamic knowledge discovery
in open, distributed and multi-ontology systems: techniques and applications. In:
Taniar, D., Rahayu, J. (eds.) Web Se-mantics and Ontology, pp. 226–258. Idea
Group, Hershey, Chap. 8 page 207.
[6] Castano S., Ferrara A., Montanelli S., (2006), Matching ontologies in open
networked systems: tech-niques and applications. J. Data Semant.V , 25–63,
(page 207).
[7] Cohen W., Ravikumar, P., Fienberg, S., (2003b), A comparison of string metrics
for matching names and records. In: Proc. International Workshop on Data
Cleaning and Object Consolidation at the 9th International Conference on
Knowledge Discovery and Data Mining (KDD), Washington, DC, USA, (pp. 88,
96).
[8] Collier N, Tran MV, Ha QT, Oellrich A, Dietrich RS, Learing to Recognize
Phenotype Candidates in the auto Immune Literature Using SVM Re-ranking.
[9] Cortes C., Vapnik V., “ Support vector networks”. Machine Learning, Volume
20(3), pages 273-297.
[10] Do, Hong-Hai and Rahm, Erhard, (2002). COMA - a system for flexible
combination of schema matching approaches. In Bernstein et al. (2002), pages
610-621.



48

[11] Giunchiglia F., Shvaiko P., Yatskevich M., (2004), S-Match: an algorithm and
an implementation of semantic matching. In: Proc. 1st European Semantic Web
Symposium (ESWS), Hersounisous,Greece. Lecture Notes in Computer Science,
vol. 3053, pages 61- 75,101,214.
[12] Giunchiglia F., Shvaiko P., (2003), Semantic matching. Knowl. Eng. Rev. 18 (3),
265–280, (pages 75,145,213).
[13] Jerome Euzenat and Pavel Shavaik (2007), Ontology Matching, Springer 2007.
[14] Kincho H. Law, “Ontology (2007), Basic Definitions and a Brief Introduction”,
TN-2007-03. NEESit – Workshops 2007.
[15] Klein, Michel, (2001). Combining and relating ontologies an analysis of problems and solutions. In Gomez-Perez, Asuncion, Gruninger, Michael, Stuckenschmidt, Heiner, and Uschold, Michael, editors. Proceedings of Workshop on
[16]

[17]
[18]
[19]

[20]

[21]

[22]

[23]

Ontologies and Information Sharing at IJCAI-01, Seattle, WA, USA.
Madhavan J., Bernstein P., Rahm E. (2001): Generic schema matching with

Cupid. In: Proc. 27th In-ternational Conference on Very Large Data Bases
(VLDB), Rome, Italy, pp. 48–58, (pages 128, 210)
Marc Ehrig. (2007) Ontology Alignment Bridging the Semantic Gap, Springer.
Mungall CJ., Gkoutos GV., Smith CL., Haendel MA., Lewis SE., Ashburner M.
(2010) Integrating phenotype ontologies across multiple species.
Oellrich A., Gkoutos GV., Hoehndorf R., Dietrich RS., (2011) Quantitative
comparison of mapping methods between Human and Mammalian Phenotype
Ontology.
Porter MF., (1997). An algorithm for suffix stripping. In Readings in information
retrieval, Karen Sparck Jones and Peter Willett (Eds.). Morgan Kaufmann
Publishers Inc., San Francisco, CA, USA, pages 313-316.
Rahm, Erhard and Bernstein, Philip A., (2001), A survey of approaches to
automatic schema matching. VLDB Journal: Very Large Data Bases, 10(4) pages
334-350.
Robinson PN,. and Kohler S., Bauer S., Seelow D., Horn D., Mundlos S. The
Human Phenotype Ontology: A Tool for Annotating and Analyzing Human
Hereditary Disease. The American Journal of Human Genetics 83 pages 610–
615.
Shvaiko P., Giunchiglia F., Yatskevich M.,(2009): Semantic matching with SMatch. In: De Virgilio, R., Giunchiglia, F., Tanca, L. (eds.) Semantic Web
Information Management, pp. 183–202. Springer, Berlin pages 214.


49

[24] Smith CL. and Goldsmith CAW and Eppig, JT. (2004) “The Mammalian
Phenotype Ontology as a tool for annotating, analyzing and comparing
phenotypic information” Genome Biology, 6: R7.
[25] Smith TF. And Waterman MS. (1981). “Identification of common molecular
subsequences” J Mol Biol, 147(1), pages 195-197.
[26] Tsuruoka Y., et al (2007), “Learning string similarity measures for gene/protein

name dictionary look – up using logistic regression”. Bioinformatics 23(20),
pages 2768 – 2774.



×