NGHIÊN CỨU CÁC PHƯƠNG PHÁP
PHÂN LỚP DỮ LIỆU VÀ ỨNG DỤNG
PHÂN LỚP DỊCH VỤ WEB
Người hướng dẫn khoa học: PGS.TS Trần Đình Quế
Thực hiện: Phùng Thị Anh
Đề cương luận văn thạc sĩ kỹ thuật
Chuyên ngành: Khoa học máy tính
1
Lý do chọn đề tài
-
Số lượng của các dịch vụ web trên mạng tăng trưởng mạnh
mẽ , việc tìm kiếm trên khối lượng dữ liệu khổng lồ này ngày
càng trở nên phức tạp
-
Trước đây, việc phân loại thường được thực hiện thủ công
theo cách chỉ định cho một dịch vụ vào một thể loại nào đó đã
được phân loại (hay còn gọi là được gán nhãn) theo các quy
tắc đã được đặt ra. Cách này có nhiều bất cập khi khối lượng
dịch vụ trở nên khổng lồ, kéo theo các quy tắc phân loại cũng
gia tăng, có nhiều người tham gia duy trì hoặc chia sẻ dịch vụ
trong một kho dữ liệu chung.
-
=> việc cần thiết có một cơ chế tự động phân loại các dịch vụ
web trở nên quan trọng.
2
Mục đích nghiên cứu
•
Nghiên cứu các thuật toán phân lớp theo hướng khai phá văn
bản để phân loại các tài liệu WSDL (Web Service Description
Language) => phân tích mức độ phụ thuộc giữa các nội dung
của WSDL và các thể loại của dịch vụ Web:
–
SVM
–
Bayes
–
Luật kết hợp
•
Nghiên cứu phần mềm khai phá dữ liệu để thử nghiệm, đánh
giá các phương pháp: WEKA
3
Nội dung đề tài
Bố cục: 3 phần:
- Phần Mở đầu: Nêu lý do chọn đề tài và đối tượng, phạm vi,
phương pháp nghiên cứu
- Phần nội dung: Gồm 3 Chương
+ Chương 1: Trình bày cơ sở lý thuyết của đề tài
+ Chương 2: Nghiên cứu các thuật toán phân lớp và áp
dụng trong bài toán phân loại dịch vụ Web
+ Chương 3: Thử nghiệm, đánh giá
- Phần Kết luận: Tóm tắt lại kết quả của luận văn và đề xuất
hướng nghiên cứu
4
Chương 1
•
Cơ sở lý thuyết về khai phá dữ liệu, phân lớp dữ liệu.
–
Các khái niệm cơ bản về khai phá dữ liệu
–
Phát biểu bài toán phân lớp dữ liệu
•
Cơ sở lý thuyết về các thuật toán phân lớp dữ liệu điển hình.
- SVM
- Bayes
- Luật kết hợp
•
Cơ sở lý thuyết về dịch vụ Web (khái niệm, mô tả, cấu trúc,
…).
•
Các nội dung về sự cần thiết của việc khai phá dịch vụ Web.
5
Chương 2
•
Khảo sát các công trình đã đăng tải liên quan đến phân lớp
dịch vụ Web nêu những vấn đề còn tồn tại, chỉ ra những vấn
đề mà bài toán phân lớp dịch vụ Web cần quan tâm.
•
Diễn giải cơ sở lý thuyết, lý luận, giả thiết khoa học và
phương pháp nghiên cứu sử dụng;
•
Tổng hợp, thu thập, phân tích, đánh giá các số liệu trên cơ sở
lý thuyết, giả thiết khoa học để giải quyết bài toán phân lớp
dịch vụ Web.
•
Chi tiết:
- Phân lớp dịch vụ web dựa trên SVM
- Phân lớp dịch vụ web dựa trên Bayes
- Phân lớp dịch vụ web dựa trên Luật kết hợp
6
Chương 3
•
Trình bày về phần mềm khai phá dữ liệu dự kiến sử dụng để
thử nghiệm phân lớp các dịch vụ web:
–
WEKA
•
Mô tả về các tập dữ liệu mẫu (Nếu sử dụng nguồn dữ liệu
mẫu có sẵn thì có dẫn liệu cụ thể).
•
Trình bày kết quả thử nghiệm.
•
Đối chiếu so sánh kết quả thử nghiệm với các kết quả nghiên
cứu khác thông qua các tài liệu tham khảo (nếu có).
•
Đánh giá những khó khăn, thuận lợi, ưu điểm, nhược điểm
của phương pháp nghiên cưú.
•
Đánh giá tính khả thi và đề xuất hướng triển khai.
7
Kết luận
•
Kết quả và những đóng góp của luận văn, và đưa ra hướng
nghiên cứu mới (nếu có).
8
THANK YOU!
9