Chương 2. Cơ sở dữ liệu web
2 - 1/43
CHƯƠNG 2
CƠ SỞ DỮ LIỆU WEB
CƠ SỞ DỮ LIỆU WEB & XML
Chương 2. Cơ sở dữ liệu web
2 - 2/43
2.1 Cở sở dữ liệu Web
2.2 Khai phá dữ liệu và Web
2.3 Kiến trúc cơ sở dữ liệu web
2.4 Mối quan hệ với XML
Chương 2: Cơ sở dữ liệu web
Chương 2. Cơ sở dữ liệu web
2 - 3/43
MỤC TIÊU
- Trình bày được:
+ Các khái niệm về web, csdl web
+ Thu thập và khai phá các loại dữ liệu
+ Các kiến trúc csdl trên web
+ Quan hệ giữa csdl web và xml
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web
2 - 4/43
2.1 Cở sở dữ liệu Web
2.1.1 Trình bày d
ữ
li
ệ
u và mô hình d
ữ
li
ệ
u
- Cần có lược đồ trình bày dữ liệu thích hợp:
mô hình dữ liệu web được nghiên cứu năm 1996
sự phát triển xml (1998) đã hỗ trợ cho web
XML mở rộng cho nhiều ứng dụng khác.
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web
2 - 5/43
2.1 Cở sở dữ liệu Web
2.1.1 Trình bày d
ữ
li
ệ
u và mô hình d
ữ
li
ệ
u
CƠ SỞ DỮ LIỆU WEB
Mô hình dữ liệu cho Web
W3C
SGML, HTML,
ODA Models
Data Models for
Database
systems
XML
Specifications by
W3C
Models for web
and other
Extensions
Chương 2. Cơ sở dữ liệu web
2 - 6/43
2.1 Cở sở dữ liệu Web
2.1.2 Ch
ứ
c năng qu
ả
n lý cơ s
ở
d
ữ
li
ệ
u
Cơ sở dữ liệu web là csdl cho các website trên internet.
- quản lý cơ sở dữ liệu web bao gồm:
xử lý vấn tin
cập nhật dữ liệu
quản lý siêu dữ liệu
bảo mật và toàn vẹn dữ liệu
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web
2 - 7/43
2.1 Cở sở dữ liệu Web
2.1.2 Ch
ứ
c năng qu
ả
n lý cơ s
ở
d
ữ
li
ệ
u
- xử lý vấn tin
là chức năng chính để lấy thông tin từ cơ sở dữ liệu web.
- Cập nhật dữ liệu
làm thay đổi thông tin trong csdl
ai có quyền cập nhật
phân quyền cập nhật (read only, write,…)
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web
2 - 8/43
2.1 Cở sở dữ liệu Web
2.1.2 Ch
ứ
c năng qu
ả
n lý cơ s
ở
d
ữ
li
ệ
u
- Quản lý siêu dữ liệu
mô tả các thông tin liên quan đến cơ sở dữ liệu (người
dùng, điều khiển truy cập và các chính sách )
môi trường động
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web
2 - 9/43
2.1 Cở sở dữ liệu Web
2.1.2 Ch
ứ
c năng qu
ả
n lý cơ s
ở
d
ữ
li
ệ
u
- Quản lý lưu trữ
chỉ mục thích hợp
phương thức truy cập
tích hợp công nghệ quản lý csdl với lưu trữ khối
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web
2 - 10/43
2.1 Cở sở dữ liệu Web
2.1.2 Ch
ứ
c năng qu
ả
n lý cơ s
ở
d
ữ
li
ệ
u
- An ninh và bảo mật
ai là người sở hữu dữ liệu, bản quyền dữ liệu gốc? Ai có
quyền chỉnh sửa thông tin?
một cơ chế bảo vệ bản quyền và chống ăn cắp là cần thiết
- Duy trì tính toàn vẹn
dữ liệu từ nhiều nguồn khác nhau
duy trì tính toàn vẹn, chất lượng dữ liệu là cần thiết
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web
2 - 11/43
2.1 Cở sở dữ liệu Web
2.1.3 Cơ s
ở
d
ữ
li
ệ
u bán c
ấ
u trúc
- Dữ liệu có cấu trúc là dữ liệu có một cấu trúc hoàn toàn xác
định, mỗi phần tử có kiểu cụ thể như interger, string, real,
- Dữ liệu không có cấu trúc là dữ liệu không có một cấu trúc
nhất định (dữ liệu đa phương tiện, văn bản, hình ảnh,…)
-
Dữ liệu bán cấu trúc là dữ liệu có cấu trúc không đầy đủ nhưng
có cấu trúc từng phần (phân đoạn tiêu đề, tác giả)
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web
2 - 12/43
2.1 Cở sở dữ liệu Web
2.1.3 Cơ s
ở
d
ữ
li
ệ
u bán c
ấ
u trúc
- nghiên cứu phát triển mô hình để trình bày dữ liệu bán cấu
trúc
mô hình đầu tiên dựa trên cơ sở đối tượng
mô hình đối tượng quan hệ
lược đồ trình bày phổ biến là XML
XML không phải là mô hình dữ liệu, nhưng thay vào đó là
siêu mô hình để trình bày nhiều tài liệu khác nhau
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web
2 - 13/43
2.2 Khai phá dữ liệu và Web
- Khai phá dữ liệu là việc trích rút tri thức một cách tự động và
hiệu quả từ một khối lượng dữ liệu rất lớn và có tiềm năng mang
lại lợi ích.
thông tin trên web ngày càng lớn
khai thác dữ liệu, chiết xuất mẫu và tìm kiếm thông tin cho
người dùng là cần thiết.
khai phá dữ liệu còn gọi là phát hiện tri thức trong cơ sở dữ
liệu
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web
2 - 14/43
2.2 Khai phá dữ liệu và Web
CƠ SỞ DỮ LIỆU WEB
Web mining
Mining Data Source on
the web
Mining Usage Patterns
on the web
Extract Patterns from
Data Source
Give advice to Users
while browsing
Khai phá dữ liệu web
Chương 2. Cơ sở dữ liệu web
2 - 15/43
2.2 Khai phá dữ liệu và Web
CƠ SỞ DỮ LIỆU WEB
Giao diện đồ hoạ cho người dùng
Đánh giá mẫu
Máy khai mỏ dữ liệu
Máy chủ cơ sở dữ liệu hay
kho dữ liệu
Cơ sở dữ liệu
Làm sạch và tích hợp
Lọc
Cơ sở tri thức
Kiến trúc hệ thống khai mỏ dữ liệu
Kho dữ liệu
Chương 2. Cơ sở dữ liệu web
2 - 16/43
2.2 Khai phá dữ liệu và Web
- Cơ sở dữ liệu, kho dữ liệu:
lưu trữ thông tin.
các kỹ thuật làm sạch dữ liệu và tích hợp dữ liệu có thể
được thực hiện tại đây.
- Máy chủ cơ sở dữ liệu hay kho dữ liệu: lấy dữ liệu thích hợp dựa
trên những yêu cầu khai phá của người dùng
- Cơ sở tri thức: miền tri thức được dùng để tìm kiếm hay đánh
giá độ quan trọng của các mẫu kết quả.
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web
2 - 17/43
2.2 Khai phá dữ liệu và Web
- Máy khai phá dữ liệu: một tập các module chức năng
đặc trưng hóa, phân lớp, phân cụm
phân tích sự tiến hóa và sự chệch hướng
- Đánh giá mẫu :
duyệt tìm các mẫu đáng được quan tâm
có thể được tích hợp vào module khai phá
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web
2 - 18/43
2.2 Khai phá dữ liệu và Web
- Giao diện đồ hoạ cho người dùng:
người dùng giao tiếp với hệ thống
đặc tả yêu cầu khai phá, cung cấp thông tin trợ giúp cho
việc tìm kiếm và thực hiện khai phá
xem các lược đồ cơ sở dữ liệu, kho dữ liệu, đánh giá mẫu
và hiển thị các mẫu trong các khuôn dạng khác nhau.
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web
2 - 19/43
2.2 Khai phá dữ liệu và Web
- Quá trình khai phá tri thức gồm các bước sau:
Làm sạch dữ liệu
Tích hợp dữ liệu
Lựa chọn dữ liệu
Chuyển đổi dữ liệu
Khai phá dữ liệu
Đánh giá mẫu
Biểu diễn tri thức
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web
2 - 20/43
2.2 Khai phá dữ liệu và Web
2.2.1 Khai phá d
ữ
li
ệ
u trên web
thông tin trên web rất nhiều
làm thế nào để chuyển dữ liệu thành thông tin và sau đó là
tri thức để người dùng lấy đúng những thông tin họ muốn.
tích hợp công cụ khai thác dữ liệu vào trong dữ liệu web.
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web
2 - 21/43
2.2 Khai phá dữ liệu và Web
2.2.1 Khai phá d
ữ
li
ệ
u trên web
dữ liệu web có thể là:
không có cấu trúc, bán cấu trúc, hình ảnh, âm thanh,
video…
phát triển công cụ để khai thác dữ liệu đa phương tiện, sau
đó là trên web.
kho dữ liệu (Data Warehousing) có thể cần thiết
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web
2 - 22/43
2.2 Khai phá dữ liệu và Web
2.2.1 Khai phá d
ữ
li
ệ
u trên web
CƠ SỞ DỮ LIỆU WEB
Khai mỏ dữ liệu đa phương tiện
Web Miner
Intergration through the web
with tools like XML
Video Data Text DataMultimedia Data
Chương 2. Cơ sở dữ liệu web
2 - 23/43
2.2 Khai phá dữ liệu và Web
2.2.1 Khai phá d
ữ
li
ệ
u trên web
Nhiều chuẩn truy cập và quản lý dữ liệu web được phát triển bao
gồm nhiều mô hình, ngôn ngữ đặc tả và kiến trúc:
International Standards Organization - ISO
W3C (XML – DTD)
Object Management Group - OMG
chúng ta mong đợi có ngôn ngữ khai thác dữ liệu để phát
triển web
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web
2 - 24/43
2.2 Khai phá dữ liệu và Web
2.2.2 Khai phá d
ữ
li
ệ
u s
ử
d
ụ
ng m
ẫ
u
Dựa trên các mẫu, xu hướng, và các dự đoán, hệ thống sẽ phân
tích, dự đoán và đưa ra các kết quả mà người dùng mong muốn
Ví dụ
chúng ta sử dụng hệ thống lọc email.
công cụ khai phá dữ liệu dùng để hiển thị chỉ những trang
web mà người dùng mong muốn.
CƠ SỞ DỮ LIỆU WEB
Chương 2. Cơ sở dữ liệu web
2 - 25/43
2.2 Khai phá dữ liệu và Web
2.2.2 Khai phá d
ữ
li
ệ
u s
ử
d
ụ
ng m
ẫ
u
CƠ SỞ DỮ LIỆU WEB
Phân tích mẫu và dự đoán
Web information
Management
Analyze
Usage Pattern
Guidance
to User