Tải bản đầy đủ (.ppt) (47 trang)

Khai phá dữ liệu và cách tìm kiếm thông tin trên Web Máy tìm kiếm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.26 MB, 47 trang )



Nhóm 4
Nhóm 4
Nguyễn Kim Phụng
Nguyễn Kim Phụng
Trần Thị Kim Oanh
Trần Thị Kim Oanh
Phạm Thị Duyên
Phạm Thị Duyên
Trần Trung Đoàn
Trần Trung Đoàn
Hứa Lê Khánh Uyên
Hứa Lê Khánh Uyên
1
1
ĐỀ TÀI 10
ĐỀ TÀI 10
Khai phá dữ liệu &
Khai phá dữ liệu &


Cách tìm kiếm thông tin trên Web
Cách tìm kiếm thông tin trên Web


Máy tìm kiếm
Máy tìm kiếm
I.Khai phá dữ liệu và khai phá dữ
I.Khai phá dữ liệu và khai phá dữ
liệu Web


liệu Web
II. Cách tìm kiếm thông tin trên
II. Cách tìm kiếm thông tin trên
Web
Web
III. Máy tìm kiếm
III. Máy tìm kiếm
NỘI DUNG
NỘI DUNG
Khai phá dữ liệu &
Khai phá dữ liệu &
Khai phá dữ liệu Web
Khai phá dữ liệu Web
1. Khai phá dữ liệu
1. Khai phá dữ liệu
1.1 Định nghĩa về khai phá dữ liệu
1.1 Định nghĩa về khai phá dữ liệu


Khai phá dữ liệu là một tập hợp các kỹ thuật
Khai phá dữ liệu là một tập hợp các kỹ thuật
được sử dụng để tự động khai thác và tìm ra các
được sử dụng để tự động khai thác và tìm ra các
mối quan hệ lẫn nhau của dữ liệu trong một tập
mối quan hệ lẫn nhau của dữ liệu trong một tập
hợp dữ liệu khổng lồ và phức tạp, đồng thời
hợp dữ liệu khổng lồ và phức tạp, đồng thời
cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó.
cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó.
1.2 Các kiểu khai phá dữ liệu

1.2 Các kiểu khai phá dữ liệu



KHAI PHÁ DỮLIỆU VĂN BẢN (TEXTMINING)
KHAI PHÁ DỮLIỆU VĂN BẢN (TEXTMINING)

KHAI PHÁ DỮLIỆU WEB (WEBMINING)
KHAI PHÁ DỮLIỆU WEB (WEBMINING)


1. Khai phá dữ liệu
1. Khai phá dữ liệu
2.1 Tổng quan về khai phá dữ liệu Web
2.1 Tổng quan về khai phá dữ liệu Web

Sự phát triển nhanh chóng của mạng Internet và Intranet
Sự phát triển nhanh chóng của mạng Internet và Intranet
đã sinh ra một khối lượng khổng lồ các dữ liệu dạng siêu
đã sinh ra một khối lượng khổng lồ các dữ liệu dạng siêu
văn bản (dữ liệu Web).
văn bản (dữ liệu Web).

Lý do cho sự phát triển này là chi phí thấp để duy trì
Lý do cho sự phát triển này là chi phí thấp để duy trì
một trang Web trên Internet.
một trang Web trên Internet.

Internet như là cuốn từ điển Bách khoa toàn thư với nội
Internet như là cuốn từ điển Bách khoa toàn thư với nội

dung và hình thức đa dạng.
dung và hình thức đa dạng.
2. Khai phá dữ liệu Web
2. Khai phá dữ liệu Web
2. Khai phá dữ liệu web
2. Khai phá dữ liệu web
2.1 Tổng quan về khai phá dữ liệu Web
2.1 Tổng quan về khai phá dữ liệu Web


Khai phá dữ liệu trên Internet (khai phá web )
Khai phá dữ liệu trên Internet (khai phá web )
+
+
Khai phá được nội dung các trang văn bản,cũng như
Khai phá được nội dung các trang văn bản,cũng như
mối quan hệ giữa chúng.
mối quan hệ giữa chúng.
+
+
Khai phá Web là sự giao thoa giữa khai phá dữ liệu và
Khai phá Web là sự giao thoa giữa khai phá dữ liệu và
Word-Wide-Web đang phát triển mạnh mẽ, gồm :
Word-Wide-Web đang phát triển mạnh mẽ, gồm :


- Trí tuệ nhân tạo.
- Trí tuệ nhân tạo.



- Truy xuất thông tin.
- Truy xuất thông tin.


- v.v.v
- v.v.v
2. Khai phá dữ liệu web
2. Khai phá dữ liệu web
2.1. Tổng quan về khai phá dữ liệu Web
2.1. Tổng quan về khai phá dữ liệu Web
Khai phá web như việc trích ra các thành
Khai phá web như việc trích ra các thành
phần được quan tâm hay được đánh giá là có ích
phần được quan tâm hay được đánh giá là có ích
cùng các thông tin tiềm năng từ các tài nguyên
cùng các thông tin tiềm năng từ các tài nguyên
hoặc các hoạt động liên quan tới World-Wide
hoặc các hoạt động liên quan tới World-Wide
Web
Web
2. Khai phá dữ liệu web
2. Khai phá dữ liệu web
2.1 Tổng quan về khai phá dữ liệu Web
2.1 Tổng quan về khai phá dữ liệu Web
Khai phá web chia thành 3 lĩnh vực chính: khai
Khai phá web chia thành 3 lĩnh vực chính: khai
phá nội dung web (web content mining), khai phá cấu
phá nội dung web (web content mining), khai phá cấu
trúc web (web structure mining) và khai phá việc sử
trúc web (web structure mining) và khai phá việc sử

dụng web (web usage mining).
dụng web (web usage mining).
2. Khai phá dữ liệu web
2. Khai phá dữ liệu web
2.2 Các bài toán được đặt ra trong khai phá Web
2.2 Các bài toán được đặt ra trong khai phá Web
-
Tìm kiếm các thông tin cần thiết: được gỉai quyết
Tìm kiếm các thông tin cần thiết: được gỉai quyết
bởi máy tìm kiếm.
bởi máy tìm kiếm.
- Tạo ra các tri thức mới từ các thông tin có sẵn
- Tạo ra các tri thức mới từ các thông tin có sẵn
trên Web: Cần lấy ra được thông tin cần thiết từ dữ
trên Web: Cần lấy ra được thông tin cần thiết từ dữ
lieeujWeb.
lieeujWeb.
- Cá nhân hóa các thông tin: Cung cấp thông tin
- Cá nhân hóa các thông tin: Cung cấp thông tin
cho nhà cung cấp thông tin trên Web đạt được mục
cho nhà cung cấp thông tin trên Web đạt được mục
đích của mình
đích của mình
- Tìm hiểu về những người tiêu thụ sản phẩm cũng
- Tìm hiểu về những người tiêu thụ sản phẩm cũng
như về cá nhân người dùng.
như về cá nhân người dùng.
2. Khai phá dữ liệu web
2. Khai phá dữ liệu web
2.3 Các lĩnh vực của khai phá dữ liệu Web

2.3 Các lĩnh vực của khai phá dữ liệu Web
a. Khai phá nội dung Web (Web content mining):
a. Khai phá nội dung Web (Web content mining):


- Là quá trình xử lý để lấy ra các ri thức từ nội
- Là quá trình xử lý để lấy ra các ri thức từ nội
dung trang văn bản hoặc mô tả của chúng.
dung trang văn bản hoặc mô tả của chúng.


Có 2 chiến lược khai phá:
Có 2 chiến lược khai phá:
+ Khai phá trực tiếp nội dung trang.
+ Khai phá trực tiếp nội dung trang.
+ Tìm kiếm nâng cao: Tìm kiếm trong kết qua:
+ Tìm kiếm nâng cao: Tìm kiếm trong kết qua:
máy tìm kiếm
máy tìm kiếm
2. Khai phá dữ liệu web
2. Khai phá dữ liệu web
2.3 Các lĩnh vực của khai phá dữ liệu Web
2.3 Các lĩnh vực của khai phá dữ liệu Web
b. Khai phá cấu trúc web (web structure mining).
b. Khai phá cấu trúc web (web structure mining).
-
Nhờ vào kết nối giữa các cấu trúc Web.
Nhờ vào kết nối giữa các cấu trúc Web.
-
Là quá trình xử lý nhằm rút ra các tri thức từ cách

Là quá trình xử lý nhằm rút ra các tri thức từ cách
tổ chức và liên kết giữa các trag Web.
tổ chức và liên kết giữa các trag Web.
2. Khai phá dữ liệu web
2. Khai phá dữ liệu web
2.3 Các lĩnh vực của khai phá dữ liệu Web
2.3 Các lĩnh vực của khai phá dữ liệu Web
c. Khai phá sử dụng web (web usage mining).
c. Khai phá sử dụng web (web usage mining).
-
Khai phá hồ sơ Web để lấy ra các thông tin trong
Khai phá hồ sơ Web để lấy ra các thông tin trong
hồ sơ Web.
hồ sơ Web.
+ Phân tích để biết xu hướng truy cập: giúp cấu
+ Phân tích để biết xu hướng truy cập: giúp cấu
trúc lại Site trong sản phẩm.
trúc lại Site trong sản phẩm.
+ Phân tích các xu hướng cá nhân: phù hợp với
+ Phân tích các xu hướng cá nhân: phù hợp với
các đối tượng người dùng
các đối tượng người dùng
2. Khai phá dữ liệu web
2. Khai phá dữ liệu web
2.4. Thuận lợi
2.4. Thuận lợi
-
-
Không chỉ có một trang mà có thể có các liên kết tới
Không chỉ có một trang mà có thể có các liên kết tới

các trang khác.
các trang khác.
-
-
Cho biết xu thế người dùng để đưa ra được các thông
Cho biết xu thế người dùng để đưa ra được các thông
tin hữu ích nhất.
tin hữu ích nhất.
2. Khai phá dữ liệu web
2. Khai phá dữ liệu web
2.5. Khó khăn
2.5. Khó khăn


- Web dường như quá lớn để tổ chức thành kho
- Web dường như quá lớn để tổ chức thành kho
dữ liệu phục vụ Dataming .
dữ liệu phục vụ Dataming .


- Độ phức tạp của trang Web lớn hơn rất nhiều
- Độ phức tạp của trang Web lớn hơn rất nhiều
so với những tài liệu văn bản truyền thống khác
so với những tài liệu văn bản truyền thống khác


- Web phục vụ một cộng đồng người dùng rộng
- Web phục vụ một cộng đồng người dùng rộng
lớn và đa dạng
lớn và đa dạng



- Chỉ một phần rất nhỏ của thông tin trên Web
- Chỉ một phần rất nhỏ của thông tin trên Web
là thực sự hữu ích.
là thực sự hữu ích.
CÁCH TÌM KIẾM THÔNG
CÁCH TÌM KIẾM THÔNG
TIN TRÊN INTERNET
TIN TRÊN INTERNET
I. Cách tìm kiếm thông tin
I. Cách tìm kiếm thông tin
1.
1.
Các thông tin phổ biến trên mạng
Các thông tin phổ biến trên mạng
-
Tin tức, sự kiện
Tin tức, sự kiện
-
Thông tin kinh tế
Thông tin kinh tế
-
Thông tin của chính phủ
Thông tin của chính phủ
-
Thông tin học thuật
Thông tin học thuật
-
Văn hóa đại chúng

Văn hóa đại chúng
-
Hướng dẫn kỹ năng
Hướng dẫn kỹ năng
-
Giải trí
Giải trí
17
17
2.
2.
Đặc điểm của thông tin trên Internet
Đặc điểm của thông tin trên Internet
-
Được bổ sung và cập nhật liên tục
Được bổ sung và cập nhật liên tục
-
Tài liệu không được xử lý bằng bất kỳ
Tài liệu không được xử lý bằng bất kỳ
một hệ thống tiêu chuẩn nào
một hệ thống tiêu chuẩn nào
-
Thông tin được tìm kiếm bằng nhiều
Thông tin được tìm kiếm bằng nhiều
công cụ khác nhau
công cụ khác nhau
18
18
I. Cách tìm kiếm thông tin
I. Cách tìm kiếm thông tin

3.
3.
Có thể tìm được mọi thông tin trên
Có thể tìm được mọi thông tin trên
Internet?
Internet?
-
Có phải mọi thông tin đều miễn phí?
Có phải mọi thông tin đều miễn phí?
-
Các thông tin khó tìm thấy trên
Các thông tin khó tìm thấy trên
Internet?
Internet?
+ Các tài liệu cũ, quý hiếm
+ Chất lượng nội dung
19
19
I. Cách tìm kiếm thông tin
I. Cách tìm kiếm thông tin
4. Các bước chuẩn bị trước khi bắt đầu dùng
Internet tìm kiếm
-
Thu hẹp chủ đề, chọn những từ quan trọng,
những mục quan trọng.
-
Nhờ sự giúp đỡ của bạn bè
-
Liệt kê những trang web nổi tiếng, có các đánh
giá, chọn lọc…

-
Ghi vào sổ tay các địa chỉ trang web chuyên về
chủ điểm đang cần
20
20
I. Cách tìm kiếm thông tin
I. Cách tìm kiếm thông tin
5.
5.
Sử dụng công cụ, chức năng tìm kiếm
Sử dụng công cụ, chức năng tìm kiếm
(search engine)
(search engine)
-
Dễ sử dụng
-
Mỗi search engine chỉ tìm một số lượng nhất
định các trang web, không phải tất cả các
trang
-
Mỗi search engine có những đặc điểm khác
nhau về tính năng cũng như diện bao quát
21
21
I. Cách tìm kiếm thông tin
I. Cách tìm kiếm thông tin
5.
5.
Sử dụng công cụ, chức năng tìm kiếm
Sử dụng công cụ, chức năng tìm kiếm

(search engine)
(search engine)


Một số trang web có
Một số trang web có
Search Engines
Search Engines


nổi
nổi
tiếng:
tiếng:
-
Google
-
Ask.com
-
Yahoo! Search
-
Bing
22
22
I. Cách tìm kiếm thông tin
I. Cách tìm kiếm thông tin
5.
5.
Sử dụng công cụ, chức năng tìm kiếm
Sử dụng công cụ, chức năng tìm kiếm

(search engine)
(search engine)
Một số trang web có
Một số trang web có
Search Engines
Search Engines


nổi tiếng:
nổi tiếng:
-
monava.vn
-
xalo.vn
-
zing.vn
-
bamboo.vn
-

23
23
I.
I.
Cách
Cách
tìm kiếm thông tin
tìm kiếm thông tin
Tìm kiếm thông tin với…
Tìm kiếm thông tin với…

24
24
25
25

×