Tải bản đầy đủ (.doc) (17 trang)

Bài tiểu luận môn Công nghệ tri thức Web mining – khai mỏ thông tin web

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (398.92 KB, 17 trang )

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT QUA MẠNG
BÁO CÁO THU HOẠCH CHUYÊN ĐỀ
Công nghệ tri thức
Đề tài: Web mining – khai mỏ thông tin web.
Giáo viên hướng dẫn: GS.TSKH. Hoàng Kiếm
Sinh viên: Trần Hoài Phong MSSV: CH1101027
Niên khoá 2011-2013
MỤC LỤC
LỜI MỞ ĐẦU: 2
I.PHÂN LOẠI WEB MINING: 3
II.WEB USAGE MINING: 6
III.KẾT LUẬN: 14
TÀI LIỆU THAM KHẢO : 17
Lời mở đầu:
Với sự tăng trưởng bùng nổ của các nguồn thông tin trên World Wide Web,
nhu cầu về những công cụ tự động tìm các nguồn tài nguyên thông tin mong
muốn, cũng như việc theo dõi và phân tích hành vi người dùng đang ngày càng trở
nên cần thiết. Những yếu tố này làm phát sinh mong muốn tạo ra một hệ thống
thông minh, hiệu quả để có thể khai thác kho kiến thức vô cùng phong phú này.
Web mining có thể được định nghĩa là khám phá và phân tích các thông tin hữu
2
ích từ World Wide Web. Là quá trình tự động tìm kiếm các nguồn tài nguyên
thông tin có sẵn trên mạng như nội dung trang web – web content mining, và
phân tích hành vi sử dụng của người dùng – web usage mining.
Trong bài tiểu luận này, em sẽ trình bày một cái nhìn tổng quan về các công
cụ, kỹ thuật, và các vấn đề liên quan đến cả hai nội dung này. Em cũng sẽ trình
bày một số vấn đề quan trọng, độc đáo trong mô hình Web, một mô hình với nhiều
dữ liệu phức tạp mà máy chủ có thể thu nhập để phục vụ cho quá trình phân tích
sau này. Bao gồm các nguồn dữ liệu khác nhau như nhật kí truy cập máy chủ,
thông tin người dùng, các thông tin cần thiết trong phiên sử dụng của người dùng


cũng như các thao tác trong quá trình sử dụng Em cũng giành một phần chính
của bài tiểu luận này tập trung để thảo luận các vấn đề và các khó khăn đặc trưng
khi phân tích quá trình sử dụng Web của người dùng. Ngoài ra, em cũng sẽ đưa ra
một số các công cụ và kỹ thuật đang nổi lên, và một số hướng nghiên cứu trong
tương lai.
Tuy nhiên mặc dù đã ra sức tìm hiểu cũng như với sự hướng dẫn cơ bản về
công nghệ tri thứ và ứng dụng từ thầy nhưng với kinh nghiệm ít ỏi nên nội dung
bài tiểu luận này không thể tránh được những sai sót. Mong thầy thông cảm và
cuối cùng e xin cám ơn thầy đã giành thời gian đọc bài tiểu luận này.
I. Phân loại web mining :
1. Web content mining – khai mỏ nội dung trang web
Việc tìm kiếm các thông tin hữu ích từ các nội dung trên web là quá trình
ứng dụng các kỹ thuật khai mỏ dữ liệu đối với các nội dung trên Internet. Web
chứa rất nhiều loại dữ liệu. Về cơ bản, nội dung trang web bao gồm một số loại dữ
liệu như văn bản đơn giản (không có cấu trúc), hình ảnh, âm thanh, video, cũng
như HTML (bán cấu trúc), hoặc XML (văn bản có cấu trúc), tài liệu đa phương
3
tiện Do sự phức tạp trong cấu trúc của các nội dung trên web khiến cho việc
khai thác thông tin một cách tự động là tương đối khó khăn. Trong những năm gần
đây đã có một số nghiên cứu để phát triển ngày càng nhiều kĩ thuật giúp cho việc
khai thác dữ liệu, nội dung trên trang web ngày một hiệu quả hơn. Dưới đây là một
vài nỗ lực trong những năm gần đây.
1.1 Agent-based approach – tiếp cận theo hướng agent:
Agent là một hệ thống sẽ đảm nhận trách nhiệm khai thác nội dung của
trang web. Bao gồm:
- Intelligent search agents: phục vụ cho quá trình tìm kiếm thông minh, nó
sử dụng một vài kĩ thuật dựa vào thông tin của người dùng hoặc các domain đặc
trưng để tăng hiệu quả cho việc tìm kiếm các thông tin thích hợp.
- Information filtering/Categorization: kĩ thuật nhúng những thông tin ngữ
nghĩa trong các liên kết và nội dung của các tài liệu đễ phân loại tài liệu.

- Personalize web agents: dựa vào sở thích của người dùng và dùng nó để
tìm kiếm nội dung thích hợp của trang web.
1.2 Database based approach – tiếp cận theo hướng cơ sở dữ liệu:
Sử dụng các kĩ thuật truy vấn cơ sở dữ liệu kết hợp với các kĩ thuật khai
thác mõ dữ liệu để tăng khả năng khai thác các nội dung trang web
- Multilevel Databases: Ý tưởng chính đằng sau phương pháp này là mức
thấp nhất của cơ sở dữ liệu sẽ chứa dữ liệu bán cấu trúc, như tài liệu siêu văn bản,
được lưu trữ tại nhiều Web khác nhau.Ở mức cao hơn các siêu dữ liệu hoặc các dữ
liệu tổng quát sẽ được chiết xuất từ các dữ liệu bán cấu trúc ở mức thấp hơn và
được tổ chức thành các bộ cơ sỡ dữ liệu có cấu trúc.
- Web query systems: Nhiều hệ thống truy vấn web và ngôn ngữ đang được
phát triển gần đây dùng các ngôn ngữ truy cập cơ sở dữ liệu tương tự như sql hoặc
4
các thông tin cấu trúc trong tài liệu web và thậm chí ngôn ngữ tự nhiên để truy vấn
và tìm kiếm thông tin trên thế giới web. Ví dụ: W3QL, WebLog, UnQL, ….
2. Web usage mining – khai mỏ quá trình sử dụng web:
Khai mỏ sử dụng Web là quá trình khám phá cách thức truy cập của người
dùng từ các máy chủ Web. Tập hợp 1 số lượng lớn các dữ liệu trong hoạt động
hàng ngày của họ sẽ được ghi bằng nhật ký truy cập máy chủ. Các nguồn thông tin
người dùng khác còn bao gồm thông tin đăng ký của người sử dụng, thông tin
khảo sát ….
Phân tích các dữ liệu đó có thể giúp các tổ chức xác định chu kì thời gian
hoạt động của khách hàng, hiệu quả của các chiến lược tiếp thị và quảng cáo sản
phẩm Nó cũng có thể cung cấp thông tin giúp cho doanh nghiệp có thể cơ cấu
lại một trang web sao cho nó hoạt động hiệu quả hơn. Đặc biệt là đối với quảng
cáo trên World Wide Web, phân tích quá trình truy cập của người sử dụng là một
công cụ rất quan trọng giúp xác định được mục tiêu quảng cáo cho từng nhóm
người sử dụng cụ thể.
Hiện tại hầu hết các công cụ phân tích Web đều có cung cấp cơ chế để báo
cáo hoạt động của người dùng trên máy chủ với nhiều hình thức lọc dữ liệu khác

nhau. Sử dụng các công cụ như vậy có thể giúp chúng ta xác định số lượng truy
cập đến máy chủ, các tập tin cá nhân, các tên miền và URL mà người dùng truy
cập nhiều nhất. Tuy nhiên, những công cụ này hầu hết chỉ được thiết kế để đảm
nhiệm từ thấp đến trung bình lưu lượng truy cập máy chủ, và thường không có
hoặc cung cấp rất ít các phân tích về sự tương tác giữa các dữ liệu trong quá trình
truy cập Web. Dưới đây là 1 số kĩ thuật đã được phát triển.
2.1 Pattern discovery tool – các công cụ tìm ra các mẫu dữ liệu:
5
Các công cụ tìm ra các mẫu dữ liệu sẽ dựa trên một số phương pháp và
thuật toán được phát triển từ các lĩnh vực như thống kê, khai mõ dữ liệu, máy học,
và nhận dạng mẫu để tìm ra các kiến thức cần thiết từ một tập hợp dữ liệu. Ví dụ
hệ thống webminer đã giới thiệu một kiến trúc tổng quát cho Web usage mining.
WEBMINER sẽ tự động tìm kiếm các luật kết hợp và một số mô hình tuần tự từ
nhật ký truy cập máy chủ
2.2 Pattern analysis tool – các công cụ phân tích mẫu tìm được:
Một khi mẫu đã được phát hiện, các nhà phân tích cần những công cụ và kỹ
thuật thích hợp để hiểu, và giải thích các mẫu này. Ví dụ về các công cụ như vậy
bao gồm các hệ thống WebViz , WEBMINER đề xuất một cơ chế truy vấn giống
như SQL để truy vấn các kiến thức phát hiện được từ mẫu.
II. Web usage mining :
1 Các giai đoạn trong web usage mining:
Như đã thảo luận trong phần 1.2, việc phân tích quá trình sử dụng của
người dùng là rất quan trọng để xác định chiến lược tiếp thị hiệu quả và tối ưu hóa
cơ cấu của các trang web. Đây là quá trình phân tích giúp chúng ta khám phá ra
những dữ liệu có ý nghĩa trong một tập hợp dữ liệu vô cùng lớn mà máy chủ thu
nhập mỗi ngày. Đối với web, những dữ liệu được thu nhập tự động tại máy chủ
thông qua việc ghi logs (nhật kí). Phân tích các dữ liệu này sẽ cho chúng ta rất
nhiều thông tin để tái cấu trúc lại website qua đó nâng cao tính hiệu quả, tăng
cường khả năng quản lý giữa các chức năng, phân tích hành vi của người dùng qua
đó hướng quảng cáo tới các nhóm người dùng riêng biệt…

Hầu hết các hệ thống phân tích web đều cung cấp những cơ chế cơ bản để
báo cáo về hành vi người dùng. Nó có thể cho ta biết được số lượng truy cập một
file nào đó, thời gian truy cập, và url mà người dùng truy cập.
6
Do tính chất đặc biệt của mô hình client-server trong World Wide Web, sự
khó khăn trong việc nhận dạng của người dùng cũng như phiên hoạt động của
người dùng, sự khác biệt giữa đường dẫn và kho chứa trang web…. do đó cần phải
phát triển một hệ thống mới hổ trợ tốt hơn quá trình khai thác mỏ dữ liệu. Cụ thể,
cần có một quá trình tiền xử lý dữ liệu trước khi các thuật toán khai thác mỏ có thể
được chạy. Bao gồm phát triển một mô hình cho các dữ liệu về nhật ký truy cập,
phát triển kỹ thuật để làm sạch /lọc các dữ liệu thô nhằm loại bỏ các giá trị ngoại
lai và các mục không liên quan, nhóm quá trình truy cập của các cá nhân vào các
đơn vị ngữ nghĩa (là giao tác), tích hợp các nguồn dữ liệu khác nhau vào thông tin
đăng ký người dùng , và chuyên môn hoá các thuật toán khai thác dữ liệu để tận
dụng tối đa dữ liệu về nhật ký truy cập.
1.1 Giai đoạn tiền xử lý :
Đầu tiên làm sạch dữ liệu. Kỹ thuật này để làm sạch nhật ký máy chủ nhằm
loại bỏ các mục không liên quan. Đây là kỹ thuật quan trọng không chỉ hổ trợ cho
quá trình khai mõ dữ liệu mà còn giúp phân tích thông tin nhật ký Web. Các thống
kê báo cáo chỉ hữu ích nếu các dữ liệu trong nhật ký máy chủ cho một bức tranh
chính xác quá trình truy cập của người sử dụng truy cập của trang web. Loại bỏ
các mục không liên quan có thể được thực hiện bằng cách kiểm tra các hậu tố của
địa chỉ URL. Ví dụ: tất cả các mục nhật ký với hậu tố như: gif, jpeg, GIF, JPEG,
jpg, JPG…. có thể được gỡ bỏ.
Một vấn đề khó khăn hơn là xác định những truy cập quan trọng mà bị bỏ
lỡ không được ghi lại trong nhật ký truy cập. Cơ chế cache ở máy người dùng và
proxy ở máy chủ có thể làm móp méo bức tranh về quá trình truy cập của người
dùng với một trang Web. Các phương pháp hiện nay để cố gắng khắc phục vấn đề
này bao gồm việc sử dụng cookie, cache busting, và bắt buộc phải đăng ký người
dùng. Những phương pháp này đều có hạn chế. Cookie có thể bị xóa bởi người sử

dụng, bộ nhớ cache Busting có ưu điểm là cache được tạo ra riêng biệt để tránh
việc browser của người dùng sử dụng lại cache cũ gây ra sự không đồng bộ nhưng
7
chức năng này có thể bị vô hiệu hóa, và việc không cần phải đăng kí người dùng
có thể thường xuyên gây ra thông tin sai lệch. Các phương pháp để đối phó với
vấn đề bộ nhớ đệm bao gồm sử dụng referrer logs, cùng với một số biến lưu thông
tin tạm thời để suy ra những dữ liệu nào đã không được đồng nhất.
Một vấn đề khác liên quan với các máy chủ proxy là nhận dạng người sử
dụng. Sử dụng một tên máy để xác định người sử dụng có thể dẫn đến tình trạng
nhiều người dùng được hiểu như là một người sử dụng. Một thuật toán được dùng
kiểm tra với mỗi yêu cầu gửi đến máy chủ xem có phải là truy cập từ các trang đã
truy cập trước đó hay không. Nếu một trang được yêu cầu không phải trực tiếp từ
các trang trước thì ta biết được rằng có nhiều người dùng được giả định tồn tại trên
cùng một máy. Một số cách khác liên quan đến việc sử dụng kết hợp địa chỉ IP,
tên máy, trình duyệt, và một số thông tin tạm thời để xác định người sử dụng.
Bước tiền xử lý lớn thứ hai là đồng nhất giao tác. Trước khi tiến hành khai
thác mỏ bất kỳ dữ liệu truy cập web, trình tự các trang liên quan mà người dùng
truy cập phải được nhóm lại thành các đơn vị có cấu trúc là đại diện cho các giao
tác web hoặc phiên sử dụng của người dùng. Một phiên sử dụng của người dùng là
tất cả các trang liên quan đến một người dùng trong một lần truy cập trang web.
1.2 Tìm ra các mẫu dữ liệu :
Một khi phiên sử dụng của người dùng được xác định, có nhiều kiểu khai
mỏ mẫu truy cập tùy thuộc vào nhu cầu của các nhà phân tích, chẳng hạn như
phân tích đường dẫn, khám phá các luật kết hợp và các mẫu tuần tự, và phân nhóm
và phân loại.
Phân tích đường dẫn được dùng để xác định được đường dẫn mà người
dùng thường xuyên truy cập
Kĩ thuật mẫu tuần tự dùng các thông tin lưu được để đoán được mẫu truy
cập tuần tự mà người dùng thường xuyên sử dụng ví dụ người dùng truy cập trang
8

web này phần nhiều từ đâu, từ thông tin đó chúng ta sẽ đặt quảng cáo sao cho hợp
lý;
Phân tích nhóm người dùng có những đặc tính tương tự nhau từ đó có thể
thiết kế web thay đổi tuỳ theo đặc điểm của nhóm đó hoặc có những chính sách
marketing hiệu quả hơn tuỳ vào nhóm người dùng cụ thể.
Phân tích luật kết hợp cho ta thấy được sự tương quan trong quá trình truy
cập tập tin khác nhau trên một máy chủ của một khác hàng nhất định. Ví dụ: 60%
người dùng truy cập trang sản phẩm thì cũng sẽ truy cập trang sản phầm a.
1.3 Phân tích mẫu vừa phát hiệ n :
Việc phát hiện mẫu nghiên cứu sẽ không có tác dụng gì nếu không có các
công cụ hoặc cơ chế hổ trợ cho quá trình phân tích giúp chúng ta hiểu rõ hơn về
mẫu vừa phát hiện. Do đó ngoài việc phát triển các kĩ thuật để tìm ra các mẫu
nghiên cứu từ nhật kí web, chúng ta phải phát triển thêm các kĩ thuật để phân tích
các mẫu tìm được. Các kĩ thuật phát triển này thường được rút ra từ nhiều lĩnh vực
như thống kê, đồ hoạ, mô hình, phân tích khả dụng, truy vấn cơ sở dữ liệu ….
Mô hình là một trong những công cụ được sử dụng rất thành công để giúp
mọi người hiểu thêm về các hiện tượng khác nhau cả hiện thực lẫn trừu tượng. Do
đó nó là một lựa chọn tự nhiên để giúp chúng ta hiểu thêm về hành vi của con
người. Pitkov đã phát triển hệ thống WebViz để mô hình hoá quá trình truy cập
www. WebViz giúp mô hình hoá các đường dẫn trong trang web. WebViz cũng
giúp chúng ta loại bỏ những nhánh không liên quan. Web sẽ được xem như là một
đồ thị trong đó đỉnh sẽ là các trang và nhánh sẽ là các liên kết (hyperlink)
Một trong những thành công của cơ sở dữ liệu quan hệ là nó cho phép
người dùng đưa ra điều kiện lọc để tìm ra dữ liệu cần dùng, những dữ liệu phải
thoả các điều kiện đó, mà không cần phải chỉ rõ dữ liệu nào cần dùng. Với 1 số
lượng lớn các mẫu dữ liệu từ web, cần một cơ chế giúp ta xác định trọng tâm cần
9
phân tích. Đầu tiên cơ sở dữ liệu sẽ chịu trách nhiệm hạn chế một phần những dữ
liệu được khai mõ sau đó dùng các ngôn ngữ truy vấn giúp lọc ra những kiến thức
mà ta cần hơn là chỉ những dữ liệu đơn thuần. Ví dụ trong WEBMINER, nó sẽ lọc

ra những gì liên quan đến domain .edu có url bắt đầu bằng a, tiếp theo là b và c….
SELECT association-rules(A*B*C*)
FROM log.data
WHERE ….
2 Một kiến trúc tiêu biểu – webminer:
WEBMINER là một hệ thống đã thực hiện được một phần kiến trúc đã
nghiên cứu trên. Kiến trúc này gồm hai phần. Phần đầu bao gồm các quá trình
chuyển đổi dữ liệu web thành các dạng phù hợp. Bao gồm tiền xử lý, đồng nhất
giao tác, tích hợp dữ liệu. Phần thứ hai bao gồm các ứng dụng lớn độc lập với
nhau hỗ trợ việc phát hiện các mô hình từ dữ liệu và phân tích các mô hình đó
Nhật kí truy cập máy chủ là tập hợp đầy đủ các dữ liệu chứa đầy đủ lịch sử
truy cập một file bất kì của người dùng. Phần lớn nhật kí truy cập máy chủ đều
tuân theo tiêu chuẩn về cấu trúc như là một phần của giao thức HTTP được qui
định bởi CERN và NCSA. Một mục theo tiêu chuẩn sẽ chứa địa chỉ IP của người
dùng, mã người dùng, thời gian truy cập, phương thức truy cập, url truy cập, giao
thức truyền dữ liệu, mã lỗi, kích thước dữ liệu truyền.
10
Mục tiêu quan trọng nhất của khai mỏ dữ liệu web là tìm ra được mẫu đáng
chú ý trong toàn bộ dữ liệu truy cập máy chủ. Để đạt được mục tiêu trên dữ liệu
phải được chuyển hoá thành dạng thích hợp. Do đó quá trình khai mỏ dữ liệu sẽ
chia ra làm hai phần: phần đầu bao gồm các quá trình chuyển đổi dữ liệu web
thành các dạng phù hợp, bao gồm tiền xử lý, đồng nhất giao tác, tích hợp dữ liệu. ;
phần thứ hai bao gồm các ứng dụng lớn độc lập với nhau hỗ trợ việc phát hiện các
mô hình từ dữ liệu và phân tích các mô hình đó
Thông thường sẽ có rất nhiều tập tin được truy cập trong quá trình sử dụng
của người dùng. Chúng có thể là hình ảnh, âm thanh, video, tập tin thực thi, trang
html… Do đó nhật kí máy chủ sẽ chứa rất nhiều mục mà không cần dùng trong
quá trình khai mỏ dữ liệu. Ví dụ những dữ liệu chứa thông tin về tập tin hình ảnh
sẽ được loại bỏ trong quá trình khai mỏ dữ liệu. Bước này gọi là làm sạch dữ liệu.
Làm sạch dữ liệu là bước đầu tiên của quá trình khai mỏ quá trình sử dụng

web. Một số dữ liệu ở mức thấp được lưu trong thông tin nhật ký của server. Sau
khi làm sạch các dữ liệu các mục này sẽ được phân chia thành các nhóm logic.
Mục đích của việc này là giúp tạo ra các nhóm có ý nghĩa tương ứng với từng
người dùng cụ thể. Việc này có thể bao gồm cả việc chia ra hoặc kết nối lại những
dữ liệu cần.
11
Dữ liệu nhật ký truy cập máy chủ không chỉ là nguồn duy nhất cho quá
trình khai mỏ dữ liệu. Những thông tin khác như dữ liệu đăng kí người dùng cũng
đóng một vai trò rất quan trọng đặc biệt là đối với các hệ thống đòi hỏi tính bảo
mật cao. Các dữ liệu tập hợp được từ quá trình đăng kí người dùng sẽ được tích
hợp với nhật ký truy cập.
Khi quá trình chuyển đổi dữ liệu hoàn thành, các dữ liệu đầu vào phải được
chuyển hoá thành dạng thích hợp cho các nhiệm vụ khai mõ dữ liệu khác nhau. Ví
dụ dữ liệu cho việc phân tích đường dẫn phải khác với dữ liệu cho việc phân tích
mẫu tuần tự. Cuối cùng cái kĩ thuật truy vấn sẽ giúp cho người dùng có nhiều
quyền hạn hơn trong quá trình khai mỏ bằng cách cung cấp các biến thích hợp,
ràng buộc khác nhau trong quá trình tìm kiếm.
* Một ví dụ thử nghiệm webminer:
Trong ví dụ này một nhóm nghiên cứu đã tiến hành chạy webminer trên
trang web . Tập tin nhật ký gồm 520k mục tương ứng với số
lượng truy cập trong tháng 5 và kích thước của nó là 56mb
- Trong trường hợp phân tích luật kết hợp:
Sau khi áp dụng các thuật toán cũng như kĩ thuật mà webminer cung cấp họ
được báo cáo sau:
12
TH1: có 1,23% thao tác của người dùng chứa trang LC_T3E.html.
TH2: có 0.68% thao tác của người dùng chứa trang AC_T3E.html.
TH3: có 82.83% người dùng sau truy cập trang CRAY_T3E.html sau khi
truy cập T3E.
TH4: có 90% người dùng sau truy cập trang CRAY_T3E.html sau khi truy

cập T3E và trang J90.html.
=> từ TH3 và TH4 ta có thể thấy rằng có đến hơn 7% người dùng truy cập
thêm trang J90.html ngoài T3E thì sẽ truy cập trang CRAY_T3E.html. Từ đó ta có
thể thấy khi người dùng truy cập trang J90 thường có khuynh hướng phải quay lại
T3E. Do đó cần phải có giải pháp điều chỉnh lại đường dẫn sao cho hợp lý với nhu
cầu người dùng

- Trong trường hợp phân tích mẫu tuần tự:
Sau khi áp dụng các thuật toán cũng như kĩ thuật mà webminer cung cấp họ
được báo cáo sau:
13
TH1: 5.63% người truy cập sc.html sẽ truy cập tiếp theo trang
AC_T3E.html
TH2: 2.69% người dùng sẽ truy cập trang quotes.html sau khi đã đi qua
TH1
TH3: Mô tả trường hợp người dùng truy cập tuần tự theo qui trình: trước
hết người dùng truy cập trang chủ supercomputing.html, trang này sẽ chứa thông
tin về giải pháp kĩ thuật t90 của nhóm bayer. Trang này có chứa thông tin của nhà
cung cấp ứng dụng.
=> Việc phân tích mẫu tuần tự sẽ giúp chúng ta dự đoán được hành động của
người dùng và nhờ đó chúng ta có thể cung cấp các gợi ý để chúng ta có thể tái
cấu trúc lại hệ thống trang web
III. Kết luận :
Do việc khai mỏ web gồm nhiều hình thứ khác nhau. Do đó làm cho mọi
người hiểu nhầm khái niêm khai mỏ web. Bài tiểu luận này của e đã trình bày khái
niệm của khai mỏ web, phân loại và những nỗ lực để phát triển nó. Các khảo sát
và nghiên cứu đã được thực hiện trong lĩnh vực này đặc biệt là khai thác quá trình
14
sử dụng của người dùng. Bài tiểu luận cũng đưa ra một kiến trúc chung cho quá
trình khai thác sử dụng web và một ví dụ cụ thể.

Như chúng ta biết ngày nay thì kĩ thuật khai mỏ web đã được áp dụng rất
nhiều và rộng rãi trong cuộc sống hiện nay. Tuy nhiên bên trong nó vẫn còn rất
nhiều vấn đề và vướng mắc đòi hỏi phải phát triển mạnh hơn. Dưới đây là một số
hướng nghiên cứu trong tương lai.
1 Đối với dữ liệu trong giai đoạn tiền xử lý:
Dữ liệu truy cập web được thu nhập từ nhiều nguồn khác nhau, mỗi kĩ thuật
sẽ thu nhập các thuộc tính liên quan đến mục đích thu nhập của nó. Do đó đòi hỏi
phải có một nhu cầu giúp cho quá trình khai mỏ kiến thức được dễ dàng hơn. Cụ
thể những khó khăn ở giai đoạn này thường liên quan đến các công cụ thu nhập dữ
liệu, tích hợp dữ liệu và nhóm các dữ liệu.
Việc gia tăng chất lượng dữ liệu sẽ giúp cải thiện rất nhiều đến quá trình
phân tích dữ liệu. Một trong những vấn đề là sự xung đột của các nhà phân tích
(những người muốn thu nhập càng nhiều dữ liệu càng tốt) và sự riêng tư của người
dùng (những người không muốn dữ liệu bị thu thập quá nhiều). Tiêu chuẩn OPS
trong việc thu nhập dữ liệu giúp giải quyết vấn đề dữ liệu nào có thể được thu
nhập. Tuy nhiên không rõ có bao nhiêu nhà phân tích sẽ tuân thủ điều này. Do đó
có nhu cầu cần liên tục phát triển các công cụ thu nhập dữ liệu tốt hơn.
Dữ liệu quá trình sử dụng web tồn tại trong nhiều nguồn đa dạng như nhật
kí máy chủ, tập tin đăng kí người dùng, Sự tích hợp cũng như mối tương quan
giữa các dữ liệu này có thể tiết lộ thông tin về quá trình sử dụng điều mà sẽ không
hiện rõ nếu chúng ta xem xét từng phần riêng biệt. Kĩ thuật tích hợp dữ liệu lại nên
được xem xét để phát triển tốt hơn.
15
2 Đối với quá trình khai mỏ dữ liệu:
Khai thác mỏ dữ liệu web đã tiếp thu nhiều lĩnh vực từ việc khai thác dữ
liệu, cơ sỡ dữ liệu, truy xuất thông tin, cũng như các kĩ thuật của riêng nó như
phân tích đường dẫn. Còn rất nhiều kĩ thuật vẫn được thực hiện đễ gia tăng hiệu
quả khai mõ dữ liệu web.
Chất lượng của một thuật toán khai mỏ được đo lường dựa trên hai nguyên
tắc là sự hiệu quả trong việc khai mỏ kiến thức và hiệu quả của nó trong việc tính

toán. Luôn có nhu cầu phải cải thiện hiệu suất của thuật toán trong cả hai mặt.
Tập hợp các dữ liệu truy cập trên web sẽ ngày càng gia tăng. Do đó cần
phải phát triển những thuật toán có tính kế thừa dựa vào những dữ liệu cũ đã được
khai mõ trước đây. Ngoài ra dữ liệu truy cập còn được tập hợp từ nhiều nguồn
khác nhau. Nếu tất cả dữ liệu được được tích hợp lại trước khi khai mỏ thì sẽ đạt
được hiệu quả cao hơn.
3 Đối với quá trình phân tích dữ liệu:
Đầu ra của thuật toán khai mỏ dữ liệu thường ở dạng mà người dùng không
thể trực tiếp sử dụng được. Do đó đòi hỏi phải phát triển các kĩ thuật và thuật toán
để phân tích. Các vấn đề trong lĩnh vực này bao gồm nâng cao quá trình phân tích
cũng như giải thích những dữ liệu đã khai mỏ được. Có nhu cầu phát triển một
công cụ gồm nhiều yếu tố như thống kê, mô hình và đặc biệt là các yếu tố con
người giúp chúng ta hiểu rõ hơn về kiến thức mà chúng ta đã khai mỏ rồi
16
Tài liệu tham khảo :
- Web Mining: Information and Pattern Discovery on the World Wide
Web
/>- Web Mining Pattern Discovery from World Wide Web
Transactions
/>- Slides bài giảng môn ‘‘Công nghệ tri thức và ứng dụng’’ Tác giả :
GS.TSKH. Hoàng Kiếm
17

×