Tải bản đầy đủ (.pdf) (35 trang)

Hệ thống bóc tách giá cả sản phẩm tự động

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.38 MB, 35 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

CHU PHƯƠNG CHI

HỆ THỐNG BÓC TÁCH
GIÁ CẢ SẢN PHẨM TỰ ĐỘNG
Ngành: Công nghệ thông tin
Chuyên ngành: Công nghệ phần mềm
Mã số: 60 48 10

LUẬN VĂN THẠC SĨ
GV HƯỚNG DẪN KHOA HỌC: PGS.TS. Nguyễn Văn Vỵ


Hà Nội - 2009

MỤC LỤC
MỞ ĐẦU .................................................................................................................................... 5
CHƢƠNG I: GIỚI THIỆU CHUNG .......................................................................................... 7
1.1 Tổng quan về phát hiện tri thức và khai phá dữ
liệu………………………………………. 7
1.1.1 Quá trình phát hiện tri thức
7
1.1.2 Khai phá dữ liệu 9
1.2 Phân loại nguồn dữ liệu Web……………………………………………………………..
20
1.2.1 Các trang Web có cấu trúc đƣợc cập nhật thƣờng xuyên 20
1.2.2 Các trang Web có cấu trúc cập nhật không thƣờng xuyên
21
1.2.3 Các trang Web có cấu trúc lỏng lẻo


22
1.3 Phân loại khai phá dữ liệu
Web…………………………………………………………… 22
1.3.1 Khai phá nội dung Web 23
1.3.2 Khai thác cấu trúc Web 23
1.3.3 Khai phá việc sử dụng Web
24
1.4 Các bƣớc tiến hành khai phá nội dung
Web……………………………………………… 24
1.4.1 Thu thập thông tin 25
1.4.2 Bóc tách thông tin 25
1.4.3 Tổng hợp và tổng quát hoá dữ liệu
26
1.4.4. Phân tích 27
CHƢƠNG II: CƠ SỞ LÝ THUYẾT ........................................................................................ 28
2.1 Các kiến thức nền tảng……………………………………………………………………
28
2.1.1 Các vấn đề liên quan đến phân tích HTML
28
2.1.2 Nguyên lí thu thập dữ liệu (Crawler)
31
2.1.3 Bài toán bóc tách thông tin
32
2.2 Giải thuật bóc tách bản ghi dữ liệu có cấu trúc 33
2.2.1 Các nghiên cứu liên quan 33
2.2.2 Ý tƣởng giải thuật “Khoảng cách cây soạn thảo” Error! Bookmark not defined.
CHƢƠNG III: XÂY DỰNG HỆ THỐNG CHẮT LỌC THÔNG TIN SẢN PHẨM TRÊN
WEB ......................................................................................... Error! Bookmark not defined.
3.1 Mô tả bài toán…………………………………………………………………………….
Error! Bookmark not defined.

3.2 Thiết kế kiến trúc hệ
thống………………………………………………………………..
Error! Bookmark
not defined.
3.3 Thiết kế cơ sở dữ liệu……………………………………………………………………..
Error! Bookmark not defined.
3.3.1 Hệ thống các bảng Error! Bookmark not defined.
3.3.2. Biểu đồ liên kết các bảng CSDL Error! Bookmark not defined.
3.4 Cài đặt hệ
thống…………………………………………………………………………... Error!
Bookmark not defined.
3.4.1 Xây dựng gói phân tích Web
Error! Bookmark not defined.


3.4.2 Xây dựng mô đun thu thập (Crawler)
Error! Bookmark not defined.
3.4.3 Xây dựng mô đun bóc tách
Error! Bookmark not defined.
3.4.4 Tích hợp mô đun crawler và bóc tách
Error! Bookmark not defined.
3.4.5 Xây dựng mô đun quản lí trên Desktop Error! Bookmark not defined.
3.4.6 Xây dựng mô đun Web hiển thị Error! Bookmark not defined.
3.5 Kết quả thử nghiệm……………………………………………………………………….
Error! Bookmark not defined.
KẾT LUẬN .............................................................................. Error! Bookmark not defined.
TÀI LIỆU THAM KHẢO ........................................................................................................ 34


4



5

MỞ ĐẦU
1. Tính cấp thiết của đề tài luận văn:
Trong những năm gần đây, Internet phát triển kéo theo sự bùng nổ về thông tin. Thế giới
Web WWW trở thành một nguồn dữ liệu khổng lồ đƣợc nhiều ngƣời sử dụng, và chiếm một tỉ
trọng đáng kể trong các nguồn dữ liệu có sẵn. Tuy nhiên, việc khai thác nó mới ở mức đơn giản
và rất hạn chế, nhƣ ngƣời ta đã nói “Chúng ta đang chìm ngập trong dữ liệu nhƣng lại thiếu các
thông tin cần thiết”. Đó là thực trạng của việc tìm kiếm các thông tin trên web hiện nay. Từ đó
hình thành một lĩnh vực mới – khai phá web (Web Mining). Nhiệm vụ đặt ra cho khai phá Web
là khai thác các thông tin tiềm ẩn từ nguồn dữ liệu Web khổng lồ. Một trong nhiều bài toán điển
hình của loại này là các ứng dụng Web Mining trong các sản phẩm thƣơng mại điện tử. Xuất
phát từ những phân tích trên, luận văn đã tập trung vào nghiên cứu, triển khai “Hệ thống bóc
tách giá cả sản phẩm tự động” trên nền web.
2. Mục tiêu nghiên cứu:
Luận văn tập trung nghiên cứu cách bóc tách thông tin tự động, không phụ thuộc vào cấu
trúc của trang Web từ nguồn dữ liệu Internet, từ đó ứng dụng vào bài toán cụ thể là bóc tách giá
cả sản phẩm trên các site bán hàng.
3. Đối tượng, phạm vi

− Đối tƣợng nghiên cứu: Thông tin, cách lấy thông tin tự động từ Web.
− Phạm vi nghiên cứu: Nguồn dữ liệu trên các site bán hàng, thông tin về mỗi sản
phẩm.
4. Nhiệm vụ nghiên cứu

Nhiệm vụ chính của luận văn:
− Nghiên cứu cấu trúc biểu diễn dữ liệu web
− Nhận dạng, lấy ra vùng dữ liệu cần dùng

− Tiến hành bóc tách dữ liệu tự động
− Tổ chức CSDL để khai thác
− Xây dựng site giao tiếp với ngƣời dùng.
5. Phương pháp nghiên cứu

− Phƣơng pháp nghiên cứu tài liệu, phân tích, tổng hợp để đƣa ra thuật toán bóc tách
thông tin tự động dựa trên lý thuyết về khoảng cách soạn thảo cây.


6

− Phƣơng pháp thu thập, thống kê để xác định chính xác kết quả mà chƣơng trình đạt
đƣợc.
6. Kết cấu luận văn

Nội dung chính của luận văn gồm 3 chƣơng:
Chương 1: Tổng quan về khai phá dữ liệu nói chung và khai thác webói
riêng
Chương 2: Cơ sở lý thuyết
Chương 3: Xây dựng hệ thống chắt lọc thông tin sản phẩm trên web
Cuối cùng là kết luận và hƣớng phát triển tiếp theo của đề tài.


7

CHƯƠNG I: GIỚI THIỆU CHUNG
1.1 Tổng quan về phát hiện tri thức và khai phá dữ liệu

1.1.1 Quá trình phát hiện tri thức
1.1.1.1 Phát hiện tri thức


Thông thƣờng, dữ liệu đƣợc coi nhƣ một dãy các bit, hoặc các số và các ký hiệu,
hoặc các “đối tƣợng” với một ý nghĩa nào đó khi đƣợc gửi đến một chƣơng trình dƣới
một dạng nhất định. Ta sử dụng các bit để đo lƣợng thông tin và xem nó nhƣ là các dữ
liệu đã đƣợc lọc bỏ các dƣ thừa, đƣợc rút gọn tới mức tối thiểu để đặc trƣng một cách cơ
bản cho dữ liệu. Chúng ta có thể xem tri thức nhƣ là các thông tin tích hợp, bao gồm các
sự kiện và các mối quan hệ giữa chúng. Các mối quan hệ này có thể đƣợc hiểu ra, đƣợc
phát hiện, hoặc có thể đƣợc học. Nói cách khác, tri thức có thể được coi là dữ liệu có độ
trừu tượng và tổ chức cao.
Sử dụng thông tin hiệu quả là yếu tố thành công và mang tính sống còn trong mọi
lĩnh vực nghiệp vụ hiện nay. Điều đó có nghĩa là, từ dữ liệu có sẵn phải lấy đƣợc những
thông tin tiềm ẩn có giá trị mà trƣớc đó chƣa đƣợc phát hiện, tìm ra những xu hƣớng phát
triển và những yếu tố tác động lên chúng. Thực hiện công việc này chính là quá trình
phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in DataBase – KDD) mà
trong đó kỹ thuật cho phép lấy ra các tri thức gọi là kỹ thuật khai phá dữ liệu (Data
mining).
Tri thức có thể hiểu là một biểu diễn trong một ngôn ngữ nào đó diễn đạt một hoặc
một vài mối quan hệ giữa các thuộc tính trong dữ liệu. Các ngôn ngữ thƣờng đƣợc dùng
để biểu diễn tri thức là các khung (frames), các đồ thị, các luật (rules), các công thức
chính trong ngôn ngữ logic mệnh đề hoặc tân từ cấp một hay các hệ thống phƣơng trình.
Quá trình phát hiện tri thức mang tính hƣớng nhiệm vụ, tức là không hƣớng đến sự
phát hiện mọi tri thức bất kì mà nhằm giải quyết tốt một nhiệm vụ cụ thể nhất định. Vì
vậy, quá trình phát hiện tri thức là quá trình hoạt động tƣơng tác giữa ngƣời sử dụng hoặc
chuyên gia phân tích với các công cụ tin học. [2]
1.1.1.2 Các giai đoạn của quá trình phát hiện tri thức

Mục đích của quá trình phát hiện tri thức là rút ra tri thức từ dữ liệu trong cơ sở dữ
liệu (CSDL) lớn. Quá trình KDD gồm nhiều giai đoạn và đƣợc lặp lại, mà trong đó sự lặp



8

lại có thể xảy ra ở bất cứ thời điểm nào cần thiết. Quá trình đó có thể mô tả nhƣ trong
hình 1.1

Hình 1.1: Quy trình phát hiện tri thức
Bước thứ nhất là tìm hiểu lĩnh vực ứng dụng và hình thành bài toán. Bƣớc này sẽ
quyết định cho việc trích rút các tri thức hữu ích và cho phép chọn các phƣơng pháp khai
phá dữ liệu thích hợp với mục đích ứng dụng và với bản chất của dữ liệu.
Bước thứ hai là thu thập và xử lý thô, hay còn đƣợc gọi là tiền xử lý dữ liệu nhằm
loại bỏ nhiễu, giải quyết tình huống thiếu dữ liệu, biến đổi và rút gọn dữ liệu nếu cần
thiết. Bƣớc này thƣờng chiếm nhiều thời gian nhất trong toàn bộ quá trình phát hiện tri
thức.
Bước thứ ba là khai phá dữ liệu, hay nói cách khác là trích ra các mẫu hoặc/và các
mô hình tiềm ẩn dƣới các dữ liệu.
Bước thứ tư là nắm hiểu tri thức đã tìm đƣợc và đặc biệt là làm sáng rõ các tri thức
bằng các mô tả và hay suy luận.
Bước thứ năm là củng cố, tinh chế các tri thức đƣợc phát hiện. Kết hợp các tri thức
thành hệ thống. Giải quyết các xung đột tiềm tàng trong tri thức khai thác đƣợc. Sau đó
tri thức đƣợc chuẩn bị sẵn sang cho ứng dụng.
Các bƣớc trên có thể lặp đi lặp lại một số lần, kết quả thu đƣợc có thể đƣợc lấy
trung bình trên tất cả các lần thực hiện.


9

1.1.2 Khai phá dữ liệu
1.1.2.1 Định nghĩa

Khai phá dữ liệu đƣợc định nghĩa là quá trình trích xuất các thông tin có giá trị tiềm

ẩn bên trong các nguồn dữ liệu lớn.
Hiện nay, ngoài thuật ngữ khai phá dữ liệu, ngƣời ta còn dùng một số thuật ngữ
khác có ý nghĩa tƣơng tự nhƣ khai phá tri thức từ cơ sở dữ liệu (knowlegde mining from
databases), trích lọc dữ liệu (knowlegde extraction), phân tích dữ liệu/mẫu (data/pattern
analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (data dredging).
1.1.2.2 Các hoạt động khai phá dữ liệu

Một quá trình khai phá dữ liệu (KPDL) bao gồm năm giai đoạn chính sau:
(1) Tìm hiểu nghiệp vụ và dữ liệu
(2) Chuẩn bị dữ liệu
(3) Mô hình hóa dữ liệu
(4) Hậu xử lý và đánh giá mô hình
(5) Triển khai tri thức
Quá trình này có thể đƣợc lặp lại nhiều lần hay nhiều giai đoạn dựa trên phản hồi từ
kết quả của các giai đoạn sau. Tham gia chính trong quá trình KPDL là các nhà tƣ vấn
(NTV) và phát triển chuyên nghiệp trong lĩnh vực KPDL. [1]
Trong giai đoạn đầu tiên, Tìm hiểu nghiệp vụ và dữ liệu, NTV nghiên cứu kiến thức
về lĩnh vực sẽ áp dụng, bao gồm các tri thức cấu trúc về hệ thống và tri thức, các nguồn
dữ liệu hiện hữu, ý nghĩa, vai trò và tầm quan trọng của các thực thể dữ liệu. Việc nghiên
cứu này đƣợc thực hiện thông qua việc giao tiếp giữa NTV và ngƣời dùng. Khác với
phƣơng pháp giải quyết vấn đề truyền thống mà ở đó bài toán đƣợc xác định chính xác
ngay ở bƣớc đầu tiên, ở đây NTV cần tìm hiểu các yêu cầu đầu tiên của ngƣời dùng và đề
nghị các bài toán tiềm năng có thể phải giải quyết với nguồn dữ liệu đã cho. Tập các bài
toán tiềm năng đƣợc tinh chỉnh và làm hẹp lại trong các giai đoạn sau. Các nguồn và đặc
tả dữ liệu có liên quan đến tập các bài toán tiềm năng cũng đƣợc xác định chính xác dần.
Giai đoạn Chuẩn bị dữ liệu sử dụng các kỹ thuật tiền xử lý để biến đổi và cải thiện
chất lƣợng dữ liệu làm thích hợp với những yêu cầu của các giải thuật học. Phần lớn các
giải thuật KPDL hiện nay chỉ làm việc trên một tập dữ liệu đơn và phẳng, do đó dữ liệu
phải đƣợc trích xuất và biến đối từ các dạng có sẵn trong CSDL phân tán (loại quan hệ



10

hay hƣớng đối tƣợng) sang dạng CSDL quan hệ đơn giản với một bảng dữ liệu. Các giải
thuật tiền xử lý tiêu biểu bao gồm:
(a) Xử lý dữ liệu bị thiếu/mất: các dữ liệu bị thiếu sẽ đƣợc thay thế bởi các giá trị thích
hợp.
(b) Khử sự trùng lặp: các đối tƣợng dữ liệu trùng lặp sẽ bị loại bỏ đi. Kỹ thuật này
không sử dụng cho các tác vụ liên quan đến phân bố dữ liệu.
(c) Giảm nhiễu: nhiễu và các đối tƣợng nằm ngoài khỏi phân bố chung sẽ bị loại đi
khỏi dữ liệu.
(d) Chuẩn hóa: miền giá trị của dữ liệu sẽ đƣợc chuẩn hóa.
(e) Rời rạc hóa: các dữ liệu số sẽ đƣợc biến đổi ra các giá trị rời rạc.
(f) Trích rút và xây dựng đặc trưng mới từ các thuộc tính đã có.
(g) Giảm chiều: dữ liệu của các thuộc tính chứa ít thông tin sẽ đƣợc loại bỏ.
Các bài toán cần giải quyết đƣợc hình thành trong giai đoạn Mô hình hóa dữ liệu.
Các giải thuật đƣợc áp dụng trong giai đoạn hai sẽ sử dụng dữ liệu đã tiền xử lý để tìm
kiếm các qui tắc tiềm ẩn và chƣa biết. Công việc quan trọng nhất trong giai đoạn này là
lựa chọn kỹ thuật phù hợp để giải quyết các vấn đề đặt ra. Để làm điều này, các bài toán
đƣợc phân loại vào một trong những nhóm bài toán chính trong KPDL dựa trên đặc tả
của chúng.
Các mô hình kết quả của giai đoạn ba sẽ đƣợc hậu xử lý và đánh giá trong giai đoạn
4. Dựa trên các đánh giá của ngƣời dùng sau khi kiểm tra trên các tập thử, các mô hình sẽ
đƣợc tinh chỉnh và kết hợp lại nếu cần. Chỉ các mô hình đạt đƣợc mức yêu cầu cơ bản
của ngƣời dùng mới đƣa ra triển khai trong thực tế. Trong giai đoạn này, các kết quả
đƣợc biến đổi từ dạng học thuật sang dạng phù hợp với nghiệp vụ và dễ hiểu hơn cho
ngƣời dùng.
Trong giai đoạn cuối, Triển khai tri thức, các mô hình đƣợc đƣa vào những hệ thống
thông tin thực tế dƣới dạng các môđun hỗ trợ việc đƣa ra quyết định.
Mối quan hệ chặt chẽ giữa các giai đoạn trong quá trình KPDL là rất quan trọng cho

việc nghiên cứu KPDL. Một giải thuật trong KPDL không thể đƣợc phát triển độc lập,
không quan tâm đến bối cảnh áp dụng mà thƣờng đƣợc xây dựng để giải quyết một mục
tiêu cụ thể. Do đó, sự hiểu biết bối cảnh vận dụng là rất cần thiết. Thêm vào đó, các kỹ
thuật đƣợc sử dụng trong các giai đoạn trƣớc có thể ảnh hƣởng đến hiệu quả của các giải
thuật sử dụng trong các giai đoạn tiếp theo.


11

1.1.2.3 Các bài toán thông dụng trong Khai phá dữ liệu

Trong KPDL, các bài toán có thể phân thành bốn loại chính.
Bài toán thông dụng nhất là bài toán Phân lớp. Với một tập các dữ liệu huấn luyện
cho trƣớc và sự huấn luyện của con ngƣời, các giải thuật phân loại sẽ lọc ra bộ phân loại
(classifier) dùng để phân các dữ liệu mới vào một trong những lớp đã đƣợc xác định
trƣớc. Nhận dạng cũng là một bài toán thuộc kiểu Phân loại.
Với mô hình học tƣơng tự nhƣ bài toán Phân loại, lớp bài toán Dự đoán sẽ lọc ra
các bộ dự đoán. Khi có dữ liệu mới đến, bộ dự đoán sẽ dựa trên thông tin đang có để đƣa
ra một giá trị số học cho hàm cần dự đoán. Bài toán tiêu biểu trong nhóm này là dự đoán
giá sản phẩm để lập kế hoạch trong kinh doanh.
Các giải thuật Tìm luật liên kết (Association Rule) nhằm tìm kiếm các mối liên kết
giữa các phần tử dữ liệu, ví dụ nhƣ nhóm các món hàng thƣờng đƣợc mua kèm với nhau
trong siêu thị.
Các kỹ thuật Phân cụm (Clustering) sẽ nhóm các đối tƣợng dữ liệu có tính chất
giống nhau vào cùng một nhóm. Có nhiều cách tiếp cận với những mục tiêu khác nhau
trong phân loại. Các kỹ thuật trong bài toán này thƣờng đƣợc vận dụng trong vấn đề phân
hoạch dữ liệu tiếp thị hay khảo sát sơ bộ các dữ liệu.
1.1.2.4 Kiến trúc của hệ thống khai phá dữ liệu

Khai phá dữ liệu là một bƣớc lớn trong quá trình phát hiện tri thức từ số lƣợng lớn

dữ liệu đƣợc lƣu trữ trong CSDL, kho dữ liệu hoặc các nơi lƣu trữ khác. Kết quả của
bƣớc này là những mẫu đáng quan tâm đƣợc đƣa đến cho ngƣời dùng hoặc lƣu giữ nhƣ là
tri thức mới trong cơ sở tri thức.
Kiến trúc của hệ thống khai phá dữ liệu có thể có các thành phần chính sau:
− CSDL, kho dữ liệu hoặc kho lưu trữ khác: đó là một hoặc một tập các CSDL, kho
dữ liệu. Các kỹ thuật làm sạch và tích hợp dữ liệu có thể thực hiện trên dữ liệu.
− Cơ sở tri thức: đó là lĩnh vực tri thức đƣợc dùng để hƣớng dẫn việc tìm hoặc đánh
giá các mẫu kết quả tìm đƣợc.
− Các hệ thống khám phá tri thức: bao gồm tập các chức năng để thực hiện các nhiệm
vụ nhƣ là mô tả đặc điểm, kết hợp, phân lớp, phân nhóm dữ liệu.
− Đánh giá mẫu: thành phần này sử dụng các độ đo và tƣơng tác với các mô đun khai
phá dữ liệu để tập trung vào tìm các mẫu cần quan tâm.


12

− Giao diện đồ họa: xây dựng các mô đun chƣơng trình cho phép giao tiếp giữa ngƣời
dùng và khai phá dữ liệu

1.1.2.5 Các thành phần của giải thuật khai phá dữ liệu
Giải thuật khai phá dữ liệu gồm 3 thành phần chính sau: biểu diễn mô hình, đánh
giá mô hình, tìm kiếm mô hình.
a. Biểu diễn mô hình

Mô hình đƣợc biểu diễn bằng một ngôn ngữ nào đó để mô tả các mẫu có thể khai
thác đƣợc. Nếu sự mô tả bị hạn chế thì sẽ không thể học đƣợc hoặc không thể có đƣợc
các mẫu để tạo ra mô hình chính xác cho dữ liệu. Khả năng mô tả của mô hình càng lớn
thì càng làm tăng mức độ nguy hiểm và làm giảm đi khả năng dự đoán các dữ liệu chƣa
biết. Hơn nữa, việc tìm kiếm sẽ càng trở nên phức tạp hơn và việc giải thích mô hình
càng khó khăn hơn.

b. Đánh giá mô hình

Đánh giá là xem xét xem một mẫu có thể đáp ứng đƣợc các tiêu chuẩn của quá trình
phát hiện tri thức hay không. Việc đánh giá độ chính xác dự đoán dựa trên việc thẩm định
chéo. Đánh giá chất lƣợng liên quan đến độ chính xác của dự đoán, độ mới, khả năng sử
dụng, khả năng hiểu đƣợc mô hình. Cả hai chuẩn thống kê và chuẩn logic đều có thể sử
dụng để đánh giá mô hình.
c. Tìm kiếm mô hình

Phƣơng pháp tìm kiếm bao gồm 2 thành phần: Tìm kiếm tham số và Tìm kiếm mô
hình
Tìm kiếm tham số: Giải thuật cần tìm kiếm các tham số dùng để tối ƣu hóa các tiêu
chuẩn đánh giá mô hình với các dữ liệu quan sát đƣợc và với một mô tả mô hình đã xác
định.
Tìm kiếm mô hình: xảy ra giống nhƣ một vòng lặp qua phƣơng pháp tìm kiếm tham
số: mô tả mô hình bị thay đổi tạo nên một họ các mô hình. Với mỗi mô tả mô hình,
phƣơng pháp tìm kiếm tham số đƣợc áp dụng để đánh giá chất lƣợng mô hình. Các
phƣơng pháp tìm kiếm mô hình sử dụng kỹ thuật tìm kiếm Heuristic vì kích thƣớc của
không gian các mô hình có thể không cho phép các tìm kiếm vét cạn.


13

1.1.2.6 Một số phương pháp khai phá dữ liệu phổ biến
a. Phương pháp suy diễn logic

Phương pháp suy diễn: nhằm rút ra thông tin là kết quả logic của các thông tin
trong CSDL. Phƣơng pháp suy diễn dựa trên các sự kiện chính để suy ra các tri thức mới
từ các thông tin cũ. Mẫu kết xuất thu đƣợc bằng cách sử dụng phƣơng pháp này thƣờng là
các luật suy diễn.

Phương pháp quy nạp: Phƣơng pháp quy nạp suy ra các thông tin đƣợc sinh ra từ
CSDL. Có nghĩa là, tự nó tìm kiếm, tạo mẫu và sinh ra tri thức chứ không phải bắt đầu
với các tri thức đã biết trƣớc. Các thông tin mà phƣơng pháp này đem lại là các thông tin
hay tri thức cấp cao diễn tả về các đối tƣợng trong CSDL. Phƣơng pháp này liên quan
đến các mẫu tìm đƣợc trong CSDL.
Trong khai phá dữ liệu, quy nạp đƣợc sử dụng trong cây quyết định và tạo luật
b. Cây quyết định và luật

Cây quyết định: Cây quyết định là một mô tả tri thức dạng đơn giản nhằm phân các
đối tƣợng dữ liệu thành một số lớp nhất định. Các nút của cây đƣợc gắn nhãn là tên các
thuộc tính, các cạnh đƣợc gắn các giá trị có thể của các thuộc tính, các lá mô tả các lớp
khác nhau. Các thuộc tính đƣợc phân theo lớp các đƣờng đi trên cây, qua các cạnh tƣơng
ứng với giá trị thuộc tính của đối tƣợng lá.
Ví dụ: Bảng ví dụ học cho khái niệm chơi tennis (PlayTennis)
Day

Outlook

Temperature

Humidity

Wind

PlayTenis

D1

Sunny


Hot

High

Weak

No

D2

Sunny

Hot

High

Strong

No

D3

Overcast

Hot

High

Weak


Yes

D4

Rain

Mild

High

Weak

Yes

D5

Rain

Cool

Normal

Weak

Yes

D6

Rain


Cool

Normal

Strong

No

D7

Overcast

Cool

Normal

Strong

Yes

D8

Sunny

Mild

High

Weak


No

D9

Sunny

Cool

Normal

Weak

Yes

D10

Rain

Mild

Normal

Weak

Yes

D11

Sunny


Mild

Normal

Strong

Yes


14

D12

Overcast

Mild

High

Strong

Yes

D13

Overcast

Hot

Normal


Weak

Yes

D14

Rain

Mild

High

Strong

No

Tạo luật: Các luật đƣợc tạo ra nhằm suy diễn một số mẫu dữ liệu có ý nghĩa về mặt
thống kê. Các luật có dạng Nếu P thì Q; với P là mệnh đề đúng với một phần dữ liệu
trong CSDL, Q là mệnh đề dự đoán.
Cây quyết định đƣợc dùng trong bài toán phân đoạn dữ liệu theo một tiêu chuẩn nào
đó dựa trên mức độ khác nhau của thuộc tính. Cây quyết định và luật có ƣu điểm là hình
thức mô tả đơn giản, suy diễn khá dễ hiểu với ngƣời sử dụng. Tuy nhiên, mô tả cây và
luật chỉ có thể biểu diễn đƣợc một số dạng chức năng và vì vậy bị giới hạn cả về quy mô
và độ chính xác của mô hình.

Dự báo

nắng


dâm

mƣa

đúng
Độ ẩm
cao
đúng

Gió
bình thƣờng

đúng

mạnh
đúng

yếu
đúng

Hình 1.2: Mô tả cây quyết định cho việc lựa chọn chơi tennis
c. Phát hiện các luật kết hợp

Các luật kết hợp là một dạng biểu diễn tri thức, hay chính xác hơn là dạng mẫu để
hình thành tri thức. Phƣơng pháp này nhằm phát hiện ra các luật kết hợp giữa các thành
phần dữ liệu trong CSDL. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp
tìm đƣợc.


15


Khi thiết kế dữ liệu dùng cho kỹ thuật luật kết hợp cần lƣu ý để giảm thiểu số lƣợng
các thuộc tính đầu vào bởi không gian tìm kiếm các luật sẽ tăng theo hàm mũ của số
lƣợng các thuộc tính đầu vào.
Giải thuật tìm các luật kết hợp đƣợc bắt đầu bằng việc tìm tất cả các tập thƣờng
xuyên xuất hiện. Tập thƣờng xuyên xuất hiện là các tập thỏa mãn tần số xuất hiện lớn
hơn ngƣỡng tần số đƣợc xác định trƣớc. Các luật kết hợp sẽ đƣợc tạo ra bằng cách ghép
dần các tập thuộc tính dựa trên mức độ thƣờng xuyên của chúng.
Nhƣợc điểm của phƣơng pháp này là sự gia tăng nhanh chóng khối lƣợng tính toán
và các thông số. Tuy nhiên, với sự phát triển nhanh chóng và mạnh mẽ của phần cứng thì
việc khắc phục các vấn đề này không có gì khó khăn.
d. Phân nhóm và phân đoạn

Kỹ thuật phân nhóm và phân đoạn là những kỹ thuật phân chia dữ liệu sao cho mỗi
phần hoặc mỗi nhóm giống nhau theo một số tiêu chí nào đó. Mối quan hệ thành viên của
các nhóm có thể dựa trên mức độ giống nhau của các thành viên trong nhóm. Một kỹ
thuật phân nhóm khác là xây dựng thành các hàm đánh giá các thuộc tính của các thành
phần nhƣ hàm của các tham số của các thành phần. Phƣơng pháp này đƣợc gọi là phƣơng
pháp phân hoạch tối ƣu.
Một trong các ứng dụng của kỹ thuật phân nhóm theo độ giống nhau là cơ sở dữ
liệu khách hàng để phân nhóm khách hàng theo các tham số và các nhóm thuế tối ƣu có
đƣợc khi thiết lập biểu thuế bảo hiểm.
Mẫu đầu ra của quá trình khai phá dữ liệu sử dụng kỹ thuật này là các tập mẫu chứa
các dữ liệu có chung những tính chất nào đó đƣợc phân tích từ CSDL. Khi các mẫu đƣợc
thiết lập, chúng có thể sử dụng để tái tạo các tệp dữ liệu ở dạng dễ hiểu hơn, đồng thời
cung cấp các nhóm dữ liệu cho các hoạt động cũng nhƣ công việc phân tích. Đối với
CSDL lớn việc lấy ra các nhóm này là rất quan trọng.
e. Các phương pháp dựa trên mẫu

Sử dụng các mẫu mô tả từ CSDL để tạo nên một mô hình dự đoán các mẫu mới

bằng cách rút ra các thuộc tính tƣơng tự nhƣ các mẫu đã biết trong mô hình. Các kỹ thuật
bao gồm phân lớp theo láng giêng gần nhất, các giải thuật hồi quy và các hệ thống suy
diễn dựa trên tình huống.


16

f. Mô hình phụ thuộc dựa trên đồ thị xác suất

Các mô hình đồ thị xác định sự phụ thuộc xác suất giữa các sự kiện thông qua các
quan hệ trực tiếp theo các cung đồ thị ở dạng đơn giản nhất, mô hình này xác định những
biến nào phụ thuộc trực tiếp vào nhau. Những mô hình này chủ yếu đƣợc sử dụng với các
biến có giá trị rời rạc hoặc phân loại.
g. Mô hình học quan hệ

Trong khi các mẫu kết xuất đƣợc bằng các luật suy diễn và cây quyết định gắn chặt
với các mệnh đề logic thì mô hình học quan hệ sử dụng ngôn ngữ mẫu theo thứ tự logic
trƣớc rất linh hoạt. Mô hình này có thể dễ dàng tìm ra công thức: X = Y.
Cho đến nay hầu hết các nghiên cứu về các phƣơng pháp đánh giá mô hình này đều
theo logic trong tự nhiên.
g. Khai phá dữ liệu văn bản

Phƣơng pháp này phù hợp với việc tìm kiếm, phân tích và phân lớp các dữ liệu văn
bản không định dạng. Các lĩnh vực ứng dụng nhƣ nghiên cứu thị trƣờng, thu thập tình
báo…Khai phá dữ liệu văn bản đã đƣợc sử dụng để phân tích câu trả lời cho các câu hỏi
mở rộng trong khảo sát thị trƣờng, tìm kiếm các tài liệu phức tạp…
i. Mạng Neuron

Mạng Neuron là một cách tiếp cận tính toán mới liên quan đến việc phát triển các
cấu trúc toán học với khả năng học. Các phƣơng pháp này là kết quả của việc nghiên cứu

mô hình học của hệ thống thần kinh con ngƣời. Mạng Neuron có thể đƣa ra ý nghĩa từ
các dữ liệu phức tạp hoặc không chính xác và có thể đƣợc sử dụng để kết xuất các mẫu
và phát hiện ra các xu hƣớng quá phức tạp mà con ngƣời cũng nhƣ các kỹ thuật máy tính
khác không thể phát hiện đƣợc.
Khi đề cập đến khai thác dữ liệu, ngƣời ta thƣờng đề cập đến mạng neuron. Tuy
mạng neuron có một số hạn chế có thể gây khó khăn trong việc áp dụng và triển khai
nhƣng nó cũng có những ƣu điểm đáng kể. Một trong số những ƣu điểm phải kể đến các
mạng neuron là khả năng tạo ra các mô hình dự đoán có độ chính xác cao, có thể áp dụng
đƣợc cho rất nhiều các loại bài toán khác nhau, đáp ứng đƣợc các nhiệm vụ đặt ra của
khai phá dữ liệu nhƣ phân lớp, phân nhóm, mô hình hóa, dự báo các sự kiện phụ thuộc
vào thời gian…


17

k. Giải thuật di truyền

Giải thuật di truyền, nói theo nghĩa rộng là mô phỏng lại hệ thống tiến hóa trong tự
nhiên. Chính xác hơn đó là các giải thuật chỉ ra tập các cá thể đƣợc hình thành, đƣợc ƣớc
lƣợng và biến đổi nhƣ thế nào. Ví dụ nhƣ xác định xem làm thế nào để lựa chọn các cá
thể giống và lựa chọn cá thể nào sẽ bị loại bỏ. Giải thuật cũng mô phỏng lại yếu tố gen
trong nhiễm sắc thể sinh học trên máy tính để có thể giải quyết nhiều bài toán thực tế
khác nhau.
Giải thuật di truyền là một giải thuật tối ƣu hóa. Nó đƣợc sử dụng rất rộng rãi trong
việc tối ƣu hóa các kỹ thuật khai phá dữ liệu, trong đó có kỹ thuật mạng neuron. Sự liên
hệ của nó với giải thuật khai phá dữ liệu là ở chỗ việc tối ƣu hóa cần thiết cho các quá
trình khai phá dữ liệu, ví dụ trong các kỹ thuật cây quyết định, tạo luật.
Qua phần trình bày ở trên cho thấy rằng: có rất nhiều phƣơng pháp khai phá dữ liệu.
Mỗi phƣơng pháp có những đặc điểm riêng phù hợp với một lớp các bài toán, với các
dạng dữ liệu và miền dữ liệu nhất định.

1.1.2.7 Nền tảng công nghệ khai phá dữ liệu

Công nghệ khai phá dữ liệu là kết quả của một quá trình dài nghiên cứu. Khai phá
dữ liệu đƣợc bắt đầu lần đầu tiên khi dữ liệu liên quan đến hoạt động kinh doanh đƣợc
lƣu trữ trên máy tính, và tiếp tục đƣợc cải thiện trong truy xuất dữ liệu. Trong thời gian
gần đây các công nghệ đƣợc tạo ra cho phép ngƣời dùng xử lí dữ liệu của họ theo thời
gian thực.
Khai phá dữ liệu liên quan tới rất nhiều ngành học khác nhƣ các hệ CSDL, thống
kê, trực quan hóa.... Hơn nữa, tuỳ vào cách tiếp cận đƣợc sử dụng, khai phá dữ liệu còn
có thể áp dụng một số kĩ thuật nhƣ mạng nơron, lí thuyết tập thô hoặc tập mờ, biểu diễn
tri thức….So sánh với các phƣơng pháp này, khai phá dữ liệu có một số ƣu thế rõ rệt. Với
phƣơng pháp học máy, khai phá dữ liệu có lợi thế hơn ở chỗ, khai phá dữ liệu có thể sử
dụng với các nguồn dữ liệu chứa nhiều nhiễu, dữ liệu không đầy đủ hoặc biến đổi liên
tục. Trong khi đó phƣơng pháp học máy chủ yếu đƣợc áp dụng trong các nguồn dữ liệu
đầy đủ, ít biến động và tập dữ liệu không quá lớn. So với khai phá dữ liệu, phƣơng pháp
hệ chuyên gia thƣờng ở mức chất lƣợng cao hơn nhiều so với các dữ liệu trong nguồn dữ
liệu, và chúng thƣờng chỉ bao hàm đƣợc các trƣờng hợp quan trọng. Hơn nữa các chuyên
gia sẽ xác nhận giá trị và tính hữu ích của các mẫu phát hiện đƣợc. Phƣơng pháp thống kê
là một trong những nền tảng lí thuyết của khai phá dữ liệu, nhƣng các phƣơng pháp thống
kê còn tồn tại một số điểm yếu mà khai phá dữ liệu đã khắc phục đƣợc: Các phƣơng pháp
thống kê chuẩn không phù hợp với các kiểu dữ liệu có cấu trúc đa dạng do từ nhiều


18

nguồn dữ liệu khác nhau. Các phƣơng pháp thống kê hoạt động hoàn toàn theo dữ liệu,
nó không sử dụng tri thức sẵn có về lĩnh vực. Kết quả phân tích của thống kê có thể sẽ rất
nhiều và khó làm rõ đƣợc. Phƣơng pháp thống kê cần có sự hƣớng dẫn của ngƣời dùng
để xác định phân tích dữ liệu nhƣ thế nào và ở đâu.
Ngày nay các nghiên cứu về khai phá dữ liệu đã đƣợc ứng dụng rộng rãi. Công cụ

khai phá dữ liệu đã sẵn sàng cho các ứng dụng kiểu thƣơng mại vì nó đƣợc hỗ trợ của ba
yếu tố công nghệ khác và trở nên hoàn thiện hơn.
− Công nghệ sàng lọc tập các dữ liệu thô.
− Công nghệ xử lí với các siêu máy tính có nhiều bộ xử lí mạnh và bộ nhớ lớn.
− Thuật toán khai phá dữ liệu.
Những thành phần cơ bản của công nghệ khai phá dữ liệu đã đƣợc phát triển trong
suốt một thập kỉ, trong nhiều lĩnh vực nhƣ thống kê, trí tuệ nhân tạo, máy học. Ngày nay
sự phát triển cao nhất của những công nghệ này là sự kết hợp giữa những engine CSDL
quan hệ hiệu suất cao với những nỗ lực tích hợp dữ liệu lớn, tạo ra những công nghệ
mang tính thực tế có ý nghĩa với những kho dữ liệu lớn hiện nay.
1.1.2.8 Phạm vi của khai phá dữ liệu

Khai phá dữ liệu bao gồm nhiều công nghệ mới cung cấp những giải pháp giúp cho
các công ty có thể định hƣớng vào những thông tin quan trọng nhất trong kho dữ liệu đồ
sộ của họ. Các công cụ khai phá dữ liệu dự báo các xu hƣớng và thói quen, dựa trên tập
dữ liệu nó đang xử lí, nhờ những thông tin này các công ty hoạt động trong lĩnh vực
thƣơng mại có thể đƣa ra những quyết định hợp lí. Một công cụ khai phá dữ liệu có thể
trả lời các câu hỏi mà cần nhiều thời gian để xử lí. Chúng thực hiện phân tích nhiều lần
nguồn dữ liệu nhằm phát hiện những qui luật ẩn chứa bên trong, tìm ra những thông tin
mang tính dự đoán mà các chuyên gia có thể bỏ sót khi thực hiện nó bằng tay.
Khai phá dữ liệu, bản thân nó xuất phát từ những điểm giống nhau giữa tìm kiếm
những thông tin kinh doanh có giá trị trong một CSDL lớn nhƣ việc khai phá một ngọn
núi để tìm ra những mỏ quặng quý. Một ví dụ cho việc tìm kiếm các thông tin kinh doanh
là tìm kiếm các sản phẩm có liên quan trong hàng gigabyte dữ liệu lƣu trữ. Cả hai công
việc này thì đều phải thực hiện thông qua một bƣớc sàng lọc trong kho tài liệu rộng lớn
và sau đó thực hiện một tìm kiếm thông minh để tìm ra những thông tin có giá trị.
Cho một CSDL với kích cỡ và chất lƣợng đủ đáp ứng, công nghệ khai phá dữ liệu
có thể tạo một cơ hội kinh doanh mới bằng cách cung cấp những khả năng:



19

 Tự động dự đoán những xu hướng và thói quen
Khai phá dữ liệu sẽ tự động thực hiện quá trình tìm kiếm những thông tin có thể dự
đoán trong CSDL lớn. Theo truyền thống, những câu hỏi mang tính kinh doanh thƣờng
đỏi hỏi mất nhiều thời gian xử lí bằng tay thì đến nay có thể trả lời trực tiếp một cách
nhanh chóng. Một ví dụ tiêu biểu là bài toán dự đoán quảng cáo có mục tiêu. Khai phá
dữ liệu sử dụng CSDL về địa chỉ mail trƣớc đây để xác định mục tiêu mà sẽ đem lại hiệu
quả cao nhất trong các quyết định đầu tƣ vào những địa chỉ mail trong tƣơng lai.
 Tự động khám phá những mẫu chưa biết trước đó
Công cụ khai phá dữ liệu thực hiện rà soát trong nguồn dữ liệu và xác định những
mẫu chƣa đƣợc phát hiện trong bƣớc tiếp theo. Một ví dụ về khám phá mẫu là phân tích
những dữ liệu bán lẻ để xác định những sản phẩm, mà dƣờng nhƣ không có vẻ liên quan
đến nhau, nhƣng thƣờng đƣợc mua cùng nhau. Một ví dụ khác là việc kiểm tra tính xác
thực trong các phiên giao dịch thanh toán và xác định những dữ liệu dị thƣờng mà có thể
là nguyên nhân do lỗi phím nhập dữ liệu.
Khi các công nghệ khai phá dữ liệu đƣợc đƣa vào áp dụng trong khai phá các nguồn
dữ liệu từ thế giới Web WWW, ngƣời ta gọi quá trình này là khai thác thông tin Web
(khai phá Web). Khai thác thông tin Web ra đời đƣợc định hƣớng để trích rút những mẫu
thông tin hữu ích, hoặc thông tin ẩn chứa từ trong những nội dung, hoạt động của thế giới
WWW.

???

D÷ liÖu cã
thÓ truy
vÊn ®-îc

Hình 1.3: Minh họa khái niệm khai thác thông tin Web



20

1.2 Phân loại nguồn dữ liệu Web
Có nhiều cách để phân loại các nguồn thông tin từ Web, tuy vậy ta có thể chia thành
3 loại chính nhƣ sau :
− Các trang Web thông tin có cấu trúc đƣợc cập nhật thƣờng xuyên
− Các trang Web thông tin có cấu trúc không đƣợc cập nhật thƣờng xuyên
− Các trang Web thông tin có cấu trúc lỏng lẻo
Trƣớc khi đi vào phân tích từng loại một, chúng ta nhận thấy rằng, các trang Web
hiện nay đƣợc xây dựng bằng rất nhiều nguồn dữ liệu khác nhau: text, hình ảnh, video,
biểu tƣợng .v.v… Có thể kể ra đây một vài đặc tính quan trọng của dữ liệu trên các trang
Web này :
− Dễ truy cập
− Không phân loại đƣợc (các dữ liệu từ HTML hầu hết là sự trình diễn thông tin chứ
không phải là ngữ nghĩa của thông tin)
− Phân tán
− Pha trộn (text, hình ảnh, video, biểu tƣợng...)
− Bán cấu trúc (có cấu trúc theo ngôn ngữ HTML nhƣng lại không có cấu trúc về mặt
ngữ nghĩa)
− Thay đổi theo thời gian
− Dƣ thừa (thông tin trùng lặp xuất hiện ở nhiều trang)
− Hỗn tạp (một trang Web phổ biến thƣờng trộn lẫn nhiều loại thông tin nhƣ phần nội
dung chính, quảng cáo, bảng điều hƣớng,.....)
− Có tính bề mặt (có thể duyệt qua tất cả các nội dung bằng một trình duyệt hoặc theo
cách của một trình duyệt tự động) và tính chiều sâu (dữ liệu chỉ có thể đƣợc truy
suất tới bằng giao tiếp thông qua truy vấn đƣợc tham số hóa)
− Liên kết (chứa các siêu liên kết đi từ site này sang site khác).
Từ những đặc tính này ta sẽ phân tích từng loại nguồn dữ liệu Web.


1.2.1 Các trang Web có cấu trúc được cập nhật thường xuyên
Hiện nay, có một phần không nhỏ các trang Web đƣợc cập nhật thƣờng xuyên nhƣ:
báo điện tử, diễn đàn, trang Web cung cấp thông tin giá tàu xe, đấu giá, chứng khoán,
thời tiết... Các trang Web này tuy đƣợc cập nhật thƣờng xuyên, nhƣng không thay đổi về


21

mặt cấu trúc. Chẳng hạn, một site bán hàng trực tuyến thì phần thông tin đƣợc cập nhật
thƣờng xuyên là các sản phẩm. Một sản phẩm khi đƣợc cập nhật giữ nguyên cấu trúc
thông tin của nó bao gồm:
− Tên sản phẩm
− Hình ảnh đại diện
− Giá bán
− Các đặc tính sản phẩm.
Tần số cập nhật thông tin của các trang Web này nói chung là ngắn, có thể liên tục
(thị trƣờng chứng khoán), một vài phút (diễn đàn) hay một ngày (báo điện tử). Tuy vậy,
các trang thông tin này luôn tuân theo một khuôn mẫu về ý nghĩa của các thông tin.
Các trang Web này ngày càng nâng cao chất lƣợng về hình thức, nhƣng không thay
đổi đƣợc tính ngữ nghĩa của mình (do sự hạn chế của ngôn ngữ HTML). Những câu hỏi
đƣợc ngƣời sử dụng đặt ra để lấy thông tin ví dụ nhƣ “Có bao nhiêu cửa hàng bán sản
phẩm A” hay nhƣ “Cửa hàng nào bán giá rẻ nhất”, có vẻ đơn giản nhƣng dƣờng nhƣ
lại khá khó thực hiện đƣợc. Khi sử dụng các phƣơng pháp thông thƣờng nhƣ search
engine của trang thông tin đó hay các search engine khác, nó mang lại cho ngƣời sử dụng
quá nhiều thông tin không cần thiết chứ không đem lại thông tin với ngữ nghĩa mong
muốn.

1.2.2 Các trang Web có cấu trúc cập nhật không thường

xuyên

Tần số cập nhật đƣợc nêu ra ở đây chỉ mang tính tƣơng đối, vì một trang Web đƣợc
cập nhật thƣờng xuyên (ví dụ nhƣ chỉ số chứng khoán) lại cũng có thể vì một lý do nào
đó không cập nhật thƣờng xuyên nữa (ví dụ đóng cửa thị trƣờng chứng khoán vào ngày
nghỉ). Tuy nhiên, có thể thấy rằng, nhiều trang Web có tần số cập nhật nhỏ. Ví dụ, trang
Web giới thiệu tên các quốc gia (đƣơng nhiên không phải ngày, tháng, năm nào cũng có
một quốc gia xuất hiện, đổi tên hay biến mất nên thông tin trong trang Web này dƣờng
nhƣ không thay đổi). Do các trang Web này cũng đƣợc tổ chức theo một cấu trúc nhất
định nên ta cũng có thể phân tích về mặt ngữ nghĩa cấu trúc.
Những câu hỏi đƣợc đặt ra đối với các trang Web có cấu trúc nói trên sẽ là những
câu truy vấn rất đơn giản trong các hệ quản trị CSDL khi có các thông tin Tên sản phẩm
(trong câu hỏi “Các sản phẩm nào có tên chứa chuỗi ABC ”), Tên cửa hàng, Giá bán
(trong câu hỏi “Cửa hàng nào bán giá thấp hơn 2.000.000 VND”). Thực tế, chúng ta có


22

các trang Web chứ không có CSDL và công việc của chúng ta là phải xây dựng đƣợc một
CSDL mà mỗi thông tin trong đó đã đƣợc phân loại theo ngữ nghĩa.

1.2.3 Các trang Web có cấu trúc lỏng lẻo
Các trang Web loại này cũng là một trong những loại trang Web xuất hiện rất nhiều
trên Internet, ví dụ nhƣ: trang Web giới thiệu cá nhân, tổ chức, cơ quan .v.v… thƣờng rất
khó phân tích cấu trúc của chúng một cách tổng quát do thông tin đƣợc trình bày không
theo một quy luật nhất định nào.
Những trang Web kiểu này ít đƣợc quan tâm trong khai phá web bởi các thông tin
của chúng là không dự đoán đƣợc, không thể tối ƣu khi phân tích, và điều quan trọng
nhất là các thông tin từ các trang Web kiểu này thƣờng ít đem lại ý nghĩa khi sử dụng vào
các ứng dụng thƣơng mại.

1.3 Phân loại khai phá dữ liệu Web

Thế giới WWW không chỉ đơn giản là cung cấp các thông tin mang tính nội dung
trực tiếp từ các văn bản mà ta còn có thể lấy đƣợc cấu trúc của các trang Web. Ngày nay,
khi thƣơng mại điện tử phát triển, rất nhiều các thông tin khác đƣợc khai thác thêm…Tất
cả những thông tin này đều đem lại cho các doanh nghiệp một ý nghĩa to lớn trong chính
sách giá cả, đầu tƣ hay quảng cáo.
Dữ liệu của khai phá web đƣợc phân rã thành các lĩnh vực nghiên cứu tƣơng ứng
nhƣ hình 1.4. [8]
Khai phá thông tin Web
(Web Mining)

Khai phá nội dung
Web
(Web Content Mining)

Khai phá nội dung trang
Web
(Web paper content
mining)

Khai phá cấu trúc Web
(Web Structure Mining)

Khai phá các kết quả
tìm kiếm
(Search result mining)

Khai phá những thông tin
sử dụng
(Web Usage Mining)


Theo dõi thông tin truy cập
nói chung
(General access pattern
tracking)

Thống kê những thói
quen sử dụng
(Customized usage
tracking)

Hình 1.4: Phân loại lĩnh vực nghiên cứu khai phá web


23

1.3.1 Khai phá nội dung Web
Lĩnh vực này tập trung vào các vấn đề khai phá, bóc tách, tích hợp những hiểu biết,
thông tin và các dữ liệu có ích từ nội dung trang Web. Quá trình khai thác nội dung Web
là quá trình tự động. Vấn đề đặt ra cho khai thác thông tin là máy không thể hiểu nội
dung, ý nghĩa của các văn bản. Vì vậy, hƣớng tiếp cận giải quyết vấn đề này là: cấu trúc
lại nội dung trang Web sang một dạng mà máy có thể phân tích và khai thác đƣợc.
Một số bài toán nổi bật đƣợc quan tâm nhiều trong lĩnh vực này là:
− Bóc tách thông tin có cấu trúc (Đây là bài toán sẽ đƣợc đề cập, giải quyết trong luận
văn này.)
− Phân loại định tính, phân tích và tóm tắt nội dung
Một site trực tuyến cho phép khách hàng có thể viết nhận xét các sản phẩm hoặc
cửa hàng. Để khai thác đƣợc các thông tin xung quanh những nhận xét này một
cách tự động, chúng ta cần phân loại định tính các nhận xét là tốt hay xấu, cần tóm
tắt đƣợc các nhận xét theo các tiêu chí, các cách tiếp cận khác nhau. Công việc này
có thể thực hiện tự động.

− Tích hợp thông tin
Có rất nhiều các Website về du lịch khác nhau. Chúng có đặc điểm chung là có một
bảng nhập các thông tin tìm kiếm. Nhờ đó ngƣời dùng có thể thực hiện các truy vấn
đến CSDL. Tuy nhiên với mỗi site dữ liệu trong bảng tìm kiếm lại khác nhau. Vấn
đề đặt ra là, phải tích hợp đƣợc các site này để đƣa ra một giao tiếp tìm kiếm dữ liệu
chuẩn.
− Lí thuyết tri thức: Phát hiện tri thức tiềm ẩn trong khối lƣợng dữ liệu khổng lồ có
trên web.
− Tự động nhận dạng mẫu: Về cơ bản đây là một quá trình mã hóa ngƣợc. Bình
thƣờng nội dung của trang Web đƣợc sắp xếp vào một trang mẫu để hiển thị đến
ngƣời dùng. Bây giờ chúng ta tìm cách để tự động nhận dạng đƣợc mẫu nguyên
gốc của trang. Đây cũng là một hƣớng tiếp cận rất gần với bài toán bóc tách chúng
ta đang giải quyết.

1.3.2 Khai thác cấu trúc Web
Khai phá cấu trúc Web nhằm khám phá ra những thông tin hữu ích dựa trên cấu trúc
của các siêu liên kết.


24

Thế giới Web cung cấp nhiều thông tin khác bên cạnh thông tin đƣợc chứa trong
văn bản. Chẳng hạn, một trang WEb đƣợc nhiều điểm liên kết đến chứng tỏ sự phổ biến
của tài liệu. Trong khi đó, những liên kết từ một trang Web ra ngoài lại thể hiện lƣợng
thông tin hoặc sự đa dạng của các chủ đề đƣợc đề cập đến trong nó. Dựa trên những đánh
giá này, các dịch vụ kèm theo đƣợc phát triển nhƣ đếm xếp hạng trang, thống kê các siêu
liên kết. Đó là các nghiên cứu chính của lĩnh vực khai thác cấu trúc Web.

1.3.3 Khai phá việc sử dụng Web
Đây là lĩnh vực nghiên cứu những thói quen truy cập của ngƣời sử dụng nhằm đƣa

lại những thông tin có ích cho các nhà cung cấp dịch vụ.
Web server ghi và tích tũy những dữ liệu về sự tƣơng tác của ngƣời dùng khi sử
dụng các tài nguyên trên web thành các khối dữ liệu gọi là log. Phân tích các log truy cập
Web của các Website khác nhau giúp chúng ta biết đƣợc thói quen của ngƣời dùng. Theo
đó cải tiến thiết kế, cách sắp xếp cũng nhƣ nội dung của các tài nguyên trên Web. Hiện
nay có hai xu hƣớng chính trong lĩnh vực này là theo dõi những truy cập chung hoặc một
số thống kê sử dụng cho những mục đích riêng biệt.

1.4 Các bước tiến hành khai phá nội dung Web
Đối tƣợng của khai phá nội dung Web là các đối tƣợng dữ liệu có cấu trúc đƣợc lƣu
trữ trên Web. Những thông tin này thƣờng là các bản ghi dữ liệu đƣợc lấy từ CSDL và
hiển thị lên trên trang Web có khuôn mẫu đã dựng sẵn.
Hiện tại, trên thế giới đã có rất nhiều nghiên cứu về khai phá Web, phƣơng pháp và
công nghệ để xử lý thông tin thu thập từ các nguồn thông tin trên Internet là một hoạt
động thông minh. Khai phá Web có thể đƣợc chia thành bốn tác vụ cho ở hình 1.5

D÷ liÖu
Web

T¸c vô
Thu thËp
th«ng tin

T¸c vô
Bãc t¸ch
th«ng tin

Tri thøc

T¸c vô

Tæng qu¸t
ho¸ th«ng
tin

T¸c vô
Ph©n tÝch
th«ng tin


25

Hình 1.5 : Quá trình khai thác nội dung Web
Chúng ta sẽ điểm qua từng tác vụ và những nghiên cứu đã đạt đƣợc đối với từng
tác vụ này.

1.4.1 Thu thập thông tin
Tác vụ thu thập thông tin (Information Retrieval) trên web giúp cho ngƣời sử dụng
có đƣợc trang Web từ URL hoặc từ yêu cầu mà họ cần. Đối với ngƣời sử dụng, việc thu
thập thông tin thƣờng đƣợc thực hiện qua các URL mà ngƣời sử dụng đã biết hoặc qua
các engine tìm kiếm. Các engine tìm kiếm là các chƣơng trình đƣợc viết để có thể truy
vấn và thu thập dữ liệu đƣợc lƣu trong CSDL (có cấu trúc), trang Web (bán cấu trúc) và
các văn bản tự do (không có cấu trúc) trên mạng. Hiện tại đã có khá nhiều các engine tìm
kiếm mạnh (trên thế giới) và tại Việt Nam nhƣ Google, Altavista, Lycos, Vinaseek,
PanVN, ... Các engine này ngày càng cố gắng để có thể tƣơng tác với ngƣời sử dụng
nhiều và thông minh hơn, tuy vậy chúng cũng có những yếu điểm.
Nhƣ chúng ta đã biết, một hệ thống thu thập thông tin lý tƣởng phải là một hệ thống
thu thập đƣợc những thông tin phù hợp nhất với yêu cầu của ngƣời sử dụng (yêu cầu này
đƣợc diễn giải bằng các câu truy vấn). Đây thật sự là một tác vụ vô cùng phức tạp và khó
khăn mà hầu hết các hệ thống thu thập thông tin đều chƣa thực hiện đƣợc triệt để, phần
nhiều có thể kể đến là do tính phi ngữ nghĩa của ngôn ngữ HTML. Hầu hết các hệ thống

thu thập thông tin hiện nay đều chú trọng tới tốc độ, số lƣợng thông tin mà các hệ thống
này có thể mang lại cho ngƣời dùng với các câu truy vấn tƣơng đối đơn giản.
Ngoài ra chúng ta cũng nhận thấy đã có những cố gắng rất nhiều trong việc cá nhân
hóa và khả mở đối với hệ thống thu thập thông tin. Tuy vậy, kết quả mang lại chƣa thật
sự tốt nhƣ ngƣời dùng mong đợi.

1.4.2 Bóc tách thông tin
Sau khi thu thập, thông tin đã đƣợc lấy về, việc tiếp theo là phải lấy ra đƣợc những
thông tin cần thiết và chỉ những thông tin cần thiết, một cách tự động, không cần tới thao
tác của ngƣời sử dụng. Hầu hết các thuật toán bóc tách thông tin hiện nay đều dựa vào
các công cụ khác nhau trên nền kỹ thuật “wrapper”. Wrapper có thể đƣợc hiểu là những
hàm để tách thông tin từ các tài nguyên Web. [5]


×