- 1 -
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
TIỂU LUẬN MÔN HỌC
DATA MINING
CHỦ ĐỀ :
Web mining Trong Search Engine
Giảng viên : Trần Đình Quế
Sinh viên : Nguyễn Huy Sơn
HÀ NỘI – 4/2011
I.Giới thiệu
Sự quan trọng của Search Engine
Hãy thử tưởng tượng một cuộc sống hoàn toàn không có niên giám điện thoại
hay một trợ giúp nào khác. Sử dụng điện thoại lúc đó sẽ trở nên rất khó khăn.
Điều này cũng tương tự như dùng Web mà không có công cụ tìm kiếm (search
engine). Với search engine, bạn chỉ cần biết một vài thông tin hay từ khoá là có
thể tìm được nơi cần đến.
Theo một nghiên cứu do công ty Zona Research (Mỹ) tiến hành năm 1999 thì
search engine hiện là phương thức tìm kiếm thông tin trên Web được sử dụng
nhiều nhất, nó chiếm tới 77% tổng thời gian tìm kiếm. Theo kết quả khảo sát
người tiêu dùng của một công ty khác vào năm 1999 thì 88% người dùng trực
tuyến có sử dụng một search engine và 72% có dùng một search engine để tìm
kiếm hàng hoá bán lẻ.
Đối với nhiều người dùng, search engine là yếu tố định hình nên bức tranh về
kho thông tin trên Web. Tuy nhiên, một nghiên cứu gần đây của NEC Research
Institute và Inktomy cho thấy có tới hơn một tỷ trang Web riêng biệt trên Internet
và hầu hết các search engine đã bỏ qua không lập chỉ mục cho 1/4 số trang này.
Mặt khác, khoảng 7-14% những nội dung đã được lập chỉ mục lại không còn tồn
tại trên Net.
Search Engine là gì ?
Search engine phần mềm cung cấp các địa chỉ Web có chứa một hay nhiều
thông tin, từ khoá mà người dùng cần tìm kiếm. Thuật ngữ search engine đôi lúc
được dùng không chính xác để chỉ các chỉ mục Web do các biên tập viên biên
soạn.
Web crawler còn được gọi là spider (con nhện) là một phần của search engine,
chuyên “chu du” khắp Web, sao chép từng trang nó tìm được và lập chỉ mục các
từ khóa, tên trang.
Với quy mô của Web, với số lượng quá lớn các trang không được truy cập đến
trong nhiều năm và trang có chứa những từ quá phổ biến dẫn đến những site
không liên quan, việc lập chỉ mục dù chỉ một phần của Web để có thể trả về kết
quả phù hợp là một quá trình đòi hỏi rất nhiều công sức to lớn.
Tuy nhiên, về căn bản, công việc này rất đơn giản: chương trình phần mềm thông
minh sẽ “chu du” khắp trên Web, tìm kiếm và lưu trữ bất cứ thông tin nào chưa
có trong chỉ mục và thường là lưu toàn bộ trang Web. Thông tin thu thập được có
thể từ những trang đã được lập chỉ mục trước đó nhưng đã thay đổi, liên kết đến
- 2 -
những trang chưa được lập chỉ mục và các địa chỉ Web do các công ty thứ ba đưa
lên.
Một khi các chỉ mục đã được tập hợp lại, chúng sẽ được kiểm tra để loại bỏ
những thông tin trùng lắp, chẳng hạn như các phiên bản khác nhau của cùng một
site (site dự phòng); loại bỏ những trang lập lại quá nhiều lần cùng từ khoá. Một
số search engine còn có khả năng gán trạng thái đặc biệt cho trang Web có dùng
siêu thẻ (metatag) chứa các thành phần mô tả thông tin. Một số search engine có
khả năng phân tích nội dung trang Web và cho biết tần suất mà những trang khác
liên kết đến trang này. Như vậy, trang Web càng phổ biến thì nội dung của nó
càng dễ tìm kiếm.
Khi người dùng đưa yêu cầu tìm kiếm thông tin cho search engine hay dịch vụ
thư mục, các giải thuật tinh vi bên trong sẽ được kích hoạt. Mỗi search engine có
một cách xử lý khác nhau đối với thông tin mà nó nhận được từ người dùng,
nhưng mục tiêu thì giống nhau: dự đoán người dùng cần gì và trả về thông tin
tương ứng. Những vấn tin của người dùng thường được phân tích rất chi tiết để
phát hiện những sai sót chính tả trong từ khoá hay liệu thông tin này đã được tìm
kiếm chưa.
Công nghệ Search engine có thế tạo cho người sử dụng Internet một lượng
lớn tri thức mà có thể truy cập trên nhiều đường khác nhau. Hiện nay phần lớn
mọi người dùng Search engine cung cấp khả năng tìm kiếm trên cơ sở dữ liệu
của hàng tỉ trang Web, nơi mà những câu truy vấn được thực hiện ngay tức khắc.
Trọng tâm là quá trình chuyển số lượng lớn (sự duy trì và lập chỉ mục trên cơ sở
dữ liệu lớn của trang Web và quá trình chọn nhanh những trang thoả một vài tiểu
chuẩn) đến đặc trưng ( quá trình nhận dạng trang với đặc trưng lớn của người sử
dụng). Một phương hướng thúc đẩy sự phát triển tự nhiên của người sử dụng
Internet đó là bây giờ họ có thể chọn công cụ tìm kiếm và sẳn sàng trả tiền cho
nhà cung cấp hệ thống và chờ đợi để truy vấn của họ được trả lời tốt hơn. Trong
khung cảnh đó, có vài vấn đề được đề cập sử dụng của khai phá dữ liệu và kỹ
thuật tối ưu hoá, mà thường được gọi là Web mining (khai phá dữ liệu Web). Ở
đây, chúng ta mô tả phương thức cải tiến cho kết quả tìm kiếm chuẩn trong
Search engine, ở tài liệu và trang có giá trị giới hạn của số tiêu đề, và người dùng
có các mô tả hạn chế. Sử dụng phương thức kỹ thuật phân cụm (cluster) để khai
báo, trong tập hợp của trang kết quả từ truy vấn đơn, những tập hợp con đồng
nhất một khía cạnh nào đó với vector nền tảng trong ngữ cảnh hoặc mô tả; khi
chúng ta xây dựng số nhỏ và tiềm năng của tập hợp con tốt của những trang, thì
mỗi đoạn của mỗi phân cụm (cluster) trang với điểm cao hơn. Hoạt động trên tập
hợp con của thuật toán di truyền, chúng ta khai báo một tập hợp con với tất cả
điểm tốt và ở bên trong tính không đồng dạng cao. Mỗi tập hợp con cung cấp cho
người sử dụng một vài trang không giống hệt nhau rằng miêu tả sự đúng của cấu
trúc của tập hợp ban đầu của trang. Bởi vì những trang chúng ta thấy bằng thuật
toán vector có chiều cố định, vai trò ngữ cảnh hoặc mô tả cơ bản vector trung
tâm và cụ thể thuộc cách tiếp cận của phương thức này.
- 3 -
Web Minning là gì ?
Để làm rõ sự mơ hồ về những gì các hình thức của Web mining. Ko-Sa La và
Blockeel đã đề xuất các thành phần của Web mining theo các nhiệm vụ sau đây:
1. Tìm kiếm nguồn tài nguyên: các nhiệm vụ lấy dữ liệu Web document.
2. Lựa chọn thong tin và xử lý sơ bộ: tự động lựa chọn và tiền xử lý cụ thể
trong hình thành từ thu hồi tài nguyên Web.
3. Khái quát: tự động phát hiện các mẫu chung tại trang web riêng lẻ cũng
như trên nhiều trang web.
4. Phân tích: xác nhận hoặc kết hợp các mẫu tối giản
Nói chung, nhiệm vụ Web mining có thể được phân loại thành ba mục Web
content mining, Web structure mining và Web usage mining. Tuy nhiên, có khác
nhau của hai
phương pháp tiếp cận để phân loại Web mining.
1. Web usage mining là một quá trình trích xuất thông tin hữu ích từ máy
chủ tức là người dùng các bản ghi history Web usage mining là một quá
trình tìm hiểu những gì người dùng đang tìm kiếm trên Internet. Một số
người dùng có thể tìm kiếm dữ liệu văn bản chỉ, trong khi một số người
khác cóđược quan tâm đến dữ liệu đa phương tiện.
2. Web content mining là một quá trình để khám phá thông tin hữu ích từ
văn bản, hình ảnh, dữ liệu âm thanh hoặc video trong trang web. Web
content mining đôi khi được gọi là trang web khai thác văn bản, bởi vì nội
dung văn bản là khu vực nghiên cứu rộng rãi nhất. Các công nghệ thường
được sử dụng trong khai thác nội dung trang web được NLP (xử lý ngôn
ngữ tự nhiên) và IR (Thông tin hồi). Mặc dù khai thác dữ liệu là một thuật
ngữ tương đối mới, công nghệ này không. Các công ty đã sử dụng máy
tính mạnh mẽ để sàng lọc những khối lượng dữ liệu máy quét siêu thị và
phân tích báo cáo nghiên cứu thị trường trong nhiều năm. Tuy nhiên, sự
đổi mới liên tục trong khả năng xử lý máy tính, lưu trữ đĩa, và phần mềm
thống kê được đáng kể tăng tính chính xác của phân tích trong khi lái xe
xuống các chi phí
3. Web structure mining là quá trình sử dụng lý thuyết đồ thị để phân tích
cấu trúc nút và kết nối của một trang web. Theo kiểu cấu trúc dữ liệu web,
khai thác cấu trúc web có thể được chia thành hai loại:
Trích xuất các mẫu từ các siêu liên kết trong trang web: một siêu liên
kết là một thành phần cấu trúc kết nối các trang web đến một vị trí khác
nhau.
Khai thác các tài liệu được cấu trúc: phân tích các cấu trúc cây giống
như các cấu trúc trang để mô tả cách sử dụng tag HTML hay XML.
Dưới đây là mô hình quan hệ giữa chúng
- 4 -
II. Nền tảng (Background)
Với P là tập hợp của những trang Web, với
p P∈
chỉ số trang trong tập
hợp. Bây giờ cho rằng P là kết quả của truy vấn chuẩn đến cơ sở dữ liệu của
trang, và như vậy đại diện tập hợp của trang mà thoả mãn một vài điều kiện biểu
diễn của người sử dụng. Mỗi trang
p P∈
kết hợp với điểm cơ bản trong truy vấn
tạo ra P, mà xác định thứ tự những trang có mặt trình bày trong truy vấn. Vai trò
của thứ tự quyết định đặc trưng của tìm kiếm: Trên thực tế, nếu chiều của P có
liên quan, khả năng có thể xảy ra người sử dụng trang P có thể giảm những vị trí
của p cũng có thể tăng. Với những khả năng như vậy dẫn đến hai hạn chế sau:
Trang năm ở vị trí đầu tiên có khả năng là đồng dạng (hoặc bằng nhau) với mỗi
trang cùng vị trí; những trang mà không có điểm cao nhưng điển hình của một
vài hướng của tập hợp P mà xuất hiện những vị trí rất thấp trong phân cấp, với
khả năng xảy ra không đáng kể khi người sử dụng bắt đầu.
Phương thức này chúng ta cố gắn vượt qua hai hạn chế, trọng tâm của việc
chọn từ ban đầu của tập hợp P nhỏ của tập hợp các trang với điểm cao và tách ra
đầy đủ từ mỗi trang. Với điều kiện cần áp dụng cách tiếp cận có giá trị cộng thêm
thông tin từ người sử dụng, tạo ra một ngữ cảnh tìm kiếm ( tạo ra tiêu đề chung
để tìm kiếm có thể tìm đến, không nhất thiết liên kết với từ khoá tìm kiếm cho
việc tạo ra tập hợp P), và người sử dụng khai báo ( nhận ra sự chủ quan của
người sử dụng, mà cung cấp trực tiếp bằng cách chọn trong số tập hợp xác định
trước được khai báo hoặc được lấy ra từ trang đã được duyệt qua của người dùng
trước đó).
- 5 -
III.Các điểm chính:
Khái niệm cơ bản của phương thức là sử dụng thông tin truyền bằng tìm
kiếm ngữ cảnh hoặc sử dụng khai báo và phân tích cấu trúc của P và quyết định
trong tập hợp con tối ưu nhỏ nhất mà trình bày tất cả thông tin có giá trị. Được
hoàn thành trong ba bước. Bước thứ nhất: Tìm kiếm ngữ cảnh và người sử dụng
khai báo sử dụng trích đoạn có giới hạn của từ quan trọng hoặc đặc điểm trang
được sử dụng tạo ra, từ tất cả các trang trong P, vector đặc điểm (vector trang).
Như vậy vector miêu tả đường đặc biệt nhìn thấy trang, rõ ràng mỗi ngữ
cảnh/khai báo và tạo thành nền theo các bước cơ bản.
Thứ hai, vector trang được phân tích bằng thuật toán phân cụm (clustering
algorithm) mà các phân đoạn nằm trong tập hợp con của trang đồng dạng. Nó
được quy vào hai chiều phân cấp của trang, mỗi trang p có thể bây giờ được sắp
đặt theo điểm chính trong cụm của nó. Với điểm mục tiêu cung cấp cho người sử
dụng một danh sách giảm mà được mô tả cấu trúc xác định bằng cụm và hàm
điểm gốc.
Bước thứ 3 là kết thúc, một giải thuật di truyền làm việc trên trang mà có
điểm cao trong mỗi cụm đưa ra một tập hợp con của trang đó mà hỗn hợp đầy đủ
và giá trị tốt của điểm gốc. Ở phần sau, chúng ta mô tả bước thứ 3 một cách chi
tiết.
IV. Vector trang (Page Vectorization)
Bước đầu tiên của phương pháp trình bày mỗi trang thu được bằng vector
hữu hạn chiều, nơi mỗi thành phần đại diện thước đo đặc trưng của trang (Vector
trang). Rõ ràng, trình bày cốt yếu cho thành công của phương pháp; tất cả thông
tin của một trang mà nó không được duy trì trong bước này thì sẽ bị mất trong
bước tiếp theo. Với lý do đó nên nhấn mạnh phương pháp tự nhiên của vector
quá trình, nơi chỉ những thông tin thích đáng cho một ngữ cảnh hoặc khai báo có
hiệu quả được giử lại sử dụng cho sau này. Sự nhất thiết và rõ ràng, mỗi thành
phần của vector là số biến cố một từ đặc biệt; chúng ta có thể xem xét đặc điểm
vừa phải mà nó không đặc biệt liên kết với từ chứa đựng trong trang, thí dụ như
sự có mặt của bức tranh, bảng biểu, tiêu đề và v.v Với những gì đã đề cập trước
đó, vector dựa vào ngữ cảnh cơ bản hoặc khai báo được chọn bởi người sử dụng.
Bạn có thể giả thiết rằng với mỗi ngữ cảnh/ khai báo mà có thể thực hiện trong
Search engine, một danh sách những từ mà có liên quan đến ngữ cảnh/ khai báo
có giá trị, và vector liên quan của trang được lưu lại. Nhiều phương pháp tinh vi
với cách tiếp cận đơn giản có thể và cần được xem xét. Số chiều của vector m
(nghĩa là số của những từ thích đáng liên quan đến ngữ cảnh) không phải giới
hạn về mặt lý thuyết một cách đặc biệt nhỏ, nhưng chúng ta nên tránh suy nghĩ
để mà áp dụng phương thức lên số các trang quan trọng, nó được xem xét một
cách hợp lý
100m ≤
. Chúng ta đề xuất hai phương thức để xác định một danh
sách các từ:
- Những từ được xác định trong một pha cài đặt, khi quản lý Search
engine quyết định các ngữ cảnh / các khai báo được hỗ trợ và từ nào là tiểu biểu
của ngữ cảnh / khai báo đó. Thao tác này được hoàn thành với người sử dụng
thuộc công cụ dành cho môi trường đặc biệt.
- 6 -
- Những từ được xác định bắt đầu từ một tập hợp ban đầu của trang được
sử dụng làm mẫu huấn luyện cho ngữ cảnh / khai báo. Khi khai báo của người
dùng được sử dụng, chúng ta có thể xem xét một mẫu huấn luyện cho một khai
báo của trang mà các trang được duyệt qua bởi người sử dụng mới đây mà khai
báo đến các từ kết hợp với những khai báo phát sinh bởi hành vi của người sử
dụng.
V. Phân cụm trang (Page Clustering)
Nghiên cứu rộng là làm sao để cải thiện những kết quả lấy ra bởi phương
pháp phân cụm. Trong nghiên cứu chiến lược để xây dựng phân cụm của toàn bộ
các tài liệu được chọn lọc và phù hợp với truy vấn tới trọng tâm của cụm. Mới
đây, phân cụm đã được sử dụng để giúp đỡ người dùng trong việc duyệt một tập
hợp các tài liệu và trong việc tổ chức những kết quả trả về của Search engine
hoặc bằng Metasearch engine trong trả lời câu hỏi của người sử dụng.
Phân cụm tài liệu trong thông tin thu hồi thường giải quyết những giải
thuật phân cụm có thứ bậc hoặc thuật toán k-means. Mặc dù giải thuật phân cụm
có thứ bậc rất chậm khi áp dụng trên tài liệu cơ sở dữ liệu lớn (liên kết đơn và
phương thức trung bình nhóm có độ phức tạp
2
(| | )O P
, phương thức liên kết đầy
đủ có độ phức tạp
3
(| | )O P
), thuật toán k-means nhanh hơn (nó thực hiện có độ
phức tạp tính toán
( | |)O k P
). Việc do hiệu lực của phân cụm và so sánh việc thực
hiện của các giải thuật khác nhau là một nhiệm vụ phức tạp, và không có phương
pháp nào thoả mãn hoàn toàn để có thể so sánh kết quả của thuật toán phân cụm.
Phần lớn sử dụng tiểu chuẩn để đánh giá chất lượng phân cụm mà thoả mãn tiểu
chuẩn Calinski-Harabasx (C-H) thông tin biểu hiện bằng số giả F; cao hơn chỉ số
đánh giá, chất lượng cụm tốt hơn. Với một phân cụm đã cho, biểu thức toán học
của thông tin biểu hiện bằng số giả F là:
2 2
(1 )
/
( 1) ( )
R R
C H
k n k
−
− =
− −
, trong đó
2
( ) /R SST SSE SST= −
với SST là tổng của khoản cách có thứ tự của mỗi đối
tượng từ trọng tâm đến toàn bộ, và SSE là tổng của khoản cách của đối tượng từ
trọng tâm của nhóm. Từ những thí nghiệm trong thực tế và sử dụng dữ liệu mô
phỏng số giả F chất lượng cụm được đo lường, chúng ta thừa nhận thuật toán k-
mean phân cụm thực hiện tốt trong giới hạn thời gian tính toán – nên định kiểu
trong ứng dụng, nơi số của trang và chiều của vector có thể lớn.
VI. Giải thuật di truyền (Genetic Algorithm)
Giải thuật di truyền thực hiện một cách hiệu quả và thông tin đó được lấy
từ nhiều nhà nghiên cứu khác nhau. Chen (1995) sử dụng giải thuật di truyền để
tối ưu hoá từ khoá để gợi ý cho những tài liệu. Giữa hai nhóm Kraft, Petry,
Buckles, Sadavisan (1997) và Sanchez, Pierre (1994) giới thiệu cách tiếp cận
tăng cừng mô tả câu truy vấn dựa vào giải thuật di truyền. Boughanem,
Chrisment và Tamine (1999) một giải thuật di truyền được triển khai để tìm và
tối ưu tập hợp các tài liệu tốt nhất phù hợp với nhu cầu người sử dụng. Horng và
Yeh (2000) đưa ra phương pháp để rút từ khoá từ tài liệu và gán cho nó trọng số.
Mục tiêu là lựa chọn tập hợp con nhỏ P’ của tập hợp trang P gốc của tổng
các điểm lớn, nhưng sự giống nhau giữa các trang được chọn lọc một cách thận
- 7 -
trọng. Chúng ta chọn tập hợp con bằng cách sử dụng giải thuật di truyền (GA).
Có vài lý do để chúng ta lựa chọn giải thuật này. Thứ nhất sử dụng kỹ thuật
Metaheuristic tốt trong việc tối ưu hoá các vấn đề với hàm đối tượng và những
ràng buộc không có trong biểu thức toán học đơn giản. Thứ hai, chúng ta phải
xác định một giải pháp tốt trong một thời gian tính toán nhỏ, và chiều của vấn đề
có thể lớn một cách đáng kể. Thứ ba, cấu trúc của vấn đề rõ ràng, được trình bày
bằng cấu trúc dữ liệu thường sử dụng GA.
GA là thuật toán tìm kiếm cục bộ được bắt đầu từ chọn các chuỗi ban đầu
được trình bày bằng hàm phân phối phát triển vấn đề. Mỗi chuỗi có thể gọi là
nhiễm sắc thể (chromosome) và kết hợp với giá trị được gọi là hàm phù hợp
(fitness function-ff) mà có thể tạo ra một cá thể mới bằng thực hiện di truyền.
Mọi phân phối nhiễm sắc thể được gọi là gene và giá trị được gọi là alletic value.
Các giá trị này có thể thay đổi nên có thể gán bảng alletic, thường bảng alletic
nằm {0,1}. Với mỗi di truyền, thuật toán sử dụng giá trị hàm phù hợp với đánh
giá khả năng tồn tại của mỗi chuỗi i bằng sử dụng toán tử đơn để tạo ra một tập
hợp mới của cá thể nhân tạo ( một quần thể mới) mà phép thử có thể được cải
thiện trên hàm ff bằng cách sử dụng giá trị cũ. Quá trình tiến hoá bị dừng lại khi
không có đột biến nào quan trọng của hàm fitness có thể thu được. Thực hiện giải
thuật di truyền là việc lặp đi lặp lại và:
- Lặp lại, nơi mà các chuổi riêng lẽ được sao chép theo giá trị của hàm
fitness.
- Sự lai ghép chéo đơn, trong đó những thành viên tái sản xuất trong lai
ghép ngẫu nhiên và sau đây mỗi cặp của chuổi trải qua thay đổi chéo.
- Đột biến, là sự thay đổi không thường xuyên ngẫu nhiên của giá trị của
nhiễm sắc thể với xác suất nhỏ.
Bắt đầu từ các cụm đang tồn tại, chúng ta định nghĩa nhiễm sắc thể của
tập hợp con cá thể ban đầu của trang với tập hợp giới hạn ( thuật ngữ trong GA,
một trang là một gene). Giải thuật di truyền làm việc trên cá thể ban đầu kết thúc
bằng biểu diễn tập hợp con của trang hiện tại của người sử dụng. Ý tưởng bắt đầu
tiến hoá của di truyền của cá thể mà đúng như vậy rất nhỏ so với tập hợp ban đầu
của trang P. Mỗi nhiễm sắc thể được tạo ra bằng cách chọn lọc trang từ mỗi cụm,
bắt đầu với một hay nhiều điểm cao. Như vậy, nhiễm sắc thể đầu tiên được tạo ra
chứa đựng trang với điểm cao trong mỗi cụm, với nhiễm sắc thể thứ hai chứa
điểm tốt thứ hai và v.v Nếu tập hợp của cụm nhỏ hơn số nhiễm sắc thể được tạo
ra thì cụm không được đại diện cho mỗi nhiễm sắc thể, trong khi những cụm
khác có tập hợp cao hơn của một trang đại diện bằng một nhiễm sắc thể nào đó.
Chúng ta cho biết với dc là số của trang bao gồm mỗi nhiễm sắc thể trong quần
thể ban đầu và nc là số nhiễm sắc thể. Một quần thể gồm có np=dc*nc trang.
Hàm fitness tính toán cho mỗi nhiễm sắc thể được biểu diễn bằng giá trị
dương cao “tốt” cho nhiễm sắc thể và như vậy hàm được làm cực đại. Nó bao
gồm ba giai đoạn: Thứ nhất là tính tổng các điểm của trang trong nhiễm sắc thể
C, nghĩa là
1
( ) ( )
i
i
p C
t C score p
∈
=
∑
với score(p
i
) là điểm gốc của trang p
i
được mô tả
trước đó. Cần xem xét giới hạn khả năng dương của nhiều trang dương có điểm
cao trong nhiễm sắc thể mà còn trả lại những nhiễm sắc thể của trang có điểm
thấp. Hạn chế thứ hai của hàm fitness đó là cân bằng.
- 8 -
Với ID là số chiều; tỷ lệ
2
/ (| | ) 1t np abs C ID= − +
cấu thành từ 2 số hạn của
hàm fitness. np đạt cực đại khi chiều của C chính xác bằng chiều của ID và
nhanh chóng giảm cho đến khi số những trang được chứa trong nhiễm sắc thể C
nó có thể nhỏ hơn hoặc lớn hơn ID.
Nhiễm sắc thể nằm trong quần thể ban đầu được mô tả bằng điểm biến
thiên cao của cụm thuộc các trang có liên quan. Sự tiến hoá của quần thể thay đổi
đặc trưng, tạo ra nhiễm sắc thể với thích nghi cao của trang thuộc cụm và rất
giống nhau trong mỗi cụm. Hơn nữa, sự kiện của trang thuộc về cụm khác nhau
và khác nhau trong không gian vector không được đảm bảo, trong khi phụ thuộc
một cách tự nhiên về dữ liệu và trên quá trình xử lý phân cụm ban đầu. Với lý do
đó, chúng ta giới thiệu hàm fitness thứ ba, đánh giá toàn bộ đánh giá không giống
nhau của các trang trong nhiễm sắc thể. Với
( , )
i j
D p p
khoảng cách Euclidean của
những vector đại điện cho trang là p
i
, p
j
. Khi đó
3
, ,
( ) ( , )
i j i j
i j
p p C p p
t C D p p
∈ ≠
=
∑
là
tổng của các khoảng cách giữa hai cặp của trang trong nhiễm sắc thể C và đánh
giá tổng biến thiên rõ ràng của C. Mẫu cuối cùng của hàm fitness của nhiễm sắc
thể C và
1 2 3
( ) . ( ) . ( ) . ( )ff C t C t C t C= α +β + γ
với tham số
α,β, γ
phụ thuộc vào độ lớn
của điểm ban đầu và vector biểu diễn trang. Đặc biệt
α,β, γ
được chọn đóng góp
cân bằng của
1 2 3
( ), ( ), ( )t C t C t C
. Ngoài ra, chúng có thể biểu thị sự thích ứng của
các thuộc tính khác nhau được biểu diễn bằng ba thời thời điểm. Mục tiêu của
GA tìm bằng phương thức di truyền, một nhiễm sắc thể C
*
sao cho:
*
1, ,
( ) max ( )
nc
ff C ff C=
.
VII. Hướng phát triển
Ứng dụng phân tích dữ liệu tinh xảo và kỹ thuật khai phá dữ liệu trong tìm
kiếm của thông tin trên Web là lĩnh vực được quan tâm ngày càng nhiều trong
nghiên cứu và công nghiệp. Là chiến lược quan trọng của công cụ này nó không
được đánh giá thấp và ý nghĩa của thông tin ngày một tăng. Như vậy phương
hướng thúc đẩy tìm kiếm đưa ra công cụ giúp đỡ cải thiện kết quả tìm kiếm
thông tin trên Web.
Một câu hỏi đặt ra là phương thức này có thể chạy trực tuyến trong Search
engine chuẩn thực hiện truy vấn của người sử dụng. Chúng ta tin tưởng rằng điểu
chỉnh thích hợp của thông số và ứng dụng thuật toán thích hợp thì quá trình tìm
kiếm được xử lý một cách thoả mãn. Công việc tương lai sẽ bao trùm mở rộng kỹ
thuật vector trang và định nghĩa và thủ tục kiểm tra tự động điểu chỉnh tham số
trong giải thuật di truyền.
Tài liệu tham khảo
Graph-theoretic Techniques for Web Content Mining
Web Mining Tutorial
Mining the Web
Web Mining: Applications and Techniques
A Study of Web Mining Research
- 9 -
MỤC LỤC
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG 1
TIỂU LUẬN MÔN HỌC 1
I.Giới thiệu 2
II. Nền tảng (Background) 5
III.Các điểm chính: 6
IV. Vector trang (Page Vectorization) 6
V. Phân cụm trang (Page Clustering) 7
VI. Giải thuật di truyền (Genetic Algorithm) 7
VII. Hướng phát triển 9
Tài liệu tham khảo 9
Graph-theoretic Techniques for Web Content Mining 9
Web Mining Tutorial 9
MỤC LỤC 10
- 10 -