Tải bản đầy đủ (.doc) (7 trang)

Web mining in Thematic Search Engines

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (124.88 KB, 7 trang )

Web mining in Thematic Search Engines
I.Giới thiệu
Gần đây sự cải tiến của công nghệ Search engine có thế tạo cho
người sử dụng Internet một lượng lớn tri thức mà có thể truy cập trên nhiều
đường khác nhau. Hiện nay phần lớn mọi người dùng Search engine cung
cấp khả năng tìm kiếm trên cơ sở dữ liệu của hàng tỉ trang Web, nơi mà
những câu truy vấn được thực hiện ngay tức khắc. Trọng tâm là quá trình
chuyển số lượng lớn (sự duy trì và lập chỉ mục trên cơ sở dữ liệu lớn của
trang Web và quá trình chọn nhanh những trang thoả một vài tiểu chuẩn)
đến đặc trưng ( quá trình nhận dạng trang với đặc trưng lớn của người sử
dụng). Một phương hướng thúc đẩy sự phát triển tự nhiên của người sử
dụng Internet đó là bây giờ họ có thể chọn công cụ tìm kiếm và sẳn sàng trả
tiền cho nhà cung cấp hệ thống và chờ đợi để truy vấn của họ được trả lời
tốt hơn. Trong khung cảnh đó, có vài vấn đề được đề cập sử dụng của khai
phá dữ liệu và kỹ thuật tối ưu hoá, mà thường được gọi là Web mining
(khai phá dữ liệu Web). Ở đây, chúng ta mô tả phương thức cải tiến cho kết
quả tìm kiếm chuẩn trong Search engine, ở tài liệu và trang có giá trị giới
hạn của số tiêu đề, và người dùng có các mô tả hạn chế. Sử dụng phương
thức kỹ thuật phân cụm (cluster) để khai báo, trong tập hợp của trang kết
quả từ truy vấn đơn, những tập hợp con đồng nhất một khía cạnh nào đó
với vector nền tảng trong ngữ cảnh hoặc mô tả; khi chúng ta xây dựng số
nhỏ và tiềm năng của tập hợp con tốt của những trang, thì mỗi đoạn của
mỗi phân cụm (cluster) trang với điểm cao hơn. Hoạt động trên tập hợp con
của thuật toán di truyền, chúng ta khai báo một tập hợp con với tất cả điểm
tốt và ở bên trong tính không đồng dạng cao. Mỗi tập hợp con cung cấp cho
người sử dụng một vài trang không giống hệt nhau rằng miêu tả sự đúng
của cấu trúc của tập hợp ban đầu của trang. Bởi vì những trang chúng ta
thấy bằng thuật toán vector có chiều cố định, vai trò ngữ cảnh hoặc mô tả
cơ bản vector trung tâm và cụ thể thuộc cách tiếp cận của phương thức này.
II. Nền tảng (Background)
Với P là tập hợp của những trang Web, với


p P∈
chỉ số trang trong
tập hợp. Bây giờ cho rằng P là kết quả của truy vấn chuẩn đến cơ sở dữ liệu
của trang, và như vậy đại diện tập hợp của trang mà thoả mãn một vài điều
kiện biểu diễn của người sử dụng. Mỗi trang
p P∈
kết hợp với điểm cơ bản
trong truy vấn tạo ra P, mà xác định thứ tự những trang có mặt trình bày
trong truy vấn. Vai trò của thứ tự quyết định đặc trưng của tìm kiếm: Trên
thực tế, nếu chiều của P có liên quan, khả năng có thể xảy ra người sử dụng
trang P có thể giảm những vị trí của p cũng có thể tăng. Với những khả
năng như vậy dẫn đến hai hạn chế sau: Trang năm ở vị trí đầu tiên có khả
năng là đồng dạng (hoặc bằng nhau) với mỗi trang cùng vị trí; những trang
mà không có điểm cao nhưng điển hình của một vài hướng của tập hợp P
- 1 -
mà xuất hiện những vị trí rất thấp trong phân cấp, với khả năng xảy ra
không đáng kể khi người sử dụng bắt đầu.
Phương thức này chúng ta cố gắn vượt qua hai hạn chế, trọng tâm
của việc chọn từ ban đầu của tập hợp P nhỏ của tập hợp các trang với điểm
cao và tách ra đầy đủ từ mỗi trang. Với điều kiện cần áp dụng cách tiếp cận
có giá trị cộng thêm thông tin từ người sử dụng, tạo ra một ngữ cảnh tìm
kiếm ( tạo ra tiêu đề chung để tìm kiếm có thể tìm đến, không nhất thiết
liên kết với từ khoá tìm kiếm cho việc tạo ra tập hợp P), và người sử dụng
khai báo ( nhận ra sự chủ quan của người sử dụng, mà cung cấp trực tiếp
bằng cách chọn trong số tập hợp xác định trước được khai báo hoặc được
lấy ra từ trang đã được duyệt qua của người dùng trước đó).
III.Các điểm chính:
Khái niệm cơ bản của phương thức là sử dụng thông tin truyền bằng
tìm kiếm ngữ cảnh hoặc sử dụng khai báo và phân tích cấu trúc của P và
quyết định trong tập hợp con tối ưu nhỏ nhất mà trình bày tất cả thông tin

có giá trị. Được hoàn thành trong ba bước. Bước thứ nhất: Tìm kiếm ngữ
cảnh và người sử dụng khai báo sử dụng trích đoạn có giới hạn của từ quan
trọng hoặc đặc điểm trang được sử dụng tạo ra, từ tất cả các trang trong P,
vector đặc điểm (vector trang). Như vậy vector miêu tả đường đặc biệt nhìn
thấy trang, rõ ràng mỗi ngữ cảnh/khai báo và tạo thành nền theo các bước
cơ bản.
Thứ hai, vector trang được phân tích bằng thuật toán phân cụm
(clustering algorithm) mà các phân đoạn nằm trong tập hợp con của trang
đồng dạng. Nó được quy vào hai chiều phân cấp của trang, mỗi trang p có
thể bây giờ được sắp đặt theo điểm chính trong cụm của nó. Với điểm mục
tiêu cung cấp cho người sử dụng một danh sách giảm mà được mô tả cấu
trúc xác định bằng cụm và hàm điểm gốc.
Bước thứ 3 là kết thúc, một giải thuật di truyền làm việc trên trang
mà có điểm cao trong mỗi cụm đưa ra một tập hợp con của trang đó mà hỗn
hợp đầy đủ và giá trị tốt của điểm gốc. Ở phần sau, chúng ta mô tả bước
thứ 3 một cách chi tiết.
IV. Vector trang (Page Vectorization)
Bước đầu tiên của phương pháp trình bày mỗi trang thu được bằng
vector hữu hạn chiều, nơi mỗi thành phần đại diện thước đo đặc trưng của
trang (Vector trang). Rõ ràng, trình bày cốt yếu cho thành công của phương
pháp; tất cả thông tin của một trang mà nó không được duy trì trong bước
này thì sẽ bị mất trong bước tiếp theo. Với lý do đó nên nhấn mạnh phương
pháp tự nhiên của vector quá trình, nơi chỉ những thông tin thích đáng cho
một ngữ cảnh hoặc khai báo có hiệu quả được giử lại sử dụng cho sau này.
Sự nhất thiết và rõ ràng, mỗi thành phần của vector là số biến cố một từ đặc
biệt; chúng ta có thể xem xét đặc điểm vừa phải mà nó không đặc biệt liên
- 2 -
kết với từ chứa đựng trong trang, thí dụ như sự có mặt của bức tranh, bảng
biểu, tiêu đề và v.v...Với những gì đã đề cập trước đó, vector dựa vào ngữ
cảnh cơ bản hoặc khai báo được chọn bởi người sử dụng. Bạn có thể giả

thiết rằng với mỗi ngữ cảnh/ khai báo mà có thể thực hiện trong Search
engine, một danh sách những từ mà có liên quan đến ngữ cảnh/ khai báo có
giá trị, và vector liên quan của trang được lưu lại. Nhiều phương pháp tinh
vi với cách tiếp cận đơn giản có thể và cần được xem xét. Số chiều của
vector m (nghĩa là số của những từ thích đáng liên quan đến ngữ cảnh)
không phải giới hạn về mặt lý thuyết một cách đặc biệt nhỏ, nhưng chúng
ta nên tránh suy nghĩ để mà áp dụng phương thức lên số các trang quan
trọng, nó được xem xét một cách hợp lý
100m ≤
. Chúng ta đề xuất hai
phương thức để xác định một danh sách các từ:
- Những từ được xác định trong một pha cài đặt, khi quản lý Search
engine quyết định các ngữ cảnh / các khai báo được hỗ trợ và từ nào là tiểu
biểu của ngữ cảnh / khai báo đó. Thao tác này được hoàn thành với người
sử dụng thuộc công cụ dành cho môi trường đặc biệt.
- Những từ được xác định bắt đầu từ một tập hợp ban đầu của trang
được sử dụng làm mẫu huấn luyện cho ngữ cảnh / khai báo. Khi khai báo
của người dùng được sử dụng, chúng ta có thể xem xét một mẫu huấn
luyện cho một khai báo của trang mà các trang được duyệt qua bởi người
sử dụng mới đây mà khai báo đến các từ kết hợp với những khai báo phát
sinh bởi hành vi của người sử dụng.
V. Phân cụm trang (Page Clustering)
Nghiên cứu rộng là làm sao để cải thiện những kết quả lấy ra bởi
phương pháp phân cụm. Trong nghiên cứu chiến lược để xây dựng phân
cụm của toàn bộ các tài liệu được chọn lọc và phù hợp với truy vấn tới
trọng tâm của cụm. Mới đây, phân cụm đã được sử dụng để giúp đỡ người
dùng trong việc duyệt một tập hợp các tài liệu và trong việc tổ chức những
kết quả trả về của Search engine hoặc bằng Metasearch engine trong trả lời
câu hỏi của người sử dụng.
Phân cụm tài liệu trong thông tin thu hồi thường giải quyết những

giải thuật phân cụm có thứ bậc hoặc thuật toán k-means. Mặc dù giải thuật
phân cụm có thứ bậc rất chậm khi áp dụng trên tài liệu cơ sở dữ liệu lớn
(liên kết đơn và phương thức trung bình nhóm có độ phức tạp
2
(| | )O P
,
phương thức liên kết đầy đủ có độ phức tạp
3
(| | )O P
), thuật toán k-means
nhanh hơn (nó thực hiện có độ phức tạp tính toán
( | |)O k P
). Việc do hiệu
lực của phân cụm và so sánh việc thực hiện của các giải thuật khác nhau là
một nhiệm vụ phức tạp, và không có phương pháp nào thoả mãn hoàn toàn
để có thể so sánh kết quả của thuật toán phân cụm. Phần lớn sử dụng tiểu
chuẩn để đánh giá chất lượng phân cụm mà thoả mãn tiểu chuẩn Calinski-
Harabasx (C-H) thông tin biểu hiện bằng số giả F; cao hơn chỉ số đánh giá,
chất lượng cụm tốt hơn. Với một phân cụm đã cho, biểu thức toán học của
- 3 -
thông tin biểu hiện bằng số giả F là:
2 2
(1 )
/
( 1) ( )
R R
C H
k n k

− =

− −
, trong đó
2
( ) /R SST SSE SST= −
với SST là tổng của khoản cách có thứ tự của mỗi đối
tượng từ trọng tâm đến toàn bộ, và SSE là tổng của khoản cách của đối
tượng từ trọng tâm của nhóm. Từ những thí nghiệm trong thực tế và sử
dụng dữ liệu mô phỏng số giả F chất lượng cụm được đo lường, chúng ta
thừa nhận thuật toán k-mean phân cụm thực hiện tốt trong giới hạn thời
gian tính toán – nên định kiểu trong ứng dụng, nơi số của trang và chiều
của vector có thể lớn.
VI. Giải thuật di truyền (Genetic Algorithm)
Giải thuật di truyền thực hiện một cách hiệu quả và thông tin đó
được lấy từ nhiều nhà nghiên cứu khác nhau. Chen (1995) sử dụng giải
thuật di truyền để tối ưu hoá từ khoá để gợi ý cho những tài liệu. Giữa hai
nhóm Kraft, Petry, Buckles, Sadavisan (1997) và Sanchez, Pierre (1994)
giới thiệu cách tiếp cận tăng cừng mô tả câu truy vấn dựa vào giải thuật di
truyền. Boughanem, Chrisment và Tamine (1999) một giải thuật di truyền
được triển khai để tìm và tối ưu tập hợp các tài liệu tốt nhất phù hợp với
nhu cầu người sử dụng. Horng và Yeh (2000) đưa ra phương pháp để rút từ
khoá từ tài liệu và gán cho nó trọng số.
Mục tiêu là lựa chọn tập hợp con nhỏ P’ của tập hợp trang P gốc của
tổng các điểm lớn, nhưng sự giống nhau giữa các trang được chọn lọc một
cách thận trọng. Chúng ta chọn tập hợp con bằng cách sử dụng giải thuật di
truyền (GA). Có vài lý do để chúng ta lựa chọn giải thuật này. Thứ nhất sử
dụng kỹ thuật Metaheuristic tốt trong việc tối ưu hoá các vấn đề với hàm
đối tượng và những ràng buộc không có trong biểu thức toán học đơn giản.
Thứ hai, chúng ta phải xác định một giải pháp tốt trong một thời gian tính
toán nhỏ, và chiều của vấn đề có thể lớn một cách đáng kể. Thứ ba, cấu
trúc của vấn đề rõ ràng, được trình bày bằng cấu trúc dữ liệu thường sử

dụng GA.
GA là thuật toán tìm kiếm cục bộ được bắt đầu từ chọn các chuỗi
ban đầu được trình bày bằng hàm phân phối phát triển vấn đề. Mỗi chuỗi
có thể gọi là nhiễm sắc thể (chromosome) và kết hợp với giá trị được gọi là
hàm phù hợp (fitness function-ff) mà có thể tạo ra một cá thể mới bằng thực
hiện di truyền. Mọi phân phối nhiễm sắc thể được gọi là gene và giá trị
được gọi là alletic value. Các giá trị này có thể thay đổi nên có thể gán bảng
alletic, thường bảng alletic nằm {0,1}. Với mỗi di truyền, thuật toán sử
dụng giá trị hàm phù hợp với đánh giá khả năng tồn tại của mỗi chuỗi i
bằng sử dụng toán tử đơn để tạo ra một tập hợp mới của cá thể nhân tạo
( một quần thể mới) mà phép thử có thể được cải thiện trên hàm ff bằng
cách sử dụng giá trị cũ. Quá trình tiến hoá bị dừng lại khi không có đột biến
nào quan trọng của hàm fitness có thể thu được. Thực hiện giải thuật di
truyền là việc lặp đi lặp lại và:
- 4 -
- Lặp lại, nơi mà các chuổi riêng lẽ được sao chép theo giá trị của
hàm fitness.
- Sự lai ghép chéo đơn, trong đó những thành viên tái sản xuất trong
lai ghép ngẫu nhiên và sau đây mỗi cặp của chuổi trải qua thay đổi chéo.
- Đột biến, là sự thay đổi không thường xuyên ngẫu nhiên của giá trị
của nhiễm sắc thể với xác suất nhỏ.
Bắt đầu từ các cụm đang tồn tại, chúng ta định nghĩa nhiễm sắc thể
của tập hợp con cá thể ban đầu của trang với tập hợp giới hạn ( thuật ngữ
trong GA, một trang là một gene). Giải thuật di truyền làm việc trên cá thể
ban đầu kết thúc bằng biểu diễn tập hợp con của trang hiện tại của người sử
dụng. Ý tưởng bắt đầu tiến hoá của di truyền của cá thể mà đúng như vậy
rất nhỏ so với tập hợp ban đầu của trang P. Mỗi nhiễm sắc thể được tạo ra
bằng cách chọn lọc trang từ mỗi cụm, bắt đầu với một hay nhiều điểm cao.
Như vậy, nhiễm sắc thể đầu tiên được tạo ra chứa đựng trang với điểm cao
trong mỗi cụm, với nhiễm sắc thể thứ hai chứa điểm tốt thứ hai và

v.v...Nếu tập hợp của cụm nhỏ hơn số nhiễm sắc thể được tạo ra thì cụm
không được đại diện cho mỗi nhiễm sắc thể, trong khi những cụm khác có
tập hợp cao hơn của một trang đại diện bằng một nhiễm sắc thể nào đó.
Chúng ta cho biết với dc là số của trang bao gồm mỗi nhiễm sắc thể trong
quần thể ban đầu và nc là số nhiễm sắc thể. Một quần thể gồm có
np=dc*nc trang.
Hàm fitness tính toán cho mỗi nhiễm sắc thể được biểu diễn bằng giá
trị dương cao “tốt” cho nhiễm sắc thể và như vậy hàm được làm cực đại.
Nó bao gồm ba giai đoạn: Thứ nhất là tính tổng các điểm của trang trong
nhiễm sắc thể C, nghĩa là
1
( ) ( )
i
i
p C
t C score p

=

với score(p
i
) là điểm gốc của
trang p
i
được mô tả trước đó. Cần xem xét giới hạn khả năng dương của
nhiều trang dương có điểm cao trong nhiễm sắc thể mà còn trả lại những
nhiễm sắc thể của trang có điểm thấp. Hạn chế thứ hai của hàm fitness đó là
cân bằng.
Với ID là số chiều; tỷ lệ
2

/ (| | ) 1t np abs C ID= − +
cấu thành từ 2 số hạn
của hàm fitness. np đạt cực đại khi chiều của C chính xác bằng chiều của
ID và nhanh chóng giảm cho đến khi số những trang được chứa trong
nhiễm sắc thể C nó có thể nhỏ hơn hoặc lớn hơn ID.
Nhiễm sắc thể nằm trong quần thể ban đầu được mô tả bằng điểm
biến thiên cao của cụm thuộc các trang có liên quan. Sự tiến hoá của quần
thể thay đổi đặc trưng, tạo ra nhiễm sắc thể với thích nghi cao của trang
thuộc cụm và rất giống nhau trong mỗi cụm. Hơn nữa, sự kiện của trang
thuộc về cụm khác nhau và khác nhau trong không gian vector không được
đảm bảo, trong khi phụ thuộc một cách tự nhiên về dữ liệu và trên quá trình
xử lý phân cụm ban đầu. Với lý do đó, chúng ta giới thiệu hàm fitness thứ
ba, đánh giá toàn bộ đánh giá không giống nhau của các trang trong nhiễm
sắc thể. Với
( , )
i j
D p p
khoảng cách Euclidean của những vector đại điện cho
- 5 -

×