KHAI PHÁ DỮ LIỆU WEBLOG SỬ DỤNG PHÂN CỤM KMEANS VÀ LUẬT KẾT HỢP APRIORI

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.94 MB, 48 trang )

TRƯỜNG ĐẠI HỌC VINH
VIỆN KỸ THUẬT VÀ CÔNG NGHỆ

PHAN ĐĂNG NHẬT

KHAI PHÁ DỮ LIỆU WEBLOG SỬ DỤNG PHÂN CỤM K-MEANS
VÀ LUẬT KẾT HỢP

ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC
NGÀNH CÔNG NGHỆ THÔNG TIN

Nghệ An – 2019
TRƯỜNG ĐẠI HỌC VINH
VIỆN KỸ THUẬT VÀ CÔNG NGHỆ

1
KHAI PHÁ DỮ LIỆU WEBLOG SỬ DỤNG PHÂN CỤM K-MEANS
VÀ LUẬT KẾT HỢP

LỜI CAM ĐOAN
Tôi là Phan Đăng Nhật cam kết đồ án tốt nghiệp là công trình nghiên cứu của
bản thân tôi dưới sự hướng dẫn của TS. Phan Anh Phong.
Các kết quả nêu trong đồ án tốt nghiệp là trung thực, không phải sao chếp của
bất kỳ công trình nào khác
Nghệ An, ngày 05 tháng 5 năm 2019
Sinh viên

Phan Đăng Nhật

2

Mục Lục

3

DANH MỤC HÌNH VẼ, ĐỒ THỊ

4

LỜI MỞ ĐẦU
Trong những năm gần đây, cùng với sự phát triển của internet và tác động của
nó lên đời sống văn hóa, kinh tế cũng như chính trị. Lĩnh vực khai phá dữ liệu
Web được sự quan tâm và đầu tư của rất nhiều nhà nghiên cứu.
Việc thu thập các thói quen của người dùng để từ đó chúng ta có thể tổ chức
cũng như tìm kiếm các thông tin có lợi và hiệu quả trong thương mại điện tử.
Việc thu thập thông tin dữ liệu quá lớn và việc phân tích cũng quá là khó khăn
nếu làm việc một cách thủ công để tìm khám phá ra các hành vi người dùng khi
truy cập một website nào đó.
Chính vì vậy, việc khai phá tri thức từ weblog một loại nhật kí web giúp ta
phần nào tìm hiểu được hành vi của người dùng để từ đó có thể sử dụng chúng
trong thương mại điện tử cũng như tạo ra những trang web thân thiện với người
dùng.
Vậy nên tác giả chọn đề tài “Khai phá dữ liệu Weblog sử dụng
phân cụm K-Means và luật kết hợp” để làm đồ án tốt nghiệp của
mình.
Và nội dung đề tài được bố cục gồm 3 chương sau:
Chương 1. Giới thiệu về khai phá dữ liệu web. Nội dung bao gồm: Phát

hiện tri thức và khai phá dữ liệu; Giới thiệu về thuật toán Apriori và Kmeans.
Chương 2. Weblog và khai phá dữ liệu weblog. Nội dung chính là trình bày
về weblog là gì và có bao nhiêu loại weblog được sử dụng để thu thập thông tin
người dùng, các loại định dạng của weblog.
Chương 3 Thử nghiệm khai phá dữ liệu weblog đại học Vinh. Nội dung là
Cài đặt các chương trình cần thiết và cách thức triển khai với weblog đại học
Vinh.

5

LỜI CẢM ƠN
Trong khi em thực hiện đồ án tốt nghiệp với đề tài “Khai phá dữ liệu
Weblog sử dụng phân cụm K-Means và luật kết hợp”, được
sự hướng dẫn cũng như tạo mọi điều kiện của các thầy cô trong Viện Kỹ Thuật
và Công Nghệ để em hoàn thành đồ án tốt nghiệp của mình.
Đặc biệt, em xin gửi lời cảm ơn sâu sắc tới TS.Phan Anh Phong người đã
trực tiếp hướng dẫn tận tình cho em từng hướng đi, cũng như các kinh nghiệm
trong quá trình làm đồ án tốt nghiệp. Để em từng bước, từng bước hoàn thiện đồ
án của mình. Đó là những kinh nghiệm quý báu trong quá trình hoàn thành đồ án,
cũng như sau này tìm hiểu hay nghiên cứu về một lĩnh vực nào đó trong ngành
công nghệ thông tin.
Trong khi làm đồ án tốt nghiệp, do kiến thức của mình và khả năng của mình
còn hạn chế nên không thể tránh khỏi sai sót. Mong các thầy cô và các bạn góp ý
cho em để có thể hoàn thiện hơn. Em xin chân thành cảm ơn!
Sinh viên
Phan Đăng Nhật

6

Chương 1 : Giới thiệu về khai phá dữ liệu web
1.1. Khai phá dữ liệu và khai phá tri thức
1.1.1. Khai phá dữ liệu
Khai phá dữ liệu là quá trình khám phá tri thức mới và các tri thức có ích ở
dạng tiềm năng trong nguồn dữ liệu đã có.
Khai phá dữ liệu là một bước trong quá trình khám phá tri thức bao gồm các
thuật toán khai phá dữ liệu chuyên dùng cùng với một số quy định về hiệu quả
tính toán chấp nhận được để tìm ra các mẫu và các mô hình trong dữ liệu.
1.1.2. Quá trình khai phá tri thức
- Làm sạch dữ liệu : loại bỏ dữ liệu nhiễu và không nhất quán.
- Tích hợp dữ liệu : kết hợp nhiều nguồn dữ liệu.
- Lựa chọn dữ liệu : dữ liệu liên quan đến nhiệm vụ phân tích sẽ được lấy từ
cơ sở dữ liệu.
- Chuyển đổi dữ liệu : quá trình chuyển đổi dữ liệu thành dạng thích hợp theo
yêu cầu của quy trình khai thác.
- Khai phá dữ liệu : áp dụng các kĩ thuật thông minh để trích xuất các mẫu dữ
liệu.
- Đánh giá mẫu : các mẫu dữ liệu được đánh giá.
- Biểu diễn tri thức : sử dụng các công cụ trực quan để biểu diễn các kết quả
khai thác được.
1.1.3. Nhiệm vụ của khai phá dữ liệu :
Những nhiệm vụ cơ bản nhất của khai phá dữ liệu là:
- Phân cụm, phân loại, phân nhóm, phân lớp.
- Khai phá luật kết hợp.
- Lập mô hình dự báo.
- Phân tích sự tiến hóa
1.1.4. Một số ứng dụng của khai phá dữ liệu :
- Thương mại: Phân tích dữ liệu bán hàng và thi trường, phân tích đầu tư,
quyết định cho vay, phát hiện gian lận.

- Thông tin sản xuất: Điều khiển và lập kế hoạch, hệ thống quản lý, phân tích
kết quả thử nghiệm.
- Thông tin khoa học: dự báo thời tiết, cơ sở dữ liệu sinh học: Ngân hàng
gen, khoa học địa lý: dự báo động đất.
- Trong y tế, marketing, ngân hàng, viễn thông, du lịch, internet…

7

Hình 1.1 : Quy trình khai phá tri thức
1.2. Phân cụm K-means
Phân cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu. Có rất nhiều định
nghĩa khác nhau về kỹ thuật này, nhưng về bản chất ta có thể hiểu phân cụm là
các qui trình tìm cách nhóm các đối tượng đã cho vào các cụm, sao cho các đối
tượng trong cùng 1 cụm tương tự nhau và các đối tượng khác cụm thì không
tương tự nhau.
Mục đích của phân cụm là tìm ra bản chất bên trong của các nhóm dữ liệu.
Không gian metric là một tập hợp trong đó có xác định các “khoảng cách”
giữa từng cặp phần tử, với những tính chất thông thường của khoảng cách hình
học.

8

Ta có :
- Tập X : các đối tượng dữ liệu trong cơ sở dữ liệu D là một không gian
metric nếu :
Với mỗi cặp phần tử x, y thuộc X đều có xác định, theo một quy tắc nào đó,
một số thực δ(x, y), được gọi là khoảng cách giữa x và y.
Quy tắc trên thoả mãn hệ tính chất sau:

- δ(x, y) > 0 nếu x ≠ y ;
- δ(x, y)=0 nếu x =y;
- δ(x, y) = δ(y, x) với mọi x, y; (iv) δ(x, y) ≤ δ(x, z)+δ(z, y).
Hàm δ(x, y) được gọi là một metric của không gian. Các phần tử của X được
gọi là các điểm của không gian này.
Sau khi chuẩn hoá, độ tương tự của hai đối tượng dữ liệu x, y được xác định
bằng các metric như sau:
- Khoảng cách Minskowski:
nguyên dương.

, với q là số

- Khoảng cách Euclidean:
, (trường hợp đặc
biệt của khoảng cách Minskowski trong trường hợp q=2).
- Khoảng cách Manhattan:
, (trường hợp đặc biệt
của khoảng cách Minskowski trong trường hợp q=1).
- Khoảng cách cực đại :

, đây là trường

hợp của khoảng cách Minskowski trong trường hợp
K-Means là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuật
phân cụm. Tư tưởng chính của thuật toán K-Means là tìm cách phân nhóm các
đối tượng (objects) đã cho vào K cụm (K là số các cụm được xác đinh trước, K
nguyên dương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến
tâm nhóm (centroid ) là nhỏ nhất.
Thuật toán K-Means :
- Mô tả :

9

Hình 2.2: Sơ đồ thuật toán K-Means
- Các bước thực hiện :
1. Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster). Mỗi cụm được

đại diện bằng các tâm của cụm.
2. Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thường dùng

khoảng cách Euclidean)
3. Nhóm các đối tượng vào nhóm gần nhất
4. Xác định lại tâm mới cho các nhóm
5. Thực hiện lại bước 2 cho đến khi không có sự thay đổi nhóm nào của các

đối tượng
- Ví dụ minh họa :
10

Giả sử mình có 4 điểm A, B, C, D như bảng dưới đây. Mỗi điểm được đặc
trưng bởi 2 tọa độ X và Y. Yêu cầu là nhóm 4 điểm vào 2 nhóm (K = 2) dựa vào
đặc trưng của chúng.
Đối tượng

X

Y

A

1

1

B

2

1

C

4

3

D

5

4

Bước 1 : Khởi tạo tâm cho 2 nhóm. Giả sử ta chọn :
- A là tâm của nhóm thứ nhất (tọa độ tâm nhóm thứ nhất c1(1,1)).
- B là tâm của nhóm thứ 2 (tạo độ tâm nhóm thứ hai c2 (2,1)).
Bước 2 : Tính khoảng cách từ các đối tượng đến tâm ( Khoảng cách Ơ-Clit)

5  c1 = (1,1) group − 1

0 1 3.61
D0 = 

1 0 2.83 4.24  c2 = (2,1) group − 2
Mỗi cột trong ma trận khoảng cách (D) là một đối tượng (cột thứ nhất tương
ứng với đối tượng A, cột thứ 2 tương ứng với đối tượng B,…).
Hàng thứ nhất trong ma trận khoảng cách biểu diễn khoảng cách giữa các đối
tượng đến tâm của nhóm thứ nhất (c1) và hàng thứ 2 trong ma trận khoảng cách
biểu diễn khoảng cách của các đối tượng đến tâm của nhóm thứ 2 (c2).
Ví dụ, khoảng cách từ loại thuốc C=(4,3) đến tâm c1(1,1) là 3.61 và đến tâm
c2(2,1) là 2.83 được tính như sau:

c1 = (1,1)
(4 − 1) 2 + (3 − 1) 2 = 3.61
c2 = (2,1)
(4 − 2) 2 + (3 − 1) 2 = 2.83
Bước 3 : Nhóm các đối tượng vào nhóm gần nhất
11

1 0 0 0  group − 1
G =
 group − 2
0
1
1
1


0

A

B

C

D

Sau vòng lặp thứ 1 ta có :
- Nhóm 1 : A
- Nhóm 2 : B, C, D
Bước 4 : Tính lại tọa độ các tâm cho các nhóm mới dựa vào tọa độ của các đối
tượng trong nhóm.
Nhóm 1 chỉ có 1 đối tượng A nên tâm nhóm 1 vẫn không đổi, c1(1,1).
Tâm nhóm 2 được tính như sau:

 2 + 4 + 5 1 + 3 + 4   11 8 
c2 = 
,
÷=  , ÷
3
3   3 3

Bước 5 : Tính lại khoảng cách từ các đối tượng đến tâm mới

c = (1,1)

1
group − 1

0
1
3.61
5


 11 8 
D1 = 
 c2 =  , ÷ group − 2
3.14 2.36 0.47 1.89 
 3 3

Bước 6 : Nhóm các đối tượng vào nhóm gần nhất

1 1 0 0  group − 1
G =
 group − 2
0
0
1
1


A B C D
2

Bước 7 : Tính lại tâm cho nhóm mới
12

 1+ 2 1+1   3 
c1 = 
,
÷ =  ,1÷
2  2 
 2
 4+5 3+ 4   9 7 
c2 = 
,
÷=  , ÷
2
2

 2 2
Bước 8 : Tính lại khoảng cách từ các đối tượng đến tâm mới

0.5 0.5 3.2 4.61
D =

4.3
3.54
0.71
0.71


2

3
c1 = ( ,1)
2

9 7
c2 =  , ÷
2 2

group − 1
group − 2
Bước 9 : Nhóm các đối tượng vào nhóm

1 1 0 0  group − 1
G =
 group − 2
0
0
1
1


A B C D
2

Ta thấy, G1 = G2 nên thuật toán dừng lại và ta có kết quả như sau :
Đối tượng

X

Y

Nhóm

A

1

1

1

B

2

1

1

C

4

3

2

D

5

4

2

13

Thuật toán K-Means có ưu điểm là đơn giản, dễ hiểu và cài đặt. Tuy nhiên,
một số hạn chế của K-Means là hiệu quả của thuật toán phụ thuộc vào việc chọn
số nhóm K (phải xác định trước) và chi phí cho thực hiện vòng lặp tính toán
khoảng cách lớn khi số cụm K và dữ liệu phân cụm lớn.
1.3. Luật kết hợp và thuật toán Apriori
Luật kết hợp là phương tiện hữu ích để khám phá các mối liên kết trong dữ liệu.
Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa
các giá trị dữ liệu trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật khai phá dữ liệu
là luật kết hợp tìm được.
Cho cơ sở dữ liệu T gồm các giao dịch t1, t2, …, tn. Kí hiệu T={ t1, t2, …, tn}
được gọi là cơ sở dữ liệu giao dịch.
Mỗi giao dịch ti bao gồm tập các mục I (itemset), I = {i1, i2, …, im}. Một
itemset gồm k item được gọi là k-itemset.
Mục đích của luật kết hợp là tìm ra sự kết hợp hay tương quan giữa các item.
Một luật kết hợp được định nghĩa là một mệnh đề kéo theo có dạng
X ,Y ⊆ I

X ⇒Y

,

X ∩Y =

trong đó
thõa mãn điều kiện
Ø. X, Y được gọi là các tập mục

(itemset). Tập X gọi là nguyên nhân, tập Y gọi là hệ quả.
Theo quan điểm thống kê: X được gọi là biến độc lập và Y được gọi là biến phụ
thuộc.
Độ hỗ trợ của một tập mục X trong cơ sở dữ liệu T là tỉ lệ giữa số lượng
các bản ghi có chứa tập mục X và tổng số bản ghi trong T (hay là phần trăm của
các bản ghi trong T có chứa tập mục X). Kí hiệu sup(X) có công thức sau:
0 ≤ sup( X ) =

{ t ∈ T | X ⊆ T } = n( X ) ≤ 1
T

N

Trong đó: n(X) là số giao dịch chứa X, N là tổng số giao dịch.
Độ hỗ trợ của một luật kết hợp
chứa tập mục
công thức sau:

X ∪Y

X ⇒Y

là tỉ lệ giữa số lượng các bản ghi

so với tổng số các bản ghi trong T. Kí hiệu

14

sup( X ⇒ Y )

có

0 ≤ sup( X ⇒ Y ) =

{ t ∈ T | X ∪ Y ⊆ T } = n( X ∪ Y ) ≤ 1
T

N

Trong đó: n(X) là số giao dịch chứa X, N là tổng số giao dịch.
Độ tin cậy của một luật kết hợp
trong T chứa tập mục
X. Kí hiệu

X ∪Y

conf ( X ⇒ Y )

X ⇒Y

là tỉ lệ giữa số lượng các bản ghi

so với số lượng các bản ghi trong T chứa tập mục

có công thức sau :

0 ≤ conf ( X ⇒ Y ) =

{ t ∈ T | X ∪ Y ⊆ T } = n( X ∪ Y ) = sup( X ∪ Y ) ≤ 1

{t ∈ D | X ⊆ T }
n( X )
sup( X )

Trong đó: n(X) là số giao dịch chứa X.
Tập mục X được gọi là tập mục thường xuyên (frequent itemset) nếu
sup( X ) ≥ min sup

, với minsup là độ hỗ trợ tối thiểu cho trước.

Ngược lại, một tập mục không thường xuyên X là tập mục mà độ hỗ trợ của
nó nhỏ hơn độ hỗ trợ tối thiểu cho trước.
Lift : là một độ đo về sự tương quan giữa các tập thường xuyên với nhau. Giả
sử ta có 2 tập thường xuyên X và Y. Sự xuất hiện của tập thường xuyên X là độc
lập với sự xuất hiện của tập thường xuyên Y nếu supp(X U Y) =
supp(X).supp(Y). Ngược lại thì tập thường xuyên X và Y là phụ thuộc và tương
quan lẫn nhau.
Lift của luật kết hợp X=>Y là tỷ số giữa giao dịch hỗ trợ X và Y với tích của
các giao dịch hỗ trợ X và các giao dịch hỗ trợ Y.

Giá trị lift(X==>Y) nằm trong đoạn [0,+∞].
Nếu lift(X==>Y) nhỏ hơn 1 thì sự xuất hiện của X là tương quan nghịch so
với sự xuất hiện của Y. Ngược lại, lift(X==>Y) lớn hơn 1 thì sự xuất hiện của X
là tương quan thuận so với sự xuất hiện của Y.
Nếu lift(X==>Y) bằng 1 thì sự xuất hiện của X và Y là độc lập với nhau.
15

Nếu

X ⇒Y

và

Y⇒Z

, chúng ta không thể suy ra

X ⇒Z

1.3.1. Thuật toán Apriori :
Bước 1: Duyệt toàn bộ giao dịch trong cơ sở dữ liệu để có được tập ứng cử
viên C1 (1-itemset) và độ hỗ trợ supp tương ứng. So sánh sup với minsup để có
được tập mục thường xuyên F1 (1-itemset).
Bước 2: Nối Fk-1 với Fk-1 để sinh ra tập ứng viên k-itemset Ck.
Bước 3: Duyệt các giao dịch trong cơ sở dữ liệu để tính độ hỗ trợ sup của mỗi
tập ứng cử viên k-itemset Ck. So sánh độ hỗ trợ supp với minsup (supp ≥ minsup)
để thu được tập mục thường xuyên k-itemset (Fk).
Bước 4: Lặp bước 2 cho đến khi tập ứng cử viên Ck bằng rỗng.
Bước 5: Với mỗi tập mục thường xuyên F, sinh tất cả các tập con S không
rỗng của F.
S ⇒ (F − S )

Bước 6: Với mỗi tập con S, tạo ra các luật có dạng
của nó thỏa mãn ngưỡng độ tin cậy tối thiểu (minconf).

nếu độ tin cậy

Ví dụ : Cho một ví dụ tập các giao dịch từ các hóa đơn mua hàng như sau:

TID Các món hàng được mua (Item)
1

{ x,

m,

t,

2

{ x,

m}

3

{ p,

s,

t}

4

{ a,

x,

c,

5

{ a,

x}

6

{ e,

t,

y}

16

y}

d}

7

{ a,

x,

m}

Cho Min Support = 30%, Min Confidence = 60%
Tính tập Large 1-item, ta có F1:
Tập Item

Số lần xuất hiện

{a}

3

{x}

5

{m}

3

{t}

3

Ở bước kết Từ F1 trên ta có tập C2 gồm các cặp 2-item:
{{a, x}, {a, m}, {a,t}, {x,m}, {x,t}, {m,t}}
Tính tập Large 2-item, ta có F2:
Tập Item

Số lần xuất hiện

{a, x}

3

{a, m}

1

{a, t}

0

{x, m}

3

{x, t}

1

{m, t}

1

Chỉ lấy các cặp 2-items có Support > Min Support ( = 30% ) gồm: {a, x} và {x,
m}
Phát sinh luật:
a → x có độ Confidence 3/3 = 100%
x → a có độ Confidence 3/5 = 60%
x → m có độ Confidence 3/5 = 60%

17

m → x có độ Confidence 3/3 = 100%
Ở bước lược bỏ ta có F2 = {{a, x}, {x,m}}
Ở bước kết Từ F2 ta có tập C3 gồm các cặp 3-item là {∅}
Thuật toán kết thúc.
1.4. Khai phá dữ liệu Web
Khai thác web là ứng dụng các kỹ thuật khai thác dữ liệu để trích xuất kiến
thức từ dữ liệu Web, trong đó ít nhất một dữ liệu cấu trúc hoặc sử dụng (Web log)
được sử dụng trong quá trình khai thác.
Các loại khai phá dữ liệu Web

Hình 3.3: Các loại khai phá dữ liệu Web
- Khai thác nội dung web : quá trình khám phá thông tin hữu ích từ dữ liệu
văn bản, hình ảnh, âm thanh hoặc video trên web.
- Khai thác cấu trúc web : quá trình sử dụng lý thuyết đồ thị để phân tích nút
và cấu trúc kết nối của một trang web
- Khai thác sử dụng web : ứng dụng sử dụng khai thác dữ liệu để phân tích
và khám phá sở thích của người dùng thông qua dữ liệu trên web

18

Chương 2 : Weblog và khai phá dữ liệu Weblog
Web log file là các tệp chứa thông tin về hoạt động của khách truy cập trang
web. Web log file được tạo bởi các máy chủ web tự động. Mỗi khi khách truy cập
yêu cầu bất kỳ tệp nào (trang, hình ảnh, v.v.) từ trang web, thông tin về yêu cầu
của anh ta sẽ được thêm vào tệp nhật ký(file log) hiện tại. Hầu hết các tệp nhật ký
có định dạng văn bản và mỗi mục nhật ký (hit) được lưu dưới dạng một dòng văn

bản. Tệp nhật ký(log file) phạm vi 1KB đến 100MB.
2.1. Vị trí của tệp weblog:
Web log file được đặt ở ba vị trí khác nhau.
- Nhật ký máy chủ web(Web server logs): Tệp nhật ký web(web log file)
cung cấp việc sử dụng dữ liệu chính xác và đầy đủ nhất cho máy chủ web.
Tệp nhật ký (log file) không ghi lại các trang được lưu trong bộ nhớ cache.
Dữ liệu của các tệp nhật ký là nhạy cảm, thông tin cá nhân để máy chủ web
giữ chúng.

- Máy chủ proxy web(web proxy server): Máy chủ proxy web nhận yêu cầu
HTTP từ người dùng, đưa chúng đến máy chủ web, sau đó kết quả được
chuyển đến máy chủ web và trả về cho người dùng. Khách hàng gửi yêu
cầu đến máy chủ web thông qua máy chủ proxy. Hai nhược điểm là: Xây
dựng máy chủ Proxyserver là một nhiệm vụ khó khăn. Lập trình mạng nâng
cao, như TCP / IP, được yêu cầu cho việc xây dựng này. Việc chặn yêu cầu
bị hạn chế.
- Clien Brower : Tệp nhật ký có thể nằm trong cửa sổ trình duyệt của máy
khách. HTTP Cookie được sử dụng cho trình duyệt của khách hàng. Các
HTTP Cookie này là những mẩu thông tin được tạo bởi một máy chủ web
và được lưu trữ trong máy tính của người dùng, sẵn sàng cho việc truy cập
trong tương lai.
2.2. Các loại Weblog
Có bốn loại tệp nhật ký máy chủ :

19

- Tệp nhật ký truy cập (Access Log File) : Dữ liệu của tất cả các yêu cầu đến
và thông tin về máy khách của máy chủ. Nhật ký truy cập ghi lại tất cả các
yêu cầu được xử lý bởi máy chủ.

- Tệp nhật ký lỗi (Error Log File) : danh sách lỗi nội bộ. Bất cứ khi nào xảy
ra lỗi, trang đang được khách hàng yêu cầu đến máy chủ web, mục nhập
được thực hiện trong nhật ký lỗi. Truy cập và nhật ký lỗi phần lớn được sử
dụng, nhưng tác nhân và nhật ký tham chiếu có thể hoặc không thể kích
hoạt tại máy chủ.
- Tệp nhật ký tác nhân( Agent Log File) : Thông tin về trình duyệt người
dùng, phiên bản trình duyệt.
- Tệp nhật ký tham chiếu( Referrer Log File) : Tệp này cung cấp thông tin về
liên kết và chuyển hướng khách truy cập đến trang web.
2.3. Định dạng Weblog
Tệp nhật ký web là một tệp văn bản đơn giản ghi lại thông tin về mỗi người
dùng. Hiển thị dữ liệu tệp nhật ký ở ba định dạng khác nhau :
- Định dạng tệp nhật ký mở rộng W3C
- Định dạng tệp nhật ký chung NCSA
- Định dạng tệp nhật ký IIS
Định dạng tệp nhật ký NCSA và IIS, dữ liệu được ghi cho mỗi yêu cầu là cố
định.
2.3.1. Định dạng NCSA
Định dạng NCSA là một loại ghi nhật ký phía máy chủ có thể được bật trên
một nhóm URL. Định dạng tệp nhật ký chung NCSA là định dạng dựa trên văn
bản ASCII cố định không thể tùy chỉnh.
Cú pháp NCSA được ghi theo thứ tự bảng sau :
Trường

Mô tả

Địa chỉ máy chủ từ xa(remote host Địa chỉ IP của người đã thực hiện yêu
address)
cầu.
Tên nhật ký từ xa(remote log name)

Luôn là dấu “-“

Tên người dùng (user name)

Tên của người dùng được xác thực đã
20

truy cập máy chủ. Người dùng ẩn danh
được chỉ định bằng dấu gạch nối.
Ngày, giờ, múi giờ (date, time)

Ngày, giờ và múi giờ địa phương tại nơi
người dùng gửi yêu cầu

Yêu cầu và phiên bản giao thức(request Phiên bản giao thức HTTP mà người yêu
and protocol version)
cầu đã sử dụng.
Mã trạng thái dịch vụ(Service status Mã trạng thái HTTP.
code)
Byte đã gửi (Bytes sent)
Ví dụ :

Số lượng byte được gửi bởi máy chủ.

KHAI PHÁ DỮ LIỆU WEBLOG SỬ DỤNG PHÂN CỤM KMEANS VÀ LUẬT KẾT HỢP APRIORI

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về