Đo lường sự giống nhau và
không giống nhau của dữ liệu
NHÓM 17-20
Similarity and Dissimilarity Sự giống nhau và khác nhau
1. Giống nhau
▪ Thước đo bằng số về mức độ giống nhau của hai đối tượng dữ liệu.
▪ Giá trị cao hơn khi các đối tượng giống nhau hơn.
▪ Thường rơi vào khoảng [0,1].
2. Khác nhau (ví dụ: khoảng cách)
▪ Thước đo bằng số về mức độ khác nhau của hai đối tượng dữ liệu.
▪ Thấp hơn khi các đối tượng giống nhau.
▪ Sự khác biệt tối thiểu thường là 0.
▪ Giới hạn trên thay đổi.
Data Matrix and Dissimilarity Matrix Ma trận dữ liệu và ma trận khác biệt
MA TRẬN DỮ LIỆU
• n hàng, p cột
• Hai chiều
MA TRẬN KHÁC BIỆT
• n hàng
• Ma trận tam giác
• Một chiều
Proximity Measure for Nominal Attributes
Đo lường mức độ lân cận cho các thuộc tính danh nghĩa
• Có thể có 2 hoặc nhiều trạng thái, ví dụ: đỏ, vàng, lam,lục (tổng qt hóa
thuộc tính nhị phân)
• Phương pháp 1: Đối sánh đơn giản với m: số thuộc tính mà i và j có cùng
trạng thái, p: tổng số thuộc tính mơ tả các đối tượng
=> d(i,j) = (p-m)/p
• Phương pháp 2: Sử dụng một số lượng lớn các thuộc tính nhị phân
Tạo một thuộc tính nhị phân mời cho mỗi trạng thái danh nghĩa M
Proximity Measure for Nominal Attributes : bảng dữ liệu
mẫu chứa các thuộc tính loại hỗ hợp
Đo lường mức độ lân cận cho các thuộc tính danh nghĩa
Vì ở đây chúng ta có một thuộc tính
danh nghĩa, test-1, chúng ta đặt
p=1, d(i, j)=0 nếu các đối tượng i và
j có cùng trạng thái và d(i, j)=1 nếu
các đối tượng khác nhau. Từ đó,
chúng ta thấy rằng tất cả các đối
tượng đều không giống nhau, ngoại
trừ đối tượng 1 và 4.
d(2,1)=(1-0)/1=1
d(3,1)=(1-0)/1=1
d(3,2)=(1-0)/1=1
d(4,1)=(1-1)/1=0
d(4,2)=(1-0)/1=1
d(4,3)=(1-0)/1=1
Proximity Measure for Nominal Attributes
Đo lường mức độ lân cận cho các thuộc tính danh nghĩa
Ngồi ra, sự tương tự có thể
được tính là :
sim(i,j) = 1 – d(i,j) = m/p
sim(2,1)=1-d(2,1)=1-1=0
sim(3,1)=1-d(3,1)=1-1=0
sim(3,2)=1-d(3,2)=1-1=0
sim(4,1)=1-d(4,1)=1-0=1
sim(4,2)=1-d(4,2)=1-1=0
sim(4,3)=1-d(4,3)=1-1=0
Các ma trận từ bài tốn ví dụ được
đưa ra dưới đây:
Proximity Measure for Binary Attributes
Đo lường mức độ lân cận cho các thuộc tính nhị phân
• Bảng dự phịng cho dữ liệu nhị phân
• Thước đo khoảng cách cho đối xứng biến
nhị phân
• Đo khoảng cách cho khơng đối xứng biến
nhị phân
Proximity Measure for Binary Attributes
Đo lường mức độ lân cận cho các thuộc tính nhị phân
• Hệ số Jaccard
• Lưu ý: Hệ số
Jaccard giống
như “coherence”
Bảng quan hệ nơi bệnh nhân được mô tả bằng thuộc
tính nhị phân
Ví dụ:
• Giới tính là một thuộc tính
đối xứng.
• Các thuộc tính cịn lại là
nhị phân khơng đối xứng.
• Gọi các giá trị Y và P là 1
và N là 0.
Bảng quan hệ nơi bệnh nhân được mô tả bằng thuộc
tính nhị phân
Gọi các giá trị Y và P là 1 và N là 0.
Chuẩn hóa dữ liệu số
1. Điểm Z:
* X: điểm thơ được tiêu chuẩn hóa, : trung bình của dân số, : độ lệch chuẩn
* Khoảng cách giữa điểm thô và trung bình dân số tính bằng đơn vị của độ lệch
chuẩn.
• Là giá trị âm khi điểm thơ nhỏ hơn giá trị trung binh, và ngược lại.
2. Một cách khác: Tính độ lệch tuyệt đối trung bình
với
* Thước đo tiêu chuẩn hóa (điểm Z)
Sử dụng độ lệch tuyệt đối trung bình lớn hơn so với sử dụng độ lệch chuẩn
Ví dụ về Ma trận dữ liệu và Ma trận khác biệt
Khoảng cách trên dữ liệu số: Khoảng cách Minkowski
1. Khoảng cách Minkowski: Thước đo khoảng cách phổ biến
Trong đó: i = (X[i1], X[i2],…,X[ip]) và j = (X[j1], X[j2],…,X[jp]) là hai đối tượng dữ
liệu p chiều và h là thứ tự (khoảng cách được xác định như vậy còn được gọi là
chuẩn L- h)
Thuộc tính:
• d(i,j) > 0 nếu i khác j và d(i,j)=0 (Độ xác định dương)
• d(i,j) = d(j,i) (Đối xứng)
• d(i,j) <= d(i,k) + d(k,j) (Bắt đẳng thức tam giác)
Các trường hợp đặc biệt của khoảng cách Minkwoski
• h = 1: Khoảng cách Manhattan (L1)
Ví dụ: Khoảng cách Manhattan : số bit khác nhau giữa hai vector nhị phân
• h = 2: Khoảng cách Euclidean (L2)
• h -> vơ cùng: Khoảng cách “supremum”(Lmax, Lvocung)
Đây là sự khác biệt lớn nhất giữa bất kỳ thành phần (thuộc tính) của vector:
Ví dụ về Khoảng cách Minkowski
Sự khơng giống nhau giữa các thuộc tính thứ tự
•
•
•
-
Một biến thứ tự có thể rời rạc hoặc liên tục.
Thứ tự là quan trọn, ví dụ: thứ tự hạng,..
Có thể được coi như chia theo khoảng thời gian .
Thay X[if] bằng thứ hạng của:
- Ánh xạ phạm vị của mỗi biến vào [0,1] bằng cách
thay thế đối tượng thử i trong biến thứ f bằng:
- Trong đó r là thứ hạng của một đối tượng cụ thể và
M là số tối đa được gán cho các trạng thái.
Sự khơng giống nhau giữa các thuộc tính thứ tự
Giả sử rằng chúng ta có dữ liệu mẫu được
hiển thị trước đó trong Bảng 2.2, lần này
chỉ có thuộc tính thứ tự, test-2.
Ở test-2 có 3 trạng thái là fair, good và
excellent vậy nên ta có M = 3, và các trạng
thái sẽ có thứ hạng lần lượt là 1, 2, 3. Ta
có :
Fair = (1-1)/(3-1) = 0
Good = (2-1)/(3-1) = 0.5
Excellẹnt = (3-1)/(3-1) = 1
Sự khác biệt cho các thuộc tính của các loại hỗn hợp
• Giả sử rằng tập dữ liệu chứa p thuộc tính kiểu hỗn hợp. Sự khác biệt d(i,j) giữa các
đối tượng i và j được định nghĩa là
• Nếu f là số :
• Nếu f là danh nghĩa hoặc nhị phân :
• Nếu f là thứ tự: tính các bậc rif và
trong đó h chạy trên tất cả các đối tượng
khơng chạy cho thuộc tính f
;nếu khơng thì, dij(f) = 1
và coi zif là số
Sự khác biệt cho các thuộc tính của các loại hỗn hợp
Xét bảng 2.2, ta thấy test 3
là số nên áp dụng cơng
thức (1). Ta có maxhxhf =
64 và minhxhf = 22. Từ đó
tính được các khoảng
cách:
d(2,1)=45-22/64-22=0.55
d(3,1)=64-45/64-22=0.45
d(3,2)=64-22/64-22=1
d(4,1)=45-28/64-22=0.4
d(4,2)=28-22/64-22=0.14
d(4,3)=64-28/64-22=0.86s
Sự khơng giống nhau giữa các thuộc tính của loại hỗn hợp
Dựa vào 3 ma trận khác biệt về 3 thuộc tính riêng biệt của bảng 2.2. Ta có thể tính
được ma trận thuộc tính hỗn hợp.
d(2,1) = 1+1+0.55 / 3 = 0.85
d(3,1) = 1+0.5+0.45 / 3 = 0.65
d(3,2) = 1+0.5+1 / 3 = 0.83
d(4,1) = 0+0+0.4 / 3 = 0.13
d(4,2) = 1+1+0.14 / 3 = 0.71
d(4,3) = 1+0.5+0.86 / 3 = 0.79