Tải bản đầy đủ (.pdf) (8 trang)

Vấn đề phân loại đa nhãn cho đồ thị

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (679.63 KB, 8 trang )

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018
DOI: 10.15625/vap.2018.00074

VẤN ĐỀ PHÂN LOẠI ĐA NHÃN CHO ĐỒ THỊ
1

Hoàng Minh Quang1, Nguyễn Ngọc Cương2
Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam.
2
Cục Công nghệ thông tin - Bộ Cơng An.

TĨM TẮT: Học máy là lĩnh vực rất quan trọng trong khai phá dữ liệu, đặc biệt trong bối cảnh dữ liệu ngày càng tăng nhanh chóng
và kiểu dữ liệu ngày càng đa dạng do được thu thập từ nhiều nguồn thông tin khác nhau. Phân loại hay phân lớp dữ liệu là một kỹ
thuật chính yếu trong lĩnh vực học máy. Với sự tăng trưởng dữ liệu nhanh chóng và đa dạng kiểu dữ liệu, phân loại đa nhãn đang
trở thành một xu thế mới do bản chất vấn đề phân loại dữ liệu thường là đa nhãn chẳng hạn như đối với âm thanh thì một bài nhạc
có thể được phân vào nhiều nhãn cảm xúc đồng thời, hay một hình ảnh có thể được phân vào nhiều nhãn đồng thời như động vật, tự
nhiên, hoang dã,... Tuy nhiên, phân loại đa nhãn phải có một độ tin cậy nhất định vì một bức ảnh rộng chỉ chứa vài cây cỏ cũng có
thể được phân vào nhãn hoang dã. Hầu hết các cơng trình phân loại đa nhãn đều áp dụng trên cấu trúc dữ liệu biểu diễn dạng
vecto, trong bài báo này chúng tôi đề xuất một phương pháp phân loại đa nhãn cho kiểu dữ liệu có thể biểu diễn dạng đồ thị chẳng
hạn như các cấu trúc hoá học các thành phần thuốc tây bằng cách xây dựng một dàn giao khái niệm cho dữ liệu đồ thị đồng thời sử
dụng luật Dempster-Shafer để tăng hiệu quả và độ chính xác phân loại đa nhãn đồ thị..
Từ khóa: Khai phá dữ liệu, đồ thị con thường xuyên, khai phá đồ thị, phân loại đồ thị, phân loại đa nhãn, phân loại đa nhãn cho đồ thị.

I. GIỚI THIỆU
Học máy là lĩnh vực rất quan trọng trong khai phá dữ liệu, đặc biệt là những dữ liệu rất lớn mà các thuật tốn
tìm kiếm chính xác khơng khả thi do độ phức tạp tính toán thuộc lớp NP-đầy đủ. Các dữ liệu ngày càng đa dạng về mặt
cấu trúc, các phương pháp khai phá dữ liệu trên bảng gặp nhiều khó khăn như dữ liệu cấu trúc tế bào, cấu trúc mạng
nơron, cấu trúc protein, v.v... Để giải quyết các vấn đề này các nhà khoa học đã áp dụng biểu diễn dữ liệu cấu trúc đồ
thị, cây, dàn giao và áp dụng các phương pháp khai phá dữ liệu hiện có với các loại biểu diễn dữ liệu khác lên các biểu
diễn dữ liệu đồ thị. Học máy áp dụng trên đồ thị là một hướng đi đúng đắn cho xu thế dữ liệu đa dạng và phức tạp ngày
nay. Do tính chất đa dạng của dữ liệu và đa dạng các mục tiêu, các phương pháp phân lớp dữ liệu trong học máy dần


chuyển từ phân loại đơn nhãn sang phân loại đa nhãn. Tuy nhiên để áp dụng phân loại đa nhãn cho đồ thị là khá khó
khăn vì bản chất biểu diễn dữ liệu đồ thị khó có thể chuyển đổi về biểu diễn vectơ để áp dụng các thuật tốn phân loại
đa nhãn. Các cơng nghệ thu thập dữ liệu ngày càng được cải tiến, nhiều lĩnh vực ứng dụng phải đối mới với dữ liệu đa
dạng và đa cấu trúc như cấu trúc hóa học, cấu trúc luồng chương trình, tài liệu XML, web... Khác với dữ liệu truyền
thống trong không gian đặc trưng, các dữ liệu này khơng thể biểu diễn dưới dạng vecto mà chỉ có thể biểu diễn dưới
dạng đồ thị dẫn đến một thách thức cơ bản của khai phá dữ liệu đồ thị là thiếu biểu diễn vecto [11]. Một mơ hình hiệu
quả cho dữ liệu đồ thị có thể trích xuất và tìm các tập đồ thị con đặc trưng để thực hiện phân tích hoặc quản lý. Những
thách thức này thúc đẩy các vấn đề nghiên cứu khai phá đồ thị đặc biệt là phân loại đồ thị đã nhận được sự quan tâm
đáng kể trong thập niên gần đây.
Phân loại dữ liệu được nghiên cứu rộng rãi. Hầu hết các phương pháp phân loại này đều tập trung vào phân loại
đơn nhãn. Tuy nhiên, nhiều lĩnh vực trong cuộc sống đòi hỏi các đối tượng phải được gán nhiều nhãn như ảnh, nhạc,
gen, web. Khơng thể phủ nhận vai trị của phân loại đa nhãn trong việc giải quyết nhiều vấn đề quan trọng trong cuộc
sống hiện đại. Phân loại đa nhãn giải quyết vấn đề gán một tập các nhãn cho mọi đối tượng trong một tập hợp dữ liệu.
Tức là, mỗi đối tượng trong một tập dữ liệu có thể được gán đồng thời nhiều nhãn. Ví dụ, trong nhiều trang thương mại
điện tử, có hàng tỉ đoạn quảng cáo, mỗi cái đều gắn nhiều thẻ, có sẵn cho mọi người tìm kiếm và phân tích. Có hàng tỉ
thẻ như vậy trên mạng toàn cầu. Làm cách nào Google đưa ra cho ta câu trả lời thỏa mãn hầu hết các tìm kiếm. Rõ ràng
là học đa nhãn là một vấn đề nghiên cứu quan trọng để tìm ra kết quả tốt nhất về năng suất và hiệu quả. Vấn đề phân
loại đơn nhãn là loại trừ lẫn nhau các nhãn. Cho X là miền của các đối tượng và Y là tập các nhãn, H tập các hàm hàm
phân loại cho X  Y. Mục tiêu là tìm hàm phân loại h ∊ H có khả năng tối đa h(x) = y với y ∊ Y là nhãn xác thực của
x. Với phân loại đa nhãn, các lớp cơ bản là khơng loại trừ lẫn nhau có thể chồng đè lên nhau. Cho B là tập các vecto
nhị phân có độ dài |Y|. H là tập các hàm phân loại của X  B. Mục tiêu là tìm hàm phân loại h ∊ H mà tối thiểu một
khoảng cách (ví dụ Hamming) giữa h(x) và bx cho một đối tượng mới x. Trong một phương pháp xác suất, mục tiêu
phân loại đối tượng x là để tìm một hoặc nhiều nhãn lớp cơ sở trong một tập nhãn C với một ngưỡng T mà P(c|x) > T,
∀ c ∊ C. Thông thường nhất, các tiếp cận hợp nhất đơn giản, như lấy số đông, lớn nhất và trung bình được sử dụng.
Lý thuyết Dempster Shafer là một khung hợp nhất các hàm phân loại dựa trên luật của Dempster tăng độ chính
xác trong phân lớp. Áp dụng lý thuyết Dempster Shafer [3] để phân loại đa nhãn cho đồ thị tăng độ chính xác trong
phân loại và giảm độ phức tạp. Denoeux đã giới thiệu phân loại đa nhãn áp dụng lý thuyết Dempster như [4, 5, 6] đã đề
xuất một phương pháp đề giảm độ phức tạp tính tốn trong thao tác và kết hợp các hàm khối, khi các hàm tin cậy được
xác định trên một tập con phù hợp của khung phân biệt được kết hợp với cấu trúc dàn giao. Phương pháp này áp dụng
cho phân loại đa nhãn dựa trên hàm phân loại k-láng giềng gần nhất (KNN) minh chứng [5]. Theo như Denoeux [5] thì

áp dụng lý thuyết Dempster Shafer cho phân loại đa nhãn sử dụng phương pháp kNN, với mỗi thành phần của tập k các


568

VẤN ĐỀ PHÂN LOẠI ĐA NHÃN CHO ĐỒ THỊ

láng giềng sẽ lấy được một hàm khối và theo luật Dempster hợp nhất k hàm khối này để được duy nhất một hàm khối
cho đối tượng mới x. Tuy nhiên, ở đây chỉ áp dụng lý thuyết Dempster Shafer cho phân loại đa nhãn cho tập dữ liệu
các đối tượng có một biểu diễn vecto. Dựa vào biểu diễn vecto này, chúng ta có thể tìm được tập k láng giềng gần nhất.
Nhưng với dữ liệu đồ thị thì có nhiều cách để tìm được tập k láng giềng bằng các phương pháp sử dụng độ đo khác
nhau như đẳng cấu đồ thị con, đồ thị con chung lớn nhất, khoảng cách Hausdorff, đỉnh của hai đồ thị gần nhau, cạnh
của hai đồ thị gần nhau, các nhân đường đi ngắn nhất, khoảng cách sửa đổi đồ thị. Các phương pháp này đều đưa ra
phương pháp xác định để so sánh tìm được k đồ thị láng giềng gần với đồ thị được xét. Tuy nhiên, mục tiêu của chúng
ta cần tìm k đồ thị láng giềng mà có tập nhãn xấp xỉ với k tập nhãn của k đồ thị láng giềng. Như vậy, ở đây phải có một
mối liên hệ giữa tập nhãn và tập đồ thị. Mối liên hệ đó chính là chìa khóa mở ra việc đi tìm tập k láng giềng. Theo đó,
các phương pháp độ đo như đồ thị con chung lớn nhất của Hausdorff hay khoảng cách chỉnh sửa đồ thị, các nhân
đường đi ngắn nhất không thể áp dụng được cho phân loại đa nhãn đồ thị dùng lý thuyết Dempster Shafer. Theo như
[11] mối quan hệ giữa tập nhãn và tập đồ thị chính là tập các đồ thị con của đồ thị với tập các nhãn. [11] coi việc xác
định các đặc trưng phù hợp cho phân loại đa nhãn là tìm ra tập các đồ thị con và coi tập đồ thị con là lựa chọn đặc
trưng. [13] đã đưa ra một phương pháp xây dựng dàn giao khái niệm cho đồ thị áp dụng vào phân loại đồ thị nhưng
chưa áp dụng cho phân loại đồ thị đa nhãn. Từ dàn giao khái niệm này, mà tính chất của đồ thị được thể hiện bởi các
đồ thị con của nó, nghiên cứu sinh xây dựng dàn giao khái niệm áp dụng vào phân loại đa nhãn đồ thị theo lý thuyết
Dempster Shafer, dàn giao khái niệm thỏa mãn mối quan hệ giữa tập nhãn và tập đồ thị làm độ đo tương tự trong quá
trình tìm tập k láng giềng của một đồ thị mới để xác định tập nhãn cho đồ thị mới cần phân loại đa nhãn.
Phân loại đa nhãn áp dụng cho nhiều lĩnh vực, tuy nhiên đối với dữ liệu biểu diễn dạng đồ thị thì phân loại đa
nhãn gặp nhiều khó khăn do đồ thị khó có thể véctơ hóa như các dạng biểu diễn dữ liệu khác. Tùy thuộc vào từng yêu
cầu của từng vấn đề cụ thể sẽ có tương ứng cách biến đổi dữ liệu đồ thị sang biểu diễn véctơ. Do vậy sẽ gặp nhiều khó
khăn trong q trình xác định độ tương tự giữa hai đồ thị. Tác giả đã nghiên cứu và xây dựng thành công dàn giao khái
niệm làm cơ sở để xác định độ đo tương tự giữa hai đồ thị. Từ đó có thể áp dụng phương pháp k láng giềng gần nhất để

tìm tập nhãn cho một đồ thị mới dựa trên tập nhãn của k đồ thị láng giềng có độ đo gần nhất với nó. Để xây dựng dàn
giao khái niệm, tác giả sử dụng thuật toán khai phá đồ thị con thường xuyên đóng PSI-CFSM để xác định tập đồ thị
con thường xuyên đóng của mỗi đồ thị gi ∊ GD. Dựa vào các đồ thị con thường xuyên đóng này làm đặc trưng cho mỗi
đồ thị và xây dựng khái niệm chính thức, quan hệ cha con giữa hai khái niệm chính thức và hình thành nên dàn giao
khái niệm.
Trong bài báo này, chúng tôi đề xuất phương pháp phân loại đa nhãn cho đồ thị sử dụng tập đồ thị con thường
xuyên đóng của mỗi đồ thị làm đặc trưng xây dựng dàn giao khái niệm cho các đồ thị trong cơ sở dữ liệu đồ thị giao
tác. Từ dàn giao khái niệm này có thể tính tốn khoảng cách của các đồ thị từ đó xác định được độ đo tương tự giữa các
đồ thị đồng thời áp dụng kỹ thuật k láng giềng gần nhất và luật kết hợp Dempster-Shafer để thực hiện phân loại đa
nhãn cho một đồ thị ứng viên.
II. MỘT SỐ ĐỊNH NGHĨA
[10] Một đồ thị gắn nhãn G là một bộ G = (V,E,∑ ,∑ ,l) với V là tập đỉnh, E ⊂ V × V là tập cạnh. ∑ và ∑ là
nhãn của đỉnh và cạnh tương ứng. Hàm gắn nhãn l là ánh xạ V → ∑ và E → ∑ . Khơng mất tính tổng qt, ta giả sử
có một thứ tự toàn thể ≼ trên tập nhãn ∑ và ∑ .
[10] Cho một cặp đồ thị G = (V,E,∑ ,∑ ,l) và G' = (V',E',∑ ,∑ ,l'), G là đồ thị con của G' nếu và chỉ nếu:
(1.) V ⊆ V'
(2.) ∀ u ∈ V, (l(u) = l'(u))
(3.) E ⊆ E'
(4.) ∀ (u,v) ∈ E, (l(u,v) = l'(u,v))
G' được gọi là đồ thị cha của G
[10] Hai đồ thị G = (V,E,∑ ,∑ ,l) và G' = (V',E',∑ ,∑ ,l') là đẳng cấu nếu và chỉ nếu tồn tại một song ánh f:V
→ V' thỏa mãn:
(1.) ∀ u ∈ V, (l(u) = l'(f(u)))
(2.) ∀ u,v ∈ V, ((u,v) ∈ E) ↔ (f(u),f(v)) ∈ E'
(3.) ∀ (u,v) ∈ E, (l(u,v) = l'(f(u),f(v))
[10] Đồ thị G là đồ thị con đẳng cấu của G', ký hiệu G ⊆ G', nếu và chỉ nếu tồn tại một đồ thị con G" của G' mà
G đẳng cấu với G"
[10] Cho một tập dữ liệu đồ thị GD và một ngưỡng σ (0 ≤ σ ≤ 1), độ hỗ trợ của G, ký hiệu supG được xác định
như một phân số giữa G’ với các đồ thị trong GD mà G là một đồ thị con đẳng cấu của G':



Hoàng Minh Quang, Nguyễn Ngọc Cương

569

=

|



| ⊆
| |

′|

G là đồ thị thường xuyên nếu và chỉ nếu supG≥ σ. Vấn đề khai phá đồ thị con thường xuyên là cho một ngưỡng
σ và một cơ sở dữ liệu đồ thị GD phải tìm tất cả các đồ thị con thường xuyên trong GD.
Theo [15], nếu g là một đồ thị con của g’ , thì g’ là một đồ thị cha của g, ký hiệu g ⊆ g’ (đồ thị cha đúng nếu g
⊂ g’ ). Tập các đồ thị con thường xuyên của GD, ký hiệu là FS, chứa tất cả các đồ thị con có độ hỗ trợ khơng ít hơn
ngưỡng độ hỗ trợ tối thiểu, σ. Tập các đồ thị con thường xuyên đóng của GD, CS, được định nghĩa là
CS = {(g’ | g’ ∈ FS) ∧ (∄g ∈ FS : (g ⊂ g’) ∧ (supg = supg’ ))}.
[2] Một k-đồ thị con của đồ thị g là một đồ thị con g 0 ⊆ g mà |V g 0 | = k.
[10] Cho một n × n ma trận kề M của một đồ thị G với n đỉnh, định nghĩa mã của M , ký hiệu code(M), có dạng
chuỗi bằng cách ghép các thành phần thấp của ma trận tam giác của M (gồm cả các thành phần trong đường chéo) theo
thứ tự: m1,1m2,1m2,2 ... mn,1mn,2 ... mn,n−1mn,n mà mi,j là thành phần ở hàng thứ i và cột thứ j trong M (0 < j ≤ i ≤ n). Giả sử
các hàng trong M được đánh số từ 1 tới n từ trên xuống dưới và các cột được đánh số từ 1 tới n từ trái sang phải.
Trong [10], tác giả dùng thứ tự từ điển chuẩn (standard lexicographic order) theo trình tự để xác định một thứ tự
toàn thể của hai mã bất kỳ p và q. Cho một đồ thị G, dạng chuẩn (canonical form) của nó là mã cực đại trong tất cả các
mã có thể. Ma trận kề M xuất ra dạng chuẩn được định nghĩa là ma trận dạng chuẩn của G (G’s canonical adjacency

matrix, CAM của G). Vậy code(CAM(G)) là mã của ma trận dạng chuẩn của đồ thị G.
[1] Cho một quan hệ hai ngôi ≤ trên tập P, (P,≤) thỏa mãn ba điều kiện (phản xạ, phản đối xứng và bắc cầu)
được gọi là một tập có thứ tự (hay tập thứ tự bộ phận hay poset). Tập tất cả các tập P(X), gồm tất cả các tập con của X,
nếu bao gồm thứ tự: cho A,B ∈ P(X), xác định A ≤ B nếu và chỉ nếu A ⊆ B.
[8] Cho Y ⊆ X, với (X,≤) là một poset. Một toán tử meet hay infimum (hay inf ) trên các tập con của tập X ký
hiệu m = inf(Y ) nếu và chỉ nếu: (i) ∀y ∈ Y : m ≤ y, và (ii) ∀m 0 ∈ X : (∀y ∈ Y : m 0 ≤ y) ⇒ m 0 ≤ m. m cũng được gọi
là lớn nhất cận dưới (glb) của tập Y . Một toán tử join hay supremum (hay sup) s = sup(Y ) nếu và chỉ nếu: (i) ∀y ∈ Y :
y ≤ s, và (ii) ∀s 0 ∈ X : (∀y ∈ Y : y ≤ s 0 ) ⇒ s ≤ s 0 . s cũng được gọi là nhỏ nhất cận trên (lub) của tập Y . Ký hiệu glb
của {a,b} bởi a∧b, và lub của {a,b} bởi a∨b. Lớn nhất cận dưới và nhỏ nhất cận trên không phải lúc nào cũng tồn tại
với một poset.
[8] Một poset (X,≤) là một dàn giao nếu và chỉ nếu ∀x,y ∈ X : x∨y và x∧y cùng tồn tại.
[8] Một khoảng [x, y] trong một poset (X,≤) được xác định: {z | x ≤ z ≤ y}. Một poset là hữu hạn cục bộ nếu tất
cả các khoảng là hữu hạn.
[12] Một hệ thống tập hợp trên một tập S là một họ Ψ các tập con của S. Một hệ đóng ζ trên một tập S là một hệ
thống tập hợp trên S thỏa mãn hai thuộc tính sau: (i) S ∈ ζ và (ii) C1, C2 ∈ ζ ⇒ C1 ∩ C2 ∈ ζ.
Các tập của hệ đóng ζ được gọi là các tập đóng của ζ.
[12] Một hệ đóng (ζ,⊆) là một dàn giao (ζ,⊆,∧,∨) với (i) C1 ∧ C2 = C1 ∩ C2 và C1 ∨ C2 = ∩{C ∈ ζ : C1 ∪ C2 ⊆
C}. Bất kỳ dàn giao nào cũng đẳng cấu với dàn giao của tập đóng của hệ đóng.
[7] Một ngữ cảnh chính thức là một bộ ba (G,M,I), với G là một tập các đối tượng, M là một tập các thuộc tính
và I là một quan hệ giữa G và M, I ⊆ G × M. Một kết nối Galois giữa G và M được xác định như sau:
AI = {m ∈ M|∀g ∈ A,(g,m) ∈ I}, A ⊆ G
BI = {g ∈ G|∀m ∈ B,(g,m) ∈ I}, B ⊆ M
[7] Một khái niệm chính thức là một cặp (A,B), với A ⊆ G là một tập con các đối tượng, B ⊆ M là một tập con
các thuộc tính, mà các đẳng thức (1) AI = B và A = BI (2), với A được gọi là phạm vi của khái niệm, và B được gọi là ý
định của khái niệm. Các khái niệm của một ngữ cảnh cho trước có một thứ tự mặc định quan hệ khái niệm con - khái
niệm cha được xác định bởi ((A1, B1 ) ≤ (A2, B2 )) ⇔ A1 ⊆ A2 (⇔ B2 ⊆ B1 ). Tập có thứ tự của tất cả các khái niệm
chính thức của (G,M,I) được ký hiệu B(G,M,I) và được gọi là dàn giao khái niệm của (G,M,I).
[9] Cho (L,≤) là một poset hữu hạn cục bộ có một phần tử ở đáy dàn giao. Bất kỳ hàm f trên (L,≤), biến đổi
Mobius của f là hàm m: L → R giải pháp của phương trình: ( ) =


m(y). Phương trình này ln có một
2

nghiệm duy nhất, một biểu thức của m nhận được thơng qua hàm Mobius µ: L → R bởi
1 =
( , ) ≤
µ được xác định theo quy nạp bởi ( , ) = − ∑
0 ℎ

( )=∑

μ(y, x)f(y) với


570
5

VẤN ĐỀ
Ề PHÂN LOẠII ĐA NHÃN CH
HO ĐỒ THỊ

[9] Đồồng biến đổi M
Mobius của f, kký hiệu q, đượ
ợc xác định bở
ởi ( ) = ∑
phục
p
từ q như sau:

( )=


m(y), x ∈ L và m có thể được khơi

μ(y, x)q(y)

[9] Choo Ω là một khhông gian hữuu hạn. Một hààm m: 2Ω → [0,1]
[
được gọọi là một hàm cấp phát khố
ối (hay đơn
giản
g là mass) nếu
n m(∅) = 0 và ∑ ⊆Ω ( ) = 1. Một tậập con A ⊆ N được
đ
gọi một phần tử tiêu đđiểm nếu m(A)) > 0.
[9] Mộtt hàm tin cậy ttrên Ω là một hàm bel: 2Ω → [0,1] được sinh bởi một hhàm cấp phát khối như sau:
( )=



.

( ),

⊆ Ω

r
bel(∅) = 0 và bel(Ω) = 1. Hàm tin cậy
c nhận m nh
hư biến đổi M
Mobius của bell, công thức nghịch

n
đảo,
Chú ý rằng
nhận
n
được bằnng cách sử dụnng các phươngg trình Mobius là:
( )=



(−1)|

\ |

( )

[9] Choo một cấp phátt khối m, hàm
m sự thật được xác định bởi
( )=

| ∩



(

( )=1−

),


⊆ Ω

.




ung, đồng biến
n đổi Mobiuss của bel đượợc xác định bởi ( ) =
Cho mộột cấp phát kkhối m, hàm ttính chất chu
( ) , ⊆ Ω
[9] Choo hai cấp phát khối m1, m2 , luật kết hợp Dempster
D
tính sự kết hợp củủa hai khối vàoo một khối:
( )=(



)( )

(

)

(

) , ∀ ⊆ Ω, A






và m(∅) = 0. Luật kết hợp Dempsster có thể đư
ược tính thơng
g qua các hàm
m tính chất chuung, gọi q, q1, q2 là hàm
tính chất chungg kết hợp m, m1, m2, trở thàành một đó là: q(A) = q1(A)q
q2(A), ∀A ⊆ Ω
Ω.
III. P
PHÂN LOẠI ĐA NHÃN CHO
C
ĐỒ TH
HỊ
Để phâân loại đa nhãnn cho tập dữ lliệu đồ thị và tập nhãn gắn với mỗi đồ thhị, có thể coi tập tất cả tập nhãn là 2L
với
v tập nhãn L = {l1, l2, ..., lQ }, |L| = Q.
Thuật tốn
t
PSI-CFSM
M [2] được sử
ử dụng để tìm
m tập đồ thị con thường xuyyên đóng của ccơ sở dữ liệu đồ thị GD.
Thủ
T tục TestIssomorphism kkiểm tra đẳng cấu đồ thị con
n bằng cách sử
ử dụng hàm tììm kiếm nhị pphân kiểm tra một đồ thị
con
c g có thuộcc một tập đồ thhị con
hayy không với

là tập k-đồ thị
t con ứng vi ên mức k của đồ thị Gi ∊ GD.

Thuật toán PSI-CFSM
M là thuật toáán sinh và kiểm
m tra tính thườ
ờng xuyên củaa đồ thị con m
mức k theo địn
nh nghĩa kđồ
đ thị con với
là tập cáác k-đồ thị coon thường xuyên của GD, CS
C 2, CS3, ..., C
CSk là các tập đđồ thị con thư
ường xuyên
đóng
đ
tương ứnng mức 2, 3, ..., k của GD và
,
tương ứng làà tập các k-đồồ thị con thườờng xuyên, k--đồ thị con
th
hường xuyên đóng mức k ccủa đồ thị Gi ∊ GD.


Hoàng
H
Minh Quuang, Nguyễn N
Ngọc Cương

571


Cho mộột cơ sở dữ liệệu đồ thị GD,, để xây dựng dàn giao cho các đồ thị sử
ử dụng một bảảng ngữ cảnh chính thức
GD và coi tập
bằng
b
cách xâyy dựng tập tất cả các đồ thị con thường xuyên
x
đóng CS
S của cơ sở ddữ liệu đồ thị G
p CS là tập
các
c thuộc tínhh cịn cơ sở dữ
ữ liệu đồ thị tập đối tượng. Mối quan hệệ giữa tập đối tượng và tập thuộc tính th
hể hiện qua
việc
v một đồ thhị Gi ∊ GD cóó chứa một đồồ thị con thườn
ng xuyên đóng
g gj ∊ CS thì đồ thị Gi và đđồ thị con thường xun
đóng
đ
gj là có mối
m quan hệ vớ
ới nhau.

Từ bảng ngữ cảnh chhính thức, tìm
m ra tất cả các khái niệm chính thức. Từ đđó, xây dựng được một dàn
n giao khái
niệm.
n


Định nghĩa.
n
Cho mộột dàn giao khhái niệm ICL,, độ đo tương tự giữa hai đđồ thị gi, gj ∊ GD được tính
h theo khái
niệm
n
chính thứ
ức thấp nhất củủa hai đồ thị gi, gj.
( ,

)=

,


( ,

)

,∀

∈ GD

Độ đo tương
t
tự giữaa hai đồ thị trêên dàn giao kh
hái niệm thể hiện
h
được chínnh xác tập nhããn của đồ thị hơn so với
các

c độ đo khácc giữa hai đồ thị như đồ thịị con chung lớ
ớn nhất, đườn
ng đi ngắn nhấất, nhân của đđồ thị, sửa đổi đồ thị. Độ
chính
c
xác các nhãn được phhân loại cho đồồ thị mới được thể hiện quaa bản chất các đồ thị con thư
ường xuyên đóng hơn là
các
c phép biến đổi đồ thị tươ
ơng đương như
ư các phương pháp độ đo ch
ho đồ thị khác .
nhãn
n

Thuật toán
t
phân loạii đồ thị đa nhhãn được xây dựng theo ph
hương pháp k--láng giềng ggần nhất để xá
ác định tập
⊆ L cho
c đồ thị gn ∊ GD chưa đượ
ợc gán nhãn với mọi đồ thị Gi ∊ GD đã đư
ược gán nhãn ⊆ L.

Luật bằằng chứng k lááng giềng gần nhất [4], cho
là tập k lán
ng giềng gần nnhất của mẫu đối tượng mớ
ới được mô
tả bởi vecto đặặc trưng x theoo một độ đo ttương tự d và xi là một phần

n tử của tập k láng giềng gầần nhất có tập
p nhãn nằm
trrong khoảng [A
[ i, Bi] (posett hữu hạn cục bbộ) thì một mục
m bằng chứng có thể đượcc mơ tả như hààm khối sau:
m(

m ( ∅,
với

,

)=
)=1−

l độ đo tươngg tự giữa hai đđồ thị trên dàn

n giao khái niệm.


572
5

VẤN ĐỀ
Ề PHÂN LOẠII ĐA NHÃN CH
HO ĐỒ THỊ

Theo [66, 16] đề xuấtt luật để xác đđịnh tập nhãn cho đối tượng
g x. Cho ℽ là tập nhãn dự đđoán sẽ được gán cho x.
Để

Đ quyết địnhh mỗi nhãn ∈ được gán cho x hay không, hai số lư
ượng được tínhh là cấp độ hààm tin cậy
(
, ),
ℽ là tập nhãn đúng
đ
chứa , và cấp độ hàm
m tin cậy
( ∅, ̅ ) mà khơng
k
chứa . Tập nhãn dự
ự đốn được gán
g ℽ được
xác
x định như sau:
s
ℽ= θ∈ |

(

,

)

( ∅,

̅ )

IV. VÍ D
DỤ PHÂN LO

OẠI ĐA NHÃ
ÃN CHO ĐỒ THỊ
Cho cơ
ơ sở dữ liệu đồồ thị GD = {g1, g2, g3, g4} vớ
ới tập nhãn L = {l1, l2, l3, l4, l5}, ngưỡng đđộ hỗ trợ σ = 50%
5

Cơ sở dữ
d liệu đồ thị GD có |GD| = 4, với ngưỡn
ng độ hỗ trợ σ = 2/4= 50%
%, tất cả nhữngg đồ thị con bấ
ất kỳ sg có
độ
đ hỗ trợ supsgg >=2/4 đều làà các đồ thị coon thường xuy
yên. Áp dụng thuật
t
tốn PSII-CFSM [2] tìm
m được tập tất cả các đồ
củaa GD.
th
hị con thườngg xun đóng
=⋃: →


Ngữ cảảnh chính thứcc là tập tất cả mối quan hệ giữa mọi đồ thị
t gi ∈ GD vvới tập tất cả đđồ thị con thường xun
đóng
đ
CS theo thủ
t tục CalcullateFCT.


Khái niiệm chính thứcc của ngữ cảnnh chính thức (ký
( hiệu KCT theo thủ tục C
CalculateIcebeergLattice)


Hoàng
H
Minh Quuang, Nguyễn N
Ngọc Cương

573

Từ mốii quan hệ chaa con giữa cáác khái niệm chính thức taa xây dựng m
một dàn giao khái niệm theo thủ tục
CalculateIcebe
C
ergLattice:

Để xác định nhãn chho đồ thị g4 ∈ GD, dựa vào dàn giao kháii niệm CL tìm
m k-láng giềngg gần nhất của g4 với k =
2 trên tập dữ liệu
l
đồ thị GD
D là các đồ thịị g1, g2, g3 theeo đường đi ng
gắn nhất từ đỉỉnh chung đếnn hai đồ thị cầ
ần so sánh:
d(g
d 4, g1) = 2/66 = 0.3333, d(g4, g3) = 3/6 = 0.5000, d(g4, g2) = 1/6 = 0.1667. Như vậy, xác địnhh được k-láng giềng gần
nhất

n với g4 với k = 2 tương ứng là g1, g2. Xác định kho
oảng nhãn tươ
ơng ứng với k--láng giềng gầần nhất g1, g2 là [{l1, l2},
{l
{ 1, l2, l4}], [{l2, l4}, {l2, l4}]
Tính đư
ược các hàm kkhối như sau:
mg1([{l1, l2}, {l1, l2, l4}]) = 0.33
mg1([∅,,L]) = 1 − 0.333 = 0.67
mg2([{l2, l4}, {l2, l4}])) = 0.17
mg2([∅,,L]) = 1 − 0.177 = 0.83
Sử dụngg luật Dempstter thu được kkết quả sau:

Dựa vàào luật Dempstter, tính được:
m([{l1, l2, l4}, {l1, l2, l4}]) = 0.06
m([{l2, l4}, {l2, l4}]) = 0.11
m([{l1, l2}, {l1, l2, l4}]) = 0.27
L]) = 0.56
m([∅,L
Gán tậpp nhãn cho đối tượng x:
bel([{l1}, L]) = 0.06 + 0.27 = 0.33 > bel([∅,
bel([{l2}, L]) = 0.33 > bel([∅,
bel([{l3}, L]) = 0 < bbel([∅,
bel([{l4}, L]) = 0.06 > bel([∅,
bel([{l5}, L]) = 0 < bbel([∅,

]) = 0.11, g4 có
c nhãn l1

]]) = 0, g4 có nhãn

n
l2
]) = 0.11
]]) = 0, g4 có nhãn
n
l4
]) = 0.11

Như vậậy tập nhãn củủa đồ thị g4 đư
ược xác định làà {l1, l2, l4}


574

VẤN ĐỀ PHÂN LOẠI ĐA NHÃN CHO ĐỒ THỊ

V. KẾT LUẬN
Trong bài báo này, chúng tôi đã đề xuất một phương pháp hiệu quả phân loại đa nhãn trên đồ thị. Do bản chất
thiếu tính vecto nên việc phân loại đa nhãn trên đồ thị gặp nhiều khó khăn. Bằng cách sử dụng khái niệm chính thức và
xây dựng dàn giao khái niệm, chúng tôi đã xác định được độ đo tương tự giữa hai đồ thị, sau đó áp dụng luật
Dempster-Shafer để kết hợp các hàm khối và hàm tin cậy để xác định tập hợp các nhãn cho đồ thị theo k đồ thị láng
giềng gần nhất với độ đo tương tự được xác định bằng dàn giao khái niệm. Kết quả này có ý nghĩa quan trọng trong
ứng dụng vào thực tiễn như phân loại các mẫu gen, cấu trúc protein, các hợp chất enzim để xác định khả năng có thể
mắc tập hợp những bệnh đã được gán nhãn cho trước.
VI. DANH MỤC THAM CHIẾU
[1] B. A. Davey and H. A. Priestley. Introduction to lattices and order. Cambridge university press, 2002.
[2] J. Demetrovics, H. Quang, N. Anh, and V. Thi. An optimization of closed frequent subgraph mining algorithm.
Cybernetics and Information Technologies, 17(1):3-15, 2017.
[3] A. P. Dempster. The dempster-shafer calculus for statisticians. International Journal of Approximate Reasoning,
48(2):365-377, 2008.

[4] T. Denoeux. A k-nearest neighbor classification rule based on dempster-shafer theory. IEEE transactions on
systems, man, and cybernetics, 25(5):804-813, 1995.
[5] T. Denœux and M.-H. Masson. Evidential reasoning in large partially ordered sets. Annals of Operations Research,
195(1):135-161, 2012.
[6] T. Denœux, Z. Younes, and F. Abdallah. Representing uncertainty on set-valued variables using belief functions.
Artificial Intelligence, 174(7):479-499, 2010.
[7] B. Ganter and R. Wille. Applied lattice theory: Formal concept analysis. In In General Lattice Theory, G. Grätzer
editor, Birkhäuser. Citeseer, 1997.
[8] V. K. Garg, N. Mittal, and A. Sen. Applications of lattice theory to distributed computing. ACM SIGACT Notes,
34(3):40-61, 2003.
[9] M. Grabisch. Belief functions on lattices. International Journal of Intelligent Systems, 24(1):76-95, 2009.
[10] J. Huan, W. Wang, and J. Prins. Efficient mining of frequent subgraphs in the presence of isomorphism. In Data
Mining, 2003. ICDM 2003. Third IEEE International Conference on, pages 549-552. IEEE, 2003.
[11] X. Kong and S. Y. Philip. gmlc: a multi-label feature selection framework for graph classification. Knowledge and
information systems, 31(2):281-305, 2012.
[12] B. Monjardet. The presence of lattice theory in discrete problems of mathematical social sciences. why.
Mathematical Social Sciences, 46(2):103-144, 2003.
[13] V. A. Nguyen and A. Yamamoto. Learning from graph data by putting graphs on the lattice. Expert Systems with
Applications, 39(12):11172-11182, 2012.
[14] G. Shafer et al. A mathematical theory of evidence, volume 1. Princeton university press Princeton, 1976.
[15] X. Yan and J. Han. Closegraph: mining closed frequent graph patterns. In Proceedings of the ninth ACM
SIGKDD international conference on Knowledge discovery and data mining, pages 286-295. ACM, 2003.
[16] Z. Younes, F. Abdallah, and T. Denœux. An evidence-theoretic k-nearest neighbor rule for multi-label
classification. In International Conference on Scalable Uncertainty Management, pages 297-308. Springer, 2009.



×