Đồ thị khoảng cách của văn bản và một số ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (330.86 KB, 22 trang )

1

Đồ thị khoảng cách của văn bản
và một số ứng dụng
Hà Quang Thụy
Phòng Thí nghiệm Công nghệ Tri thức - KTLab
Trường ĐHCN, Đại học Quốc gia Hà Nội,
Ngày 31/5/2014

KTLab

May
7, 2
017

Nội dung
• Đồ thị khoảng cách và ứng dụng

2

• Độ đo Google chuẩn và ứng dụng
• Tin học xã hội

May
2
7, 2
017

Đồ thị khoảng cách: giới thiệu

 Charu C. Aggarwal, Peixiang Zhao (2013). Towards
graphical models for text processing. Knowl. Inf. Syst.
36(1): 1-21.
 Charu C. Aggarwal
Research Scientist, IBM T. J. Watson Research Center in Yorktown
Heights, BSc. IIT Kanpur (1993). PhD. MIT (1996).
 Awards: IBM Corporate (2003), IBM Outstanding Innovation (2008), IBM
Research Division (2008), IBM Outstanding Technical Achievement
(2009).
 Associate editor of Journals : ACM TKDD, Data Mining and Knowledge
Discovery, ACM SIGKDD Explorations, and the Knowledge and
Information Systems.
 60
bài tạp chí, 135 bài hội nghị, 2 sách, …

 Peixiang Zhao




Assistant Professor, Florida State Univ. at Tallahassee
Bsc (2001), MSc (2004), PhD (2007) HK, PhD (2012) UIUC
/>bài tạp chí, 16 bài hội nghị

4

3



Đồ thị khoảng cách: định nghĩa

nghĩa trong C}. Ví dụ, V = {từ trong C} \ {từ dừng}
 Với một tài liệu D: “đồ thị khoảng cách bậc k” của D
trên C là đồ thị G(C, D, k) = (N(C), A(D, k)) với N(C) là
tập đỉnh, A(D,k) là tập cung

N(C) = {nút v: v∈V và v xuất hiện trong D}. ∀v∈V: xuất hiện ≤ 01 lần ở
N(C). Trong N(C): gọi “nút i” hoặc “từ i”.
 D’ nhận được từ D sau khi loại bỏ mọi từ ∉V, giữ nguyên thứ tự các từ.
 Tập cung A(D,k) chứa cung (i ,j) có hướng từ nút i tới nút j nếu như từ i đi
trước từ j với khoảng cách ≤ k từ trong D’. Cung (i, j) có trọng số m nếu có
nhiều nhất m lần từ i xuất hiện trước từ j với khoảng cách ≤ k ở trong D’.


4

 Phát biểu ở đây khác đôi chút so với bài báo
 Cho ngữ liệu C = {tài liệu miền ứng dụng} và V ={từ có

Đồ thị khoảng cách: ví dụ từ bài báo
had a little lamb, little lamb, little lamb, Mary had a little
lamb, its fleece was white as snow”. D’=“Mary little
lamb, little lamb, little lamb, Mary little lamb, fleece
white snow”. Các đồ thị khoảng cách bậc 0,1,2:
 Bậc 0: các từ đơn tự kết nối. Bâc k+1: thêm cung và
thêm trọng số

5

 V = {từ tiếng Anh} \ {từ dừng}
 D lấy từ bài đồng dao “Mary had a little lamb” là “Mary

Đồ thị khoảng cách: tính chất
 Tính chất “thưa”:
f(D): số lượng từ có nghĩa trong D’ kế cả bội
n(D): số lượng từ phân biệt trong D’ chính là số nút của đồ thị |N(C)|
⇒ n(D)*(k+1) – k*(k-1)/2 ≤ |A(D,k)| ≤ f(D)*(k+1)
Chứng minh trong bài báo.





Đồ thị khoảng cách bậc không quá 2 tương ứng với các tài liệu chỉ chứa
các từ phân biệt là các đồ thị phẳng (planar).

 Tính đơn điệu

D1 là đoạn con của D2 ⇒ G(C, D1, k) là đồ thị con của G(C, D2, k).
Chứng minh trong bài báo.
Lưu ý: Ngược lại không luôn đúng “G(C, D1, k) đồ thị con G(C, D2, k)
không ⇒ D1 là đoạn con của D2”: phức tạp cấu trúc nắm bắt từ của đồ
thị khoảng cách!
 Cực kỳ hữu ích cho truy hồi theo đoạn text chính xác: Truy hồi thông tin
dựa trên đồ thị: xác định bao đóng của tập văn bản cần tìm: hiệu quả
hơn trình diễn không gian vector đánh chỉ số theo từ khóa.





6

 Tính phẳng của tài liệu chỉ chứa từ phân biệt

Đồ thị khoảng cách: tính chất
 Tính bảo tồn đoạn giao

D1, D2 có xâu chung F ⇒ G(C, D1, k) và G(C, D1, k) chia sẻ đồ thị con
G(C, F, k).
Suy diễn trực tiếp từ tính đơn điệu.


 Tìm kiếm tài liệu có đoạn về một chủ đề
Giả thiết: Một chủ đề được đặc trưng bởi tập S gồm m từ khóa liên
thông
 → xây dựng clique_có hướng_hai chiều chứa các nút (từ) này.
 clique_có hướng_hai chiều: mọi cặp nút đều tồn tại cung hai hướng (đồ
thị đầy đủ) và ∃ một chu trình đơn nối mọi đỉnh clique.
 Tần số kết hợp giao theo cung của clique với đồ thị G(C, D, k) cho biết
số lần các từ khóa tương ứng xuất hiện trong D ⇒ hành vi cục bộ của
chủ đề.

 Tính chất xuất hiện clique hai chiều


Cho F1 là clique hai chiều chứa m nút và D là tài liệu thuộc C. Cho E là
giao theo cung của tập các cung của G(C, D, k) được chứa trong F1.
Gọi q là tổng các tần số của các cung trong E thì q chính là số lần các từ
khóa trong các nút tương ứng với F1 xuất hiện với khoảng cách ≤ k
trong tài liệu.

7



ĐTKC: Xác định chủ đề khác nhau







S1, S2 : tập từ khóa tương ứng với các chủ đề khác nhau.
F1, F2: hai clique tương ứng với S1 và S2
Gọi F12 là clique chứa các nút của S1+S2
Xét E1 (D), E2 (D), E12 (D) là giao theo cung của G(C, D, k) với
F1, F2, F12. E12 (D) là bao đóng các cung của E1 (D) ∪ E2 (D)
Tính cục bộ các chủ đề khi tần số các cung trong E1(D), E2(D)
lớn nhưng tần số các cung E12(D)-(E1(D) ∪ E2(D)) là nhỏ.

 Bài toán xác định tính cục bộ các chủ đề


Tím các tài liệu D mà tần số theo cung của (E1(D) ∪ E2(D)) là
lớn hơn s1 và tần số theo cung trong E12(D)-(E1(D) ∪ E2(D)) là
nhỏ hơn s2.

8

 Xác định các đoạn liên quan các chủ đề khác nhau

ĐTKC: phương án vô hướng








Đồ thị khoảng cách vô hướng bậc k của tài liệu D theo C là đồ thị G(C,
D, k) = (N(D), A(D, k)):
N(D) như trường hợp có hướng
A(D,k) là tập cung tương tự như trường hợp có hướng song được tính
cả hai chiều (về trước và về sau).
Ví dụ, đồ thị khoảng cách vô hướng bậc 2 của tài liệu trong ví dụ trước:
Đồ thị KC vô hướng nhận được bằng cách đổi cung có hướng thành vô
hướng.
Đồ thị vô hướng giữ thông tin khoảng cách và bỏ qua thông tin thứ tự .
Chưa đề cập ứng dụng đồ thị KC vô hướng song (i) dễ thi hành thuận
lợi cho KPDL; (ii)

9

 Định nghĩa

Đồ thị khoảng cách: ứng dụng KPDL
 Hai phương án áp dụng
kỹ thuật cũ với thay biểu diễn túi từ bằng biểu diễn đồ thị khoảng cách:
dề dàng thi hành.
 Dùng cho khai phá DL và quản lý cấu trúc: tương tác dễ dàng hơn các
phương pháp khai phá cấu trúc

 Độ phức tạp tính toán



Số thẻ khoảng 4-5 lần so với biểu diễn sẵn có
Có thể làm chậm song không quá nặng nề.

10



Đồ thị khoảng cách: các ứng dụng KPDL
 Phân cụm



Các thuật toán phân cụm lặp hoặc phân cấp.dựa trên “hạt giống”.

Thuật toán EM.

 Phân lớp
.Phân lớp Bayes thơ ngây
Phân lớp k-láng giềng gần nhất hoặc phân lớp trọng tâm
 Phân lớp dựa trên luật.

 Đánh chỉ số và truy hồi




entire structural fragments
Tìm kiếm chính xác: đã đề cập
Tìm kiếm gần đúng

 Tìm kiếm đồ thị con thường xuyên





Phát hiện đạo văn (Plagiarism detection)
GA, GB đồ thị khoảng cách hai tài liệu
MCG (GA, GB) là đồ thị con chung lớn nhất giữa hai tài liệu
..

11





Đồ thị khoảng cách: Một số bàn luận
 Khoảng cách
Tính sau khi loại bỏ từ dừng ?
Lý do ?
 Nên chăng tính khoảng cách giữ nguyên từ dừng.



Các hành động là “từ khóa”.
 Xây dựng đồ thị khoảng cách
 Mẫu tuần tự: Phân cụm
 Mẫu có thứ tự: Phát hiện đồ thị con thường xuyên.


 Áp dụng cho các bài toán xử lý văn bản
Tóm tắt văn bản: Biểu diễn câu, biểu diễn văn bản theo đồ thị khoảng
cách, tính độ quan trọng, tương tự hai cầu …
 Thay nút được chỉ số bằng chủ đề..


 Áp dụng cho phân lớp đa nhãn, đa thể hiện văn bản



Biểu diễn văn bản qua đồ thị khoảng cách
Áp dụng tính chất cục bộ của chủ đề

12

 Áp dụng tìm kiếm mẫu trong nhật ký sự kiện

Áp dụng khai phá mẫu từ nhật ký sự kiện
• Hai thách thức của KPQT
 C2. Đối phó với nhật ký sự kiện phức tạp với đặc trưng đa

[Manifesto12] Wil van der Aalst et al. (2012). Process Mining Manifesto, BPM 2011
Workshops (Part I, LNBIP 99), pp. 169–194.

• Một số tài liệu nghiên cứu

 [Aalst13] Wil M. P. van der Aalst (2013). A General Divide and
Conquer Approach for Process Mining. FedCSIS 2013: 1-10.
 [BA12a] R. P. Jagadeesh Chandra Bose, Wil M. P. van der Aalst
(2012). Process diagnostics using trace alignment: Opportunities,
issues, and challenges. Inf. Syst. 37(2): 117-141.
 [BAZP11]c R. P. Jagadeesh Chandra Bose, Wil M.P. van der Aalst,
Indre Zliobaite and Mykola Pechenizkiy (2011). Handling Concept Drift
in Process Mining. CAiSE 2011: 391-405.
 [Bose12] R. P. Jagadeesh Chandra Bose (2012). Process Mining in the
Large: Preprocessing, Discovery, and Diagnostics. PhD Thesis,
Eindhoven University of Technology, The Netherlands.

13

dạng
 C4. Đối phó với sai lệch khái niệm

 ~ đối phó với nhật ký sự kiện quá lớn

14

Khai phá mẫu: Trừu tượng hóa sự kiện

• Trừu tượng hóa sự kiện

 Abstractions of Events
 dữ liệu sự kiện nội tại vết quy trình quá cụ thể hoặc/và có nhiều
mức trừu tượng
 Xâu hành động cụ thể → hành động gắn với quy trình hơn

[Bose12] R. P. Jagadeesh Chandra Bose (2012). Process Mining in the Large:
Preprocessing, Discovery, and Diagnostics. PhD Thesis, Eindhoven
University of Technology, The Netherlands

15

Khai phá mẫu: Phân cụm vết

• Phân cụm vết

 Trace Clustering
 Các vết có tính tương đồng

[Bose12] R. P. Jagadeesh Chandra Bose (2012). Process Mining in the Large:
Preprocessing, Discovery, and Diagnostics. PhD Thesis, Eindhoven

University of Technology, The Netherlands

16

Khai phá mẫu: Tiến hóa quy trình

• Tiến hóa quy trình

 Concept Drift
 Quy trình thay đổi theo thời gian
 Các vòng đời quá trình kinh doanh khác nhau

[Bose12] R. P. Jagadeesh Chandra Bose (2012). Process Mining in the Large:
Preprocessing, Discovery, and Diagnostics. PhD Thesis, Eindhoven
University of Technology, The Netherlands

17

Trừu tượng hóa quá trình kinh doanh

[Smir11] Sergey Smirnov (2011). Business Process Model Abstraction. PhD
Thesis, The University of Potsdam.

2. Khoảng cách Google chuẩn và ứng
dụng

Các tài liệu liên quan

Rudi Cilibrasi, Paul M. B. Vitányi (2004). The Google Similarity Distance
“Automatic Meaning Discovery Using Google”. CoRR abs/cs/0412098.
 Rudi Cilibrasi, Paul M. B. Vitányi (2007). The Google Similarity Distance.
IEEE Trans. Knowl. Data Eng. 19(3): 370-383. Có 1036 citation trong
Google Scholar.
 Paul M. B. Vitányi (2012). Information Distance: New Developments.
CoRR abs/1201.1221.
 Andrew R. Cohen, Paul M. B. Vitányi (2013). Normalized Google
Distance of Multisets with Applications. CoRR abs/1308.3177.

 Các tác giả
Paul M. B. Vitányi: DBLP có 76 bài tạp chí, 69 bài hội nghị, 69 bài thông
báo,
…
/> Rudi Cilibrasi: 4 bài hội nghị, 6 bài hội nghị, 9 bài thông báo, .
/>

18



Khoảng cách Google chuẩn
 Lập luận
Đối tượng nhận được theo nghĩa đen các từ: tổ chức gene ACGT của
chuột hoặc văn bản nội dung của truyện Chiến tranh và Hòa bình của
Lev Tolxtoi.
 Đối tượng nhận được theo tên gọi của nó: “cấu tạo gene ACGT của
chuột” hoặc “văn bản CT&HB của Lev Tolxtoi”. ∃ đối tượng chỉ nhận

biết bằng tên như “home” hoặc “red” khi mà chữ cái chưa nói điều gì.
 Sử dụng tri thức miền để đo tương tự “gián tiếp”. Thường gặp, ví dụ
như
TAC:
Hai
thành
phần
(Track)
của
TAC
2014
( là Knowledge Base Population (KBP) và
Biomedical Summarization (BiomedSumm).

 Khoảng cách thông tin chuẩn
Cho hai xâu x và y:
với K(x), K(y), K(x,y) độ phức tạp Kolmogorov, độ dài bit của CT tính ngắn
nhất sản ra xâu x, y., xy..
 E(x,y) thực sự là một khoảng cách: ba tính chất


19



Khoảng cách Google chuẩn
 Lập luận
Đối tượng nhận được theo nghĩa đen các từ: tổ chức gene ACGT của
chuột hoặc văn bản nội dung của truyện Chiến tranh và Hòa bình của

Lev Tolxtoi.
 Đối tượng nhận được theo tên gọi của nó: “cấu tạo gene ACGT của
chuột” hoặc “văn bản CT&HB của Lev Tolxtoi”. ∃ đối tượng chỉ nhận
biết bằng tên như “home” hoặc “red” khi mà chữ cái chưa nói điều gì.
 Sử dụng tri thức miền để đo tương tự “gián tiếp”. Thường gặp, ví dụ
như
TAC:
Hai
thành
phần
(Track)
của
TAC
2014
( là Knowledge Base Population (KBP) và
Biomedical Summarization (BiomedSumm).

 Khoảng cách thông tin chuẩn
Khoảng cách thông tin hai xâu x và y:
với K(x), K(y), K(x,y) độ phức tạp Kolmogorov, độ dài bit của CT tính ngắn
nhất sản ra xâu x, y., xy..
 E(x,y) thực sự là một khoảng cách: ba tính chất
 Khoảng cách thông tin chuẩn:


20



Khoảng cách Google chuẩn
 Khoảng cách nén chuẩn
Khoảng cách thông tin chuẩn là chưa tính toán được (uncomputable) .
Dùng chương trình nén dữ liệu có sẵn để “thay thế K”.
 Cho bộ nén C: C(x) là độ dài nén của x
 Khoảng cách nén chuẩn

21




 Khoảng cách Google chuẩn



G(x), G(x,y) là “mã hóa Google” của x và (x,y)
x= {trang web chứa xâu x}; x∩y={trang web chứa cả 2 xâu}



Mã hóa Google

22

CÁM ƠN

22
KT-SISLAB

Đồ thị khoảng cách của văn bản và một số ứng dụng

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về