ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
Phạm Huy Thành
CÁC ĐỘ ĐO TRONG PHÂN CỤM VÀ ÁP DỤNG
VÀO PHÁT HIỆN MƠ HÌNH TỔ CHỨC
TRONG KHAI PHÁ Q TRÌNH
KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Cơng nghệ thông tin
Hà Nội - 2014
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
Phạm Huy Thành
CÁC ĐỘ ĐO TRONG PHÂN CỤM VÀ ÁP DỤNG
VÀO PHÁT HIỆN MƠ HÌNH TỔ CHỨC
TRONG KHAI PHÁ Q TRÌNH
KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Cơng nghệ thông tin
Cán bộ hƣớng dẫn:
PGS. TS. Hà Quang Thụy
Cán bộ đồng hƣớng dẫn:
ThS. Lê Hoàng Quỳnh
Hà Nội - 2014
VIETNAM NATIONAL UNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY
Huy Thanh Pham
EVALUATION MEASURES FOR CLUSTERING
AND USING TO DISCOVER ORGANIZATIONAL
MODEL IN PROCESS MINING
Major: InformationTechnology
Supervisor:
Assoc. Prof. Quang Thuy Ha
Co-Supervisor:
Master. Hoang Quynh Le
HA NOI - 2014
LỜI CẢM ƠN
Trước tiên, tơi xin bày tỏ lịng biết ơn chân thành và sâu sắc nhất tới Thầy giáo
PGS. TS. Hà Quang Thụy và ThS. Lê Hoàng Quỳnh, những người đã tận tình chỉ bảo,
hướng dẫn, động viên và giúp đỡ tơi trong suốt q trình thực hiện đề tài khóa luận.
Tơi xin gửi lời cảm ơn sâu sắc tới các thầy cô trong Khoa Công nghệ thông tin đã
truyền đạt kiến thức quý báu cho tôi trong suốt bốn năm vừa qua, những kiến thức tôi
nhận được trên giảng đường sẽ là hành trang quan trọng giúp tôi vững bước trong tương
lai.
Tôi cũng xin gửi lời cảm ơn tới các thầy cô, các anh chị, các bạn và các em sinh
viên trong phịng thí nghiệm KT-Sis lab đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức
chuyên mơn để hồn thành tốt nghiệp khóa luận.
Tơi gửi lời cảm ơn tới tập thể lớp K55CD và K55CLC đã ủng hộ, khích lệ và ln
sát cánh bên tơi trong suốt quá trình học tập và rèn luyện tại trường.
Cuối cùng,tôi muốn gửi lời cảm ơn sâu sắc tới bạn bè, người thân đặc biệt là cha
mẹ và em gái tôi, những người luôn ủng hộ con đường tôi đã lựa chọn, giúp đỡ và động
viên tôi vượt qua những khó khăn trong cuộc sống.
Tơi xin chân thành cảm ơn!
Hà Nội, ngày 13 tháng 05 năm 2014
Sinh viên
Phạm Huy Thành
TÓM TẮT
Theo W.M.P Van der Aalst, 2011 [10], khai phá quá trình trong những năm gần đây đang
nổi lên như một lĩnh vực khoa học mới tập trung vào việc phân tích các q trình bằng việc sử
dụng dữ liệu sự kiện. Lĩnh vực này đang thu hút được sự quan tâm từ rất nhiều các nhà khoa học
trên thế giới. Tuy nhiên hầu hết những tiếp cận này mới chỉ quan tâm và tập trung vào việc phát
hiện khía cạnh luồng điều khiển mà bỏ qua một số khía cạnh quan trọng khác trong đó nổi bật là
khía cạnh tổ chức [9]. Một trong những bài toán quan trọng trong khai phá khía cạnh tổ chức là
bài tốn phát hiện mơ hình tổ chức.
Dựa trên q trình tìm hiểu một số nghiên cứu về việc phát hiện mơ hình tổ chức [4, 9, 10,
12], kết hợp với việc tìm hiểu một số thuật toán phân cụm quan trọng và các phương pháp đánh
giá phân cụm [1, 2, 5, 6, 7, 8], khóa luận trình bày về các độ đo trong phân cụm và việc áp dụng
chúng vào bài toán phát hiện mơ hình tổ chức trong khai phá q trình. Đồng thời, khóa luận
cũng đưa ra mơ hình giải quyết bài toán với một số độ đo phân cụm được đề cập và tiến hành cài
đặt thực nghiệm trên bộ dữ liệu mẫu từ ProM. Kết quả thực nghiệm cho thấy mơ hình tổ chức
ứng với giá trị K = 8 là phù hợp nhất. Khi đó giá trị các độ đo Silhouette, Dunn, Modularity và
CPLw đạt giá trị tương ứng là 0.84327, 1.90155, 0.01075 và 0.04619.
Từ khóa: Khai phá q trình, phát hiện mơ hình tổ chức, độ đo chất lượng phân cụm
ABSTRACT
According to W.M.P Van der Aalst, 2011 [10], process ming, recently, emerged as a new
research field that focuses on the analysis of processes using event data. This field are attracting
attention of many scentists around the world. How ever, most of these approach only focused on
discovering event-control aspect and neglected some other important aspects, especially
organizational aspect [9]. One of important problem in organiztional aspect mining is
discovering organizational model.
Based on learning some researches of discovering organizational structure [4, 9, 10, 12],
associating knowledge about some important clustering algorithms and some clustering
evaluation measures [1, 2, 5, 6, 7, 8], this thesis presents some clustering evaluation measures
and using them to discover organiztional model in process mining. Also, this thesis proposes
solving problem model for some of mentioned measures and implements experience on sample
data collection from ProM. Experience result shows the organizational model which has value K
= 8 is the best. In that case, the Silhouette, Dunn, Modularity and CPLw values are 0.84327,
1.90155, 0.01075 and 0.04619 respectively.
Key words: Process ming, organiztional model discovering, clustering evaluation measures.
LỜI CAM ĐOAN
Tơi xin cam đoan mơ hình giải quyết bài tốn phát hiện mơ hình tổ chức áp dụng
các độ đo trong phân cụm, thực nghiệm áp dụng thuật toán K-medoids và dựa trên các độ
đo phân cụm được trình bày trong khóa luận là do tơi thực hiện dưới dự hướng dẫn của
PGS. TS. Hà Quang Thụy và ThS. Lê Hồng Quỳnh.
Tất cả các bài báo, khóa luận, tài liệu, công cụ, phần mềm của các tác giả khác được
sử dụng trong khóa luận này đều được chỉ dẫn tường minh về tác giả và đều có trong
danh sách tài liệu tham khảo.
Hà Nội, ngày 13 tháng 05 năm 2014
Sinh viên
Phạm Huy Thành
MỤC LỤC
Chương 1.
BÀI TỐN PHÁT HIỆN MƠ HÌNH TỔ CHỨC TRONG KHAI PHÁ QUÁ TRÌNH ...... 2
1.1.
Giới thiệu chung về khai phá quá trình ................................................................... 2
1.2.
Nhật ký sự kiện ....................................................................................................... 4
1.3.
Các bài tốn trong khai phá q trình ..................................................................... 6
1.4.
Bài tốn phát hiện mơ hình tổ chức ........................................................................ 8
1.5.
Tóm tắt chương 1 .................................................................................................... 8
Chương 2.
SỬ DỤNG CÁC ĐỘ ĐO ĐỂ ĐÁNH GIÁ CHẤT LƯỢNG PHÂN CỤM TRONG BÀI
TOÁN PHÁT HIỆN MƠ HÌNH TỔ CHỨC ........................................................................ 9
2.1.
Cấu trúc cộng đồng trong mạng lưới tổ chức ......................................................... 9
2.1.1.
Khái niệm cấu trúc cộng đồng ......................................................................... 9
2.1.2.
Các độ đo khoảng cách trong mạng xã hội .................................................... 10
2.1.3.
Các cách tính khoảng cách giữa các tổ chức.................................................. 10
2.2.
Các thuật tốn phân cụm trong phát hiện mơ hình tổ chức .................................. 12
2.2.1.
Thuật tốn AHC ............................................................................................. 12
2.2.2.
Thuật tốn K-means ....................................................................................... 13
2.2.3.
Thuật toán K-medoids (PAM) ....................................................................... 14
2.3.
Các độ đo chất lượng phân cụm............................................................................ 14
2.3.1.
Độ đo bóng (Silhouette) ................................................................................. 15
2.3.2.
Độ đo Davies – Bouldin ................................................................................. 16
2.3.3.
Độ đo Dunn .................................................................................................... 16
2.3.4.
Độ đo Modularity ........................................................................................... 17
2.3.5.
Độ đo theo độ dài đường đi CPL ( Cluster Path Lengths)............................. 17
2.4.
Tóm tắt chương 2 .................................................................................................. 22
Chương 3.
MƠ HÌNH GIẢI QUYẾT BÀI TỐN ............................................................................... 23
3.1.
Phát biểu bài tốn phát hiện mơ hình mạng tổ chức từ nhật ký sự kiện ............... 23
3.2.
Mơ hình giải quyết bài tốn .................................................................................. 24
3.3.
Phân tích mơ hình ................................................................................................. 24
3.3.1.
Thu thập nhật ký sự kiện ................................................................................ 24
3.3.2.
Sử dụng thuật toán K-medoids phát hiện mơ hình tổ chức ............................ 26
3.4.
Tóm tắt chương 3 .................................................................................................. 27
Chương 4.
THỰC NGHIỆM VÀ ĐÁNH GIÁ..................................................................................... 28
4.1.
Mô tả thực nghiệm ................................................................................................ 28
4.1.1.
Mô tả dữ liệu .................................................................................................. 28
4.1.2.
Các công cụ và phần mềm sử dụng ................................................................ 29
4.1.3.
Môi trường thực nghiệm ( Phần cứng và hệ điều hành ) ............................... 30
4.1.4.
Các module chính trong chương trình ........................................................... 30
4.2.
Kết quả thực nghiệm và đánh giá ......................................................................... 31
4.2.1.
Kết quả thực nghiệm ...................................................................................... 31
4.2.2.
Đánh giá kết quả thực nghiệm ....................................................................... 36
KẾT LUẬN VÀ ĐỊNH HƯỚNG NGHIÊN CỨU TIẾP THEO........................................ 38
DANH SÁCH HÌNH VẼ
Hình 1. 1. Ngữ cảnh khai phá q trình .............................................................................. 3
Hình 1. 2. Ba bài tốn trong khai phá quá trình dưới dạng input và output bao gồm: Phát
hiện quá trình (a), Kiểm tra sự phù hợp (b) và Tăng cường mơ hình (c) .......... 7
Hình 1. 3. Một nhật ký sự kiện và 2 mơ hình q trình được xây dựng từ nó dưới dạng
lưới Petri. ............................................................................................................ 6
Hình 2. 1. Cấu trúc cộng đồng trong mạng xã hội .............................................................. 9
Hình 2. 2. Cách tính khoảng cách giữa hai cụm theo single linkage ................................ 11
Hình 2. 3. Cách tính khoảng cách giữa hai cụm theo complete linkage ........................... 11
Hình 2. 4. Cách tính khoảng cách giữa hai cụm theo average linkage ............................. 12
Hình 2. 5. Ví dụ về 3 cụm A, B, C với số lượng và cách liên kết bên trong khác nhau. ... 19
Hình 3. 1. Bài tốn phát hiện mơ hình tổ chức dưới dạng input và output ....................... 23
Hình 3. 2. Mơ hình giải quyết bài tốn phát hiện mơ hình tổ chức sử dụng các độ đo phân
cụm. .................................................................................................................. 24
Hình 3. 3. Meta-model của chuẩn XES ............................................................................. 25
Hình 4. 1. Một phần được trích ra từ nhật ký sự kiện trong thực nghiệm ......................... 29
Hình 4. 2. Mơ hình mạng xã hội mơ tả quan hệ giữa các cá nhân .................................... 33
Hình 4. 3. Hình mơ tả các module trong chương trình......................................................31
Hình 4. 4. Biểu đồ giá trị Silhouette .................................................................................. 36
Hình 4. 5. Biểu đồ giá trị Dunn ......................................................................................... 36
Hình 4. 6. Biểu đồ giá trị Modularity ................................................................................ 36
Hình 4. 8. Biểu đồ giá trị CPLw ......................................................................................... 36
Hình 4. 8. Kết quả mơ hình tổ chức ứng với K = 8 ........................................................... 37
DANH SÁCH BẢNG BIỂU
Bảng 1. 1. Một đoạn trong nhật ký sự kiện mỗi dòng tương ứng với mỗt sự kiện ............. 5
Bảng 4. 1. Bảng thống kê môi trường thực nghiệm (phần cứng và HĐH)........................30
Bảng 4. 2. Một phần trích từ bảng ma trận kề theo độ đo WorkingTogether .................... 32
Bảng 4. 3. Bảng mơ hình tổ chức tương ứng với giá trị K ( số lượng cụm) ..................... 35
LỜI MỞ ĐẦU
Ngày nay, hầu hết các tổ chức đều ghi lại quá trình kinh doanh của mình dưới dạng
các nhật ký sự kiện. Những nhật ký này có thể được sử dụng để phát hiện khía cạnh luồng
điều khiển bằng các kỹ thuật phát hiện quá trình nhằm đưa ra các mơ hình q trình để
phân tích và chẩn đốn nhằm cải thiện q trình sản xuất. Tuy nhiên, trong thực tế, các
q trình khơng hồn tồn bị điều khiển bởi các hệ thống mà thay vào đó, nó ln có sự
tham gia của con người và những hành vi của con người cũng đóng vai trị rất quan trọng
đối với hiệu suất của các q trình. Do đó việc khai thác vào khía cạnh tổ chức như việc
phát hiện cấu trúc tổ chức hay mạng lưới xã hội sẽ giúp những người quản lý nắm rõ
được cấu trúc tổ chức và giúp cải thiện quá trình kinh doanh.
Trong khóa luận này, chúng tơi tập trung vào khía cạnh tổ chức nhưng cụ thể là bài
tốn phát hiện mơ hình tổ chức từ nhật ký sự kiện dựa trên việc áp dụng các độ đo phân
cụm khác nhau. Việc áp dụng các độ đo này có thể cho phép chúng ta có một đánh giá tốt
hơn về kết quả của bài tốn và đưa ra mơ hình tổ chức phù hợp nhất.
Nội dung của khóa luận được chia thành các chương sau:
Chƣơng 1: Giới thiệu khái quát về lĩnh vực khai phá quá trình, khái niệm về nhật
ký sự kiện và bài tốn phát hiện mơ hình tổ chức từ nhật ký sự kiện trong khai phá quá
trình.
Chƣơng 2: Chương này trình bày về việc sử dụng các độ đo phân cụm vào bài tốn
phát hiện mơ hình tổ chức bao gồm việc giới thiệu về cấu trúc cộng đồng trong mạng tổ
chức, một số thuật toán phân cụm và các độ đo chất lượng phân cụm tiêu biểu. Ngồi ra ,
chúng tơi cũng đưa ra một độ đo đề xuất dựa trên việc chỉnh sửa độ đo CPL (Clusters
Path Length) cho phù hợp với dạng đồ thị có trọng số của mơ hình tổ chức.
Chƣơng 3: Trinh bày về mơ hình giải quyết bài tốn và phân tích các bước trong
mơ hình giải quyết. Ngồi ra, chúng tơi sẽ trình bày những vấn đề mắc phải và cách giải
quyết chúng.
Chƣơng 4: Trình bày thực nghiệm với bộ dữ liệu mẫu và đưa ra đánh giá với kết
quả thu được.
Phần kết luận: Tóm lược kết quả đạt được của khóa luận và định hướng phát triển
tương lai.
1
Chƣơng 1.
BÀI TỐN PHÁT HIỆN MƠ HÌNH TỔ CHỨC
TRONG KHAI PHÁ Q TRÌNH
1.1. Tổng quan về khai phá q trình
Trong thập kỉ vừa qua, khai phá quá trình nổi lên như là một lĩnh vực nghiên cứu
mới tập trung vào phân tích q trình sử dụng dữ liệu sự kiện. Một trong những ngun
nhân chính khiến khai phá q trình ngày càng được quan tâm là bởi vì ngày càng có
nhiều dữ liệu sự kiện được ghi nhận lại, do đó cung cấp thơng tin ngày càng chi tiết về
lịch sử của quá trình. Mục tiêu của khai phá quá trình là nhằm phát hiện, giám sát và cải
thiện các q trình thực tế bằng cách trích lọc tri thức từ các nhật ký sự kiện đã có sẵn
trong các hệ thông thông tin ngày nay [11]. Các ứng dụng của khai phá quá trình đã được
áp dụng vào rất nhiều miền ứng dụng khác nhau, trong đó nổi bật nhất là quản lý quá
trình kinh doanh.
Các kỹ thuật khai phá dữ liệu cổ điển như phân lớp, phân cụm, học luật kết hợp,
khai phá dãy không tập trung vào các mơ hình q trình kinh doanh và thường chỉ được
sử dụng để phân tích một bước cụ thể trong q trình tổng thể [11]. Trong khi đó, khai
phá q trình tập trung vào các quá trình end-to-end và ngày càng phát triển bởi sự tăng
lên mạnh mẽ của dữ liệu sự kiện cũng như sự xuất hiện của các kỹ thuật phát hiện quá
trình và kiểm tra sự phù hợp mới.
Sự quan tâm tăng lên trong phân tích quá trình đã thúc đẩy việc thành lập Đội đặc
nhiệm IEEE về khai phá quá trình (IEEE Task Force on Process Mining: IEEE-TFoPM).
Gần đây Đội đặc nhiệm về khai phá quá trình đã đưa ra tun ngơn về khai phá q
trình. Tuyên ngôn này được hỗ trợ bởi 53 tổ chức và 77 chuyên gia về khai phá quá trình
[11].
Hình 1.1. cho thấy khai phá quá trình thiết lập các liên kết giữa các quá trình thực
tế và dữ liệu ở một bên và các mơ hình q trình ở bên kia. Hệ thống thông tin ngày nay
phải đối mặt với sự gia tăng khơng ngừng cả về mặt số hóa và vật lý ( công nghệ vật
liệu). Nhất là về mặt số hóa, hệ thống thơng tin ngày nay ghi lại nhật ký với số lượng rất
lớn các sự kiện. Các hệ thống WFM ( Workforce Management ) như Staffware hay Cosa,
2
Hình 1. 1. Ngữ cảnh khai phá quá trình [11]
các hệ thống BPM ( Business Process Management ) như BPM|One của Pallas Athena,
SmartBPM của Pegasystems, ... cung cấp một lượng thông tin chi tiết và rất lớn về các
hoạt động đã được thực hiện trong quy trình sản xuất kinh doanh. Và với lượng thông tin
vô tận chứa các tri thức hữu ích đó, u cầu đặt ra là làm sao chúng ta có thể sử dụng
chúng để thu nhận được những thông tin cần thiết và hỗ trợ, cải thiện thực tiễn quá trình
sản xuất kinh doanh. Từ những thực tế đó, ba bài tốn của khai phá q trình theo W.M.P
Van der Aalst [10] bao gồm: phát hiện quá trình, kiểm tra sự phù hợp và tăng cường mơ
hình cho phép chúng ta khai thác các tài ngun tri thức đó và sử dụng chúng cho cải
thiện sản xuất kinh doanh. Nội dung cụ thể của 3 bài tốn này sẽ được trình bày ở phần
sau, tuy nhiên trước hết chúng tôi xin đề cập đến khái niệm nhật ký sự kiên – điểm xuất
phát cho mọi công việc trong khai phá quá trình.
3
1.2. Nhật ký sự kiện
Như đã nói ở phần trước, nhật ký sự kiện là dữ liệu đầu vào cho khai phá q trình,
bao gồm mọi bài tốn của nó. Nhật ký sự kiện là kết quả ghi nhận lại của hệ thống khi có
một người dùng nào đó tương tác với hệ thống. Một nhật ký sự kiện bao gồm nhiều
trường hợp. Mỗi trường hợp gồm nhiều các sự kiện xảy ra nối tiếp nhau. Các sự kiện
trong trường hợp khác nhau có thể xảy ra xen kẽ nhau. Trường hợp và sự kiện có nhiều
thuộc tính.
Từ cấu trúc nhật ký sự kiện trong Bảng 1.1., có thể đưa ra nhận định rằng một q
trình ( process ) có thể bao gồm nhiều trường hợp (cases), chúng thể hiện một phiên làm
việc của người dùng trong hệ thống. Một trường hợp có thể chứa nhiều sự kiện ( events )
được sắp xếp theo trình tự, mỗi sự kiện chứa mốt số thuộc tính ( attriubutes). Chẳng hạn
như ở ví dụ trên, các trường hợp được phân biệt bởi các Case id ( 1,2,3...) và các sự kiện
bên trong các trường hợp được phân biệt bằng các Event id. Mỗi sự kiện có các thuộc
tính như mốc thời gian (Timestamp), tên hành động (Activity), người thực hiện
(Resource) hay chi phí (Cost),... Tuy vậy, không phải lúc nào tất cả các sự kiện đều chứa
cùng một tập thuộc tính. Các sự kiện liên quan đến cùng một hoạt động thì có cùng tập
các thuộc tính.
Một cách tổng qt hóa nhật ký sự kiện về nhật ký sự kiện đơn giản được W.M.P
Van der Aalst định nghĩa trong [10] theo toán học như sau:
Cho A là một tập những hành động trong nhật ký sự kiện, một vết hay trường
hợp(trace) là một chuối các hành động, tức là σ ∊
một đa tập (multi-set) trên tập A tức L∊ B(
. Một nhật ký sự kiện đơn giản L là
).
Trong đó khái niệm đa tập trên tập A có thể hiểu như là nhật ký sự kiện đơn giản L
là một tập hợp của các vết σ, trong đó mỗi dấu vết σ được thể hiện kèm chỉ số số lần dấu
vết đó được thực thi trong nhật ký sự kiện.
Ví dụ: A = {a,b,c,d,e} có ba vết
lần , và
sau:
= (a,b,c,d) xảy ra 3 lần,
= ( a,c,b,d) xảy ra 2
= (a,e,d) xảy ra 1 lần. Khi đó nhật ký sự kiện L được biểu diễn dưới dạng như
L = [ (a,b,c,d)3, (a,c,b,d)2, (a,e,d)]
Tuy nhiên, có thể dễ dàng cách biểu diễn nhật ký theo dạng như vậy chỉ quan tâm
vào khía cạnh luồng sự kiện và đã bỏ qua các thuộc tính của sự kiện khác.
4
Bảng 1. 1. Một đoạn trong nhật ký sự kiện mỗi dòng tương ứng với mỗt sự kiện [10]
Nhật ký sự kiện được dùng để sản xuất 3 kiểu khai phá quá trình bao gồm : phát
hiện quá trình, kiểm tra sự phù hợp và tăng cường mơ hình. Nội dung cụ thể của 3 bài
tốn này sẽ được trình bày ở phần tiếp theo.
5
1.3. Các bài tốn trong khai phá q trình
Theo van der Aalst [10] khai phá quá trình bao gồm 3 bài tốn: phát hiện q trình,
kiểm tra sự phù hợp và tăng cường mơ hình q trình.
Phát hiện q trình
Phát hiện q trình là bài tốn đầu tiên trong khai phá q trình. Kết quả của bài
tốn này là một mơ hình q trình được biểu diễn bằng một ngơn ngữ mơ hình hóa (dưới
dạng BPMN, BPEL, UML, lưới Petri, ..). Điểm xuất phát của bài tốn là nhật kí sự kiện
“đơn giản”, tức là từ nhật kí sự kiện ban đầu, ta lược bỏ đi những thuộc tính khơng cần
thiết cho việc phát hiện mơ hình. Hình dưới đây mơ tả một nhật ký sự kiện và hai mơ
hình q trình tiềm năng nhằm mơ tả hành vi được quan sát của nó dưới dạng lưới Petri.
Hình 1. 2. Một nhật ký sự kiện và 2 mơ hình q trình được xây dựng từ nó dưới
dạng lưới Petri [11]
6
Kiểm tra sự phù hợp
Bài toán thứ hai là bài tốn kiểm tra sự phù hợp của mơ hình. Ở bài tốn này một
mơ hình q trình hiện có được so sánh với một nhật ký sự kiện của cùng một q trình.
Q trình kiểm tra sự phù hợp có thể được dùng để kiểm tra xem quá trình thực tế (hành
vi quan sát được) - được ghi lại trong một nhật ký, có thống nhất với mơ hình (hành vi
được mơ hình hóa) và ngược lại.
Tăng cường mơ hình
Cuối cùng là bài tốn tăng cường mơ hình. Bài tốn này hướng tới việc cải tiến hay
mở rộng mơ hình bằng cách khai thác các khía cạnh khác trong nhật kí sự kiện mà trước
đó đã bị lược bỏ trong bài tốn phát hiện q trình. Chẳng hạn như thời gian, nguồn của
sự kiện, v.v…
Hình 1. 3. Ba bài tốn trong khai phá quá trình dưới dạng input và output bao gồm:
Phát hiện quá trình (a), Kiểm tra sự phù hợp (b) và Tăng cường mơ hình (c) [10]
7
1.4. Bài tốn phát hiện mơ hình tổ chức
Hầu hết những phương pháp nghiên cứu khai phá quá trình đều tập trung vào việc
phát hiện luồng điều khiển, xây dựng một mơ hình q trình dựa trên nhật ký sự kiện
trong khi các khía cạnh khác thường bị bỏ qua, chẳng hạn khía cạnh: thời gian liên quan
đến thuộc tính thời gian (timestamp), tổ chức liên quan đến thuộc tính nguồn (resource),...
Tuy nhiên, trong thực tế, các q trình khơng hoàn toàn bị điều khiển bởi các hệ thống mà
thay vào đó, nó ln có sự tham gia của con người và những hành vi của con người cũng
đóng vai trò rất quan trọng đối với hiệu suất của các q trình. Do đó việc khai thác vào
khía cạnh tổ chức như việc phát hiện cấu trúc tổ chức hay mạng lưới xã hội cũng đóng
một vai trị hết sức quan trọng, bởi nó sẽ giúp những người quản lý nắm rõ được cấu trúc
tổ chức và giúp cải thiện q trình kinh doanh [9]. Đó là lý do bài tốn khai phá khía cạnh
tổ chức được đưa ra.
Một trong những vấn đề quan trọng nhất trong khai phá khía cạnh tổ chức là việc
phát hiện cấu trúc tổ chức để phục vụ cho việc phân tích. Cấu trúc tổ chức sẽ được phát
hiện dưới dạng các mơ hình mạng lưới thể hiện mối quan hệ giữa các cá nhân, các nhóm,
... với nhau.
1.5. Tóm tắt chƣơng 1
Trong chương này, khóa luận đã giới thiệu một cái nhìn khái qt về khai phá q
trình, bài tốn phát hiện mơ hình tổ chức trong khai phá quá trình và các khái niệm liên
quan. Một trong những khái niệm quan trọng cũng được khóa luận đề cập tới trong
chương này là nhật ký sự kiện. Nhật ký sự kiện là đầu vào cho mọi bài tốn trong khai
phá q trình, bao gồm cả bài tốn phát hiện mơ hình tổ chức.
Trong chương tiếp theo, khóa luận sẽ trình bày chi tiết về các độ đo trong phân cụm
và sử dụng chúng vào bài tốn phát hiện mơ hình tổ chức.
8
Chƣơng 2.
SỬ DỤNG CÁC ĐỘ ĐO ĐỂ ĐÁNH GIÁ CHẤT
LƢỢNG PHÂN CỤM TRONG BÀI TỐN PHÁT
HIỆN MƠ HÌNH TỔ CHỨC
2.1. Cấu trúc cộng đồng trong mạng lƣới tổ chức
2.1.1. Khái niệm cấu trúc cộng đồng
Hình dưới đây mơ tả cấu trúc cộng đồng trong mạng xã hội.
Hình 2. 1. Cấu trúc cộng đồng trong mạng xã hội [3]
Các cộng đồng được đại diện bởi các hình trịn.Các node cùng một cộng đồng có
mối liên kết chặt chẽ với nhau bởi các liên kết có trọng số cao và liên kết ra bên ngồi bởi
các liên kết có trọng số thấp được thể hiện trên hình vẽ bằng đường nối giữa các node
đậm hay nhạt.
9
2.1.2. Các độ đo khoảng cách trong mạng xã hội
Handover of work metric:
Độ đo này xác định mức độ chuyển giao cơng việc giữa các cá nhân bằng việc trích
lọc từ nhật ký sự kiện theo thứ tự thực hiện cơng việc trong từng trường hợp, trong đó
hành động đầu tiên được hồn thành bởi một cá thể nào đó, sau đó quy trình được tiếp tục
với hành động tiếp theo và được hoàn thành, cứ như vậy một trường hợp được hồn
thành với sự chuyển giao cơng việc giữa các cá thể.
Subcontracting metric:
Độ đo này tương tự với Handover of work metric, tuy nhiên trong handover of work
metric mối quan hệ giữa hai cá thể là một chiều thì trong Subcontracting metric mối quan
hệ giữa hai cá thể là hai chiều. Ví dụ cá nhân A subcontract cá nhân B khi giữa 2 hành
động thực hiện bởi A có một hành động được thực hiện bởi B.
Working together metric:
Hai cá nhân A và B làm việc cùng nhau khi họ thực hiện các hành động trong cùng
một trường hợp. Độ đo này đơn giản chỉ đếm số lượng các trường hợp mà 2 cá nhân làm
việc cùng nhau.
Similar task metric:
Kỹ thuật này tập trung vào hành động chung, mục tiêu của kỹ thuật này là xác định
xem các cá thể thực hiện bao nhiêu hành động giống nhau trong nhật ký sự kiện. Để thực
hiện kỹ thuật này, mỗi một cá thể sẽ được thống kê số lần thực hiện các hành động cụ
thể, sau đó các cá thể được so sánh với nhau để tìm ra sự tương đồng.
Reassignment metric:
Kỹ thuật này phát hiện mức độ ủy thác hành động từ cá nhân này đến cá nhân khác.
Ví dụ như nếu cá thể A thường ủy thác công việc cho cá thể B và khơng có việc B ủy
thác cơng việc cho A thì có thể A là cấp trên của B.
2.1.3. Các cách tính khoảng cách giữa các tổ chức
Khoảng cách giữa các tổ chức ( hay các cụm ) được tính dựa trên khoảng cách giữa
10
các cá nhân bên trong chúng. Có ba cách tính khoảng cách thường được sử dụng là:
single linkage, complete linkage và average linkage.
Single linkage:
Khoảng cách giữa hai cụm được tính bằng khoảng cách giữa cặp phần tử gần nhất
của chúng.
Hình 2. 2. Cách tính khoảng cách giữa hai cụm theo single linkage
Ví dụ như trên hình: khoảng cách giữa hai cụm sẽ được tính bằng khoảng cách giữa
hai phần tử A3 và B1.
Complete linkage:
Khoảng cách giữa hai cụm được tính bằng khoảng cách giữa cặp phần tử xa nhất
của chúng.
Hình 2. 3. Cách tính khoảng cách giữa hai cụm theo complete linkage
11
Ví dụ như trên hình: khoảng cách giữa hai cụm sẽ được tính bằng khoảng cách giữa
hai phần tử A2 và B2.
Average linkage:
Khoảng cách giữa hai cụm được tính bằng trung bình của tất cả các khoảng cách
của các phần từ giữa hai cụm.
Hình 2. 4. Cách tính khoảng cách giữa hai cụm theo average linkage
Ví dụ như trên hình: khoảng cách giữa hai cụm sẽ được tính bằng trung bình
khoảng cách giữa tất cả các phần tử giữa hai cụm.
2.2. Các thuật tốn phân cụm trong phát hiện mơ hình
tổ chức
Mặc dù có rất nhiều thuật tốn phân cụm với các cách tiếp cận khác nhau, tuy nhiên
theo [10], hai thuật tốn thơng dụng thường được sử dụng là AHC và K-means. Sau đây
tơi xin trình bày nội dung của hai thuật toán này và một biến thể của thuật toán K-means
là K-medoids sẽ được dùng cho nội dung thực nghiệm ở chương sau.
2.2.1. Thuật toán AHC
Thuật toán AHC là một trong hai loại của thuật toán phân cụm phân cấp bao gồm:
12
Tích đống (Agglomerative hierarchical clustering hay AHC ) là hướng tiếp cận từ
dưới lên với khởi tạo ban đầu mỗi phần tử thuộc về một cụm riêng của nó và tiến
hành gộp dần các phần tử lại trong quá trình lặp.
Phân chia (Divisive hierarchical clustering ) là hướng tiếp cận từ trên xuống,
khởi tạo ban đầu với chỉ một cụm và tiến hành chia nhỏ cụm đó để tạo các cụm mới
trong quá trình lặp.
Tuy nhiên, với mục tiêu phát hiện mơ hình tổ chức từ các đơn vị cá thể ( người thực
hiện) , thuật toán AHC sẽ hữu ích hơn thuật tốn cịn lại. Nội dung cụ thể của thuật toán
như sau [3]:
Cho trước mạng gồm N node:
Bước 1.Mỗi node được coi như là một cụm ( N cụm gồm 1 phần tử )
Bước 2. Tìm cặp cụm gần nhau nhất và gộp chung chúng thành một cụm.
Bước 3.Tính lại khoảng cách giữa cụm mới với các cụm cũ.
Bước 4. Lặp lại bước 2 và 3 cho đến khi tất cả các phần tử đã được gộp lại thành
một cụm duy nhất N phần tử hoặc đã đạt số lượng cụm yêu cầu.
2.2.2. Thuật toán K-means
Thuật toán K-means cũng là một thuật toán quan trọng và được sử dụng phổ biến
trong kỹ thuật phân cụm. Tư tưởng chính của nó là tìm cách phân nhóm các đối tượng (
objects ) cho trước vào K cụm ( K là số cụm và được xác định trước ) sao cho tổng bình
phương khoảng cách giữa các đối tượng đến tâm nhóm ( centroid ) là nhỏ nhất.
Nội dung thuật toán cụ thể như sau [2] :
Cho trước mạng lưới gồm N node và số cụm k.
Bước 1. Khởi tạo: Chọn ra ngẫu nhiên k node làm trọng tâm {ci} i = 1, ..., k.
Bước 2. Với mọi node, tính khoảng cách giữa nó với các trọng tâm của các cụm.
Gán nó vào cụm có trọng tâm gần nó nhất.
Bước 3. Cập nhật lại các trọng tâm mới.
13
∑
=
∊
Bước 4. Lặp lại bước 2 và 3 cho đến khi khơng có sự thay đổi giữa các cụm
2.2.3. Thuật toán K-medoids (PAM)
Thuật toán này là một biến thể của K-means nhưng phù hợp hơn cho việc phát hiện
mơ hình tổ chức bởi chỉ phụ thuộc vào khoảng cách giữa các node.
Nội dung thuật toán [1]:
Cho trước mạng gồm N node và số cụm k:
Bước 1. Khởi tạo: Chọn ngẫu nhiên k phần tử từ N node làm các trọng tâm.
Bước 2.Gán mỗi node với cụm có trọng tâm gần nó nhất.
Bước 3. Với mỗi trọng tâm M
Bước 3.1.Với mỗi node khơng phải trọng tâm O
Bước 3.2.Hốn đổi M và O và tính tốn lại hàm mục tiêu cho sự hốn
chuyển này.
Bước 4. Chọn sự hốn chuyển có hàm mục tiêu đạt nhỏ nhất
Bước 5.Lặp lại các bước từ 2 đến 4 cho đến khi khơng có sự thay đổi về trọng tâm.
Hàm mục tiêu được tính như sau:
E=∑
∑
∊
2.3. Các độ đo chất lƣợng phân cụm
Theo [5] và [8], các độ đo chất lượng phân cụm được phân thành 3 loại là:
Đánh giá trong ( internal evaluation): Kết quả phân cụm được đánh giá dựa trên
chính dữ liệu được phân cụm bằng cách sử dụng các đại lượng đánh giá sự gắn kết
cụm như mật độ ( density), khoảng cách giữa các phần tử bên trong cụm hay
khoảng cách giữa các cụm với nhau, ... Hướng tiếp cận của loại này dựa trên tiêu
14