Tải bản đầy đủ (.pdf) (345 trang)

Phát triển các kỹ thuật tiên tiến khai phá mẫu từ nhật ký sự kiện xây dựng phần mềm và khung ứng dụng thử nghiệm tại doanh nghiệp việt nam

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (12.89 MB, 345 trang )



ĐẠI HỌC QUỐC GIA H À NỘI

BÁO CÁO TỔNG KẾT
KẾT QUẢ THựC HIỆN ĐÊ TÀI KH&CN
CẤP ĐẠI HỌC QUỐC GIA

Tên đề tài:Phát triển các kỹ thuât tiên tiến khai phá mẫu từ nhật ký
sự kiện, xây dựng phan niêm và khung ím g dụng thử
nghiệm tại doanh nghiệp Việt Nam
Mã số đề tài:

QG.15.22

Chủ nhiệm đề tài: PGS. TS. Hà Quang Thụy

Hà N ội, tháng 8-2017


PH Ầ N I. TH Ô N G TIN CH U N G
1.1. Tên đề tài: Phát triển các kỹ thuât tiên tiên khai phá mẫu từ nhật ký sự kiện, xây dự ng phì
niêm và khung ímg dụng thử nghiệm tại doanh nghiệp Việt Nam
1.2. M ã số: QG.15.22
1.3. D anh sách chủ trì, th à n h v iê n tham gia thự c h iện đê tài
TT

Chức danh, học vị, họ và tên

Đ ơn vị công tác


V ai trò thực h iệ n đề tài
C hủ nhiệm

Lê H oàng Q uỳnh, ThS. NCS.

Trường ĐHCN,
Đ H QGHN
ĐHCN

3

N guyễn Trí Thành, TS.

ĐHCN

T hành viên

4

Phan Xuân H iếu, TS

ĐHCN -

T hành viên

5

N guyễn Cẩm Tú, TS.

ĐHCN


T hành viên

6

Trần Mai Vũ, ThS. NCS.

ĐHCN

T hành viên

r-r

/

N guyễn Việt Cường, TS.

ĐHCN

T hành viên

8

N guyễn N h ật Q uang, TS.

T hành viên

9

H oàng Vũ, ThS. NCS.


10

Bùi Thị H ồng N hung, ThS.
NCS.

Chủ tịch Cơng ty CP CN
phần m ềm H ài Hịa
Viện CNTT-ĐHQGHN
NCS ĐHCN
HV N /hàng, NCS ĐHC.N

1

Hà Q uang Thụy, PGS. TS.

2

T hư ký

T hành viên
T hành viền

1.4. Đ ơn vị chủ trì:
1.5. Thời gian thực hiện:
1.5.1. Theo hợp đồng:

24 tháng từ tháng 02 năm 2015 đến tháng 02 n ăm 2017

1.5.2. Gia hạn (nếu có): 6 tháng (tới tháng 8/2017)

i .5.3. Thực hiện thực tế: 28 tháng từ tháng 02 năm 2015 đến tháng 08 n ăm 2017
1.6. N hữ ng thay đổi so với th u y ế t m in h ban đầu (nếu có): Khơng
(Vê mục tiêu, nội dung, phưcmg pháp, kêí quả nghiên cứu và tơ’chức thực hiện; Nguyên nhân; )
kiên của Cơ quan quản lý)
1.7. Tổng k in h p h í được p h ê d u y ệt của đề tài: 400 triệu đồng.
PH Ầ N II. TỔNG Q UA N KẾT QUẢ NGHIÊN c ứ u
1.

Đ ặt vân đê

Q uy trinh nghiệp vụ (business process) đã trở thành m ột thành p h ần tài nguyên chiiến lược
tạo lợi th ế cạnh tranh của các d o anh nghiệp tại các nền kinh tế p h át triển. Theo các báo cáo
1


cạnh tranh toàn cầu hàng năm của Diễn đàn kinh tế thế giới [WEF1317], tại các nên kinh tế
đinh h ư ó n g đổi mới (innovation-driven economy) phát triển nhất, các doanh nghiệp tạo lập
lợi th ế cạnh tranh bằng cách sản xuất ra các sản phẩm độc đáo dự a trên các công nghệ tiên
tiến n h ất và/hoặc các quy trình nghiệp vụ tinh vi nhất. Khai phá quy trình (process mining),
m ột cầu nối giữa khoa học quy trình và khoa học dữ liệu, là m ảng ghép cuối cùng đê hồn
thiện tồn bộ chu trình tự động hóa quản lý quy trình nghiệp vụ (business process
m anagem ent), được coi như ''đ ư a khoa học d ữ liệu tới hành động" ("Process Mining: Data
science in Action" [Aalstló]). Khai phá quy trình đã trở thành m ột lĩnh vực nghiên cứu triển khai thu h ú t sự quan tâm đặc biệt của cộng đồng nghiên cứu, m à nịng cột là nhóm
cơng tác về khai phá quy trình của IEEE (The IEEE Task Force on Process M ining). Cải tiến
quy trinh nghiệp vụ nhằm rú t ngắn thời gian hồn thành dịch vụ cơng là m ột m ục tiêu được
đặt ra trong bốn nghị quyết của C hính p hủ về cải thiện môi trư ờ ng kinh doanh, nâng cao
năng lực cạnh tranh quốc gia trong bốn năm vừa qua [NQCP19]. N hư vậy, việc nghiên cứu
và triển khai về khai phá quy trình trong đề tài này khơng chỉ phù hợp với xu th ế nghiên
cứu - triển khai về khai phá quy trình trên th ế giới m à cịn phù hợp vói chủ trương cải tiến
quy trìn h nghiệp vụ của C hính phủ ta hiện nay và đây là m ột công việc hết sức cần thiết.

Mô h ìn h quy trình nghiệp vụ và khai phá quy trình nghiệp vụ liên quan m ật thiết tới thái
độ và n ăn g lực thực hiện hàn h động nghiệp vụ của con người, vì vậy, khai phá quy trình là
m ột nội dung nghiên cứu đầy thách thức. Trong Tun ngơn về khai phá q uy trình, nhóm
cơng tác về khai phá quy trình của IEEE đã chỉ ra mười m ột thách thức chính trong nghiên
cứu - triển khai về khai phá quy trình [Manifesto]. Ba thách thức trong m ười m ột thách
thức đ ó được đề tài này định hướng tập trung nghiên cứu là (i) Xử lý các n h ật ký sự kiện
phức tạp bao gồm nhiều tính năng khác nhau, (ii) Xử lý trôi khái niệm (Concept Drift), (iii)
C ung cấp sự hỗ trợ nghiệp vụ; đồng thời, đề tài cũng được định hướng vào việc thử nghiệm
áp d ụ n g khai phá quy trình vào thực tiễn quản lý quy trình nghiệp vụ tại doanh nghiệp Việt
Nam . T rên cơ sở khung nhìn m ột vết sự kiện n h ư m ột xâu văn bản trên bảng chữ các hành
động^ m ộ t nhật ký sự kiện là m ột tập các xâu văn bản n hư thế, đề tài đề xuất m ột giải pháp
phân cụm nhật ký sự kiện d ự a trên biểu diễn đồ thị vết sự kiện, m ột mơ hình học khái niệm
dự a trê n logic m ô tả đ ể xử lý trôi khái niệm và m ột khung p h át hiện quy trình tương tác
bảy giai đoạn. Đề tài cũng tiến hàn h khảo sát các quy trình nghiệp vụ tại Tập đoàn điện lực
Việt N a m và đ ư a ra m ột số nhận xét p h ù họp.
Nội d u n g còn lại trong báo cáo tổng quan kết quả nghiên cứu này được tổ chức n h ư sau.
M ục 2 trìn h bày m ục tiêu nghiên cứu của đề tài về các giải pháp liên quan tới ba thách thức
trên đ â y về khai phá quy trình. Phương pháp nghiên cứu của đề tài được giói thiệu trong
M ục 3. M ục 4 tập trung trình bày về các kết quả nghiên cứu chính của đề tài. Đầu tiên, m ột
m ô b in h phân cụm nhật ký sự kiện d ự a trên biểu diên đồ thị vết sự kiện được trình bày.
Tiếp theo, m ột số kỹ thuật học khái niệm d ự a trên logic mô tả xử lý vấn đề trôi khái niệm
cũng n h ư một số thuật toán p h ân lớp văn bản trong nhật ký sự kiện được giới thiệu. Trên
cơ sở tiến hành m ột khảo sát sơ bộ về quản lý quy trình nghiệp vụ tại Tổng Cơng ty Điện
lực H à Nội, m ột khung mơ hình phát hiện quy trình tương tác bảy giai đoạn ứng dụn g cho
các d o a n h nghiệp Việt N am được giới thiệu. M ục 5 tóm tắt về kết quả đạt được, các hạn chế
tro n g thự c hiện đề tài cũng n h ư d ự kiến về công việc nghiên cứu tiếp theo.

2



2. M ục tiêu
Đề tài định hư ớ n g vào ba m ục tiêu sau đây:
-

N ghiên cứu, p h á t triển ba thuật toán, giải p h áp tiên tiến khai p h á m ẫu dãy, m ẫu tb
tự bộ p h ận từ n h ật ký sự kiện;

-

Xây dự n g m ô đ u n phần m ềm thi h àn h các th u ật toán, giải p h áp được đề x u ất và pl
họp với bộ công cụ ProM;

-

Phát triển m ộ t khung ứ ng dụng thử nghiệm khai phá quy trình tại m ột d o a n h nghiệ
Việt Nam.

3. P h ư ơ n g p h áp n g h iê n cứu
Phương pháp n g h iên cứu chính được tiến hàn h trong đề tài là nghiên cứu đ ịn h lư ợ ng v<
các nội dung n h ư sau:
- Phát sinh các m ơ hình, lý thuyết và giả thuyết. Trong trư ờ ng h ợ p này, đ ề tà i h ư ớ r
tới việc đề x u ất (i) các kiểu mới của m ẫu dãy, m ấu thứ tự bộ p h ận từ nhiệt ký s
kiện d ự a trên sự p h át triển các kiểu m ẫu được R. p. Jagadeesh C h an d ra Bose, WM
Van d er A alst và cộng sự phát triển; (ii) các kỹ thuật tiên tiến khai p h á m ẫ u từ nh,
ký sự kiện.
- N ghiên cứu các công cụ và phư ơng pháp đo iường liên quan tói các kiêu miấu cũn
như các kỹ th u ật tiên tiến khai ph á m ẫu từ n h ật ký sự kiện. Tính tư ơ n g đ ồ n g củ
vết sự kiện với xâu văn bản cho phép áp d ụ n g các công cụ và p h ư ơ n g p h á p đ
lường m ới cho các m ẫu và kỹ th u ật mới.
- Thu thập d ữ liệu thực nghiệm, hiểu và tiền xử lý dữ liệu thực nghiệm . Cộỉng đồn

khai p h á quy trình th ế giới có cơng b ố các tài ngun cơng cộng đ ể tiến h àĩìỉì thụ
nghiêm kiểm chứng và đánh giá. Liên hệ với các nhà khoa học trên th ế giớ i, đặ
biệt là n hóm của GS. Bart Baesens1ở U niversity of Leuve (Katholieke Uni versite
Leuven) đ ể có thêm các bộ dử liệu nh ật ký sự kiện.
-

Thực nghiệm các kỹ thuật khai phá m ẫu được đề xuất cũng n h ư các kiểu m ẫu đ
nghị đ ể đ án h giá độ tín cậy của các m ẫu và kỹ thuật được đề xuất. Đ á n h giá ké
quả thực nghiệm .

- Công b ố quốc tế đ ể nhân được đ án h eiá của cộng đồng nghiên cứu về các kết qu
nghiên cứu.
4. T ông kết k ết q u ả n g h iê n cứu
H ai báo cáo chuyên đề 1 và 2 của nhóm thực hiện đ'ê tài (Phụ lục 3. Các báo cáo chuyên đề
đã giới thiệu chi tiết về các khái niệm nền tảng trong khai phá quy trinh. K hai p h á quỵ trìrứ
bao gồm ba bài tốn chính là p h át hiện (mơ hình) quy ưình, kiểm tra sự p h ù hợp của me
h ìn h quy trình với n h ật ký sự kiện và tăng cường mơ hình quy trình. Đề tài này tập trunc
vào bài tốn p h á t hiện quy trình (process discovery), trong đó n h ận đâu vào là một nhật k)
sự kiện và cho đ ầu ra là m ột m ơ hình quy trình tương ứ n g với n h ậ t ký sự kiện đầu vào. Mc
h ìn h quy trình đ ầu ra cần đáp ứng m ột số tính chất, trong đó b ốn tính chất cốt yếu nhất là

1 l e u v e n .b e / b a r t .b a e s e n s

3


độ phu hợp (fitness), độ chính xác (precision), độ khái qu át (generalization) và độ đon giản
(simplicity). N h ật ký sự kiện thu th ập được từ các hệ thống thông tin nghiệp vụ thường rất
phức tạp cho nên kết quả thực hiện các thuật toán phát hiện quy trình (mơ hình quy trình
nghiệp vụ) cho ra các m ô hình quy trình thường rất phức tạp, rối rắm và không đáp ứng

được các yêu cầu theo bốn đô đo m ục tiêu trên đây. Đế nâng cao hiệu q của các thuật tốn
phát hiện quy trình, n h ật ký sự kiện đầu vào cần được tinh chỉnh dựa trên việc áp dụng các
giải pháp phát h iện m ẫu tiền xử lý, phân cụm vết sự kiện và xử lý trôi khái niệm.
N hư đã được giới thiệu, theo khung nhìn coi mơi vết sự kiện n h ư một xâu văn bản và m ột
nhật ký sự kiện n h ư m ột tập các xâu văn bản, nội dung nghiên cứu chính của đề tài là đề
xuất các mơ h ìn h và giải p h áp áp d ụng các thuật toán khai p h á dữ liệu văn bản vào việc
tình chỉnh nhật ký sự kiện đầu vào. Kết quá của đề tài tập tru n g các mơ hình và giải ph áp
phân cụm vết sự kiện, xử lý vấn đ ề trôi khái niệm và p h át hiện mâu phổ biến từ nhật ký sự
kiện. Đồng thời, đ'ê tài cung cấp m ột khung phát hiện quy trình có tương tác và khảo nghiệm
việc áp dụng khai phá quy trình tại doanh nghiệp Việt Nam.
4.1. Phân cụm v ế t sự kiện trong n h ậ t ký sự kiện
N hư đã được trìn h bày, p h ân cụm v ết sự kiện trong nhật ký sự kiện là m ột nhóm giải ph áp
nâng cao chất lượng nhật ký sự kiện đầu vào cho thuật toán p h á t hiện quy trình nghiệp vụ.
Dựa trên khung nhìn vết sự kiện n h ư m ột xâu văn bản và n h ật ký sự kiện sự m ột bộ (dãy)
xâu văn bản, tiếp cận trước đây của các tác giả trong các cơng trình liên quan thường sử
dụng các biểu d iễn văn bản theo tần số đặc trưng (từ, n-gram), và trong m ột vài trường hợp,
giải pháp phát hiện m ẫu p h ổ biến có thể được tiến hành trước đó đ ể giảm bót kích thước
của xâu văn bản.
Khác vói cách tiếp cận chung n h ư vậy, nhóm nghiên cứu áp d ụ n g phương pháp biếu diên
đồ thị khoảng cách đối với xâu văn bản do c . c . A ggarw al và p. Zhao [Aggarwall3] do đồ
thị khoảng cách th ể hiện được m ối liên kết "đồ thị" giữa các hành động trong quy trình.
Cho m ột tập văn bản A (nhật ký sự kiện L là m ột tập các "văn bản" vết sự kiện) với tập các
đặc trưng văn b ản c (tập các hành động T trong các quy trình nghiệp vụ), biểu diễn đồ thị
khoảng cách bậc k của m ột văn b ản D được lấy ra từ tập d ữ liệu DeA được định nghĩa
Ơ(A, D, k) = (/V(A),/1(D, k)) ữ o n g đó, N(À) là tập các n ú t được xác định trong tập dữ liệu A
và A(D, k ) là tâp các cung trong văn bản. Tập /V(A) và A(D, k ) được xác định như sau:
-

/V(A): là tập các n ú t của đồ thị, ở đây, mỗi n ú t là m ột đặc trung (từ) trong toàn bộ tập
d ữ liệu A. SỐ lượng đặc trưng trong tập d ữ liệu có thể lớn và thứ tự các đặc trưng là

không đổi khi biểu diễn trên mọi văn bản trong A.
- A(D, k): là tập các cung có trọng số. N út i sẽ nối tới n ú t i nếu đặc trư ng 2 đứng trưóc
đặc trưng i khơng q u á k vị trí. Ví dụ, k = 1 được hiểu là thứ tự tuần tự các đặc trưng.
Trọng SỐ của cung (i, j) là số lần đặc trưng i đứng trước từ j khơng q k vị trí trong
văn bản.
Trong [Aggarwall3], c . c . A ggarw al và p. Zhao đã chứng tỏ biểu diễn đồ thị là m ột biểu
diễn văn bản đ ảm bảo độ hiệu quả cao đối vói các thuật tốn ph ân cụm, phân lớp văn bản.
Do đó, nhóm thực hiện đề tài đã đ'ê xuất m ột mơ hình phân cụm nhật ký sự kiện ban đầu
thành m ột số n h ật ký sự kiện thành phần (cụm vết sự kiện) th u ần nhất hơn làm đầu vào đối
với th u ậ t tốn p h á t hiện quy trình.
4


T rong [QG/15.22-03]2, nhóm nghiên
cứu đ ề xuất m ột m ơ hình p h ân cụm vết
Event Log
sự kiện theo biểu diễn đồ thị khoảng
~T
Trace R ep rese n ta tio n
cách [A ggarw all3]. N hư m ô tả tại H ình
I ...... I .....
1, n h ậ t ký sự kiện th u thập được, được
D a ta S e t for C lustering
chuyển sang dạn g đơ n giản, với m ối sự
kiện chi giữ lại thuộc tính "hoạt động".
C lu s te rin g
Khi đó, mỗi trư ờ n g hợp trong n h ật ký
±
rr
sự kiện được chuyển đổi thành m ột vết

c tu s le r l
C tuster2
Ciusỉíetk
sự kiện, là m ột xâu các hành động được
±
P r o c e s s D isc o v e ry
thực hiện theo th ứ tự thời gian. Q ua
thực nghiệm trên nhật ký sự kiện
P r o c e s s M odelk
P ro c e s s Moflel2
prBm ó với hai th u ật toán p h ân cụm k-i Ptocess Moữen
m odes và k-m eans, biểu diễn đ ồ thị

+
M o d el E v a lu a tio n
khoảng cách bậc 2 cho các giá trị độ
p hù hợp (fitness), độ chính xác
V a lu e s c f e v a lu a tin g m e a s u r e s
(precision) tốt n h ấ t so với các bậc khác.
Đ iều này là h oàn toàn với đ án h giá
Hình L Khung phát hiện quy trình sử d ụ n g phân
thực nghiệm của c . c . A ggarw al và p.
cụm nhật ký sự kiện theo biểu d iên đỏ
Zhao. Sử d ụ n g biểu diễn theo đồ thị
thị khoảng cách [ QG. 15.22-03]
khoảng cách bậc 2 cho vết sự kiện, độ
p h ù hợp và độ chính xác đều cao hơn
hắn so với biểu diễn theo vecctor.
D ựa trên mơ h ìn h p hân cụm n h ật ký sự kiện được ph át biểu trong [QG. 15.22-0:3]/ tror
[N hungl 7], nhóm nghiên cứu tiến h àn h các thực nghiệm công p h u hơ n th eo nhiều phưon

p h áp biếu diễn v ết sự kiện (túi h àn h động, k-gram , lặp cực đại, đồ thị k hoảng cá(ch). Tit
h àn h thực nghiệm theo hai thuật toán p h ần cụm k-m eans và DBScan trên ba nhật k ý sự kiệ
Lfull, prAmó, và p rlĩm ỗ , kết quả cho thấy biểu diễn theo đồ thị k hoảng cách v ế t sự kiệ
củng cho kết quả tốt nhất. H ơn nữ a, th u ật tốn k-m eans có ư u th ế h o n đối với các n h ật k
sự kiện có số chiều biểu diễn thấp (Lfull) trong khi đó DBScan là chứ ng tỏ ưu t h ế đối V(
các n h ậ t ký sự kiện có số chiều biểu diễn cao (prAmỗ, prHm ó). N hóm n g h iê n cứu đĩang tie
tục tiến hành thực nghiệm với biểu diễn vết sự kiện theo độ đo tư ơng tự Google tro n g nhc
ký sự kiện.
4.2. X ử lý trơi khái níệin dựa trên m ô hình học khái niệm theo logic m ô tả
N h ư đ ã được ư ìn h bày trong th u y ết m inh đề tài, trôi khái niệm (conceipịdri/t) đ ư ợ c Tuyê:
ngôn khai phá q u y trình đ án h giá là m ột trong m ười m ột thách tKưcTtrõng khai p h á qu
trình. Mở rơng ra, trơi khái niệm hiện là m ột chủ đề nghiên cứu thời sự tro n g luồng nghiêi
cứu về xử lý dòng d ử liệu (data streams), m à điển hình là xử lý trơi khái n iệ m dòng dữ liệi
theo thòi gian. Trong chủ đề nghiên cứu này, tiếp cận xử lý trôi khái niệm d ự a trên bản thi
học (ontology) và w eb ngữ nghĩa n h ận được sự quan tâm đặc biệt của cộ n g đồng nghiêi

2 Báo cáo này sừ dụng các tên ký hiệu sản phẩm khoa học cùa đề tài được mô tà tại Phần III của báo cáo đê ch
dân tham chiếu tới các â'n phẩm đó.


cứu [Wang 11, D ehghanló, Lécuél7], đồng thời, tiếp cận sử dụn g phân lớp dữ liệu trong xử
lý trôi khái niệm đã chứng tỏ được tính h ữ u d ụ n g [Wang03, VVangll, D ehghanló, Lécuél7].
Trong m ột vài năm gần đây, bài tốn xử lý trơi khái niệm trong các hệ thống tổ chức tri thức
(knowledge organisation systems) theo tiếp cận web ngữ nghĩa (senmantic web) d ự a trên nền
tảng logic m ô tà (desciption logic) đã thu hút được sự quan tâm của nhiều nhóm nghiên cứu.
Một số kết quả nghiên cứu theo định hướng này đã được công bố, chẳng hạn n h ư [VVangll,
D ehghanló, Lécuél7]. Trong web n gữ nghĩa, d ữ liệu được diễn giải trong các b ả n thể học
và dãy có th ử tự của dữ liệu được biểu diễn dưới dạng luồng bản th ểh ọ c [Lécuél7].
Trong khai phá quy trình, nhật ký sự kiện là m ột kiểu dữ liệu dòng các ữ ư ờ n g hợp (dạng
cô đọng là vết sự kiện), ưong đó, các vết sự kiện là m ột dữ liệu dòng, đồng thời, dòng các

vết theo thời gian trong nhật ký sự kiện là đậm nét hơn đặc trư ng dữ liêu dịng trong nhật
ký sự kiện. Điều đó cho thây tiếp cận xử lý trôi khái niệm trong nhật ký theo khung nhìn
bản th ể học và web ngữ nghĩa là có cơ sở khoa học và có tính khả thi cao.
Hỉnh 2 trình bày bốn
kiểu trơi khái niệm
điển hình đối với các
quy trình nghiệp vụ
và được th ể hiện
trong nhật ký sự kiện.

M-

ỌKC

M, Z ^ =
Hình 2. Bốn kiêu trơi khái niệm trong khai phá quy trình: (a) trôi

Bốn kiểu trôi khái
đột ngột, (b) trôi dần, (c) trôi định kỳ, (d) trôi gia tăng
niệm trong khai phá
[Bosel47
quy trìn h là trơi đột
ngột (Sudden drift), trơi dần (Gradual drift), trôi định kỳ (Recurring drift) và trôi gia tăng
(Incremental drift). Trôi đột ngột xảy ra theo các kịch bản khi gặp tình huống khẩn câp, khủng
hoảng hoặc thay đổi về luậl hoặc bất kỳ m ột thay đổi đột ngột (disruptive change) của tổ
chức. Thể hiện trôi đột ngột trong n h ật ký sự kiện là quy trình mới (M2 ) khác biệt với quy
trình hiện có (Mi). Trôi đần xảy ra khi tổ chức cải tiến quy trình nhằm tạo m ột lợi thế cạnh
tranh, tuy nhiên, quy trình cũ (Mi) được tiến h àn h song song với quy trình m ới (M 2) trong
m ột giai đoạn. Ví d ụ như, tổ chức cải tiến m ột quy trình giao hàng cho khách hàng, với đơn
hàng mới đư ợc tiến hành theo quy trình m ới cịn với đơn hàng đang có được tiến hành theo

quy trìn h cũ. Trường hợp này tương ứng với tiếp cận tiếp nhận nhập pha {phase-in approach,
còn đư ợ c gọi là tiếp cận từng phần: piecemeal approach) m ột hệ thống mới trong tổ chức. Trôi
định kỳ tư ơng ứng với kịch bản có m ột tập quy trình thay th ế nhau theo chu kỳ thời gian.
H iệu ứ ng m ù a là ví dụ điến hình cho trơi đ ịnh kỳ, theo đó mỗi m ột m ùa có th ể sử dụng m ột
quy trìn h nghiệp vụ tương ứng. Trơi gia tăng tương ứng vói kịch bản đ ể chuyển đối quy
trình cũ (Mi) tói quy trình mới (Mn) qua nhiều th ế hệ quy trinh trung gian (Mỉ, M 3 ,
Mn1) m à sự chuyển đổi quy trình từ th ế hệ cũ sang th ế hệ mới là rất nhỏ bé. Kịch bản này tương
ứng v ó i việc cải tiến từng bước quy trình nghiệp vụ, được tiến hành theo thay đổi duy trì
(sustaining change) của tổ chức.
Theo R. P. J. c . Bose và cộng sự [Bosell], ba vấn đề cơ bản n h ất trong xử lý trôi khái niệm
là (i) p h át h iện điểm thay đổi và đây là vấn đề cơ bản nh ất trong xử lý trôi khái niệm trong
khai p h á quy trình, (ii) định vị và m ơ tả đặc trư n g vùng nhật ký sự kiện nằm giữa hai điểm

6


thay đổi liền kề, (iii) p h át hiện m ô hình quy trình tương ứ n g từ ng vùn g n h ật ký sự kiện c
được p h át hiện và đặc trư n g hóa.
Theo M ahdie D ehghan và cộng sự [D ehghanló], tồn tại hai p h ư ơ n g p h áp hiện đại ph át hiệ
trôi khái niệm dự a trên ph ân lớp là phư ơng ph áp bộ p h ân lớp đ o n và p h ư ơ n g p h áp nhói
bộ phân lóp. Các tác giả giới thiệu m ột thuật toán phát hiện trơi khái niệm d ự a trên phá
lóp khi sử d ụ n g chỉ d ấu về số lượng và khoảng cách lỗi (N um ber and D istance of Error
NDE). Phù h ọ p với tình huống trơi khác niệm trong các hệ thống tổ chức tri thức, bộ họ
khái niệm cân được điều chỉnh tại nhữ ng điểm thay đổi theo dòng thời gian các vết d ữ liệ
trong n h ật ký sự kiện.
Tham gia vào dịng nghiên cứu xử lý trơi khái niệm trong n h ật ký sự kiện theo tiếp cận we
ngữ nghĩa d ự a trên nên tảng logic m ô tả, đề tài đã tiến h àn h khảo sát và đề xu ất các gií
pháp học khái niệm d ự a trên tiếp cận của logic m ô tả nhằm áp d ụ n g vào các giải p h áp phí
hiện các điểm thay đổi khái niệm trong nhật ký sự kiện. Các điểm thay đổi đ ã đư ợc xác địn
trở thành các mốc p h ân hoạch nhật ký sự kiện đầu vào thành các n h ật ký sự kiện thàn

phần. T huật toán p h át hiện quy trình được tiến hành trên tập các nhật ký sự kiện thàn
phần và các m ơ hình quy trình kết quả được tích hợp thành mơ h ìn h kết q u ả đ ầu ra tươn
ứng với n h ậ t ký sự kiện xuất phát. Đề tài đã thu được m ột số kết quá bước đ ầu theo tie
cận này.
Trong [QG.15.22.1, QG.15.22.7], nhóm nghiên cứu phân tích về tính tương đ ồ n g đối với cá
logic mô tả không tương xứng và đề xuất áp d ụ n g vào bài toán học khái niệm trong bướ
định vị và đặc trưng hóa các v ùng nh ật ký sự kiện theo kh u n g nhìn của R. p. J. c. Bose CỘIV
sự [Bosell]. D ựa trên k h u n g nhìn của Hennessy-M ilner, cơng trình đ ã thu đư ợ c các kết qu
bất biến trong nhận diện các đặc trưng của v ù n g nhật ký sự kiện đư ợc q u an tâm.
Theo định hư ớng xây d ự n g các bộ phân lớp trong xử lý trôi khái niệm n h ư được đề cậ]
trong [D ehghanló], nhóm nghiên cứu đề xuất m ột thuật toán p h ân lớp đa n h ãn d ự a trêi
tiếp cận p h ân cụm bán giám sát. Các kết quả về phân lớp đa nhãn dự a trên p h ân cụm bái
giám sát đư ợc trình bày trong [QG. 15.22.3-6]. D ự báo là m ột p hư ơng p háp đ ã được á p dụn<
nhiều trong xử lý trơi khái niệm trong dịng d ữ liệu. N hóm nghiên cứu bước đ ầ u triến kha
nghiên cứu về d ự báo d ữ liệu dòng thời gian [QG.15.22.2] và kỳ vọng kết q u ả nghièn cứi
này có tiềm năng đ ư a vào trong xử lv trôi khái niệm trong khai ph á quy trình.
4.3. M ộ t khung p h á t hiện quy trình tương tấc năm giai đoạn ứng dụng cho các doanh
nghiệp V iệt N am
4.3.1. Khung ba pha p h á t hiện mơ hình quy trình
Trong [QG.15.22.8.1], nhóm nghiên cứu đã đề xuất m ột khung ba pha p h á t hiện m ơ hình
quy trình n h ư m ơ tả ở H ình 3. K hung này kết hợp m ột khung hai pha p h á t hiện mơ hình
quy trình [Bosel2, [Bosel4]] với pha thực hiện các giải p h áp nâng cấp chất lượng m ị hình
quy trình sau khi được p h át hiện [Fahlanđl3, Fahlandl5]. Pha 1 tiến hành các thao tác làm
đơn giản hóa nhật ký sự kiện đ ầu vào dựa trên các thuật toán p h ân cụm, x ử lý màu, xử lý
trôi khái niệm (concept drift), xử lý tính khơng đầy đủ đối với tập vết s ự kiện [Bosel2,
[Bosel4]]. Trong [QG.15.22-03], chúng tôi đề xuất m ột phư ơng p h áp biểu d iễn vết sự kiện
dựa trên đồ thị khoảng cách đ ể p hân cụm vết sự kiện và nhận được kết quả k h ả quan. Trong
7



Pha 2, th u ật
tốn
phát hiện m ơ
hình
quy trình đư ợ c áp
dụng đê p h át hiện
mơ hình quy
trình
từ nhật ký sự kiện.
Báo cáo này bổ sung
Pha 3 tiến h àn h việc
tình chinh m ơ hình
quy trinh kết quả
[Fahlanđl3,
Fahlandl5] đ ể nhận
được m ột m ơ hình
quy trình trong sáng
hơn mà vẫn đảm

«■

!'

Evrtứ Lc*fl

II

> ỈD b c u d n j (

II


f t A O i q f h l i h x i k c

II

t a a s f b l g i h l b k q ?

n

) « B i < | f g i h l h k c

ỊỊ

I * m q ( j ( b l b i k r

IIII I*míjblkikqr
.
ỊỊ Ị| I im b ®
c iln u ịc
II

II
^

j|

I t m p c a d a r c

wrabdttcuje
tiapd n cB if

Pha 2. Phát hiện

!

I
1
Hình 3. Khung ba pha phát hiện quy trình [Q G .15.22.8.1]

bảo được tính p h ù
họp với quy trìn h nghiệp vụ tương ứng với nhật ký sự kiện đâu vào. Các giải pháp tổng
hợp lưới Petri [Badouell5] cũng nên được xem xét áp dụng khi tổng hợp các mơ hình quy
trình kết quả trong Pha 3.
4.3.2. M ộ t khung bảy pha p h á t hiện quy trình ắp dụng cho doanh nghiệp V iệt Nam
Đ ểhư ớ ng tói m ột khung p h át hiện quy trình áp dụng tại các doanh nghiệp Việt Nam, nhóm
thực hiện đề tài đ ã liên hệ với hai doanh nghiệp Việt Nam là Công ty cổ phần Công nghệ
phần m ềm H ài H òa (gọi tắt là Cơng ty Hài Hịa) và C ơng ty Cơng nghệ Thông tin Điện lực
Hà Nội (gọi tắt là Công ty CNTT Điện lực H à Nội) thuộc Tổng Công ty Điện lực thành p h ố
Hà N ộ (gọi tắt là Điện lực H à Nội)i.
Cơng ty Hài H ịa triển khai xây d ự n g các p h ần m ềm cơng nghiệp và nhóm sản phẩm điển
hình là các hệ thống quản lý d ự án (bao gồm các hệ thống tích hợp quản lý dự án). Trong
quá trình thực hiện đề tài, do yêu cầu bảo m ật các tập tin nhật ký ghi nhận dữ liệu về quy
trình quản lý d ự án tại các đối tác triển khai p hần m ềm của Công ty H ài H ịa cho nên đề tài
khơng thu n h ận được m ột tập tin nhật ký ghi nhận d ữ liệu thực tiễn về quy trình quản lý
d ự án.
Công ty CNTT Điện lực Hà N ội được Tổng Giám đốc Điện lực H à Nội giao nhiệm vụ xây
dựng hệ thống phần mềm đ ể q u ản lý sự tuân thủ về trình tự, thủ tục và tiến độ theo các quy
trình, quy đ ịn h đ ã được ban h àn h nhằm nâng cao hiệu quả các m ặt hoạt động của Tổng
Cơng ty và h ư ớ n g tới tính chuyên nghiệp hóa của các bộ phận chức năng (xem "Thuyết
minh nhiệm vụ" trong Phụ lục 3. Các báo cáo chuyên đề). Thuyết m inh nhiệm vụ và hai
quy trìn h qu ản lý (quy trình q u ản lý cơng tác đấu thầu, quy trình quản lý cấp ph át thanh

toán v ố n đầu tư xây dựng) cho thấy Điện lực H à Nội đã bắt đầu quan tâm tới việc triển khai
hệ thô n g quản lý quy trình kinh doanh (Business Process M anagem ent: BMP) tại Tổng C ơng
ty. C ịng ty CNTT Điện lực H à N ội đã đề nghị m ột m ô hình kiến trúc hệ thống phần m ềm
quản lý các quy trình nghiệp vụ tại Điện lực Hà Nội (Hình 4). N hóm nghiên cứu của đê tài

8


CĨ giới thiệu với Cơng
ty CNTT Đ iện lực H à
Client
Nội về khai phá quy
Mobile Apps
Trinh duyệt Web
trình trong quản lý
quy trình kinh doanh
https/ web services
và gọi ý việc làm rõ
Tích họp
tập tin n h ật ký sự kiện
Hệ thống qn lý tn thủ qưy trình
trong m ơ hình kiến
Active Directory
Giao điện. Tiện ích chung
trúc hệ thống phần
lyric
Quản trị hệ ttiổng &Quản lý Cõng viẽc
mềm, th ử nghiệm
khai phá quy trình tại
Email

T h i/C thi
Thiết kể
Giám sát
Đ iện lực H à Nội.
Quy trinh nghiệp vụ Quy trinh nghiệp vụ thực hiện quy trinh
SM3 Gateway
Thông qua khảo sát
hoạt động quản lý
Phan mem
SharePoint Common Services
Quản lý cịng việc
quy trình kinh doanh
Workflow
Search
Met adata
Policies
tại Đ iện lực H à Nội
Phần mểm
Quấn lý nhàn sự
Security
Collaboration
Library Srv.
tRM
cùng với các kết quả
khảo sát tại Cơng ty
Hài
Hịa,
nhóm
nghiên cứu nh ận định
rằng qu ản lý quy

trình kinh doanh là
nội dung m ới của m ột
bộ phận đán g k ể các Hình 4. M ột mơ hình kiến trúc hệ thống phần mềm quản ỉỷ các quy
trình nghiệp vụ tại Điện lực Hà N ội [C ông tỵ CN TT
doanh nghiệp Việt
Điện lực Hà Nội)
Nam, hơ n nữa, việc
khai phá d ử liệu tại
các tập tin ghi nhận từ các hệ thống thông tin hầu n h ư chưa được đề cập.

I

I

Trong bối cảnh tại nhiều d o an h nghiệp V iệt Nam, nhật ký sự kiện chưa thự c sự đ ư ợ c quai
tâm trong p h át hiện tri thức, khung ph át hiện quy trinh ba giai đoạn (H ình 3) cần đư ợc b(
sung m ột SỐ thành phần đ ể việc khai phá quy trình được áp d ụng thuận lợi tại d o a n h nghiẻỊ
và đ ạt được kết quả n h ư kỳ vọng. Thứ nhất, thành phần thu thập d ữ liệu tro n g các tập tir
n hật ký từ các hệ thống thông tin tác nghiệp đ ể xâv dự ng nhật ký sự kiện cần đư ợ c bố sung
Thứ hai, tư ơng tác người d ù n g trong việc p h ân tích nh ật ký sự kiện đầu vào, m ơ h ìn h qu}
trình hiện tại và các thơng tin bổ sung đư ợc M. de Leoni và cộng sự [Leoniló] đ ề xuất car
được tích h ọ p vào hệ thống. N hư được diễn tả trong [Leoniló], m ột đặc tru n g p h ụ thuộc
các đặc trư n g độc lập phức và m ột bộ lọc được sử d ụn g đ ể hỗ trợ việc tình chỉnh n h ậ t ký sụ
kiện đầu vào. Thứ ba, hiệu chính m ơ hình quy trình kết quả hư ớng tác động (Im pact-driver
process m odel repai) n hư A. Polyvyanyy và cộng sự [Polyvyanyyló] đề x u ấ t cần được tiến
hành.
K hung p h át hiện quy trình bảy pha áp d ụ n g cho các doanh nghiệp Việt N am đư ợc m ơ tả
tại H ình 5. ơ pha đầu tiên X â y dựng nhật k ý sự kiện, việc xây d ự n g n h ật ký s ự kiện đầu vào
cho phát hiện quy trình được tiến hành. Đ ầu tiên, việc thu thập dữ liệu n h ậ t ký từ hệ thống
9



thơng tin tác nghiệp
liên quan tới mơ
hình quy trình được
tiến hành. Sau đó,
việc chuẩn hóa theo
chuẩn IEEE 18492016 XES S tandard3
đối với d ữ liệu thu
được ở bước trên để
hình thành n h ậ t ký
sự kiện dạng thông
thường được tiến
hành. Quá trình con
gồm các pha 2-4 tiếp
theo
hoạt đ ộng
tương tự như các
pha
1-3
trong
[Leoniló]. Đầu vào
của q trình con
này là nhật ký sự
kiện thư được từ
ph a 1, mơ hình quy
trình hiện thời của
hệ thống tác nghiệp

Các táp tin nhặt kỷ

tir các hệ thổng
thõng tin

1. Xây dựng
nhật hỷ sự kiện

Nhặt ký
SI P kiên

quytTih
2. Xác định phân tích
trường hợ p s ứ dụng

Phân tích sù
dụng tnpởng
hop

n
o
Q.
o
t ụ.

Mơ hình

đàu vảo
3. Làm giàu nhật

§


ký sự kiện

Nều phán tích
cắn ảirợc xảc

định lại

đang được xem xét
và tập các d ữ liệu
bối cảnh. Tương tác Hình 5. Khung phát hiện quy trình bảy bước áp dụng cho doanh
ngư ời dùng được
nghiệp Việt Nam
bao gói vào q
trình con này. Đ ầu ra của quá trình con này là m ột nhật ký sự kiện đã được tinh chỉnh và
m ột s ố kết quả p h â n tích đóng vai trị như tri thức đính kèm cho bài toán p h ân cụm d ữ liệu
sau này. Pha 5 Phân cụm tiến hành phân cụm theo m ột thuật toán phân cụm được chọn lựa
tiến h àn h trên m ộ t biểu diễn vết sự kiện theo đồ thị khoảng cách [QG.15.22-03]. Các cụm
vết sự kiện (các nhật ký sự kiện con) kết quả từ p h a 5 là đầu vào cho th u ật tốn ph át hiện
quy trìn h v'ê sau. Trong pha 6 P h á t hiện quy trình, m ột thuật tốn ph át hiện quy trình được
áp d ụ n g trên các nhật ký sự kiện con và thu được các m ơ hình quy trình tương ứng. Tại
bước 7. Tích hợp và chỉnh sửa mơ hình, các mơ hình quy trình con được tích hợp thành m ột
m ơ h ìn h quy trìn h chung. Áp d ụng các thủ tục chính sửa mơ hình [Polyvyanyyló] lên mơ
hình (quy trình chung thu được m ột m ô hình quy trình kết quả tương ứ ng với hệ thống
thông; tin tác nghiệp được quan tâm.

3 h ttp :/ y w w .x e s - s ta n d a r d .o r g /

10



5. Đ án h giá về các k ết q u ả đ ã đạt được và kết lu ận
Đề tài tập tru n g giải quyết bài tốn tính chỉnh nhật ký sự kiện đầu vào của th u ật tốn ph,
hiện quy trình n h ằm nâng cao chất lượng của m ơ hình quy trình đầu ra p h ù hợp, chính xá
tổng qt hóa và đơ n giản hóa tương ứng vói n h ật ký sự kiện đầu vào. D ựa trên tiếp cậ
m ột vết sự kiện n h ư m ột xâu văn bản, đề tài đã đề xuất các giải p h áp tính chỉnh n h ậ t ký s
kiện theo hư ớ n g (i) m ơ hình p h ân cụm vết sự kiện dự a trên biểu diễn đồ thị k h o ản g cácl
(ii) m ô hình học khái niệm theo logic mơ tả đ ể xử lý vấn đ'ê trôi khái niệm và m ô h ìn h phâ
lớp văn bản nhằm p h át hiện m ẫu trong nh ật kv sự kiện, (iii) khung p h á t hiện quy trình bả
pha định hư ớng áp d ụng tại các doanh nghiệp Việt N am (trên cơ sở khảo sát tình trạng nhú
ký sự kiện tại C ơng ty H ài H ịa và Điện lực H à Nội). Kết quả nghiên cứu của đ ề tài đưc
công bố tại m ột bài tạp chí ISI [QG.15.22.1], sáu bài báo cơng bố quốc tế khác (bơ'n bài Scopi
Book Chapter (có hai bài ISI-conference indexed), một bài báo Taylor & Francis, một bài bá
Springer) và ba bài gửi Hội thảo quốc tế "Việt Nam học lần thứ năm" (một bài báo cáo tại Hội thảo
Kết quả đã đạt được của đê tài đáp ling yêu cầu được đặt ra trong Thuyết minh đề tài.
Đề tài có hạn chế khơng nhỏ là một bộ phận kết quá nghiên cứu của đề tài như (i) hoc khái niệr
dựa trên logic mô tá xử lý trôi khái niệm, (ii) khung ứng dụng khai phá quy trình tại Tập đồn điệ
lực Việt Nam mói ở mức độ tiềm năng giải quyết ữực tiếp các bài toán đặt ra mà chưa đi tới các m
hình kiểm chứng được trong thực tiễn. Đây cũng là những nội dung nghiên cứu được thực tiếp tie
theo của nhóm thực hiện đề tài.
Tài liệu tham k hảo
[NQCP19] Các nghị quyết của C hính p hủ số 19/NQ-CP ngày 16/03/2014, số 19/N Q -CP ngà’
12/03/2015, so 19-2016/NQ-CP ngày 28/04/2016, số 19-2017/NQ-CP ngày 06/02/2017 V
những nhiệm vụ, giải pháp chủ yếu cải thiện môi trường kinh doanh, nâng cao năn<ị lực cạn,
tranh quốc gia.
[Aalstló] Wil M. P. van der Aalst. Process M ining - Data Science in Action (2nd edition
Springer, 2016.
[A ggarw all3] C haru c . A ggarw al and Peixiang Zhao. Towards graphical models for tex
processing. Knowl. Ini. Syst. 36(1), pp. 1-21, 2013.
[BadouellS] Eric Badouel, Luca Bernardinello, Philippe D arondeau. Petri Net Synthesis
Springer, 2015.

[B osellj R. P. Jagadeesh C h an d ra Bose, Wil M. p. van der Aalst, Indre Zliobaite, Mykoli
Pechenizkiy. Handling Concept Drift in Process Mining. CAiSE 2011: 391-405, 2011.
[Bosel2] R. P. Jagadeesh C h an d ra Bose. Process M ining in the Large: Preprocessing, Discovery
and Diagnostics. PhD Thesis, Eindhoven U niversity of Technology, The N etherlands
2012 .
[Bosel4] R. P. Jagadeesh C handra Bose, Wil M. p. van der Aalst, Indre Zliobaite, Mykolc
Pechenizkiy. Dealing With Concept Drifts in Process Mining. IEEE Trans. N eural N etw
Learning Syst. 25(1)154-171, 2014.
[Bosel4] R. P. jagadeesh C handra Bose, Wil M. p. van der Aalst, Indre Zliobaite, Mykola
Pechenizkiy. Dealing W ith Concept Drifts in Process M ining. IEEE Trans. N eural Netw.
Learning Syst. 25(1): 154-171, 2014.
11


[Delìghanló] M ahdie Dehghan, H am id Beigy, Poorya ZareM oodi. A novel concept drift
detection method in data streams using ensemble classifiers. In tell. Data Anal. 20(6): 13291350 (2016).
[Fahlandl3] Dirk Fahland, Wil M .p. van der Aalst. Simplifying discovered process models in a
controlled manner. Inform ation Systems 38 (2013): 585-605, 2013.
[Fahlandl5] D irk Fahland, Wil M. p. van der Aalst. Model repair - aligning process models to
reality. Inf. Syst. 47 (2015): 220-243, 2015.
[Lécuél7] Freddy Lécué, Jiaoyan Chen, Jeff z. Pan, H uajun Chen. Learning from Ontology
Streams with Semantic Concept Drift. CoRR abs/1704.07466, 2017.
[Leonil6] M assimiliano de Leoni, Wil M. p. van der Aalst, M arcus Dees. A general process
mining framework for correlating, predicting and clustering dynamic behavior based on event
logs. Inf. Syst. 56 235-257, 2016.
[Manifesto] Wil van der Aalst et al. Process M ining Manifesto. IEEE Task Force on Process
Mining, 2012.
[N hungl7] H ong-N hung Bui, Tri-Thanh N guyen, Q uang-Thuy Ha. An experimental study of
trace clustering solution based on distance graph model. Transactions on C om putational
Collective Intelligence (submitted, paper TCCI-S-17-00031).

[Polyvyanyyl6] A rtem Polyvyanyy, Wil M. p. Van Der Aalst, A rthur H. M. Ter Hofstede,
M oe T. W ynn. Impact-Driven Process Model Repair. CM Trans. Softw. Eng. M ethodol. 25,
4, Article 28, October 2016.
[Wang03] H aixun W ang, Wei Fan, Philip s. Yu, Jiawei Han. M ining concept-drifting data
streams using ensemble classifiers. KDD 2003 226-235.
[W a n g ll]
Shenghui Wang, Stefan Schlobach, Michel c . A. Klein. Concept drift and how to
identify it. J. Web Sem. 9(3): 247-265, 2011.
[WEF1317] Klaus Schwab. The Global Competitiveness Report 2012-2013, 2013-2014, 20142Ữ15, 2015-2016, 2016-2017, W orld Economic Forum, 2013-2017.
6. T ó m tắt k ết quả (tiếng V iệt và tiếng Anh)
6.1. Tóm tắ t tiếng Việt
Tên đ ề tài: Phát triển các kỹ thuật tiên tiến khai phá m ẫu từ nhật ký sự kiện, xây dự ng phần
m ềm và kh u n g ứng d ụ n g thử nghiệm tại doanh nghiệp Việt Nam
M ã số: QG.15.22
C hủ nhiệm : PGS. TS. H à Q uang T hụy
Tóm tắt:
Đề tài QG.15.02 định hư ớng tói các chủ đề phân cụm, xử lý trôi khái niệm trong nhật ký sự
kiện v à đề nghị m ột khung mô h ìn h p h át hiện quy trình áp dụng tại các doanh nghiệp Việt
Nam. Đ ề tài đề nghị m ột giải ph áp phân cụm nhật ký sự kiện dựa trên việc áp dụn g phư ơng
pháp biếu diên văn bản theo đồ thị khoảng cách do c . c . A ggarw al và p. Zhao đề xuất vào
biểu đ iê n vết sự kiện. Theo luồng nghiên cứu về xử lý trôi khái niệm dựa trên web ngữ
nghĩa theo logic mô tả và học phân lớp, đề tài đã đề xuất áp dụng tính tương đồnơ đối vói
các logic mơ tả khơng tương xứng vào bài toán học khái niệm trong việc định vị và đặc


trư n g hóa các vùng n h ật ký sự kiện giữa hai đ iểm thay đổi liên tiếp. M ột th u ậ t tốn phi
lóp đa n h ãn dự a trên p h ân cụm b á n giám sát đ ã được đ'ê xuâ't. Đ ề tài cũng đề nghị m
khung p h á t hiện quy trìn h bảy p h a áp d ụ n g tác các d o an h n g h iệp Việt N am , từ pha ử
thập d ữ liệu hình thành n h ật ký sự kiện ban đ ầ u tới ph a hiểu chỉnh, nâng cấp m ơ hình qi
trình kết quả.

N hóm thực hiện đề tài đ ã công b ố b ả y bài báo q u ố c tế (01 bài tạp chí ISI, 02 bài hội nghị I;
và Scopus Book C hapter, 02 bài Scopus Book C h ap ter, 01 bài tạp chi Taylor & Francis, 01 b
tạp chi Springer) và ba bài gửi H ội thảo quốc tế V iệt N am học Tân th ứ V (01 bài trìn h bày t
H ội thảo). Ba nghiên cứu sinh (NCS P hạm Thị N g â n đ ã bảo vệ lu ậ n án cấp cơ sở) và sáu h(
viên cao học (tất cả đã được cấp b ằn g Thạc sỹ) th am g ia n g h iên cứ u trong k h u ô n k h ổ của E
tài.
6.2. Tóm tắ t tiêng Anh
Title: D eveloping novel techniques for p a tte rn m ining in event-logs, im plem enting too
and proposing an application fram e in a V ietnam ese com pany
Code: QG.15.22
M anager: Assoc. Prof. H a Q uang T huy
Abstract:
The project QG.15.22 focuses on topics of clustering, conceipt d rift processing in event log
and to propose a process discovery fram e ap p lied V ietnam ese com pinies. Based on usin
c. c. A ggarw al và p. Z hao's distance g rap h text rep resen tatio n m eth o d for representatioi
event traces, a clustering solution event logs h as been proposed. Joining in the researchin
stream on conceipt drift processing based on u sin g senm antic w eb w ith descrip tio n lugi
and learning, a m ethod for using the bisim ilarity for paraco n sisten t description logics fo
conceipt learning has been proposed, w hich resu lts for location an d characteration even
sublogs. A sem isupervised clustering based m ultilabel classification algorithm h as bed
proposed. For application process m ining in V ietnam ese com panies, a seven phase proces
discovery fram e has been proposed. The fram e starts by the d a ta collection for ev en t log
and ends w ith the phase of process m odels rep earin g an d im proving.
Seven papers (01 ISI-journal indexed paper, 02 ISI-conference indexed an d Scopus-bool
chapter indexed papers, 02 ISI-conference indexed and Scopus-book ch ap ter indexec
papers, 02 Scopus-book chapter indexed p ap ers, 01 Taylor & Francis jo u rn al paper, 0!
Springer journal paper) have been published at international jo u rn als and conferences anc
three papers have been subm itted to the 5th V ietnam ese in tern atio n al W orkshop (01 papei
has been presented at the W orkshop). Three PhD stu d en ts (P ham Thi N gan has passed thi
dep artm en t level assession) and six m aster s tu d e n ts (all of them receipt m aster degree) takt

p art in the project's activities.

13


PHẦN III. SẢN PH Ẩ M , C Ô N G B ố V À KẾT

quả

Đ À O .TẠ O

của đ

'Ê t à i

3.1. Kết quả n g h iê n cứu
Yêu câu khoa học hoặc/và chí tiêu kinh tế - kỹ thuật
TT

Tên sản phẩm

Đạt được

Đăng ký
Khung ứng dụng thử Xây dựng một khung ứng
nghiệm khai phá quy dụng khai phá quy trình
trình tại một doanh vào một lớp các doanh
nghiệp Việt Nam
nghiệp Việt Nam


Khung khai phá khía cạnh tổ chức tại
doanh nghiệp.

2

Mô đun phần mềm 02 mô đun phần mềm khai
khai phá mẫu và liên phá mẫu và liên quan từ
quan từ nhật ký sự nhật ký sự kiện
kiện

Mô đun phần mềm phân cụm theo
biểu diễn vết dựa trên đồ thị.

3

Công bố khoa học: 01 bài báo ISI-joumal
hai (02) bài báo quốc
01 bài báo quốc tế khác
tế (01 ISI indexed),
một bài báo quốc gia

01 bài báo ISI-joumal indexed

1

Khung phát hiện quy trình tương tác
năm giai đoạn.

04 bài báo Scopus-indexed
01 bài báo Tạp chí quốc tế Taylor &

Francis
01 bài báo quốc tế Springer

01 bài đăng tạp chí quốc gia

01 Tạp chí KH ĐHQGHN (Báo cáo
tổng kết đề tài)
03 báo cáo Hội thảo Việt Nam học rân
thứ V, năm 2016

4

Hỗ trợ đào tạo (02 02 NCS làm luận án tiến sỹ
NCS làm luận án tiến
sỹ, 03 luận văn thạc
sỹ)
03 học viên làm luận văn

03 NCS có kết quả cơng bố từ đề tài:
Phạm Thị Ngân, Nguyễn Thị Hồng
Khánh, Bùi Hồng Nhung
06 luận văn Thạc sỹ (4 cám ơn đ'ê tài):
Lưu Văn Ba, Trần Thị Phương,
Dương Thị Thảo, Nguyễn Thị Tươi,
Nguyễn Thạc Đan Thanh, Dỗn Thị
Huvên Trang (đã bảo vê thành cơng)

3.2. H ình thức, cấp độ cơng b ố k ế t q u ả

s

TT

Sản phẩm

Tình trạng
Đã in/ chấp
nhận in

1 Cơng trình cơn% bỗ'trên tạp chí khoa học quốc tê'theo hệ thong ISI/Scopus
Đã in
1.1 rOG .15.22.ll Linh Anh Neuven, Thi Hong Khanh
Nguyên, Ngoc-Thanh Nguven, OuaníỊ-Thuv Ha.
Bisimiỉarity for Paraconsistent Description Logics.

Ghi địa chỉ
và cảm ơn sự
tài trợ của
ĐHQGHN
đúng quy
định

Đ ánh
giá
chun
g
(Đạt,
không
đạt)

Ghi địa chỉ Đạt

ĐHQGHN,
14


1.2

1.3

1.4

1.5

Journal of Intelligent & Fuzzy Systems, 32(2): 12031215, 2017, DOL 10.3233/JIFS-169120, ISI (SCIE)
journal, Scopus Journal.
rOG.15.22.21 Ngoc-Anh Le Thi. Thi-Oanh Ngo.
Đã in
Huven-Trane Lai Thi, Hoane-Ouvnh Le, Hai-Chau
Nguven and Ouang-Thuv Ha. An Experimental Study
on Cholera modeling in Hanoi. Lecture Notes in
Computer Science, Volume 9622, pages 230-240,2016,
DOI:10.1007/978-3-662-49390-8_22, ISI-conference,
Scopus Book C hapter, DBLP.
ÍOG.15.22.31 Ouane-Thuv Ha. Hong-Nhuns Bui, TriĐã in
Thanh Ne;uven. A trace clustering solution based on
using the distance graph model. Lecture Notes in
Computer Science, Volume 9622, pages 313-322,2016,
DOI.-10.1007/978-3-319-45243-2_29, ISI-conference,
Scopus Book C hapter, DBLP.
ÍOG.15.22.41 Thi-Ngan Pham. Van-Ouang Nguven,
Đã in

Duc-Trona Dinh, Tri Thanh Neuven and OuaneThuv Ha. MASS: a semi-supervised multi-label
classification algorithm with specific features. Studies in
Computational Intelligence, Vol 710 (ACIIDS 2017),
pages
37-47,
DOI:10.1007/978-3-319-56660-3_4,
Scopus Book C h ap ter
FOG.15.22.5l Thi-Ngan Pham, Van-Hien Tran, TriĐã in
Thanh Neuven and Ouana-Thuv Ha. Exvloitinọ
Distance graph and Hidden Topic Models for Multi-label
Text Classification. Studies in Computational
Intelligence, Vol 710 (ACIIDS 2017), pages 321-331,
2017, DOI :10.1007/978-3-319-56660-3_28, Scopus
Book C hapter
Sách chuyên khảo được xuất bản hoặc ký hợp đồng xuâ't bản: Không

2
2.1
3 Đăng ký sở hữu trí tuệ: Khơng
3.1
4
Bài báo quốc tế Springer song khơng thuộc hệ thống ISI/Scopus: 02
4.1 fOG.15.22.6l
Thi-Ngan
Pham,
Van-Ouans
Đã ill
Ngu ven,
Van-Hien
Tran,

Tri-Thanh
Nguven & Ouang-Thuv Ha. A semi-supervised multilabel classification framework with feature reduction and
enrichment.
Journal
of
Information
and
Telecommunication, 1(2), pages 141-154, 2017;
doi/full/l 0.1080/24751839.2017.1323486, Taylor &
Francis.
4.2 [QG.15.22.7] All Rezaei Divroodi, OuangĐã in
Thuv Ha, Linh A nh N guyen, H ung Son Nguven.
On the possibility of correct concept learning in

cảm
QG.15.22

on

Ghi địa chỉ
ĐHQGHN,
cảm
on
QG.15.22

Đạt

Ghi địa chi
ĐHQGHN,
cảm

ơn
QG.15.22

Vượt

Ghi địa chi
ĐHQGHN,
cảm
ơn
QG.15.22

Vượt

Ghi địa chi
ĐHQGHN,
cảm
ơn
QG.15.22

Vượt

Ghi địa chi
ĐHQGHN,
cám
ơn
QG.15.22

Đạt

Ghi địa chỉ

ĐHQGHN,
cảm
ơn
QG.15.22

Vượt

15


description logics. Vietnam Journal of C om puter
Science (2017): 1-12, 2017; doi:10.1007/s40595017-0094-4; Springer.
5. Bài báo ữên các tạp chí khoa học của ĐHQGHN, tạp chí khoa học chuyên ngành quốc gia hoặc
báo cáo khoa học đăng trong kỷ yếu hội nghị quốc tế: 01
5.1 [QG.15.22.8] Bài báo trên các tạp chí khoa học của Báo cáo này Ghi địa chỉ Đạt
ĐHQGHN (báo cáo tổng kết Đề tài QG.15.22)
ĐHQGHN,cả
m
ơn
QG.15.22
6
Báo cáo khoa học kiến nghị, tư vấn chinh sách theo đặt hàng của đơn vị sử dụng: 03
6.1 ÍOG.15.22.9.11 Hà Ouang Thuv, Nguvễn Trí Thành, Báo cáo tại
Ghi địa chỉ Vượt
Phan Xuân Hiếu, Trần Trong Hiếu, Lê Thi Phương
Hội thảo
ĐHQGHN,
Thoa.Trần Mai Vũ, Lê Hồne Ouỳnh, Bùi Hồng Nhân đăng cảm
ơn
Nhung, Ngơ Thi Oanh, Lai Thi Huvền Trang. Mơt mơ

QG.15.22
hình phát hiện quy trình nghiệp vụ trong đại học sáng
nghiệp ở Việt Nam. Hội thảo Việt Nam học lần thứ V
(Tiểu ban 4), Hà Nội, Việt Nam. VS4.0291
6.2 ÍOG.15.22.8.21 Hà Ouang Thuv, Phan Xn Hiếu,
Có trong
Ghi địa chi Vượt
Nsuvễn Trí Thành. Trần Mai Vũ, Neuvễn Thành danh sách
ĐHQGHN,cả
Cơng, Nguyễn Thị Hồn, Nguyễn Quỳnh Nga. Một sơ tóm tắt và
m
ơn
ứng dụng khoa học dữ liệu cho quản lý quan hệ khách hàng đang thẩm
QG.15.22
tai Viêt Nam. Hôi thảo Viêt Nam hoc rân thứ V (Tiểu
đinh
ban 5Ì. Hà Nơi. Viêt Nam. VS5.301P
6.3 ÍOG.15.22.8.31 Hà Ouane Thuv, Nguvễn Viêt Hà,
Có trong
Ghi địa chỉ Vượt
Phạm Bảo Sơn, Lê Sỹ Vinh, Phạm Hồng Thái, Nguyễn danh sách
ĐHQGHN,cả
Quang Vinh, Vũ Bá Duy. Tăng cường năng lực hội nhập tóm tắt và
m
ợn
và cạnh tranh quốc tê'vé đào tạo Công nghệ thông tin tại đang thẩm
QG.15.22
Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội. Hội
đinh
thảo Việt Nam học lần thứ V (Tiểu ban 3), Hà Nội,

Việt Nam. VS3.1051
7
Kết quả dự kiến được ứng dụng tại các cơ quan hoạch đinh chính sách hoặc cơ sở ứng dụng
KH&CN: 01
7.1 Quản lý quy trình nghiệp vụ và khai phá quy ữình tại [QG.15.22.9.
Đạt
Tổng Công ty Điện lực Hà Nội: Đã họp bàn, trao đổi 1], Mục 4.3.2
tài liệu; trước mắt tiển khai quản lý hai quy trình Báo cáo này,
nghiệp vụ (quy trình thực hiện cơng tác đấu thầu, quy Báo
cáo
trình tính tốn đầu tư xây dựng) có d ữ liệu quy trình. chuyên đề 4
Ghi chú:
Cột sản phẩm khoa học công nghệ: Liệt kê các thông tin các sản phẩm KHCN theo thứ tự tác giả, tên cơng trình, tên tạp chí/nhà xuất bản, sơ'phát hành, năm phát hành, ừ ang đăng cơng
trình,, mã cơng trình đăng tạp chí/sách chun khảo (DOI), loại tạp chí ISI/Sco-pus>
Các ân phẩm khoa học (bài báo, báo cáo KH, sách chuyên khảo...) chỉ đươc chấp nhân nếu có
ghi nhận địa chỉ và cảm om tài trợ của Đ H QGHN theo đúng quy định.
Bản phơ tơ tồn văn các ấn phẩm này phải đưa vào Iphụ lục các minh chứng của báo cáo.
Riênp sách chun khảo cần có bản phơ tồ bìa, trang đâu và trang cĩ có ẹhi thơng tin mã sơ'xuất

16


3.3. Kết q u ả đào tạo

TT

T hời gian và k in h
p h í tham gia đê tài
(sơ'tháng/sơ'tữn)


H ọ v à tên

N ghiên cứu sinh
1 Phạm Thị N gân

2

Lệ phí, vé m áy bay
tham dự và báo cáo
tại A C IID S 2017

N guyễn Thị H ồng K hánh

3 Bùi H ồng N h u n g
H ọc viên cao học
1 Lưu Văn Ba
2 Trần Thị Phương
3 Dương Thị Thảo
4 Nguyễn ThỊ Tươi
5 Nguyễn Thạc Đan Thanh
6 Doãn Thi Huyền Trang
G hi chú:

C ơng trìn h cơng b ố
liên q u an
(Sản phẩm KHCN,
luận án, luận văn)
3 [Q G .15.22.4-6]


1 [Q G .15.22.1]
1 [Q G .15.22.3]

Đ ã b ảo

V

C âp cơ sở,
gừi p h ản bi
độc lập
D ự kiến b
vệ n ăm 201
C hưa
Đã n h ận bẳ
-nt-nt-nt-nt-nt-

Gửi kèm bản photo trang bìa luận án/ luận văn/ khóa luận và bằng hoặc giây chứng n,
nghiên cứu sinh/thạc sỹ nếu học viên đã bảo vệ thành công luận án/ luận văn;
-

Cột cơng trình cơng bơ'ghi như mục III. 1.

PH Ầ N IV. T Ổ N G H Ợ P KẾT QUẢ CÁC SẢN PH A M K H & C N VÀ Đ À O TẠ O CỦA
TÀI
TT

Sản p h ẩm

1


Bài báo cơng b ố trên tạp chí khoa học quốc tế theo hệ
thống ISI/Scopus (01ISI journal paper, 04 Scopus book
chapters)
Sách chuyên khảo được xuất b ản hoặc ký hợ p đồng
xuâ't b ản
Đ ăng ký sở h ữ u trí tuệ

2
3
4
5

Bài báo quốc tế khơng thuộc hệ thống ISI/Scopus
SỐ lượng bài báo trên các tạp chí khoa học của
Đ H Q G H N , tạp chí khoa học chuyên n g àn h quốc gia
hoặc báo cáo khoa học đăng trong kỷ yếu hội nghị quốc
tế (Bài b áo cáo tổng kết đề tài này)

Số
lư ợ n g
đ ăn g ký
01

Số lư ợ n g
đã h o à n
th à n h
05

0


0

0
0
01

0
02
01


6

7

8
9

Báo cáo khoa học kiến nghị, tư vấn chính sách theo đặt
h à n g của đơ n vị sừ d ụ n g (03 báo cáo Hội thảo Việt N am
học lần thứ năm )
K ết quả d ự kiến được ứng d ụng tại các cơ quan hoạch
đ ịn h chính sách hoặc cơ sở ứng dụng KH&CN: Tôhg
Công ty Điện lực Hà Nội ve quản lý quy trình nghiệp vụ và
khai phá quy trình tại Tơhg Cơng ty Điện lực Hà Nội
Đ ào tạo/hỗ trợ đào tạo NCS
Đ ào tạo thạc sĩ

0


03

01

01

02
03

03
06

PHẦN V. TÌN H H ÌN H s ử DỤNG K IN H PH Í

TT

A
1

2
3
4
5
6
7
8

B
1
2


N ội d u n g chi

K in h p h í
được
du y ệt
(triệu đơng)

Chi phí trực tiểp
T h khốn chun m ôn (bao gồm 303.000.000
84.580.157 VNĐ n ộ p lệ phím m ua vé m áy
b ay đi báo cáo hội nghị quốc tếiccci 2016 :
13.697.372 VNĐ và ACIIDS 2017 :
32.004.285 VNĐ + 38.878.500 VNĐ ; kinh
p h í ăn ở cá n hân tự túc)
N guyên, nhiên v ậ t liệu, cầy con..
0
T hiết bị, d ụ n g cụ
6.650.000
C ơng tác phí
D ịch vụ th ngồi
H ội nghị, H ội thảo, kiểm tra tiến độ,
nghiệm thu
In ấn, Văn phòng phẩm
Chi phí khác (Viết đề cương, thu thập và
viết tổng q u an tài liệu, chủ nhiệm đề tài,
viết báo cáo tổng kết)
Chi phí gián tiếp
Q u ản lý phí
C hi phí điện, nước

»-■-1/*?
r/
T o n g so

K inh p h í
thực h iện
(triệu đơng)

G h i chú

303.000.000

0
6.650.000

0
0
21.850.000

0
0
21.850.000

11.500.000
33.000.000

11.500.000
33.000.000

16.000.000

8.000.000
400.000.000

16.000.000
8.000.000
400.000.000

PHÂlN VI. KIẾN n g h ị (vê p h á t triển các k ế t quả nghiên cứu của đê tài; vê quản lý, t ố chức
thực hiện ở các cấp)
Nội d u n g và kết quả nghiên cứu của đề tài có ý nghĩa đối với việc nâng cao chất lượng các
mơ h ìn h quv trình nghiệp vụ tại cơ quan chính quyền và các doanh nghiệp Việt Nam. D ù
cho trìn h độ quản lý quy trình nghiệp vụ tại Việt N am vẫn ở mức rất thấp, tuy nhiên, nghiên


cứ u về khai p h á quy trìn h trong q u ản lý quy trình n g h iệp v ụ tại Việt N am là rất có ý ri'
khoa học và thực tế.
Đề tài đạt được kết quả đ áp ứ n g m ục tiêu trong th u y ết m in h đề tài, tu y nhiên, quá t
thự c hiện đề tài cho th ấy các kết qu ả nói trên cịn bộc lộ các h ạ n chế cần khắc p h ụ c và n
cấp đ ể áp d ụ n g th àn h cơng vào quản lý quy trình n g h iệp v ụ tại Việt N am trên thực tế
n g h ị Đại học Q uốc gia H à Nội ủ n g hộ hỗ trợ các hoạt đ ộ n g tiếp theo từ kết quả đề tài.

P H Ầ N VII. PH Ụ LỤC (M IN H C H Ứ N G CÁC SẢN P H Ẩ M

nêu ở

P H A N III)

M inh chứng các sản p h ẩm n êu ở P hần III được tập hợ p v ào các quyển P h ụ lục 1 và Phụ
2 kèm theo Báo cáo tổng kết này.


Hà Nội, ngày 31 tháng 8 năm 2017
Đ ơ n vị ch ủ trì đê tài
(Thủ trưởng đcm vị ký tên, đóng dấu)

Chủ nhiệm đê tài
(Họ tên, chữ ký)

T / L HIỆU TRƯỞNG

PGS. TS. H à Q uang Thụy


Đ Ạ I HỌC QUOC GIA HA NỘI

\
CHQGKN
'

'

/

BÁO CÁO TỔNG KẾT
KẾT QUẢ TH ựC HIỆN ĐÊ TÀI KH&CN
CẤP ĐẠI HỌC QUỐC GIA
V

Tên đề tài:Phát triêh các kỹ thuẫt tiên tiến khai phá mẫu từ nhật ký
sự kiện, xây dựng phan niêm và khung ứng dụng thử
nghiệm tại doanh nghiệp Việt Nam

Mã số đê tài:

QG.15.22

Chủ nhiệm đê tài: PGS. TS. Hà Quang Thụy

Phụ lục 1. Thuyết minh và báo cáo tiến độ

Hà N ội, tháng 8-2017



LỤ C
ẠJC 2. T H U Y É T M IN I I Đ È T À I VÀ C Á C B Á O C Á O T Ĩ É N Đ Ộ

5.22.0.1] T h u y ết m inh đề tài K H & C N năm 2015: P h á t triển các kỹ thuật tiên tiến khai
p h ó m ẫu từ n h ậ t kỷ s ự kiện, xâ y dự ng phầ n m ềm và k h u n g ứng d ụng th ử nghiệm tại
doa n h nghiệp Việt N am
5.22.0.2] Báo cáo tiến độ Q G .1 5 .2 2 _ 2 8 -01-2016
5.22.0.3] B áo cáo tiến độ Q G . 15.22 30-12-2016


×