-1B GIÁO D C – ĐÀO T O
Đ I H C ĐÀ N NG
-2Cơng trình đư c hồn thành t i
Đ I H C ĐÀ N NG
Ngư i hư ng d n khoa h c: TS. Huỳnh Công Pháp
TR N TH BÍCH ĐÀO
Ph n bi n 1: TS. Trương Ng c Châu
NG D NG KHAI PHÁ D LI U Đ TÌM
LU T K T H P ĐÁNG TIN C Y TRONG H TH NG
BÁN HÀNG T I CÔNG TY DƯ C TW3
Chuyên ngành: KHOA H C MÁY TÍNH
Mã s : 60.48.01
Ph n bi n 2: TS. Trương Công Tu n
Lu n văn ñã ñư c b o v trư c h i ñ ng ch m Lu n văn t t
nghi p Th c sĩ K thu t h p t i Đ i h c Đà N ng vào ngày 16 tháng
06 năm 2012.
TÓM T T LU N VĂN TH C SĨ K THU T
Có th tìm hi u Lu n văn t i:
- Trung tâm Thông tin – H c li u, Đ i h c Đà N ng.
- Trung tâm H c li u, Đ i h c Đà N ng.
Đà N ng - Năm 2012
-3M
Đ U
1. Lý do ch n đ tài
Ngày nay, cơng ngh thơng tin đang d n ph bi n trên h u h t các
lĩnh v c. T l thu n v i s phát tri n đó là lư ng d li u ñư c chúng ta
lưu tr cũng l n theo. Chúng ta bi t r ng trong lư ng d li u đó đang n
ch a nh ng giá tr nh t ñ nh. Tuy nhiên theo th ng kê, ch m t lư ng nh
nh ng d li u này (kho ng 5% - 10%) là đư c phân tích, s cịn l i
khơng bi t đ làm gì nhưng chúng ta v n ln ph i lưu tr vì s s b qua
nh ng thơng tin quan tr ng nào đó ho c m t ngày nào đó s dùng t i
chúng. Do đó, các phương pháp qu n tr và khai thác cơ s d li u truy n
th ng ngày càng không th ñáp ng ñư c th c t ñã làm phát sinh m t
khuynh hư ng k thu t m i: ñó là phát hi n tri th c và khai phá d li u
KDD (Knowledge Discovery and Data Mining). Phát hi n tri th c và
khai phá d li u là quá trình phát hi n tri th c ti m n, ti m năng, không
bi t trư c và có l i t kho d li u l n. KDD là s k th a và phát tri n
các thành t u c a nhi u lĩnh v c nghiên c u ng d ng tin h c trư c đó
như: H chun gia, Trí tu nhân t o, lý thuy t nh n d ng, …
Th trư ng v dư c ph m, thi t b y t ngày càng phát tri n m nh
m , các công ty kinh doanh v lĩnh v c này liên t c đưa ra các s n ph m,
các hình th c kinh doanh m i c nh tranh v i nhau nh m thu hút ngư i
tiêu dùng. Đ công ty có th t n t i, phát tri n b n v ng và c nh tranh
trên th trư ng thì c n ph i đưa ra nh ng nh n ñ nh k p th i, và ngư i
qu n lý ph i có cách nhìn t ng th v cách th c ñ u tư v m t hàng nào
nh m ñáp ng ñúng yêu c u c a khách hàng đ có hư ng đ u tư đúng
đ n. Hi n t i, cơng ty Dư c đang có m t ngu n d li u l n thông tin v
khách hàng, s lư ng, doanh thu các m t hàng ñư c bán ra,… D a vào
lưu lư ng d li u này, và do ñây là m t hư ng ñi ti m năng, có nhi u kh
năng phát tri n trong tương lai, nên tơi đã ch n đ tài : “ ng d ng khai
-4phá d li u đ tìm lu t k t h p tin c y trong h th ng bán hàng t i Công
ty Dư c TW3”.
Đ tài ch mô t và th c hi n m t s ch c năng c a h th ng bán
hàng nh m ph c v cho m c đích chính c a ñ tài là ng d ng khai phá
d li u, c th là ng d ng thu t tốn phân l p v i cây quy t đ nh đ
tìm lu t k t h p trong h th ng bán hàng c a Công ty Dư c TW3, mang
l i cho ngư i qu n lý có cách nhìn t ng quát v nhu c u mua bán ñ
ñưa ra nh ng nh n ñ nh ñúng và h p lý, mang l i hi u qu cho ho t
đ ng bán hàng t i cơng ty.
2. Đ i tư ng và ph m vi nghiên c u
a. Đ i tư ng
Lý thuy t
- K thu t khai phá d li u
- Nghi p v qu n lý bán hàng t i công ty dư c TW3
D li u
- Cơ s d li u: khách hàng, lo i hàng, m t hàng…
- Các văn b n, qui ñ nh có liên quan…
b. Ph m vi
- Nghiên c u các ki n th c cơ b n v phương pháp lu t k t h p.
- Tìm hi u các qui trình tác nghi p trong h th ng.
3. M c tiêu và nhi m v
a. M c tiêu
ng d ng lu t k t h p vào công tác qu n lý bán hàng.
- Đưa ra k t qu nh n đ nh hay các d đốn mang tính chi n lư c
cho nhà qu n lý.
b. Nhi m v
Nghiên c u cơ s lý thuy t
- Nghiên c u k thu t khai phá d li u.
- Nghiên c u và phát tri n các thu t gi i tìm lu t k t h p.
-5-
4.
5.
6.
a.
b.
7.
ng d ng các thu t toán trên vào cơ s d li u qu n lý bán
hàng.
Tri n khai xây d ng ng d ng
- Xây d ng cơ s d li u m u.
- Xây d ng các ng d ng.
Phương pháp nghiên c u
- Tham kh o các tài li u liên quan, các bài báo khoa h c…
- L p k ho ch, l p qui trình, ti n đ th c hi n
- Nghiên c u k thu t khai phá d li u b ng vi c tìm lu t k t h p
gi a các m t hàng d a trên lo i hàng và doanh thu c a các lo i
hàng đó.
K t qu d ki n
- T ng h p các ki n th c cơ b n c a phương pháp khai phá lu t
k th p
- Xây d ng m t s ng d ng ñơn gi n, d s d ng nhưng mang
tính hi u qu cao.
Ý nghĩa khoa h c và th c ti n c a ñ tài
Ý nghĩa khoa h c
- Đây là phương pháp ñư c nhi u nhà khoa h c nghiên c u và
cũng có r t nhi u đóng góp vào th c ti n.
ng d ng tin h c vào trong công tác qu n lý.
Ý nghĩa th c ti n
- Gi i quy t ñư c m t s tác nghi p trong công tác qu n lý.
- Đánh giá k t qu nh n ñ nh, h tr ñưa ra các quy t ñ nh hay
các d ñoán mang tính chi n lư c d a trên lo i hàng và doanh
thu c a các lo i hàng ñó.
- Giúp nhà qu n lý n m b t k p th i các nhu c u mua bán trên th
trư ng và có m t cách nhìn t ng quan hơn.
C u trúc lu n văn
-6Lu n văn g m có 3 chương:
Chương 1: T ng quan v lý thuy t
- Nghiên c u, tìm hi u lý thuy t khai phá d li u.
- Trình bày thu t tốn đư c áp d ng trong lu n văn: thu t toán
phân l p v i cây quy t đ nh.
Chương 2: Phân tích thi t k h th ng qu n lý bán hàng t i công ty
dư c TW3
- Phát bi u bài tốn: đ nh nghĩa bài tốn và qui trình bán hàng.
- Phân tích thi t k cơ s d li u và xác ñ nh các tác nhân liên
quan ñ n h th ng bán hàng.
Chương 3: Xây d ng chương trình và th c nghi m
- Trình bày ngơn ng l p trình
- Đưa ra các d li u th c t thu th p ñư c
- Thi t k giao di n bao g m 2 s ch c năng chính: khai phá d
li u theo mã lo i hàng và khai phá d li u các lo i hàng theo
doanh thu. Bên c nh đó cịn có m t s ch c năng h tr thêm:
danh m c khách hàng, c p nh t thơng tin hóa đơn, qu n lý
doanh thu bán hàng…
CHƯƠNG 1: T NG QUAN V LÝ THUY T
1.1. LÝ THUY T V KHAI PHÁ D LI U
1.1.1. Khai phá d li u
1.1.1.1. Đ nh nghĩa khai phá d li u
Đ nh nghĩa c a Ferruzza: “Khai phá d li u là t p h p các
phương pháp đư c dùng trong ti n trình khám phá tri th c ñ ch ra s
khác bi t các m i quan h và các m u chưa bi t bên trong d li u”.
Đ nh nghĩa c a Parsaye: “Khai phá d li u là quá trình tr giúp
quy t đ nh, trong đó chúng ta tìm ki m các m u thông tin chưa bi t và
b t ng trong CSDL l n”.
-7-
-8-
Đ nh nghĩa c a Fayyad: “Khai phá tri th c là m t q trình
khơng t m thư ng nh n ra nh ng m u d li u có giá tr , m i, h u ích,
ti m năng và có th hi u đư c”.
1.1.1.2. Đ c ñi m c a khai phá d li u
Khai phá d li u là giai ño n ch y u c a quá trình phát
hi n tri th c.
Khai phá d li u đ tìm ra các m u (pattern) có ý nghĩa đư c
ti n hành trên t p d li u mà ta hy v ng là s thích h p v i nhi m v
khai phá hi n th i.
M u tìm đư c t q trình khai phá d li u ph i có tính mơ
t (description) và d đốn (prediction).
Khai phá d li u là q trình mà trong đó con ngư i là
trung tâm.
Khai phá d li u là quá trình tìm ki m tri th c ch t d li u.
Khai phá d li u mang tính ch t hư ng nhi m v .
1.1.1.3. Ý nghĩa th c ti n và tình hình ng d ng khai phá d li u
a. Ý nghĩa th c ti n
Cùng v i s tăng lên không ng ng c a kh i lư ng d li u , yêu
c u khai thác d li u ngày càng cao hơn. Ngồi nh ng địi h i v tính
linh ho t, năng su t, s chun mơn hóa trong v n đ khai thác, CSDL
c n ph i mang l i tri th c hơn là chính d li u đó. Các quy t đ nh c n
ph i h p lý, nhanh chóng, chính xác và có kh năng d đốn s vi c
trong tương lai. Trư c yêu c u này, cách khai thác CSDL truy n th ng
cho th y s h n ch c a mình. Khai phá ra đ i m hư ng cho s khó
khăn này.
Có th k m t s ng d ng c a khai phá d li u như sau: m t
công ty b o hi m mu n phát hi n t CSDL c a khách hàng b nghi ng
là gian l n, khi đó, ngư i ta th c hi n khai phá d li u trên CSDL ch a
các thơng tin liên quan đ n giao d ch gi a khách hàng và công ty đ tìm
ra s phân l p, có th là l p “đáng tin” và l p “khơng đáng tin” trong
khách hàng. T đó cơng ty s có bi n pháp h n ch gian l n x y ra. Hay
công ty nh n ñ t hàng t khách hàng qua email có th gi m b t chi phí
g i email b ng cách dùng tri th c khám phá ñ ch g i email liên l c
ñ n nh ng khách hàng có kh năng mua thư ng xuyên. B nh vi n cũng
c n khám phá tri th c t d li u nh m ph c v cho m c đích nghiên
c u, ch n đốn trong ngành y…
b. Tình hình ng d ng
Vi t Nam, có nhi u ñ tài nghiên c u khoa h c v khai phá
d li u và ñ t ñư c nhi u k t qu đáng khích l .
Khai phá d li u là m t lĩnh v c nghiên c u m i dùng các k
thu t thông minh ñ khai phá tri th c tìm n trong d li u. Kh năng h
tr công vi c c a khai phá d li u làm cho vi c ng d ng k thu t này
vào th c t ngày càng r ng rãi hơn. M c dù, các h th ng khai phá d
li u khai phá d li u trên th gi i ít nhi u cịn h n ch nhưng đã d n
d n hồn thi n hơn và th c s tr thành m t công c quan tr ng khơng
th thi u đư c trong h u h t các lĩnh v c xã h i.
1.1.2. Các bư c cơ b n c a quá trình phát hi n tri th c
Nhìn chung, quá trình khai phá d li u g m các bư c sau:
Bư c 1: Tìm hi u lĩnh v c ng d ng và xác đ nh m c đích khai phá d li u.
Bư c 2: Xác ñ nh d li u liên quan và hình th c khai phá.
Bư c 3: Ti n x lý d li u.
Bư c 4: Ch n thu t toán khai phá và chuy n d li u v d ng phù h p.
Bư c 5: Khai phá d li u.
Bư c 6: Trích l c các m u th c s có ý nghĩa.
Bư c 7: ng d ng tri th c phát hi n ñư c.
1.2. LU T K T H P TRONG KHAI PHÁ D LI U
1.2.1. Vài nét v khai phá lu t k t h p
M c đích chính c a khai phá d li u là trích rút tri th c m t cách
t ñ ng, hi u qu và “thông minh” t kho d li u.
-9Trong ho t ñ ng s n xu t kinh doanh, ví d kinh doanh các m t
hàng t i siêu th , các nhà qu n lý r t thích có đư c nh ng thơng tin
mang tính th ng kê như: “90% ph n có xe máy màu ñ và ñeo ñ ng
h Th y S thì dùng nư c hoa hi u Chanel” ho c “70% khách hàng là
cơng nhân thì mua TV thư ng mua lo i 21 inches”. Nh ng thông tin
như v y r t h u ích trong vi c đ nh hư ng kinh doanh. V y v n ñ ñ t
ra là li u có tìm đư c các lu t như v y b ng các công c khai phá d
li u hay khơng? Câu tr l i là hồn tồn có th . Đó chính là nhi m v
khai phá lu t k t h p.
1.2.2. Lu t k t h p
1.2.2.1. Đ nh nghĩa v lu t k t h p
Đ nh nghĩa 1: Cho I={I1, I2, .., Im} là t p h p c a m tính ch t riêng bi t.
Gi s D là cơ s d li u, v i các b n ghi ch a m t t p con T các tính
ch t (có th coi như T ⊆ I), các b n ghi đ u có ch s riêng. M t lu t k t
h p là m t m nh ñ kéo theo có d ng X→Y, trong đó X, Y ⊆ I, th a mãn
ñi u ki n X∩Y=∅. Các t p h p X và Y ñư c g i là các t p h p tính ch t
(itemset). T p X g i là nguyên nhân, t p Y g i là h qu .
Có 2 đ đo quan tr ng ñ i v i lu t k t h p: Đ h tr (support) và ñ
tin c y (confidence), ñư c ñ nh nghĩa như ph n dư i ñây.
Đ nh nghĩa 2: Đ h tr
Đ h tr c a m t t p h p X trong cơ s d li u D là t s gi a các b n
ghi T⊆D có ch a t p X và t ng s b n ghi trong D (hay là ph n trăm c a
các b n ghi trong D có ch a t p h p X), ký hi u là Support(X ) hay
Supp(X).
Ký hi u: Supp(X).
Ta có: 0 ≤ Supp(X) ≤ 1 v i m i t p h p X.
Đ h tr Supp(X) còn ñư c hi u là xác su t X ñư c th a trong D.
Ký hi u: P(X).
Đ h tr c a m t lu t k t h p X→Y là t l gi a s lư ng các b n ghi
ch a t p h p X ∪ Y, so v i t ng s các b n ghi trong D.
- 10 Supp(X→Y) = Supp(X∪Y)=
| {T ∈ D | X ∪ Y ⊆ T } |
|D|
Khi chúng ta nói r ng đ h tr c a m t lu t là 70%, có nghĩa là có
70% t ng s b n ghi ch a X ∪ Y. Như v y, ñ h tr mang ý nghĩa
th ng kê c a lu t.
Đ h tr c a X là:
Supp(X)=
S lư ng giao d ch h tr (X)
T ng s giao d ch
Đ nh nghĩa 3: Đ tin c y
Đ tin c y (Confidence) c a lu t k t h p có d ng R: X→Y là t l gi a s
lư ng các b n ghi trong D ch a X ∪ Y v i s b n ghi trong D có ch a t p
h p X. Ký hi u ñ tin c y c a m t lu t là Conf(R).
Conf (X→Y)
= P( Y | X )=
Supp( X ∪ Y )
Supp ( X )
Có th đ nh nghĩa ñ tin c y như sau:
Đ tin c y c a m t lu t k t h p X→Y là t l gi a s lư ng các b n ghi
c a t p h p ch a X ∪ Y, so v i t ng s các b n ghi ch a X.
Vi c khai thác các lu t k t h p t cơ s d li u chính là vi c tìm t t c c các
lu t có đ h tr và đ tin c y do ngư i s d ng xác ñ nh trư c. Các
ngư ng c a ñ h tr và ñ tin c y ñư c ký hi u là minsup, minconf và do
ngư i dùng xác ñ nh.
Vi c khai thác các lu t k t h p có th đư c phân tích thành hai v n đ :
1. Tìm t t c các t p m c thư ng xuyên x y ra mà có ñ h tr l n
hơn ho c b ng minsup.
2. T o ra các lu t mong mu n s d ng các t p m c l n mà có đ tin
c y l n hơn ho c b ng minconf.
Đ nh nghĩa 4: Đ quan tr ng
Đ quan tr ng (importance) c a lu t X→Y, ký hi u Imp(X→Y), ñư c xác
ñ nh b i t s gi a Conf(X→Y) và Conf( X →Y) .
- 11 Imp(X →Y)
= lg(
Conf (Y → X )
P( X | Y )
) = lg(
)
Conf (Y → X )
P( X ) | Y )
Trong tính tốn, ta thư ng đưa t s này vào lơgarit đ đ quan tr ng có giá
tr xung quanh 0.
1.2.2.2. M t s hư ng ti p c n trong khai phá lu t k t h p
1.2.2.3. M t s thu t toán phát hi n lu t k t h p
1.3. THU T TOÁN PHÂN L P V I CÂY QUY T Đ NH
1.3.1. Đ t v n ñ
Gi s doanh nghi p ñã ñưa ra m t s tiêu chí ñ phân lo i khách hàng là
VIP ho c khơng VIP: có kh i lư ng giao d ch trung bình m i tháng đ t t
3,000,000 VND tr lên, có t n su t giao d ch trung bình 10 l n m i tháng.
V n ñ ñ t ra c a doanh nghi p là c n xác ñ nh các đ c trưng chung c a
nhóm khách hàng VIP, ñ t ñó làm cơ s d báo v m t khách hàng (m i)
có ti m năng tr thành khách hàng VIP hay không. Trong b ng trên, các
thu c tính đã đư c r i r c hóa theo cách:
Tu i: B ng 1 n u tu i nh hơn 25, b ng 2 n u tu i t 25 ñ n 40, b ng 3 n u
tu i l n hơn 40.
Gi i tính: B ng 1 n u là n , b ng 0 n u là nam,
Thu nh p: B ng 1 n u thu nh p ít hơn 30 tri u VND/năm, b ng 2 n u t 30
tri u VND ñ n 50 tri u VND/năm, b ng 3 n u trên 50 tri u VND/năm,
Tình tr ng hơn nhân: B ng 0 n u chưa l p gia đình, b ng 1 n u ngư c l i.
1.3.2. M t s ñ nh nghĩa
Cho b ng d li u A g m n dịng v i các thu c tính: (X1, X2, ..., XN, Y), trong
đó Y là thu c tính output (thu c tính c n d báo) và X1, X2, ..., XN là các
thu c tính input.
Gi s Y đã ñư c r i r c hóa thành k giá tr là y1, y2, ..., yk (nghĩa là giá tr t i
Y c a m t dòng b t kỳ trong A ph i là m t trong các y1, y2, ..., yk). G i n y1 là
s dòng trong b ng A th a ñi u ki n Y = y1, ký hi u tương t cho n y 2 , ...,
n y k . Đương nhiên ta có các n y i ph i l n hay b ng 0 và ( n y1 + n y 2 + ...+
n y k )= n.
- 12 Đ nh nghĩa 1: Đ phân tán thông tin c a b ng A là m t giá tr trong kho ng
t 0 ñ n 1, ñư c tính b i:
I( n y ,
1
−
ny2
, ...,
nyk
)
n y1
n y1 + n y 2 + ... + n y k
−
=
log k
n y2
n y1 + n y 2 + ... + n y k
n y1
n y1 + ny 2 + ... + n y k
log k
n y2
n y1 + n y 2 + ... + n y k
...
−
n yk
n y1 + n y2 + ... + n yk
log k
n yk
n y1 + n y2 + ... + n yk
Trong đó, ta qui ư c logk0=0.
Nh n xét:
- Hàm I khơng thay đ i giá tr khi ta hốn v các n y i .
- Hàm I đ t giá tr l n nh t (b ng 1) khi n y1 = n y 2 = ... = n y k ,
nghĩa là các dòng trong b ng A ñư c phân tán ñ u cho các trư ng h p
(r i r c) c a thu c tính output Y.
- Hàm I đ t giá tr nh nh t (b ng 0) khi có m t n y i nào đó b ng
n (t ng s dịng c a b ng A), và ñương nhiên là các n y i còn l i ph i
b ng 0. Khi đó, ta nói r ng b ng A khơng phân tán thơng tin gì c , và
cũng có nghĩa là b ng A khơng có gì đ d báo.
Đ nh nghĩa 2: G i n y m là m t giá tr l n nh t trong các n y1 , n y 2 , ..., n y k ,
khi đó ta g i ym là giá tr tr i c a thu c tính output Y; đ tin c y c a lu t
1→(Y=ym) ñư c g i là ñ tr i output c a b ng A.
Nh n xét: Conf(1→(Y=ym)) =
n ym
n
.
Đ nh nghĩa 3: G i X là m t thu c tính input c a b ng A, gi s X ñã ñư c
r i r c hóa thành m giá tr x1, x2, ..., xm. Phép tách A d a vào thu c tính X,
ký hi u là TX, t o thành m b ng con c a A:
- 13 TX = {A1, A2, ..., Am}, trong đó:
- A1, A2, ..., Am t omthành m t phân ho ch trên A, nghĩa là Ai∩Aj = ∅, ∀i, j
=1,2,...,m, i ≠ j và
Ai = A .
i =1
- Ai là t p h p các dịng trong A có giá tr t i X là xi, nghĩa là Ai = {t∈A|t.X =
xi}, ∀i = 1, 2, ..., m.
Đ nh nghĩa 4: G i TX là m t phép tách như trong ñ nh nghĩa 2. V i m i i t
A
1 ñ n m, g i n y1i là s dịng trong b ng Ai th a đi u ki n Y = y1, ký hi u
U
A
A
tư ng t cho n y 2i , ..., n y ki .
Đ phân tán thông tin c a phép tách TX , ký hi u E(TX), là m t giá tr t 0
ñ n 1, đư c tính b i:
k Ai
∑ ny j
m
j =1
Ai Ai
Ai
E(TX) =
∑ k × I (ny1 ny2 ,..., nyk )
i =1
∑ ny j
j =1
Trong đó:
A
- n y ij là s dịng trong b ng Ai th a ñi u ki n Y=yj.
-
k
∑ n là s dòng c a b ng Ai.
j =1
-
Ai
yj
k
∑ n là s dòng c a b ng A.
j =1
yj
A
A
A
- I (n y1i n y2i ,..., n yki ) là đ phân tán thơng tin c a b ng A.
M t phép tách TX ñư c g i là “t t” khi các b ng con Ai t o thành có đ phân
tán thơng tin th p, hay nói theo nghĩa c a phương pháp gom c m, các b ng
con Ai là các c m có đa s ph n t (dịng) có giá tr t i Y gi ng nhau. T đó,
phép tách TX là t t khi E(TX) th p, và ngư c l i.
1.3.3. Thu t toán
Input:
- B ng d li u A g m n dịng v i các thu c tính (X1, X2, ..., XN, Y),
trong đó Y là thu c tính Output (thu c tính c n d báo) và X1, X2, ..., XN là
các thu c tính input. T t c thu c tính c a A đ u có giá tr r i r c.
- 14 - w: ngư ng ñ tin c y ch p nh n ñư c.
Output:
- Cây quy t đ nh.
CHƯƠNG 2: PHÂN TÍCH THI T K H TH NG QU N LÝ
BÁN HÀNG T I CƠNG TY DƯ C TW3
2.1. PHÁT BI U BÀI TỐN
2.1.1. Đ nh nghĩa bài toán
Th trư ng cung c p dư c ph m, các thi t b y t ngày càng phát
tri n m nh m , các công ty kinh doanh v lĩnh v c này liên t c đưa ra
các s n ph m, các hình th c kinh doanh m i nh m thu hút ngư i tiêu
dùng. Đ cơng ty có th t n t i, phát tri n và c nh tranh trên th trư ng
đư c thì c n ph i đưa ra nh ng nh n ñ nh k p th i, ngư i qu n lý có
cách nhìn t ng th v cách th c ñ u tư v m t hàng nào nh m ñáp ng
ñúng yêu c u c a khách hàng và có hư ng đ u tư ñúng ñ n.
V i m c ñích phát tri n công ty thành m t nhà cung c p dư c
ph m có quy mơ l n thì vi c ng d ng công ngh thông tin vào công
tác qu n lý là s l a ch n hàng ñ u c a nhà qu n lý. Ph m vi ng d ng
và vai trị c a cơng ngh thơng tin trong công tác qu n lý là r t l n,
nhưng vì th gian và đi u ki n cịn h n ch nên tơi ch n m t khía c nh
nh trong cơng tác qu n lý đó là xây d ng h h tr khai phá d li u
d a trên các thông tin giao d ch trên hóa đơn, h tr cho ngư i qu n lý
đưa ra nh ng nh n đ nh mang tính ch t chi n lư c trong kinh doanh.
Bên c nh đó, lu n văn cịn có th đáp ng m t s ch c năng giúp nhà
qu n lý có th xem và đánh giá thơng qua các danh m c khách hàng,
các hóa đơn bán l hàng ngày, các hàng hóa có trong kho, tính đư c
doanh thu, l i nhu n qua các tháng… Gi i quy t ñư c m t s tác
nghi p và ñi u quan tr ng là ng d ng khai phá d li u lu t k t h p ñ
ñưa ra các quy t đ nh, nó bao g m nhi u b ng th ng kê mang tính ch t
nh n đ nh, giúp ta có cách nhìn t ng quan v d li u, d đốn ra các
quy lu t đ qua đó ki m ch ng l i nh ng nh n ñ nh này.
- 16 -
- 15 Khai phá m i quan h v l i nhu n c a các lo i hàng có trong
hóa đơn, d đốn k t qu nh hư ng c a các lo i hàng này như th nào?
Khách hàng li u có thói quen mua hàng này hay khơng? T các quy lu t
đó, ta đánh giá và ki m ñ nh l i ñ tin c y có chính xác khơng? Có đư c
nh n ñ nh ñúng s d dàng giúp nhà kinh doanh tìm ra hư ng đ u tư
cho các lo i m t hàng đư c t t nh t.
Bài tốn c th ñư c nêu ra ñây là: ng d ng khai phá d li u,
c th là d a vào thu t toán phân l p v i cây quy t đ nh đ tìm lu t k t
h p tin c y d a trên mã các lo i hàng và d a trên doanh thu c a các lo i
hàng ñ ñưa ra nh ng ñánh giá, nh ng nh n ñ nh v s nh hư ng c a
các lo i hàng ñ n doanh thu và l i nhu n c a công ty.
2.1.2. Qui trình bán hàng
H th ng bán hàng đư c th c hi n theo m t qui trình như sau:
- B ph n trình dư c viên gi i thi u danh m c hàng hóa đ n cho
khách hàng.
- Khách hàng ch n các m t hàng c n mua (hay cịn g i là đ t hàng).
- B ph n trình dư c viên g i yêu c u ñ t mua ñ n cho b ph n qu n
lý bán hàng.
- B ph n qu n lý bán hàng g i yêu c u ñ t mua ñ n cho b ph n
qu n lý v t tư (kho). B ph n v t tư h i ñáp cho bi t danh m c m t
hàng khách hàng đ t mua có t n kho hay khơng.
- N u kho v t tư còn hàng, b ph n qu n lý bán hàng yêu c u b
ph n qu n lý kho xu t kho (l p phi u xu t kho) và yêu c u b ph n
tài chính l p phi u thu ti n khách hàng.
- N u khách hàng yêu c u mua hàng tr ch m thì b ph n qu n lý bán
hàng g i u c u cơng n đ n b ph n qu n lý công n , n u đư c b
ph n qu n lý cơng n ch p nh n thì b ph n qu n lý bán hàng s tra
s công n khách hàng, thêm m c n m i ñ ng th i yêu c u b ph n
qu n lý v t tư đánh d u chưa thanh tốn vào phi u xu t kho.
2.2. PHÂN TÍCH THI T K
2.2.1. Cơ s d li u
Ký hi u ch vi t :
P: Primary key (khố chính)
U: Unique key, candidate key (khố ch đ nh)
M : Mandatory (khơng đư c r ng)
L : Locked (khơng cho phép s a đ i giá tr )
- Lo i th c th Ngư i dùng (NguoiDung)
Thu c tính
Kích thư c
P
U
M
L
Tennguoidung
nvarchar
50
x
x
x
x
Matkhau
nvarchar
50
x
Vaitro
-
Ki u
int
4
x
Lo i th c th Khách hàng (KhachHang)
Thu c tính
Kích thư c
P
U
M
L
Makh
nvarchar
10
x
x
x
x
Tenkh
nvarchar
50
x
Diachi
nvarchar
50
x
DienThoai
-
Ki u
nvarchar
50
x
Lo i th c th Hóa đơn (HoaDon)
Thu c tính
Kích thư c
P
U
M
L
Mahd
nvarchar
10
x
x
x
x
Makh
nvarchar
50
x
Ngaylap
datetime
8
x
Tonggiatri
-
Ki u
float
10
x
Lo i th c th Hàng hóa (HangHoa)
Thu c tính
Ki u
Kích thư c
P
U
M
L
Mahang
nvarchar
10
x
x
x
x
Tenhang
nvarchar
50
x
Dongia
float
10
x
Soluong
int
10
x
- 17 Maloai
-
nvarchar
- 18 -
10
Lo i th c th Lo i hàng (LoaiHang)
Thu c tính
Ki u
Kích thư c
P
U
M
L
Maloai
nvarchar
10
x
x
x
x
Tenloai
-
nvarchar
50
x
Lo i th c th Các tháng (CacThang)
Thu c tính
Ki u
Kích thư c
Thang
Int
P
U
M
4
L
x
D li u Các tháng bao g m 12 tháng trong năm.
- S k t h p Chi ti t hóa ñơn (ChiTietHoaDon)
Thu c tính
Ki u
Kích thư c
P
U
M
L
Mahd
nvarchar
10
x
x
x
x
Mahang
nvarchar
10
x
x
x
x
Soluong
int
10
x
Dongia
float
10
x
Sơ ñ m i quan h c a các th c th
Hình 2.1. Mơ hình cơ s d li u
Xác đ nh các tác nhân
D a vào ph n đ nh nghĩa bài tốn, ta có th xác đ nh đư c các tác
nhân chính c a h th ng như sau:
TRÌNH DƯ C VIÊN: là ngư i gi i thi u các m t hàng, th c
hi n vi c mua hàng và g i các ñơn ñ t hàng cho ngư i qu n lý.
KHÁCH HÀNG: là ngư i giao d ch v i h th ng thơng qua các
đơn đ t hàng, khách hàng có th ch n l a các m t hàng mình mu n
thơng qua s gi i thi u c a trình dư c viên.
NGƯ I QU N LÝ: là ngư i ñi u hành, qu n lý và theo dõi m i
ho t ñ ng c a h th ng.
NGƯ I DÙNG: bao g m ngư i qu n lý, trình dư c viên và
nh ng khách hàng đã đư c c p nh t thơng qua các ñơn ñ t hàng. ng
v i m i thành viên s có nh ng ch c năng khác nhau nh m ph c v cho
công vi c c th cho t ng ñ i tư ng.
2.2.3. Xác ñ nh các UC, các gói UC và xây d ng bi u ñ UC chi ti t
2.2.4. Đ c t các Use Case
2.2.5. Xác ñ nh các l p th c th và các l p biên
2.2.6. Bi u ñ ho t đ ng c a các Use Case
2.2.7. Mơ hình hóa tương tác trong các Use Case: Bi u ñ tu n t
2.2.2.
x
CHƯƠNG 3: XÂY D NG CHƯƠNG TRÌNH VÀ TH C NGHI M
3.1. NGƠN NG L P TRÌNH
Ch n l p trình trên Window Form C# đ xây d ng chương trình
(dùng cơng c Microsoft Visual Studio 2008).
Cơ s d li u ch n là SQL – dùng phiên b n SQL Server 2005
Developer Edition ñ ti n cho công vi c khai phá d li u.
3.2. D LI U TH C T THU TH P ĐƯ C
- D li u ñư c thu th p th c t t i công ty dư c d a vào thơng
tin trên các hóa đơn. Thơng tin trên các hóa ñơn bao g m thông tin
khách hàng, lo i hàng, m t hàng, s lư ng, ñơn giá thu c bán ra. Bên
- 19 c nh đó, cịn thu th p thêm thơng tin s lư ng hi n có trong kho, ñơn
giá g c, d li u này giúp ngư i qu n lý có th n m b t đư c doanh thu
bán hàng, l i nhu n thu ñư c t các m t hàng bán ñư c.
- Khách hàng: D li u thông tin khách hàng bao g m kho ng
2160 khách hàng thư ng xuyên giao d ch v i công ty, b ng d li u
khách hàng bao g m mã khách hàng, tên khách hàng, ñ a ch và s ñi n
tho i c a khách hàng
- Hóa đơn: D li u Hóa đơn bao g m kho ng hơn 3.000 hóa đơn,
d li u hóa đơn bao g m mã hóa đơn, mã khách hàng, ngày l p hóa đơn
và t ng giá tr trên hóa đơn đó
- Chi ti t hóa đơn: D li u Chi ti t hóa đơn bao g m kho ng hơn
12.000 b ng ghi, d li u này bao g m mã hóa đơn, mã lo i hàng, s
lư ng và đơn giá m t hàngHàng hóa: D li u Hàng hóa bao g m
kho ng hơn 189 m t hàng, d li u này bao g m mã hàng, tên hàng, ñơn
giá, s lư ng và mã lo i hàng
- Lo i hàng: bao g m kho ng 82 lo i hàng, d li u này bao g m
mã lo i và tên lo i hàng ñư c th hi n màn hình bên dư i:
- 20 3.3. THI T K GIAO DI N CHƯƠNG TRÌNH
3.3.1. Form Đăng nh p
3.3.2. Giao di n chính
3.3.3. Ch c năng chính
3.3.3.1. Khai phá d li u theo mã lo i hàng
Hình 3.25. Giao di n Khai phá d li u d a theo lo i hàng hóa
Hình 3.26. K t qu sau khi khai phá d li u d a theo lo i hàng hóa
- 21 3.3.3.2.
Khai phá d li u các lo i hàng theo doanh thu
Hình 3.27. KPDL d a doanh thu bán các lo i hàng có doanh thu th p nh t
Hình 3.28. K t qu sau khi khai phá d li u mã lo i hàng có doanh thu
th p nh t
3.3.4. Ch c năng h tr
3.3.4.1. Danh m c khách hàng
Cho ta bi t đư c các thơng tin v khách hàng như Mã khách
hàng , Tên khách hàng, Đ a ch , Đi n Tho i..
3.3.4.2. Danh m c hóa đơn
Dùng đ qu n lý các hóa ñơn và chi ti t hóa ñơn c a t t c các
- 22 khách hàng , ta có th thêm xóa s a m t hóa đơn cho m t khách hàng
cũng như các chi ti t hóa đơn c a m t hóa đơn.
3.3.4.3. Danh m c s n ph m
Là m c ñ qu n lý t t c các lo i hàng hóa và các hàng hóa có
trong lo i hàng đó , cũng có ch c năng thêm xóa s a m t lo i hàng m i
ho c 1 s n ph m m i.
3.3.4.4. Th ng kê giao d ch
3.3.4.5. Qu n lý doanh thu
M c Qu n Lý Doanh Thu này hi n th cho ta th y ñư c t t c các
Hóa Đơn và Danh sách các Chi Ti t Hóa Đơn c a Hóa Đơn đó trong
kho ng th i gian c th .T đó tính đư c các Doanh Thu & L i Nhu n
trong kho ng th i gian các tháng ho c năm .T ng m t hàng , lo i hàng
ñã bán ñem l i l i nhu n và dannh thu ra sao trong kho ng th i gian đó
ho c năm đó.
3.3.4.6. Tình hình bi n đ ng giá
M i lo i hàng hóa đem l i cho ta doanh thu khác nhau , th ng kê
ñư c các bi n ñ ng v giá c a chúng ta s có cái nhìn t ng quan hơn
các m t hàng trong siêu th c n ñư c ñ u tư : Ta th ng kê các lo i hàng
có đ l ch chu n theo doanh thu trong năm.
3.4. K T QU TH NGHI M VÀ NH N XÉT
K t qu khai phá lu t k t h p b ng k thu t phân l p v i cây quy t
ñ nh trên b ng doanh thu g m 352 giao d ch, m i giao d ch g m có 6
thu c tính.
K t qu đ t đư c ng v i 5 mã lo i hàng l n lư t 1, 2, 3, 4, 5 như
sau :
Ngư ng tin c y cho
S giao
S lu t thu
STT
trư c
d ch
ñư c
1
0.6
352
12
2
0.7
352
47
3
0.8
352
59
4
0.9
352
67
- 23 -
- 24 -
R i r c các thu c tính trong b ng trên theo phương th c sau :
- Các lo i hàng : lo i hàng 1, lo i hàng 2, lo i hàng 3,... ñư c r i
r c theo trung bình doanh thu
- N u là 0: doanh thu b ng 0
- N u là 1: có doanh thu th p hơn m c trung bình doanh thu
- N u là 2: có doanh thu cao hơn m c trung bình doanh thu
- L i nhu n:
- N u là 1: l i nhu n th p hơn m c trung bình l i nhu n.
- N u là 2: l i nhu n cao hơn m c trung bình l i nhu n.
- B ng k t qu sau khi ñã r i r c các thu c tính s đư c xu t ra
file excel t i Sheet1.
- Gi s ta cho m t ngư ng tin c y cho trư c là 0.6, và th
nghi m v i 5 lo i m t hàng l n lư t như sau: 1, 2, 3, 4, 5 v i s giao
d ch là 340 ta s có nh ng t p lu t như sau:
- N u mã lo i hàng 5 có doanh thu b ng 0 và mã lo i hàng 1 có
doanh thu th p hơn m c trung bình doanh thu thì khi đó l i nhu n thu
đư c có th s cao hơn m c trung bình l i nhu n.
- N u mã lo i hàng 5 có doanh thu b ng 0 và mã lo i hàng 1 có
doanh thu cao hơn m c trung bình doanh thu thì khi đó l i nhu n thu
đư c s th p hơn m c trung bình trung bình l i nhu n.
- N u mã lo i hàng 1, mã lo i hàng 3, mã lo i hàng 5 có doanh
thu đ ng th i b ng 0 thì khi đó l i nhu n thu ñư c s cao hơn m c
trung bình l i nhu n.
- N u mã lo i hàng 1, mã lo i hàng 5 có doanh thu đ ng th i
b ng 0 và mã lo i hàng 3 có doanh thu th p hơn m c trung bình doanh
thu thì khi đó l i nhu n thu đư c s th p hơn m c trung bình l i nhu n.
- N u mã lo i hàng 5 có doanh thu th p hơn m c trung bình
doanh thu thì l i nhu n thu đư c s có th th p hơn m c trung bình l i
nhu n.
- N u mã lo i hàng 5 có doanh thu cao hơn m c trung bình
doanh thu và mã lo i hàng 4 có doanh thu có doanh thu b ng 0 thì l i
nhu n thu đư c s có th cao hơn m c trung bình l i nhu n.
- N u mã lo i hàng 5 có doanh thu cao hơn m c trung bình
doanh thu và mã lo i hàng 4 có doanh thu th p hơn m c trung bình
doanh thu thì khi đó l i nhu n thu đư c s có th th p hơn m c trung
bình l i nhu n.
- N u mã lo i hàng 4 và mã lo i hàng 5 đ ng th i có doanh thu
cao hơn m c trung bình doanh thu và mã lo i hàng 2 có doanh thu b ng
0 thì l i nhu n thu đư c khi đó có th s cao hơn m c trung bình l i
nhu n.
- N u mã lo i hàng 4, mã lo i hàng 5 đ ng th i có doanh thu cao
hơn m c trung bình doanh thu và mã lo i hàng 1, mã lo i hàng 2 ñ ng
th i có doanh thu th p hơn m c trung bình doanh thu thì khi đó l i
nhu n thu đư c s có th th p hơn m c trung bình l i nhu n.
- N u mã lo i hàng 2, mã lo i hàng 4, mã lo i hàng 5 đ ng th i
có doanh thu cao hơn m c trung bình doanh thu và mã lo i hàng 3 có
doanh thu th p hơn m c trung bình doanh thu thì khi đó l i nhu n thu
đư c có th s cao hơn m c trung bình l i nhu n.
- N u mã lo i hàng 2, mã lo i hàng 3, mã lo i hàng 4, mã lo i
hàng 5 ñ ng th i có doanh thu cao hơn m c trung bình doanh thu và mã
lo i hàng 1 có m c doanh thu th p hơn m c trung bình doanh thu thì
khi đó l i nhu n thu đư c s th p hơn m c trung bình l i nhu n.
- N u mã lo i hàng 1, mã lo i hàng 2, mã lo i hàng 3, mã lo i
hàng 4, mã lo i hàng 5 ñ ng th i có doanh thu cao hơn m c trung bình
doanh thu thì khi đó l i nhu n thu đư c s cao hơn m c trung bình l i
nhu n.
NH N XÉT
- Qua các l n ch y th mơ hình, ta th y Conf = 1 b t c m i
giá tr , ch ng t ñ tin c y c a các lu t là t t. Bên c nh đó đ
- 25 -
-
ph bi n cũng chênh l ch trong m t kho ng các giá tr xác ñ nh
cho th y m c ñ dao ñ ng gi a các lu t khơng cao, có th ch p
nh n ñư c nhi u lu t cùng m t lúc.
Càng tăng ch s đ tin c y thì s lu t cũng thay đ i khơng
đáng k nên ch ng t r ng các lu t ñ u ñã mang tính ch t liên
k t nhau cao. Ta th y có m t s lu t ln xu t hi n các mơ
hình ch y th mà ta có th tin tư ng ñư c.
- 26 K T LU N
1. Đánh giá k t qu
- V m t lý thuy t: Nghiên c u ki n th c v khai phá tri th c và
khai phá d li u, các thu t tốn tìm lu t k t h p như: Apriori, AprioriTIP, Apriori-Hybrid, FP-Growth, phân l p v i cây quy t đ nh. Cài
đ t thu t tốn tìm lu t k t h p b ng phương pháp phân l p v i cây
quy t ñ nh.
- V m t ng d ng: Xây d ng ñư c h th ng h tr ñưa ra các
quy t ñ nh ph c v cho công tác qu n lý thông qua vi c khai phá d
li u d a trên lo i hàng và doanh thu lo i hàng có cơng ty.
2. H n ch
- Ch m i minh h a h th ng trên cơ s d li u c a công ty
TNHH MTV Dư c TW3, chưa minh h a trên nhi u cơ s d li u khác.
- H th ng cịn đơn gi n, chưa có nhi u ch c năng thi t th c giúp
ph c v hi u qu công tác qu n lý c a công ty.
3. Hư ng phát tri n
- Ti p t c hồn thi n đ tài, xây d ng h th ng nhi u ch c năng
hơn, dùng thu t toán phân l p v i cây quy t ñ nh th nghi m và ñánh
giá k hơn trên cơ s d li u l n hơn và cơ s d li u khác.
- Đưa thêm các phương pháp khai phá d li u khác vào vi c phân
tích mơ hình, như gom c m đ phân l p d li u đ t đó có th phân
tích d li u chính xác hơn và đưa ra nh ng lu t có đ tin c y cao hơn.
- Khai phá d li u trên kho d li u v i các lu t k t h p đa chi u,
nhi u m c.
- Tìm hi u công c h tr hi n th k t qu thu t tốn d ng đ
h a như đ th , bi u ñ , …