Tải bản đầy đủ (.pdf) (13 trang)

ứng dụng khai phá dữ liệu để tìm luật kết hợp đáng tin cậy trong hệ thống bán hàng tại công ty dược tw3

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (328.86 KB, 13 trang )

-1B GIÁO D C – ĐÀO T O
Đ I H C ĐÀ N NG

-2Cơng trình đư c hồn thành t i
Đ I H C ĐÀ N NG

Ngư i hư ng d n khoa h c: TS. Huỳnh Công Pháp
TR N TH BÍCH ĐÀO

Ph n bi n 1: TS. Trương Ng c Châu

NG D NG KHAI PHÁ D LI U Đ TÌM
LU T K T H P ĐÁNG TIN C Y TRONG H TH NG
BÁN HÀNG T I CÔNG TY DƯ C TW3

Chuyên ngành: KHOA H C MÁY TÍNH
Mã s : 60.48.01

Ph n bi n 2: TS. Trương Công Tu n

Lu n văn ñã ñư c b o v trư c h i ñ ng ch m Lu n văn t t
nghi p Th c sĩ K thu t h p t i Đ i h c Đà N ng vào ngày 16 tháng
06 năm 2012.

TÓM T T LU N VĂN TH C SĨ K THU T

Có th tìm hi u Lu n văn t i:
- Trung tâm Thông tin – H c li u, Đ i h c Đà N ng.
- Trung tâm H c li u, Đ i h c Đà N ng.
Đà N ng - Năm 2012



-3M

Đ U

1. Lý do ch n đ tài
Ngày nay, cơng ngh thơng tin đang d n ph bi n trên h u h t các
lĩnh v c. T l thu n v i s phát tri n đó là lư ng d li u ñư c chúng ta
lưu tr cũng l n theo. Chúng ta bi t r ng trong lư ng d li u đó đang n
ch a nh ng giá tr nh t ñ nh. Tuy nhiên theo th ng kê, ch m t lư ng nh
nh ng d li u này (kho ng 5% - 10%) là đư c phân tích, s cịn l i
khơng bi t đ làm gì nhưng chúng ta v n ln ph i lưu tr vì s s b qua
nh ng thơng tin quan tr ng nào đó ho c m t ngày nào đó s dùng t i
chúng. Do đó, các phương pháp qu n tr và khai thác cơ s d li u truy n
th ng ngày càng không th ñáp ng ñư c th c t ñã làm phát sinh m t
khuynh hư ng k thu t m i: ñó là phát hi n tri th c và khai phá d li u
KDD (Knowledge Discovery and Data Mining). Phát hi n tri th c và
khai phá d li u là quá trình phát hi n tri th c ti m n, ti m năng, không
bi t trư c và có l i t kho d li u l n. KDD là s k th a và phát tri n
các thành t u c a nhi u lĩnh v c nghiên c u ng d ng tin h c trư c đó
như: H chun gia, Trí tu nhân t o, lý thuy t nh n d ng, …
Th trư ng v dư c ph m, thi t b y t ngày càng phát tri n m nh
m , các công ty kinh doanh v lĩnh v c này liên t c đưa ra các s n ph m,
các hình th c kinh doanh m i c nh tranh v i nhau nh m thu hút ngư i
tiêu dùng. Đ công ty có th t n t i, phát tri n b n v ng và c nh tranh
trên th trư ng thì c n ph i đưa ra nh ng nh n ñ nh k p th i, và ngư i
qu n lý ph i có cách nhìn t ng th v cách th c ñ u tư v m t hàng nào
nh m ñáp ng ñúng yêu c u c a khách hàng đ có hư ng đ u tư đúng
đ n. Hi n t i, cơng ty Dư c đang có m t ngu n d li u l n thông tin v
khách hàng, s lư ng, doanh thu các m t hàng ñư c bán ra,… D a vào

lưu lư ng d li u này, và do ñây là m t hư ng ñi ti m năng, có nhi u kh
năng phát tri n trong tương lai, nên tơi đã ch n đ tài : “ ng d ng khai

-4phá d li u đ tìm lu t k t h p tin c y trong h th ng bán hàng t i Công
ty Dư c TW3”.
Đ tài ch mô t và th c hi n m t s ch c năng c a h th ng bán
hàng nh m ph c v cho m c đích chính c a ñ tài là ng d ng khai phá
d li u, c th là ng d ng thu t tốn phân l p v i cây quy t đ nh đ
tìm lu t k t h p trong h th ng bán hàng c a Công ty Dư c TW3, mang
l i cho ngư i qu n lý có cách nhìn t ng quát v nhu c u mua bán ñ
ñưa ra nh ng nh n ñ nh ñúng và h p lý, mang l i hi u qu cho ho t
đ ng bán hàng t i cơng ty.
2. Đ i tư ng và ph m vi nghiên c u
a. Đ i tư ng
Lý thuy t
- K thu t khai phá d li u
- Nghi p v qu n lý bán hàng t i công ty dư c TW3
D li u
- Cơ s d li u: khách hàng, lo i hàng, m t hàng…
- Các văn b n, qui ñ nh có liên quan…
b. Ph m vi
- Nghiên c u các ki n th c cơ b n v phương pháp lu t k t h p.
- Tìm hi u các qui trình tác nghi p trong h th ng.
3. M c tiêu và nhi m v
a. M c tiêu
ng d ng lu t k t h p vào công tác qu n lý bán hàng.
- Đưa ra k t qu nh n đ nh hay các d đốn mang tính chi n lư c
cho nhà qu n lý.
b. Nhi m v
Nghiên c u cơ s lý thuy t

- Nghiên c u k thu t khai phá d li u.
- Nghiên c u và phát tri n các thu t gi i tìm lu t k t h p.


-5-

4.

5.

6.
a.

b.

7.

ng d ng các thu t toán trên vào cơ s d li u qu n lý bán
hàng.

Tri n khai xây d ng ng d ng
- Xây d ng cơ s d li u m u.
- Xây d ng các ng d ng.
Phương pháp nghiên c u
- Tham kh o các tài li u liên quan, các bài báo khoa h c…
- L p k ho ch, l p qui trình, ti n đ th c hi n
- Nghiên c u k thu t khai phá d li u b ng vi c tìm lu t k t h p
gi a các m t hàng d a trên lo i hàng và doanh thu c a các lo i
hàng đó.
K t qu d ki n

- T ng h p các ki n th c cơ b n c a phương pháp khai phá lu t
k th p
- Xây d ng m t s ng d ng ñơn gi n, d s d ng nhưng mang
tính hi u qu cao.
Ý nghĩa khoa h c và th c ti n c a ñ tài
Ý nghĩa khoa h c
- Đây là phương pháp ñư c nhi u nhà khoa h c nghiên c u và
cũng có r t nhi u đóng góp vào th c ti n.
ng d ng tin h c vào trong công tác qu n lý.
Ý nghĩa th c ti n
- Gi i quy t ñư c m t s tác nghi p trong công tác qu n lý.
- Đánh giá k t qu nh n ñ nh, h tr ñưa ra các quy t ñ nh hay
các d ñoán mang tính chi n lư c d a trên lo i hàng và doanh
thu c a các lo i hàng ñó.
- Giúp nhà qu n lý n m b t k p th i các nhu c u mua bán trên th
trư ng và có m t cách nhìn t ng quan hơn.
C u trúc lu n văn

-6Lu n văn g m có 3 chương:
Chương 1: T ng quan v lý thuy t
- Nghiên c u, tìm hi u lý thuy t khai phá d li u.
- Trình bày thu t tốn đư c áp d ng trong lu n văn: thu t toán
phân l p v i cây quy t đ nh.
Chương 2: Phân tích thi t k h th ng qu n lý bán hàng t i công ty
dư c TW3
- Phát bi u bài tốn: đ nh nghĩa bài tốn và qui trình bán hàng.
- Phân tích thi t k cơ s d li u và xác ñ nh các tác nhân liên
quan ñ n h th ng bán hàng.
Chương 3: Xây d ng chương trình và th c nghi m
- Trình bày ngơn ng l p trình

- Đưa ra các d li u th c t thu th p ñư c
- Thi t k giao di n bao g m 2 s ch c năng chính: khai phá d
li u theo mã lo i hàng và khai phá d li u các lo i hàng theo
doanh thu. Bên c nh đó cịn có m t s ch c năng h tr thêm:
danh m c khách hàng, c p nh t thơng tin hóa đơn, qu n lý
doanh thu bán hàng…
CHƯƠNG 1: T NG QUAN V LÝ THUY T
1.1. LÝ THUY T V KHAI PHÁ D LI U
1.1.1. Khai phá d li u
1.1.1.1. Đ nh nghĩa khai phá d li u
Đ nh nghĩa c a Ferruzza: “Khai phá d li u là t p h p các
phương pháp đư c dùng trong ti n trình khám phá tri th c ñ ch ra s
khác bi t các m i quan h và các m u chưa bi t bên trong d li u”.
Đ nh nghĩa c a Parsaye: “Khai phá d li u là quá trình tr giúp
quy t đ nh, trong đó chúng ta tìm ki m các m u thông tin chưa bi t và
b t ng trong CSDL l n”.


-7-

-8-

Đ nh nghĩa c a Fayyad: “Khai phá tri th c là m t q trình
khơng t m thư ng nh n ra nh ng m u d li u có giá tr , m i, h u ích,
ti m năng và có th hi u đư c”.
1.1.1.2. Đ c ñi m c a khai phá d li u
Khai phá d li u là giai ño n ch y u c a quá trình phát
hi n tri th c.
Khai phá d li u đ tìm ra các m u (pattern) có ý nghĩa đư c
ti n hành trên t p d li u mà ta hy v ng là s thích h p v i nhi m v

khai phá hi n th i.
M u tìm đư c t q trình khai phá d li u ph i có tính mơ
t (description) và d đốn (prediction).
Khai phá d li u là q trình mà trong đó con ngư i là
trung tâm.
Khai phá d li u là quá trình tìm ki m tri th c ch t d li u.
Khai phá d li u mang tính ch t hư ng nhi m v .
1.1.1.3. Ý nghĩa th c ti n và tình hình ng d ng khai phá d li u
a. Ý nghĩa th c ti n
Cùng v i s tăng lên không ng ng c a kh i lư ng d li u , yêu
c u khai thác d li u ngày càng cao hơn. Ngồi nh ng địi h i v tính
linh ho t, năng su t, s chun mơn hóa trong v n đ khai thác, CSDL
c n ph i mang l i tri th c hơn là chính d li u đó. Các quy t đ nh c n
ph i h p lý, nhanh chóng, chính xác và có kh năng d đốn s vi c
trong tương lai. Trư c yêu c u này, cách khai thác CSDL truy n th ng
cho th y s h n ch c a mình. Khai phá ra đ i m hư ng cho s khó
khăn này.
Có th k m t s ng d ng c a khai phá d li u như sau: m t
công ty b o hi m mu n phát hi n t CSDL c a khách hàng b nghi ng
là gian l n, khi đó, ngư i ta th c hi n khai phá d li u trên CSDL ch a
các thơng tin liên quan đ n giao d ch gi a khách hàng và công ty đ tìm
ra s phân l p, có th là l p “đáng tin” và l p “khơng đáng tin” trong

khách hàng. T đó cơng ty s có bi n pháp h n ch gian l n x y ra. Hay
công ty nh n ñ t hàng t khách hàng qua email có th gi m b t chi phí
g i email b ng cách dùng tri th c khám phá ñ ch g i email liên l c
ñ n nh ng khách hàng có kh năng mua thư ng xuyên. B nh vi n cũng
c n khám phá tri th c t d li u nh m ph c v cho m c đích nghiên
c u, ch n đốn trong ngành y…
b. Tình hình ng d ng

Vi t Nam, có nhi u ñ tài nghiên c u khoa h c v khai phá
d li u và ñ t ñư c nhi u k t qu đáng khích l .
Khai phá d li u là m t lĩnh v c nghiên c u m i dùng các k
thu t thông minh ñ khai phá tri th c tìm n trong d li u. Kh năng h
tr công vi c c a khai phá d li u làm cho vi c ng d ng k thu t này
vào th c t ngày càng r ng rãi hơn. M c dù, các h th ng khai phá d
li u khai phá d li u trên th gi i ít nhi u cịn h n ch nhưng đã d n
d n hồn thi n hơn và th c s tr thành m t công c quan tr ng khơng
th thi u đư c trong h u h t các lĩnh v c xã h i.
1.1.2. Các bư c cơ b n c a quá trình phát hi n tri th c
Nhìn chung, quá trình khai phá d li u g m các bư c sau:
Bư c 1: Tìm hi u lĩnh v c ng d ng và xác đ nh m c đích khai phá d li u.
Bư c 2: Xác ñ nh d li u liên quan và hình th c khai phá.
Bư c 3: Ti n x lý d li u.
Bư c 4: Ch n thu t toán khai phá và chuy n d li u v d ng phù h p.
Bư c 5: Khai phá d li u.
Bư c 6: Trích l c các m u th c s có ý nghĩa.
Bư c 7: ng d ng tri th c phát hi n ñư c.
1.2. LU T K T H P TRONG KHAI PHÁ D LI U
1.2.1. Vài nét v khai phá lu t k t h p
M c đích chính c a khai phá d li u là trích rút tri th c m t cách
t ñ ng, hi u qu và “thông minh” t kho d li u.


-9Trong ho t ñ ng s n xu t kinh doanh, ví d kinh doanh các m t
hàng t i siêu th , các nhà qu n lý r t thích có đư c nh ng thơng tin
mang tính th ng kê như: “90% ph n có xe máy màu ñ và ñeo ñ ng
h Th y S thì dùng nư c hoa hi u Chanel” ho c “70% khách hàng là
cơng nhân thì mua TV thư ng mua lo i 21 inches”. Nh ng thông tin
như v y r t h u ích trong vi c đ nh hư ng kinh doanh. V y v n ñ ñ t

ra là li u có tìm đư c các lu t như v y b ng các công c khai phá d
li u hay khơng? Câu tr l i là hồn tồn có th . Đó chính là nhi m v
khai phá lu t k t h p.
1.2.2. Lu t k t h p
1.2.2.1. Đ nh nghĩa v lu t k t h p
Đ nh nghĩa 1: Cho I={I1, I2, .., Im} là t p h p c a m tính ch t riêng bi t.
Gi s D là cơ s d li u, v i các b n ghi ch a m t t p con T các tính
ch t (có th coi như T ⊆ I), các b n ghi đ u có ch s riêng. M t lu t k t
h p là m t m nh ñ kéo theo có d ng X→Y, trong đó X, Y ⊆ I, th a mãn
ñi u ki n X∩Y=∅. Các t p h p X và Y ñư c g i là các t p h p tính ch t
(itemset). T p X g i là nguyên nhân, t p Y g i là h qu .
Có 2 đ đo quan tr ng ñ i v i lu t k t h p: Đ h tr (support) và ñ
tin c y (confidence), ñư c ñ nh nghĩa như ph n dư i ñây.
Đ nh nghĩa 2: Đ h tr
Đ h tr c a m t t p h p X trong cơ s d li u D là t s gi a các b n
ghi T⊆D có ch a t p X và t ng s b n ghi trong D (hay là ph n trăm c a
các b n ghi trong D có ch a t p h p X), ký hi u là Support(X ) hay
Supp(X).
Ký hi u: Supp(X).
Ta có: 0 ≤ Supp(X) ≤ 1 v i m i t p h p X.
Đ h tr Supp(X) còn ñư c hi u là xác su t X ñư c th a trong D.
Ký hi u: P(X).
Đ h tr c a m t lu t k t h p X→Y là t l gi a s lư ng các b n ghi
ch a t p h p X ∪ Y, so v i t ng s các b n ghi trong D.

- 10 Supp(X→Y) = Supp(X∪Y)=

| {T ∈ D | X ∪ Y ⊆ T } |
|D|


Khi chúng ta nói r ng đ h tr c a m t lu t là 70%, có nghĩa là có
70% t ng s b n ghi ch a X ∪ Y. Như v y, ñ h tr mang ý nghĩa
th ng kê c a lu t.
Đ h tr c a X là:
Supp(X)=

S lư ng giao d ch h tr (X)
T ng s giao d ch

Đ nh nghĩa 3: Đ tin c y
Đ tin c y (Confidence) c a lu t k t h p có d ng R: X→Y là t l gi a s
lư ng các b n ghi trong D ch a X ∪ Y v i s b n ghi trong D có ch a t p
h p X. Ký hi u ñ tin c y c a m t lu t là Conf(R).
Conf (X→Y)

= P( Y | X )=

Supp( X ∪ Y )
Supp ( X )

Có th đ nh nghĩa ñ tin c y như sau:
Đ tin c y c a m t lu t k t h p X→Y là t l gi a s lư ng các b n ghi
c a t p h p ch a X ∪ Y, so v i t ng s các b n ghi ch a X.
Vi c khai thác các lu t k t h p t cơ s d li u chính là vi c tìm t t c c các
lu t có đ h tr và đ tin c y do ngư i s d ng xác ñ nh trư c. Các
ngư ng c a ñ h tr và ñ tin c y ñư c ký hi u là minsup, minconf và do
ngư i dùng xác ñ nh.
Vi c khai thác các lu t k t h p có th đư c phân tích thành hai v n đ :
1. Tìm t t c các t p m c thư ng xuyên x y ra mà có ñ h tr l n
hơn ho c b ng minsup.

2. T o ra các lu t mong mu n s d ng các t p m c l n mà có đ tin
c y l n hơn ho c b ng minconf.
Đ nh nghĩa 4: Đ quan tr ng
Đ quan tr ng (importance) c a lu t X→Y, ký hi u Imp(X→Y), ñư c xác
ñ nh b i t s gi a Conf(X→Y) và Conf( X →Y) .


- 11 Imp(X →Y)

= lg(

Conf (Y → X )
P( X | Y )
) = lg(
)
Conf (Y → X )
P( X ) | Y )

Trong tính tốn, ta thư ng đưa t s này vào lơgarit đ đ quan tr ng có giá
tr xung quanh 0.
1.2.2.2. M t s hư ng ti p c n trong khai phá lu t k t h p
1.2.2.3. M t s thu t toán phát hi n lu t k t h p
1.3. THU T TOÁN PHÂN L P V I CÂY QUY T Đ NH
1.3.1. Đ t v n ñ
Gi s doanh nghi p ñã ñưa ra m t s tiêu chí ñ phân lo i khách hàng là
VIP ho c khơng VIP: có kh i lư ng giao d ch trung bình m i tháng đ t t
3,000,000 VND tr lên, có t n su t giao d ch trung bình 10 l n m i tháng.
V n ñ ñ t ra c a doanh nghi p là c n xác ñ nh các đ c trưng chung c a
nhóm khách hàng VIP, ñ t ñó làm cơ s d báo v m t khách hàng (m i)
có ti m năng tr thành khách hàng VIP hay không. Trong b ng trên, các

thu c tính đã đư c r i r c hóa theo cách:
Tu i: B ng 1 n u tu i nh hơn 25, b ng 2 n u tu i t 25 ñ n 40, b ng 3 n u
tu i l n hơn 40.
Gi i tính: B ng 1 n u là n , b ng 0 n u là nam,
Thu nh p: B ng 1 n u thu nh p ít hơn 30 tri u VND/năm, b ng 2 n u t 30
tri u VND ñ n 50 tri u VND/năm, b ng 3 n u trên 50 tri u VND/năm,
Tình tr ng hơn nhân: B ng 0 n u chưa l p gia đình, b ng 1 n u ngư c l i.
1.3.2. M t s ñ nh nghĩa
Cho b ng d li u A g m n dịng v i các thu c tính: (X1, X2, ..., XN, Y), trong
đó Y là thu c tính output (thu c tính c n d báo) và X1, X2, ..., XN là các
thu c tính input.
Gi s Y đã ñư c r i r c hóa thành k giá tr là y1, y2, ..., yk (nghĩa là giá tr t i
Y c a m t dòng b t kỳ trong A ph i là m t trong các y1, y2, ..., yk). G i n y1 là
s dòng trong b ng A th a ñi u ki n Y = y1, ký hi u tương t cho n y 2 , ...,
n y k . Đương nhiên ta có các n y i ph i l n hay b ng 0 và ( n y1 + n y 2 + ...+
n y k )= n.

- 12 Đ nh nghĩa 1: Đ phân tán thông tin c a b ng A là m t giá tr trong kho ng
t 0 ñ n 1, ñư c tính b i:

I( n y ,
1



ny2

, ...,

nyk


)

n y1
n y1 + n y 2 + ... + n y k


=

log k

n y2
n y1 + n y 2 + ... + n y k

n y1
n y1 + ny 2 + ... + n y k

log k

n y2
n y1 + n y 2 + ... + n y k
...



n yk
n y1 + n y2 + ... + n yk

log k


n yk
n y1 + n y2 + ... + n yk

Trong đó, ta qui ư c logk0=0.
Nh n xét:
- Hàm I khơng thay đ i giá tr khi ta hốn v các n y i .
- Hàm I đ t giá tr l n nh t (b ng 1) khi n y1 = n y 2 = ... = n y k ,
nghĩa là các dòng trong b ng A ñư c phân tán ñ u cho các trư ng h p
(r i r c) c a thu c tính output Y.
- Hàm I đ t giá tr nh nh t (b ng 0) khi có m t n y i nào đó b ng
n (t ng s dịng c a b ng A), và ñương nhiên là các n y i còn l i ph i
b ng 0. Khi đó, ta nói r ng b ng A khơng phân tán thơng tin gì c , và
cũng có nghĩa là b ng A khơng có gì đ d báo.
Đ nh nghĩa 2: G i n y m là m t giá tr l n nh t trong các n y1 , n y 2 , ..., n y k ,
khi đó ta g i ym là giá tr tr i c a thu c tính output Y; đ tin c y c a lu t
1→(Y=ym) ñư c g i là ñ tr i output c a b ng A.
Nh n xét: Conf(1→(Y=ym)) =

n ym
n

.

Đ nh nghĩa 3: G i X là m t thu c tính input c a b ng A, gi s X ñã ñư c
r i r c hóa thành m giá tr x1, x2, ..., xm. Phép tách A d a vào thu c tính X,
ký hi u là TX, t o thành m b ng con c a A:


- 13 TX = {A1, A2, ..., Am}, trong đó:
- A1, A2, ..., Am t omthành m t phân ho ch trên A, nghĩa là Ai∩Aj = ∅, ∀i, j

=1,2,...,m, i ≠ j và
Ai = A .
i =1
- Ai là t p h p các dịng trong A có giá tr t i X là xi, nghĩa là Ai = {t∈A|t.X =
xi}, ∀i = 1, 2, ..., m.
Đ nh nghĩa 4: G i TX là m t phép tách như trong ñ nh nghĩa 2. V i m i i t
A
1 ñ n m, g i n y1i là s dịng trong b ng Ai th a đi u ki n Y = y1, ký hi u

U

A

A

tư ng t cho n y 2i , ..., n y ki .
Đ phân tán thông tin c a phép tách TX , ký hi u E(TX), là m t giá tr t 0
ñ n 1, đư c tính b i:
 k Ai

 ∑ ny j

m
 j =1
Ai Ai
Ai 
E(TX) =
∑  k × I (ny1 ny2 ,..., nyk ) 
i =1
 ∑ ny j


 j =1

Trong đó:
A
- n y ij là s dịng trong b ng Ai th a ñi u ki n Y=yj.
-

k

∑ n là s dòng c a b ng Ai.
j =1

-

Ai
yj

k

∑ n là s dòng c a b ng A.
j =1

yj

A

A

A


- I (n y1i n y2i ,..., n yki ) là đ phân tán thơng tin c a b ng A.
M t phép tách TX ñư c g i là “t t” khi các b ng con Ai t o thành có đ phân
tán thơng tin th p, hay nói theo nghĩa c a phương pháp gom c m, các b ng
con Ai là các c m có đa s ph n t (dịng) có giá tr t i Y gi ng nhau. T đó,
phép tách TX là t t khi E(TX) th p, và ngư c l i.
1.3.3. Thu t toán
Input:
- B ng d li u A g m n dịng v i các thu c tính (X1, X2, ..., XN, Y),
trong đó Y là thu c tính Output (thu c tính c n d báo) và X1, X2, ..., XN là
các thu c tính input. T t c thu c tính c a A đ u có giá tr r i r c.

- 14 - w: ngư ng ñ tin c y ch p nh n ñư c.
Output:
- Cây quy t đ nh.
CHƯƠNG 2: PHÂN TÍCH THI T K H TH NG QU N LÝ
BÁN HÀNG T I CƠNG TY DƯ C TW3
2.1. PHÁT BI U BÀI TỐN
2.1.1. Đ nh nghĩa bài toán
Th trư ng cung c p dư c ph m, các thi t b y t ngày càng phát
tri n m nh m , các công ty kinh doanh v lĩnh v c này liên t c đưa ra
các s n ph m, các hình th c kinh doanh m i nh m thu hút ngư i tiêu
dùng. Đ cơng ty có th t n t i, phát tri n và c nh tranh trên th trư ng
đư c thì c n ph i đưa ra nh ng nh n ñ nh k p th i, ngư i qu n lý có
cách nhìn t ng th v cách th c ñ u tư v m t hàng nào nh m ñáp ng
ñúng yêu c u c a khách hàng và có hư ng đ u tư ñúng ñ n.
V i m c ñích phát tri n công ty thành m t nhà cung c p dư c
ph m có quy mơ l n thì vi c ng d ng công ngh thông tin vào công
tác qu n lý là s l a ch n hàng ñ u c a nhà qu n lý. Ph m vi ng d ng
và vai trị c a cơng ngh thơng tin trong công tác qu n lý là r t l n,

nhưng vì th gian và đi u ki n cịn h n ch nên tơi ch n m t khía c nh
nh trong cơng tác qu n lý đó là xây d ng h h tr khai phá d li u
d a trên các thông tin giao d ch trên hóa đơn, h tr cho ngư i qu n lý
đưa ra nh ng nh n đ nh mang tính ch t chi n lư c trong kinh doanh.
Bên c nh đó, lu n văn cịn có th đáp ng m t s ch c năng giúp nhà
qu n lý có th xem và đánh giá thơng qua các danh m c khách hàng,
các hóa đơn bán l hàng ngày, các hàng hóa có trong kho, tính đư c
doanh thu, l i nhu n qua các tháng… Gi i quy t ñư c m t s tác
nghi p và ñi u quan tr ng là ng d ng khai phá d li u lu t k t h p ñ
ñưa ra các quy t đ nh, nó bao g m nhi u b ng th ng kê mang tính ch t
nh n đ nh, giúp ta có cách nhìn t ng quan v d li u, d đốn ra các
quy lu t đ qua đó ki m ch ng l i nh ng nh n ñ nh này.


- 16 -

- 15 Khai phá m i quan h v l i nhu n c a các lo i hàng có trong
hóa đơn, d đốn k t qu nh hư ng c a các lo i hàng này như th nào?
Khách hàng li u có thói quen mua hàng này hay khơng? T các quy lu t
đó, ta đánh giá và ki m ñ nh l i ñ tin c y có chính xác khơng? Có đư c
nh n ñ nh ñúng s d dàng giúp nhà kinh doanh tìm ra hư ng đ u tư
cho các lo i m t hàng đư c t t nh t.
Bài tốn c th ñư c nêu ra ñây là: ng d ng khai phá d li u,
c th là d a vào thu t toán phân l p v i cây quy t đ nh đ tìm lu t k t
h p tin c y d a trên mã các lo i hàng và d a trên doanh thu c a các lo i
hàng ñ ñưa ra nh ng ñánh giá, nh ng nh n ñ nh v s nh hư ng c a
các lo i hàng ñ n doanh thu và l i nhu n c a công ty.
2.1.2. Qui trình bán hàng
H th ng bán hàng đư c th c hi n theo m t qui trình như sau:
- B ph n trình dư c viên gi i thi u danh m c hàng hóa đ n cho

khách hàng.
- Khách hàng ch n các m t hàng c n mua (hay cịn g i là đ t hàng).
- B ph n trình dư c viên g i yêu c u ñ t mua ñ n cho b ph n qu n
lý bán hàng.
- B ph n qu n lý bán hàng g i yêu c u ñ t mua ñ n cho b ph n
qu n lý v t tư (kho). B ph n v t tư h i ñáp cho bi t danh m c m t
hàng khách hàng đ t mua có t n kho hay khơng.
- N u kho v t tư còn hàng, b ph n qu n lý bán hàng yêu c u b
ph n qu n lý kho xu t kho (l p phi u xu t kho) và yêu c u b ph n
tài chính l p phi u thu ti n khách hàng.
- N u khách hàng yêu c u mua hàng tr ch m thì b ph n qu n lý bán
hàng g i u c u cơng n đ n b ph n qu n lý công n , n u đư c b
ph n qu n lý cơng n ch p nh n thì b ph n qu n lý bán hàng s tra
s công n khách hàng, thêm m c n m i ñ ng th i yêu c u b ph n
qu n lý v t tư đánh d u chưa thanh tốn vào phi u xu t kho.

2.2. PHÂN TÍCH THI T K
2.2.1. Cơ s d li u
Ký hi u ch vi t :
P: Primary key (khố chính)
U: Unique key, candidate key (khố ch đ nh)
M : Mandatory (khơng đư c r ng)
L : Locked (khơng cho phép s a đ i giá tr )
- Lo i th c th Ngư i dùng (NguoiDung)
Thu c tính

Kích thư c

P


U

M

L

Tennguoidung

nvarchar

50

x

x

x

x

Matkhau

nvarchar

50

x

Vaitro


-

Ki u

int

4

x

Lo i th c th Khách hàng (KhachHang)
Thu c tính

Kích thư c

P

U

M

L

Makh

nvarchar

10

x


x

x

x

Tenkh

nvarchar

50

x

Diachi

nvarchar

50

x

DienThoai

-

Ki u

nvarchar


50

x

Lo i th c th Hóa đơn (HoaDon)
Thu c tính

Kích thư c

P

U

M

L

Mahd

nvarchar

10

x

x

x


x

Makh

nvarchar

50

x

Ngaylap

datetime

8

x

Tonggiatri

-

Ki u

float

10

x


Lo i th c th Hàng hóa (HangHoa)
Thu c tính

Ki u

Kích thư c

P

U

M

L

Mahang

nvarchar

10

x

x

x

x

Tenhang


nvarchar

50

x

Dongia

float

10

x

Soluong

int

10

x


- 17 Maloai

-

nvarchar


- 18 -

10

Lo i th c th Lo i hàng (LoaiHang)
Thu c tính

Ki u

Kích thư c

P

U

M

L

Maloai

nvarchar

10

x

x

x


x

Tenloai

-

nvarchar

50

x

Lo i th c th Các tháng (CacThang)
Thu c tính

Ki u

Kích thư c

Thang

Int

P

U

M


4

L

x

D li u Các tháng bao g m 12 tháng trong năm.
- S k t h p Chi ti t hóa ñơn (ChiTietHoaDon)
Thu c tính

Ki u

Kích thư c

P

U

M

L

Mahd

nvarchar

10

x


x

x

x

Mahang

nvarchar

10

x

x

x

x

Soluong

int

10

x

Dongia


float

10

x

Sơ ñ m i quan h c a các th c th

Hình 2.1. Mơ hình cơ s d li u

Xác đ nh các tác nhân
D a vào ph n đ nh nghĩa bài tốn, ta có th xác đ nh đư c các tác
nhân chính c a h th ng như sau:
TRÌNH DƯ C VIÊN: là ngư i gi i thi u các m t hàng, th c
hi n vi c mua hàng và g i các ñơn ñ t hàng cho ngư i qu n lý.
KHÁCH HÀNG: là ngư i giao d ch v i h th ng thơng qua các
đơn đ t hàng, khách hàng có th ch n l a các m t hàng mình mu n
thơng qua s gi i thi u c a trình dư c viên.
NGƯ I QU N LÝ: là ngư i ñi u hành, qu n lý và theo dõi m i
ho t ñ ng c a h th ng.
NGƯ I DÙNG: bao g m ngư i qu n lý, trình dư c viên và
nh ng khách hàng đã đư c c p nh t thơng qua các ñơn ñ t hàng. ng
v i m i thành viên s có nh ng ch c năng khác nhau nh m ph c v cho
công vi c c th cho t ng ñ i tư ng.
2.2.3. Xác ñ nh các UC, các gói UC và xây d ng bi u ñ UC chi ti t
2.2.4. Đ c t các Use Case
2.2.5. Xác ñ nh các l p th c th và các l p biên
2.2.6. Bi u ñ ho t đ ng c a các Use Case
2.2.7. Mơ hình hóa tương tác trong các Use Case: Bi u ñ tu n t
2.2.2.


x

CHƯƠNG 3: XÂY D NG CHƯƠNG TRÌNH VÀ TH C NGHI M
3.1. NGƠN NG L P TRÌNH
Ch n l p trình trên Window Form C# đ xây d ng chương trình
(dùng cơng c Microsoft Visual Studio 2008).
Cơ s d li u ch n là SQL – dùng phiên b n SQL Server 2005
Developer Edition ñ ti n cho công vi c khai phá d li u.
3.2. D LI U TH C T THU TH P ĐƯ C
- D li u ñư c thu th p th c t t i công ty dư c d a vào thơng
tin trên các hóa đơn. Thơng tin trên các hóa ñơn bao g m thông tin
khách hàng, lo i hàng, m t hàng, s lư ng, ñơn giá thu c bán ra. Bên


- 19 c nh đó, cịn thu th p thêm thơng tin s lư ng hi n có trong kho, ñơn
giá g c, d li u này giúp ngư i qu n lý có th n m b t đư c doanh thu
bán hàng, l i nhu n thu ñư c t các m t hàng bán ñư c.
- Khách hàng: D li u thông tin khách hàng bao g m kho ng
2160 khách hàng thư ng xuyên giao d ch v i công ty, b ng d li u
khách hàng bao g m mã khách hàng, tên khách hàng, ñ a ch và s ñi n
tho i c a khách hàng
- Hóa đơn: D li u Hóa đơn bao g m kho ng hơn 3.000 hóa đơn,
d li u hóa đơn bao g m mã hóa đơn, mã khách hàng, ngày l p hóa đơn
và t ng giá tr trên hóa đơn đó
- Chi ti t hóa đơn: D li u Chi ti t hóa đơn bao g m kho ng hơn
12.000 b ng ghi, d li u này bao g m mã hóa đơn, mã lo i hàng, s
lư ng và đơn giá m t hàngHàng hóa: D li u Hàng hóa bao g m
kho ng hơn 189 m t hàng, d li u này bao g m mã hàng, tên hàng, ñơn
giá, s lư ng và mã lo i hàng

- Lo i hàng: bao g m kho ng 82 lo i hàng, d li u này bao g m
mã lo i và tên lo i hàng ñư c th hi n màn hình bên dư i:

- 20 3.3. THI T K GIAO DI N CHƯƠNG TRÌNH
3.3.1. Form Đăng nh p
3.3.2. Giao di n chính
3.3.3. Ch c năng chính
3.3.3.1. Khai phá d li u theo mã lo i hàng

Hình 3.25. Giao di n Khai phá d li u d a theo lo i hàng hóa

Hình 3.26. K t qu sau khi khai phá d li u d a theo lo i hàng hóa


- 21 3.3.3.2.

Khai phá d li u các lo i hàng theo doanh thu

Hình 3.27. KPDL d a doanh thu bán các lo i hàng có doanh thu th p nh t

Hình 3.28. K t qu sau khi khai phá d li u mã lo i hàng có doanh thu
th p nh t
3.3.4. Ch c năng h tr
3.3.4.1. Danh m c khách hàng

Cho ta bi t đư c các thơng tin v khách hàng như Mã khách
hàng , Tên khách hàng, Đ a ch , Đi n Tho i..
3.3.4.2. Danh m c hóa đơn
Dùng đ qu n lý các hóa ñơn và chi ti t hóa ñơn c a t t c các


- 22 khách hàng , ta có th thêm xóa s a m t hóa đơn cho m t khách hàng
cũng như các chi ti t hóa đơn c a m t hóa đơn.
3.3.4.3. Danh m c s n ph m
Là m c ñ qu n lý t t c các lo i hàng hóa và các hàng hóa có
trong lo i hàng đó , cũng có ch c năng thêm xóa s a m t lo i hàng m i
ho c 1 s n ph m m i.
3.3.4.4. Th ng kê giao d ch
3.3.4.5. Qu n lý doanh thu
M c Qu n Lý Doanh Thu này hi n th cho ta th y ñư c t t c các
Hóa Đơn và Danh sách các Chi Ti t Hóa Đơn c a Hóa Đơn đó trong
kho ng th i gian c th .T đó tính đư c các Doanh Thu & L i Nhu n
trong kho ng th i gian các tháng ho c năm .T ng m t hàng , lo i hàng
ñã bán ñem l i l i nhu n và dannh thu ra sao trong kho ng th i gian đó
ho c năm đó.
3.3.4.6. Tình hình bi n đ ng giá
M i lo i hàng hóa đem l i cho ta doanh thu khác nhau , th ng kê
ñư c các bi n ñ ng v giá c a chúng ta s có cái nhìn t ng quan hơn
các m t hàng trong siêu th c n ñư c ñ u tư : Ta th ng kê các lo i hàng
có đ l ch chu n theo doanh thu trong năm.
3.4. K T QU TH NGHI M VÀ NH N XÉT
K t qu khai phá lu t k t h p b ng k thu t phân l p v i cây quy t
ñ nh trên b ng doanh thu g m 352 giao d ch, m i giao d ch g m có 6
thu c tính.
K t qu đ t đư c ng v i 5 mã lo i hàng l n lư t 1, 2, 3, 4, 5 như
sau :
Ngư ng tin c y cho
S giao
S lu t thu
STT
trư c

d ch
ñư c
1
0.6
352
12
2
0.7
352
47
3
0.8
352
59
4
0.9
352
67


- 23 -

- 24 -

R i r c các thu c tính trong b ng trên theo phương th c sau :
- Các lo i hàng : lo i hàng 1, lo i hàng 2, lo i hàng 3,... ñư c r i
r c theo trung bình doanh thu
- N u là 0: doanh thu b ng 0
- N u là 1: có doanh thu th p hơn m c trung bình doanh thu
- N u là 2: có doanh thu cao hơn m c trung bình doanh thu

- L i nhu n:
- N u là 1: l i nhu n th p hơn m c trung bình l i nhu n.
- N u là 2: l i nhu n cao hơn m c trung bình l i nhu n.
- B ng k t qu sau khi ñã r i r c các thu c tính s đư c xu t ra
file excel t i Sheet1.
- Gi s ta cho m t ngư ng tin c y cho trư c là 0.6, và th
nghi m v i 5 lo i m t hàng l n lư t như sau: 1, 2, 3, 4, 5 v i s giao
d ch là 340 ta s có nh ng t p lu t như sau:
- N u mã lo i hàng 5 có doanh thu b ng 0 và mã lo i hàng 1 có
doanh thu th p hơn m c trung bình doanh thu thì khi đó l i nhu n thu
đư c có th s cao hơn m c trung bình l i nhu n.
- N u mã lo i hàng 5 có doanh thu b ng 0 và mã lo i hàng 1 có
doanh thu cao hơn m c trung bình doanh thu thì khi đó l i nhu n thu
đư c s th p hơn m c trung bình trung bình l i nhu n.
- N u mã lo i hàng 1, mã lo i hàng 3, mã lo i hàng 5 có doanh
thu đ ng th i b ng 0 thì khi đó l i nhu n thu ñư c s cao hơn m c
trung bình l i nhu n.
- N u mã lo i hàng 1, mã lo i hàng 5 có doanh thu đ ng th i
b ng 0 và mã lo i hàng 3 có doanh thu th p hơn m c trung bình doanh
thu thì khi đó l i nhu n thu đư c s th p hơn m c trung bình l i nhu n.
- N u mã lo i hàng 5 có doanh thu th p hơn m c trung bình
doanh thu thì l i nhu n thu đư c s có th th p hơn m c trung bình l i
nhu n.

- N u mã lo i hàng 5 có doanh thu cao hơn m c trung bình
doanh thu và mã lo i hàng 4 có doanh thu có doanh thu b ng 0 thì l i
nhu n thu đư c s có th cao hơn m c trung bình l i nhu n.
- N u mã lo i hàng 5 có doanh thu cao hơn m c trung bình
doanh thu và mã lo i hàng 4 có doanh thu th p hơn m c trung bình
doanh thu thì khi đó l i nhu n thu đư c s có th th p hơn m c trung

bình l i nhu n.
- N u mã lo i hàng 4 và mã lo i hàng 5 đ ng th i có doanh thu
cao hơn m c trung bình doanh thu và mã lo i hàng 2 có doanh thu b ng
0 thì l i nhu n thu đư c khi đó có th s cao hơn m c trung bình l i
nhu n.
- N u mã lo i hàng 4, mã lo i hàng 5 đ ng th i có doanh thu cao
hơn m c trung bình doanh thu và mã lo i hàng 1, mã lo i hàng 2 ñ ng
th i có doanh thu th p hơn m c trung bình doanh thu thì khi đó l i
nhu n thu đư c s có th th p hơn m c trung bình l i nhu n.
- N u mã lo i hàng 2, mã lo i hàng 4, mã lo i hàng 5 đ ng th i
có doanh thu cao hơn m c trung bình doanh thu và mã lo i hàng 3 có
doanh thu th p hơn m c trung bình doanh thu thì khi đó l i nhu n thu
đư c có th s cao hơn m c trung bình l i nhu n.
- N u mã lo i hàng 2, mã lo i hàng 3, mã lo i hàng 4, mã lo i
hàng 5 ñ ng th i có doanh thu cao hơn m c trung bình doanh thu và mã
lo i hàng 1 có m c doanh thu th p hơn m c trung bình doanh thu thì
khi đó l i nhu n thu đư c s th p hơn m c trung bình l i nhu n.
- N u mã lo i hàng 1, mã lo i hàng 2, mã lo i hàng 3, mã lo i
hàng 4, mã lo i hàng 5 ñ ng th i có doanh thu cao hơn m c trung bình
doanh thu thì khi đó l i nhu n thu đư c s cao hơn m c trung bình l i
nhu n.
NH N XÉT
- Qua các l n ch y th mơ hình, ta th y Conf = 1 b t c m i
giá tr , ch ng t ñ tin c y c a các lu t là t t. Bên c nh đó đ


- 25 -

-


ph bi n cũng chênh l ch trong m t kho ng các giá tr xác ñ nh
cho th y m c ñ dao ñ ng gi a các lu t khơng cao, có th ch p
nh n ñư c nhi u lu t cùng m t lúc.
Càng tăng ch s đ tin c y thì s lu t cũng thay đ i khơng
đáng k nên ch ng t r ng các lu t ñ u ñã mang tính ch t liên
k t nhau cao. Ta th y có m t s lu t ln xu t hi n các mơ
hình ch y th mà ta có th tin tư ng ñư c.

- 26 K T LU N
1. Đánh giá k t qu
- V m t lý thuy t: Nghiên c u ki n th c v khai phá tri th c và
khai phá d li u, các thu t tốn tìm lu t k t h p như: Apriori, AprioriTIP, Apriori-Hybrid, FP-Growth, phân l p v i cây quy t đ nh. Cài
đ t thu t tốn tìm lu t k t h p b ng phương pháp phân l p v i cây
quy t ñ nh.
- V m t ng d ng: Xây d ng ñư c h th ng h tr ñưa ra các
quy t ñ nh ph c v cho công tác qu n lý thông qua vi c khai phá d
li u d a trên lo i hàng và doanh thu lo i hàng có cơng ty.
2. H n ch
- Ch m i minh h a h th ng trên cơ s d li u c a công ty
TNHH MTV Dư c TW3, chưa minh h a trên nhi u cơ s d li u khác.
- H th ng cịn đơn gi n, chưa có nhi u ch c năng thi t th c giúp
ph c v hi u qu công tác qu n lý c a công ty.
3. Hư ng phát tri n
- Ti p t c hồn thi n đ tài, xây d ng h th ng nhi u ch c năng
hơn, dùng thu t toán phân l p v i cây quy t ñ nh th nghi m và ñánh
giá k hơn trên cơ s d li u l n hơn và cơ s d li u khác.
- Đưa thêm các phương pháp khai phá d li u khác vào vi c phân
tích mơ hình, như gom c m đ phân l p d li u đ t đó có th phân
tích d li u chính xác hơn và đưa ra nh ng lu t có đ tin c y cao hơn.
- Khai phá d li u trên kho d li u v i các lu t k t h p đa chi u,

nhi u m c.
- Tìm hi u công c h tr hi n th k t qu thu t tốn d ng đ
h a như đ th , bi u ñ , …



×