Tải bản đầy đủ (.pdf) (32 trang)

CÔNG NGHỆ TRI THỨC VÀ BÀI TOÁN KHAI PHÁ DỮ LIỆU TRONG KINH DOANH VỚI MICROSOFT TIME SERIES ALGORITHM

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.7 MB, 32 trang )

Chuyên đề: Công nghệ tri thức và ứng dụng GVPT: GS. TSKH Hoàng Kiếm



Trang 1/32

















ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN



Họ và tên: TRẦN THỊ KIỀU DIỄM
Mã HV: CH1101074 Lớp CH6




CÔNG NGHỆ TRI THỨC VÀ BÀI TOÁN KHAI PHÁ DỮ
LIỆU TRONG KINH DOANH VỚI MICROSOFT TIME
SERIES ALGORITHM

Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60 48 01.01



KHÓA LUẬN TỐT NGHIỆP THẠC SĨ
CHUYÊN ĐỀ CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG





TP. Hồ Chí Minh, Năm 2013


Chuyên đề: Công nghệ tri thức và ứng dụng GVPT: GS. TSKH Hoàng Kiếm



Trang 2/32






























ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN






Họ và tên: TRẦN THỊ KIỀU DIỄM
Mã HV: CH1101074 Lớp CH6





CÔNG NGHỆ TRI THỨC VÀ BÀI TOÁN KHAI PHÁ DỮ
LIỆU TRONG KINH DOANH VỚI MICROSOFT TIME
SERIES ALGORITHM


Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60. 48. 01.01







GVPT: GS.TSKH. Hoàng Kiếm








TP. Hồ Chí Minh, Năm 2013
Chuyên đề: Công nghệ tri thức và ứng dụng GVPT: GS. TSKH Hoàng Kiếm



Trang 3/32
MỤC LỤC

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT 4
DANH MỤC CÁC HÌNH VẼ 5
MỞ ĐẦU 6
1. PHÁT BIỂU VẤN ĐỀ NGHIÊN CỨU: 6
2. Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN: 6
3. TỔNG LƯỢC KẾT QUẢ ĐÃ CÓ: 6
PHẦN 1. CÔNG NGHỆ TRI THỨC VÀ VAI TRÒ 7
1.1. KHÁI NIỆM CÔNG NGHỆ TRI THỨC 7
1.2. VAI TRÒ CỦA CÔNG NGHỆ TRI THỨC 7
PHẦN 2. KHAI PHÁ DỮ LIỆU VÀ CÁC GIẢI THUẬT KHAI PHÁ DỮ LIỆU 8
2.1. ĐỊNH NGHĨA KHAI PHÁ DỮ LIỆU 8
2.2 Ý NGHĨA THỰC TẾ CỦA KHAI PHÁ DỮ LIỆU 9
2.3 KIẾN TRÚC ĐIỂN HÌNH CỦA KHAI PHÁ DỮ LIỆU 10
2.4 CÁC CHỨC NĂNG CHÍNH CỦA KHAI PHÁ DỮ LIỆU 10
2.4.1 Mô tả khái niệm (concept description) 10
2.4.2 Luật kết hợp (association rules) 10
2.4.3 Phân lớp và dự đoán (classification & prediction) 10
2.4.4 Phân cụm (clustering) 11
2.5 NHỮNG KHÓ KHĂN TRONG KHAI PHÁ DỮ LIỆU 11
2.6 MỘT SỐ GIẢI THUẬT TRONG KHAI PHÁ DỮ LIỆU 11
PHẦN 3. DATAMINING VỚI CÔNG CỤ BUSINESS INTELLIGENCE DEVELOPMENT STUDIO (BIDS) CỦA
MICROSOFT SQL SERVER 2008 13

3.1 ĐỊNH NGHĨA BIDS 13
3.2 CÁC BƯỚC LÀM VIỆC VỚI BIDS 13
PHẦN 4. SỬ DỤNG MÔ HÌNH KHAI PHÁ DỮ LIỆU MICROSOFT TIME SERIES ĐỂ DỰ ĐOÁN TÌNH HÌNH KINH
DOANH CỦA CÔNG TY LOCK&LOCK VIỆT NAM 17
4.1 GIỚI THIỆU MÔ HÌNH KHAI PHÁ DỮ LIỆU MICROSOFT TIME SERIES 17
4.2 PHÁT BIỂU BÀI TOÁN ỨNG DỤNG 18
4.3 XỬ LÝ DỮ LIỆU THÔ 19
4.3.1.Làm sạch và tích hợp dữ liệu 19
4.3.2 Trích chọn và chuyển đổi dữ liệu 19
4.4 TIẾN TRÌNH KHAI PHÁ DỮ LIỆU 20
4.4.1 Tạo mới DB 20
4.4.2 Tạo Project trong BIDS 20
4.4.3 Tạo mô hình khai phá Microsoft Time Series trong project 21
4.4.4 Cài đặt ứng dụng kết nối tới SQL trong C# 27
TÀI LIỆU THAM KHẢO 32

Chuyên đề: Công nghệ tri thức và ứng dụng GVPT: GS. TSKH Hoàng Kiếm



Trang 4/32
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT

Số TT
Từ
Viết đầy đủ
1.
KDD
Knowleadge Discovery in Database
2.

ANN
Artificial Neural Network
3.
BIDS
Business Intelligence Development Studio
4.
DS
Data Source
5.
DSV
Data Source View
6.
DB
Database
Chuyên đề: Công nghệ tri thức và ứng dụng GVPT: GS. TSKH Hoàng Kiếm



Trang 5/32
DANH MỤC CÁC HÌNH VẼ

(Hình 1. Mô hình minh họa quá trình xử lý dữ liệu cho ra tri thức) 7
(Hình 2. Kiến trúc điển hình của khai phá dữ liệu) 10
(Hình 3. Thao tác kết nối với SQL server) 13
(Hình 4. Thao tác tạo mới DB) 14
(Hình 5. Thao tác Import dữ liệu vào Database) 14
(Hình 6. Thao tác tạo mới project) 15
(Hình 7. Thao tác tạo mới DS) 15
(Hình 8. Thao tác tạo mới DSV) 16
(Hình 9. Thao tác tạo mới Mining Structures) 16

(Hình 10. Thao tác tạo DB cho ứng dụng) 20
(Hình 11. Thao tác tạo Data Source và kiểm tra kết nối) 21
(Hình 12. Thao tác chọn Table đƣa vào DSV) 21
(Hình 13. Thao tác chọn DSV để khai phá) 22
(Hình 14. Thao tác chọn các thuộc tính để khai phá) 23
(Hình 15. Mô hình khai phá Time Series dạng charts) 24
(Hình 16. Mô hình khai phá Time Series dạng charts cho thuộc tính QTY) 25
(Hình 17. Xem dữ liệu QTY mô hình khai phá Time Series) 26
(Hình 18. Mô hình khai phá Time Series dạng Trees) 26
(Hình 19. Xem dữ liệu mô hình khai phá Time Series) 27
(Hình 20. Giao diện chƣơng trình minh họa dữ liệu khai phá) 30

Chuyên đề: Công nghệ tri thức và ứng dụng GVPT: GS. TSKH Hoàng Kiếm



Trang 6/32
MỞ ĐẦU
1. Phát biểu vấn đề nghiên cứu:
Sự ra đời của máy tính điện tử và sự phát triển vƣợt bậc của ngành công
nghiệp máy tính cùng với nhu cầu của con ngƣời đối với máy tính ngày một cao
hơn, ngoài những công việc tính toán thông thƣờng, ngƣời ta còn mong đợi máy
tính có khả năng xử lí thông minh hơn, giải quyết những công việc giống nhƣ con
ngƣời. Trong bài báo cáo này em xin trình bày những khái niệm chung nhất về
định nghĩa và vai trò của công nghệ tri thức và một ứng dụng thực tế về lĩnh vực
khai phá dữ liệu để dự đoán tình hình kinh doanh của công ty dựa vào dữ liệu đã
có trong năm trƣớc.
2. Ý nghĩa khoa học và thực tiễn:
Quá trình khai phá dữ liệu – Data Mining, đây là một quá trình khám phá
tri thức tiềm ẩn từ nguồn dữ liệu đã có, là tiến trình khái quát các sự kiện rời rạc

trong dữ liệu thành các tri thức mang tính khái quát, tính quy luật hỗ trợ cho các
tiến trình ra quyết định.
3. Tổng lược kết quả đã có:
Hiện các nhà nghiên cứu đã phát triển các phƣơng pháp, kỹ thuật và phần
mềm hỗ trợ tiến trình khai phá dữ liệu, với một số các kỹ thuật này ta tìm ra đƣợc
những tri thức mới, từ đó ứng dụng vào thực tế phục vụ cho nhu cầu cần thiết của
con ngƣời.
Em xin chân thành cảm ơn thầy GS.TSKH. Hoàng Kiếm đã tận tình
giảng dạy giúp em hoàn thành tốt bài báo cáo này.

Chuyên đề: Công nghệ tri thức và ứng dụng GVPT: GS. TSKH Hoàng Kiếm



Trang 7/32
PHẦN 1. CÔNG NGHỆ TRI THỨC VÀ VAI TRÒ
1.1. Khái niệm công nghệ tri thức
- Khái niệm tri thức: tri thức là kết quả của quá trình nhận thức, học tập và
lập luận, tri thức khác với thông tin và dữ liệu ở chỗ tri thức cho ta cách giải quyết
một vấn đề hay giải pháp để thực hiện một công việc nào đó.
- Khái niệm công nghệ tri thức: Công nghệ tri thức là những phƣơng pháp,
kĩ thuật dùng để
 Tiếp nhận, biểu diễn tri thức.
 Xây dựng các hệ cơ sở tri thức.
 Khai phá tri thức từ dữ liệu đã có (khai phá dữ liệu).
1.2. Vai trò của công nghệ tri thức
- Công nghệ tri thức đóng vai trò hết sức quan trọng trong việc phát triển
Công nghệ thông tin, nâng cao sự hữu dụng của máy tính, giúp con ngƣời gần gũi
với máy tính hơn.
- Công nghệ tri thức còn góp phần thúc đẩy nhiều ngành khoa học khác

phát triển, khả năng phát triển khoa học dựa trên tri thức liên ngành…
- Mô hình minh họa








(Hình 1. Mô hình minh họa quá trình xử lý dữ liệu cho ra tri thức)
Từ tập dữ liệu Inputs, các hệ cơ sở tri thức đƣợc cài đặt trong máy tính sẽ giúp tìm đƣợc
output cần thiết, đó chính là các tri thức hoàn toán mới đƣợc rút ra từ tập dữ liệu Inputs

MÁY TÍNH
TIẾP NHẬN, BIỂU
DIỄN, TỐI ƢU HÓA
CSTT
CÁC HỆ
CƠ SỞ TRI THỨC
KHAI THÁC DỮ
LIỆU, KHÁM PHÁ
TRI THỨC
Inputs
Outputs
Chuyên đề: Công nghệ tri thức và ứng dụng GVPT: GS. TSKH Hoàng Kiếm



Trang 8/32

PHẦN 2. KHAI PHÁ DỮ LIỆU VÀ CÁC GIẢI THUẬT KHAI PHÁ DỮ LIỆU
2.1. Định nghĩa khai phá dữ liệu
- Khai phá dữ liệu (hay data mining) là tiến trình khám phá tri thức tiềm ẩn
trong các cơ sở dữ liệu, cụ thể hơn đó là tiến trình trích lọc, sản sinh những tri
thức bị che giấu trong một khối dữ liệu khổng lồ. Có nhiều thuật ngữ hiện đƣợc
dùng cũng có nghĩa tƣơng tự với từ Datamining nhƣ Knowledge Mining (khai phá
tri thức), knowledge extraction (chắt lọc tri thức), data/patern analysis (phân tích
dữ liệu/mẫu), data archaeoloogy (khảo cổ dữ liệu), datadredging (nạo vét dữ
liệu)
- Khai phá dữ liệu là tiến trình khái quát các sự kiện rời rạc trong kho dữ
liệu thành các tri thức mang tính khái quát, tính quy luật hỗ trợ tích cực cho các
tiến trình ra quyết định.
- Khai phá dữ liệu là một bƣớc trong bảy bƣớc của quá trình KDD
(Knowleadge Discovery in Database) và KDD đƣợc xem nhƣ 7 quá trình khác
nhau theo thứ tự sau:
 Làm sạch dữ liệu (data cleaning & preprocessing): Loại bỏ nhiễu và
các dữ liệu không cần thiết.
 Tích hợp dữ liệu (data integration): quá trình hợp nhất dữ liệu thành
những kho dữ liệu (data warehouses & data marts) sau khi đã làm
sạch và tiền xử lý (data cleaning & preprocessing).
 Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ những kho
dữ liệu và sau đó chuyển đổi về dạng thích hợp cho quá trình khai
thác tri thức. Quá trình này bao gồm cả việc xử lý với dữ liệu nhiễu
(noisy data), dữ liệu không đầy đủ (incomplete data), .v.v.
 Chuyển đổi dữ liệu: Các dữ liệu đƣợc chuyển đổi sang các dạng phù
hợp cho quá trình xử lý
Chuyên đề: Công nghệ tri thức và ứng dụng GVPT: GS. TSKH Hoàng Kiếm




Trang 9/32
 Khai phá dữ liệu (data mining): Là một trong các bƣớc quan trọng
nhất, trong đó sử dụng những phƣơng pháp thông minh để chắt lọc
ra những mẫu dữ liệu.
 Ƣớc lƣợng mẫu (knowledge evaluation): Quá trình đánh giá các kết
quả tìm đƣợc thông qua các độ đo nào đó.
 Biểu diễn tri thức (knowledge presentation): Quá trình này sử dụng
các kỹ thuật để biểu diễn và thể hiện trực quan cho ngƣời dùng.
- Mục đích của việc khai phá dữ liệu không phải phát hiện mọi tri thức mà
là phát hiện những tri thức cần thiết phục vụ cho một nhiệm vụ đã đề ra. Ví dụ từ
cơ sở dữ liệu về các bệnh nhân bị tiểu đƣờng ngƣời ta tìm đƣợc những đặc điểm
mà có thể kết luận bệnh nhân nào đó có bị tiểu đƣờng hay không.
2.2 Ý nghĩa thực tế của khai phá dữ liệu
- Thực tế là chúng ta đang sở hữu một lƣợng dữ liệu khổng lồ nhƣng lại
nghèo tri thức và Data Mining ra đời nhƣ một lối đi cho việc tìm kiếm tri thức
hữu ích từ kho dữ liệu khổng lồ đó.
- Tổng quát nhất, datamining cho ta ba lợi ích sau: cung cấp hỗ trợ ra
quyết định, dự báo, khái quát dữ liệu từ tập dữ liệu thô.
- Những tri thức rút ra đƣợc ứng dụng vào nhiều lĩnh vực khác nhau trong
cuộc sống, cụ thể nhƣ một số ứng dụng sau:
 Text mining & Web mining: giúp phân loại văn bản, mail hay Web.
 Phân tích dữ liệu và hỗ trợ ra quyết định (data analysis & decision
support)
 Điều trị y học (medical treatment): giúp chuẩn đoán bệnh từ những
dấu hiệu đã đƣợc phát hiện.
 Tài chính và thị trƣờng chứng khoán (finance & stock market): dự
đoán sự tăng giảm tình hình tài chính và chỉ số chứng khoán.
Chuyên đề: Công nghệ tri thức và ứng dụng GVPT: GS. TSKH Hoàng Kiếm




Trang 10/32
 Nhận dạng (pattern recognition): giúp ích cho bài toán nhận dạng
ngƣời hay nhận dạng vân tay tội phạm, …
2.3 Kiến trúc điển hình của khai phá dữ liệu

(Hình 2. Kiến trúc điển hình của khai phá dữ liệu)
2.4 Các chức năng chính của khai phá dữ liệu
2.4.1 Mô tả khái niệm (concept description)
Là mô tả, tổng hợp và tóm tắt khái niệm, đƣợc ứng dụng trong việc
tóm tắt các văn bản dài dựa vào tần số xuất hiện một số từ trong văn bản.
2.4.2 Luật kết hợp (association rules)
Là khám phá ra các luật kết hợp trong một tập dữ liệu, các luật kết
hợp thể hiện mối quan hệ giữa các thuộc tính mà ta nhận thấy đƣợc từ tần suất
xuất hiện cùng với nhau, giúp ích cho lĩnh vực kinh doanh, y học,…
2.4.3 Phân lớp và dự đoán (classification & prediction)
Là quá trình tìm một tập các mô hình (hoặc các chức năng) mô tả và
phân biệt các lớp dữ liệu, đƣợc sử dụng cho mục đích dự đoán về lớp của một số
đối tƣợng. Mô hình này có thể đƣợc biểu diễn ở dạng luật IF-THEN, cây quyết
định hay mạng Nơron
Chuyên đề: Công nghệ tri thức và ứng dụng GVPT: GS. TSKH Hoàng Kiếm



Trang 11/32
2.4.4 Phân cụm (clustering)
Là việc sắp xếp các đối tƣợng theo từng cụm, các đối tƣợng trong
cùng một cụm có độ giống nhau cao nhất, hai cụm khác nhau có mức độ giống
nhau thấp nhất, ứng dụng cho bài toán vận chuyển cần ít chi phí.
2.5 Những khó khăn trong khai phá dữ liệu

 Dữ liệu cần khai phá thƣờng là dữ liệu có cấu trúc hoặc không có cấu
trúc nhất định, do đó khó khăn đầu tiên là quá trình tổ chức lại dữ liệu
theo một khuôn dạng nhất định.
 Sự bùng nổ về dữ liệu làm cho quá trình phát hiện ra các mẫu dữ liệu
hữu ích trong số đó cũng mất nhiều thời gian hơn, do đó đòi hỏi nhiều
hơn nữa các thuật toán giúp khai phá dữ liệu nhanh chóng.
 Dữ liệu thƣờng xuyên thay đổi theo thời gian và không ngừng gia tăng
về số lƣợng.
2.6 Một số giải thuật trong khai phá dữ liệu
2.6.1 Thuật toán Decision Tree (cây quyết định hay còn gọi là cây định
danh)
Cây định danh là cây đƣợc xây dựng dựa trên tập dữ liệu cho trƣớc mà
khi tiến hành duyệt cây ta có đƣợc tập các luật từ nó. Mỗi nút (node) của cây định
danh là một thuộc tính của tập dữ liệu, các nhánh đại diện cho luật kết hợp các
thuộc tính phân loại.
Giải thuật chính của cây quyết định là chia dữ liệu một cách đệ quy từ trên
xuống và theo cách thức chia để trị thành các tập hợp con.
- Ban đầu toàn bộ dữ liệu ở gốc,
- Chọn thuộc tính phân loại tốt nhất( mục đích làm tối thiểu hóa,
chẳng hạn tối thiểu chiều cao của cây).
Chuyên đề: Công nghệ tri thức và ứng dụng GVPT: GS. TSKH Hoàng Kiếm



Trang 12/32
- Dữ liệu đƣợc phân chia theo các trạng thái của thuộc tính đƣợc
chọn.
Lặp lại quá trình trên với tập dữ liệu ở mỗi nút vừa tạo ra. Điều kiện để
dừng phân chia là:
- Ở một nút tất cả phần tử của dữ liệu tại nút đó thuộc về cùng một

lớp.
- Không còn thuộc tính nào để thực hiện phân chia tiếp.
- Số lƣợng phần tử của dữ liệu tại một nút bằng không
2.6.2 Thuật toán Naive Bayes (phân loại)
Naïve Bayes là phƣơng pháp phân loại đối tƣợng thuộc vào một lớp
nào đó dựa vào xác suất. Thuật toán tính xác suất có điều kiện các trạng thái của
mỗi thuộc tính đầu vào với mỗi trạng thái của thuộc tính dự báo. Thuật toán này
chỉ hỗ trợ các thuộc tính có giá trị rời rạc và sẽ phát sinh lỗi nếu áp dụng cho các
thuộc tính có giá trị liên tục.
2.6.3 Thuật toán Clustering (gom cụm)
Phân cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu, nó thuộc
lớp các phƣơng pháp Unsupervised Learning trong Machine Learning. Phân cụm là
qui trình tìm cách nhóm các đối tƣợng đã cho vào các cụm (clusters), sao cho các đối
tƣợng trong cùng 1 cụm tƣơng tự (similar) nhau và các đối tƣợng khác cụm thì không
tƣơng tự (Dissimilar) nhau. Mục đích của phân cụm là tìm ra bản chất bên trong các
nhóm của dữ liệu. Các thuật toán phân cụm (Clustering Algorithms) đều sinh ra
các cụm (clusters)
2.6.4. Thuật toán Association (phân lớp)
Khai phá luật kết hợp (Association Rule Discovery) là kỹ thuật rất quan
trọng trong lĩnh vực khai phá dữ liệu. Mục đích của việc khai phá luật kết hợp là tìm ra
các mối quan hệ, sự kết hợp hay mối tƣơng quan giữa các đối tƣợng trong khối lƣợng lớn
dữ liệu.
Chuyên đề: Công nghệ tri thức và ứng dụng GVPT: GS. TSKH Hoàng Kiếm



Trang 13/32
PHẦN 3. DATAMINING VỚI CÔNG CỤ BUSINESS INTELLIGENCE
DEVELOPMENT STUDIO (BIDS) CỦA MICROSOFT SQL SERVER 2008
3.1 Định nghĩa BIDS

BIDS là một công cụ đƣợc tích hợp trong Microsoft Visual Studio khi ta cài
đặt SQL Server 2005 trở đi, công cụ này giúp thực hiện một số mô hình khai phá
dữ liệu (data mining) một cách trực quan và dễ dàng.
BIDS cho phép triển khai các mô hình khai phá dữ liệu sau:
 Micorosft Decision Tree (Cây quyết định)
 Microsoft Clustering (Phân cụm)
 Micorosoft Naive Bayes (Phân lớp với Bayes Rules)
 Micorosoft Time Series (Chuỗi thời gian)
 Micorosoft Association (Luật kết hợp)
 Micorsoft Sequence Clustering (Phân tích chuỗi)
 Microsoft Neural Network (Mạng Neural)
 Micorsoft Linear Regression (Hồi qui tuyến tính)
 Micorsoft Logistics Regression (Hồi qui logistics)
3.2 Các bước làm việc với BIDS
a. Kết nối với Server: Start  All programs  SQL Server 2008  SQL
Server Management Studio


(Hình 3. Thao tác kết nối với SQL server)
Chuyên đề: Công nghệ tri thức và ứng dụng GVPT: GS. TSKH Hoàng Kiếm



Trang 14/32
b. Tạo mới một Database (DB)



(Hình 4. Thao tác tạo mới DB)


c. Import dữ liệu vào DB



(Hình 5. Thao tác Import dữ liệu vào Database)

d. Tạo Project trong BIDS
Start  All programs  SQL Server 2008  SQL Server Bussiness
Intelligence Development Studio
Chuyên đề: Công nghệ tri thức và ứng dụng GVPT: GS. TSKH Hoàng Kiếm



Trang 15/32


(Hình 6. Thao tác tạo mới project)


e. Tạo Data Source (DS) để chỉ ra kết nối tới CSDL bằng cách nhấp chuột
phải lên DS và chọn New Data Source.



(Hình 7. Thao tác tạo mới DS)

f. Tạo Data Source Views (DSV) để chỉ ra dữ liệu thực sự đƣợc đƣa vào
mô hình khai phá bằng cách nhấp chuột phải lên DSV và chọn New
DSV.
Chuyên đề: Công nghệ tri thức và ứng dụng GVPT: GS. TSKH Hoàng Kiếm




Trang 16/32


(Hình 8. Thao tác tạo mới DSV)

g. Tạo các mô hình khai phá dữ liệu bằng cách nhấp chuột phải lên
Mining Structures và chọn New Mining Structures



(Hình 9. Thao tác tạo mới Mining Structures)


Chuyên đề: Công nghệ tri thức và ứng dụng GVPT: GS. TSKH Hoàng Kiếm



Trang 17/32
PHẦN 4. SỬ DỤNG MÔ HÌNH KHAI PHÁ DỮ LIỆU MICROSOFT TIME
SERIES ĐỂ DỰ ĐOÁN TÌNH HÌNH KINH DOANH CỦA CÔNG TY
LOCK&LOCK VIỆT NAM
4.1 Giới thiệu mô hình khai phá dữ liệu Microsoft Time Series
Một time series là một chuỗi dữ liệu đƣợc thống kê theo thời gian. Giải
thuật Time Series dựa trên cơ sở giải thuật truy hồi nhằm tối ƣu hóa việc dự đoán
các chuỗi giá trị liên tục nhƣ dữ liệu bán hàng sản phẩm. Khác với các giải thuật
khai thác dữ liệu khác nhƣ giải thuật cây quyết định, yêu cầu thêm một số thông
tin đầu vào nhằm mục đích dự đoán các xu hƣớng kế tiếp của dữ liệu, đây là một

vấn đề mà mô hình giải thuật trục thời gian không thực hiện đƣợc. Một mô hình
giải thuật theo trục thời gian có thể dự đoán các xu hƣớng của dữ liệu, tuy nhiên
phải dựa trên tập dữ liệu gốc đƣợc dùng để xây dựng mô hình và ta hoàn toàn có
thể thêm mới các cột dữ liệu đầu vào, tự động kết hợp với nguồn dữ liệu hiện tại
một cách hoàn toàn tự động trong quá trình phân tích dự đoán thông tin.
Một số đối số quan trọng trong mô hình khai phá Time Series
 MISSING VALUE SUBSTITUTION: là đối số quan trọng nhất, giải
thuật báo lỗi khi chúng ta bỏ qua đối số này, nó có 3 giá trị
o Previous: khi dữ liệu dự đoán bị khuyết giá trị, trong trƣờng
hợp này mô hình sẽ tự động chọn giá trị của ngày liền trƣớc nó
để điền vào.
o Mean: giải thuật tự động lấy giá trị trung bình của các giá trị
để điền vào giá trị bị khuyết.
o A number: dữ liệu bị khuyết sẽ nhận lấy giá trị do chúng ta
cung cấp trong biến này.
 PERIODICITY HINT: là một đối số quan trọng thứ 2, cho biết chu
kỳ dự đoán dữ liệu ví dụ chu kỳ có thể là 1 ngày, 1 tháng, 3 tháng hay
Chuyên đề: Công nghệ tri thức và ứng dụng GVPT: GS. TSKH Hoàng Kiếm



Trang 18/32
1 năm…Khi lựa chọn chu kỳ phù hợp sẽ cho ra kết quả khai phá tốt
nhất.
 AUTO DETECT PERIODICITY: Nếu đối này gần 1 thì chu kỳ nhỏ
sẽ đƣợc thực hiện, nếu gần 0 thì chu kỳ lớn sẽ đƣợc thực hiện, tuy
nhiên đối số này sẽ tự động thiết lập khi PERIODICITY HINT đƣợc
thiết lập trƣớc.
 MINIMUM and MAXIMUM SERIES VALUE: giới hạn phạm vi dự
đoán hợp lệ. ví dụ doanh thu của một mặt hàng nào đó trong công ty

không thể nhỏ hơn 0.
 FORECAST METHOD: dung để chỉ định thuật toán dự báo là
ARIMA hay ARTXP, mặc định thì nó sử dụng hỗn hợp 2 thuật toán
và lấy giá trị hỗn hợp dự đoán đƣợc.
 PREDICTION SMOOTHING: kiểm soát sự pha trộn của 2 thuật toán
ARIMA và ARTXP, nếu giá trị gần 1 thì ARIMA sẽ đƣợc thực hiện,
ngƣợc lại ARTXP sẽ đƣợc thực hiện nếu gần 0.
 INSTABILITY SENSITIVITY: dùng để kiểm soát tính bất ổn của dữ
liệu khai phá đƣợc, nếu đặt giá trị là 1 thì khi dữ liệu dự báo bất ổn nó
sẽ thông báo, còn ngƣợc lại nếu chọn 0 thì chế độ này hoàn toàn tắt.
 HISTORIC MODEL COUNT và HISTORIC MODEL GAP: thiết lập
các thông số khoảng cách cho dữ liệu, ví dụ dự đoán trong 6 tháng thì
HISTORIC_MODEL_GAP = 6.
 COMPLEXITY PENALTY và MINIMUM SUPPORT: đối số này ít
đƣợc sử dụng vì nó chỉ hỗ trợ cho mô hình cây quyết định trong thuật
toán ARTXP.
4.2 Phát biểu bài toán ứng dụng
Từ doanh thu bán hàng trong năm 2012 của công ty Lock&Lock, áp dụng
mô hình khai phá Time Series để dự đoán số lƣợng sản phẩm và doanh thu của
Chuyên đề: Công nghệ tri thức và ứng dụng GVPT: GS. TSKH Hoàng Kiếm



Trang 19/32
công ty trong những ngày sắp tới của năm 2013 và mô hình Clustering để gom
cụm khách hàng theo doanh thu nhằm tìm kiếm những nhóm khách hàng tiềm
năng, cũng nhƣ gom cụm các sản phẩm nhằm xác định các sản phẩm mang lại
doanh thu cao cho công ty.
4.3 Xử lý dữ liệu thô
4.3.1.Làm sạch và tích hợp dữ liệu

Dữ liệu phân tích là doanh thu bán hàng của công ty Lock&Lock trong năm
2012. Sau quá trình loại bỏ dữ liệu nhiễu và không cần thiết ta đƣợc bảng sau


Cột đầu tiên cho biết tên Sản phẩm đã bán đƣợc trong năm 2012,
DateTime là ngày bán liên tục từ ngày 01/01/2012 đến ngày
31/12/2013, QTY là số lƣợng mặt hàng tƣơng ứng, Grand Total là
doanh thu của sản phẩm bán trong ngày tƣơng ứng.
4.3.2 Trích chọn và chuyển đổi dữ liệu
- Chọn thuộc tính DateTime để Group by;
- Chọn Total, QTY để Sum theo DateTime.
- Kết quả truy vấn:
Chuyên đề: Công nghệ tri thức và ứng dụng GVPT: GS. TSKH Hoàng Kiếm



Trang 20/32


4.4 Tiến trình khai phá dữ liệu
4.4.1 Tạo mới DB
Tạo DB có tên SALE và import vào DB ba bảng dữ liệu nhƣ hình sau:

(Hình 10. Thao tác tạo DB cho ứng dụng)

4.4.2 Tạo Project trong BIDS
Chuyên đề: Công nghệ tri thức và ứng dụng GVPT: GS. TSKH Hoàng Kiếm




Trang 21/32
- Tạo Project có tên CH1101074 và tạo New Data Sources SALE.ds

(Hình 11. Thao tác tạo Data Source và kiểm tra kết nối)

- Tạo New Data Sources View SALE.dsv và đƣa vào các bảng dữ
liệu cần khai phá


(Hình 12. Thao tác chọn Table đưa vào DSV)
4.4.3 Tạo mô hình khai phá Microsoft Time Series trong project
Chuyên đề: Công nghệ tri thức và ứng dụng GVPT: GS. TSKH Hoàng Kiếm



Trang 22/32
- Mô hình Microsoft Time Series dự đoán số lƣợng và doanh thu
trong những ngày sắp tới của năm 2013 dựa vào số lƣợng và doanh thu
trong năm 2012. Bƣớc thực hiện:
- Sau khi chọn mô hình khai phá Microsoft Time Series ta đến bƣớc
chọn DSV

(Hình 13. Thao tác chọn DSV để khai phá)

- Chọn bảng dữ liệu để đƣa vào khai phá: bảng Thong Ke Theo SL
va Doanh thu:

Chuyên đề: Công nghệ tri thức và ứng dụng GVPT: GS. TSKH Hoàng Kiếm




Trang 23/32
- Đối với mô hình khai phá theo thời gian này thì ta phải chọn khóa
chính là DateTime, Input là QTY (số lƣợng) và Grand Total (Doanh
thu) trong năm 2012 và Output cũng chính là QTY và Grand Total cần
dự đoán trong tƣơng lai, ta chọn các thuộc tính nhƣ hình sau:

(Hình 14. Thao tác chọn các thuộc tính để khai phá)

- Tiếp theo ta xem lại nội dung và kiểu dữ liệu của các thuộc tính
đƣa vào

Chuyên đề: Công nghệ tri thức và ứng dụng GVPT: GS. TSKH Hoàng Kiếm



Trang 24/32
- Đặt tên cho mô hình khai phá và Finish


Chọn Mining Model Viewer để xem kết quả khai phá dạng Charts

(Hình 15. Mô hình khai phá Time Series dạng charts)
Phân tích dữ liệu từ biểu đồ Chart:
 Trục ngang (trục hoành) cho biết các mốc thời gian, trục đứng (trục
tung) là tỉ lệ số lƣợng và doanh thu, do ta biểu diễn chung nên nó
Chuyên đề: Công nghệ tri thức và ứng dụng GVPT: GS. TSKH Hoàng Kiếm




Trang 25/32
không hiển thị giá trị cụ thể mà chỉ hiển thị % vì giá trị 2 đại lƣơng
chênh lệch lớn.
 Đƣờng thẳng phân cách giữa dữ liệu đã có (nét liền) và dữ liệu dự
đoán trong những ngày tới (nét đứt), màu xanh là biểu diễn cho Grand
Total và màu đỏ là QTY, ta cũng có thể xem từng thuộc tính riêng biệt
bằng cách chọn 1 thuộc tính nhƣ sau

(Hình 16. Mô hình khai phá Time Series dạng charts cho thuộc tính QTY)
Ý nghĩa các Button:
 Show historic predictions: hiển thị dự đoán trong lịch sử và kết quả
thực tế.
 Show Deviations: độ lệch của dự đoán, độ lệch càng lớn khi ngày dự
đoán càng xa.
 Prediction steps: xác định số bƣớc dự đoán trong tƣơng lai đƣợc hiển
thị.
Ta có thể xem kết quả QTY ngày 24/12 trong khung Mining Legend
Dự đoán: 96218.235, thực tế: 92572, độ lệch: ±3.9%.

×