Tải bản đầy đủ (.pptx) (50 trang)

Cửa hàng bán hàng trực tuyến

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (817.53 KB, 50 trang )

Data Mining
Final Report
Classification – Ebook Store
Member of Group

Lê Hoàng Việt

Lê Anh Văn
Outline

Tìm hiểu đề tài

Các giải thuật Data Mining

Giải thuật Classification

Thực hiện chương trình

Tổng kết

Reference
Tìm hiểu đề tài

Requirement:
Cho CSDL bán hàng của cửa hàng sách trực
tuyến, phân loại khách hàng thành các dạng
khách hàng tiềm năng khác nhau.
Tìm hiểu đề tài

Cần lấy được cơ sở dữ liệu về khách hàng đã
mua sách của cửa hàng và làm sạch dữ liệu.



Cần xác định phương pháp dùng để khai phá
dữ liệu.

Xác định tiêu chí phân loại.

Xác định kết quả phân loại.

Kiểm tra kết quả training với dữ liệu mẫu.

Cửa hàng sách trực tuyến: là một website trình
bày các loại sách cho phép người mua thông
qua mạng Internet để xem, chọn mua, thanh
toán qua mạng và được giao tận nơi. CSDL của
cửa hàng bán sách như vậy sẽ lưu trữ lại các
thông tin, dữ liệu chi tiết về các loại sách,
những khách hàng đã đặt mua, đã chọn xem(có
thể có hoặc không) và các thông tin liên quan….

Lợi ích(kết quả) của cửa hàng(End User):

Giảm chi phí mua không hiệu quả(ví dụ sách ít người đọc, ít người
mua, bán chậm hoặc tồn kho…).

Lợi nhuận tăng(nhiều người mua nhiều độ tuổi, nhiều thể loại,
nhiều người vào website tham khảo…do đưa ra những gợi ý liên
quan hiệu quả cho người dùng phù hợp).

Hiển thị kết quả(thống kê, dự báo), gợi ý trực quan góp phần vào
quyết định hướng đi đúng đắn(chiến lược kinh doanh thời gian tới,

nguồn hàng nào cần tăng, nguồn hàng nào cần giảm bớt…).

Quản lý dữ liệu một cách hiệu quả hơn.

Kết quả đạt được(dự định của sinh viên):

Nắm vững lý thuyết, giải thuật phân lớp(Classification).

Xây dựng phần mềm thực hiện được các chức năng:

Đọc dữ liệu đầu vào(kết nối CSDL hoặc đọc từ file)

Máy học(huấn luyện)

Chạy giải thuật đúng đắn.

Đưa ra kết quả + dự báo + gợi ý(nếu có thể).

Kết xuất trực quan kết quả.

Hoàn thành mục tiêu môn học với phần mềm thực hiện chức năng
cụ thể.
Outline

Tìm hiểu đề tài

Các giải thuật Data Mining

Giải thuật Classification


Thực hiện chương trình

Tổng kết

Reference
Các giải thuật Data Mining
Khái niệm:Là quá trình trích xuất dữ liệu từ lượng lớn dữ liệu. Một
quá trình không dễ trích xuất thông tin ẩn, hữu ích chưa được biết
trước về dữ liệu.

Phân tích kết hợp(association analysic)

VD: buys(X; “computer”) => buys(X; “software”)
[support = 1%; confidence = 50%]

X: biến biểu diễn khách hàng. Độ chắc
chắn(confidence) 50% là khách hàng X sẽ mua máy
tính(computer) thì sẽ mua phần mềm(software)… 1%
support thể hiện tỉ lệ mua máy tính và mua phần
mềm cùng nhau trong tất cả quá trình mua hàng…

Phân lớp: là quá trình tìm mẫu(model) thích
hợp mà mô tả và phân biệt các lớp dữ liệu và
các khái niệm, sữ dụng kiểu để tiên đoán lớp
của những đối tượng mà chưa biết các
nhãn(class label)… Các mẫu dẫn xuất thì dựa
trên sự phân tích các tập dữ liệu được huấn
luyện(training data)…



Gom cụm:



Không như quá trình phân loại, mà phân tích các
nhãn(class label), gom cụm(clustering) phân tích dữ
liệu mà cần quan tâm đến các nhãn lớp đã được biết.
Nói chung các nhãn lớp không được biểu diễn thông
qua dữ liệu huấn luyện, đơn giản vì chúng không biết
bắt đầu như thế nào. Việc gom cụm có thể được
dùng để tạo nhãn lớp…

Phân tích xu hướng

Phân tích độ lệch và phần tử biên

Phân tích độ tương tự



Kiến trúc của hệ thống khai phá dữ liệu:
Outline

Tìm hiểu đề tài

Các giải thuật Data Mining

Giải thuật Classification

Thực hiện chương trình


Tổng kết

Reference
Giải thuật phân lớp

Khái niệm: Phân lớp là quá trình mà classifier
được tạo để tiên đoán các nhãn lớp xác định.
Những lớp này có thể mang giá trị rời rạc hoặc
liên tục.

Việc phân loại dữ liệu được diễn ra theo 2 bước sau:

Bước đầu tiên:

Một bộ phân loại(classifier) được xây dựng và thiết lập trước các lớp dữ liệu cần phân
loại. Đây là quá trình học(learning), giải thuật phân loại xây dựng một bộ phân loại bằng
cách phân tích hoặc học từ tập huấn luyện(training set) được tạo bởi các tập thuộc tính
dữ liệu(data tuples) liên kết với các nhãn lớp đã được thiết lập.





Một tập thuộc tính(tuple X) được biểu diễn bằng một vector thuộc tính n chiều. X =
(x1, x2, …, xn) tương ứng với thuộc tính của cơ sở dữ liệu A1, A2, …, An.

Mỗi tuple X được gán vào một lớp được xác định trước bởi một thuộc tính cơ sở
dữ liệu khác gọi là thuộc tính class label.

×