Tải bản đầy đủ (.pdf) (48 trang)

ĐỒ án tìm HIỂU các THUẬT TOÁN DATA MINING và xây DỰNG hệ THỐNG đề XUẤT MUA HÀNG CHO NGƯỜI TIÊU DÙNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (962.64 KB, 48 trang )

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM

ĐỒ ÁN 2
TÌM HIỂU CÁC THUẬT TỐN DATA MINING VÀ XÂY
DỰNG HỆ THỐNG ĐỀ XUẤT MUA HÀNG CHO NGƯỜI
TIÊU DÙNG

GIẢNG VIÊN HƯỚNG DẪN

Thạc sĩ:Thái Thị Hàn Uyển

Sinh viên thực hiện:
Hà Thanh Huy-17520568
Chung Nguyễn Trường Duy-17520388
TP. Hồ Chí Minh, tháng 1 năm 2021



MỤC LỤC
CHƯƠNG I : GIỚI THIỆU CHUNG

1

1.

Lý do chọn đề tài

1

2.



Mục đích của đề tài

1

3.

Chức năng dự kiến

1

4.

Đối tượng nghiên cứu

1

CHƯƠNG 2: KIẾN THỨC NỀN TẢNG
Giới thiệu về Data mining

2
2

1.

Data mining là gì ?

2

2.


Tại sao cần Data mining ?

3

3.

Lợi ích của Data mining ?

3

4.

Thách thức

5

4.1.

Sự đa dạng và không đồng nhất

5

4.2.

Quy mơ dữ liệu

6

4.3.


Tốc độ/tính chuyển động liên tục

7

4.4.

Tính chính xác và tin cậy

7

4.5.

Bảo mật

8

4.6.

Sự tương tác

9

4.7.

Kết luận

9

5.


Ứng dụng Data mining

10

6.

Quá trình

12

7.

6.1.

Knowledge discovery in database (kdd)

12

6.2.

Cross-industry standard process for data mining (crisp-dm)

13

Các phương pháp phổ biến
7.1.

Classification analisis


14
14

7.1.1.

Giới thiệu

14

7.1.2.

Hiệu suất tập dữ liệu

14

7.1.3.

Hiệu suất đào tạo

14

7.2.

Clustering analisis

15

7.2.1.

Giới thiệu


15

7.2.2.

Các cụm được tính toán như thế nào?

16

7.2.3.

Chấm điểm dữ liệu mới

16

7.2.4.

Phân cụm theo thứ bậc

16

7.3.

Association rules analysis

19

7.4.

Anomaly / outlier detection analysis


21

7.5.

Prediction analysis

22

7.6.

Regression analysis

23


7.7.

Decision trees technique

24

CHƯƠNG 3: XÂY DỰNG HỆ THỐNG

26

1.

Xây dựng kiến trúc


26

2.

Mô tả chức năng

26

2.1.

Upload dữ liệu

26

2.2.

Lấy danh sách sản phẩm gợi ý

26

3.

Danh sách actor

27

4.

Danh sách use case


27

5.

4.1.

Use case upload dữ liệu

27

4.2.

Use case lấy danh sách sản phẩm gợi ý

28

Thiết kế giao diện
5.1.

Giao diện tổng quan

30

5.2.

Giao diện upload sản phẩm

30

5.3.


Giao diện danh sách sản phẩm gợi ý

31

CHƯƠNG 4: KẾ HOẠCH THỰC HIỆN
1.

2.

Quá trình thực hiện

2.

32
32

1.1.

Thời gian tổng thể

32

1.2.

Thời gian chi tiết

32

Phân cơng cơng việc


33

CHƯƠNG 5: THỰC HIỆN
1.

30

Recommend item-based

34
34

1.1.

phân tích hàng vi người dùng

34

1.2.

Thuật toán

34

1.3.

Hiện thực

35


Recommend collaborative user-based

37

2.1.

Mục tiêu

37

2.2.

Khoảng cách Cosine

37

2.3.

Cấu trúc lưu trữ dữ liệu

38

2.4.

Hướng xử lý

39

CHƯƠNG 6: KẾT LUẬN,HƯỚNG PHÁT TRIỂN


40

1.

Ưu điểm

40

2.

Nhược điểm

40

3.

Hướng phát triển

40

CHƯƠNG 6: TÀI LIỆU THAM KHẢO

41


LỜI CẢM ƠN
Trên thực tế, khơng có sự thành cơng nào mà không gắn liền với những sự hỗ trợ,
giúp đỡ dù ít hay nhiều, dù trực tiếp hay gián tiếp của người khác. Trong suốt thời gian
từ khi bắt đầu học tập ở giảng đường đại học đến nay, chúng em đã nhận được rất nhiều

sự quan tâm, giúp đỡ của q thầy cơ, gia đình và bạn bè.
Với lòng biết ơn sâu sắc nhất, chúng em xin gửi đến quý thầy cô ở khoa Công nghệ
phần mềm – Trường Đại học Công nghệ thông tin, những người đã cùng với tri thức và
tâm huyết của mình đã truyền đạt lại vốn kiến thức quý báu cho chúng em suốt thời gian
học tập tại trường. Và đặc biệt, trong học kỳ này, khoa đã tổ chức cho em được tiếp cận
với môn Đồ Án 2, môn học mà theo chúng em là rất hữu ích đối với khoa Cơng nghệ
phần mềm.
Chúng em xin chân thành cảm ơn Ths. Thái Thị Hàn Uyển, người đã tận tâm hướng
dẫn chúng em từ những bước đi đầu tiên cũng như những góp ý chân thành để chúng
em có thể cải thiện đồ án một cách tốt nhất . Nếu khơng có những lời hướng dẫn, dạy
bảo của cơ thì chúng em nghĩ đồ án này sẽ khó mà hồn thành được. Một lần nữa, chúng
em xin chân thành cảm ơn thầy.
Thành phố Hồ Chí Minh, ngày 9 tháng 1 năm 2021
Hà Thanh Huy
Chung Nguyễn Trường Duy


Nhận xét của giáo viên hướng dẫn
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………

………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………
………………………………………………………………………………………………………

Tp.HCM, ngày tháng năm 2021
Giáo viên hướng dẫn
Th.S Thái Thị Hàn Uyển



CHƯƠNG I : GIỚI THIỆU CHUNG
1. Lý do chọn đề tài
Hiện nay ,với sự phát triển mạnh mẽ của mạng internet kéo theo sự phát triển
của các ứng dụng online, một trong số đó là các ứng dụng E-Commerce với các
ứng dụng tiêu biểu như Amazon,Alibaba,Tiki,…và bài toán đặt ra cho các ứng
dụng này là làm sao để tăng khả năng kinh doanh lên cao hơn nữa, giúp khách
hàng dễ dàng lựa chọn được các sản phẩm phù hợp nhất. Đó là lý do các hệ
thống đề xuất mua hàng ra đời với sứ mệnh giúp các ứng dụng có thể hỗ trợ cho
khách hàng lựa chọn được các sản phẩm tốt nhất với nhu cầu của mình.

2. Mục đích của đề tài
Tạo ra cái nhìn trực quan về hệ thống hỗ trợ mua hàng nói chung và hệ thống đề
xuất bán hàng nói riêng
Hỗ trợ các phần mềm nhỏ có khả năng tích hợp tính năng đề xuất sản phẩm
giúp tăng khả năng bán hàng

3. Chức năng dự kiến
Hỗ trợ tải các file dữ liệu lên server và lưu trữ trên server
Hỗ trợ đề xuất các sản phẩm liên quan đến sản phẩm đang tìm kiếm
Hỗ trợ đề xuất các sản phẩm mà những người dùng có hành vi tương tự đã tìm
kiếm/mua.

4. Đối tượng nghiên cứu
Người dùng hay mua hàng online

• Nhu cầu: tìm kiếm sản phẩm phù hợp với các nhu cầu của mình(khả năng
tài chính,mẫu mã,....)
Các cửa hàng sử dụng các phần mềm bán hàng online
• Nhu cầu: muốn chào bán những sản phẩm mà người dùng sẽ có nhiều
khả năng sẽ mua tiếp theo
1


CHƯƠNG 2: KIẾN THỨC NỀN TẢNG
Giới thiệu về Data mining
1. Data mining là gì ?
Data mining cùng với Data science chính là hai lĩnh vực cơng nghệ đang được
sử dụng phổ biến nhất hiện nay.
Khai phá dữ liệu là qui trình mà các doanh nghiệp sử dụng để biến những dữ
liệu thơ thành thơng tin hữu ích. Bằng cách dùng phần mềm để tìm mẫu hình
trong các tập dữ liệu, doanh nghiệp có thể hiểu hơn về khách hàng của họ và
phát triển được những chiến lược marketing hiệu quả, giúp tăng doanh thu và
giảm chi phi.
Quá trình khai phá dữ liệu của Data mining được diễn ra với công nghệ tính tốn
tiên tiến khơng chỉ giới hạn trong việc trích xuất dữ liệu mà cịn được sử dụng để
chuyển đổi, làm sạch, tích hợp dữ liệu và phân tích mẫu.
Data mining(Khai phá dữ liệu) Là q trình tính tốn để tìm ra các mẫu trong các
bộ dữ liệu lớn liên quan đến các phương pháp tại giao điểm của máy học, thống
kê và các hệ thống cơ sở dữ liệu.
Đây là một lĩnh vực liên ngành của khoa học máy tính. Mục tiêu tổng thể của q
trình khai thác dữ liệu là trích xuất thơng tin từ một bộ dữ liệu và chuyển nó
thành một cấu trúc dễ hiểu để sử dụng tiếp.
Ngồi bước phân tích thơ, nó cịn liên quan tới cơ sở dữ liệu và các khía cạnh
quản lý dữ liệu, xử lý dữ liệu trước, suy xét mơ hình và suy luận thống kê, các
thước đo thú vị, các cân nhắc phức tạp, xuất kết quả về các cấu trúc được phát

hiện, hiện hình hóa và cập nhật trực tuyến.
Khai phá dữ liệu là bước phân tích của q trình "khám phá kiến thức trong cơ
sở dữ liệu" hoặc KDD.
Việc khai phá dữ liệu phụ thuộc vào việc thu thập dữ liệu một cách hiệu quả, lưu
trữ kho dữ liệu và xử lí máy tính.

2


2. Tại sao cần Data mining ?
Số lượng người sử dụng các thiết bị thông minh như smartphone, tablet hay
PC,laptop có kết nối Internet để tìm kiếm thơng tin, giải trí, trị chuyện, mua
sắm,... trên tồn thế giới đang gia tăng với tốc độ tên lửa.
Ngoài ra sự xuất hiện của thuột ngữ I.o.T (Internet of Things) miêu tả sự kết nối
giữa tất cả các thiết bị với nhau bằng Internet, cho phép trao đổi, truyền tải dữ
liệu. I.o.T hỗ trợ con người rất nhiều lĩnh vực không chỉ là vấn đề sinh hoạt trong
cuộc sống hàng ngày mà cả công nghiệp, nông nghiệp, bán lẻ đến y tế, xã hội.
Các công ty cũng ứng dụng công nghệ I.o.T trong các hoạt động kinh doanh, sản
xuất với mục dích tìm kiếm cơ hội gia tăng lợi nhuận, phát hiện sớm các rủi ro.
Chính vì những lý do trên mà khối lượng dữ liệu và nhu cầu thu thập, phân tích
ngày càng lớn, từ dữ liệu người tiêu dùng, dữ liệu khách hàng đến dữ liệu thị
trường, dữ liệu sản xuất,... đa dạng, và phức tạp hơn.
Theo tập đồn cơng nghệ Cisco, khối lượng Big Ddia dự báo trong những năm
tới hay trong năm 2019 có thể đạt 500 Zeftabytes một năm.
Nguồn dữ liệu Big Data là nguồn lực quan trọng của mỗi tổ chức ngồi nguồn
nhên lực và tài chính. Nhưng để tận dụng hiệu quả dữ liệu để đạt được giá trị
trong kinh doanh, trong sản xuất,.. thì Data mining là cơng cụ khơng thể thiếu, nó
giúp chúng ta hiểu được các tập dữ liệu đang thể hiện cái gì, đang cung cấp các
thơng tin, kiến thức hữu ích nào,...


3. Lợi ích của Data mining ?
Hãy xem khai thác dữ liệu như là vấn đề khai thác khoáng sản – bạn phải đào
qua các lớp vật liệu để khám phá ra thứ gì đó có giá trị cao. Các công ty trên
khắp mọi lĩnh vực – ở mọi quy mơ, trong mọi ngành và trên tồn thế giới – dựa
vào đó để thu thập thơng tin tình báo để sử dụng mọi thứ từ các ứng dụng hỗ
trợ quyết định cung cấp AI và thuật toán học máy cho phát triển sản phẩm,
chiến lược tiếp thị và mơ hình tài chính.
Vấn đề cốt lõi là khai thác dữ liệu là mơ hình thống kê có thể được áp dụng cho
hồi quy tuyến tính hoặc logistic. Kết hợp với phân tích dự đốn, từ đó có thể
3


phát hiện ra một loạt các xu hướng, sự bất thường và các vấn đề trước đây mà
các công ty có thể sử dụng để kinh doanh tốt hơn.
Các khảo sát gần đây cho thấy rằng hơn 90% các nhà lãnh đạo CNTT và doanh
nghiệp muốn sử dụng nhiều phân tích dữ liệu hơn trong các tổ chức của họ. Họ
chủ yếu quan tâm đến việc cải thiện việc ra quyết định chiến lược, giảm thiểu rủi
ro bảo mật hoặc tính dễ bị tổn thương và tăng cường lập kế hoạch và dự báo
tài nguyên.
Ở đây, cách thức khai thác dữ liệu có thể được sử dụng trong một số chức
năng kinh doanh chính:


Tài chính: Phân tích dữ liệu sâu để tạo các mơ hình rủi ro chính xác cho
việc cho vay, sáp nhập / mua lại và khám phá các hoạt động gian lận



Hoạt động CNTT: Khai thác dữ liệu hỗ trợ thu thập, xử lý và phân tích
khối lượng dữ liệu ứng dụng, mạng và cơ sở hạ tầng để khám phá

những hiểu biết về bảo mật hệ thống CNTT và hiệu suất mạng.



Tiếp thị: Bề mặt trước đó ẩn các xu hướng hành vi của người mua và dự
đoán các hành vi khách hàng trong tương lai để xác định người mua
chính xác hơn. Từ đó tạo ra nhiều chiến dịch nhắm mục tiêu hơn để tăng
sự tham gia và quảng bá sản phẩm hoặc dịch vụ mới



Nhân sự: Khai phá dữ liệu từ hồ sơ của ứng viên, từ đó cung cấp cái
nhìn tồn diện về ứng viên. Xác định kết quả phù hợp nhất cho từng vai
trị bằng cách sử dụng phân tích dữ liệu để đánh giá trình độ, kinh
nghiệm, kỹ năng, chứng chỉ và vị trí cơng việc đã đảm nhiệm trước đây.

Khai thác dữ liệu là một điều bắt buộc để duy trì tính cạnh tranh và đạt được lợi
thế chiến lược trong kỷ nguyên số của kinh doanh. Liên hệ với chúng tơi hơm
nay để tìm hiểu cách thức Renova Cloud có thể đơn giản hóa và hợp lý hóa tất
cả các hoạt động khai thác và phân tích dữ liệu của bạn và đáp ứng tất cả các
mục tiêu kinh doanh dựa trên dữ liệu của bạn.

4


4. Thách thức
4.1.

Sự đa dạng và không đồng nhất
Các kỹ thuật khai phá dữ liệu trước đây được sử dụng để khai phá các mẫu

chưa biết và các mối quan hệ các tập dữ liệu nhỏ, có cấu trúc, đồng nhất.
Sự đa dạng là một trong những đặc điểm quan trọng của dữ liệu lớn. Đây
là kết quả sự tổng hợp của gần như không giới hạn các nguồn dữ liệu, hệ
quả tất yếu của hiện tượng này là sự không đồng nhất của dữ liệu.
Dữ liệu đến từ rất nhiều nguồn khác nhau từ các mạng xã hội, website,
trường đại học, các bài báo, hội thảo đến các công ty, doanh nghiệp cùng
với mối quan hệ xã hội phức tạp giữa chúng. Việc khai phá những dữ liệu
lớn như vậy là một thách thức lớn đến mức khó có thể dự đoán được bởi
lẽ việc xử lý những nguồn dữ liệu gồm cả có cấu trúc, bán cấu trúc và phi
cấu trúc này là vấn đề cực kỳ phức tạp.
Các hệ thống cơ sở dữ liệu ngày nay có thể phù hợp tốt với cấu trúc dữ
liệu có cấu trúc hoặc phù hợp một phần với dữ liệu bán cấu trúc nhưng
chắc chắn là không phù hợp với dữ liệu phi cấu trúc.
Tuy nhiên, tính khơng đồng nhất của dữ liệu cũng đem lại những cơ hội
khám phá những tri thức mới trong các nguồn dữ liệu lớn này.
Xét một ví dụ kinh điển trong khai phá dữ liệu: xem xét mối quan hệ giữa
các mặt hàng trong một cửa hàng tạp hoá. Các bản ghi trong tập dữ liệu
lưu trữ đều thuộc cùng kiểu dữ liệu (các mặt hàng). Cụ thể là mối liên hệ
chặt chẽ giữa "bia và bỉm“ hay "sữa“ là sản phẩm phổ biến do được mua
bởi hầu hết khách hàng cho thấy mối liên hệ mạnh mẽ giữa "sữa“ và các
sản phẩm khác. Trái ngược với đó, khai phá dữ liệu lớn phải đối mặt với
các dữ liệu bán cấu trúc và không đồng nhất. Mở rộng ví dụ đơn giản trên
cho một trang bán hàng trực tuyến như eBay.
Các dữ liệu gồm ít nhất 3 kiểu đối tượng khác nhau: mặt hàng, người mua,
người bán. Các mối quan hệ có thể tồn tại như: giữa các mặt hàng là quan
hệ "mua cùng với“, giữa người bán và mặt hàng là quan hệ "bán“ và "bán
bởi“, giữa mua và mặt hàng là quan hệ "mua“ và "mua bởi“, giữa người
5



mua và người bán là quan hệ "mua từ“ và "bán cho“. Rõ ràng, mạng dữ liệu
này có các kiểu đối tượng và quan hệ khác nhau và các kĩ thuật khai phá
dữ liệu hiện tại sẽ không thể phát hiện hết các mối quan hệ tiềm ẩn và nội
tại trong mạng dữ liệu này.
Thực tế cho thấy việc xây dựng một mơ hình đơn để khai phá dữ liệu khơng
đồng nhất có thể dẫn đến kết quả khai phá không chấp nhận được. Do vậy,
cần thiết phải xây dựng các hệ thống phức tạp, đa mơ hình.
Vucetic [5] đã giới thiệu một thuật toán khá thú vị để xử lý các dữ liệu khơng
đồng nhất. Theo đó, tác giả sử dụng kĩ thuật phân hoạch tập dữ liệu ban
đầu thành các tập con đồng nhất và áp dụng một mơ hình chun biệt cho
mỗi tập con đồng nhất đó. Kỹ thuật phân hoạch sẽ giúp đẩy nhanh quá trình
khám phá tri thức từ dữ liệu lớn không đồng nhất thế nhưng có thể làm bỏ
sót các tri thức tiềm năng một khi việc phân hoạch làm phá vỡ các mối quan
hệ quan trọng trong dữ liệu.
Quá trình khai phá dữ liệu bắt đầu với việc lựa chọn dữ liệu (từ nhiều
nguồn), lọc dữ liệu, làm sạch, giảm, và chuyển đổi. Tại mỗi bước tiền xử lý
luôn tồn tại những thách thức. Với lọc dữ liệu, làm sao ta có thể đảm bảo
rằng các dữ liệu bị loại bỏ sẽ không làm suy giảm nghiêm trọng chất lượng
của các kết quả cuối cùng được khai phá do sự phức tạp của tính khơng
đồng nhất của dữ liệu lớn? Các vấn đề tương tự cũng nảy sinh với các
bước tiền xử lý khác và các hoạt động của quá trình khai phá dữ liệu.
4.2.

Quy mô dữ liệu
Dung lượng và quy mô lớn chưa từng có của dữ liệu lớn địi hỏi các công
cụ quản lý và khai phá dữ liệu phải được cải tiến tương ứng. Điểm quan
trọng là với quy mơ cực lớn thì ta có nhiều cơ hội để khám phá nhiều tri
thức hơn trong dữ liệu thông thường (quy mô nhỏ). Những hướng tiếp
cận dưới đây nếu được áp dụng hợp lý sẽ đem lại hiệu quả trong khai phá
dữ liệu lớn: (1) điện toán đám mây kết hợp với tính tốn song song; (2)

tương tác người dùng (đồ hoạ - GUI hoặc dựa trên ngôn ngữ) - giúp việc
tương tác giữa người dùng và hệ thống trở nên nhanh chóng và hiệu quả.

6


4.3.

Tốc độ/tính chuyển động liên tục
Đối với dữ liệu lớn, tốc độ/chuyển động liên tục thực sự quan trọng. Khả
năng truy nhập nhanh và khai phá dữ liệu lớn không chỉ là mong muốn
chủ quan mà là một nhiệm vụ xử lý đặc biệt đối với các dòng dữ liệu (data
stream) (một định dạng phổ biến của dữ liệu lớn) - chúng ta phải hồn
thành việc xử lý/khai phá dịng dữ liệu đó trong một thời gian nhất định,
bởi nếu khơng thì kết quả xử lý/ khai phá đó trở nên ít có giá trị hoặc thậm
chí là vơ giá trị. Chẳng hạn, ứng dụng đòi hỏi chạy theo thời gian thực
như dự đoán động đất, dự đoán thị trường chứng khoán, thị trường ngoại
hối...
Tốc độ khai phá dữ liệu phụ thuộc vào hai yếu tố chính: (1) thời gian truy
cập dữ liệu (được xác định chủ yếu bởi hệ thống lưu trữ dữ liệu); (2) hiệu
quả của các thuật toán khai phá dữ liệu. Việc khai thác các chương trình
lập chỉ mục tiên tiến là chìa khóa giải quyết vấn đề tốc độ. Cấu trúc chỉ số
đa chiều đặc biệt hữu ích cho dữ liệu lớn.
Ví dụ, sự kết hợp của R-Tree và KD-tree và gần đây là FastBit [2] (được
phát triển bởi nhóm nghiên cứu ở LBNL) được sử dụng cho dữ liệu lớn.
Bên cạnh đó, mặc dù các nhà nghiên cứu vẫn mong muốn thiết kế các
chương trình lập chỉ mục mới, hiệu quả nhưng vấn đề này vẫn là một trong
những thách thức lớn nhất đối với cộng đồng nghiên cứu.

4.4.


Tính chính xác và tin cậy
Trước đây, các hệ thống khai phá dữ liệu thường sử dụng những dữ liệu
từ những nguồn tin cậy và khá hạn chế, do vậy, kết quả khai phá thường
có độ chính xác cao. Tuy nhiên, đối với dữ liệu lớn, dữ liệu có thể đến từ
nhiều nguồn khác nhau, có thể từ nguồn không tin cậy và không thể kiểm
chứng. Vì vậy, độ chính xác và tin cậy của các nguồn dữ liệu mà kéo theo
là kết quả khai phá là một vấn đề cần xem xét. Để giải quyết vấn đề này (ít
nhất là một phần) thì việc xác thực dữ liệu và xác minh nguồn gốc dữ liệu
là một bước quan trọng trong tồn bộ q trình khai phá tri thức.
7


Dữ liệu có tính động (dynamic) cao, do đó, hệ thống phân tích và quản lý
dữ liệu lớn cũng phải cho phép các dữ liệu được quản lý trong đó được
thay đổi và phát triển. Vì vậy, "dữ liệu gốc“ (data provenance) là thành phần
không thể thiếu của bất kỳ hệ thống xử lý dữ liệu lớn nào. Dữ liệu gốc liên
quan đến lịch sử phát triển, tiến hoá hoặc nguồn gốc mà dữ liệu được trích
xuất hay thu thập. Khi dữ liệu phát triển, các độ đo sự tin cậy cần được thay
đổi hoặc cập nhật, do đó, các độ đo này không nên thiết lập cố định. Các
nghiên cứu đã chỉ ra rằng, phương pháp học bán giám sát (semisupervised) với dữ liệu thực có thể cung cấp độ chính xác và độ tin cậy cao
hơn đối với các nguồn dữ liệu khác. Các phương pháp xử lý dữ liệu lớn có
thể chạy trên các nền tảng song song (nền tảng đám mây - PaaS và IaaS)
với khả năng mở rộng trên nhiều nguồn dữ liệu.
Nguồn gốc của dữ liệu góp phần trực tiếp vào độ chính xác và tin cậy của
kết quả khai phá dữ liệu. Tuy nhiên, thông tin về nguồn gốc dữ liệu không
phải lúc nào cũng có sẵn hoặc được ghi chép. Việc khai phá dữ liệu có thể
được sử dụng để phát hiện và xác minh nguồn gốc của dữ liệu. World Wide
Web - được xem là nguồn dữ liệu lớn nhất và là cơ sở tri thức mang đầy
đủ thông tin cần thiết để đưa ra câu trả lời tốt nhất cho nhiều câu hỏi hóc

búa, thế nhưng kích thước của kho lưu trữ dữ liệu lớn nhất này vẫn tiếp tục
tăng với tốc độ chưa từng có. Cơng nghệ khai phá dữ liệu lớn sẽ sớm có
thể trả lời nhiều câu hỏi lớn của nhân loại mặc dù khai phá toàn bộ World
Wide Web địi hỏi sự vượt trội về trí tuệ của con người.
4.5.

Bảo mật
Dữ liệu riêng tư luôn là vấn đề cần xem xét trong khai phá dữ liệu. Vấn
đề này còn nghiêm trọng hơn khi các ứng dụng khai phá dữ liệu lớn
thường địi hỏi các thơng tin cá nhân để tạo ra các kết quả có liên quan
đến từng cá nhân như các dịch vụ dựa trên địa điểm (chẳng hạn quảng
cáo). Hơn nữa, trong các dữ liệu có được từ các phương tiện truyền
thơng hay mạng xã hội, các thông tin cá nhân của nhiều người thường có
liên quan đến nhau và dễ dàng bị "đào xới“ bởi các ứng dụng khai phá dữ
liệu. Một ví dụ đơn giản, các giao dịch trong cuộc sống hàng ngày của
chúng ta đang được đưa lên mạng và được lưu vết ở đó: email, tin nhắn,
8


blog, Facebook, mua sắm, thanh toán hoá đơn trực tuyến, số điện thoại,
địa chỉ nhà, ngày sinh...
Hiện nay, nhiều thông tin bí mật của chúng ta được bảo vệ (với một mức
độ nhất định), chẳng hạn cơng ty thẻ tín dụng nắm giữ bí mật về thơng tin
nhận dạng của chủ thẻ. Theo thời gian, các thông tin cá nhân của mỗi
người sẽ nằm rải rác ở đâu đó trên mạng. Tuy nhiên, điều đó khơng có
nghĩa là nó khơng bị "đào xới“ lên vào một ngày nào đó trong tương lai.
Tất cả chỉ là vấn đề thời gian. Mọi người sẽ dễ dàng có được đặc quyền
sử dụng các công cụ mạnh mẽ như vậy (qua SaaS trên đám mây). Nếu
khơng có bất kỳ lá chắn bảo vệ nào cho sự riêng tư của bạn, một kẻ xấu
có thể mở một tài khoản thẻ tín dụng mới bằng tên của bạn và dễ dàng

lấy đi tiền của bạn tại ngân hàng. Tất cả mọi thứ dường như trở thành có
thể! Rõ ràng, chúng ta cần có những chính sách đúng đắn và phương
pháp tiếp cận để quản lý việc chia sẻ dữ liệu cá nhân, trong khi vẫn tạo
điều kiện cho các hoạt động khai phá dữ liệu hợp pháp.
4.6.

Sự tương tác
Sự tương tác là khả năng hoặc tính năng của một hệ thống khai phá dữ
liệu cho phép người dùng tương tác một cách nhanh chóng và đầy đủ
(phản hồi/can thiệp/hướng dẫn từ người dùng). Sự tương tác trở thành
một vấn đề quan trọng trong khai phá dữ liệu lớn. Nó liên quan đến cả ba
chữ V. Sử dụng thơng tin phản hồi/hướng dẫn có thể giúp thu hẹp khối
lượng dữ liệu, đẩy nhanh tốc độ xử lý, tăng khả năng mở rộng của hệ
thống. Hệ thống tương tác cho phép người dùng có khả năng hình dung,
đánh giá (tiền đánh giá) và giải thích kết quả khai phá trung gian và cuối
cùng.

4.7.

Kết luận
Khai phá dữ liệu là một lĩnh vực nghiên cứu đầy thách thức bởi nó vượt
qua hầu hết những giới hạn của các kỹ thuật khai phá dữ liệu hiện thời.
Khai phá dữ liệu sẽ mở ra nhiều cơ hội mới. Tuy nhiên, những thách thức
trong lĩnh vực này đang là bài toán cho việc đưa ra các công cụ khai phá
dữ liệu lớn.
9


5. Ứng dụng Data mining
Dưới đây là những loại thông tin, nguồn dữ liệu có thể khai thác bằng Data

mining, qua đó chúng ta sẽ hình dung trước được những lĩnh vực nào đạt được
lợi ích từ Data mining.
Các giao dịch trong kinh doanh: tất cả các thông tin, dữ kiện lịch sử về giao
dịch phát sinh trong kinh doanh đều được các công ty lưu trữ trong thời gian rất
lâu thậm chí vĩnh viễn vì tầm quan trọng của chúng. Các thơng tin về giao dịch
kinh doanh bên ngồi cơng ty như mua bán, trao đổi hàng hóa giữa các cơng ty
và khách hàng, giao dịch tài chính với các ngân hàng, đầu tư chứng khốn,…
ngồi ra cũng có những thông tin về giao dịch bên trong nội bộ cơng ty như các
chi phí quản lý kho hàng, tài sản,… Ví dụ điển hình chính là việc các cửa hàng
bách hóa, cửa hàng tiện lợi, siêu thị áp dụng rộng rãi quét mã vạch để tính tiền
khách hàng đồng thời lưu trữ khối lượng lớn dữ liệu về tất cả giao dịch mỗi
ngày; các trang web thương mại điện tử lưu lại lịch sử mua hàng trực tuyến của
khách hàng.
Dữ liệu khoa học: không chỉ lĩnh vực kinh tế, cơng nghệ phát triển mà khoa
học, kỹ thuật cũng có những sự thay đổi mạnh mẽ kể từ khi Big Data và AI
(Artificial Intelligence, trí tuệ nhân tạo) ra đời. Khối lượng lớn dữ liệu thu thập
được từ các nghiên cứu khoa học trong xã hội ngày nay có thể được phân tích
bằng các cơng cụ Data mining để đạt được những kết quả phục vụ đời sống
con người.
Dữ liệu nhân khẩu học và dữ liệu cá nhân khách hàng: các dữ liệu từ điều
tra dân số, nhân khẩu học, dữ liệu về các nhân viên trong mỗi công ty, đến dữ
liệu về khách hàng đều là những thông tin hữu ích cần được khai thác bằng
Data mining. Những tổ chức chính phủ, các cơng ty kinh doanh và tổ chức phi
lợi nhuận như bệnh viện, đang thu thập, lưu trữ khối lượng lớn dữ liệu cá nhân
rất quan trọng để phục vụ việc thống kê, quản lý trật tự xã hội, quản lý nguồn
nhân lực, hiểu rõ hơn về thị trường và người tiêu dùng, dự báo và kiểm soát
các dịch bệnh,…. Mặc dù việc thu thập, sử dụng và chia sẻ dữ liệu cá nhân có
thể ảnh hưởng đến vấn đề bảo mật thông tin và quyền riêng tư, nhưng nếu có
thể tiếp cận và kết hợp dữ liệu nhân khẩu học, dữ liệu khách hàng với các dữ
10



liệu khác thì một cơng ty sẽ có được cái nhìn tổng quan về hành vi, xu hướng
tiêu dùng.
Dữ liệu video và hình ảnh: sự xuất hiện của các thiết bị điện tử đa chức năng
như smartphone, máy tính bảng có tính năng chụp hình, quay phim và các
camera giám sát ở các cửa hàng, nơi công cộng,.. ngày càng nhiều đồng thời
do việc chụp hình, quay phim đã trở thành thói quen, sở thích của nhiều người
cũng như các tổ chức, cơng ty thu thập video, hình ảnh để ngăn chặn các hành
vi tội phạm nghiêm trọng, làm chứng cứ trong kinh doanh, hơn nữa các nhà
khoa học, tập đồn cơng nghệ sử dụng hình ảnh để nghiên cứu, mơ phỏng
robot, phát triển các sản phẩm AI. Chính vì vậy, khối lượng dữ liệu là rất lớn và
nhu cầu khai thác từ đó gia tăng. Đặc biệt các cơng cụ Data mining ngày nay đã
có thể hỗ trợ phân tích dữ liệu video và hình ảnh.
Dữ liệu dạng text (văn bản) và các bản ghi: ví dụ cụ thể, các công ty thường
lưu trữ các báo cáo, các hợp đồng, dữ liệu quan trọng khác,… dưới dạng văn
bản hoặc các bản ghi để tiện trao đổi thông tin giữa các cá nhân trong cơng ty
và bên ngồi cơng ty (ví dụ qua Email). Ngày nay các dữ liệu trên được mã hóa,
và số hóa phục vụ cho việc bảo mật và phân tích trong tương lai bằng các cơng
cụ Data mining.
Dữ liệu trong lĩnh vực games, thể thao: sự phát triển của loại hình trị chơi
trực tuyến, thể thao điện tử cho đến việc ứng dụng công nghệ trong các môn
thể thao vua để tăng sự công bằng như bóng đá (ví dụ gần đây nhất như cơng
nghệ VAR, Goal – line), tennis,… cùng với việc các nhà báo, nhà phân tích thể
thao, các huấn luận viên tổng hợp các thông tin, các dữ liệu thống kê về các
vận động viên, cầu thủ, các đội bóng, để đánh giá, phân tích phong độ theo thời
gian, đề ra chương trình huấn luyện thích hợp, … khiến cho dữ liệu trong lĩnh
vực thể thao ngày càng được quan tâm, thu thập nhiều hơn. Các cơng cụ phân
tích thơng thường và cơng cụ Data mining cho phép đưa ra các dự báo, thống
kê có ý nghĩa trong mỗi trận đấu, trong mỗi mùa giải.

Dữ liệu truyền thông kỹ thuật số: sự phổ biến rộng rãi của các thiết bị có
chức năng quay phim, chụp ảnh và thói quen, sở thích của nhiều người đăng
tải, chia sẻ các hình ảnh cá nhân, video, clip,.. lên các trang, mạng xã hội ngày
11


càng tăng, hay lịch sử về hành vi khách hàng trên các website, các trang, mạng
xã hội như lịch sử tra cứu sản phẩm dịch vụ, tương tác như lượt click, lượt like,
lượt comment, các đoạn đối thoại bằng văn bản với khách hàng,.. được các
công ty thương mại điện tử, kinh doanh trực tuyến thu thập hàng ngày, khiến
cho dữ liệu truyền thông kỹ thuật số trở thành yếu tố quyết định trong khối
lượng dữ liệu Big Data. Bằng cách sử dụng công cụ Data mining, mỗi công ty
sẽ tự tạo cho mình khả năng dự báo xu hướng, hành vi và nhu cầu người tiêu
dùng trong thực tại và tương lai để phát triển các chiến dịch marketing, khuyến
mãi hiệu quả. Ngồi ra các đài truyền hình, đài phát thanh có thể mã hóa, số
hóa các dữ liệu video, phim, âm thanh để bảo vệ, phân tích và quản lý hiệu quả.
Dữ liệu khác: các dữ liệu phục vụ trong ngành kiến trúc như dữ liệu từ các
phần mềm thiết kế và kiến trúc (ví dụ CAD – computer-aided design); các dữ
liệu trong lĩnh vực nghiên cứu thực tế ảo, khơng gian 3 chiều,… Tất cả đều có
thể khai thác bằng các công cụ Data mining nhằm phục vụ các mục đích riêng.

6. Q trình
6.1. Knowledge discovery in database (kdd)
KDD là một quá trình quan trọng để xác định các mẫu hoặc mối quan hệ
hợp lệ, mới lạ, có thể hữu ích và cuối cùng là dễ hiểu trong một tập dữ
liệu để đưa ra các quyết định quan trọng ( Fayyad, Piatetsky-shapiro, &
Smyth, 1996 ).
Khoa học dữ liệu liên quan đến việc suy luận và lặp lại nhiều giả thuyết
khác nhau. Một trong những khía cạnh quan trọng của khoa học dữ liệu là
quá trình tổng quát hóa các mẫu từ một tập dữ liệu.

Sự tổng quát hóa phải hợp lệ, khơng chỉ đối với tập dữ liệu được sử dụng
để quan sát mẫu mà còn đối với dữ liệu mới chưa nhìn thấy.
Khoa học dữ liệu cũng là một quá trình với các bước xác định, mỗi với
một tập hợp các nhiệm vụ. Thuật ngữ tiểu thuyết chỉ ra rằng khoa học dữ
liệu thường liên quan đến việc tìm kiếm các mẫu chưa biết trước đây
trong dữ liệu.

12


6.2. Cross-industry standard process for data mining (crisp-dm)
CRISP-DM được hình thành vào năm 1996 và trở thành một dự án của
Liên minh Châu Âu theo sáng kiến tài trợ của ESPRIT vào năm 1997. Dự
án được dẫn đầu bởi 5 công ty: Integral Solutions Ltd (ISL) , Teradata ,
Daimler AG , NCR Corporation và OHRA , một công ty bảo hiểm.
Liên minh cốt lõi này đã mang lại những trải nghiệm khác nhau cho dự án:
ISL, sau đó được mua lại và sát nhập vào SPSS. Tập đồn máy tính
khổng lồ NCR đã sản xuất kho dữ liệu Teradata và phần mềm khai thác
dữ liệu của riêng mình. Daimler-Benz có một đội khai thác dữ liệu đáng
kể. OHRA mới bắt đầu khám phá khả năng sử dụng khai thác dữ liệu.
Phiên bản đầu tiên của phương pháp này đã được trình bày tại Hội thảo
CRISP-DM SIG lần thứ 4 ở Brussels vào tháng 3 năm 1999, và được xuất
bản dưới dạng hướng dẫn khai thác dữ liệu từng bước vào cuối năm đó.
Giữa năm 2006 và 2008, CRISP-DM 2.0 SIG đã được thành lập và đã có
các cuộc thảo luận về việc cập nhật mơ hình quy trình CRISP-DM. Tình
trạng hiện tại của những nỗ lực này không được biết đến. Tuy nhiên,
trang web crisp-dm.org gốc được trích dẫn trong các bài đánh giá, và
trang web CRISP-DM 2.0 SIG đều khơng cịn hoạt động.
Trong khi nhiều người hành nghề khai thác dữ liệu không phải của IBM
sử dụng CRISP-DM,IBM là cơng ty chính hiện đang sử dụng mơ hình quy

trình CRISP-DM. Nó cung cấp một số tài liệu CRISP-DM cũ để tải xuống
và nó đã kết hợp nó vào sản phẩm SPSS Modeler của mình .
Dựa trên nghiên cứu hiện tại CRISP-DM là dạng mơ hình khai thác dữ
liệu được sử dụng rộng rãi nhất vì những ưu điểm khác nhau của nó giúp
giải quyết các vấn đề tồn tại trong ngành khai thác dữ liệu. Một số hạn
chế của mơ hình này là nó khơng thực hiện các hoạt động quản lý dự án.
Thực tế đằng sau sự thành cơng của CRISP-DM là nó là ngành cơng
nghiệp, cơng cụ và ứng dụng trung lập.

13


7. Các phương pháp phổ biến
7.1. Classification analisis
7.1.1. Giới thiệu

Mục đích của việc đánh giá mơ hình phân loại là để có được một
đánh giá đáng tin cậy về chất lượng của sự xấp xỉ của khái niệm
mục tiêu được đại diện bởi mơ hình, điều này sẽ được gọi là hiệu
suất dự đốn của mơ hình . Có thể sử dụng các biện pháp hiệu
suất khác nhau, tùy thuộc vào ứng dụng dự kiến của mơ hình. Với
thực tế là mơ hình được tạo dựa trên một tập huấn luyện, thường
là một tập con nhỏ của miền, nên các thuộc tính tổng qt hóa của
nó là điều cần thiết cho chất lượng xấp xỉ. Đối với bất kỳ thước đo
hiệu suất nào, điều quan trọng là phải phân biệt giữa giá trị của nó
đối với một tập dữ liệu cụ thể ( hiệu suất tập dữ liệu ), đặc biệt là
tập huấn luyện ( hiệu suất huấn luyện ) và hiệu suất dự kiến của nó
trên tồn bộ miền (hiệu suất thực ).
7.1.2. Hiệu suất tập dữ liệu


Hiệu suất tập dữ liệu của một mơ hình được đánh giá bằng cách
tính tốn giá trị của một hoặc nhiều thước đo hiệu suất đã chọn
trên một tập dữ liệu cụ thể với các nhãn lớp thực có sẵn. Nó mơ tả
mức độ phù hợp giữa mơ hình và khái niệm mục tiêu trên tập dữ
liệu này.
7.1.3. Hiệu suất đào tạo

Đánh giá mơ hình trên tập huấn luyện được sử dụng để tạo mơ
hình xác định hiệu suất huấn luyện của mơ hình. Mặc dù đơi khi
việc hiểu rõ hơn về mơ hình và chẩn đốn hoạt động của thuật
tốn phân loại được sử dụng rất hữu ích, nhưng nó thường khơng
được quan tâm nhiều, vì mục đích của các mơ hình phân loại
khơng phải để phân loại ...

14


7.2. Clustering analisis
7.2.1. Giới thiệu

Phân tích phân cụm tìm các cụm đối tượng dữ liệu tương tự với
nhau. Các thành viên của một cụm giống nhau hơn là giống như
các thành viên của các cụm khác. Các cụm khác nhau có thể có
các thành viên chung. Mục tiêu của phân tích phân cụm là tìm ra
các cụm chất lượng cao sao cho độ tương tự giữa các cụm là thấp
và độ tương tự trong cụm là cao.
Phân cụm, giống như phân loại, được sử dụng để phân đoạn dữ
liệu. Không giống như phân loại, mơ hình phân cụm phân đoạn dữ
liệu thành các nhóm chưa được xác định trước đó. Phân loại mơ
hình phân đoạn dữ liệu bằng cách gán nó cho các lớp được xác

định trước đó, được chỉ định trong một mục tiêu. Các mơ hình phân
cụm khơng sử dụng mục tiêu.
Phân cụm rất hữu ích để khám phá dữ liệu. Bạn có thể sử dụng
thuật tốn Clustering để tìm các nhóm tự nhiên khi có nhiều trường
hợp và khơng có nhóm rõ ràng.
Phân cụm có thể đóng vai trò như một bước tiền xử lý dữ liệu hữu
ích để xác định các nhóm đồng nhất mà bạn có thể xây dựng các
mơ hình được giám sát.
Bạn cũng có thể sử dụng Clustering cho Phát hiện bất thường. Khi
bạn phân đoạn dữ liệu thành các cụm, bạn thấy rằng một số
trường hợp không phù hợp tốt với bất kỳ cụm nào. Những trường
hợp này là dị thường hoặc ngoại lai.

15


7.2.2. Các cụm được tính tốn như thế nào?

Có một số cách tiếp cận khác nhau để tính tốn các cụm. Khai thác
dữ liệu Oracle hỗ trợ các phương pháp sau:


Dựa trên mật độ : Loại phân nhóm này tìm phân phối cơ
bản của dữ liệu và ước tính cách các khu vực có mật độ cao
trong dữ liệu tương ứng với các đỉnh trong phân phối. Các
khu vực mật độ cao được hiểu là các cụm. Ước tính cụm
dựa trên mật độ là xác suất.




Dựa trên khoảng cách : Loại phân nhóm này sử dụng
thước đo khoảng cách để xác định sự giống nhau giữa các
đối tượng dữ liệu. Chỉ số khoảng cách đo khoảng cách giữa
các trường hợp thực tế trong cụm và trường hợp nguyên
mẫu cho cụm. Trường hợp nguyên mẫu được gọi là trung
tâm .



Dựa trên lưới : Loại phân cụm này chia không gian đầu vào
thành các ơ siêu hình chữ nhật và xác định các ơ có mật độ
cao liền kề để tạo thành các cụm.

7.2.3. Chấm điểm dữ liệu mới

Các thuật toán phân cụm được hỗ trợ bởi Oracle Data Mining thực
hiện phân cụm phân cấp. Các cụm lá là các cụm cuối cùng được
tạo ra bởi thuật toán. Các cụm cao hơn trong hệ thống phân cấp là
các cụm trung gian.
7.2.4. Phân cụm theo thứ bậc

Các quy tắc mô tả dữ liệu trong mỗi cụm. Quy tắc là một câu
lệnh điều kiện nắm bắt logic được sử dụng để chia một cụm cha
thành các cụm con. Quy tắc mô tả các điều kiện để một trường
hợp được gán với một số xác suất cho một cụm.
Hỗ trợ và Tin cậy
Hỗ trợ và độ tin cậy là các thước đo mô tả mối quan hệ
giữa các quy tắc phân cụm và các trường hợp. Hỗ trợ là tỷ
16



lệ phần trăm các trường hợp mà quy tắc đó giữ nguyên. Độ
tin cậy là xác suất mà một trường hợp được mô tả bởi quy
tắc này thực sự được gán cho cụm.
Đánh giá mơ hình phân cụm
Vì các lớp đã biết không được sử dụng trong phân cụm, việc
giải thích các cụm có thể gây khó khăn. Làm thế nào để bạn
biết liệu các cụm có thể được sử dụng một cách đáng tin
cậy để ra quyết định kinh doanh hay khơng?
Các mơ hình phân cụm Khai thác dữ liệu của Oracle hỗ trợ
mức độ mơ hình cao minh bạch. Bạn có thể đánh giá mơ
hình bằng cách kiểm tra thơng tin do thuật tốn phân cụm
tạo ra: ví dụ: trung tâm của một cụm dựa trên khoảng cách.
Hơn nữa, bởi vì quá trình phân cụm là phân cấp, bạn có thể
đánh giá các quy tắc và thơng tin khác liên quan đến vị trí
của từng cụm trong hệ thống phân cấp.
Thuật tốn phân cụm
Tìm hiểu các thuật tốn phân cụm khác nhau được sử dụng
trong Khai thác dữ liệu Oracle.
Dữ liệu Oracle Khai thác hỗ trợ các thuật tốn phân cụm
sau:


Sự tối đa hóa kỳ vọng
Tối đa hóa kỳ vọng là một thuật tốn phân cụm ước
tính mật độ theo xác suất.



k- Phương tiện

K-Means là một thuật tốn phân cụm dựa trên
khoảng cách. Oracle Data Mining hỗ trợ phiên bản
nâng cao của k -means.

17




Phân vùng trực giao (Orthogonal Partitioning
Clustering) (O-Cluster)
O-Cluster là một thuật tốn phân cụm dựa trên lưới,
độc quyền.
Các đặc điểm chính của hai thuật toán được so sánh
trong bảng sau.

Các thuật tốn phân cụm được so sánh

Sự tối đa hóa kỳ
Đặc tính

k-Means

O-Cluster

vọng

Phương pháp

Dựa trên


Dựa trên lưới

Dựa trên phân

phân cụm

khoảng cách

Số trường hợp

Xử lý các tập dữ

Thích hợp hơn cho

Xử lý các tập dữ

liệu có kích

các tập dữ liệu có

liệu có kích thước

thước bất kỳ

hơn 500 trường hợp.

bất kỳ

phối


Xử lý các bảng lớn
thơng qua lấy mẫu
chủ động

Số lượng thuộc

Thích hợp hơn

Thích hợp hơn cho

Thích hợp cho các

tính

cho các tập dữ

các tập dữ liệu có số

tập dữ liệu có

liệu có số lượng

lượng thuộc tính cao

nhiều hoặc ít thuộc

thuộc tính thấp

Số lượng cụm


Người dùng đã

tính

Tự động xác định

Tự động xác định

chỉ định

18


×