BÁO cáo môn h c ọ TECHNICAL WRITING AND PRESENTATION đề tài INTRODUCTION TO DATA MINING

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.86 MB, 68 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC


BÁO CÁO MÔN HỌC
TECHNICAL WRITING AND PRESENTATION
Đề tài: INTRODUCTION TO DATA MINING

Giáo viên hướng dẫn:

Ts.Lê Chí Ngọc

Nhóm thực hiện

Nhóm 10

:

Họ và tên

MSSV

Hà Văn Học

20180264

Phạm Đức Anh

20180262

Nguyễn Thị Ngọc Huyền

20173533

Hà Nội, 06/01/22

MỤC LỤC
Mục tiêu học tập .........................................................................................................4
Phạm vi khai thác dữ liệu ...........................................................................................6
Khám phá và giảm thiểu dữ liệu .............................................................................8
Lấy mẫu ..................................................................................................................8
Ví dụ 1. Sử dụng XLMiner để lấy mẫu từ trang tính ..........................................8
Trực quan hóa dữ liệu ...........................................................................................10
Ví dụ 2. Một Boxplot cho Dữ liệu rủi ro tín dụng (Credit Risk Data) .............11
Ví dụ 3. Một biểu đồ tọa độ song song cho Dữ liệu rủi ro tín dụng..................13
Ví dụ 4. Ma trận phân tán cho dữ liệu rủi ro tín dụng.......................................14
Ví dụ 5 Một biểu đồ biến đổi của Dữ liệu rủi ro tín dụng.................................14
Dữ liệu bẩn .....................................................................................................16
Phân tích cluster ....................................................................................................16
Ví dụ 6. Dữ liệu nhóm các trường đại học và cao đẳng trong..........................20
Phân loại .........................................................................................................25
Một giải thích trực quan về phân loại ...................................................................26
Ví dụ 7. Phân loại các quyết định phê duyệt tín dụng một cách trực quan .......26
Ví dụ 8.Tập dữ liệu phân vùng trong XLMiner ................................................28
Phân loại dữ liệu mới ............................................................................................31
Ví dụ 9 Phân loại dữ liệu mới cho các quyết định tín dụng bằng cách sử dụng
điểm tín dụng và năm lịch sử tín dụng ..............................................................32
Kỹ thuật phân loại...........................................................................................32
Ví dụ 10 .Phân loại các quyết định tín dụng bằng thuật tốn k-NN..................34
Ví dụ 11.Phân loại dữ liệu mới bằng k-NN.......................................................37

Phân tích phân biệt (Discriminant Analysis ) .......................................................38
Ví dụ 12.Phân loại các quyết định tín dụng bằng cách sử dụng phân tích phân
biệt .....................................................................................................................39
Ví dụ 13.Sử dụng phân tích phân biệt để phân loại dữ liệu mới .......................43
2

Hồi quy logistic ..............................................................................................44
Ví dụ 14.Phân loại các quyết định phê duyệt tín dụng sử dụng hồi quy logistic
............................................................................................................................46
KỸ THUẬT PHÂN LOẠI TRONG KHAI PHÁ DỮ LIỆU .........................52
Phân loại là gì? ......................................................................................................52
Các vấn đề quan tâm của phân loại ......................................................................55
Phân chia đệ quy này dừng khi một trong những điều kiện sau là đúng:.............58
Phân cụm phân cấp: ..............................................................................................63

3

Mục tiêu học tập
Sau khi học chương này, chúng ta có thể:
• Xác định khai thác dữ liệu và một số cách tiếp cận phổ biến được sử dụng trong
khai thác dữ liệu.
• Giải thích cách phân tích cụm được sử dụng để khám phá và giảm dữ liệu.
• Áp dụng các kỹ thuật phân tích cụm bằng XLMiner.
• Giải thích mục đích của các phương pháp phân loại, cách đo lường hiệu suất phân
loại và việc sử dụng dữ liệu đào tạo và xác nhận.
• Áp dụng k-Hàng xóm gần nhất, phân tích phân biệt đối xử, và hồi quy logistic để
phân loại bằng cách sử dụng XLMiner.
• Mơ tả khai thác quy tắc kết hợp và việc sử dụng nó trong phân tích rổ thị trường.

• Sử dụng XLMiner để phát triển các quy tắc kết hợp.
• Sử dụng phân tích tương quan cho nguyên nhân và kết quả làm mẫu

Trong một bài báo trên tạp chí Analytics, Talha Omer nhận thấy rằng việc sử
dụng điện thoại di động để thực hiện cuộc gọi thoại để lại một lượng dữ liệu đáng
kể. " Nhà cung cấp điện thoại di động biết mọi người bạn đã gọi, bạn đã nói chuyện
trong bao lâu , bạn đã gọi lúc mấy giờ và liệu cuộc gọi của bạn có thành cơng hay
khơng hay đã bị ngắt qng. Nó cũng biết bạn đang ở đâu, bạn thực hiện hầu hết các
cuộc gọi từ đâu, quảng cáo nào bạn đang phản hồi, bạn đã mua bao nhiêu lần trước
đó, v.v. ” Nó cũng biết bạn đang ở đâu, bạn thực hiện hầu hết các cuộc gọi từ đâu,
bạn đang phản hồi chương trình khuyến mãi nào, bạn đã mua bao nhiêu lần trước đó
, v.v. Xét đến thực tế là đại đa số mọi người ngày nay sử dụng điện thoại di động,
4

một lượng dữ liệu khổng lồ về hành vi của người tiêu dùng ln có sẵn. Tương tự,
nhiều cửa hàng hiện nay sử dụng thẻ tích điểm . cho phép người tiêu dùng tận dụng
lợi thế của giá ưu đãi chỉ dành cho những người sử dụng thẻ. Tuy nhiên, khi họ làm
như vậy, thẻ để lại hậu quảdữ liệu kỹ thuật số về các mơ hình mua hàng. Làm thế
nào một doanh nghiệp có thể khai thác những dữ liệu này? Nếu họ có thể hiểu rõ
hơn về các mẫu và mối quan hệ ẩn trong dữ liệu, họ khơng chỉ có thể hiểu thói quen
mua hàng mà cịn có thể tùy chỉnh quảng cáo , khuyến mại, phiếu giảm giá, v.v. cho
từng khách hàng và gửi tin nhắn văn bản và ưu đãi qua email được nhắm mục tiêu
(chúng tơi ' khơng nói chuyện spam ở đây, nhưng người dùng đã đăng ký chọn tham
gia các tin nhắn như vậy).
Khai thác dữ liệu là một lĩnh vực phân tích kinh doanh đang phát triển nhanh
chóng, tập trung vào việc hiểu rõ hơn các đặc điểm và mơ hình giữa các biến nói
chung cơ sở dữ liệu sử dụng nhiều cơng cụ thống kê và phân tích. Nhiều cơng cụ mà
chúng ta đã nghiên cứu trong các chương trước, chẳng hạn như trực quan hóa dữ
liệu, tóm tắt dữ liệu, PivotTables, phân tích tương quan và hồi quy, và các kỹ thuật

khác, được sử dụng rộng rãi trong khai thác dữ liệu. Tuy nhiên, khi lượng dữ liệu
tăng lên theo cấp số nhân, nhiều phương pháp thống kê và phân tích khác đã được
phát triển để xác định mối quan hệ giữa các biến trong tập dữ liệu lớn và hiểu các
mẫu ẩn mà chúng có thể chứa.

Trong chương này, chúng tôi giới thiệu một số phương pháp phổ biến hơn và sử
dụng phần mềm XLMiner để triển khai chúng trong mơi trường bảng tính. Nhiều
thủ tục dữ liệu yêu cầu kiến thức thống kê nâng cao để hiểu lý thuyết cơ bản. Do đó,
chúng tơi tập trung vào các ứng dụng đơn giản và hiểu mục đích và ứng dụng của
các kỹ thuật hơn là cơ sở lý thuyết của chúng.Ngồi ra, chúng tơi lưu ý rằng chương

5

này khơng nhằm mục đích đề cập đếntất cả cáckhía cạnh của khai thác dữ liệu. Nhiều
kỹ thuật khác có sẵn trong XLMinerkhông được mô tả trong chương này.

Phạm vi khai thác dữ liệu
Khai thác dữ liệu có thể được coi là phân tích mơ tả một phần và mơ tả một phần.
Trong phân tích mơ tả, các cơng cụ khai thác dữ liệu giúp các nhà phân tích xác định
các mẫu trong dữ liệu. Ví dụ: biểu đồ Excel và PivotTables là những cơng cụ hữu
ích để mơ tả các mẫu và phân tích tập dữ liệu; tuy nhiên, chúng u cầu sự can thiệp
thủ cơng. Các mơ hình phân tích và dự báo hồi quy giúp chúng ta dự đoán các mối
quan hệ hoặc giá trị tương lai của các biến quan tâm. Theo quan sát của một số nhà
nghiên cứu, “ranh giới giữa dự đốn và mơ tả khơng rõ ràng (một số mơ hình dự
đốn có thể mang tính mơ tả, ở mức độ dễ hiểu và ngược lại).” Trong hầu hết các
ứng dụng kinh doanh, mục đích của phân tích mơ tả là để giúp các nhà quản lý dự
đoán tương lai hoặc đưa ra các quyết định tốt hơn sẽ ảnh hưởng đến hiệu suất trong
tương lai, vì vậy, chúng ta có thể nói chung rằng khai thác dữ liệu chủ yếu là một
phương pháp phân tích dự đốn.

Một số cách tiếp cận phổ biến trong khai thác dữ liệu bao gồm:

 Thăm dò (khám phá) và giảm thiểu dữ liệu: Điều này thường liên quan đến
việc xác định các nhóm trong đó các yếu tố của các nhóm giống nhau về mặt nào
đó. Cách tiếp cận này thường được sử dụng để tìm hiểu sự khác biệt giữa các khách
hàng và phân khúc họ thành các nhóm đồng nhất. Ví dụ: các cửa hàng bách hóa của
Macy đã xác định được 4 phong cách sống của khách hàng: “Katherine”, một người
ăn mặc truyền thống, cổ điển, khơng chịu nhiều rủi ro và thích chất lượng; “Julie”,
tân cổ điển và sắc sảo hơn một chút nhưng vẫn cổ điển; “Erin”, một khách hàng
đương đại yêu thích sự mới mẻ và mua sắm theo thương hiệu; và “Alex”, khách hàng
6

thời trang chỉ muốn những thứ mới nhất và tuyệt vời nhất (họ cũng có phiên bản
dành cho nam) .4 Việc phân khúc như vậy rất hữu ích trong các ho ạt động thiết kế
và tiếp thị để nhắm mục tiêu tốt hơn đến việc cung cấp sản phẩm. Các kỹ thuật này
cũng đã được sử dụng để xác định các đặc điểm của những nhân viên thành công và
cải thiện các phương thức tuyển dụng và tuyển dụng.
 Phân loại: Phân loại là q trình phân tích dữ liệu để dự đoán cách phân loại
một phần tử dữ liệu mới. Một ví dụ về phân loại là lọc thư rác trong ứng dụng email. Bằng cách kiểm tra các đặc điểm văn bản của một thư (tiêu đề chủ đề, các từ
khóa, v.v.), thư có được phân lo ại là rác hay khơng. Các phương pháp phân loại có
thể giúp dự đốn liệu một giao dịch thẻ tín dụng có thể gian lận hay khơng, người
xin vay có r ủi ro cao hay không hoặc liệu người tiêu dùng có phản ứng với một
quảng cáo hay khơng.
 Sự liên kết: Liên kết là q trình phân tích cơ sở dữ liệu để xác định các liên
kết tự nhiên giữa các biến và tạo ra các quy tắc cho các khuyến nghị mua hoặc tiếp
thị mục tiêu. Ví dụ: Netflix sử dụng liên kết để hiểu khách hàng thích loại phim nào
và đưa ra các đề xuất dựa trên dữ liệu. Amazon.com cũng đưa ra các đề xuất dựa
trên các giao dịch mua trong quá khứ. Thẻ khách hàng thân thiết của siêu thị thu thập
dữ liệu về thói quen mua hàng của khách hàng và in phiếu giảm giá tại thời điểm

mua hàng dựa trên những gì hiện đã mua.
 Mơ hình nhân quả: Mơ hình nhân quả là q trình phát triển các mơ hình phân
tích để mơ tả mối quan hệ giữa các chỉ số thúc đẩy hiệu suất kinh doanh — ví dụ:
lợi nhuận, sự hài lòng của khách hàng hoặc sự hài lòng của nhân viên. Hiểu được
các yếu tố thúc đẩy hiệu suất có thể dẫn đến các quyết định tốt hơn để cải thiện hiệu
suất. Ví dụ, nhóm kiểm sốt của Johnson Controls, Inc., đã xem xét mối quan hệ
giữa sự hài lòng và tỷ lệ gia hạn hợp đồng. Họ phát hiện ra rằng 91% các trường hợp
gia hạn hợp đồng đến từ những khách hàng hài lòng ho ặc rất hài lịng, và những
khách hàng khơng hài lịng có tỷ lệ bỏ trốn cao hơn nhiều. Mơ hình của họ dự đoán
7

rằng sự gia tăng một điểm phần trăm trong điểm hài lịng tổng thể có giá trị 13 triệu
đơ la khi gia hạn hợp đồng dịch vụ hàng năm. Kết quả là, họ đã xác định được các
quyết định sẽ cải thiện sự hài lịng của khách hàng. Phân tích hồi quy và tương quan
là các cơng cụ chính để lập mơ hình ngun nhân và kết quả.

Khám phá và giảm thiểu dữ liệu
Một số kỹ thuật cơ bản trong khai thác dữ liệu liên quan đến việc khám phá dữ
liệu và "giảm dữ liệu" - nghĩa là, chia nhỏ các bộ dữ liệu lớn thành các nhóm ho ặc
phân đoạn dễ quản lý hơn cung cấp cái nhìn sâu sắc hơn. Chúng tơi đã thấy nhiều kỹ
thuật trước đó trong cuốn sách này để khám phá dữ liệu và giảm dữ liệu. Ví dụ: biểu
đồ, phân bố tần số và biểu đồ, và thống kê tóm tắt cung cấp thơng tin cơ bản về các
đặc tính của dữ liệu. Đặc biệt, PivotTables r ất hữu ích trong việc khám phá dữ liệu
từ các khía cạnh khác nhau và giảm dữ liệu. XLMiner cung cấp nhiều công cụ và kỹ
thuật để khám phá dữ liệu bổ sung hoặc mở rộng các khái niệm và công cụ mà chúng
ta đã nghiên cứu trong các chương trước. đó là được tìm thấy trong nhóm Phân tích
Dữ liệu của dải băng XLMiner, được hiển thị trong Hình 1.1.
Lấy mẫu
Khi xử lý tập dữ liệu lớn và "dữ liệu lớn", có thể tốn kém hoặc mất thời gian để

xử lý tất cả dữ liệu. Thay vào đó, chúng tơi có thể phải sử dụng một mẫu. Chúng tơi
đã giới thiệu quy trình lấy mẫu trong Chương 6. XLMiner có thể lấy mẫu từ trang
tính Excel hoặc từ Microsoft Truy cập cơ sở dữ liệu.
Ví dụ 1. Sử dụng XLMiner để lấy mẫu từ trang tính
8

Hình 1.1 Ruy băng XLMiner

Hình 1.2 Phần dữ liệu rủi ro tín dụng trên tệp Excel
Hình 1.2 cho thấy một phần của Bảng tính Dữ liệu cơ sở tệp Excel dữ liệu rủi ro
tín dụng. Mặc dù chắc chắn khơng phải là "dữ liệu lớn", nó bao gồm 425 bản ghi.
Từ dữ liệu nhóm phân tích (Data Analysis) trong ruy-băng XLMiner, nhấp vào nút
mẫu (Sample) và chọn mẫu (Sample) từ trang tính (Worksheet).Đảm bảo rằng vi dữ
liệu là chính xác và bao gồm các tiêu đề.

Chọn tất cả các biến trong ngăn cửa sổ bên trái và di chuyển chúng sangbên phải
bằng cách sử dụng nút ≤ (nút này thay đổi thành ≤ nếu tất cả các biến được chuyển
9

sang bên phải ).Chọn các tùy chọn trong phần Tùy chọn lấy mẫu (Sampling Options),
trong trường hợp này, chúng tôi đã chọn 20 mẫu (khơng có thay thế trừ khi hộp mẫu
có thay thế được chọn điều này tránh trùng lặp) bằng cách sử dụng lấy mẫu ngẫu
nhiên đơn giản. Bằng cách nhập một giá trị vào hộp đặt hạt giống (Set), bạn có thể
nhận được cùng một kết quả tại một thời điểm khác cho mục đích kiểm sốt, nếu
khơng một mẫu ng ẫu nhiên khác sẽ được chọn.

Hình 1.3 Dữ liệu rủi ro tín dụng
Hình 1.4 cho thấy hộp thoại đã hồn thành và hình 1.5 hiển thị kết quả.

Hình 1.4 Kết quả lấy mẫu XLMiner

Trực quan hóa dữ liệu

10

XLMiner cung cấp nhiều biểu đồ để trực quan hóa dữ liệu. Chúng tôi đã thấy nhiều
trong số này, chẳng hạn như biểu đồ thanh, đường và phân tán và biểu đồ. Tuy nhiên,
XLMiner cũng có khả năng tạo các ô hộp, biểu đồ tọa độ song song, biểu đồ ma trận
phân tán,và các biểu đồ biến đổi. Chúng được tìm thấy từ nút Khám phá trong nhóm
Phân tích dữ liệu.

Hình 1.5 Boxplot cho các tháng có việc làm theo tình trạng hơn nhân

Ví dụ 2. Một Boxplot cho Dữ liệu rủi ro tín dụng (Credit Risk Data)

Chúng tơi sẽ xây dựng một ô vuông cho số tháng được tuyển dụng cho mỗi giá
trị tình trạng hơn nhân từ Dữ liệu rủi ro tín dụng (Credit Risk Data) . Đầu tiên, chọn
trình hướng dẫn biểu đồ (Chart Wizard) từ nút khám phá (Explore) trong nhóm phân
tích dữ liệu (Data Analysis) trong tab XLMiner. Chọn Boxplot,trong hộp tho ại thứ
hai, chọn Tháng (Months Employed) sử dụng làm biến để vẽ biểu đồ trên trục tung.
11

Trong hộp thoại tiếp theo, chọn tình trạng hơn nhân (Marital Status) làm biến để vẽ
trên trục hoành. Nhấp vào kết thúc (Finish).

Hình 1.5 Boxplot cho các tháng có việc làm theo tình trạng hơn nhân

Kết quả được thể hiện trong hình 1.5. Phạm vi hộp hiển thị thứ 25 và 75 phần trăm
(phạm vi liên phần phân vị, IQR) , đường liền nét trong hộp là trung vị và đường
chấm trong hộp là giá trị trung bình.
Boxplots (đơi khi được gọi là đồ thị hình hộp và râu) hiển thị bằng đồ thị năm thống
kê chính của tập dữ liệu — tối thiểu, phần tư thứ nhất, trung vị, phần tư thứ ba và tối
đa - và rất hữu ích trong việc xác định hình dạng của phân phối và các giá trị ngoại
lai trong dữ liệu.
Biểu đồ tọa độ song song (parallel coordinates chart ) bao gồm một tập hợp các
trục tung, một trục cho mỗi biến được chọn. Đối với mỗi quan sát, một đường thẳng
được vẽ nối các trục thẳng đứng. Điểm tại đó đường thẳng cắt qua trục biểu thị giá
trị cho biến đó. Biểu đồ tọa độ song song tạo ra "cấu hình đa biến " và giúp nhà phân
tích khám phá dữ liệu và rút ra kết luận cơ bản
12

Ví dụ 3. Một biểu đồ tọa độ song song cho Dữ liệu rủi ro tín dụng
Đầu tiên, chọn trình hướng dẫn biểu đồ (Chart Wizard) từ nút Khám phá
(Explore)trong nhóm phân tích Dữ liệu (Data Analysis) trong tab XLMiner. Chọn
tọa độ Song song (Parallel Coordinates) . Trong hộp thoại thứ hai, chọn kiểm
tra(Checking), Tiết kiệm(Savings) , Số tháng làm việc(Months Employed) và
Tuổi(Age) tác làm các biến để bao gồm.
Hình 1.6 cho thấy k ết quả. Trong hộp thả xuống nhỏ ở trên cùng, bạn có thể
chọn tơ màu các đường theo một trong các biến.

Hình 1.6 Example of a Parallel Coordinates Plot
Trong trường hợp này chúng tôi đã chọn để tơ màu theo rủi ro tín dụng. Màu
vàng thể hiện rủi ro tín dụng thấp và màu xanh lam tượng trưng cho mức cao . Chúng
tơi thấyrằngnhững cá nhâncó số tháng làm việc thấp và độ tuổi thấp hơn có xu hướng
13

có rủi ro tín dụng cao , thể hiện qua mật độ của các đường màu xanh lam. Giống như
với ô hộp, bạn có thể dễ dàng lọc dữ liệu để khám phá các kết hợp khác của các biến
hoặc tập hợp con của dữ liệu.
Ma trận biểu đồ phân tán (scatterplot matrix ) kết hợp một số biểu đồ phân tán
vào một bảng điều khiển, cho phép người dùng trực quan hóa các mối quan hệ theo
cặp giữa các biến.
Ví dụ 4. Ma trận phân tán cho dữ liệu rủi ro tín dụng

Chọn Trình hướng dẫn Biểu đồ từ nút Khám phá trong nhóm Phân tích Dữ liệu
trong tab XLMiner. Chọn Ma trận Scatterplot . Trong hộp tho ại tiếp theo, hãy chọn
các hộp cho Tháng Khách hàng, S ố tháng Làm việc và Độ tuổi và nhấp vào Kết
thúc. Hình 1.7 cho thấy kết quả. Dọc theo đường chéo là biểu đồ của các biến riêng
lẻ. Ngoài đường chéo là biểu đồ phân tán của các cặp biến. Ví dụ: biểu đồ ở hàng
thứ ba và cột thứ hai của hình cho thấy biểu đồ phân tán của các tháng có việc làm so
với Tuổi. Lưu ý rằng số tháng được sử dụng nằm trên trục x và tuổi trên trục y. Dữ
liệu dường như có xu hướng tuyến tính đi lên một chút , cho thấy rằng những người
lớn tuổi đã làm việc trong một thời gian dài hơn. Lưu ý rằng có hai biểu đồ cho mỗi
cặp biến với các trục được lật. Ví dụ: biểu đồ ở hàng thứ hai và cột thứ ba giống như
biểu đồ chúng ta đã thảo lu ận, nhưng có độ tuổi trên trục x. Như trước đây, bạn có
thể dễ dàng lọc dữ liệu để tạo các chế độ xem khác nhau

Cuối cùng, một biểu đồ biến chỉ cần vẽ một ma trận biểu đồ cho các biến đã chọn.

Ví dụ 5 Một biểu đồ biến đổi của Dữ liệu rủi ro tín dụng
14

Chọn Trình hướng dẫn Biểu đồ từ nút Khám phá trong nhóm Phân tích Dữ liệu

trong tab XLMiner . Chọn Biến . Trong hộp thoại tiếp theo, hãy chọn hộp cho các
biến mà bạn muốn đưa vào (chúng tôi đã giữ tất cả chúng) và nhấp vào Kết
thúc. Hình 1.8 cho thấy kết quả. Công cụ này dễ sử dụng hơn nhiều so với công cụ
Biểu đồ của Excel , đặc biệt là đối với nhiều biến trong tập dữ liệu và bạn có thể dễ
dàng lọc dữ liệu để tạo ra các quan điểm khác nhau.

Hình 1.8 Ví dụ về Ma trận Scatterplot

Hình 1.9 Ví dụ về một lơ biến

15

Dữ liệu bẩn
Khơng có gì lạ khi tìm thấy các tập dữ liệu thực bị thiếu các giá trị hoặc lỗi. Các
tập dữ liệu như vậy được gọi là "bẩn" và cần được "làm sạch" trước khi phân tích
chúng. Một số cách tiếp cận được sử dụng để xử lý dữ liệu bị thiếu. Ví dụ, chúng tơi
có thể đơn giản loại bỏ các bản ghi có chứa dữ liệu bị thiếu; ước tính các giá trị hợp
lý cho các quan sát bị thiếu, chẳng hạn nhưgiá trị trung bình hoặc giá trị trung vị,
hoặc sử dụng quy trình khai thác dữ liệu để đối phó với chúng. XLMiner có khả
năng xử lý dữ liệu bị thiếu trong menu Chuyển đổi trong nhóm Phân tích dữ liệu.
Chúng tơi khun bạn nên tham khảo Hướng dẫn sử dụng XLMiner từ menu Trợ
giúp đểbiết thêmthông tin. Trong bất kỳ trường hợp nào, bạn nên cố gắng hiểuxem
dữ liệu bị thiếuchỉ làsự kiện ngẫu nhiên hay có lý do hợp lý khiến chúng bị thiếu.
Loại bỏ dữ liệu mẫumột cách bừa bãicó thể dẫn đến thông tin và kết luận sai lệch về
dữ liệu.
Các lỗi dữ liệu thường có thể được xác định từ các ngoại lệ. Một cách tiếp cận
điển hình là đánh giá dữ liệu có và khơng có ngoại lệ và xác định xem liệutác động
của chúng sẽ thay đổi đáng kể các kết luận và liệu có nên dành nhiều nỗ lực hơn để
cố gắng hiểu và giải thích chúng hay khơng.

Phân tích cluster
Phân tích theo cụm, cịn được gọi là phân đoạn dữ liệu, là một tập hợp các kỹ thuật
tìm cách nhóm hoặc phân đoạn một tập hợp các đối tượng (tức là các quan sát ho ặc
bản ghi) thành các tập hợp con hoặc cụm, sao cho các đối tượng trong mỗi cụm có
liên quan chặt chẽ hơn với nhau hơncác đối tượng được gán cho các cụm khác nhau.

16

Các đối tượng trong các cụm nên thể hiện mức độ giống nhau cao, trong khi các đối
tượng trong các cụm khác nhau sẽ khơng giống nhau.
Phân tích cụm là một kỹ thuật giảm thiểu dữ liệu theo nghĩa là nó có thể thực hiện
một số lượng lớn các quan sát, chẳng hạn như khảo sát khách hàng hoặc bảng câu
hỏi và giảm thơng tin thành các nhóm nhỏ hơn, đồng nhất có thể được giải thích dễ
dàng hơn. Ví dụ: việc phân đoạn khách hàng thành các nhóm nhỏ hơn có thể được
sử dụng để tùy chỉnh quảng cáo ho ặc khuyến mại. Trái ngược với nhiều kỹ thuật
khai thác dữ liệu khác, phân tích cụm chủ yếu mang tính mơ tả và chúng tơi khơng
thể rút ra các suy lu ận thống kê về một mẫu bằng cách sử dụng nó. Ngồi ra, các
cụm được xác định khơng phải là duy nhất và phụ thuộc vào quy trình cụ thể được
sử dụng, do đó, nó khơng dẫn đến một câu trả lời chắc chắn mà chỉ cung cấp những
cách mới để xem xét dữ liệu. Tuy nhiên, nó là một kỹ thuật được sử dụng rộng rãi.
Có hai phương pháp phân cụm chính - phân cụm phân cấp và phân cụm k-mean.
Trong phân cụm phân cấp, dữ liệu không được phân chia thành một cụm cụ thể trong
một bước duy nhất. Thay vào đó, một loạt các phân vùng diễn ra, có thể chạy từ một
cụm duy nhất chứa tất cả các đối tượng đến n cụm, mỗi cụm chứa một đối tượng duy
nhất. Phân cụm phân cấp được chia thành các phương pháp phân cụm tích tụ, phương
pháp này tiến hành bằng một loạt các hợp nhất của n đối tượng thành các nhóm và
các phương pháp phân nhóm chia nhỏ, tách n đối tượng liên tiếp thành nhóm tốt hơn.
Hình 1.9 minh họa sự khác biệt giữa hai loại phương pháp này.

Các kỹ thuật tổng hợp được sử dụng phổ biến hơn và đây là phương pháp được
thực hiện trong XLMiner. Phân cụm phân cấp có thể được biểu diễn bằng một sơ
đồ được gọi là biểu đồ dendrogram , minh họa sự hợp nhất hoặc sự phân chia được
thực hiện ở mỗi

17

Hình 1.9 Phân cụm tích hợp so với phân chia
Một quy trình phân cụm phân cấp tích tụ tạo ra một loạt các phân vùng dữ liệu,
Pn, Pn - 1, …, P1. Pn bao g ồm n cụm đối tượng đơn lẻ, và P1 bao gồm một nhóm đơn
chứa tất cả n quan sát. Ở mỗi giai đoạn cụ thể, phương thức này kết hợp hai cụm gần
nhau nhất (giống nhau nhất). Ở giai đoạn đầu, điều này chỉ đơn giản là nối hai đối
tượng gần nhau nhất lại với nhau. Các phương pháp khác nhau sử dụng những cách
khác nhau để xác định khoảng cách (hoặc độ giống nhau) giữa các cụm.

Thước đo khoảng cách giữa các vật thể được sử dụng phổ biến nhất là khoảng
cách Euclide. Đây là phần mở rộng của cách thức mà trong đó khoảng cách giữa hai
điểm trên làn đường ap được tính là cạnh huyền của một tam giác vng (xem Hình
10.10). Phép đo phương vị Euclide d giữa hai điểm (x1, x2 ,...., Xn) và (y1, y2 , ..., Yn)
là Một số phương pháp phân cụm sử dụng khoảng cách Euclide bình phương (tức
là khơng có căn bậc hai) vì nó tăng tốc độ tính tốn.

18

Một trong những phương pháp phân cụm phân cấp tích tụ đơn giản nhất là liên
kết đơn clustering, còn được gọi là kỹ thuật lân cận gần nhất. Đặc điểm xác định
của phương pháp là khoảng cách giữa các nhóm được định nghĩa là khoảng cách
giữa các cặp đối tượng gần nhau nhất, trong đó chỉ các cặp bao gồm một đối tượng

từ mỗi nhóm được xem xét. Trong k ết đơn, khoảng cách giữa hai cụm, r và s, D (r,
s), được xác định là khoảng cách tối thiểu giữa bất kỳ đối tượng nào trong cụm r và
bất k ỳ đối tượng nào trong cụm s. Nói cách khác, kho ảng cách giữa hai cụm được
cho bởi giá trị của liên kết ng ắn nhất giữa các cụm. Ở mỗi giai đoạn của phân cụm
phân cấp, chúng tôi tìm thấy hai cụm có khoảng cách nhỏ nhất giữa chúng và hợp
nhất chúng lại với nhau.
Một phương pháp khác về cơ bản đối lập với phân cụm liên kết đơn được gọi là
phân cụm liên kết hoàn chỉnh. Trong phương pháp này, khoảng cách giữa các nhóm
được xác định là khoảng cách giữa các cặp vật ở xa nhất, cách mỗi nhóm một vật.

Hình 1.10 Tính khoảng cách Euclide giữa hai điểm

19

Phương pháp thứ ba là phân cụm liên kết trung bình. Ở đây khoảng cách giữa
hai cụm được xác định là trung bình của khoảng cách giữa tất cả các cặp đối tượng,
trong đó mỗi cặp được tạo thành từ một đối tượng từ mỗi nhóm. Các phương pháp
khác là phân cụm liên kết nhóm trung bình, sử dụng giá trị trung bình cho mỗi biến
để tính tốn khoảng cách giữa các cụm và phương pháp phân nhóm phân cấp của
Ward, sử dụng tiêu chí tổng bình phương. Các phương pháp khác nhau thường mang
lại kết quả khác nhau, vì vậy tốt nhất bạn nên thử nghiệm và so sánh kết quả.

Ví dụ 6. Dữ liệu nhóm các trường đại học và cao đẳng trong
Hình 1.11 cho thấy một phần của các trường Cao đẳng và Đại học trong tệp
Excel. Các đặc điểm của các tổ chức này khác nhau khá rộng rãi. Giả sử rằng chúng
tôi muốn tập hợp chúng thành các nhóm đồng nhất hơn dựa trên SAT trung bình, tỷ
lệ chấp nhận, chỉ tiêu / học sinh, tỷ lệ học sinh trong 10% học sinh giỏi nhất trường
trung học của họ và tỷ lệ tốt nghiệp.
Trong XLMiner, chọn Phân cụm phân cấp từ menu Cụm trong nhóm Phân tích

dữ liệu.

Hình 1.12 Phân cụm phân cấp Hộp thoại, Bước 1

20

Trong hộp thoại hình 1.12, chỉ định phạm vi dữ liệu và di chuyển các biến quan
tâm vào danh sách Biến đã Chọn. Lưu ý rằng chúng tơi đang nhóm các biến số, vì
vậy Trường và Loại khơng được bao gồm. Sau khi nhấp vào Tiếp theo, danh mục
Bước 2 xuất hiện (xem Hình 1.13).

Hình 1.13 Hộp thoại phân cụm phân cấp , Bước 2
Đánh dấu vào ơ Chuẩn hóa dữ liệu đầu vào của tôi, điều này rất quan trọng để
đảm bảo rằng thước đo khoảng cách có trọng số bằng nhau đối với mỗi biến, khơng
có chuẩn hóa, biến có tỷ lệ lớn nhất sẽ chiếm ưu thế. Phân cụm phân cấp sử dụng
khoảng cách Euclide làm thước đo độ tương tự cho dữ liệu số. Các tùy chọn khác
chỉ áp dụng cho dữ liệu nhị phân (0 hoặc 1). Chọn phương pháp lọc mà bạn muốn
sử dụng.

Hình 1.14 Hộp thoại phân cụm phân cấp , Bước 3
21

Trong trường hợp này, chúng tôi chọn Liên kết trung bình nhóm. Trong hộp
thoại cuối cùng (Hình 1.14), chọn số lượng cụm. Phương pháp kết tụ ở đây tức là
phân cụm liên tục tạo thành các cụm cho đến khi chỉ còn lại một cụm. Tùy chọn này
cho phép bạn dừng q trình ở một số cụm. Chúng tơi đã chọn bốn cụm.

Chúng ta có thể thấy rằng các trường trong cụm 3 có hồ sơ khá giống nhau, trong

khi Cal Tech nổi bật hơn hẳn từ những người khác.
Đầu ra được lưu trên nhiều trang tính. Hình 1.15 tóm tắt các đầu vào như thế nào.
Bạn có thể sử dụng thanh Điều hướng đầu ra ở đầu trang tính để hiển thị các phần
khác nhau của kết quả thay vì cố gắng tự mình điều hướng qua các trang tính.

Một phần của các trường đại học và cao đẳng về tệp Excel

22

Hình 1.15 Kết quả phân cụm phân cấp : Đầu vào

Đầu ra Clustering Stages trình bày chi tiết lịch sử hình thành cụm, cho biết cách
các cụm được hình thành trong mỗi giai đoạn của thuật toán. Ở các giai đoạn khác
nhau của q trình lọc, có số lượng các cụm khác nhau. Hình ảnh dendrogram cho
phép bạn hình dung điều này. Điều này được thể hiện trong Hình 1.16.

Hình 1.16 Kết quả phân cụm: Biểu đồ hình và Chú giải cụm một phần
23

Trục y đo khoảng cách giữa các lớp. Do quy mô của vấn đề, mỗi quan sát riêng
lẻ không được hiển thị và một số quan sát trong số chúng đã được nhóm lại trong
"các cụm con". ID cụm con được liệt kê dài theo trục x, với chú giải bên dưới. Ví dụ,
trong thủ tục phân cụm, các bản ghi 20 và 25, và các bản ghi 14 và 16 đã được hợp
nhất, các cụm con này sau đó đã được hợp nhất cùng với nhau. Ở trên cùng của sơ
đồ, chúng ta thấy tất cả các cụm được hợp nhất thành một cụm duy nhất. Nếu bạn
vẽ một đường thẳng nằm ngang qua đồ thị ở bất kỳ giá trị nào đối với trục y, bạn có
thể xác định số lượng các cụm và số lượng quan sát được trong mỗi cụm đó. Ví dụ,
vẽ đường thẳng ở giá trị khoảng cách là 3, bạn có thể thấy rằng chúng ta có bốn cụm,

chỉ cần theo dõi các cụm con ở cuối các nhánh để xác định các quan sát riêng lẻ
trong mỗi nhóm đó.
Các cụm được dự đoán cho thấy việc chỉ định các quan sát cho số lượng các cụm
mà chúng tôi đã chỉ định trong hộp thoại đầu vào, trong trường hợp này là bốn.

Hình 1.1 Phần kết quả phân cấp theo thứ bậc : Các cụm được dự đoán
Điều này được thể hiện trong Hình 1.17.Chẳng hạn, cụm 3 chỉ gồm ba trường là hồ
sơ 4, 28, 29, và cụm 4 chỉ bao gồm một quan sát, bản ghi 6
24

Phân loại
Các phương pháp phân loại tìm cách phân loại một kết quả phân loại thành một
trong hai hoặc nhiều loại dựa trên các thuộc tính dữ liệu khác nhau. Đối với mỗi bản
ghi trong cơ sở dữ liệu, chúng tơi có một biến phân loại quan tâm (ví dụ: mua hoặc
không mua, rủi ro cao hoặc không rủi ro), dải một số biến dự báo bổ sung (tuổi, thu
nhập, giới tính, giáo dục, tài sản, v.v.). Đối với một tập hợp các biến dự báo nhất
định, chúng tôi muốn chỉ định giá trị tốt nhất của biến phân loại. Chúng tôi sẽ minh
họa các kỹ thuật phân loại khác nhau bằng cách sử dụng Cơ sở dữ liệu Excel Quyết
định Phê duyệt Tín dụng.
Một phần của cơ sở dữ liệu này được thể hiện trong Hình 1.18. Trong cơ sở dữ liệu
này, biến số quan tâm là quyết định phê duyệt hoặc từ chối đơn đăng ký tín dụng.
Các biến còn lại là các biến dự báo. Tuy nhiên, vì chúng tơi đang làm việc với dữ
liệu số , chúng tơi cần phải mã hóa các trường Chủ nhà và Quyết định bằng số.
Chúng tơi mã thuộc tính Chủ nhà là "Y" là 1 và "N" là 0,tương tự, chúng tơi mã
thuộc tính Quyết định

Hình 1.18 Tệp Excel được sửa đổi với các biến được mã hóa bằng số
"Phê duyệt" là 1 và "Từ chối" là 0. Hình 10.19 cho thấy một phần của cơ sở dữ
liệu đã được sửa đổi ( tệp Excel Quyết định Phê duyệt Tín dụng được Mã hóa).

BÁO cáo môn h c ọ TECHNICAL WRITING AND PRESENTATION đề tài INTRODUCTION TO DATA MINING

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về