Tải bản đầy đủ (.pdf) (78 trang)

Phân tích các yếu tố ảnh hưởng đến thu nhập của người trưởng thành đang làm việc tại mỹ bằng phần mềm orange

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.1 MB, 78 trang )

lOMoARcPSD|21911340

ĐẠI HỌC UEH
TRƯỜNG KINH TẾ, LUẬT VÀ QUẢN LÝ NHÀ NƯỚC
BỘ MÔN CÔNG NGHỆ THÔNG TIN

BÁO CÁO ĐỒ ÁN HỌC PHẦN
KHOA HỌC DỮ LIỆU

ĐỀ TÀI : PHÂN TÍCH CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN THU NHẬP CỦA
NGƯỜI TRƯỞNG THÀNH ĐANG LÀM VIỆC TẠI MỸ BẰNG PHẦN
MỀM ORANGE
GVHD: TS.GVC Nguyễn Quốc Hùng
Nhóm thực hiện: Nhóm 5
Dương Trung Hiếu (Trưởng nhóm)
Nguyễn Phi Hùng
Lê Đăng Khoa
Đỗ Thị Hoàng My
Trịnh Thị Ái Vy

TP Hồ Chí Minh, ngày 18 tháng 12 năm 2022


lOMoARcPSD|21911340

LỜI MỞ ĐẦU
Trong quá trình học tập và nghiên cứu, nhóm chúng em đã được sự chỉ dẫn cũng
như quan tâm giúp đỡ tận tình của thầy. Khơng chỉ vậy, những bài giảng và những kiến
thức được thầy truyền đạt tâm huyết và súc tích đã giúp nhóm chúng em hiểu được và
vận dụng vào bài nghiên cứu này.
Có lẽ kiến thức là vô hạn nhưng sự tiếp thu kiến thức mỗi người sẽ đều một khác


nhau và sẽ luôn tồn tại những hạn chế nhất định. Do đó trong q trình làm bài tiểu luận
này, nhóm khơng tránh khỏi được những sai lầm thiếu sót. Vì vậy chúng em mong nhận
được những đánh giá cũng như góp ý để cải thiện khả năng của bản thân mỗi con người
trong nhóm được tốt hơn.
Khoa học dữ liệu cực kỳ quan trọng đối với bất kỳ doanh nghiệp nào đang hoạt
động trong ngành nghề nào vì khoa học dữ liệu giúp cho họ có thể quyết định được
hướng đi dựa trên xu hướng hiện tại cũng như các số liệu thống kê để đem lại kết quả dự
đốn chính xác nhất. Trong thời đại 4.0 hiện nay, việc đẩy mạnh thông tin là vô cùng cần
thiết, đi đôi với việc phát triển thì hiện này tràn lan các dữ liệu, số liệu, vì thế việc khoa
học dữ liệu giúp ích khơng chỉ cho các doanh nghiệp mà cịn nhiều người nói chung chọn
lọc được các thông tin cần thiết và hữu ích.
Vì thế để đi sâu hơn hiểu rõ về vấn đề cũng như sự hữu ích từ khoa học dữ liệu,
nhóm chúng em đã tiến hành phân tích các yếu tố ảnh hưởng đến thu nhập của người
trưởng thành đang làm việc tại Mỹ bằng phần mềm orange để biết được những nhân tố
tác động ảnh hưởng đến thu nhập của người dân tại đây. Trong bài này, nhóm đầu tiên sẽ
trình bày tổng quan về khoa học dữ liệu, đề tài và mục tiêu nghiên cứu của nhóm. Ở phần
tiếp theo, nhóm sẽ trình bày các phương pháp đã sử dụng.
Lần lượt tiếp theo là ứng dụng bài toán này vào thực tế, các kết quả thực nghiệm
từ nhóm đã làm và cuối cùng là kết luận từ những gì nhóm đã làm và mục tiêu nghiên
cứu.
1


lOMoARcPSD|21911340

LỜI CẢM ƠN
Trước tiên với tình cảm sâu sắc và chân thành nhất, cho phép nhóm chúng em
được bày tỏ lòng biết ơn đến thầy đã tạo điều kiện hỗ trợ, giúp đỡ em trong suốt q trình
học tập mơn Khoa học dữ liệu. Tuy đây không phải là môn chuyên ngành của em nhưng
qua những lời giảng của thầy chúng em cũng đã hiểu hơn về môn Khoa học dữ liệu cũng

như ngành cơng nghệ thơng tin nói chung.
Một lần nữa, chúng em xin chân thành cảm ơn thầy – người đã trực tiếp giúp đỡ,
quan tâm, và giảng dạy cho chúng em những kiến thức bổ ích.
Qua bài tiểu luận này, chúng em nhận ra mình vẫn cịn hạn chế và cịn nhiều bỡ ngỡ nên
khơng tránh khỏi những thiếu sót, rất mong nhận được những ý kiến đóng góp quý báu
của Thầy để kiến thức của em trong lĩnh vực này được hoàn thiện hơn đồng thời có điều
kiện bổ sung, nâng cao ý thức của mình.
Chúng em xin chân thành cảm ơn và chúc thầy thật nhiều sức khoẻ để dẫn dắt
thêm nhiều thế hệ UEHer mai sau!

2


lOMoARcPSD|21911340

LỜI CAM KẾT
Nhóm xin cam đoan đây là cơng trình nghiên cứu của nhóm tác giả và được sự
hướng dẫn của Thầy Nguyễn Quốc Hùng. Các nội dung nghiên cứu trong đề tài môn
Khoa học dữ liệu của chúng tôi là trung thực và chưa công bố dưới bất kỳ hình thức nào
trước đây. Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh
giá được cá nhân thu thập từ các nguồn khác nhau có ghi rõ nguồn gốc. Tiểu luận này do
nhóm tác giả xây dựng, xử lý, không sao chép từ bất cứ bài viết của bất cứ tổ chức nào.
Nếu phát hiện có bất kỳ sự gian lận nào nhóm xin hoàn toàn chịu trách nhiệm về nội dung
bài báo cáo của mình.

3


lOMoARcPSD|21911340


BẢNG PHÂN CÔNG CÁC THÀNH VIÊN
STT
1
2

Họ và tên
Dương Trung Hiếu
(Trưởng nhóm)
Nguyễn Phi Hùng

3
4

Lê Đăng Khoa
Đỗ Thị Hồng My

5

Trịnh Thị Ái Vy

Cơng việc phụ trách
Mức độ hồn thành
Nội dung phân cụm
100%
chương 3, chương 4
Nội dung phân lớp
100%
chương 3, chương 4
Nội dung chương 5
100%

Nội dung chương 2,
100%
phần 1 chương 3
Nội dung chương 1 +
100%
ppt

4


lOMoARcPSD|21911340

MỤC LỤC
CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI
........................................................................................................................................ 9
1.1

Giới thiệu về khoa học dữ liệu.................................................................................................9

1.2

Lý do chọn đề tài....................................................................................................................10

CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC
PHƯƠNG PHÁP SỬ DỤNG.......................................................................................11
2.1 Các phương pháp của Excel dùng để khai thác dữ liệu..............................................................11
2.1.2 Phương pháp về phân tích dự báo................................................................................................12
2.1.3 Phương pháp san bằng mũ...........................................................................................................13
2.1.4 Phương pháp phân tích tối ưu......................................................................................................16
2.2. Phân cụm........................................................................................................................................20

2.2.1 Định nghĩa....................................................................................................................................20
2.2.2 Đặc điểm của phân cụm dữ liệu....................................................................................................21
2.2.3 Ứng dụng của phương pháp phân cụm.........................................................................................22
2.2.4 Các phương pháp phân cụm trong kinh tế....................................................................................22
2.2.5 Phương pháp phân lớp dữ liệu.....................................................................................................25

CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ...........34
3.1 Phân tích dữ liệu Adult..................................................................................................................34
3.2 Phân cụm dữ liệu...........................................................................................................................50
3.3 Phân lớp..........................................................................................................................................54

CHƯƠNG 4: CÁC KẾT QUẢ THỰC NGHIỆM.....................................................68
4.1 Đánh giá các mơ hình phân cụm, chọn mơ hình phân cụm tối ưu.............................................68
4.2 Kết quả phân lớp dữ liệu:.............................................................................................................70

CHƯƠNG 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN............................................76
5.1 Kết quả đạt được...........................................................................................................................76
5.2 Hạn chế...........................................................................................................................................76
5.3 Hướng phát triển...........................................................................................................................77

5


lOMoARcPSD|21911340

MỤC LỤC HÌNH

Hình 2.1 Hộp thoại của Regression..................................................................................15
Hình 2.2 Bảng số liệu của Dự án......................................................................................17
Hình 2.3 Hộp thoại Solver Parameters............................................................................19

Hình 3.1 Các bước tiến hành xử lý dữ liệu.......................................................................34
Hình 3.2 Nạp dữ liệu Adult vào Datasets.........................................................................35
Hình 3.3 Dữ liệu Adult trong Data Table..........................................................................36
Hình 3.4 Dữ liệu lỗi trong Preprocess..............................................................................37
Hình 3.5 Quan sát dữ liệu đã xử lý...................................................................................38
Hình 3.6 Mơ hình orange chọn mẫu ngẫu nhiên 5000 mẫu..............................................39
Hình 3.7 Độ tuổi và nghề nghiệp.....................................................................................45
Hình 3.8 Chủng tộc..........................................................................................................46
Hình 3.9 Giới tính............................................................................................................47
Hình 3.10 Tầng lớp lao động............................................................................................48
Hình 3.11 Số giờ làm việc................................................................................................49
Hình 3.12 Mức thu nhập..................................................................................................50
Hình 3.13 Mơ hình phân cụm phân cấp bằng phương pháp Diana...................................50
Hình 3.14 Dữ liệu bị chia thành 2 cụm.............................................................................51
Hình 3.15 Sihouette Plot của mơ hình phân cụm bằng phương pháp Diana.....................52
Hình 3.16 Mơ hình phân cụm phân hoạch bằng thuật tốn K-means...............................53
Hình 3.17. Hộp thoại K-Means........................................................................................53
Hình 3.18 Sihouette Plot của mơ hình phân cụm bằng thuật tốn K-means.....................54
Hình 3.19 Phân lớp dữ liệu...............................................................................................55
Hình 3.20 Kết quả chia mẫu dữ liệu làm 2 phần..............................................................56
Hình 3.21 Kết quả chia mẫu dữ liệu làm 5 phần..............................................................57
Hình 3.22 Kết quả chia mẫu dữ liệu làm 10 phần............................................................58
Hình 3.23 Kết quả chia mẫu dữ liệu thành 50 – 90%.......................................................59
6


lOMoARcPSD|21911340

Hình 3.24 Kết quả chia mẫu dữ liệu thành 20 – 70%.......................................................60
Hình 3.25 Kết quả chia mẫu dữ liệu thành 50 – 60%......................................................61

Hình 3.26 Kết quả của Ma trận nhầm lẫn Tree (Tree Dicision)........................................62
Hình 3.27 Kết quả của Ma trận nhầm lẫn SVM (Support Vector Machines)....................63
Hình 3.28 Kết quả của Ma trận nhầm lẫn Logistic Regression........................................63
Hình 3.29 ROC Analysis..................................................................................................65
Hình 3.30 Đường cong của ROC với biến y là <=50K....................................................65
Hình 3.31 Mơ hình dự báo dữ liệu...................................................................................66
Hình 3.32 Kết quả dự báo dữ liệu....................................................................................67
Hình 4.1 Giá trị Sihouette của mơ hình phân cụm bằng phương pháp Diana…..………..69
Hình 4.2 Giá trị Sihouette của mơ hình phân cụm bằng phương pháp K-means.............70
Hình 4.3 Kết quả Test & Score của 3 mơ hình phân lớp………………………………...71
Hình 4.4 Kết quả của ma trận nhầm lẫn Tree (Tree Decision)..........................................72
Hình 4.5 Kết quả của ma trận nhầm lẫn SVM (Support Vector Machines)......................72
Hình 4.6 Kết quả của ma trận nhầm lẫn hồi quy logistic (Logistic Regression)...............73
Hình 4.7 Đường cong của ROC với biến y lần lượt là >50k và <=50K...........................73
Hình 4.8 Kết quả dự báo dữ liệu.....................................................................................74

7

Downloaded by vu quang ()


lOMoARcPSD|21911340

MỤC LỤC BẢNG
Bảng 2.1 Thống kê mô tả cho lượng thịt Heo (theo kg) bán được trong 03 tháng tại siêu
thị ABC............................................................................................................................ 11
Bảng 2.2 Bảng kết quả thống kê bằng công cụ Descriptive Statistics..............................12
Bảng 2.9 Số liệu bán và hộp thoại Moving Average.........................................................13
Bảng 2.10 Số liệu bán thịt bò và hộp thoại Exponential Smoothing................................14
Bảng 2.11 Bảng tác động của chi phí lên doanh thu.........................................................15

Bảng 2.12 Bảng kết quả hồi quy......................................................................................16
Bảng 2.13: Thiết lập bảng tính.........................................................................................18
Bảng 2.14: Kết quả tính lợi nhuận tối đa..........................................................................20
Bảng 3.1: Mô tả biến đầu vào...........................................................................................39
Bảng 4.1: Bảng so sánh kết quả phân cụm bằng phương pháp Diana với nhãn của dữ liệu
......................................................................................................................................... 68
Bảng 4.2: Bảng so sánh kết quả phân cụm bằng thuật toán K-means với nhãn của dữ liệu
......................................................................................................................................... 68

8

Downloaded by vu quang ()


lOMoARcPSD|21911340

CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI
1.1 Giới thiệu về khoa học dữ liệu
Khoa học dữ liệu là một lĩnh vực liên ngành sử dụng các phương pháp khoa học,
quy trình, thuật tốn và hệ thống để trích xuất hoặc ngoại suy kiến thức và hiểu biết sâu
sắc từ dữ liệu nhiễu, có cấu trúc và phi cấu trúc, và áp dụng kiến thức từ dữ liệu trên
nhiều lĩnh vực ứng dụng. Khoa học dữ liệu liên quan đến khai thác dữ liệu, học máy, dữ
liệu lớn, thống kê và phân tích tính toán.
Khoa học dữ liệu là một "khái niệm thống nhất thống kê, phân tích dữ liệu, tin học
và các phương pháp liên quan" nhằm "hiểu và phân tích các hiện tượng thực tế" với dữ
liệu. Nó sử dụng các kỹ thuật và lý thuyết rút ra từ nhiều lĩnh vực trong bối cảnh tốn
học, thống kê, khoa học máy tính, khoa học thông tin và kiến thức miền.Theo như
W.E.Deming đã nói rằng “In God we trust. All others bring data”. Nhìn chung khoa học
dữ liệu là sự giao thoa từ kiến thức chuyên ngành, toán & thống kê và khoa học máy tính,
và là cơng cụ lao động quan trọng trong thời chuyển đổi số.

Tuy nhiên có nhiều vấn đề hiện nay mà nhiều doanh nghiệp mắc phải đó là số
lượng lớn thông tin khổng lồ được tạo ra từng phút từng giây, vì vậy cách giải quyết là
làm sao để trích xuất những dữ liệu này một cách khoa học, chi tiết và hữu ích để tìm ra
được những dữ liệu cần thiết trong môi trường xã hội ngày càng cạnh tranh khốc liệt này.
Vậy là khoa học dữ liệu xuất hiện để giải quyết các nhu cầu trích xuất và lọc dữ liệu của
mọi người
Khoa học dữ liệu là việc quản trị một cách khoa học và phân tích, trích xuất các giá trị
từ dữ liệu để nắm bắt được sự dẫn dắt hành vi, hành động của mỗi người.
-

Khoa học dữ liệu gồm 3 phần chính
 Tạo ra giá trị và quản trị dữ liệu
 Phân tích dữ liệu: thống kê tốn học, cơng nghệ thơng tin, trí thức về lĩnh
vực cụ thể
9

Downloaded by vu quang ()


lOMoARcPSD|21911340

 Chuyển kết quả phân tích thành giá trị hành động
-

Khoa học dữ liệu sẽ yêu cầu thực hiện
 Quan sát
 Đặt câu hỏi
 Hình thành các giả thuyết
 Tạo các bài kiểm tra
 Phân tích kết quả

 Khuyến khích thực tế
Hiện nay một số công ty ứng dụng hàng đầu về khoa học dữ liệu: Google,

Amazon, Visa…
1.2 Lý do chọn đề tài
Trong q trình tìm tịi và nghiên cứu về hoạt động của các doanh nghiệp, nhóm
thấy được rằng trong quá trình hoạt động sản xuất kinh doanh của doanh nghiệp thì
yếu tố quan trọng nhất là nguồn nhân lực con người. Vậy thì có cách nào nhà quản trị
sử dụng hiệu quả và tốt ưu nhất nguồn nhân lực này thì chính là tiền lương.
Tiền lương tức là giá cả mà người sử dụng lao động ở đây tức là các chủ doanh
nghiệp trả cho người lao động. Tuy nhiên đối với các doanh nghiệp, để kinh doanh
hiệu quả thì họ phải cắt giảm chi phí này của mình đồng thời cũng phải sử dụng chi
phí tối ưu này để hoạt động hiệu quả nhất. Vậy bài toán ở đây, làm thế nào mà các
chủ doanh nghiệp vừa tối ưu được chi phí vừa trả xứng đáng cho người lao động. Từ
đó nhóm bắt đầu tiến hành nghiên cứu và kiểm tra thì thấy được rằng có những yếu
tố tác động đến thu nhập của người lao động này.
Nhận thấy được tầm quan trọng của những yếu tố đó trong cơng cuộc hiện đại hóa,
nhóm 5 chúng em chọn đề tài “Phân tích các yếu tố ảnh hưởng đến thu nhập của
người trưởng thành đang làm việc tại Mỹ bằng phần mềm Orange” bởi nhóm nghĩ
nước Mỹ là một trong những nước bao gồm nhiều chủng tộc và đa sắc tộc nhất, lý do
thứ hai nước Mỹ là những nước đứng đầu về nền kinh tế vững mạnh.

10

Downloaded by vu quang ()


lOMoARcPSD|21911340

Vì thế nhóm quyết định đi đến chọn đề tài này để có cái nhìn tổng quan nhất về

những yếu tố ảnh hưởng đến thu nhập của người trưởng thành.
CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG
PHÁP SỬ DỤNG
2.1 Các phương pháp của Excel dùng để khai thác dữ liệu
Excel là một phần mềm bảng tính nằm trong bộ Microsoft Office. Giúp khai phá,
thống kê dữ liệu, từ đó phân tích, tính tốn các số liệu,... và trong học phần Khoa học Dữ
liệu, Excel được ứng dụng với mục đích thống kê mơ tả, phân tích dự báo và lưu các dữ
liệu.
2.1.1 Phương pháp Thống kê mô tả
2.1.1.1 Thống kê bằng công cụ Descriptive Statistics
Cách thực hiện:
Bước 1: Chuẩn bị bảng số liệu cần thống kê
Bước 2: Click chọn vào hộp Data Data Analysis Descriptive Statistics,
xuất hiện hộp thoại Descriptive Statistics.
Bước 3: Khai báo các thông số Input và lựa chọn các thông số Output
Options.
Bảng 2.1 Thống kê mô tả cho lượng thịt Heo (theo kg) bán được trong 03 tháng tại siêu thị ABC

11

Downloaded by vu quang ()


lOMoARcPSD|21911340

Trong hộp thoại Descriptive Statistics, nhập vào Inpute Range là cột chứa
dữ liệu thịt Heo, Output Range là ô xuất dữ liệu, Confidence Level for
Mean là 95%.
Sau đó ta sẽ nhận được bảng kết quả gồm các giá trị trung bình (Mean), sai
số chuẩn (Standard Error)

Bảng 2.2 Bảng kết quả thống kê bằng công cụ
Descriptive Statistics

2.1.2 Phương pháp về phân tích dự báo
2.1.2.1 Phương pháp trung bình trượt (Moving Average)
Cách thực hiện
Bước 1: Chuẩn bị bảng số liệu cần dự báo
Bước 2: Chon lệnh Data -> Data Analysis -> Moving Average
Bước 3: Khai báo các thông số Input và Output options
12

Downloaded by vu quang ()


lOMoARcPSD|21911340

Ví dụ: Dự báo số liệu bán thịt bị của siêu thị ABC
Bảng 2.3 Số liệu bán và hộp thoại Moving Average

Sau khi chọn vùng dữ liệu cần dự báo vào Input Range, chọn các kỳ trước
đó muốn ước tính trong Interval, ở bài này cho giá trị là 3, có nghĩa là 3 kì
để trượt từ đó dự báo được số liệu thịt bị. Sau đó, chọn vùng muốn hiển thị
kết quả ở ô Output Range.
2.1.3 Phương pháp san bằng mũ
Cách thực hiện:
Bước 1: Chuẩn bị bảng số liệu cần dự báo
Bước 2: Chọn lệnh Data -> Data Analysis -> Exponential Smoothing, xuất hiện
hộp thoại Exponential Smoothing.
Bước 3: Khai báo các thơng số Input và Output Options.
Ví dụ: Dự báo số liệu bán thịt bỏ tại siêu thị ABC có hệ số điều chỉnh bằng 0,3


13

Downloaded by vu quang ()


lOMoARcPSD|21911340

Bảng 2.4 Số liệu bán thịt bò và hộp thoại Exponential Smoothing

Input Range là cột dữ liệu cần dự báo. Hệ số san bằng Damping
Factor là 0,7
1 - a = 0.3, Ta được hệ số hiệu chỉnh là 0.3, ngày 17 lượng thịt bò là 29,88kg.
Phương pháp hồi quy (Regression)
 Phân tích hồi quy là nghiên cứu sự phụ thuộc của 1 biến (biến phụ thuộc hay
còn gọi là biến giải thích) vào 1 hay nhiều biến khác (biến độc lập hay cịn gọi
là biển giải thích).
 Cách thực hiện:
Bước 1: Cho bảng số liệu cầu dự báo
Bước 2: Click vào Data -> Data Analysis -> Regression. Xuất hiện hộp thoại
Regression.
Bước 3: Khai báo các thông số Input và Output Options.
Ví dụ: Tác động của chi phí lên doanh thu
14

Downloaded by vu quang ()


lOMoARcPSD|21911340


Bảng 2.5 Bảng tác động của chi phí lên doanh thu

Hình 2.1 Hộp thoại của Regression

Input Y Range là cột Doanh thu, Input X Range là cột Chi phí. Độ tin cậy hồi
quy Confidence Level là 95%.
Kết quả a = 1.791, b = 3.813
15

Downloaded by vu quang ()


lOMoARcPSD|21911340

Bảng 2.6 Bảng kết quả hồi quy

2.1.4 Phương pháp phân tích tối ưu
Ví dụ: Một nhà kinh doanh, quản trị dự án nông nghiệp muốn lựa chọn phương án
trồng trọt bao nhiêu tấn lúa mì và lúa gạo để tối đa hóa lợi nhuận của dự án dựa
trên các số liệu sau:

16

Downloaded by vu quang ()


lOMoARcPSD|21911340

Hình 2.2: Bảng số liệu của Dự án


-

Đầu tiên ta cần thiết lập mơ hình theo các bước sau:

Bước 1: Tạo biến quyết định
Đặt x1,x2 lần lượt là sản lượng lúa gạo và lúa mì (tấn) cẩn sản xuất
Bước 2. Tạo hàm mục tiêu
Để tối ta hóa lợi nhuận ta thực hiện lập hàm mục tiêu: P max = Plúa gạo + Plúa mì = 18x1
+21x2

Max

Bước 3: Tạo hệ ràng buộc
Thiết lập hệ ràng buộc theo từng điều kiện:
 Về diện tích đất: 2x1+3x2 50
 Về nước tưới: 6x1 + 4x2 90
 Về lao động: 15x1 + 12x2 250
 Ràng buộc tự nhiên: x1, x2 0

17

Downloaded by vu quang ()


lOMoARcPSD|21911340

-

Sử dụng cơng cụ Solver để giải mơ hình kinh tế:


Bước 1: Thiết lập bảng tính
Bảng 2.9: Thiết lập bảng tính

Giả định biển x1, x2 = 1, nhập cả hệ ràng buộc tương đương về diện tích, mức
lương, nhân cơng. Sau đó, dùng hàm SUMPRODUCT để tỉnh các giá trị vế trái
theo biến khởi tạo.
Bước 2: Chọn lệnh

Data

Data

Analysis Solver

18

Downloaded by vu quang ()


lOMoARcPSD|21911340

Hình 2.3 Hộp thoại Solver Parameters

Nhập ơ chứa hàm mục tiêu Set Objectives là ô sẽ chứa lợi nhuận max $E$5. To:
Max vì đây là bài tốn tối đa hóa lợi nhuận. By changing Variable Cells, nhập ô
chứa các biển quyết định, trong trường hợp này là $C$4:$D$4. Nhập các ràng
buộc bằng cách nhấn Add trong Subject to the Constraints.
Bước 3: Nhấn nút Solve để giải mơ hình, chọn Sensitivity và nhấn Ok để xem kết
quả mơ hình.


19

Downloaded by vu quang ()


lOMoARcPSD|21911340

Bảng 2.14: Kết quả tính lợi nhuận tối đa

Và ta được lợi nhuận tối đa là 378$ để thỏa mãn các điều kiện ràng buộc.

2.2. Phân cụm
2.2.1 Định nghĩa
Phân cụm (Clustering) thuộc loại học không giám sát (Unsupervised learning) là
một dữ liệu là bài tốn gom nhóm các đối tượng dữ liệu vào thánh từng cụm (cluster) sao
cho các đối tượng trong cùng một cụm có sự tương đồng theo một tiêu chí nào đó.

20

Downloaded by vu quang ()


lOMoARcPSD|21911340

Lưu ý: Dữ liệu của bài toán phân cụm là các hình ảnh chưa có dán nhãn (tên của mỗi đối
tượng khi ta quan sát không cho biết rõ ràng) , đây chỉ là những dữ liệu thường hay gặp
trong thực tiễn.
Mơ hình chia cụm dữ liệu:
Dữ liệu thực -> Trích chọn đặc trưng (nhận diện từng đặc trưng của dữ liệu rồi gộp vào
những nhóm khác nhau) -> Thuật toán gom cụm -> Đánh giá kết quả gom cụm

Biểu diễn kết quả đếm cụm
2.2.2 Đặc điểm của phân cụm dữ liệu
Số cụm dữ liệu là không thể biết trước được
 Có rất nhiều cách tiếp cận, mỗi cách lại có các kỹ thuật phân cụm khác nhau
 Các kỹ thuật khác nhau thường mang lại kết quả khác nhau.
 Nhiệm vụ quan trọng là tìm ra và đo đạc được sự khác biệt của các đối tượng dữ
liệu

21

Downloaded by vu quang ()


lOMoARcPSD|21911340

Thuộc nhóm học khơng giám sát, vì số cụm dữ liệu không được biết trước (đây là điều
khác với phương pháp phân lớp).
Một phương pháp phân cụm tốt là phương pháp cần tạo ra các cụm có chất lượng cao:
 Độ tương đồng bên trong cụm cao
 Độ tương tự giữa các cụm thấp (các cụm có khác biệt cao)
2.2.3 Ứng dụng của phương pháp phân cụm
 Phân cụm dữ liệu độc lập và tiền đề cho các thuật toán khác
 Ứng dụng kinh tế:
 Dự báo khách hàng tiềm năng
 Phân tích xu hướng hành vi khách hàng
 Phân tích cạnh tranh, xu hướng lựa chọn dịch vụ giữa các nhà cung cấp
 Phân tích đặc tính sản phẩm dịch vụ
 Đánh giá kết quả hoạt động kinh doanh
 Phân tích hành vi người dùng mạng xã hội
2.2.4 Các phương pháp phân cụm trong kinh tế

2.2.4.1 Phân cụm dựa trên phân cấp (Hierarchical approach)
Định nghĩa: Là quá trình xây dựng một cây phân cấp các dữ liệu cần gom cụm, dựa
theo 2 tiêu chí:
 Ma trâ ̣n khoảng cách giữa các phần tử (similarity matrix hoặc dissimilarity matrix)
 Độ đo khoảng cách giữa các cụm (single link, complete link…)
Đặc điểm: Phân cấp các đối tượng dựa trên một số tiêu chí.
Đối với phân cụm dựa trên phân cấp thì không cần xác định trước số cụm, tuy nhiên
cần xác định điều kiện dừng.
Một số phương pháp điển hình hay dùng: Diana, Agnes,...
Một số phương pháp tính khoảng cách phổ biến:

22

Downloaded by vu quang ()


lOMoARcPSD|21911340

 Single – link: Khoảng cách nhỏ nhất giữa 1 phần tử trong một cụm với một phần
tử ở cụm khác.
 Average – link: Khoảng cách trung bình giữa 1 phần tử trong một cụm với một
phần tử ở cụm khác.
 Complete — link: Khoảng cách xa nhất giữa 1 phần tử trong một cụm với một
phần tử ở cụm khác.
 Mean: khoảng cách giữa các điểm trung bình (mean) của 2 cụm.
 Centroid: khoảng cách giữa các trọng tâm (centroid) của 2 cụm.
 Medoid: khoảng cách giữa các trung tâm cụm (medoid) của 2 cụm.
Nhâ ̣n xét về phân cụm phân cấp
 Giải thuâ ̣t đơn giản
 Kết quả dễ hiểu

 Không cần tham số đầu vào
 Không quay lui được
 Tốc độ châ ̣m, khơng thích hợp trên dữ liê ̣u lớn
 Không xử lý được trên dữ liê ̣u bị thiếu, nhạy cảm với nhiễu
2.2.4.2 Phân cụm dựa trên phân hoạch ( Partitioning Clustering)
Định nghĩa: Là quá trình phân tập dữ liệu có n phần tử cho trước thành k tập con (với
k<=n ), mỗi tập con sẽ biểu diễn một cụm.
Các cụm được hình thành dựa trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự, sao cho:
 Mỗi đối tượng thuộc duy nhất 1 cụm và các phần tử trong cụm có sự tương tự với
nhau.
 Mỗi cụm có ít nhất 1 phần tử.
Đặc điểm: Xây dựng các phân hoạch khác nhau và đánh giá chúng. Sau đó tìm các
tối thiểu hóa tổng bình phương độ lỗi.
“Thuật tốn K-means thuộc nhóm thuật toán phân cụm dựa trên phân hoạch.
23

Downloaded by vu quang ()


lOMoARcPSD|21911340

Ta xem một đối tượng trong tập dữ liệu là một điểm trong không gian d chiều (với d là
số lượng thuộc tính của đối tượng) Sau đó tiến hành các bước:
Bước 1: Chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm
Bước 2: Phân mỗi điểm dữ liệu và cụm có trung tâm gần nó nhất. Nếu các điểm dữ
liệu ở từng cụm được phân chia có kết quả khơng thay đổi so với kết quả của lần phân
chia trước, thì ta có thể dừng thuật toán
Bước 3: Cập nhật lại trung tâm cho từng cụm bằng cách lấy trung bình cộng của tất cả
các điểm dữ liệu đã được gán vào cụm đó sau khi phân chia ở bước 2”.
Bước 4: Quay lại bước 2.

2.2.4.3 Các phương pháp đánh giá phân cụm dữ liệu
Là vấn đề khó khăn nhất trong bài tốn phân cụm
Các phương pháp đánh giá viê ̣c phân cụm dữ liê ̣u: đánh giá ngoài, đánh giá nội bộ, đánh
giá tương đối.
Một số tiêu chí để đánh giá chất lượng phân cụm là:
 Độ nén (compactness): các phần tử của cụm phải “gần nhau”
 Độ phân cách (separation): khoảng cách giữa các cụm nên “xa nhau”, phân cách rõ
ràng.
Dựa vào tiêu chí sau để đánh giá chất lượng phân cụm
 Đánh giá ngoài (external validation): là đánh giá kết quả phân cụm dựa vào cấu
trúc/ xu hướng phân cụm được chỉ định trước cho tâ ̣p dữ liê ̣u.
 So sánh độ sai khác giữa các cụm
 So sánh với kết quả mẫu (đáp án)
 Các độ đo được sử dụng trong phương pháp này: Rand statistic, Jaccard
coefficient, Folkes và Mallows index….

24

Downloaded by vu quang ()


×