Tải bản đầy đủ (.pdf) (97 trang)

Sử dụng hồi quy tuyến tính trong dự đoán mức lương công việc trên quảng cáo tuyển dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.09 MB, 97 trang )

..

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

---------------------------

TRẦN VĂN NGHIỆP

SỬ DỤNG HỒI QUY TUYẾN TÍNH
TRONG DỰ ĐỐN MỨC LƯƠNG CƠNG VIỆC
TRÊN QUẢNG CÁO TUYỂN DỤNG

LUẬN VĂN THẠC SĨ
Chuyên ngành: Công nghệ thông tin
Mã số ngành: 60480201

TP. HỒ CHÍ MINH, tháng 03 năm 2016


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM

---------------------------

TRẦN VĂN NGHIỆP

SỬ DỤNG HỒI QUY TUYẾN TÍNH
TRONG DỰ ĐỐN MỨC LƯƠNG CƠNG VIỆC
TRÊN QUẢNG CÁO TUYỂN DỤNG
LUẬN VĂN THẠC SĨ


Chuyên ngành: Công nghệ thông tin
Mã số ngành: 60480201
CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS. TRẦN ĐỨC KHÁNH

TP. HỒ CHÍ MINH, tháng 03 năm 2016


ii

CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI
TRƯỜNG ĐẠI HỌC CƠNG NGHỆ TP. HCM
Cán bộ hướng dẫn khoa học : TS. TRẦN ĐỨC KHÁNH
(Ghi rõ họ, tên, học hàm, học vị và chử ký)

Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP. HCM
ngày 20 tháng 03 năm 2016.
Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ Luận văn Thạc sĩ)

Họ và tên

TT

Chức danh Hội đồng

1

PGS.TSKH. Nguyễn Xuân Huy

Chủ tịch


2

PGS.TS. Vũ Đức Lung

Phản biện 1

3

TS. Hồ Đắc Nghĩa

Phản biện 2

4

TS. Cao Tùng Anh

Ủy viên

5

TS. Vũ Thanh Hiền

Ủy viên, Thư ký

Xác nhận của Chủ tịch Hội đồng đánh giá Luận văn sau khi Luận văn đã được sửa chữa
(nếu có).
Chủ tịch Hội đồng đánh giá LV



iii

TRƯỜNG ĐH CƠNG NGHỆ TP. HCM

CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM

PHÒNG QLKH – ĐTSĐH

Độc lập – Tự do – Hạnh phúc
TP. HCM, ngày 20 tháng 08 năm 2015

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: TRẦN VĂN NGHIỆP

Giới tính: Nam

Ngày, tháng, năm sinh: 15/05/1987

Nơi sinh: Cà Mau

Chuyên ngành: Công nghệ thông tin

MSHV: 1441860018

I- Tên đề tài:
“SỬ DỤNG HỒI QUY TUYẾN TÍNH TRONG DỰ ĐỐN
MỨC LƯƠNG CƠNG VIỆC TRÊN QUẢNG CÁO TUYỂN DỤNG”
II- Nhiệm vụ và nội dung:
- Tìm hiểu về học máy thống kê, quy trình khai thác dữ liệu, phân tích thống kê.
- Xây dựng mơ hình dự đốn mức lương trên quảng cáo tuyển dụng ứng dụng

phương pháp phân tích hồi quy.
- Đánh giá mơ hình dự đốn ứng dụng các phương pháp đánh giá mơ hình.
III- Ngày giao nhiệm vụ: 20/08/2015
IV- Ngày hồn thành nhiệm vụ: 15/01/2016
V- Cán bộ hướng dẫn: TS. Trần Đức Khánh
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)

TS. TRẦN ĐỨC KHÁNH

KHOA QUẢN LÝ CHUYÊN NGÀNH
(Họ tên và chữ ký)


iv

LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của riêng tôi và được sự hướng dẫn
khoa học của Thầy TS. Trần Đức Khánh. Các nội dung nghiên cứu, kết quả trong đề
tài này là trung thực và chưa cơng bố dưới bất kỳ hình thức nào trước đây. Những
số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được
chính tác giả thu thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham
khảo.
Ngoài ra, trong luận văn còn sử dụng một số nhận xét, đánh giá cũng như số liệu
của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn gốc.
Nếu phát hiện có bất kỳ sự gian lận nào tơi xin hồn tồn chịu trách nhiệm về nội
dung luận văn của mình. Trường Đại Học Cơng Nghệ TP.HCM khơng liên quan
đến những vi phạm tác quyền, bản quyền do tơi gây ra trong q trình thực hiện.
Học viên thực hiện luận văn


TRẦN VĂN NGHIỆP


v

LỜI CÁM ƠN
Trên thực tế khơng có sự thành cơng nào mà không gắn liền với những sự hỗ trợ,
giúp đỡ dù ít hay nhiều, dù trực tiếp hay gián tiếp của người khác. Trong suốt thời
gian từ khi bắt đầu học tập tại trường đến nay, em đã nhận được rất nhiều sự quan
tâm, giúp đỡ của quý Thầy Cơ, gia đình và bạn bè. Với lịng biết ơn sâu sắc nhất,
em xin gửi đến quý Thầy Cô ở Khoa Công Nghệ Thông Tin – Trường Đại Học
Công Nghệ TP.HCM đã cùng với tri thức và tâm huyết của mình để truyền đạt vốn
kiến thức quý báu cho chúng em trong suốt thời gian học tập tại trường. Và đặc biệt,
trong học kỳ này. Nếu khơng có những lời hướng dẫn, dạy bảo của các thầy cơ thì
em nghĩ bài luận văn này của em rất khó có thể hoàn thiện được. Bài luận văn thực
hiện trong khoảng thời gian 6 tháng. Bước đầu của em còn rất hạn chế và còn nhiều
bỡ ngỡ. Do vậy, em gặp rất nhiều khó khăn trong giai đoạn đầu làm luận văn.
Nhưng với sự dìu dắt hướng dẫn tận tình của thầy TS. TRẦN ĐỨC KHÁNH em đã
dần làm quen với việc nghiên cứu và hoàn thiện bài luận văn này.
Em xin gởi lời cảm ơn chân thành và sự tri ân sâu sắc đối với các thầy cô của
Trường Đại Học Công Nghệ TP.HCM, đặc biệt là các thầy cô Khoa Công Nghệ
Thông Tin của trường đã tạo điều kiện cho em để em có thể hồn thành tốt bài luận
văn này. Và em cũng xin chân thành cám ơn các bạn học cùng khóa đã nhiệt tình
đóng góp ý kiến để em hoàn thành tốt bài luận văn của em.
Trong q trình làm bài luận văn, khó tránh khỏi những sai sót, rất mong q Thầy,
Cơ bỏ qua. Đồng thời do trình độ lý luận cũng như kinh nghiệm thực tiễn cịn hạn
chế nên bài luận văn khơng thể tránh khỏi những thiếu sót, em rất mong nhận được
ý kiến đóng góp của Thầy, Cơ để em học thêm được nhiều kinh nghiệm để tiếp tục
hoàn thành tốt những nghiên cứu sắp tới.
Em xin chân thành cảm ơn!

TRẦN VĂN NGHIỆP


vi

TĨM TẮT
Phân tích hồi quy là một phương pháp thống kê nhằm tìm ra mối liên hệ giữa một
biến phụ thuộc (thường ký hiệu là Y) và một loạt các biến đổi khác (được biết đến
như là các biến độc lập). Mối liên hệ này được mơ tả trên hình thức của một phương
trình đường thẳng (phương trình hồi quy) dựa trên các đặc trưng của dữ liệu cần
phân tích. Phân tích hồi quy thường được sử dụng để xác định có bao nhiêu yếu tố
cụ thể như giá của một mặt hàng, lãi suất, các ngành công nghiệp, ngành nghề đặc
biệt ảnh hưởng đến sự biến động về lương của công việc trên quảng cáo tuyển dụng.
Trong phạm vi đề tài này là ứng dụng phương pháp hồi quy để dự đốn mức lương
của cơng việc trên các quảng cáo tuyển dụng. Nỗ lực tìm mối liên hệ giữa các đặc
trưng ảnh hưởng đến mức lương công việc như: nhóm cơng việc, loại cơng việc,
loại hợp đồng, địa điểm làm việc… Từ đó đưa ra mơ hình dự đốn tối ưu nhất áp
dụng các phương pháp phân tích hồi quy đơn giản, hồi quy đa biến, phân tích
phương sai, phân tích thành phần cũng như phương pháp đánh giá mơ hình dựa trên
dữ

liệu

quảng

cáo

tuyển

dụng


được

( />
cung

cấp

bởi

Kaggle


vii

ABSTRACT
Regression is a statistical measure that attempts to determine the strength of the
relationship between one dependent variable (usually denoted by Y) and a series of
other changing variables (known as independent variables). This relationship is
typically in the form of a straight line (linear regression) that best approximates all
the individual data points. Regression is often used to determine how much specific
factors such as the price of a commodity, interest rates, particular industries or
sectors influence the price movement of an asset.
On this thesis, I am using regression for predicting the salary of the job on job
advertisement. Try to find the relationship between features that impacted to the job
salary such as: Job Category, Contract Time, Contract Type, Location, and so on. Base
on that points we generate a model that help employer or job seeker can forecast the
rank salary of the job by applying simple linear regression, multiple regression,
variables analysis, model evaluation on the Job Advertisement is provived by Kaggle
( />


viii

MỤC LỤC
LỜI CAM ĐOAN ..................................................................................................... iv
LỜI CÁM ƠN .............................................................................................................v
TÓM TẮT ................................................................................................................. vi
ABSTRACT ............................................................................................................. vii
DANH MỤC CÁC TỪ VIẾT TẮT .......................................................................... xi
DANH MỤC CÁC BẢNG....................................................................................... xii
DANH MỤC HÌNH ẢNH ...................................................................................... xiii
CHƯƠNG 1: GIỚI THIỆU .........................................................................................1
1.1.

Lý do chọn đề tài ...............................................................................................1

1.2.

Mục tiêu nghiên cứu .........................................................................................1

1.3.

Đối tượng nghiên cứu .......................................................................................2

1.4.

Tổng quan nghiên cứu.......................................................................................2

1.5.


Bố cục luận văn .................................................................................................3

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT ...........................................................................5
2.1.

Mô hình khai thác dữ liệu CRISP-DM .............................................................5

2.1.1.

Tìm hiểu nghiệp vụ ....................................................................................7

2.1.2.

Tìm hiểu dữ liệu .........................................................................................7

2.1.3.

Chuẩn bị dữ liệu .........................................................................................7

2.1.4.

Mơ hình hóa ...............................................................................................8

2.1.5.

Đánh giá .....................................................................................................8

2.1.6.

Triển khai ...................................................................................................8


2.2.

Hồi quy tuyến tính đơn .....................................................................................8

2.2.1.

Phương trình hồi quy tuyến tính đơn .........................................................8

2.2.2.

Khoảng tin cậy và kiểm định giả thuyết trong hồi quy đơn .......................9

2.2.3.

Kiểm định tham số hồi quy tổng thể (  ) .................................................10

2.2.4.

Phân tích phương sai hồi quy ...................................................................10

2.2.5.

Dự báo trong phương pháp hồi quy tuyến tính đơn .................................12

2.3.

Hồi quy tuyến tính đa biến ..............................................................................12



ix

2.3.1.

Mơ hình hồi quy .......................................................................................12

2.3.2.

Phương trình hồi quy ................................................................................12

2.3.3.

Phân tích phương sai hồi quy ...................................................................13

2.3.4.

Ước lượng khoảng tin cậy và kiểm định giả thuyết trong hồi quy đa biến ..
..................................................................................................................14

2.4.

Phương pháp đánh giá độ chính xác của mơ hình ..........................................14

2.4.1.

Phương pháp chia ngẩu nhiên ..................................................................14

2.4.2.

Kiểm tra chéo K-Fold...............................................................................15


2.4.3.

Kiểm tra chéo Leave-one-out ...................................................................16

2.5.

Tổng quan công cụ R ......................................................................................16

2.5.1.

Giới thiệu R ..............................................................................................16

2.5.2.

Sử dụng R .................................................................................................18

2.5.3.

Sử dụng RStudio ......................................................................................19

2.5.4.

Một số lệnh cơ bản trong R ......................................................................20

CHƯƠNG 3: ỨNG DỤNG PHÂN TÍCH HỒI QUY DỰ ĐỐN MỨC LƯƠNG..22
3.1.

Tìm hiểu dữ liệu ..............................................................................................22


3.2.

Chuẩn bị dữ liệu ..............................................................................................26

3.3.

Mơ hình hóa ....................................................................................................35

3.3.1.

Biến độc lập và Biến phụ thuộc ...............................................................35

3.3.2.

Phân tích ảnh hưởng của nhóm cơng việc lên mức lương .......................36

3.3.3.

Phân tích ảnh hưởng của loại cơng việc lên mức lương ..........................37

3.3.4.

Phân tích ảnh hưởng của loại hợp đồng lên mức lương ...........................38

3.3.5.

Phân tích ảnh hưởng của địa điểm làm việc lên mức lương ....................40

3.3.6.


Phân tích ảnh hưởng của địa điểm làm việc là Luân Đôn lên mức lương ...
..................................................................................................................42

3.3.7.

Phân tích ảnh hưởng của tiêu đề cơng việc cho vị trí ứng viên có kinh

nghiệm lên mức lương .......................................................................................43
3.3.8.

Phân tích ảnh hưởng của tiêu đề cơng việc cho vị quản lý lên mức lương ..
..................................................................................................................45


x

3.3.9.

Phân tích ảnh hưởng của mơ tả cơng việc cho vị trí ứng viên có kinh

nghiệm lên mức lương .......................................................................................46
3.3.10.

Phân tích ảnh hưởng của mơ tả cơng việc cho vị trí quản lý lên mức

lương ..................................................................................................................48
3.3.11.

Mơ hình 0 .................................................................................................49


3.3.12.

Mơ hình 1 .................................................................................................50

3.3.13.

Mơ hình 2 .................................................................................................51

3.3.14.

Mơ hình 3 .................................................................................................53

3.3.15.

Mơ hình 4 .................................................................................................55

3.4.

Đánh giá mơ hình ............................................................................................57

3.4.1.

Phương pháp lựa chọn từng bước ............................................................57

3.4.2.

Mơ hình hồi quy Ridge ............................................................................60

3.4.3.


Mơ hình Lasso ..........................................................................................61

3.4.4.

Kiểm tra với bộ dữ liệu giả định ..............................................................63

3.5.

Kiểm tra chéo với K-Fold ...............................................................................64

CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ..........................................70
4.1.

Kết luận ...........................................................................................................70

4.2.

Hướng phát triển .............................................................................................70

TÀI LIỆU THAM KHẢO .........................................................................................71
PHỤ LỤC ..................................................................................................................72


xi

DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt
CRISP-DM
KDD
P


Cụm từ nguyên

Ý nghĩa

Cross-Industry Standard
Process for Data Mining
Knowledge Discovery in
Databases

Quy trình khai thác dữ liệu

P-Value

Giá trị xác suất (p-value)
Cơng cụ phân tích R

R
SSR

Sum of Square Residual

Tổng bình phương hồi quy

SST

Total Sum of Squares

Tổng biến động của y


SSE

Sum of Square Error

Tổng sai số bình phương

MSE

Mean Square Error

Sai số trung bình bình phương

ANOVA

Analysis of Variables

Phân tích biến

ME

Mean Error

Sai số trung bình

MAE

Mean Absolute Error

Sai số trung bình tuyệt đối


MPE

Mean Percentage Error
Mean Absolute Percentage
Error
Mean Absolute Scaled Error

Trung bình sai số theo phần trăm
Sai số trung bình tuyệt đối theo
phần trăm
Tỷ lệ sai số trung bình tuyệt đối

MAPE
MASE


xii

DANH MỤC CÁC BẢNG
Bảng 1: Công việc từng giai đoạn trong CRISP-DM

6

Bảng 2: Biến động của hồi quy tuyến tính

11

Bảng 3: Lương trung bình theo nhóm cơng việc

24


Bảng 4: Biến độc lập và Biến phụ thuộc

35

Bảng 5: Kết quả sai số trung bình với k=5

65

Bảng 6: Kết quả sai số trung bình với k=10

66

Bảng 7: Kết quả sai số trung bình với k=20

67

Bảng 8: Giá trị sai số dùng để đo lường độ chính xác của mơ hình

68


xiii

DANH MỤC HÌNH ẢNH
Hình 1: Mơ hình CRISP-DM

5

Hình 2: Mơ tả phương pháp thử nghiệm K-Fold với k=5


16

Hình 3: Dự đốn chứng khốn sử dụng R

17

Hình 4: Biểu đồ gom cụm dữ liệu hình ảnh sử dụng R

18

Hình 5: Màn hình thao tác câu lệnh của cơng cụ R

19

Hình 6: Màn hình làm việc của cơng cụ RStudio

20

Hình 7: Tổng quan 20 dòng dữ liệu đầu tiên trong dữ liệu quảng cáo tuyển dụng

23

Hình 8: Dữ liệu địa điểm ở Anh

23

Hình 9: Mức lương trung bình cao nhất và thấp nhất theo thành phố ở Anh

25


Hình 10: Dữ liệu địa điểm trước khi phân loại theo theo địa điểm là Ln Đơn

27

Hình 11: Dữ liệu được phân loại theo địa điểm làm việc ở Ln Đơn và Khác Ln
Đơn

27

Hình 12: Dữ liệu được phân loại theo tiêu đề công việc cho vị trí có kinh nghiệm

28

Hình 13: Dữ liệu được phân loại theo tiêu đề cho vị trí quản lý

28

Hình 14: Dữ liệu được phân loại theo mô tả công việc cho vị trí có kinh nghiệm

29

Hình 15: Dữ liệu được phân loại theo mô tả công việc cho vị trí quản lý

29

Hình 16: Phân bố dữ liệu quảng cáo tuyển dụng theo loại cơng việc dựa trên mức
lương

30


Hình 17: Phân bố dữ liệu quảng cáo tuyển dụng theo loại hợp đồng dựa trên mức
lương

31

Hình 18: Phân bố dữ liệu quảng cáo tuyển dụng theo địa điểm làm việc là Ln Đơn
dựa trên mức lương

31

Hình 19: Phân bố dữ liệu quảng cáo tuyển dụng dựa trên mức lương

32

Hình 20: Phân bố dữ liệu quảng cáo tuyển dụng dựa trên nhóm cơng việc

32

Hình 21: Phân bố dữ liệu quảng cáo tuyển dụng theo địa điểm làm việc dựa trên mức
lương

33


xiv

Hình 22: Phân bố dữ liệu quảng cáo tuyển dụng theo tiêu đề cơng việc là vị trí ứng
viên có kinh nghiệm dựa trên mức lương


33

Hình 23: Phân bố dữ liệu quảng cáo tuyển dụng theo tiêu đề công việc là vị trí quản lý
dựa trên mức lương

34

Hình 24: Phân bố dữ liệu quảng cáo tuyển dụng theo mô tả cơng việc là ứng viên có
kinh nghiệm dựa trên mức lương

34

Hình 25: Phân bố dữ liệu quảng cáo theo mơ tả cơng việc là vị trí quản lý dựa trên
mức lương

35

Hình 26: Mối liên hệ giữa nhóm cơng việc và mức lương

36

Hình 27: Phân tích kiểm tra mối liên hệ giữa nhóm cơng việc và mức lương

37

Hình 28: Liên hệ giữa loại cơng việc với mức lương

38

Hình 29: Phân tích kiểm tra mối liên hệ giữa loại công việc và mức lương


38

Hình 30: Liên hệ giữa loại hợp đồng và mức lương

39

Hình 31: Phân tích kiểm tra mối liên hệ giữa loại hợp đồng và mức lương

40

Hình 32: Liên hệ giữa địa điểm làm việc và mức lương

41

Hình 33: Phân tích kiểm tra mối liên hệ giữa địa điểm làm việc và mức lương

41

Hình 34: Liên hệ giữa địa điểm làm việc là Ln Đơn và mức lương

42

Hình 35: Phân tích kiểm tra mối liên hệ giữa địa điểm làm việc là Ln Đơn và mức
lương

43

Hình 36: Liên hệ giữa tiêu đề cơng việc cho vị trí ứng viên có kinh nghiệm và mức
lương


44

Hình 37: Phân tích kiểm tra mối liên hệ giữa tiêu đề cơng việc cho vị trí ứng viên có
kinh nghiệm và mức lương
Hình 38: Liên hệ giữa tiêu đề cơng việc cho vị trí quản lý và mức lương

44
45

Hình 39: Phân tích kiểm tra mối liên hệ giữa tiêu đề cơng việc cho vị trí quản lý và
mức lương

46

Hình 40: Liên hệ giữa mơ tả cơng việc cho vị trí ứng viên có kinh nghiệm và mức lương
47


xv

Hình 41: Phân tích kiểm tra mối liên hệ giữa mơ tả cơng việc cho vị trí ứng viên có
kinh nghiệm và mức lương
Hình 42: Liên hệ giữa mơ tả cơng việc cho vị trí quản lý và mức lương

47
48

Hình 43: Phân tích kiểm tra mối liên hệ giữa mơ tả cơng việc cho vị trí quản lý và mức
lương


49

Hình 44: Liên hệ giữa Nhóm cơng việc, Loại cơng việc, và Loại hợp đồng ảnh hưởng
lên Mức lương

51

Hình 45: Phân tích kiểm tra mối liện hệ giữa nhóm cơng việc, loại công việc và loại
hợp đồng ảnh hưởng lên mức lương

51

Hình 46: Liên hệ giữa Nhóm cơng việc, loại cơng việc, loại hợp đồng và địa điểm làm
việc ảnh hưởng lên mức lương

52

Hình 47: Phân tích kiểm tra mối liên hệ nhóm cơng việc, loại cơng việc, loại hợp đồng
và địa điểm làm việc ảnh hưởng lên mức lương

53

Hình 48: Liên hệ giữa Nhóm cơng việc, loại cơng việc, loại hợp đồng và địa điểm là
Luân Đôn ảnh hưởng lên mức lương

54

Hình 49: Phân tích kiểm tra mối liên hệ giữa nhóm cơng việc, loại cơng việc, loại hợp
đồng và địa điểm là Ln Đơn ảnh hưởng lên mức lương


55

Hình 50: Liên hệ giữa Nhóm cơng việc, loại cơng việc, loại hợp đồng, địa điểm, tiêu đề
và mô tả công việc ảnh hưởng lên mức lương

56

Hình 51: Phân tích kiểm tra mối liên hệ giữa nhóm cơng việc, loại cơng việc, loại hợp
đồng, địa điểm, tiêu đề và mô tả cơng việc ảnh hưởng lên mức lương

57

Hình 52: Số lượng biến của mơ hình và điểm Cp tương ứng

58

Hình 53: Chỉ số điều chỉnh giá trị trung bình nhỏ nhất

59

Hình 54: Thể hiện giá trị dự đoán so với giá trị thực tế của mơ hình dự đốn dựa trên
nhóm công việc, loại công việc, loại hợp đồng, địa điểm làm việc là Luân Đôn, tiêu
đề và mô tả công việc

59

Hình 55: Hệ số Lambda và sai số trung bình

60


Hình 56: Hệ số tương quan và hệ số Lambda

61

Hình 57: Giá trị Lambda trong mơ hình Lasso

62


xvi

Hình 58: Biểu đồ hệ số tương quan và giá trị Lambda

62

Hình 59: Kết quả kiểm tra chéo mơ hình 4 với k = 5

64

Hình 60: Kết quả kiểm tra chéo trên mơ hình 4 với k=10

65

Hình 61: Kết quả kiểm tra chéo trên mơ hình 4 với k=20

66


1


CHƯƠNG 1: GIỚI THIỆU
1.1.

Lý do chọn đề tài

Trong lĩnh vực tuyển dụng ngày nay, khoảng một nửa số công ty họ không công
khai mức lương tuyển dụng trên các quảng cáo tuyển dụng. Với vai trị là một người
tìm kiếm cơng việc tác giả cảm thấy rất khó khăn để làm sao biết được mức lương
công việc của quảng cáo tuyển dụng mà tác giả quan tâm, liệu rằng mức lương nào
là phù hợp hoặc không phù hợp với từng loại cơng việc trên quảng cáo tuyển dụng
đó. Và với vai trò là nhà tuyển dụng tác giả muốn biết được hoặc tham khảo để có
thể đưa ra mức lương hợp lý trên các quảng cáo tuyển dụng của doanh nghiệp mình.
Do đó rất cần một giải pháp để mang lại nhiều thơng tin hơn trong lĩnh vực này. Từ
đó có thể giúp người tìm kiếm việc làm và nhà tuyển dụng ước lượng được mức
lương của một công việc hoặc nhóm cơng việc nào đó là phù hợp hoặc khơng phù
hợp, họ sẽ có những điều chỉnh hoặc sự chuẩn bị tốt hơn trong cơng tác tuyển dụng
hoặc tìm kiếm việc làm. Với những khó khăn và nhu cầu như trên nên tác giả
nghiên cứu lựa chọn hướng đề tài xây dựng mơ hình dự đốn mức lương cơng việc
trên quảng cáo tuyển dụng với tên đề tài là: “SỬ DỤNG HỒI QUY TUYẾN
TÍNH TRONG DỰ ĐỐN MỨC LƯƠNG CÔNG VIỆC TRÊN QUẢNG CÁO
TUYỂN DỤNG” để nghiên cứu xây dựng một công cụ dự báo cho mức lương của
bất kỳ quảng cáo tuyển dụng nào. Nhằm giúp người tìm việc cũng như các nhà
tuyển dụng có thể dự đốn được mức lương phù hợp cho các vị trí cơng việc khác
nhau.

1.2.

Mục tiêu nghiên cứu


Luận văn tập trung nghiên cứu về các nghiệp vụ về quảng cáo việc làm, nghiên cứu
các nhân tố ảnh hưởng đến mức lương công việc trên quảng cáo tuyển dụng. Những
nhân tố đó có thể là nhóm cơng việc, loại cơng việc, loại hợp đồng hoặc là địa điểm
làm việc mà một quảng cáo tuyển dụng cần có. Từ đó xây dựng mơ hình dự đốn
dựa trên những nhân tố ảnh hưởng đó để đưa ra kết quả dự đoán với độ tin cậy và
độ chính xác cao nhất.


2

Để giải quyết vấn đề đó luận văn sử dụng giải pháp học máy thống kê mà cụ thể là
phân tích hồi quy ứng dụng những kỹ thuật phân tích liên quan theo quy trình khai
phá dữ liệu chuẩn cơng nghiệp CRISP-DM để có thể xây dựng mơ hình dự đoán đạt
được kết quả tốt nhất.

1.3.

Đối tượng nghiên cứu

Về nghiệp vụ, đối tượng nghiên cứu là những vấn đề liên quan đến quảng cáo tuyển
dụng. Các nhân tố liên quan đến quảng cáo tuyển dụng như: nhóm cơng việc, loại
cơng việc, loại hợp đồng, địa điểm làm việc, công ty tuyển dụng, nguồn quảng cáo
tuyển dụng, vị trí tuyển dụng.v.v.
Về dữ liệu, đối tượng nghiên cứu liên quan đến quảng cáo việc làm được công bố
tại Anh được cung cấp bởi Kaggle [5]: ( />Về kỹ thuật, đối tượng nghiên cứu là các lý thuyết về học máy thống kê và khai thác
dữ liệu, cụ thể là phân tích hồi quy dựa theo tài liệu tham khảo [1] trong phần tài
liệu tham khảo của luận văn này.
Về quy trình, đối tượng nghiên cứu là quy trình khai thác dữ liệu chuẩn công nghiệp
CRISP-DM dựa theo tài liệu tham khảo IBM SPSS Modeler CRISP-DM Guide [2]
và CRISP-DM 1.0 [3] trong phần tài liệu tham khảo.

Về công cụ, đối tượng nghiên cứu là cơng cụ phân tích dữ liệu R. là một phần mềm
mã nguồn mở phát triển và cung cấp miễn phí bơi CRAN ( />
1.4.

Tổng quan nghiên cứu

Bài toán dự đoán mức lương trên quảng cáo tuyển dụng được tổ chức Kaggle đưa ra
vào tháng 3 năm 2013. Dựa trên yêu cầu của Adzuna (một công ty về quảng cáo
tuyển dụng ở Anh - là muốn xây dựng một ứng dụng dự
đốn mức lương của bất kỳ quảng cáo cơng việc ở Anh. Từ đó, họ có thể cải thiện
rất lớn sự trải nghiệm của người dùng trong tìm kiếm việc làm, giúp nhà tuyển dụng


3

và người tìm việc tìm ra các giá trị thị trường của các vị trí việc làm khác nhau. Vì
khoảng một nửa trong số các quảng cáo công việc họ khơng cho biết mức lương
cơng khai. Vì thế Adzuna cần phát triển việc dự đoán mức lương để mang lại sự
minh bạch cho thị trường quan trọng này.
Trước đó, có một vài cơng trình nghiên cứu liên quan đến thu nhập, mức lương.
Nhưng chủ yếu các nghiên cứu chỉ tập trung nghiên cứu thu nhập và mức lương cho
từng cá nhân cụ thể ví dụ như đề tài “Dự báo và xác định thu nhập cố định” [14]
của Ramses H Abul Naga, University of Lausanne, 1997. Trong luận văn này là tập
trung nghiên cứu phương pháp dự đoán mức lương cho từng công việc cụ thể được
quảng cáo trên các quảng cáo tuyển dụng.
Trên cơ sở đó, nhiều cách tiếp cận được đưa ra mà cụ thể của một tác giả ẩn danh
[15], họ đưa ra cách tiếp cận là kết hợp tuyến tính với phân loại rừng ngẩu nhiên
(random forest) đưa ra kết quả khá ấn tượng là 4933. Riêng với cách tiếp cận của
luận văn này chỉ sử dụng mơ hình tuyến tính và đi sâu khai thác, phân loại các biến
“địa điểm làm việc”, “tiêu đề công việc”, và “mơ tả cơng việc” từ đó xây dựng mơ

hình kết hợp tất cả các biến độc lập đó, tận dụng mọi dữ liệu có sẳn để đưa ra mơ
hình dự đốn tốt nhất.

1.5.

Bố cục luận văn

Chương 1: Giới thiệu
Nội dung chương 1 giới thiệu bài toán dự đoán mức lương, lý do chọn đề tài, mục
tiêu nghiên cứu và đối tượng nghiên cứu.
Chương 2: Cơ sở lý thuyết
Trình bày quy trình khai thác dữ liệu CRISP-DM. Các lý thuyết về phân tích hồi
quy, kỹ thuật xây dựng mơ hình, kỹ thuật đánh giá mơ hình, kỹ thuật kiểm tra độ tin
cậy của mơ hình và cơng cụ phân tích R.
Chương 3: Ứng dụng hồi quy trong phân tích dự đoán mức lương


4

Trình bày việc xây dựng mơ hình dự đốn mức lương trên quảng cáo tuyển dụng
dựa trên quy trình khai thác dữ liệu CRISP-DM với các giai đoạn: tìm hiểu nghiệp
vụ, tìm hiểu dữ liệu, chuẩn bị dữ liệu, mơ hình hóa, và đánh giá mơ hình.
Chương 4: Kết luận và hướng phát triển
Tổng kết lại những nội dung chính của luận văn và trình bày hướng phát triển trong
tương lai.


5

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1.

Mơ hình khai thác dữ liệu CRISP-DM

Q trình khai thác dữ liệu điển hình có thể trở nên phức tạp. Có rất nhiều thứ để
theo dõi - những vấn đề phức tạp trong kinh doanh, với nhiều nguồn dữ liệu, thay
đổi chất lượng dữ liệu qua các nguồn dữ liệu, một loạt các kỹ thuật khai thác dữ
liệu, với nhiều cách khác nhau để việc khai thác dữ liệu được thành cơng.
Mơ hình khai thác dữ liệu được đề nghị là mơ hình CRISP - DM viết tắt của Cross Industry Standard Process for Data Mining. Mơ hình này được thiết kế như một mơ
hình chung có thể được áp dụng cho một loạt các ngành cơng nghiệp và các vấn đề
kinh doanh.

Hình 1: Mơ hình CRISP-DM


6

Mơ hình quy trình của CRISP - DM bao gồm 6 giai đoạn giải quyết các vấn đề
chính trong khai thác dữ liệu. Sáu giai đoạn kết hợp với nhau như một q trình
mang tính chu kỳ.
Bảng 1: Cơng việc từng giai đoạn trong CRISP-DM

GIAI ĐOẠN VÀ NHIỆM VỤ
Tìm hiểu

Tìm hiểu dữ

Chuẩn bị

Mơ hình


Đánh giá

Triển khai

nghiệp vụ

liệu

dữ liệu

hóa

mơ hình

ứng dụng

Xác định mục

Thu thập dữ

Tập dữ liệu

Lựa chọn kỹ

Đánh giá kết

Lập kế hoạch

tiêu:


liệu ban đầu:

Mơ tả tập dữ

thuật mơ hình

quả:

triển khai:

Tổng quan

Báo cáo thu

liệu

hóa:

Đánh giá kết

Kế hoạch triển

nghiệp vụ

thập dữ liệu

Lựa chọn dữ

Kỹ thuật mơ


quả khai phá

khai

Mục tiêu

ban đầu

liệu:

hình hóa

dữ liệu dựa

Lập kế hoạch

Tiêu chí để

Mơ tả dữ liệu:

Phân tích

Giả định mơ

trên các tiêu

theo dõi và

thành cơng


Báo cáo mơ tả

ngun nhân

hình hóa

chí thành cơng

bảo trì:

Đánh giá tình

dữ liệu

cho sự bao hàm

Tạo mẩu kiểm

của dự án

Kế hoạch theo

huống:

Nghiên cứu dữ

hoặc loại trừ

tra:


Chấp thuận mơ

dõi và bảo trì

Inventory of

liệu:

dữ liệu

Mẩu kiểm tra

hình đã đưa ra

Đưa ra báo

resourse

Báo cáo nghiên

Làm sạch dữ

Xây dựng mô

Duyệt lại quy

cáo hồn tất:

Tài liệu


cứu dữ liệu

liệu:

hình:

trình:

Báo cáo hồn

Giả định

Kiểm tra chất

Báo cáo làm

Thiết lập tham

Xem xét lại quy

tất

Nhứng rang

lượng dữ liệu:

sạch dữ liệu

số cho mơ hình


trình

Trình bày hồn

buộc

Báo cáo chất

Xây dựng dữ

Mơ tả mơ hình

Đưa ra những

tất

Rủi ro và

lượng dữ liệu

liệu:

Kiểm tra mơ

bước tiếp

Duyệt lại dự

những điều


Đưa ra các

hình:

theo:

án:

khơng lường

thuộc tính

Đánh giá mơ

Đưa ra danh

Tài liệu sử

trước

Tạo ra dịng dữ

hình

sách những

dụng

Thuật ngữ


liệu

Duyệt lại các

hành động,

Chi phí và lợi

Tích hợp dữ

thiết lập tham

quyết định tiếp

nhuận

liệu:

số

theo

Xác định mục

Hợp nhất dữ

đích khai thác

liệu


dữ liệu:

Định dạng dữ

Mục tiêu khai

liệu:

phá dữ liệu

Định dạng lại

Tiêu chí thành

dữ liệu


7

công trong khai
phá dữ liệu
Lập kế hoạch
cho dự án:
Kế hoạch
Đánh giá ban
đầu về cơng cụ
và kỹ thuật

2.1.1. Tìm hiểu nghiệp vụ

Đây có thể là giai đoạn quan trọng nhất của việc khai thác dữ liệu. Tìm hiểu nghiệp
vụ bao gồm việc xác định mục tiêu kinh doanh, đánh giá tình hình, xác định mục
tiêu khai thác dữ liệu. Hoạt động trong giai đoạn này bao gồm:


Xác định mục tiêu kinh doanh và tiêu chí thành cơng.



Thực hiện đánh giá thực trạng (nguồn lực, khó khăn, giả định, rủi ro, chi phí
và lợi ích).



Xác định các mục tiêu khai thác dữ liệu.

2.1.2. Tìm hiểu dữ liệu
Nguồn dữ liệu cung cấp nguyên liệu cho việc khai thác dữ liệu. Sự cần thiết ở giai
đoạn này phải hiểu biết các nguồn dữ liệu của một doanh nghiệp đang có và đặc
điểm của dữ liệu. Bao gồm việc thu thập dữ liệu ban đầu, mô tả dữ liệu, khai thác
dữ liệu và kiểm tra chất lượng dữ liệu.
2.1.3. Chuẩn bị dữ liệu
Sau khi chia ra từng loại dữ liệu, đến giai đoạn cần chuẩn bị dữ liệu để khai thác.
Việc chuẩn bị bao gồm việc lựa chọn, làm sạch, xây dựng, tích hợp và định dạng dữ
liệu. Những nhiệm vụ này sẽ được thực hiện nhiều lần và khơng có bất kỳ thứ tự
quy định nào.
Những nhiệm vụ này có thể sẽ tốn nhiều thời gian nhưng là bước quan trọng cho sự
thành công của việc khai thác dữ liệu. Chuẩn bị dữ liệu bao gồm:



Giải nén dữ liệu



Liên kết các bảng với nhau trong một cơ sở dữ liệu hoặc trong mơ hình.



Kết hợp các tập tin dữ liệu từ hệ thống khác nhau.


8



Xác định giá trị bị mất, những dữ liệu không chính xác.



Lựa chọn dữ liệu.



Tái cấu trúc dữ liệu thành dạng phân tích u cầu.



Chuyển đổi các lĩnh vực có liên quan.

2.1.4. Mơ hình hóa

Giai đoạn này liên quan đến việc lựa chọn kỹ thuật tạo ra các thiết kế thử nghiệm,
xây dựng và đánh giá mơ hình. Mơ hình hóa là một q trình lặp đi lặp lại, như thế
mới có được một mơ hình thống kê chuẩn. Sử dụng nhiều mơ hình để đưa ra các dự
đốn.
2.1.5. Đánh giá
Một khi đã chọn được một mơ hình chuẩn, chuẩn bị bước qua giai đoạn đánh giá
kết quả khai thác dữ liệu có thể giúp đạt được mục tiêu kinh doanh. Trước khi viết
báo cáo tổng kết và triển khai mơ hình, đều quan trọng là đánh giá sâu hơn về mơ
hình và xem xét các bước thực hiện xây dựng các mơ hình để chắc chắn nó đạt được
mục tiêu kinh doanh.
2.1.6. Triển khai
Hồn tất việc xây dựng mơ hình khơng có nghĩa việc hồn thành dự án. Cần phải
thực hiện sử dụng các mơ hình đã tạo ra. Đó là giai đoạn triển khai đơn giản là các
báo cáo, phức tạp hơn là những ứng dụng dựa trên mơ hình đã xây dựng được.
2.2.

Hồi quy tuyến tính đơn

Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay còn
gọi là biến được giải thích) vào một biến hay nhiều biến khác (biến độc lập hay cịn
gọi là biến giải thích) với ý tưởng cơ bản là ước lượng (hay dự đoán) giá trị trung
bình của biến phụ thuộc trên cơ sở các giá trị đã biết của biến độc lập.
2.2.1. Phương trình hồi quy tuyến tính đơn
Đặt (x1, y1), (x2, y2),…, (xn, yn) là mẫu gồm n cặp quan sát trên đường hồi quy tổng
thể:
y =  +  x1 +  1 [1]


×