BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM
---------------------------
TRẦN VĂN NGHIỆP
SỬ DỤNG HỒI QUY TUYẾN TÍNH
TRONG DỰ ĐOÁN MỨC LƯƠNG CÔNG VIỆC
TRÊN QUẢNG CÁO TUYỂN DỤNG
LUẬN VĂN THẠC SĨ
Chuyên ngành: Công nghệ thông tin
Mã số ngành: 60480201
TP. HỒ CHÍ MINH, tháng 03 năm 2016
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM
---------------------------
TRẦN VĂN NGHIỆP
SỬ DỤNG HỒI QUY TUYẾN TÍNH
TRONG DỰ ĐOÁN MỨC LƯƠNG CÔNG VIỆC
TRÊN QUẢNG CÁO TUYỂN DỤNG
LUẬN VĂN THẠC SĨ
Chuyên ngành: Công nghệ thông tin
Mã số ngành: 60480201
CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS. TRẦN ĐỨC KHÁNH
TP. HỒ CHÍ MINH, tháng 03 năm 2016
ii
CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP. HCM
Cán bộ hướng dẫn khoa học : TS. TRẦN ĐỨC KHÁNH
(Ghi rõ họ, tên, học hàm, học vị và chử ký)
Luận văn Thạc sĩ được bảo vệ tại Trường Đại học Công nghệ TP. HCM
ngày 20 tháng 03 năm 2016.
Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ Luận văn Thạc sĩ)
Họ và tên
TT
Chức danh Hội đồng
1
PGS.TSKH. Nguyễn Xuân Huy
Chủ tịch
2
PGS.TS. Vũ Đức Lung
Phản biện 1
3
TS. Hồ Đắc Nghĩa
Phản biện 2
4
TS. Cao Tùng Anh
Ủy viên
5
TS. Vũ Thanh Hiền
Ủy viên, Thư ký
Xác nhận của Chủ tịch Hội đồng đánh giá Luận văn sau khi Luận văn đã được sửa chữa
(nếu có).
Chủ tịch Hội đồng đánh giá LV
iii
TRƯỜNG ĐH CÔNG NGHỆ TP. HCM
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
PHÒNG QLKH – ĐTSĐH
Độc lập – Tự do – Hạnh phúc
TP. HCM, ngày 20 tháng 08 năm 2015
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: TRẦN VĂN NGHIỆP
Giới tính: Nam
Ngày, tháng, năm sinh: 15/05/1987
Nơi sinh: Cà Mau
Chuyên ngành: Công nghệ thông tin
MSHV: 1441860018
I- Tên đề tài:
“SỬ DỤNG HỒI QUY TUYẾN TÍNH TRONG DỰ ĐOÁN
MỨC LƯƠNG CÔNG VIỆC TRÊN QUẢNG CÁO TUYỂN DỤNG”
II- Nhiệm vụ và nội dung:
- Tìm hiểu về học máy thống kê, quy trình khai thác dữ liệu, phân tích thống kê.
- Xây dựng mô hình dự đoán mức lương trên quảng cáo tuyển dụng ứng dụng
phương pháp phân tích hồi quy.
- Đánh giá mô hình dự đoán ứng dụng các phương pháp đánh giá mô hình.
III- Ngày giao nhiệm vụ: 20/08/2015
IV- Ngày hoàn thành nhiệm vụ: 15/01/2016
V- Cán bộ hướng dẫn: TS. Trần Đức Khánh
CÁN BỘ HƯỚNG DẪN
(Họ tên và chữ ký)
TS. TRẦN ĐỨC KHÁNH
KHOA QUẢN LÝ CHUYÊN NGÀNH
(Họ tên và chữ ký)
iv
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và được sự hướng dẫn
khoa học của Thầy TS. Trần Đức Khánh. Các nội dung nghiên cứu, kết quả trong đề
tài này là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây. Những
số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được
chính tác giả thu thập từ các nguồn khác nhau có ghi rõ trong phần tài liệu tham
khảo.
Ngoài ra, trong luận văn còn sử dụng một số nhận xét, đánh giá cũng như số liệu
của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn gốc.
Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm về nội
dung luận văn của mình. Trường Đại Học Công Nghệ TP.HCM không liên quan
đến những vi phạm tác quyền, bản quyền do tôi gây ra trong quá trình thực hiện.
Học viên thực hiện luận văn
TRẦN VĂN NGHIỆP
v
LỜI CÁM ƠN
Trên thực tế không có sự thành công nào mà không gắn liền với những sự hỗ trợ,
giúp đỡ dù ít hay nhiều, dù trực tiếp hay gián tiếp của người khác. Trong suốt thời
gian từ khi bắt đầu học tập tại trường đến nay, em đã nhận được rất nhiều sự quan
tâm, giúp đỡ của quý Thầy Cô, gia đình và bạn bè. Với lòng biết ơn sâu sắc nhất,
em xin gửi đến quý Thầy Cô ở Khoa Công Nghệ Thông Tin – Trường Đại Học
Công Nghệ TP.HCM đã cùng với tri thức và tâm huyết của mình để truyền đạt vốn
kiến thức quý báu cho chúng em trong suốt thời gian học tập tại trường. Và đặc biệt,
trong học kỳ này. Nếu không có những lời hướng dẫn, dạy bảo của các thầy cô thì
em nghĩ bài luận văn này của em rất khó có thể hoàn thiện được. Bài luận văn thực
hiện trong khoảng thời gian 6 tháng. Bước đầu của em còn rất hạn chế và còn nhiều
bỡ ngỡ. Do vậy, em gặp rất nhiều khó khăn trong giai đoạn đầu làm luận văn.
Nhưng với sự dìu dắt hướng dẫn tận tình của thầy TS. TRẦN ĐỨC KHÁNH em đã
dần làm quen với việc nghiên cứu và hoàn thiện bài luận văn này.
Em xin gởi lời cảm ơn chân thành và sự tri ân sâu sắc đối với các thầy cô của
Trường Đại Học Công Nghệ TP.HCM, đặc biệt là các thầy cô Khoa Công Nghệ
Thông Tin của trường đã tạo điều kiện cho em để em có thể hoàn thành tốt bài luận
văn này. Và em cũng xin chân thành cám ơn các bạn học cùng khóa đã nhiệt tình
đóng góp ý kiến để em hoàn thành tốt bài luận văn của em.
Trong quá trình làm bài luận văn, khó tránh khỏi những sai sót, rất mong quý Thầy,
Cô bỏ qua. Đồng thời do trình độ lý luận cũng như kinh nghiệm thực tiễn còn hạn
chế nên bài luận văn không thể tránh khỏi những thiếu sót, em rất mong nhận được
ý kiến đóng góp của Thầy, Cô để em học thêm được nhiều kinh nghiệm để tiếp tục
hoàn thành tốt những nghiên cứu sắp tới.
Em xin chân thành cảm ơn!
TRẦN VĂN NGHIỆP
vi
TÓM TẮT
Phân tích hồi quy là một phương pháp thống kê nhằm tìm ra mối liên hệ giữa một
biến phụ thuộc (thường ký hiệu là Y) và một loạt các biến đổi khác (được biết đến
như là các biến độc lập). Mối liên hệ này được mô tả trên hình thức của một phương
trình đường thẳng (phương trình hồi quy) dựa trên các đặc trưng của dữ liệu cần
phân tích. Phân tích hồi quy thường được sử dụng để xác định có bao nhiêu yếu tố
cụ thể như giá của một mặt hàng, lãi suất, các ngành công nghiệp, ngành nghề đặc
biệt ảnh hưởng đến sự biến động về lương của công việc trên quảng cáo tuyển dụng.
Trong phạm vi đề tài này là ứng dụng phương pháp hồi quy để dự đoán mức lương
của công việc trên các quảng cáo tuyển dụng. Nỗ lực tìm mối liên hệ giữa các đặc
trưng ảnh hưởng đến mức lương công việc như: nhóm công việc, loại công việc,
loại hợp đồng, địa điểm làm việc… Từ đó đưa ra mô hình dự đoán tối ưu nhất áp
dụng các phương pháp phân tích hồi quy đơn giản, hồi quy đa biến, phân tích
phương sai, phân tích thành phần cũng như phương pháp đánh giá mô hình dựa trên
dữ
liệu
quảng
cáo
tuyển
dụng
được
( />
cung
cấp
bởi
Kaggle
vii
ABSTRACT
Regression is a statistical measure that attempts to determine the strength of the
relationship between one dependent variable (usually denoted by Y) and a series of
other changing variables (known as independent variables). This relationship is
typically in the form of a straight line (linear regression) that best approximates all
the individual data points. Regression is often used to determine how much specific
factors such as the price of a commodity, interest rates, particular industries or
sectors influence the price movement of an asset.
On this thesis, I am using regression for predicting the salary of the job on job
advertisement. Try to find the relationship between features that impacted to the job
salary such as: Job Category, Contract Time, Contract Type, Location, and so on. Base
on that points we generate a model that help employer or job seeker can forecast the
rank salary of the job by applying simple linear regression, multiple regression,
variables analysis, model evaluation on the Job Advertisement is provived by Kaggle
( />
viii
MỤC LỤC
LỜI CAM ĐOAN ..................................................................................................... iv
LỜI CÁM ƠN .............................................................................................................v
TÓM TẮT ................................................................................................................. vi
ABSTRACT ............................................................................................................. vii
DANH MỤC CÁC TỪ VIẾT TẮT .......................................................................... xi
DANH MỤC CÁC BẢNG....................................................................................... xii
DANH MỤC HÌNH ẢNH ...................................................................................... xiii
CHƯƠNG 1: GIỚI THIỆU .........................................................................................1
1.1.
Lý do chọn đề tài ...............................................................................................1
1.2.
Mục tiêu nghiên cứu .........................................................................................1
1.3.
Đối tượng nghiên cứu .......................................................................................2
1.4.
Tổng quan nghiên cứu.......................................................................................2
1.5.
Bố cục luận văn .................................................................................................3
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT ...........................................................................5
2.1.
Mô hình khai thác dữ liệu CRISP-DM .............................................................5
2.1.1.
Tìm hiểu nghiệp vụ ....................................................................................7
2.1.2.
Tìm hiểu dữ liệu .........................................................................................7
2.1.3.
Chuẩn bị dữ liệu .........................................................................................7
2.1.4.
Mô hình hóa ...............................................................................................8
2.1.5.
Đánh giá .....................................................................................................8
2.1.6.
Triển khai ...................................................................................................8
2.2.
Hồi quy tuyến tính đơn .....................................................................................8
2.2.1.
Phương trình hồi quy tuyến tính đơn .........................................................8
2.2.2.
Khoảng tin cậy và kiểm định giả thuyết trong hồi quy đơn .......................9
2.2.3.
Kiểm định tham số hồi quy tổng thể ( ) .................................................10
2.2.4.
Phân tích phương sai hồi quy ...................................................................10
2.2.5.
Dự báo trong phương pháp hồi quy tuyến tính đơn .................................12
2.3.
Hồi quy tuyến tính đa biến ..............................................................................12
ix
2.3.1.
Mô hình hồi quy .......................................................................................12
2.3.2.
Phương trình hồi quy ................................................................................12
2.3.3.
Phân tích phương sai hồi quy ...................................................................13
2.3.4.
Ước lượng khoảng tin cậy và kiểm định giả thuyết trong hồi quy đa biến ..
..................................................................................................................14
2.4.
Phương pháp đánh giá độ chính xác của mô hình ..........................................14
2.4.1.
Phương pháp chia ngẩu nhiên ..................................................................14
2.4.2.
Kiểm tra chéo K-Fold...............................................................................15
2.4.3.
Kiểm tra chéo Leave-one-out ...................................................................16
2.5.
Tổng quan công cụ R ......................................................................................16
2.5.1.
Giới thiệu R ..............................................................................................16
2.5.2.
Sử dụng R .................................................................................................18
2.5.3.
Sử dụng RStudio ......................................................................................19
2.5.4.
Một số lệnh cơ bản trong R ......................................................................20
CHƯƠNG 3: ỨNG DỤNG PHÂN TÍCH HỒI QUY DỰ ĐOÁN MỨC LƯƠNG..22
3.1.
Tìm hiểu dữ liệu ..............................................................................................22
3.2.
Chuẩn bị dữ liệu ..............................................................................................26
3.3.
Mô hình hóa ....................................................................................................35
3.3.1.
Biến độc lập và Biến phụ thuộc ...............................................................35
3.3.2.
Phân tích ảnh hưởng của nhóm công việc lên mức lương .......................36
3.3.3.
Phân tích ảnh hưởng của loại công việc lên mức lương ..........................37
3.3.4.
Phân tích ảnh hưởng của loại hợp đồng lên mức lương ...........................38
3.3.5.
Phân tích ảnh hưởng của địa điểm làm việc lên mức lương ....................40
3.3.6.
Phân tích ảnh hưởng của địa điểm làm việc là Luân Đôn lên mức lương ...
..................................................................................................................42
3.3.7.
Phân tích ảnh hưởng của tiêu đề công việc cho vị trí ứng viên có kinh
nghiệm lên mức lương .......................................................................................43
3.3.8.
Phân tích ảnh hưởng của tiêu đề công việc cho vị quản lý lên mức lương ..
..................................................................................................................45
x
3.3.9.
Phân tích ảnh hưởng của mô tả công việc cho vị trí ứng viên có kinh
nghiệm lên mức lương .......................................................................................46
3.3.10.
Phân tích ảnh hưởng của mô tả công việc cho vị trí quản lý lên mức
lương ..................................................................................................................48
3.3.11.
Mô hình 0 .................................................................................................49
3.3.12.
Mô hình 1 .................................................................................................50
3.3.13.
Mô hình 2 .................................................................................................51
3.3.14.
Mô hình 3 .................................................................................................53
3.3.15.
Mô hình 4 .................................................................................................55
3.4.
Đánh giá mô hình ............................................................................................57
3.4.1.
Phương pháp lựa chọn từng bước ............................................................57
3.4.2.
Mô hình hồi quy Ridge ............................................................................60
3.4.3.
Mô hình Lasso ..........................................................................................61
3.4.4.
Kiểm tra với bộ dữ liệu giả định ..............................................................63
3.5.
Kiểm tra chéo với K-Fold ...............................................................................64
CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ..........................................70
4.1.
Kết luận ...........................................................................................................70
4.2.
Hướng phát triển .............................................................................................70
TÀI LIỆU THAM KHẢO .........................................................................................71
PHỤ LỤC ..................................................................................................................72
xi
DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt
CRISP-DM
KDD
P
Cụm từ nguyên
Ý nghĩa
Cross-Industry Standard
Process for Data Mining
Knowledge Discovery in
Databases
Quy trình khai thác dữ liệu
P-Value
Giá trị xác suất (p-value)
Công cụ phân tích R
R
SSR
Sum of Square Residual
Tổng bình phương hồi quy
SST
Total Sum of Squares
Tổng biến động của y
SSE
Sum of Square Error
Tổng sai số bình phương
MSE
Mean Square Error
Sai số trung bình bình phương
ANOVA
Analysis of Variables
Phân tích biến
ME
Mean Error
Sai số trung bình
MAE
Mean Absolute Error
Sai số trung bình tuyệt đối
MPE
Mean Percentage Error
Mean Absolute Percentage
Error
Mean Absolute Scaled Error
Trung bình sai số theo phần trăm
Sai số trung bình tuyệt đối theo
phần trăm
Tỷ lệ sai số trung bình tuyệt đối
MAPE
MASE
xii
DANH MỤC CÁC BẢNG
Bảng 1: Công việc từng giai đoạn trong CRISP-DM
6
Bảng 2: Biến động của hồi quy tuyến tính
11
Bảng 3: Lương trung bình theo nhóm công việc
24
Bảng 4: Biến độc lập và Biến phụ thuộc
35
Bảng 5: Kết quả sai số trung bình với k=5
65
Bảng 6: Kết quả sai số trung bình với k=10
66
Bảng 7: Kết quả sai số trung bình với k=20
67
Bảng 8: Giá trị sai số dùng để đo lường độ chính xác của mô hình
68
xiii
DANH MỤC HÌNH ẢNH
Hình 1: Mô hình CRISP-DM
5
Hình 2: Mô tả phương pháp thử nghiệm K-Fold với k=5
16
Hình 3: Dự đoán chứng khoán sử dụng R
17
Hình 4: Biểu đồ gom cụm dữ liệu hình ảnh sử dụng R
18
Hình 5: Màn hình thao tác câu lệnh của công cụ R
19
Hình 6: Màn hình làm việc của công cụ RStudio
20
Hình 7: Tổng quan 20 dòng dữ liệu đầu tiên trong dữ liệu quảng cáo tuyển dụng
23
Hình 8: Dữ liệu địa điểm ở Anh
23
Hình 9: Mức lương trung bình cao nhất và thấp nhất theo thành phố ở Anh
25
Hình 10: Dữ liệu địa điểm trước khi phân loại theo theo địa điểm là Luân Đôn
27
Hình 11: Dữ liệu được phân loại theo địa điểm làm việc ở Luân Đôn và Khác Luân
Đôn
27
Hình 12: Dữ liệu được phân loại theo tiêu đề công việc cho vị trí có kinh nghiệm
28
Hình 13: Dữ liệu được phân loại theo tiêu đề cho vị trí quản lý
28
Hình 14: Dữ liệu được phân loại theo mô tả công việc cho vị trí có kinh nghiệm
29
Hình 15: Dữ liệu được phân loại theo mô tả công việc cho vị trí quản lý
29
Hình 16: Phân bố dữ liệu quảng cáo tuyển dụng theo loại công việc dựa trên mức
lương
30
Hình 17: Phân bố dữ liệu quảng cáo tuyển dụng theo loại hợp đồng dựa trên mức
lương
31
Hình 18: Phân bố dữ liệu quảng cáo tuyển dụng theo địa điểm làm việc là Luân Đôn
dựa trên mức lương
31
Hình 19: Phân bố dữ liệu quảng cáo tuyển dụng dựa trên mức lương
32
Hình 20: Phân bố dữ liệu quảng cáo tuyển dụng dựa trên nhóm công việc
32
Hình 21: Phân bố dữ liệu quảng cáo tuyển dụng theo địa điểm làm việc dựa trên mức
lương
33
xiv
Hình 22: Phân bố dữ liệu quảng cáo tuyển dụng theo tiêu đề công việc là vị trí ứng
viên có kinh nghiệm dựa trên mức lương
33
Hình 23: Phân bố dữ liệu quảng cáo tuyển dụng theo tiêu đề công việc là vị trí quản lý
dựa trên mức lương
34
Hình 24: Phân bố dữ liệu quảng cáo tuyển dụng theo mô tả công việc là ứng viên có
kinh nghiệm dựa trên mức lương
34
Hình 25: Phân bố dữ liệu quảng cáo theo mô tả công việc là vị trí quản lý dựa trên
mức lương
35
Hình 26: Mối liên hệ giữa nhóm công việc và mức lương
36
Hình 27: Phân tích kiểm tra mối liên hệ giữa nhóm công việc và mức lương
37
Hình 28: Liên hệ giữa loại công việc với mức lương
38
Hình 29: Phân tích kiểm tra mối liên hệ giữa loại công việc và mức lương
38
Hình 30: Liên hệ giữa loại hợp đồng và mức lương
39
Hình 31: Phân tích kiểm tra mối liên hệ giữa loại hợp đồng và mức lương
40
Hình 32: Liên hệ giữa địa điểm làm việc và mức lương
41
Hình 33: Phân tích kiểm tra mối liên hệ giữa địa điểm làm việc và mức lương
41
Hình 34: Liên hệ giữa địa điểm làm việc là Luân Đôn và mức lương
42
Hình 35: Phân tích kiểm tra mối liên hệ giữa địa điểm làm việc là Luân Đôn và mức
lương
43
Hình 36: Liên hệ giữa tiêu đề công việc cho vị trí ứng viên có kinh nghiệm và mức
lương
44
Hình 37: Phân tích kiểm tra mối liên hệ giữa tiêu đề công việc cho vị trí ứng viên có
kinh nghiệm và mức lương
Hình 38: Liên hệ giữa tiêu đề công việc cho vị trí quản lý và mức lương
44
45
Hình 39: Phân tích kiểm tra mối liên hệ giữa tiêu đề công việc cho vị trí quản lý và
mức lương
46
Hình 40: Liên hệ giữa mô tả công việc cho vị trí ứng viên có kinh nghiệm và mức lương
47
xv
Hình 41: Phân tích kiểm tra mối liên hệ giữa mô tả công việc cho vị trí ứng viên có
kinh nghiệm và mức lương
Hình 42: Liên hệ giữa mô tả công việc cho vị trí quản lý và mức lương
47
48
Hình 43: Phân tích kiểm tra mối liên hệ giữa mô tả công việc cho vị trí quản lý và mức
lương
49
Hình 44: Liên hệ giữa Nhóm công việc, Loại công việc, và Loại hợp đồng ảnh hưởng
lên Mức lương
51
Hình 45: Phân tích kiểm tra mối liện hệ giữa nhóm công việc, loại công việc và loại
hợp đồng ảnh hưởng lên mức lương
51
Hình 46: Liên hệ giữa Nhóm công việc, loại công việc, loại hợp đồng và địa điểm làm
việc ảnh hưởng lên mức lương
52
Hình 47: Phân tích kiểm tra mối liên hệ nhóm công việc, loại công việc, loại hợp đồng
và địa điểm làm việc ảnh hưởng lên mức lương
53
Hình 48: Liên hệ giữa Nhóm công việc, loại công việc, loại hợp đồng và địa điểm là
Luân Đôn ảnh hưởng lên mức lương
54
Hình 49: Phân tích kiểm tra mối liên hệ giữa nhóm công việc, loại công việc, loại hợp
đồng và địa điểm là Luân Đôn ảnh hưởng lên mức lương
55
Hình 50: Liên hệ giữa Nhóm công việc, loại công việc, loại hợp đồng, địa điểm, tiêu đề
và mô tả công việc ảnh hưởng lên mức lương
56
Hình 51: Phân tích kiểm tra mối liên hệ giữa nhóm công việc, loại công việc, loại hợp
đồng, địa điểm, tiêu đề và mô tả công việc ảnh hưởng lên mức lương
57
Hình 52: Số lượng biến của mô hình và điểm Cp tương ứng
58
Hình 53: Chỉ số điều chỉnh giá trị trung bình nhỏ nhất
59
Hình 54: Thể hiện giá trị dự đoán so với giá trị thực tế của mô hình dự đoán dựa trên
nhóm công việc, loại công việc, loại hợp đồng, địa điểm làm việc là Luân Đôn, tiêu
đề và mô tả công việc
59
Hình 55: Hệ số Lambda và sai số trung bình
60
Hình 56: Hệ số tương quan và hệ số Lambda
61
Hình 57: Giá trị Lambda trong mô hình Lasso
62
xvi
Hình 58: Biểu đồ hệ số tương quan và giá trị Lambda
62
Hình 59: Kết quả kiểm tra chéo mô hình 4 với k = 5
64
Hình 60: Kết quả kiểm tra chéo trên mô hình 4 với k=10
65
Hình 61: Kết quả kiểm tra chéo trên mô hình 4 với k=20
66
1
CHƯƠNG 1: GIỚI THIỆU
1.1.
Lý do chọn đề tài
Trong lĩnh vực tuyển dụng ngày nay, khoảng một nửa số công ty họ không công
khai mức lương tuyển dụng trên các quảng cáo tuyển dụng. Với vai trò là một người
tìm kiếm công việc tác giả cảm thấy rất khó khăn để làm sao biết được mức lương
công việc của quảng cáo tuyển dụng mà tác giả quan tâm, liệu rằng mức lương nào
là phù hợp hoặc không phù hợp với từng loại công việc trên quảng cáo tuyển dụng
đó. Và với vai trò là nhà tuyển dụng tác giả muốn biết được hoặc tham khảo để có
thể đưa ra mức lương hợp lý trên các quảng cáo tuyển dụng của doanh nghiệp mình.
Do đó rất cần một giải pháp để mang lại nhiều thông tin hơn trong lĩnh vực này. Từ
đó có thể giúp người tìm kiếm việc làm và nhà tuyển dụng ước lượng được mức
lương của một công việc hoặc nhóm công việc nào đó là phù hợp hoặc không phù
hợp, họ sẽ có những điều chỉnh hoặc sự chuẩn bị tốt hơn trong công tác tuyển dụng
hoặc tìm kiếm việc làm. Với những khó khăn và nhu cầu như trên nên tác giả
nghiên cứu lựa chọn hướng đề tài xây dựng mô hình dự đoán mức lương công việc
trên quảng cáo tuyển dụng với tên đề tài là: “SỬ DỤNG HỒI QUY TUYẾN
TÍNH TRONG DỰ ĐOÁN MỨC LƯƠNG CÔNG VIỆC TRÊN QUẢNG CÁO
TUYỂN DỤNG” để nghiên cứu xây dựng một công cụ dự báo cho mức lương của
bất kỳ quảng cáo tuyển dụng nào. Nhằm giúp người tìm việc cũng như các nhà
tuyển dụng có thể dự đoán được mức lương phù hợp cho các vị trí công việc khác
nhau.
1.2.
Mục tiêu nghiên cứu
Luận văn tập trung nghiên cứu về các nghiệp vụ về quảng cáo việc làm, nghiên cứu
các nhân tố ảnh hưởng đến mức lương công việc trên quảng cáo tuyển dụng. Những
nhân tố đó có thể là nhóm công việc, loại công việc, loại hợp đồng hoặc là địa điểm
làm việc mà một quảng cáo tuyển dụng cần có. Từ đó xây dựng mô hình dự đoán
dựa trên những nhân tố ảnh hưởng đó để đưa ra kết quả dự đoán với độ tin cậy và
độ chính xác cao nhất.
2
Để giải quyết vấn đề đó luận văn sử dụng giải pháp học máy thống kê mà cụ thể là
phân tích hồi quy ứng dụng những kỹ thuật phân tích liên quan theo quy trình khai
phá dữ liệu chuẩn công nghiệp CRISP-DM để có thể xây dựng mô hình dự đoán đạt
được kết quả tốt nhất.
1.3.
Đối tượng nghiên cứu
Về nghiệp vụ, đối tượng nghiên cứu là những vấn đề liên quan đến quảng cáo tuyển
dụng. Các nhân tố liên quan đến quảng cáo tuyển dụng như: nhóm công việc, loại
công việc, loại hợp đồng, địa điểm làm việc, công ty tuyển dụng, nguồn quảng cáo
tuyển dụng, vị trí tuyển dụng.v.v.
Về dữ liệu, đối tượng nghiên cứu liên quan đến quảng cáo việc làm được công bố
tại Anh được cung cấp bởi Kaggle [5]: ( />Về kỹ thuật, đối tượng nghiên cứu là các lý thuyết về học máy thống kê và khai thác
dữ liệu, cụ thể là phân tích hồi quy dựa theo tài liệu tham khảo [1] trong phần tài
liệu tham khảo của luận văn này.
Về quy trình, đối tượng nghiên cứu là quy trình khai thác dữ liệu chuẩn công nghiệp
CRISP-DM dựa theo tài liệu tham khảo IBM SPSS Modeler CRISP-DM Guide [2]
và CRISP-DM 1.0 [3] trong phần tài liệu tham khảo.
Về công cụ, đối tượng nghiên cứu là công cụ phân tích dữ liệu R. là một phần mềm
mã nguồn mở phát triển và cung cấp miễn phí bơi CRAN ( />
1.4.
Tổng quan nghiên cứu
Bài toán dự đoán mức lương trên quảng cáo tuyển dụng được tổ chức Kaggle đưa ra
vào tháng 3 năm 2013. Dựa trên yêu cầu của Adzuna (một công ty về quảng cáo
tuyển dụng ở Anh - là muốn xây dựng một ứng dụng dự
đoán mức lương của bất kỳ quảng cáo công việc ở Anh. Từ đó, họ có thể cải thiện
rất lớn sự trải nghiệm của người dùng trong tìm kiếm việc làm, giúp nhà tuyển dụng
3
và người tìm việc tìm ra các giá trị thị trường của các vị trí việc làm khác nhau. Vì
khoảng một nửa trong số các quảng cáo công việc họ không cho biết mức lương
công khai. Vì thế Adzuna cần phát triển việc dự đoán mức lương để mang lại sự
minh bạch cho thị trường quan trọng này.
Trước đó, có một vài công trình nghiên cứu liên quan đến thu nhập, mức lương.
Nhưng chủ yếu các nghiên cứu chỉ tập trung nghiên cứu thu nhập và mức lương cho
từng cá nhân cụ thể ví dụ như đề tài “Dự báo và xác định thu nhập cố định” [14]
của Ramses H Abul Naga, University of Lausanne, 1997. Trong luận văn này là tập
trung nghiên cứu phương pháp dự đoán mức lương cho từng công việc cụ thể được
quảng cáo trên các quảng cáo tuyển dụng.
Trên cơ sở đó, nhiều cách tiếp cận được đưa ra mà cụ thể của một tác giả ẩn danh
[15], họ đưa ra cách tiếp cận là kết hợp tuyến tính với phân loại rừng ngẩu nhiên
(random forest) đưa ra kết quả khá ấn tượng là 4933. Riêng với cách tiếp cận của
luận văn này chỉ sử dụng mô hình tuyến tính và đi sâu khai thác, phân loại các biến
“địa điểm làm việc”, “tiêu đề công việc”, và “mô tả công việc” từ đó xây dựng mô
hình kết hợp tất cả các biến độc lập đó, tận dụng mọi dữ liệu có sẳn để đưa ra mô
hình dự đoán tốt nhất.
1.5.
Bố cục luận văn
Chương 1: Giới thiệu
Nội dung chương 1 giới thiệu bài toán dự đoán mức lương, lý do chọn đề tài, mục
tiêu nghiên cứu và đối tượng nghiên cứu.
Chương 2: Cơ sở lý thuyết
Trình bày quy trình khai thác dữ liệu CRISP-DM. Các lý thuyết về phân tích hồi
quy, kỹ thuật xây dựng mô hình, kỹ thuật đánh giá mô hình, kỹ thuật kiểm tra độ tin
cậy của mô hình và công cụ phân tích R.
Chương 3: Ứng dụng hồi quy trong phân tích dự đoán mức lương
4
Trình bày việc xây dựng mô hình dự đoán mức lương trên quảng cáo tuyển dụng
dựa trên quy trình khai thác dữ liệu CRISP-DM với các giai đoạn: tìm hiểu nghiệp
vụ, tìm hiểu dữ liệu, chuẩn bị dữ liệu, mô hình hóa, và đánh giá mô hình.
Chương 4: Kết luận và hướng phát triển
Tổng kết lại những nội dung chính của luận văn và trình bày hướng phát triển trong
tương lai.
5
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
2.1.
Mô hình khai thác dữ liệu CRISP-DM
Quá trình khai thác dữ liệu điển hình có thể trở nên phức tạp. Có rất nhiều thứ để
theo dõi - những vấn đề phức tạp trong kinh doanh, với nhiều nguồn dữ liệu, thay
đổi chất lượng dữ liệu qua các nguồn dữ liệu, một loạt các kỹ thuật khai thác dữ
liệu, với nhiều cách khác nhau để việc khai thác dữ liệu được thành công.
Mô hình khai thác dữ liệu được đề nghị là mô hình CRISP - DM viết tắt của Cross Industry Standard Process for Data Mining. Mô hình này được thiết kế như một mô
hình chung có thể được áp dụng cho một loạt các ngành công nghiệp và các vấn đề
kinh doanh.
Hình 1: Mô hình CRISP-DM
6
Mô hình quy trình của CRISP - DM bao gồm 6 giai đoạn giải quyết các vấn đề
chính trong khai thác dữ liệu. Sáu giai đoạn kết hợp với nhau như một quá trình
mang tính chu kỳ.
Bảng 1: Công việc từng giai đoạn trong CRISP-DM
GIAI ĐOẠN VÀ NHIỆM VỤ
Tìm hiểu
Tìm hiểu dữ
Chuẩn bị
Mô hình
Đánh giá
Triển khai
nghiệp vụ
liệu
dữ liệu
hóa
mô hình
ứng dụng
Xác định mục
Thu thập dữ
Tập dữ liệu
Lựa chọn kỹ
Đánh giá kết
Lập kế hoạch
tiêu:
liệu ban đầu:
Mô tả tập dữ
thuật mô hình
quả:
triển khai:
Tổng quan
Báo cáo thu
liệu
hóa:
Đánh giá kết
Kế hoạch triển
nghiệp vụ
thập dữ liệu
Lựa chọn dữ
Kỹ thuật mô
quả khai phá
khai
Mục tiêu
ban đầu
liệu:
hình hóa
dữ liệu dựa
Lập kế hoạch
Tiêu chí để
Mô tả dữ liệu:
Phân tích
Giả định mô
trên các tiêu
theo dõi và
thành công
Báo cáo mô tả
nguyên nhân
hình hóa
chí thành công
bảo trì:
Đánh giá tình
dữ liệu
cho sự bao hàm
Tạo mẩu kiểm
của dự án
Kế hoạch theo
huống:
Nghiên cứu dữ
hoặc loại trừ
tra:
Chấp thuận mô
dõi và bảo trì
Inventory of
liệu:
dữ liệu
Mẩu kiểm tra
hình đã đưa ra
Đưa ra báo
resourse
Báo cáo nghiên
Làm sạch dữ
Xây dựng mô
Duyệt lại quy
cáo hoàn tất:
Tài liệu
cứu dữ liệu
liệu:
hình:
trình:
Báo cáo hoàn
Giả định
Kiểm tra chất
Báo cáo làm
Thiết lập tham
Xem xét lại quy
tất
Nhứng rang
lượng dữ liệu:
sạch dữ liệu
số cho mô hình
trình
Trình bày hoàn
buộc
Báo cáo chất
Xây dựng dữ
Mô tả mô hình
Đưa ra những
tất
Rủi ro và
lượng dữ liệu
liệu:
Kiểm tra mô
bước tiếp
Duyệt lại dự
những điều
Đưa ra các
hình:
theo:
án:
không lường
thuộc tính
Đánh giá mô
Đưa ra danh
Tài liệu sử
trước
Tạo ra dòng dữ
hình
sách những
dụng
Thuật ngữ
liệu
Duyệt lại các
hành động,
Chi phí và lợi
Tích hợp dữ
thiết lập tham
quyết định tiếp
nhuận
liệu:
số
theo
Xác định mục
Hợp nhất dữ
đích khai thác
liệu
dữ liệu:
Định dạng dữ
Mục tiêu khai
liệu:
phá dữ liệu
Định dạng lại
Tiêu chí thành
dữ liệu
7
công trong khai
phá dữ liệu
Lập kế hoạch
cho dự án:
Kế hoạch
Đánh giá ban
đầu về công cụ
và kỹ thuật
2.1.1. Tìm hiểu nghiệp vụ
Đây có thể là giai đoạn quan trọng nhất của việc khai thác dữ liệu. Tìm hiểu nghiệp
vụ bao gồm việc xác định mục tiêu kinh doanh, đánh giá tình hình, xác định mục
tiêu khai thác dữ liệu. Hoạt động trong giai đoạn này bao gồm:
Xác định mục tiêu kinh doanh và tiêu chí thành công.
Thực hiện đánh giá thực trạng (nguồn lực, khó khăn, giả định, rủi ro, chi phí
và lợi ích).
Xác định các mục tiêu khai thác dữ liệu.
2.1.2. Tìm hiểu dữ liệu
Nguồn dữ liệu cung cấp nguyên liệu cho việc khai thác dữ liệu. Sự cần thiết ở giai
đoạn này phải hiểu biết các nguồn dữ liệu của một doanh nghiệp đang có và đặc
điểm của dữ liệu. Bao gồm việc thu thập dữ liệu ban đầu, mô tả dữ liệu, khai thác
dữ liệu và kiểm tra chất lượng dữ liệu.
2.1.3. Chuẩn bị dữ liệu
Sau khi chia ra từng loại dữ liệu, đến giai đoạn cần chuẩn bị dữ liệu để khai thác.
Việc chuẩn bị bao gồm việc lựa chọn, làm sạch, xây dựng, tích hợp và định dạng dữ
liệu. Những nhiệm vụ này sẽ được thực hiện nhiều lần và không có bất kỳ thứ tự
quy định nào.
Những nhiệm vụ này có thể sẽ tốn nhiều thời gian nhưng là bước quan trọng cho sự
thành công của việc khai thác dữ liệu. Chuẩn bị dữ liệu bao gồm:
Giải nén dữ liệu
Liên kết các bảng với nhau trong một cơ sở dữ liệu hoặc trong mô hình.
Kết hợp các tập tin dữ liệu từ hệ thống khác nhau.
8
Xác định giá trị bị mất, những dữ liệu không chính xác.
Lựa chọn dữ liệu.
Tái cấu trúc dữ liệu thành dạng phân tích yêu cầu.
Chuyển đổi các lĩnh vực có liên quan.
2.1.4. Mô hình hóa
Giai đoạn này liên quan đến việc lựa chọn kỹ thuật tạo ra các thiết kế thử nghiệm,
xây dựng và đánh giá mô hình. Mô hình hóa là một quá trình lặp đi lặp lại, như thế
mới có được một mô hình thống kê chuẩn. Sử dụng nhiều mô hình để đưa ra các dự
đoán.
2.1.5. Đánh giá
Một khi đã chọn được một mô hình chuẩn, chuẩn bị bước qua giai đoạn đánh giá
kết quả khai thác dữ liệu có thể giúp đạt được mục tiêu kinh doanh. Trước khi viết
báo cáo tổng kết và triển khai mô hình, đều quan trọng là đánh giá sâu hơn về mô
hình và xem xét các bước thực hiện xây dựng các mô hình để chắc chắn nó đạt được
mục tiêu kinh doanh.
2.1.6. Triển khai
Hoàn tất việc xây dựng mô hình không có nghĩa việc hoàn thành dự án. Cần phải
thực hiện sử dụng các mô hình đã tạo ra. Đó là giai đoạn triển khai đơn giản là các
báo cáo, phức tạp hơn là những ứng dụng dựa trên mô hình đã xây dựng được.
2.2.
Hồi quy tuyến tính đơn
Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay còn
gọi là biến được giải thích) vào một biến hay nhiều biến khác (biến độc lập hay còn
gọi là biến giải thích) với ý tưởng cơ bản là ước lượng (hay dự đoán) giá trị trung
bình của biến phụ thuộc trên cơ sở các giá trị đã biết của biến độc lập.
2.2.1. Phương trình hồi quy tuyến tính đơn
Đặt (x1, y1), (x2, y2),…, (xn, yn) là mẫu gồm n cặp quan sát trên đường hồi quy tổng
thể:
y = + x1 + 1 [1]