Tải bản đầy đủ (.docx) (37 trang)

THỰC TRẠNG về dân số và LAO ĐỘNG của VIỆT NAM năm 2021

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (467.76 KB, 37 trang )

TIỂU LUẬN: NGHIÊN CỨU THỰC TRẠNG VỀ DÂN
SỐ VÀ LAO ĐỘNG CỦA VIỆT NAM NĂM 2021

MỤC LỤC


DANH MỤC HÌNH ẢNH

Dương Thị Ngọc Diem_01/03/2001


DANH MỤC TỪ VIẾT TẮT
DT

diện tích

DS

dân số

MDDS

mật độ dân số

LLLD15

lực lượng lao động từ 15 tuổi trở lên

DGDT

đánh giá diện tích



DGDS

đánh giá dân số

DGMDDS

đánh giá mật độ dân số

DGLLLD15

đánh giá lực lượng lao động trên 15 tuổi

TSNC

tỷ suất nhập cư

TSXC

tỷ suất xuất cư

TSST

tỷ suất sinh thơ

TSNCR

tỷ suất nhập cư rịng

DGTSNC


đánh giá tỷ suất nhập cư

DGTSXC

đánh giá tỷ suất xuất cư

DGTSST

đánh giá tỷ suất sinh thô

GRDPUSD

gross regional domestic product USD là tổng sản phẩm trên địa bàn
tính theo đơn vị USD

CSGSH

chỉ số giá sinh hoạt theo không gian

ML

machine learning là học máy

Dương Thị Ngọc Diem_01/03/2001


CHƯƠNG 1: GIỚI THIỆU
1.1. Tính cấp thiết của đề tài
Con người là nguồn lực trọng yếu của mỗi quốc gia, là yếu tố quan trọng góp phần

thúc đẩy phát triển kinh tế - chính trị - xã hội. Chính vì tầm quan trọng đó, các quốc gia
trên thế giới đã và đang tập trung vào các khảo sát liên quan đến cơ cấu dân số, nhằm
mục đích theo dõi và đưa ra các chính sách phù hợp với đất nước.
Dân số thay đổi nhanh chóng cho thấy tầm quan trọng của việc sử dụng dữ liệu và
dự báo dân số trong việc xây dựng chính sách, chiến lược và kế hoạch kinh tế - xã hội
cấp quốc gia, cấp địa phương và cấp ngành, đồng thời có thể tính đến nhu cầu của các
nhóm dân số khác nhau một cách chính xác, đảm bảo khơng để ai bị bỏ lại phía sau,
hướng tới đạt được các mục tiêu phát triển bền vững.
Trong bốn thập kỷ qua, dân số Việt Nam đã có những bước thay đổi đáng kể. Việt
Nam đã và đang tiếp tục tiến vào thời kỳ dân số vàng từ năm 2007 và dự kiến sẽ kéo dài
đến năm 2039. Tuy nhiên, việc kiểm soát tốc độ tăng trưởng, trình độ phát triển, cơ cấu
dân số có ảnh hưởng thế nào đến thu nhập bình quân và nền kinh tế chưa bao giờ là một
bài toán dễ trả lời.
Chính vì thế, nhóm chúng em quyết định thực hiện báo cáo " Thực trạng về dân số
và lao động của nước ta năm 2021" bao gồm một số dữ liệu cụ thể: Tên tỉnh thành, khu
vực, dân số, mật độ dân số, tỷ suất nhập (xuất) cư, LLLĐ từ 15 tuổi, tỷ suất sinh thơ với
mục đích nghiên cứu sự thay đổi của dân số khu vực, nguồn lực lao động sẽ tác động đến
vấn đề việc làm ra sao. Đồng thời phần nào giải quyết những câu hỏi về tỷ lệ nhập (xuất)
dân cư trên một đơn vị hành chính tại Việt Nam.
1.2. Mục tiêu nghiên cứu
Dựa trên các dữ liệu được khảo sát và trực quan hóa rõ ràng, đề tài nghiên cứu
hướng đến mục tiêu điều ta dân số khu vực có ảnh hưởng thế nào đến các chỉ số phát
triển của khu vực nói riêng và cả nước nói chung. Từ đó chỉ ra được mối quan hệ giữa
Dương Thị Ngọc Diem_01/03/2001


vấn đề dân số và các vấn đề kinh tế - xã hội như: dân số nhiều sẽ mang được lợi ích gì, tỉ
suất sinh hoặc tỷ suất xuất (nhập) cư sẽ khiến cơ cấu dân số thay đổi ra sao, nguồn lao
động từ 15 tuổi chiếm bao nhiêu phần trăm trên tổng dân số trên địa bàn tỉnh.
Bài nghiên cứu chỉ tập trung vào một số chỉ tiêu đánh giá cụ thể xoay quanh sự biến động

của dân số ở từng địa phương. Thơng qua đó đưa ra một số nhận xét, cũng như giải pháp
cho để giải quyết bài toán về dân số nêu trên.
1.3. Câu hỏi nghiên cứu
Để đạt được mục tiêu nghiên cứu trên, báo cáo tập trung trả lời câu hỏi sau:
Dân số ảnh hưởng tới lao động và việc làm như thế nào?
1.4. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu: Dân số và lao động tại Việt Nam
Phạm vi nghiên cứu:
- Phạm vi không gian: Dân số và lao động tại các tỉnh thành Việt Nam.
- Phạm vi thời gian: Báo cáo thu thập dữ liệu năm 2021.
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
2.1. Một số khái niệm cơ bản
2.1.1. Tổng quan về khoa học dữ liệu


Khoa học dữ liệu là lĩnh vực nghiên cứu dữ liệu nhằm khai thác những thông tin
chuyên sâu có ý nghĩa đối với hoạt động kinh doanh. Đây là một phương thức tiếp
cận đa ngành, kết hợp những nguyên tắc và phương pháp thực hành của các lĩnh
vực tốn học, thống kê, trí tuệ nhân tạo và kỹ thuật máy tính để phân tích khối
lượng lớn dữ liệu. Nội dung phân tích này sẽ giúp các nhà khoa học dữ liệu đặt ra

Dương Thị Ngọc Diem_01/03/2001


và trả lời những câu hỏi như sự kiện gì đã xảy ra, tại sao nó xảy ra, sự kiện gì sẽ
xảy ra và có thể sử dụng kết quả thu được cho mục đích gì.
Tại sao khoa học dữ liệu lại quan trọng?


Khoa học dữ liệu quan trọng bởi vì lĩnh vực này kết hợp các cơng cụ, phương

pháp và công nghệ để rút ra ý nghĩa từ dữ liệu. Các tổ chức hiện đại chìm ngập
trong dữ liệu và hiện có vơ vàn thiết bị có thể tự động thu thập và lưu trữ dữ liệu.
Các hệ thống và cổng thanh toán trực tuyến đang dần thu thập nhiều dữ liệu hơn
trong những lĩnh vực thương mại điện tử, y tế, tài chính cũng như mọi khía cạnh
khác của đời sống con người. Chúng ta có sẵn khối lượng đồ sộ dữ liệu dưới dạng
văn bản, âm thanh, video và hình ảnh.



Đáng tiếc thay, dữ liệu thơ chẳng có giá trị trừ khi chúng có thể được sử dụng để
giải quyết vấn đề. Các nhà khoa học dữ liệu có thể chuyển đổi dữ liệu thơ thành
những đề xuất có ý nghĩa. Họ có thể phát hiện và giải quyết các vấn đề mà doanh
nghiệp cịn khơng biết là chúng tồn tại. Các tổ chức có thể sử dụng những đề xuất
này để khiến khách hàng hài lòng hơn, tối ưu hóa chuỗi cung ứng hoặc cho ra mắt
các sản phẩm mới.

Các kỹ thuật trong khoa học dữ liệu


Phân loại là kỹ thuật sắp xếp dữ liệu thành các nhóm hoặc danh mục cụ thể. Máy
tính được đào tạo để xác định và sắp xếp dữ liệu. Các tập dữ liệu đã xác định được
sử dụng để xây dựng những thuật toán ra quyết định trong một máy tính có khả
năng xử lý và phân loại dữ liệu một cách nhanh chóng. Ví dụ:



Phân loại sản phẩm theo phổ biến hoặc khơng phổ biến




Phân loại đơn bảo hiểm theo rủi ro cao hoặc rủi ro thấp



Phân loại bình luận trên mạng xã hội thành tích cực, tiêu cực hoặc trung lập.

Dương Thị Ngọc Diem_01/03/2001




Hồi quy là phương pháp tìm ra mối quan hệ giữa 2 điểm dữ liệu dường như không
liên quan. Mối liên kết này thường được lập mơ hình xoay quanh một cơng thức
tốn học và được biểu thị dưới dạng đồ thị hoặc đường cong. Khi giá trị của một
điểm dữ liệu đã được xác định, hồi quy sẽ được sử dụng để dự đốn điểm dữ liệu
cịn lại. Ví dụ:



Tốc độ lây nhiễm của các căn bệnh lây qua đường khơng khí.



Mối quan hệ giữa mức độ hài lịng của khách hàng và số lượng nhân viên.



Phân nhóm là phương pháp gộp các dữ liệu có liên quan chặt chẽ lại với nhau để
tìm kiếm các mẫu và điểm dị thường. Phân nhóm khác với phân loại vì dữ liệu
khơng thể được sắp xếp chính xác vào các hạng mục cố định. Do đó, dữ liệu được

nhóm thành các mối quan hệ có khả năng xảy ra nhất. Thơng qua phân nhóm, các
mẫu và mối quan hệ mới có thể được phát hiện. Ví dụ: ·



Nhóm những khách hàng có hành vi mua hàng giống nhau để cải thiện dịch vụ
khách hàng.



Nhóm lưu lượng mạng để xác định mẫu sử dụng hàng ngày và nhanh chóng phát
hiện một cuộc tấn cơng mạng.



Nhóm các bài viết thành nhiều hạng mục tin tức khác nhau và sử dụng thông tin
này để tìm kiếm tin giả.

2.1.2 Khái quát về học máy
Học máy hay máy học trong tiếng Anh là Machine learning, viết tắt: ML.
Học máy là một công nghệ phát triển từ lĩnh vực trí tuệ nhân tạo. Các thuật tốn
học máy là các chương trình máy tính có khả năng học hỏi về cách hoàn thành các nhiệm
vụ và cách cải thiện hiệu suất theo thời gian.

Dương Thị Ngọc Diem_01/03/2001


Học máy vẫn đòi hỏi sự đánh giá của con người trong việc tìm hiểu dữ liệu cơ sở
và lựa chọn các kĩ thuật phù hợp để phân tích dữ liệu. Đồng thời, trước khi sử dụng, dữ
liệu phải sạch, khơng có sai lệch và khơng có dữ liệu giả.

Các mơ hình học máy u cầu lượng dữ liệu đủ lớn để "huấn luyện" và đánh giá
mơ hình. Trước đây, các thuật toán học máy thiếu quyền truy cập vào một lượng lớn dữ
liệu cần thiết để mơ hình hóa các mối quan hệ giữa các dữ liệu. Sự tăng trưởng trong dữ
liệu lớn (big data) đã cung cấp các thuật toán học máy với đủ dữ liệu để cải thiện độ
chính xác của mơ hình và dự đốn.
Bộ dữ liệu điều tra về dân số từ 2011 - 2021 bao gồm những trường dữ liệu sau:
Dân số (DS): là tập hợp người sinh sống trong một quốc gia, khu vực, vùng địa lý
kinh tế hoặc một đơn vị hành chính.
Mật độ dân số (MDDS): là số dân tính bình qn trên một kilơmét vng diện tích
lãnh thổ, được tính bằng cách chia dân số (thời điểm hoặc bình quân) của một vùng dân
cư nhất định cho diện tích lãnh thổ của vùng đó. Mật độ dân số có thể tính cho tồn quốc
hoặc riêng từng vùng (nơng thơn, thành thị, vùng kinh tế); từng tỉnh, huyện, xã, v.v…
nhằm phản ánh tình hình phân bố dân số theo địa lý vào một thời gian nhất định.
MDDSngườikm2 =Số lượng dân số (người)Diện tích lãnh thổ (km2)
Tỷ suất nhập cư (TSNC): phản ánh số người từ đơn vị lãnh thổ khác (nơi xuất cư)
nhập cư đến một đơn vị lãnh thổ trong thời kỳ nghiên cứu tính bình qn trên 1.000 dân
của n v lónh th ú (ni nhp c)
IMR %=IPtbì1000
Trong ú:
ã

IMR: Tỷ suất nhập cư.



I: Số người nhập cư trong năm.

Dương Thị Ngọc Diem_01/03/2001





Ptb: Dân số trung bình (hay dân số có đến giữa năm).
Tỷ suất xuất cư (TSXC): phản ánh số người xuất cư của một đơn vị lãnh thổ trong

thời kỳ nghiên cứu tính bình qn trên 1.000 dân của đơn v lónh th ú.
OMR %OOPtbì1000
Trong ú:
ã

OMR: T sut xut c

ã

O: Số người xuất cư trong năm



Ptb: Dân số trung bình (hay dân số có đến giữa năm).
Tỷ suất nhập cư ròng (TSNCR): TSNC – TSXC. Thể hiện độ hấp dẫn của tỉnh

thành đó (ta phân tích những yếu tố khác tác động đến TSNCR như thế nào).
Tỷ suất sinh thô (TSST): là chỉ tiêu đo lường mức sinh của dân số, một trong hai
thành phần của tăng tự nhiên dân số. Tỷ suất sinh thơ lớn hay nhỏ có ảnh hưởng đến quy
mô, cơ cấu và tốc độ tăng dân số. Tỷ suất sinh thô cho biết cứ 1.000 dân, có bao nhiêu trẻ
em sinh ra sống trong thời kỳ nghiên cứu.
CBR = (Số trẻ em sinh ra trong năm/Tổng s dõn trung bỡnh ca nm) ì 1000
ã

Tng sn phm trên địa bàn (GRDP): là kết quả cuối cùng của hoạt động sản

xuất thực hiện bởi các đơn vị sản xuất thường trú trên địa bàn Tỉnh, Thành phố
trực thuộc trung ương. GDP thì thường tính cho cả nước, GRDP thường tính cho
địa phương.

Cơng thức tính GRDP:
Theo phương pháp sản xuất:
GRDP = VA + T – S
Dương Thị Ngọc Diem_01/03/2001


Trong đó:


VA: Là tổng giá trị tăng thêm của các ngành nghề, dịch vụ



T: Là thuế nhập khẩu vào địa phương



S: Trợ cấp sản phẩm trong địa phương.

Tính theo phương pháp thu nhập:
GRDP = I+T+A+S
Trong đó:


I = Thuế sản xuất (khơng bao gồm phần trợ cấp sản xuất)




T = Thu nhập của người lao động đến từ các hoạt động sản xuất ( có thể tính bằng
hiện vật quy ra tiền)



A= Khấu hao tài sản



S= Thu nhập hỗn hợp hoặc thặng dư sản xuất.

Tính theo phương pháp sử dụng:
GRDP = C + G + I + (X-M)
Trong đó:


C = Chi tiêu của hộ gia đình.



G = Tổng chi tiêu của cả hệ thống chính phủ và nhà nước.



I = Tích lũy tài sản hoặc đầu tư của nhà kinh doanh.




X-M: Xuất khẩu rịng – tổng giá trị hàng hóa nhập khẩu.

Dương Thị Ngọc Diem_01/03/2001


Chỉ số giá sinh hoạt theo không gian (SCOLI): là một chỉ tiêu tương đối (tính bằng
%) phản ánh sự chênh lệch giá hàng hoá và dịch vụ phục vụ cho đời sống hàng ngày của
người dân giữa các tỉnh/thành phố trực thuộc trung ương, giữa các vùng trong nước tại
một thời điểm (tháng, quý hoặc năm).
2.2. Các công cụ sử dụng trong báo cáo
2.2.1. Trực quan hóa dữ liệu - Python
2.2.1.1. Sơ lược về Python
Python là ngôn ngữ lập trình cấp cao, được tạo ra bởi Guido van Rossumdo và lần đầu
ra mắt vào năm 1991. Ngôn ngữ Python là một ngơn ngữ lập trình mã nguồn mở, đa nền
tảng, dễ học dễ đọc. Python có cấu trúc rõ ràng, thuận tiện cho người lần đầu tiếp xúc với
ngôn ngữ lập trình. Vì thế, nó được sử dụng rộng rãi trong các ứng dụng web, phát triển
phần mềm, khoa học dữ liệu và máy học.
Python hoàn toàn tạo kiểu động và sử dụng cơ chế cấp phát bộ nhớ tự động. Python
có cấu trúc dữ liệu cấp cao mạnh mẽ và cách tiếp cận đơn giản nhưng hiệu quả đối với
lập trình hướng đối tượng. Cú pháp lệnh của Python là điểm cộng vơ cùng lớn vì sự rõ
ràng, dễ hiểu và cách gõ linh động làm cho nó nhanh chóng trở thành một ngơn ngữ lý
tưởng để viết script và phát triển ứng dụng trong nhiều lĩnh vực, các nền tảng.
Lợi ích sử dụng Python


Python cung cấp một cú pháp cấp cao, dễ hiểu.



Cơ sở người dùng dành cho nhà phát triển lớn.




Python có khả năng kết hợp với nhiều ngơn ngữ lập trình khác.



Chức năng tự động chuyển code sang ngơn ngữ để máy tính có thể hiểu.



Mã nguồn mở miễn phí hồn tồn.

Dương Thị Ngọc Diem_01/03/2001




Thư viện tiêu chuẩn lớn để giải quyết những tác vụ phổ biến.



Khả năng tương thích nhiều nền tảng như Windows, macOS, Linux và Unix.



Lập trình hướng đối tượng (OOP) giúp giải quyết những vấn đề phức tạp một cách
trực quan.

2.2.1.2. Matplotlib

Matplotlib là một trong những thư viện Python phổ biến nhất được sử dụng để trực
quan hóa dữ liệu. Sở dĩ matplotlib phổ biến nhất vì nó là một trong những package được
phát triển đầu tiên trên python về dựng đồ thị. Những package được phát triển muộn hơn
hầu hết đều kế thừa và phát triển lại các tính năng của nó. Bên cạnh đó, các package như
pandas, seaborn thậm chí cịn đóng gói các hàm của matplotlib vào bên trong các chức
năng của mình. Đây đều là những packages mạnh về xử lý dữ liệu và visualization.
Ngoài ra, Matplotlib là một thư viện đa nền tảng để hiển thị dữ liệu dưới dạng đồ
họa hai và ba chiều (2D và 3D) chất lượng cao. Các biểu đồ được vẽ trên matplotlib có
thể được tuỳ biến và can thiệp sâu để điều chỉnh style và định dạng.
Tuy nhiên Matplotlib vẫn tồn tại một số hạn chế so với những packages khác đó
là: biểu đồ được vẽ trên matplotlib đó là khơng có khả năng public và chia sẻ đồ thị thông
qua API như Plotly. Matplotlib chưa vẽ được các biểu đồ có thể tương tác được (như có
nút ấn ẩn hiện, kéo thả, bộ lọc). Mặc dù vậy, với giới nghiên cứu và data scientist thì sự
đa dạng của các biểu đồ của Matplotlib đã đáp ứng được phần lớn các mục đích viết báo
cáo khoa học, phân tích dữ liệu, phân tích kinh doanh.
Hỗ trợ rất nhiều loại biểu đồ, đặc biệt là các loại được sử dụng trong nghiên cứu
hoặc kinh tế như biểu đồ dòng, đường, tần suất (histograms), phổ, tương quan,
errorcharts, scatterplots, …


Một số loại biểu đồ trong matplotlib:

Dương Thị Ngọc Diem_01/03/2001




Biểu đồ dạng đường (Line Plot) thường phù hợp với mục đích thể hiện xu hướng
tăng/giảm ở chuỗi thời gian và dữ liệu so sánh giữa các nhóm trong biến category.




Biểu đồ dạng cột (Bar Plot) phù hợp với mục đích so sánh gía trị giữa các nhóm
khác nhau. Chẳng hạn như so sánh độ dài cánh hoa trung bình giữa các nhóm.



Biểu đồ dạng trịn (Pie Chart) thường được sử dụng để thể hiện tỷ lệ phần trăm
giữa các mục khác nhau



Biểu đồ phân tán (Scatter Plot) được sử dụng để biểu diễn từng điểm trong đồ thị
hai chiều. Trong machine learning, khi cần biểu diễn các cụm hoặc trong các tình
huống muốn tìm ra phân phối của các điểm dữ liệu theo các chiều chúng ta sẽ
thường dùng biểu đồ scatter.

2.2.1.3. Searbon
Seaborn là thư viện mở rộng được viết trên nền Matplotlib, từ đó kế thừa các chức
năng biểu diễn dữ liệu từ Matplotlib. Vì vậy, những gì Seaborn làm được thì Matplotlib
cũng làm được nhưng ngược lại thì khơng thể, cũng có nghĩa là Seaborn khơng có khả
năng thay thế hoàn toàn được Matplotlib. Tuy nhiên, Seaborn cũng cung cấp các chức
năng cấp cao giúp dễ dàng tạo ra các hình ảnh trực quan hấp dẫn nhất qn.


Đặc tính nổi bật của Seaborn



Rất nhiều chủ đề hoạt động với đồ họa kiểu Matplotlib.




Khả năng trực quan hóa cả dữ liệu đơn biến và đa biến.



Hỗ trợ trực quan hóa các loại dữ liệu mơ hình hồi quy.



Dễ dàng vẽ biểu đồ dữ liệu thống kê cho phân tích chuỗi thời gian.



Hiệu suất liền mạch với Pandas, NumPy và các thư viện Python khác.

Dương Thị Ngọc Diem_01/03/2001




Các chức năng
Về cơ bản, seaborn cung cấp nhiều dạng biểu đồ hơn, với cú pháp đơn giản và

hình vẽ "default" thể hiện ra cũng màu mè và thú vị hơn. Hầu hết các tài liệu được cấu
trúc xung quanh 3 chức năng.


Relplot (Relational Plots): Hàm relplot được sử dụng để tạo các biểu đồ quan hệ là

biểu đồ đường (lineplot) và biểu đồ phân tán (scatterplot). Những biểu đồ này
cung cấp một cái nhìn tổng quan về mối quan hệ giữa các biến.



Displot (Distribution Plots): Hàm displot tạo ra các biểu đồ phân phối cho chúng
ta cái nhìn tổng quan về sự phân bố của các biến số. Có thể sử dụng hàm displot
để tạo histplot, kdeplot, ecdfplot và rugplot bằng chức năng phân tích.



Catplot (Categorical Plots): Hàm catplot được sử dụng để vẽ các dạng dữ liệu
phân loại. Ví dụ, phân loại giới tính, phân loại ngày tháng, phân loại sản phẩm…
để trực quan số liệu các dạng Dataset này. Có thể sử dụng các hàm Catplot để tạo
ra 8 biểu đồ phân loại khác nhau: stripplot, swarmplot, boxplot, violinplot,
boxenplot, pointplot, barplot, countplot.

2.2.1.4. Plotly
Plotly có khả năng thực hiện những functions "Interactive Visualization". Tính
tương tác mà Plotly đem đến giúp các biểu đồ trực quan hơn và tăng thêm cảm giác thu
hút. Những kiểu đồ thị mà có thể vẽ trên Matplotlib và Seaborn thì hồn tồn thực hiện
được với Plotly như biểu đồ phân tán (Scatter Plot), đồ thị đường thẳng (Line Charts),
biểu đồ cột (Bar Charts), biểu đồ trịn (Pie Charts) biểu đồ bong bóng (Bubble Charts),
biểu đồ điểm (Dot Plots), biểu đồ cột ngang (Horizontal Bar Charts), …
Plotly là một lựa chọn tuyệt vời để tạo ra các biểu đồ tương tác, đồ thị chất lượng
cao trong xử lý dữ liệu địa lý, khoa học, thống kê và tài chính.

Dương Thị Ngọc Diem_01/03/2001





Biểu đồ Thống kê (Statistical Charts): biểu đồ sai số chuẩn (Error Bars), biểu đồ
hộp (Box Plots), biểu đồ tần suất (Histograms), biểu đồ Distplots, biểu đồ tần suất
2D (2D Histograms),...



Biểu đồ Khoa học (Scientific Charts): Biểu đồ gần như là cơng cụ khơng thể
thiếu trong khoa học. Vì vậy, Plotly đã cung cấp rất nhiều loại biểu đồ Khoa học
như biểu đồ đường viền (Contour Plots), bản đồ nhiệt (Heatmaps), xử lý ảnh
(Imshow), biểu đồ Log (Log Plots),...Với 20 loại khác, nhóm biểu đồ Khoa học có
số lượng nhiều nhất trong tất cả các loại biểu đồ.



Biểu đồ Tài chính: Từ báo cáo kinh doanh từng bộ phận nhỏ đến phân tích tình
hình nền Tài chính đều ln cần các biểu đồ trực quan. Với tính tương tác cao, UI
sắp xếp gọn gàng, và dễ sử dụng, các biểu đồ Tài chính trong Plotly là một lựa
chọn đáng cân nhắc dành cho các bạn quan tâm đến Tài chính.



Bản đồ địa chất: Plotly cũng không quên cung cấp nhiều loại bản đồ với các phân
tích khác nhau rất hữu ích. Đã có đồ thị 2D thì phải có đồ thị 3D. Thư viện đồ thị
3D của Plotly không hề thu kém với các thư viện đồ thị 3D khác.
Ngoài ra, Plotly khơng những có đa dạng các loại biểu đồ màcòn hỗ trợ nhiều

chức năng khác như Suplots, Transforms, Add Custom Controls, Animations, Chart
Studio Integration, Jupyter Widgets Interaction, và các chức năng nâng cao như

Smoothing, Plot CSV Data, Peak Finding, và Random Walk.
2.2.2 Công cụ học máy - Hồi quy tuyến tính
2.2.2.1 Hồi quy tuyến tính
Hồi quy tuyến tính (Linear Regression) là một phương pháp thống kê để hồi quy
dữ liệu với biến phụ thuộc có giá trị liên tục trong khi các biến độc lập có thể có một
trong hai giá trị liên tục hoặc là giá trị phân loại. Nói cách khác "Hồi quy tuyến tính" là
một phương pháp để dự đoán các biến đầu vào - input variable (x) dựa trên giá trị của các

Dương Thị Ngọc Diem_01/03/2001


biến đầu ra hay các biến mục tiêu (y). Hồi quy tuyến tính thuộc nhóm Học có giám sát
(Supervised Learning).
- Phương trình hồi quy tuyến tính
yi=fx=w0+w1x1+…+wixi+ei
Trong đó:


x là biến phụ thuộc



y là biến độc lập



w0 là hằng số hồi quy, hay cịn được gọi là hệ số chặn.




w1,wi là hệ số hồi quy, hay còn được gọi là hệ số góc.



e là sai số. Chỉ số này càng lớn càng khiến cho khả năng dự đoán của hồi
quy trở nên kém chính xác hơn hoặc sai lệch nhiều hơn so với thực tế.

- Phương trình trên có thể rút gọn thành mơ hình tổng thể:
yi=wXxi+ei với wX=w0+w1x1+…+wixi
- Khi biểu diễn trong không gian 2 chiều để thể hiện mối quan hệ độc lập – phụ thuộc,
các điểm dữ liệu có xu hướng tạo thành một đường thẳng. Trên thực tế, dữ liệu của bài
tốn Linear Regression có thể nằm trong không gian nhiều hơn 2 chiều.
Một trong các phương pháp ước lượng hồi quy tuyến tính phổ biến là bình phương
nhỏ nhất OLS (Ordinary Least Squares). Trong báo cáo này, mơ hình OLS sẽ được sử
dụng để dự đốn. Với tổng thể, sai số (error) ký hiệu là e, còn trong mẫu nghiên cứu sai
số lúc này được gọi là phần dư (residual) và được ký hiệu là ε.
- Mô hình ước lượng có dạng:

Dương Thị Ngọc Diem_01/03/2001


yi=w0 +wXxi+i
+ Trong đó w0,wXlà các ước lượng khơng chệch của các hệ số hồi quy w0,wXvà ε là
phần dư.
Nguyên tắc của phương pháp OLS là tìm các giá trị hệ số sao cho tổng bình phương
các phần dư (RSS) là nhỏ nhất. Có thể hiểu, sự sai khác giữa giá trị thực y và giá trị dự
đoán y là nhỏ nhất.
- Sai số trong mơ hình được xác định:
i=yi-y=yi-w+wXxi
- Bình phương của phần dư:

i2=(yi-w0+wXxi)2
- Với n quan sát có tổng bình phương các phần dư:
S= i=1n(yi-w0+ wXxi)2
Như vậy, mục đích của phương pháp hồi quy OLS trở thành ước lượng w0 và wX sao
cho S đạt giá trị nhỏ nhất.
2.2.2.2. Kiểm định ý nghĩa thống kê của các hệ số hồi quy


Hệ số R bình phương (R-squared) và R bình phương hiệu chỉnh
Hệ số xác định R2 là tỉ lệ (hoặc tỉ lệ %) sự biến động của biến phụ thuộc được giải

thích bởi biến giải thích (theo mơ hình, trong mẫu). Vì vậy, R 2 cho biết mơ hình đó hợp
với dữ liệu ở mức bao nhiêu %. R2 thường nhận giá trị từ 0 đến 1.
Chỉ số này cho phép kiểm tra xem việc đưa thêm một biến vào mơ hình có cịn
được hay khơng, đồng thời nó cịn có khả năng loại trừ ảnh hưởng của một số biến. Đặc
biệt, giá trị R2 càng cao thì mối quan hệ giữa nhân tố độc lập (biến độc lập) và nhân tố
Dương Thị Ngọc Diem_01/03/2001


phụ thuộc càng chặt chẽ. Vì thế R 2 cịn được biết tới với cái tên hệ số tương quan r bình
phương.
Hệ số xác định: R2=ESSTSS=1-RSSTSS=w1∑yixi+w2∑yix2i∑yi2
Tuy nhiên, càng đưa thêm nhiều biến vào mơ hình, mặc dù chưa xác định biến đưa
vào có ý nghĩa hay khơng thì giá trị R 2 sẽ tăng. Việc đưa thêm biến vào mô hình sẽ làm
cho mơ hình có khả năng bị sai dạng hàm hoặc gây ra các bệnh khác của mô hình. Vì vậy,
R2 hiệu chỉnh được nghiên cứu giúp khắc phục nhược điểm của R2 thông thường. Hệ số
này cho phép ta đo độ thích hợp khi ta thêm một tham số nữa. Qua đó giúp giảm sự phức
tạp của mơ hình.
Hệ số xác định điều chỉnh: R2=1-∑i2/(n-k)∑yi2/(n-1)
Trong đó, k là số hệ số ước lượng trong mơ hình, kể cả hệ số cắt w0.



TSS (Total Sum of Squares): đo tổng biến động của biến phụ thuộc



ESS (Explained Sum of Squares): tổng biển động của biến phụ thuộc được
giải thích bởi mơ hình (biến giải thích.).



RSS (Residual SS): tổng biến động của biến phụ thuộc được giải thích bởi
các yếu tố nằm ngồi mơ hình – Yếu tố ngẫu nhiên.

Mối quan hệ giữa R2 và R2 cũng được thể hiện trong cơng thức sau:
R2=1-(1-R2)(n-k)(n-1)
Như vậy, khi k = 1 thì R2=R2. Khi k >1 thì R2>R2 nghĩa là khi số biến giải thích
tăng thì R2 sẽ tăng ít hơn R2. Ngồi ra, R2 cũng có thể là một đại lượng âm.


Kiểm định F (Kiểm định Wald)

Dương Thị Ngọc Diem_01/03/2001


Mơ hình được gọi là khơng có hiệu lực giải thích, hay nói cách khác khơng giải thích
được sự thay đổi của biến Y, nếu toàn bộ các hệ số hồi quy riêng đều bằng 0. Vì vậy để
kiểm định sức mạnh hay mức ý nghĩa của mơ hình ta cần kiểm định bài tốn sau:
Cặp giả thiết: {H0:w1=w2=...=wX=0 H1:ít nhất có một tham số wX≠0
Để giải quyết bài tốn kiểm định trên, ta dùng tiêu chuẩn thống kê sau:

Giá trị kiểm định: F=ESS/(k-1)RSS/(n-k)
Khi giả thiết thống kê F có phân phối Fisher với k – 1 và n – k bậc tự do. Vậy với mức ý
nghĩa α ta có quy tắc kiểm định:


Nếu F > Fα(k - 1; n - k) hoặc p-value ≤ α thì bác bỏ H0



Nếu F < Fα(k - 1; n - k) thì chưa đủ cơ sở để bác bỏ H0



Mối quan hệ giữa R2 và kiểm định F

Kiểm định H0:w1=w2=...=wX=0 tương đương kiểm định H0:R2=0. Vì vậy, ta có cặp
giả thiết sau:
{H0:R2=0 H1:R2≠0
Tính giá trị thống kê F theo cơng thức:
F=ESS/(k-1)RSS/(n-k)=R21-R2n-kk-1
Vậy kiểm định F là thước đo ý nghĩa chung của mô hình hồi quy và cũng là kiểm
định ý nghĩa của R2. Khi R2 càng lớn thì F càng lớn.
2.2.2.3. Chạy hồi quy tuyến tính bằng Python


Scikit-Learn

Dương Thị Ngọc Diem_01/03/2001



Có một số cách để thực hiện một hồi quy tuyến tính trong Python như sử dụng các
mơ hình thống kê, numpy, scipy và sckit learn. Nhưng trong báo cao này sẽ sử dụng sckit
learn để thực hiện hồi quy tuyến tính.
Scikit-learn (Sklearn) là thư viện mạnh mẽ nhất dành cho các thuật tốn học máy
được viết trên ngơn ngữ Python. Thư viện cung cấp một tập các công cụ xử lý các bài
toán machine learning và statistical modeling gồm: classification, regression, clustering,
và dimensionality reduction. Báo cáo sử dụng module sklearn.linear_model có chứa các
method để thực hiện hồi quy (regression), trong đó giá trị mục tiêu sẽ là sự kết hợp tuyến
tính của các biến đầu vào.


Statsmodels
Statsmodels là một mơ đun Python cung cấp nhiều cơ hội để phân tích dữ liệu

thống kê, chẳng hạn như ước lượng mơ hình thống kê, thực hiện kiểm tra thống kê,...Với
sự trợ giúp của Statsmodels có thể thực hiện nhiều phương pháp học máy và khám phá
các khả năng vẽ khác nhau. Statsmodels được xây dựng dựa trên NumPy, SciPy và
Matplotlib nhưng nó chứa các chức năng nâng cao hơn để kiểm tra thống kê và mơ hình
hóa mà khơng thể tìm thấy trong các thư viện số như NumPy hoặc SciPy.
Statsmodels cũng có nhiều tính năng hữu ích như các thống kê mô tả & kết quả
khi sử dụng các models hồi quy tuyến tính, các mơ hình tuyến tính tổng qn, mơ hình
lựa chọn rời rạc, mơ hình tuyến tính, mơ hình phân tích chuỗi thời gian, các estimators đa
dạng khác. Thư viện này còn cung cấp các chức năng phát họa được thiết kế chuyên biệt
trong phân tích thống kê và được tinh chỉnh để tối ưu hiệu suất với các sets big data của
data thống kê.

Dương Thị Ngọc Diem_01/03/2001


CHƯƠNG 3: MƠ TẢ DỮ LIỆU

- Bảng mơ tả dữ liệu
Tên dữ liệu

Đơn vị tính

DT

Km2

DS

Nghìn người

MDDS

Người/Km

Ý nghĩa
Diện tích Km2 ở một tỉnh thành thành

2

Dân số nghìn người trên
Cho biết lượng dân số trên 1 km2

LLLD15

Lực lượng lao động trên 1 tỉnh thành

DGDT

DGDS
DGMDDS
DGLLLD15
DSNC
TSXC
TSST
TSNRC
DGTSNC
DGTSXC
DGTSST
GRDPUSD
CSGSH

Đánh giá diện tích
Đánh giá dân số
đánh giá mật độ dân số
Đánh giá lực lượng lao động trên 15 tuổi
Tỷ suất nhập cư
Tỷ suất xuất cư
Tỷ suất sinh thô
Tỷ suất nhập cư ròng
Đánh giá tỷ suất nhập cư
Đánh giá tỷ suất xuất cư
Đánh giá tỷ suất sinh thô
Tổng sản phẩm trên địa bàn
Chỉ số giá sinh hoạt theo không gian

%
%
%

%

(USD/người/năm)
%

DGDT/DGDS/DGMDDS/DGLLLD15/DGTSNC/DGTSXC/DGTSST:
1 –Đánh giá DT/DS/MDDS/LLLD15/TSNC/TSXC/TSST thấp hơn giá trị trung bình diện
tích cảu 63 tỉnh thành
2 – Đánh giá DT/DS/MDDS/LLLD15/TSNC/TSXC/TSST cao hơn giá trị trung bình diện
tích của 63 tỉnh thành

- Nguồn gốc bộ dữ liệu
+ Tổng cục Thống kê Việt Nam
+ Số liệu về GRDPUSD lấy từ Wikipedia
- Đặc điểm: bộ dữ liệu có các số liệu về diện tích, dân số, mật độ dân số, lực lượng lao
động từ 15 tuổi trở lên, tỷ suất nhập cư, tỷ suất xuất cư, tỷ suất sinh thô, tổng sản phẩm
của từng địa phương (GRDPUSD), chỉ số giá sinh hoạt theo không gian.
+ Số liệu đáng tin cậy
+ Thể hiện được tình hình về dân số và lao động của nước ta
- Nội dung: thể hiện thực trạng về dân số và lực lượng lao động của nước ta năm 2021
Dương Thị Ngọc Diem_01/03/2001


Trực quan hóa dữ liệu:

Hình 3.1: GRDPUSD và tỷ suất nhập cư ròng

- Biểu đồ trên cho thấy TSNCR biến thiên, tuy nhiên với mức GRDPUSD > 3 thì TSNCR
phần lớn tỷ lệ thuận với GRDPUSD.
- Biểu đồ trên cũng có ý nghĩa là mức GRDPUSD < 3 thì GRDPUSD khơng ảnh hưởng

nhiều đến TSNCR nên khó xác định TSNCR. Tuy nhiên, GRDPUSD khoảng 3 trở lên thì
đã tác động mạnh theo chiều tỷ lệ thuận với TSNCR hay nói cách khác là với mức
GRDPUSD trên thì người lao động sẵn lịng di chuyển đến các địa phương có mức
GRDPUSD cao hơn để có được mức sống cao hơn. Cịn nếu thấp hơn, họ cân nhắc giữa
việc ở quê và việc di chuyển đến địa phương khác.

Hình 3.2: Dân số và lực lượng lao động trên 15 tuổi

Dương Thị Ngọc Diem_01/03/2001


- Lực lượng lao động trên 15 tuổi tỷ lệ thuận mức độ tăng theo dân số.
- Lực lượng lao động trên 15 tuổi và dân số có xu hướng tăng dần.
- Lực lượng lao động trên 15 tuổi thường tập trung nhiều ở những nơi có dân số đơng.
- Lực lượng lao động tăng đều theo dân số
- Dân số tập trung càng nhiều thì lực lượng lao động trên 15 tuổi càng dồi dào.

Hình 3.3: Diện tích của một số tỉnh thành trong nước

- Tỉnh thành có diện tích lớn nhất trong nước là Nghệ An: 16486.5(km2).
- Tỉnh thành có diện nhỏ nhất trong nước là Bắc Ninh: 822.71(km2).

Dương Thị Ngọc Diem_01/03/2001


Hình 3.4: Diện tích của ba khu vực

- Diện tích của miền trung là lớn nhất, chênh lệch khá lớn so với miền bắc và miền nam
- Diện tích của miền trung là lớn nhất, chênh lệch khá lớn so với miền bắc và miền nam Diện tích miền trung là lớn nhất nhưng nền kinh tế ở khu vực này thấp nhất trong 3 khu
vực Bắc, Trung, Nam. - Tỷ lệ diện tích khơng tỷ lệ thuận với sự phát triển của nền kinh tế

- Miền Trung: lãnh thổ trải rộng và địa hình phức tạp cản trở tổ chức không gian phát
triển kinh tế - xã hội của vùng, đặc biệt là kết nối giao thông đường bộ; cịn thiếu hệ
thống giao thơng liên vùng hiện đại, các tuyến đường cao tốc, các đường trục ngang nối
với miền núi và Tây Nguyên. Hạ tầng kinh tế - kỹ thuật nhìn chung cịn chưa đồng bộ.
- Thực tế vùng KTTĐ Bắc Bộ có Thủ đơ Hà Nội là hạt nhân tạo sự phát triển lan tỏa
chung cho cả vùng; vùng KTTĐ phía Nam có Thành phố Hồ Chí Minh đóng vai trị hạt
nhân phát triển; thì vùng KTTĐ miền Trung chưa có địa bàn nào phát triển thật sự mạnh
nhằm tạo được sức lan tỏa chung, “tính vùng” khơng lấn át được “tính địa phương” dẫn
đến chưa khai thác được các lợi thế ven biển của cả vùng.

Dương Thị Ngọc Diem_01/03/2001


Hình 3.5: Tỷ suất nhập cư rịng theo khu vực

TSNCR = TSNC – TSXC (%)
- Miền nam TSNC và TSXC do người dân ở miền nam di chuyển đến các địa phương
khác làm rất nhiều và người dân ở các địa phương khác di chuyển đến đây.
- Miền trung hầu như TSNCR < 0, do nền kinh tế không quá phát triển do ảnh hưởng của
thiên tai nên người dân đa phần sẽ xuất cư đến nơi khác học tập và làm việc, đặc biệt là
vào miền nam. Sự di chuyển lao động trẻ, lao động có đào tạo từ miền Trung đến miền
Đông Nam Bộ trong những năm qua và vẫn đang tiếp diễn là thách thức đối với sự phát
triển của vùng.
- Miền bắc TSNC và TSXC đều cao cũng như miền nam, cho thấy được nền kinh tế khá
là năng động.

Dương Thị Ngọc Diem_01/03/2001



×