Tải bản đầy đủ (.pdf) (50 trang)

Tập tin gia nha csv chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613 ngôi nhà ở quận king nước mỹ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.46 MB, 50 trang )

Mục lục
I.

HOẠT ĐỘNG 1........................................................................................................... 4
1.1.

Đề bài ..................................................................................................................... 4

1.2.

Cơ sở lí thuyết ........................................................................................................ 4

1.3.

Thực hiện ............................................................................................................... 9

1.3.1.

Đọc dữ liệu (Import data):............................................................................. 10

1.3.2.

Làm sạch dữ liệu (Data cleaning) ................................................................. 10

1.3.3.

Làm rõ dữ liệu ............................................................................................... 12

II. HOẠT ĐỘNG 2: ......................................................................................................... 31
2.1 Đề bài ....................................................................................................................... 31
2.1.1 Giới thiệu: .......................................................................................................... 31


2.1.2 Mục tiêu đề tài: .................................................................................................. 31
2.1.3 Ý nghĩa thực tiễn: .............................................................................................. 31
2.1.4 Các biến chính trong bộ dữ liệu:........................................................................ 31
2.2

Cơ sở lí thuyết: ..................................................................................................... 31

2.2 Thực hiện: ................................................................................................................ 36
2.2.1 Đọc dữ liệu: ....................................................................................................... 36
2.2.2 Làm sạch dữ liệu: ............................................................................................... 37
2.2.3 Làm rõ dữ liệu: .................................................................................................. 37
2.2.4 Kiểm định T-test ................................................................................................ 42
2.2.5 ANOVA một nhân tố: ....................................................................................... 43
III. Tài liệu tham khảo .................................................... Error! Bookmark not defined.

0

0


Danh sách hình vẽ hoạt động 1
1. Hình 1: Code R và kết quả khi đọc dữ liệu và xem 6 dịng đầu tiên của dữ liệu .......... 10
2 Hình 2 : Code R và kết quả khi tạo một dữ liệu mới chỉ bao gồm các biến chính........ 10
3 Hình 3: Code R và kết quả khi kiểm tra dữ liệu khuyết trong new_DF ........................ 11
4 Hình 4: Code R khi thay thế giá trị trung bình ở các quan sát cịn lại của biến price tại
vị trí chứa dữ liệu khuyết ................................................................................................... 12
5 Hình 5: Code R và kết quả ............................................................................................. 12
6 Hình 6: Code R và khi chuyển đổi các biến sang dạng log(x+1) ................................... 12
7 Hình 7: Code R và kết quả khi tính các biến price, sqft_above, sqft_living,
sqft_basement................................................................................................................... 13

8 Hình 8:Code R và kết quả khi tính các biến price, sqft_above, sqft_living,
sqft_basement khi chuyển đổi các biến sang dạng log(x) ............................................... 14
9 Hình 9: Code R và kết quả khi vẽ biểu đồ histogram thể hiện phân phối của biến price
........................................................................................................................................... 14
10 Hình 10: Code R và khi quả khi vẽ biểu đồ histogram thể hiện phân phối của biến
log(price) ........................................................................................................................... 15
11 Hình 11: Code R và kết quả khi vẽ biểu đồ botplot thể hiện phân phối của biến price
theo từng phân loại của biến floors ................................................................................... 16
12 Hình 12: Code R và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến
log(price) theo từng phân loại của biến floors ................................................................. 17
13 Hình 13: Code R và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến
condition theo từng phân loại của biến floors .................................................................. 18
14 Hình 14: Code R và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến
log(price) theo từng phân loại của biến condition ......................................................... 19
15 Hình 15: Code R và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến price
theo từng phân loại của biến view ..................................................................................... 20
16 Hình 16: Code R và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến
log(price) theo từng phân loại của biến view ................................................................... 21
17 Hình 17 Code R và kết quả khi vẽ biểu đồ khi vẽ biểu đồ phân tán thể hiện phân phối
của biến price theo biến sqft_above trước và sau khi chuyển sang dạng log(x) ............. 22
18 Hình 18: Code R và kết quả khi vẽ biểu đồ phân tán thể hiện phân phối của biến price
theo biến sqft_living trước và sau khi chuyển sang dạng và log(x) ................................. 23
19 Hình 19: Code R và kết quả khi vẽ biểu đồ phân tán thể hiện phân phối của biến price
theo biến sqft_ basement trước và sau khi chuyển sang dạng và log(x).......................... 23
20 Hình 20: Code R và kết quả khi xây dựng mơ hình hồi quy tuyến tính ...................... 25
21 Hình 21: Code R và kết quả khi vẽ đồ thị phân tích thặng dư để kiểm tra các giả định
của mơ hình ....................................................................................................................... 27

0


0


0

0


Danh sách hình vẽ hoạt động 2
1 Tạo biến pref_COD1, perf_COD2 thể hiện hiệu suất xử lý COD ở mô hình SBR truyền
thống và mơ hình SB – SBR ............................................................................................. 37
2 Thực hiện tính giá trị thống kê mơ tả thể hiện hiệu suất xử lý COD ở mơ hình SBR
truyền thống và mơ hình SB – SBR .................................................................................. 38
3 Thực hiện tính giá trị thống kê mơ tả thể hiện hiệu suất xử lý COD theo từng tải trọng
thể tích hữu cơ. .................................................................................................................. 39
4 Vẽ biểu đồ histogram thể hiện phân phối của pref_COD1 ............................................ 40
5 Vẽ biểu đồ histogram thể hiện phân phối của pref_COD2 ........................................... 41
6 Vẽ biểu đồ boxplot thể hiện phân phối của pref_COD2 ở các tải trọng OBL. .............. 42
7 Kiểm định xem có sự khác biệt trong hiệu quả xử lý COD ở hai mơ hình, từ đó đưa ra
đánh giá hiệu quả trong việc xử lý COD của mơ hình SB - SBR. .................................... 42
8 Tải trọng OBL = 0.64
9 Dùng hàm shapiro.test để kiểm tra ................................................................................. 44
10 Tải trọng OBL = 0.96 ................................................................................................... 45
11 Dùng hàm shapiro.test để kiểm tra ............................................................................... 45
12 Tải trọng OBL = 1.28 ................................................................................................... 45
13 Dùng hàm shapiro.test để kiểm tra ............................................................................... 46
14 Kiểm tra giả định về tính đồng nhất của phương sai .................................................... 46
15 Kiểm định ANOVA ...................................................................................................... 47
16 So sánh bội sau ANOVA .............................................................................................. 48


0

0


I. HOẠT ĐỘNG 1
1.1.

Đề bài

Tập tin "gia_nha.csv" chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613
ngôi nhà ở quận King nước Mỹ trong khoảng thời gian từ tháng 5/2014 đến 5/2015. Bên
cạnh giá nhà, dữ liệu cịn bao gồm các thuộc tính mơ tả chất lượng ngôi nhà. Dữ liệu gốc
được cung cấp tại: />Các biến chính trong bộ dữ liệu:
• price: Giá nhà được bán ra.
• floors: Số tầng của ngơi nhà được phân loại từ 1-3.5.
• condition: Điều kiện kiến trúc của ngôi nhà từ 1 − 5, 1: rất tệ và 5: rất tốt.
• view: Đánh giá cảnh quan xung quanh nhà theo mức độ từ thấp đến cao: 0-4.
• sqft_above: Diện tích ngơi nhà.
• sqft_living: Diện tích khn viên nhà.
• sqft_basement: Diện tích tầng hầm.
Các bước thực hiện:
1. Đọc dữ liệu (Import data): gia_nha.csv
2. Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)
3. Làm rõ dữ liệu: (Data visualization)
(a) Chuyển đổi biến (nếu cần thiết).
(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị.
4. Xây dựng mơ hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến
giá nhà ở quận King.
5. Thực hiện dự báo cho giá nhà quận King.

1.2.

Cơ sở lí thuyết

Hồi quy chính là một phương pháp thống kê để thiết lập mối quan hệ giữa một biến phụ
thuộc và một nhóm tập hợp các biến độc lập. Mơ hình với một biến phụ thuộc với hai
hoặc nhiều biến độc lập được gọi là hồi quy bội (hay còn gọi là hồi quy đa biến).

0

0


Ví dụ: Chi tiêu của hộ gia đình về thực phẩm phụ thuộc vào quy mơ hộ gia đình, thu nhập,
vị trí địa lý,…; Tỷ lệ tử vong trẻ em của một quốc gia phụ thuộc vào thu nhập bình quân
đầu người, trình độ giáo dục,…; Lương của một người phụ thuộc vào chức vụ, kinh nghiệm,
độ tuổi,…
RX Giới thiệu mơ hình hồi quy tuyến tính bội

Mơ hình hồi quy tuyến tính bội có dạng tổng qt như sau:
Y = β1 + β2 X2 + β3X 3 + … + βk Xk + u
Trong đó: Y: biến phụ thuộc
Xi : biến độc lập
β1 : hệ số tự do (hệ số chặn)
βi: hệ số hồi quy riêng. β i đo lường tác động riêng phần của biến Xi lên Y với điều kiện các
biến số khác trong mơ hình khơng đổi. Cụ thể hơn, nếu các biến khác trong mơ hình không
đổi, giá trị kỳ vọng của Y sẽ tăng β i đơn vị nếu Xi tăng 1 đơn vị u: sai số ngẫu nhiên.
Như vậy, "Hồi quy tuyến tính" là một phương pháp để dự đoán giá trị biến phụ thuộc (Y)
dựa trên giá trị của biến độc lập (X). Thuật ngữ tuyến tính dùng để chỉ rằng bản chất của
các thông số của tổng thể β1 và β i là tuyến tính (bậc nhất). Nó có thể được sử dụng cho các

trường hợp chúng ta muốn dự đoán một số lượng liên tục. Ví dụ: dự đốn thời gian người
dùng dừng lại một trang nào đó hoặc số người đã truy cập vào một website nào đó v.v...
Bằng dữ liệu thu thập được, ta đi ước lượng hàm hồi quy của tổng thể, đó là ước lượng các
tham số của tổng thể: β 1, β2 ,…, β k
kX Ước lượng các tham số của mơ hình hồi quy tuyến tính bội

2.1 Hàm hồi quy tổng thể (PRF – Population Regression Function)
Với Y là biến phụ thuộc, X2 , X3 ,…, Xk là biến độc lập, Y là ngẫu nhiên và có một phân
phối xác suất nào đó. Suy ra: Tồn tại E(Y|X 2, X3,…, Xk ) = giá trị xác định. Do vậy, F(X 2,
X3 ,…, Xk) = E(Y|X2, X3 ,…, Xk ) là hàm hồi quy tổng thể của Y theo X 2, X3,…, Xk.
Với một cá thể i, tồn tại (X 2,i, X3,i, …, Xk,i, Yi)
Ta có: Y i ≠ F(X2 , X3,…, X k) ⇒ u i = Yi – F
Do vậy: Yi = E(Y|X2, X3,…, X k) + ui
Hồi quy tổng thể PRF:
 Y = E(Y|X) + U
 E(Y|X) = F(X)
2.2 Hàm hồi quy mẫu (SRF – Sample Regression Function):
Do không biết tổng thể, nên chúng ta khơng biết giá trị trung bình tổng thể của biến phụ
thuộc là đúng ở mức độ nào. Do vậy chúng ta phải dựa vào dữ liệu mẫu để ước lượng.
 = F(X2 , X3 ,…, Xk) là hồi quy mẫu.
Trên một mẫu có n cá thể, gọi Y
Với một cá thể mẫu Yi ≠ F (X2,i, X3,i,…, X k,i) sinh ra ei = Y i – F (X 2, X3 ,…, Xk ); ei gọi là
phần dư SRF.
Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng như sau:
y i = β 1 + β2 x2,i + β 3x 3,i + … + β kxk,i
Phần dư sinh ra: e i = yi – ŷ i

0

0



Ký hiệu: βm là ước lượng của β m. Chúng ta trông đợi β m là ước lượng không chệch của βm,
hơn nữa phải là một ước lượng hiệu quả.
Ước lượng SRF: chọn một phương pháp nào đó để ước lượng các tham số của F qua việc
tìm các tham số của F và lấy giá trị quan sát của các tham số này làm giá trị xấp xỉ cho
tham số của F.
2.3 Phương pháp bình phương nhỏ nhất (Ordinary Least Squares)
Phương pháp bình phương nhỏ nhất được đưa ra bởi nhà Toán học Đức Carl Friedrich
Gauss. Tư tưởng của phương pháp này là cực tiểu tổng bình phương của các phần dư. Do
đó có thể nói để có được hồi quy thích hợp nhất, chúng ta chọn các ước lượng có tung độ
gốc và độ dốc sao cho phần dư là nhỏ.
2.3.1 Các giả thiết của phương pháp bình phương nhỏ nhất cho mơ hình hồi quy
tuyến tính bội
Phương pháp bình phương nhỏ nhất (OLS) là phương pháp rất đáng tin cậy trong việc ước
lượng các tham số của mơ hình, tuy nhiên mơ hình ước lượng phải thỏa mãn 7 giả thiết.
Khi thỏa mãn các giả thiết, ước lượng bình phương nhỏ nhất (OLS) là ước lượng tuyến tính
khơng chệch có hiệu quả nhất trong các ước lượng. Vì thế phương pháp OLS đưa ra ước
lượng khơng chệch tuyến tính tốt nhất (BLUE).
Kết quả này được gọi là Định lý Gauss – Markov, theo lý thuyết này ước lượng OLS là
BLUE, nghĩa là trong tất cả các tổ hợp tuyến tính khơng chệch của Y, ước lượng OLS có
phương sai bé nhất. Các giả thiết như sau:
1/ Hàm hồi quy là tuyến tính theo các hệ số.
Điều này có nghĩa là q trình thực hành hồi quy trên thực tế được miêu tả bởi mối quan
hệ dưới dạng:
y = β1 + β2 x2 + β 3x3 + β 4x 4 + … + βk xk + u
hoặc mối quan hệ thực tế có thể được viết lại ví dụ như dưới dạng lấy loga cả hai vế.
2/ E(u i) = 0 : Kỳ vọng của các yếu tố ngẫu nhiên ui bằng 0.
Trung bình tổng thể sai số là bằng 0. Điều này có nghĩa là có một số giá trị sai số mang dấu
dương và một số sai số mang dấu âm. Do hàm xem như là đường trung bình nên có thể giả

định rằng các sai số ngẫu nhiên trên sẽ bị loại trừ nhau, ở mức trung bình, trong tổng thể.
3/Var(ui ) = σ2 : Phương sai bằng nhau và thuần nhất với mọi ui .
Tất cả giá trị u được phân phối giống nhau với cùng phương sai σ2, sao cho:
Var(ui ) = E(ui2) = σ 2.
4/ u i phân phối chuẩn.
Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả thuyết
trong những phạm vi mẫu là nhỏ. Nhưng phạm vi mẫu lớn hơn, điều này trở nên khơng
mấy quan trọng.
5/ Giữa các ui thì độc lập với nhau.
2.3.2 Ước lượng

0

0


Ta đặt: yi ký hiệu giá trị thực của biến y tại quan sát i
ŷi ký hiệu giá trị của hàm hồi quy mẫu
ei ký hiệu phần dư yi – ŷi

Do đó cực tiểu hóa Σ(yi – ŷi) 2 sẽ tương đương với cực tiểu Σei2 từ đó tìm ra β 0, β 1,…, β k
Ta có:
 1 + β2 x2,i + β3 x 3,i + β 4 x4,i + … + βkx k,i)) 2
Σei2 = Σ(y i – (β
Chúng ta có thiết lập các điều kiện bậc nhất cho phép tính tối thiểu này như sau:
∂Σe2i
= -2Σ y -β + β x 2i+ β x 3i+…+β x ki xi = 0
∂β 1

∂Σe2i

∂β 2

∂Σe2i
∂β
k

i

1

2

3

k

 + β x 2i+ β x 3i+…+β xki  x 2i= 0
= -2Σ y i -β
1
2
3
k

= -2Σ yi -β1 + β2 x2i+ β 3x 3i+…+β k x ki  x ki = 0

Hệ phương trình mà chúng ta có được gọi là hệ phương trình chuẩn của hồi quy mẫu.
Chúng ta có thể giải k phương trình chuẩn này để tìm k hệ số β chưa biết. β 1, β2 ,…, βk được
gọi là các ước lượng bình phương nhỏ nhất.
2.4 Độ phù hợp của mơ hình
Để có thể biết mơ hình giải thích được như thế nào hay bao nhiêu % biến động của biến

phụ thuộc, người ta sử dụng R 2
Ta có: Σ(yi – ӯ)2 = Σ[(yi – ŷ i) + (ŷi – ӯ)]2 = Σ[ei + (ŷi – ӯ)] 2
= Σei2 + 2Σei (ŷi – ӯ) + Σ(ŷ i – ӯ)2
Đặt:
 Σ(yi – ӯ)2 : TSS – Total Sum of Squares
 Σ(ŷi – ӯ)2 : ESS – Explained Sum of Squares
 Σei2
: RSS – Residual Sum of Squares
Do Σei(ŷ i – ӯ) = 0 ⇐ (Σeiŷ i = 0; Σeiӯ = 0)
Ta có thể viết: TSS = ESS + RSS
Ý nghĩa của các thành phần:
 TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y i và giá trị
trung bình.
 ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y
nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng. Phần này đo độ chính xác
của hàm hồi quy.

0

0


 RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị
nhận được từ hàm hồi quy.
 TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra.
Từ TTS = ESS + RSS, ta chia cả hai vế cho TSS, ta có:
1=
R2

=


ESS
TSS

ESS
TSS

+

RSS
TSS

=1 -

=

RSS
TSS

Σ(ŷi – ӯ) 2
Σ(yi- y)

=

2

+

Σe2i


Σ(yi- y) 2

2

Σy i- yy i- y

2
2
Σyi -y Σyi - y 

Tỷ số giữa tổng biến thiên được giải thích bởi mơ hình cho tổng bình phương cần được
giải thích được gọi là hệ số xác định, hay là trị thống kê “good of fit”. Từ định nghĩa R 2
chúng ta thấy R2 đo tỷ lệ hay số % của toàn bộ sai lệch Y với giá trị trung bình được giải
thích bằng mơ hình. Khi đó người ta sử dụng R 2 để đo sự phù hợp của hàm hồi quy:
0 ≤ R2 ≤ 1.
2
 R cao nghĩa là mơ hình ước lượng được giải thích được một mức độ cao biến động của
biến phụ thuộc.
 Nếu R2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y.
 Nếu R2 = 0, nghĩa là mơ hình khơng đưa ra thơng tin nào về sự thay đổi của biến phụ
thuộc y.
rong mơ hình hồi quy đa biến tỷ lệ của toàn bộ sự khác biệt của biến y do tất cả các biến
x 2 và x3 gây ra được gọi là hệ số xác định bội, ký hiệu là R 2
R2 =

 3Σ(y - y)(x3i - x3 )
β 2Σ(yi- y)(x2i- x 2)+β
i
Σ(yi -


y) 2

= 1-

Σe 2i

Σ(yi- y) 2

2.5 Khoảng tin cậy và kiểm định các hệ số hồi quy
2.5.1 Ước lượng khoảng tin cậy đối với các hệ số hồi quy
Mục đích của phân tích hồi quy khơng phải chỉ suy đốn về β 1, β2 ,…, βk mà còn phải kiểm
tra bản chất sự phụ thuộc. Do vậy cần phải biết phân bố xác suất của β1 , β2,…, β k . Các phân
bố này phụ thuộc vào phân bố của các ui .
Với các giả thiết OLS, u i có phân phối N (0, σ 2 ). Các hệ số ước lượng tuân theo phân phối
chuẩn:
β j ~ N(βj, Se(β j))
βj -β j
~ T(n − k)
 j)
Se(β
Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu. Trong đó k là số
hệ số có trong phương trình hồi quy đa biến:
Σe2i
2
σ =
n-k
 Ước lượng 2 phía, ta tìm được t α(n-3)=1- α thỏa mãn:
2

P(− tα (n-3)) ≤

 Khoảng tin cậy 1 - α của βj là:

2

0

βj -β j
Se(β j)

≤P( t α (n-3))

0

2


 j ) ;  β j + tα(n-3)Se(β j)
 βj − t α(n-3)Se(β
2

2

2.5.2 Kiểm định giả thiết đối với β j
Kiểm định ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay khơng: kiểm định rằng
biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay khơng. Nói cách khác là hệ
số hồi quy có ý nghĩa thống kê hay khơng.
Có thể đưa ra giả thiết nào đó đối với βj , chẳng hạn β j = βj *. Nếu giả thiết này đúng thì:
T=
Ta có bảng sau:


β j -βj
Se(βj )

~ T(n − k)

Kiểm định β j:
 H 0: βj = 0 ⇔ xj không tác động
 H 1: βj ≠ 0 ⇔ xj có tác động
βj < 0 ⇔ xj có tác động ngược
βj > 0 ⇔ xj có tác động thuận
2.6 Kiểm định ý nghĩa của mơ hình
Trong mơ hình hồi quy đa biến, giả thuyết “khơng” cho rằng mơ hình khơng có ý nghĩa
được hiểu là tất cả các hệ số hồi quy riêng đều bằng 0.
Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ thể như
sau:
 Bước 1: Giả thuyết “không” là H0: β2 = β3 = … = βk = 0.
Giả thuyết đối là H 1: “có ít nhất một trong những giá trị β khác không”.
 Bước 2: Trước tiên hồi quy Y theo một số hạng không đổi và X2, X3 , …, Xk , sau đó tính
tổng bình phương sai số RSSU , RSSR. Phân phối F là tỷ số của hai biến ngẫu nhiên phân
phối khi bình phương độc lập. Điều này cho ta trị thống kê:
[     ]/()
~ F(α, k – m, n – k)
Fc =
 /()


Vì H0: β2 = β 3 = … = β k = 0, nhận thấy rằng trị thống kê kiểm định đối với giả thuyết này
sẽ là:
/()
Fc = /() ~ F(α, k – 1, n – k)


 Bước 3: Tra số liệu trong bảng F tương ứng với bậc tự do (k – 1) cho tử số và (n – k)
cho mẫu số, và với mức ý nghĩa α cho trước.
 Bước 4: Bác bỏ giả thuyết H 0 ở mức ý nghĩa α nếu Fc > F(α, k-1, n-k). Đối với phương
pháp giá trị p, tính giá trị p = P(F>Fc|H0) và bác bỏ giả thuyết H 0 nếu p < α.
1.3.

Thực hiện

0

0


1.3.1. Đọc dữ liệu (Import data):
Đọc dữ liệu: “gia_nha.csv”
Hình 1: Code R và kết quả khi đọc dữ liệu và xem 6 dòng đầu tiên của dữ liệu

1
1.3.2. Làm sạch dữ liệu (Data cleaning)
Tạo một dữ liệu mới chỉ bao gồm các biến chính mà ta quan tâm, lưu với tên là new_DF
Hình 2 : Code R và kết quả khi tạo một dữ liệu mới chỉ bao gồm các biến chính

2

0

0



Kiểm tra dữ liệu khuyết trong new_DF
Hình 3: Code R và kết quả khi kiểm tra dữ liệu khuyết trong new_DF

3

Nhận xét:
Dựa vào kết quả thu được khi kiểm tra dữ liệu khuyết trong new_DF, ta nhận thấy có 20
dữ liệu khuyết tại biến price. Vậy nên ta cần xử lý các dữ liệu khuyết đó.

0

0


Phương pháp xử lí được đề xuất là thay thế giá trị trung bình ở các quan sát cịn lại của
biến price tại vị trí chứa dữ liệu khuyết.
Hình 4: Code R khi thay thế giá trị trung bình ở các quan sát cịn lại của biến price tại vị
trí chứa dữ liệu khuyết

4
Kiểm tra lại xem còn dữ liệu khuyết hay khơng
Hình 5: Code R và kết quả

5
Nhận xét: Sau khi xử lí khơng cịn dữ liệu khuyết
1.3.3. Làm rõ dữ liệu
Tạo một data mới là new_DF2 (gồm các biến như new_DF đã làm sạch dữ liệu), thay các
giá trị trong biến sqft_basement là 0 bằng 0.00000001 và chuyển đổi các biến price,
sqft_above, sqft_living, sqft_basement lần lượt thành log(price), log(sqft_above),
log(sqft_living) và log(sqft_basement).


Hình 6: Code R và khi chuyển đổi các biến sang dạng log(x)

6
Giải thích lí do chuyển đổi các biến sang dạng log(x)

0

0


 Cải thiện sự phù hợp của mơ hình: giả định khi ta xây dựng mơ hình hồi quy thì các
sai số hồi quy (phần dư) phải có phân phối chuẩn, do đó trong trường hợp sai số hồi
quy (phần dư) khơng có phân phối chuẩn thì việc lấy log của của một biến giúp thay
đổi tỉ lệ và làm cho biến đó có phân phối chuẩn. Ngồi ra, trong trường hợp phần
dư (phương sai thay đổi) do các biến độc lập gây ra, ta cũng có thể chuyển đổi các
biến đó sang dạng log.
 Diễn giải: đây là lý do giúp ta có thể diễn giải mối quan hệ giữa 2 biến thuận tiện
hơn. Nếu ta lấy log của biến phụ thuộc Y và biến độc lập X, khi đó hệ số hồi quy β
sẽ là hệ số co giãn và diễn giải sẽ như sau: X tăng 1% sẽ dẫn đến tăng việc ta sẽ kỳ
vọng Y tăng lên β% (về mặt trung bình của Y), ...
 Ước lượng mơ hình phi tuyến: việc lấy log cho phép ta ước lượng các mơ hình này
bằng hồi quy tuyến tính.
Tính các giá trị thống kê mơ tả (trung bình, độ lệch chuẩn, min, max, trung vị) cho các biến
price, sqft_above, sqft_living, sqft_basement. Xuất kết quả dưới dạng bảng.
Hình 7: Code R và kết quả khi tính các biến price, sqft_above, sqft_living, sqft_basement

7
Tính các giá trị thống kê mơ tả (trung bình, độ lệch chuẩn, min, max, trung vị) cho các biến
price,sqft_above, sqft_living, sqft_basement đã chuyển sang dạng log (x). Xuất kết quả

dưới dạng bảng.
Hình 8: Code R và kết quả khi tính các biến price, sqft_above, sqft_living,
sqft_basement khi chuyển đổi các biến sang dạng log (x)

0

0


8
Vẽ biểu đồ histogram thể hiện phân phối của biến price trước và sau khi chuyển sang dạng
log (x)
Hình 9: Code R và kết quả khi vẽ biểu đồ histogram thể hiện phân phối của biến price

9

0

0


Hình 10: Code R và khi quả khi vẽ biểu đồ histogram thể hiện phân phối của biến
log(price)

10
Nhận xét: Dựa trên biểu đồ histogram của biến price, ta nhận thấy phân phối của biến
price có xu hướng lệch phải, cho thấy phần lớn ngơi nhà có giá tiền gần như nhau, và chỉ
có số ít ngơi nhà có giá trị cao hơn. Trong khi với biểu đồ của biến log (price) có hình dạng
phân phối chuẩn.
Vẽ biểu đồ boxplot thể hiện phân phối của biến price và log (price) theo từng phân loại

của biến floors.
Hình 11: Code R và kết quả khi vẽ biểu đồ botplot

0

0


11
Hình 12: Code R và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến (price)
theo từng phân loại của biến floors

0

0


12
Vẽ biểu đồ boxplot thể hiện phân phối của biến price và log (price) theo từng phân loại
của biến condition.
Hình 13: Code R và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến price
theo từng phân loại của biến condition

0

0


13
Hình 14: Code R và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến

log(price) theo từng phân loại của biến condition

0

0


14
Vẽ biểu đồ boxplot thể hiện phân phối của biến price và log (price) theo từng phân loại
của biến view.
Hình 15: : code R và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến price
theo từng phân loại của biến view

0

0


15

Hình 16: code R và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến log (price)
theo từng phân loại của biến view

0

0


16
Vẽ biểu đồ phân tán thể hiện phân phối của biến price theo biến sqft_above trước và sau

khi chuyển sang dạng và log(x).
Hình 17: Code R và kết quả khi vẽ biểu đồ khi vẽ biểu đồ phân tán thể hiện phân phối
của biến price theo biến sqft_above trước và sau khi chuyển sang dạng log(x)

0

0


17
Nhận xét: Dựa trên đồ thị phân tán của price và sqft_above, ta chưa nhận thấy thấy rõ
mối quan hệ tuyến tính giữa 2 biến. Tuy nhiên với đồ thị phân tán của log (price) và log
(sqft_above) ta nhận thấy rõ hơn về mối quan hệ tuyến tính giữa 2 biến này (cụ thể là quan
hệ đồng biến).
Vẽ biểu đồ phân tán thể hiện phân phối của biến price theo biến sqft_living trước và sau
khi chuyển sang dạng và log (x).
Hình 18: : code R và kết quả khi vẽ biểu đồ phân tán thể hiện phân phối của biến price
theo biến sqft_living trước và sau khi chuyển sang dạng và log (x)

0

0


18

Nhận xét: Dựa trên đồ thị phân tán của price và sqft_living, ta chưa nhận thấy thấy rõ mối
quan hệ tuyến tính giữa 2 biến. Nhưng với đồ thị phân tán ta nhận thấy rõ hơn về mối quan
hệ tuyến tính giữa 2 biến log (price) và log (sqft_living) (cụ thể là quan hệ đồng biến).
Hình 19: Code R và kết quả khi vẽ biểu đồ phân tán thể hiện phân phối của biến price

theo biến sqft_ basement trước và sau khi chuyển sang dạng và log (x)

19

0

0


Nhận xét: Dựa trên đồ thị phân tán của price và sqft_basement, ta chưa nhận thấy thấy
rõ mối quan hệ tuyến tính giữa 2 biến. Nhưng với đồ thị phân tán ta nhận thấy rõ hơn về
mối quan hệ tuyến tính giữa 2 biến log(price) và log(sqft_ basement) (cụ thể là quan hệ
đồng biến).
Kết quả, dựa trên các đồ thị trên ta nhận thấy việc phân tích mối quan hệ tuyến tính giữa
các biến độc lập với biến phụ thuộc (giá nhà) sẽ hiệu quả hơn trong việc chuyển đổi các
biến sang dạng log (x) . Liệu là mối quan hệ giữa các biến với giá nhà là ngẫu nhiên hay
có mối quan hệ tuyến tính giữa các biến với giá nhà. Mơ hình hồi quy tuyến tính sẽ giúp ta
kiểm tra điều này thông qua các khoảng tin cậy và các phép kiểm định và nó cịn cho phép
ta ước lượng giá trị của biến phụ thuộc (giá nhà) theo các biến độc lập (số tầng, điều kiện
ngôi nhà, diện tích nhà,...)

Xây dựng mơ hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến
giá nhà
Xét mơ hình hồi quy tuyến tính bao gồm: Biến phụ thuộc: log (price)
Biến độc lập: floors, condition, view, log (sqft_above), log (sqft_living),
log(sqft_basement).
Mơ hình như sau:
log () =  +  ×  +  ×  +  ×  + 
× log (_) +  × log (_) + 
× log(_)

Hình 20: Code R và kết quả khi xây dựng mơ hình hồi quy tuyến tính

0

0


×