Tải bản đầy đủ (.pdf) (30 trang)

tiểu luận chủ đề phân khúc và dự báo giá nhà tại thành phố chennai ấn độ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.63 MB, 30 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>TRƯỜNG ĐẠI HỌC KINH TẾ - ĐẠI HỌC ĐÀ NẴNG---</b>

<b>KHOA THƯƠNG MẠI ĐIỆN TỬ</b>

<b>BÁO CÁO GIỮA KỲ</b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>a. Data Cleaning</b>3

<b>Hình 1. Ảnh hưởng của diện tích ( sqft m2 ) lên giá nhà</b>13

<b>Hình 2. Ảnh hưởng của khoảng cách của nhà và đường lớn đến giá nhà</b>

<b>Hình 3. Ảnh hưởng của tổng số phịng đến giá nhà</b>14

<b>Hình 4 và 5. Giá nhà trung bình và số căn nhà được mua tại các địa </b>

<b>Hình 6. Sự khác biệt về giá giữa nhà có chỗ để xe và khơng có chỗ để xe </b>

<b>Hình 7. Sự khác biệt về giá giữa đường nhà được lát sỏi và bê tơng</b>17

<b>Hình 8. Sự ảnh hưởng của mật độ dân cư quanh căn nhà đến giá nhà 18Hình 9. Sự khác biệt về giá giữa những ngơi nhà có cơ sở vật chất khác </b>

<b>Lý do chọn đề tài: Ấn Độ là đất nước có số lượng dân số cao thứ hai thế giới. Với sự bùng nổ dân số </b>

tại quốc gia này, việc mua được một căn nhà có hợp lýý đối với mỗi khách hàng là một cơng việc khơng hề dễ dàng. Chính vì thế, từ dữ liệu thu thập được tại thành phố Chennai ( một trong những thành phố lớn nhất Ấn Độ), nhóm có thể giúp cho các người dân tại đây hiểu hơn về những yếu tố ảnhhưởng đến giá nhà cho nơi ở của họ, so sánh giữa các loại nhà khác nhau và cũng giúp người bán hiểuđược những yếu tố nào đang kiếm thêm tiền cho căn nhà để có thể cải thiện tăng doanh thu cho ngànhbất động sản.

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>Bộ dữ liệu: CHENNAI HOUSE PRICECông cụ: Python, Tableau, SSAS Phương pháp: Clustering, Linear RegressionKỹ thuật:</b>

- Mơ tả và trực quan hóa dữ liệu

- Clustering: gộp nhóm các căn nhà và tìm đặc điểm các căn nhà đó để có thể định giá nhà phù

<b>hợp KMEANS</b>

- <b>Hồi quy dự báo giá LINEAR</b>

=> Định giá bán phù hợp cho những căn nhà này (Định giá dựa trên chi phí))

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

- Đổi kiểu dữ liệu

<b>Too long to read onyour phone? Save</b>

to read later onyour computer

Save to a Studylist

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

- Thêm cột “Age”

- Kiểm tra và sửa lỗi chính tả

- <b>Ta có 1 bộ dữ liệu đã được làm sạch với 7109 dòng và 21 cột</b>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b>b.Data Preprocessing:</b>

- Kiểm tra xem có mối quan hệ nào giữa các <b>biến phân loại</b> và <b>Sales_Price </b>(Giá nhà) hay không?

Kết luận:

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

+ AREA: Khi chúng ta sắp xếp các cột theo Sales_Price, chúng ta có thể thấy được mối quan hệ thứ bậc tốt trong đặc trưng này => Giữ cột này và sắp xếp thứ tự các nhãn theo thứ bậc

+ MZZONE: Khi chúng ta sắp xếp các cột theo Sales_Price, chúng ta có thể thấy được mối quan hệ thứ bậc tốt trong đặc trưng này => Giữ cột này và sắp xếp thứ tự các nhãn theo thứ bậc

+ UTILITY_AVAIL: Khi chúng ta sắp xếp các cột theo Sales_Price, chúng ta có thể thấy được mối quan hệ thứ bậc tốt trong đặc trưng này => Giữ cột này và sắp xếp thứ tự các nhãn theo thứ bậc + STREET: Khi chúng ta sắp xếp các cột theo Sales_Price, chúng ta có thể thấy được mối quan hệ thứ bậc tốt trong đặc trưng này => Giữ cột này và sắp xếp thứ tự các nhãn theo thứ bậc

+ PARK_FACIL: Khi chúng ta sắp xếp các cột theo Sales_Price, chúng ta có thể thấy được mối quan hệ thứ bậc tốt trong đặc trưng này => Giữ cột này và sắp xếp thứ tự các nhãn theo thứ bậc

- Kiểm tra xem có mối quan hệ nào giữa các <b>biến liên tục</b> và <b>Sales_Price </b>(Giá nhà) hay không?

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

Kết luận:

+ QS_ROOMS: Khơng có mối quan hệ tuyến tính nào => drop đặc trưng+ QS_BATHROOM: Khơng có mối quan hệ tuyến tính nào => drop đặc trưng+ QS_BEDROOM: Khơng có mối quan hệ tuyến tính nào => drop đặc trưng+ N_BEDROOM: Có mối quan hệ tuyến tính mạnh => giữ đặc trưng+ N_ROOM: Có mối quan hệ tuyến tính mạnh => giữ đặc trưng+ N_BATHROOM: Có mối quan hệ tuyến tính yếu => giữ đặc trưng

<b>-Mã hóa dữ liệu</b>

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<b>Sau khi mã hóa:</b>

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<b>-Bảng mô tả chi tiết các cột (Sau khi đã mã hóa) gồm 17 cột và 7109 hàng</b>

<b>Thứ tự</b>

Text 1. ELO : Electricity and Gas only

Cơ sở vật chất hiện có

2. NoSeWa : Electricity Only

3. All Pub : All public utilities

5 STREET Text 1. NoAccess : Khơng có hẻm Chất liệu đường xá xung quanh nhà

2. Paved: Đường bê tông

3. Gravel : Đá sỏi

6 MZZONE Text 1. A : Agriculture (Nông thôn) Mật độ dân cư quanh căn nhà

2. C : Commercial (Khu vực thương mại)

3. I: Indestrial (Khu công nghiệp)

4. RH: Residential High Density

5. FV: Floating Village Residential

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

7. RM : Residential Medium Density

7 DATE_BUILD Datetime 28/10/1949 - 12/11/2010 Ngày xây nhà

8 DATE_SALE Datetime 16/01/2004 - 17/2/2015 Ngày bán nhà

9 Age Int 3 - 55 Số tuổi của căn nhà tính tới lúc bán

Age = DATE_SALE - DATE_BUILD10 INT_SQFT Int 500 - 2500 Diện tích của căn nhà

11 DIST_MAINROAD

Int 0-200 Khoảng cách đến đường chính

12 N_BEDROOM Int 4-Jan Số phịng ngủ

13 N_BATHROOM

Int 2-Jan Số phòng tắm

14 N_ROOM Int Feb-66 Tổng số phịng

15 REG_FEE Int 71177 - 983922 USD Phí đăng kí mua nhà

16 COMMIS Int 5055 - 49540 USD Tiền hoa hồng

17 SALES_PRICE Int 2156875 - 23667000 USD Giá tiền căn nhà

<b>Mzzone: (Kiểu vùng các căn nhà) </b>

- A: Agriculture → Khu vựựa nông thôn

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

- C: Commercial → Khu vựực thuựoựng mại

- FV: Floating village Residential → Khu dân cuự làng nôổi - I: Khu vực công nghiệp

- RH: Residential High Density → Khu vực mật độ dân cư cao - RL: Residential Low Density → Khu vực mật độ dân cư thấp

- RP: Residential Low Density Park → Khu vựực công viên dân cứự thuựa thớựt- RM: Residential Medium Density → Khu vực mật độ dân cư trung bình

- No access: no alley access (Khơng có hẻm)

<b>-Các thơng tin về giá nhà ( yếu tố ảnh hưởng, giá nhà trên các khu vực,... ):</b>

<b>Hình 1. Ảnh hưởng của diện tích ( sqft m2 ) lên giá nhà</b>

Chúng ta có thể dễ dàng nhận thấy diện tích nhà có ảnh hưởng rất nhiều đến giá nhà ( diện tích càng lớn, giá nhà càng cao ). Tuy nhiên ở 2 khu vực Anna Nagar và T Nagar lại là nơi có giá nhà cao nhất mặc dù diện tích nhà ở đây cao nhất chỉ 2000m2, điều này có thể giải thích bởi vì đây là 2 địa điểm trung tâm của thành phố Chennai, Ấn Độ nên định giá của ngôi nhà ở đây có thể cao hơn các khu vực khác.

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<b>Hình 2. Ảnh hưởng của khoảng cách của nhà và đường lớn đến giá nhà</b>

Nhìn chung, khoảng cách đến đường lớn không ảnh hưởng đến định giá của giá nhà khi giá nhà của một nơi có khoảng cách gần đường lớn bằng giá nhà của một nơi có khoảng cách xa với đường lớn.

<b>Hình 3. Ảnh hưởng của tổng số phịng đến giá nhà</b>

Ta có thể khi số phịng có ảnh hưởng khơng q lớn đến giá nhà khi một ngơi nhà Velachery có 5 phịng giá tiền vẫn thấp hơn các ngơi nhà ở Adyar. Ngoài ra, qua biểu đồ ta thấy được chỉ có khu vực KK Nagar có bán nhà loại 6 phịng trên tồn thành phố Chennai.

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<b>Hình 4 và 5. Giá nhà trung bình và số căn nhà được mua tại các địa điểmkhác nhau tại Chennai</b>

Chrompet là vị trí có nhiều căn nhà được mua nhất, lý do là vì mức giá trung bình của 1 căn nhà tại khu vực này ở trung bình ( khơng q cao nhưng cũng đủ để có một căn nhà với đầy đủ tiện nghi. Trong khi đó, T Nagar là khu vực có số nhà được bán ít nhất vì giá nhà trung bình ở đây rất cao ( tầng lớp thượng lưu )

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<b>Hình 6. Sự khác biệt về giá giữa nhà có chỗ để xe và khơng có chỗ để xe</b>

Những ngơi nhà có bãi giữ xe có giá trung bình cao hơn những ngơi nhà khơng có 1M, điều này có thể lí giải vì thơng thường những ngơi nhà có bãi giữ xe sẽ có diện tích lớn hơn, số tiền bỏ ra để mua khoảng đất để xe đó nhiều hơn dẫn đến giá nhà sẽ tăng lên.

<b>Hình 7. Sự khác biệt về giá giữa đường nhà được lát sỏi và bê tơng</b>

Nhà có giá trung bình cao sẽ là những căn nhà có chứa mặt đường là sỏi, trong khi đó những căn nhà có mặt đường là bê tơng sẽ có giá trung bình thấp hơn. Có thể với những căn nhà có đường như thế sẽở gần những nơi có thể phát triển kinh tế với nghề nơng.

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

<b>Hình 8. Sự ảnh hưởng của mật độ dân cư quanh căn nhà đến giá nhà</b>

Những ngơi nhà nằm ở khu vực có mật độ dân số trung bình sẽ có giá cao nhất vì nó là điều kiện lí tưởng cho một căn nhà. Thông thường, với các ngôi nhà nằm ở khu vực có mật độ dân số trung bình sẽ rất thuận lợi cho việc sinh hoạt làm việc vì nó sẽ gần các hay các địa điểm cần thiết cho cuộc sống như ăn uống giải trí. Ngồi ra, với việc mật độ dân số chỉ ở mức trung bình, việc đi lại cũng sẽ thuận tiện hơn, tránh được các vấn đề như kẹt xe.

<b>Hình 9. Sự khác biệt về giá giữa những ngơi nhà có cơ sở vật chất khácnhau</b>

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

Thực tế các căn nhà có đầy đủ cơ sở vật chất ln có giá cao hơn những căn nhà chỉ có điện và gas.

<b>3. Dự báo giá nhà</b>

- <b>Mục đích: Giúp người bán định giá bán phù hợp cho những căn nhà theo đặc điểm của chúng</b>

và giúp khách hàng biết được liệu giá nhà có phù hợp với những gì mình sẽ nhận được hay cóphù hợp với kinh tế của họ hay khơng. Qua kĩ thuật này, có thể giúp người bán biết được những nhân tố nào giúp họ có thể tối ưu để đạt được giá bán tốt hơn và thu về doanh thu cao hơn.

- <b>Phương pháp trích chọn đặc trưng: sau khi thực hiện phân tích các đặc trưng tác động đến </b>

giá nhà thì sẽ chọn ra những đặc trưng sau để đưa vào mơ hình: INT_SQRT, AREA, MZZONE, UTILITY_AVAIL, PARK_FACIL, STREET, N BEDROOM, N BATHROOM, N ROOM, AGE.

- <b>Phương pháp Linear Regression: là một phương pháp để dự đoán biến phụ thuộc (Y) dựa </b>

trên giá trị của biến độc lập (X). Nó có thể được sử dụng cho các trường hợp chúng ta muốn dự đoán một số lượng liên tục.

Các hệ số cần thiết trong LR

→ R square cho biết mức độ ảnh hưởng của các biến tới giá trị dự đoán. Với 61% có thể thấy tầmảnh hưởng của các biến đã cho đến dự đoán giá nhà khá cao. Nhưng vẫn chưa đạt đến giá trị mong muốn. Điều này dẫn đến sai số cao trong mơ hình

→ Trên thực tế chuyện giá nhà bằng -929520 không bao giờ xảy ra, do các các biến độc lập khác không đồng thời bằng 0 được, vì giá trị tối thiểu của các biến đó bằng 1.

→ Mối tương quan giữa các biến. Các biến có mối quan hệ khá mạnh mẽ với giá, điển hình là N_ROOM, INT_SQFT, AREA

- Kết quả sau khi thực hiện mơ hình Linear Regression:

<b>SALES_PRICE = 590646*[AREA] + 1078368*[PARK_FACIL] + </b>

163288.1*[UTILITY_AVAIL] + 452579.9*[STREET] + 511903.6*[MZZONE] -

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

20541.46*[Age] + 1293.928*[INT_SQFT] - 1618611*[N_BEDROOM] + 162294.9*[N_BATHROOM] + 1863294*[N_ROOM] - 929520.8226556648

Giá trị dự đoán so với giá trị thực tế

→ Tổng mức độ chênh lệch giữa giá trị dự đoán và giá trị thực tế gần bằng 0 → Mơ hình khá hiệu quảcho việc dự đoán

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

+ Tiếp theo là nhân tố PARK_FACIL, giá càng cao với những căn nhà có chỗ để xe. Khách hàng sẽ không phải để xe ở phía ngồi nhà của mình, tránh tốn những chi phí khơng đáng như phí giữ xe.

+ Khu vực là một trong những nhân tố tác động mạnh. Trong thực tế ta có thể thấy được những căn nhà nằm trong khu vực trung tâm chưa kể đến giá mua thì giá th của nó cũng đã cao hơn nhiều so với khu vực ngoại ô. Nên nhữngcăn nhà nằm ở khu vực trung tâm như Anna Nagar, T Nagar sẽ có giá cao dù diện tích căn nhà nhỏ.

+ Ta thấy tuổi tác động ít nhất và nó tỉ lệ nghịch vì một căn nhà được xây càng lâu thì cơ sở hạ tầng đã xuống cấp nên giá nhà sẽ giảm theo đó.

→ Kêất luạận:

- LR giúp người mua nhà dự đốn chi phí mình phải bỏ ra với một mong muốn cụ thể. Giúp người bán biết được nhân tố nào giúp tăng giá cho căn nhà để giúp căn nhà trở nên có giá trị hơn.

- Đồng thời cung cấp một hàm tính gần với giá trị thực tế giúp cho người muốn bán nhà tham khảo. Với đặc điểm căn nhà của mình là như thế thì có thể bán được với giá bao nhiêu để tránh bị lỗ vì sự thiếu hiểu biết hay gặp phải người lừa gạt

- Nhưng LR vẫn có sự hạn chế và sai số nhất định. Đưa vào trường hợp khách hàng chưa có mong muốn chính xác về căn nhà mình dự tính mua, hay những khách hàng bị khống chế tài chính (tức là với khoảng tiền đó liệu họ có thể mua nhà hay khơng, nếu có thì căn nhà đó có những đặc điểm như thế nào. có đáp ứng được mong muốn của khách hàng hay khơng) thì LRkhơng thể hỗ trợ cho nhóm khách hàng này. Chính vì vậy cần phải có một thuật tốn bổ trợ đi kèm.

<b>4. PHÂN KHÚC NHÀ Ở</b>

- Chất lượng cuộc sống hiện tại ngày càng tăng kéo theo nhu cầu của khách hàng cũng tăng theo đó nhưng đồng thời nhu cầu của mỗi người là khác nhau. Vì thế, thị trường bất động sản phân nhà ở thành từng phân khúc khác nhau để đáp ứng thị trường. Hiệntại có 3 phân khúc chính với tiêu chí đánh giá khác nhau.

+ Nhà ở cao cấp là hạng có chất lượng sử dụng cao nhất, đảm bảo yêu cầu về quy hoạch, kiến trúc, hạ tầng kỹ thuật, hạ tầng xã hội, chất lượng hoàn thiện, trang thiết bịvà điều kiện cung cấp dịch vụ quản lý sử dụng đạt mức độ <b>hoàn hảo</b>.

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

+ Nhà ở trung cấp là hạng có chất lượng sử dụng khá cao, đảm bảo yêu cầu về quy hoạch, kiến trúc, hạ tầng kỹ thuật, hạ tầng xã hội, chất lượng hoàn thiện, trang thiết bị và điều kiện cung cấp dịch vụ quản lý sử dụng đạt mức độ <b>khá</b>.

+ Nhà ở bình dân là hạng có chất lượng sử dụng trung bình, đảm bảo yêu cầu về quyhoạch, kiến trúc; hạ tầng kỹ thuật, hạ tầng xã hội, chất lượng hoàn thiện, trang thiết bị và điều kiện cung cấp dịch vụ quản lý sử dụng <b>đạt tiêu chuẩn</b>, đủ điều kiện để đưa vào khai thác sử dụng.

- Mục đích: Phân thành các phân khúc nhà ở phù hợp cho việc kinh doanh của doanh nghiệp và giúp khách hàng có nhu cầu tham khảo các kiểu nhà ở nhanh hơn khi lựa chọn phân khúc mình muốn thay vì phải xem tất cả kiểu nhà khác nhau. Đặc biệt kết hợp với Linear Regression định giá cho một căn nhà và phân căn nhà đó vào phân khúc phù hợp để giúp người bán tiếp cận đúng đối tượng khách hàng cho căn nhà đó. - Phương pháp trích chọn đặc trưng để chạy mơ hình: tham khảo các đặc điểm phân

loại nhà trên thị trường hiện tại và sau khi thực hiện mơ hình LR có thể thấy được những nhân tố tác động mạnh có thể sử dụng được như sau: AREA, IN_SQRT, MZZONE, N ROOM, N BATHROOM, N BEDROOM, UTILITY AVAIL, PARK_FACIL, SALES PRICE.

- Phương pháp phân cụm: K-Means. Tư tưởng chính của thuật tốn K-Means là tìm cách phân nhóm các đối tượng (objects) đã cho vào K cụm (K là số các cụm được xácđịnh trước, K nguyên dương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm nhóm (centroid) là nhỏ nhất.

- <b>Phương pháp chọn số k phù hợp: Elbow và Silhouette</b>

+ Khi thực hiện tính tốn chỉ số <b>Silhouette </b>cho k chạy trong range (3,10) thì chỉ số silhouette cao nhất đạt tại k = 3.

+ Theo phương pháp <b>Elbow</b>: Dựa vào kết quả ở hình dưới , dễ dàng nhận ra điểm uốn của đồ thị tại vị trí k = 3, điều đó có nghĩa là phân dữ liệu thành 3 cụm là hợp lý.

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

+ Và hiện tại trên thị trường bất động sản vẫn có 3 phân khúc nhà ở đang hiện hành. Vì vậy, chọn số cụm bằng 3 là tối ưu nhất. Và sau khi thực hiện các so sánh về đặc trưng và tìm hiểu về các phân khúc nhà ở đang hiện hành trên thị

<b>trường, sẽ chia thành 3 phân khúc nhà ở lần lượt là: Nhà bình dân, Nhà trung cấp và Nhà cao cấp. </b>

- Có <b>7109 </b>căn nhà được thực hiện quá trình phân cụm.- Kết quả sau khi thực hiện kĩ thuật phân cụm dữ liệu:

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

○ Diện tích căn nhà dao động trung bình từ 745-1127 m^2

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

○ Phân bố toàn bộ khu vực thành phố Chennai, trong đó nhiều nhất tập trung ở khu vực KK Nagar, Velachery

○ Thường tập trung nhiều nhất ở khu dân cư.

○ Thường là những căn nhà đã có sẵn Electricity và Gas với xác suất xuất hiện cao hơn những căn nhà với cơ sở vật chất có sẵn Electricity hay đầy đủ tất cả.

○ Sẽ có những căn nhà có sẵn chỗ để xe nhưng cũng có những căn nhà khơng có sẵn điều kiện này.

○ Diện tích căn nhà dao động trung bình từ 1400 - 2000 m^2

○ Số phịng tắm trung bình sẽ là 1 phịng

○ Số phịng ngủ trung bình là 1 đến 2 phịng

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

○ Tổng số căn phòng trong nhà trung bình thường là 3 - 5 phịng, có thể bao gồm thêm phòng khách, phòng bếp chẳng hạn.

○ Giá bán trung bình sẽ dao động trong khoảng 9 - 14 triệu USD

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

○ Là những căn nhà đã có tồn bộ cơ sở vật chất.

○ Sẽ có những căn nhà có sẵn chỗ để xe nhưng cũng có những căn nhà khơng có sẵn điều kiện này.

○ Diện tích căn nhà dao động trung bình từ 1800 - 2500 m^2 ○ Số phịng tắm trung bình sẽ là 1 phòng

</div>

×