Tải bản đầy đủ (.docx) (25 trang)

Tiểu luận môn Hệ hỗ trợ quyết định ỨNG DỤNG CÂY QUYẾT ĐỊNH XÁC ĐỊNH YẾU TỐ CẤU THÀNH GIÁ ĐẤT ĐAI

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (849.32 KB, 25 trang )

ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
ĐỒ ÁN MÔN HỌC

GVHD: PGS. TS. Đỗ Phúc
HVTH: Lê Thành Nguyên
MSHV: CH1301102
TP HCM, Tháng 06 năm 2014
MÔN: HỆ HỖ TRỢ RA QUYẾT ĐỊNH
ỨNG DỤNG CÂY QUYẾT ĐỊNH
XÁC ĐỊNH YẾU TỐ CẤU THÀNH
GIÁ ĐẤT ĐAI
MỤC LỤC
2
DANH MỤC HÌNH
3
GVHD: PGS. TS. Đỗ Phúc HVTH: Lê Thành Nguyên
PHẦN 1: MỞ ĐẦU
Khai phá dữ liệu là một lĩnh vực khoa học liên ngành mới xuất hiện gần đây nhằm
khám phá các tri thức trong các cơ sở dữ liệu lớn, trích xuất những thông tin ẩn dưới
dạng các quy luật, ràng buộc, quy tắc hữu ích cho các tổ chức, doanh nghiệp,… Các kỹ
thuật được sử dụng trong khai phá dữ liệu bao gồm: phân lớp và dự đoán, phân cụm, luật
kết hợp, phân tích hồi quy và phân tích các mẫu theo thời gian. Hiện nay, các kỹ thuật
khai phá dữ liệu được ứng dụng rộng rãi trong các lĩnh vực phân tích dữ liệu hỗ trợ ra
quyết định trong điều trị y học, giáo dục, thương mại, tài chính,…
Định giá đất đai là việc xác định giá trị đất đai căn cứ vào các thuộc tính tự nhiên,
kinh tế và xã hội của đất đai trong từng bối cảnh kinh tế cụ thể. Trong nền kinh tế thị
trường, giá trị của đất đai phản ánh hiệu quả kinh tế từ việc sử dụng đất đai, chủ yếu phục
thuộc vào các yếu tố đặc điểm sức sản xuất và vị trí đất đai trong không gian địa lý - kinh
tế. Tuy nhiên, trong từng lĩnh vực khác nhau mức độ ảnh hưởng của các yếu tố này đến
giá trị đất đai cũng khác nhau.


Theo quy định của pháp luật đất đai hiện hành định giá đất đai là nội dung quản lý
quan trọng, có nhiệm vụ cung cấp căn cứ khoa học hỗ trợ cho việc lập quy hoạch sử dụng
đất đai, hoạch định các chính sách tài chính đất đai. Mức độ chính xác của việc định giá
đất đai không chỉ phụ thuộc vào việc xác định số lượng và loại yếu tố đặc điểm đất đai,
mà còn phụ thuộc quyết định vào việc định lượng mối quan hệ giữa các yếu tố đặc điểm
này với giá trị đất đai.
Tuy nhiên, hiện nay việc định lượng các mối quan hệ này còn mang tính kinh
nghiệm chủ quan, với nhiều yếu tố mang đặc điểm định tính, gây khó khăn cho việc xây
dựng mối quan hệ lượng hóa. Chính vì vậy, để lượng hóa sự ảnh hưởng của các yếu tố
đến giá trị đất đai một cách khoa học phải sử dụng các kỹ thuật khai phá dữ liệu. Các
công cụ này được sử dụng rộng rãi để phân tích dữ liệu trong các lĩnh vực kinh tế, xã hội,
sinh học,… đặc biệt là mô hình hồi quy cây quyết định (decision tree) và phần mềm
DTREG (Phillip H. Sherrod, 2003).
Nội dung chuyên đề này sẽ đề cập đến mô hình hồi quy dựa trên cây quyết định
được phân tích từ phần mêm DTREG để xác định các yếu tố quan trong cấu thành giá đất
đai.
Trang 4
GVHD: PGS. TS. Đỗ Phúc HVTH: Lê Thành Nguyên
PHẦN 2: TỔNG QUAN
2.1. CÂY QUYẾT ĐỊNH
2.1.1. Giới thiệu
Trong lý thuyết quyết định (chẳng hạn quản lí rủi ro), một cây quyết định là một
đồ thị của các quyết định và các hậu quả có thể của nó (bao gồm rủi ro và hao phí tài
nguyên). Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt được mục
tiêu mong muốn. Các cây quyết định được dùng để hỗ trợ quá trình ra quyết định. Cây
quyết định là một dạng đặc biệt của cấu trúc cây.
Trong lĩnh vực máy học, cây quyết định là một kiểu mô hình dự báo, nghĩa là một
ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự
vật/hiện tượng. Mỗi một nút trong tương ứng với một biến; đường nối giữa nó với nút
con của nó thể hiện một giá trị cụ thể cho biến đó. Mỗi nút lá đại diện cho giá trị dự đoán

của biến mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi từ nút
gốc tới nút lá đó. Kỹ thuật máy học dùng trong cây quyết định được gọi là học bằng cây
quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định.
Học bằng cây quyết định cũng là một phương pháp thông dụng trong khai phá dữ
liệu. Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các
phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đó. Một
cây quyết định có thể được học bằng cách chia tập hợp nguồn thành các tập con dựa theo
một kiểm tra giá trị thuộc tính. Quá trình này được lặp lại một cách đệ quy cho mỗi tập
con dẫn xuất. Quá trình đệ quy hoàn thành khi không thể tiếp tục thực hiện việc chia tách
được nữa, hay khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn
xuất. Cây quyết định là một phương tiện có tính mô tả dành cho việc tính toán các xác
suất có điều kiện. Cây quyết định có thể được mô tả như là sự kết hợp của các kỹ thuật
toán học và tính toán nhằm hỗ trợ việc mô tả, phân loại và tổng quát hóa một tập dữ liệu
cho trước.
Ra quyết định dựa trên cây quyết định là quá trình học trên tập dữ liệu huấn luyện
theo mô hình cây quyết định và sử dụng dự đoán các mẫu dữ liệu trong tương lai.
2.1.2. Entropy
Entropy là đại lượng dùng để đo tính thuần nhất của một tập dữ liệu. Entropy của
một tập S được tính theo công thức:
Trang 5
GVHD: PGS. TS. Đỗ Phúc HVTH: Lê Thành Nguyên
Trong trường hợp các mẫu dữ liệu có hai thuộc tính phân lớp “yes” (+), “no” (-).
Ký hiệu P
+
là để chỉ tỷ lệ các mẫu có giá trị của thuộc tính quyết định là “yes”, và P
-
là tỷ
lệ các mẫu có giá trị của thuộc tính có quyết định là “no” trong tập S.
Trường hợp tổng quát, đối với tập con S có n phân lớp thì ta có công thức sau:
Trong đó, P

i
là tỷ lệ các mẫu thuộc lớp I trên tập S các mẫu kiểm tra.
− Các trường hợp đặc biệt
+ Nếu tất cả các mẫu thành viên trong tập S đều thuộc cùng một lớp thì
Entropy(S) =0
+ Nếu trong tập có số mẫu phân bố đều nhau vào các lớp thì Entropy(S) = 1
+ Các trường hợp còn lại 0 < Entropy(S) < 1
2.1.3. Information Gain
(Viết tắt Gain) là đại lượng dùng để đo mức độ giảm entropy mong đợi của một
thuộc tính được lựa chọn cho việc phân lớp. Đại lượng này được tính thông qua hai giá trị
Information và Entropy.
Cho tập dữ liệu S gồm có n thuộc tính Ai(i=1,2, …, n) giá trị Information của
thuộc tính Ai ký hiệu là Information (Ai) được xác định bởi công thức:
Giá trị Gain của thuộc tính A trong tập S ký hiệu là Gain(S,A) và được tính theo
công thức sau:
Trong đó:
+ S là tập hợp ban đầu với thuộc tính A. Các giá trị của v tương ứng là các giá
trị của thuộc tính A.
+ Sv bằng tập hợp con của tập S mà có thuộc tính A mang giá trị v.
+ |Sv| là số phần tử của tập Sv
+ |S| là số phân tử của tập S
Trang 6
GVHD: PGS. TS. Đỗ Phúc HVTH: Lê Thành Nguyên
2.2. DTREG
2.2.1. Giới thiệu
DTREG là chương trình phân tích thống kê mạnh mẽ, có khả năng xây dựng cây
quyết định phân lớp, hồi quy và máy vector hỗ trợ (SVM) để mô tả mối liên hệ giữa dữ
liệu và có thể sử dụng để dự đoán giá trị khảo sát trong tương lai.
DTREG chấp nhận tập hợp dữ liệu chứa nhiều dòng với một cột cho mỗi biến. Một
trong các biến là biến mục tiêu, giá trị của nó được mô hình hóa và được dự đoán như là một

hàm của biến dự báo. DTREG phân tích giá trị và cho ra một mô hình chỉ cách tốt nhất để dự
đoán giá trị của biến kết quả dựa trên giá trị biến dự báo.
Ngoài việc xây dựng mô hình dự báo, DTREG còn đo chất lượng mô hình.
Chương trình DTREG dựa trên độ thuần nhất của dữ liệu entropy, phân tích tập
giá trị dữ liệu và tạo ra cây quyết định. Cây quyết định có thể sử dụng để dự đoán giá trị
của biến mục tiêu dựa trên những giá trị của những biến dự báo. Một dự đoán được tạo
bằng cách căn cứ vào cây từ gốc, theo nhánh trái hoặc phải dựa vào giá trị biến dự báo
cho đến khi tới lá. Mỗi lá chỉ ra giá trị có khả năng phù hợp nhất cho biến mục tiêu đã
cho bởi giá trị dự báo dẫn đến lá.
DTREG là một ứng dụng thiết thực được cài đặt dễ dàng trên các hệ thống
Windows bất kỳ. DTREG dùng giá trị phân cách dấu phẩy những file dữ liệu để dễ dàng
tạo ra hầu hết các nguồn dữ liệu bất kỳ. Một khi bạn tạo những file dữ liệu của bạn, ngay
khi cung cấp nó vào trong DTREG, và để DTREG làm tất cả công việc tạo cây quyết
định, SVM hoặc mô hinh Logistic Regression. Ngay cả những phân tích phức tạp cũng
có thể thực hiện trong vài phút.
DTREG sử dụng V-fold cross-validation để quyết định kích thước tối ưu của cây.
Thủ tục này để tránh vấn đề vượt giới hạn nơi đó cây phát sinh phù hợp tốt với dữ liệu
“huấn luyện” nhưng không cung cấp dự đoán chính xác dữ liệu mới.
DTREG sử dụng kỹ thuật tinh vi để giải quyết việc chia thay thế dữ liệu
(Surrogate splitters ) trong trường hợp thiếu giá trị. Điều này cho phép những trường hợp
có giá trị và một vài trường hợp thiếu giá trị được sử dụng để dự đoán giá trị cho những
trường hợp thiếu giá trị.
Phiên bản thương mại của DTREG có thể sử dụng không giới hạn số dòng dữ liệu.
DTREG có thể xây dựng cây phân lớp với số lượng lên đến hàng trăm biến dự báo được
Trang 7
GVHD: PGS. TS. Đỗ Phúc HVTH: Lê Thành Nguyên
sử dụng một thuật toán gom cụm hiệu quả so với nhiều chương trình cây quyết định khác
hạn chế biến dự báo tối đa là 16.
2.2.1. Ưu điểm của DTREG
Cây quyết định được xây dựng dễ dàng: Ngay khi cung cấp tập dữ liệu vào

DTREG, nó sẽ làm tất cả các công việc xây dựng cây quyết định và tỉa (rút gọn) cây một
cách hiệu quả nhất.
Cây quyết định hiển thị trực quan, dễ hiểu: Trái với sự phức tạp của các mô hình
hồi quy phi tuyến, hay các mạng neural, cây quyết định cung cấp một mô hình trình bày
dữ liệu rõ ràng, logic. Chúng có thể được hiểu và sử dụng bởi những người không có
năng khiếu toán học.
Xử lý cả hai loại biến liên tục và rời rạc: Biến rời rạc như là giống, chủng tộc, tín
ngưỡng tình trạng hôn nhân và vùng địa lý thì rất khó khăn để mô hình hóa bằng cách sử
dụng kỹ thuật số giống như hồi quy và mạng neural. Trái lại, biến rời rạc được xử lý dễ
dàng bởi cây quyết định.
Có thể thực hiện phân lớp cũng như hồi quy: Giá trị dự đoán từ cây quyết định
không chỉ đơn giản là giá trị số nhưng cũng có thể dự đoán những loại như là giống
đực/cái, độc ác/hiền lành, thường xuyên mua/ thỉnh thoảng mua, v.v…
Chấp nhận dữ liệu kiểu text cũng như dữ liệu kiểu số: Nếu bạn có những biến rời
rạc với các giá trị như “nam”, “nữ”, “đã kết hôn”, v.v , không cần mã hóa chúng như là
dữ liệu số.
Tự động xử lý sự tương tác giữa các biến: DTREG có thể phân biệt ý nghĩa khác
nhau giữa đàn ông/đàn bà, người sống ở miền Bắc và miền Nam v.v… Những tác động
này được biết như những sự tương tác biến. Cây quyết định tự động phân phối những
tương tác này bằng cách chia những trường hợp và phân tích mỗi nhóm một cách riêng
biệt. DTREG nhận ra những biến quan trọng: Bằng cách xem xét những biến nào được sử
dụng để chia những nút gần đỉnh của cây, có thể xem xét nhanh chóng những biến quan
trọng nhất. Bên cạnh đó, DTREG còn phân tích tất cả sự chia tách đã phát sinh từ mỗi
biến và chọn lựa chia tách đại diện.
Trang 8
GVHD: PGS. TS. Đỗ Phúc HVTH: Lê Thành Nguyên
2.3. ĐỊNH GIÁ ĐẤT ĐAI
2.3.1. Khái niệm và đặc điểm đất đai
Đất đai là sự vật địa lý - kinh tế, kết quả của mối quan hệ tổng hoà giữa đất và
hoạt động kinh tế xã hội của con người trong cộng đồng dân tộc trên một lãnh thổ nhất

định. Về mặt không gian thì đất đai bao gồm cả phần diện tích bề mặt với không gian bên
trên và bề sâu trong lòng đất. Đất đai được hiểu ở góc độ tổng thể là trái đất hay trong
phạm vi một không gian giới hạn, như trong phạm vi lãnh thổ quốc gia là quỹ đất đai
quốc gia, trong phạm vi địa giới hành chính là quỹ đất đai của cấp hành chính tương ứng,
trong phạm vi ranh giới địa chính là quỹ đất đai của chủ thể sử dụng đất đai.
Đất đai là sự vật địa lý - kinh tế nên nó có hai thuộc tính tự nhiên và xã hội tạo ra
khả năng đáp ứng các nhu cầu hoạt động kinh tế - xã hội của con người.
Thuộc tính tự nhiên bao gồm các đặc tính không gian như diện tích bề mặt, hình
thể, chiều dài, chiều rộng và vị trí cùng với các đặc điểm về địa chất, địa chấn, địa hình,
địa mạo và các tính chất sinh lý hóa của đất kết hợp với giá trị đầu tư vào đất đai.
Thuộc tính xã hội của đất đai chính là vị thế của đất đai - là hình thức đo sự mong
muốn về mặt xã hội gắn với đất đai tại một vị trí nhất định, là những thuộc tính phi vật
thể. Vị thế cũng được hiểu là tổng hòa các quan hệ xã hội, được hình thành từ các tương
tác thị trường và phi thị trường. Vị thế đất đai được xác định thông qua số lượng, chất
lượng và cường độ quan hệ xã hội. Đất đai có vị thế cao hay thấp phụ thuộc vào khả năng
thiết lập cho người sử dụng đất đai được nhiều hay ít mối quan hệ với các nhà cung cấp
dịch vụ đô thị, với những người láng giềng và với các đối tác khác… Cường độ quan hệ
bị ảnh hưởng bởi yếu tố khoảng cách không gian, giảm dần phi tuyến theo sự tăng dần
của khoảng cách.
Vị thế xã hội của đất đai là phạm trù tổng hợp các điều kiện kinh tế - xã hội và
pháp luật cấu thành giá đất. Vị thế đất đai được phản ánh thông qua các đặc điểm kinh tế
- xã hội và pháp luật của đất đai. Các thửa đất có các điều kiện kinh tế - xã hội và pháp
luật như nhau thì có cùng một mức vị thế xã hội.
Vị thế đất đai khác với vị trí đất đai. Vị thế là thuộc tính xã hội của đất đai, còn vị
trí là thuộc tính không gian của nó. Vị thế của đất đai là thuộc tính không gian tâm lý của
con người, còn vị trí của đất đai là thuộc tính không gian địa lý tự nhiên. Khái niệm vị thế
không đồng nhất với khái niệm vị trí, “Đồng sàng, dị mộng”.
Trang 9
GVHD: PGS. TS. Đỗ Phúc HVTH: Lê Thành Nguyên
Vị trí địa lý của đất đai là bất biến, nhưng khả năng sinh lời của đất đai thay đổi

theo sự thay đổi của các điều kiện kinh tế, xã hội và pháp luật.
Vậy tại sao trong nghiên cứu cũng như trong thực tế định giá đất đai thường chỉ
nói đến vị trí? Phải chăng vị trí địa lý là yếu tố cấu thành giá trị của đất đai, là thuộc tính
quan trọng mà các nhà định giá cần phải quan tâm?
Trước hết cần xem xét mối quan hệ giữa vị trí địa lý của đất đai và giá trị của nó.
Từ thực tế có thể khẳng định giữa chúng không có quan hệ với nhau. Vị trí tự bản thân
nó, tức vị trí trong trạng thái “trần trụi” không có ảnh hưởng tác động đến giá trị đất đai,
không phải là thuộc tính mà nhà định giá cần quan tâm.
Thuộc tính vị trí của đất đai mà các nhà định giá muốn nói đến chính là vị trí trong
không gian kinh tế - xã hội. Ở đây, có thể nói, vị trí địa lý đã được bao phủ bởi các thuộc
tính kinh tế - xã hội của đất đai, đấy chính là vị thế, thuộc tính tạo ra “khả năng sinh lời
của vị trí”, lợi ích so sánh của các đơn vị diện tích đất đai ở các vị trí khác nhau.
Đất đai có khả năng tái tạo và nâng cao chất lượng về mặt tự nhiên và vị thế xã hội
thông qua hoạt động đầu tư của con người.
Ngoài ra đất đai còn có một số đặc tính khác như: tính cố định, tính khan hiếm,
tính dị biệt, tính thích ứng và tính tăng trị.
- Tính dị biệt tức sự khác biệt, nhưng chỉ khác biệt tương đối. Có nghĩa là các thửa
đất đai khác nhau về mặt lượng, mà không khác nhau về mặt chất.
- Tính thích ứng là khả năng sử dụng vào các mục đích khác nhau.
- Tính tăng trị có nghĩa là giá trị đất đai có xu hướng tăng dần do nhu cầu và giá trị
đầu tư vào đất đai ngày càng tăng.
2.3.2. Khái niệm giá trị đất đai
Trong thị trường giá cả của đất đai được hình thành thông qua quan hệ cung cầu.
Khi có sự cân bằng cung cầu trên thị trường hình thành giá cả cân bằng thị trường của đất
đai. Giá cả cân bằng này sẽ thay đổi khi có sự mất cân đối cung cầu: giá giảm khi cung
lớn hơn cầu và tăng khi cung nhỏ hơn cầu trong điều kiện các yếu tố khác không thay
đổi. Giá cả thị trường là hình thức biểu hiện bằng tiền của giá trị thị trường.
Giá trị đất đai bao gồm giá trị hữu hình và giá trị vô hình. Giá trị hữu hình ứng với
các thuộc tính không gian (diện tích, hình thể, vị trí) cùng với các đặc điểm về địa hình,
Trang 10

GVHD: PGS. TS. Đỗ Phúc HVTH: Lê Thành Nguyên
địa mạo, địa chất, địa chấn và các tính chất sinh lý hoá của đất kết hợp với giá trị đầu tư
phát triển hạ tầng đất đai. Giá trị vô hình ứng với vị thế xã hội của đất đai.
Cần phân biệt các loại giá trị: giá trị cảm nhận, giá trị tài chính:
- Giá trị cảm nhận là trạng thái thỏa mãn tâm lý của con người khi tiêu dùng sản
phẩm hàng hóa và dịch vụ. Giá trị cảm nhận bao gồm giá trị tình cảm, giá trị thẩm mỹ,
giá trị nghệ thuật, giá trị nhận thức,…
- Giá trị tài chính là hành vi trao đổi của con người để có được hay sẵn sàng từ bỏ
sự thỏa mãn khi tiêu dùng sản phẩm hàng hóa và dịch vụ. Giá trị tài chính biểu hiện
thông qua các loại giá cả: giá rao mua, giá rao bán, giá mua bán và giá cả thị trường.
Giá trị tài chính (thể hiện thông qua các loại giá rao mua, rao bán hay giá mua
bán) phụ thuộc vào mức độ cảm nhận về lợi ích thu được từ đất đai. Cùng một thửa đất
thì lợi ích cảm nhận được hoàn toàn khác nhau đối với mỗi cá nhân. Mỗi người có một
hoàn cảnh sống khác nhau, vị thế xã hội khác nhau, trình độ nhận thức và kinh nghiệm
khác nhau thì nhận định khác nhau về mức độ quan trọng và lợi ích của đất đai, nên đánh
giá khác nhau về giá trị cảm nhận và giá trị tài chính.
Giá rao mua và giá rao bán của thửa đất được xác lập bằng cách tham chiếu thông
tin giá cả trên thị trường (từ người hàng xóm, từ báo chí hay người tư vấn thẩm định giá).
Thông thường giá rao bán được xác lập cao hơn, giá rao mua – thấp hơn so với giá trị
thực của đất đai theo quy luật mua rẻ bán đắt.
Giá mua bán được hình thành trong từng giao dịch cụ thể, dao động trong khoảng
giữa mức giá rao bán và giá rao mua. Mức giá mua bán hình thành cao hay thấp phụ
thuộc vào tính cấp thiết của người bán hay người mua và cũng phụ thuộc vào nghệ thuật
thương lượng trong mua bán.
Giá cả thị trường được hình thành thông qua quan hệ cung cầu thị trường về hàng
hóa đất đai, là giá trị trung bình của các mức giá mua bán cụ thể và mức giá này được
chấp nhận bởi đa số.
2.3.3. Định giá đất đai
Định giá đất đai là việc xác định giá trị tài chính của đất đai từ các đặc điểm kinh
tế, xã hội của chúng làm căn cứ thực hiện giao dịch liên quan đến đất đai.

Để định giá đất đai trước tiên cần phân loại vùng giá trị (hay còn gọi là vùng vị
trí). Vùng giá trị là một khái niệm thuộc phạm trù định giá để chỉ một khu vực địa lý mà
Trang 11
GVHD: PGS. TS. Đỗ Phúc HVTH: Lê Thành Nguyên
tại đó các thửa đất cùng chịu ảnh hưởng bởi tác động của các điều kiện tự nhiên, kinh tế,
xã hội và pháp luật tương tự nhau hoặc gần tương tự nhau, có một mức giá thị trường
nhất định.
Giá trị đất đai bao gồm giá trị hữu hình và giá trị vô hình. Giá trị hữu hình ứng với
các thuộc tính không gian (diện tích, hình thể, vị trí) cùng với các đặc điểm về địa hình,
địa mạo, địa chất, địa chấn và các tính chất sinh lý hoá của đất kết hợp với giá trị đầu tư
phát triển hạ tầng đất đai. Giá trị vô hình ứng với vị thế xã hội của đất đai. Như vậy để
xác định được giá trị đất đai, chúng ta phải tiến hành lượng hóa các yếu tố hữu hình và
yếu tố vô hình ảnh hưởng đến giá trị đất.
Để giải quyết vấn đề lượng hóa các nhà kinh tế lượng đề xuất sử dụng kỹ thuật
phân tích hồi quy tuyến tính bằng phương pháp bình phương bé nhất xác định hàm số
biểu thị sự phụ thuộc năng suất cây trồng hay giá trị đất đai vào các yếu tố đặc điểm đất
đai. Hàm số được xác định trong kinh tế học thường gọi là hàm sản xuất hay hàm giá
hedonic. Trong các hàm này biến số phụ thuộc là giá trị đất đai, còn biến số độc lập là các
yếu tố đặc điểm đất đai, tất cả các biến số thuộc loại liên tục hay nhị nguyên. Hàm hồi
quy được xác định bằng các phần mềm phân tích thống kê hiện có Eview, SPSS,
NLREG,…
Tuy nhiên, trong thực tế không phải tất cả các yếu tố đặc điểm tự nhiên, kinh tế và
xã hội của đất đai đều là các biến số thuộc loại liên tục hay có thể được chuyển về loại
nhị nguyên, mà còn là các đại lượng biến thiên có miền giá trị là các phạm trù, được gọi
là biến rời rạc hay là biến phạm trù. Với biến phạm trù thì kỹ thuật và công cụ phân tích
hồi quy nêu trên lại tỏ ra kém hiệu quả trong việc xử lý dữ liệu. Các kỹ thuật và công cụ
khai phá dữ liệu được phát triển gần đây trong lĩnh vực khoa học công nghệ thông tin thì
lại tỏ ra hiệu quả và được ứng dụng rộng rãi trong việc xử lý dữ liệu về môi trường, sinh
học, kinh tế, xã hội, chính trị, với các biến số liên tục và biến rời rạc bằng các mô hình
cây quyết định (decision tree) và phần mềm DTREG (Phillip H. Sherrod, 2003).

Trang 12
GVHD: PGS. TS. Đỗ Phúc HVTH: Lê Thành Nguyên
PHẦN 3: SỬ DỤNG DTREG XÁC ĐỊNH YẾU TỐ
CẤU THÀNH GIÁ ĐẤT ĐAI
Để tiến hành định giá đất đai, cần phải phân tích mối quan hệ tổng hòa các yếu tố
trong khu vực khảo sát, từ đó, xác định các yếu tố quan trọng ảnh hưởng đến giá đất đai,
làm cơ sở xác định giá đất. Thông thường các yếu tố này được các nhà kinh tế lượng
phân tích dựa trên các mô hình hồi quy tuyến tính nhằm đánh giá chất lượng các yếu tố
trong bộ dữ liệu mẫu và xác định hàm xấp xỉ làm cơ sở dự đoán cho dữ liệu mới. Các mô
hình, công cụ này thường đánh đồng vai trò các yếu tố cho toàn bộ dữ liệu. Tuy nhiên,
đối với đất đai việc áp dụng mô hình này dẫn đến kết quả không chính xác do sự tác động
không đồng đều của các yếu tố đối với đất đai ở từng khu vực là khác nhau. Ví dụ: giá
đất ở có vị trí mặt tiền đường cao hơn giáp sông nhưng đất nông nghiệp hoàn toàn ngược
lại.
Để giải quyết vấn đề này, nhóm nghiên cứu Khoa Quản lý đất đai & Bất động sản
trường ĐH Nông Lâm Tp.HCM đã áp dụng mô hình cây quyết định xác định các yếu tố
cấu thành giá đất và đạt những kết quả khả quan.
Với bộ số liệu điều tra về đất ở đô thị tại huyện Định Quán năm 2012, qua phân
tích mô hình đã xây dựng cây quyết định với 27 nhánh (group split), 28 lá (leaf); tỷ lệ
phương sai R
2
= 0.93351. Như vậy mô hình đã thể hiện sự thích hợp và khả năng dự báo
khá cao.
Hình 1. Phương sai quá trình phân tích
Trang 13
GVHD: PGS. TS. Đỗ Phúc HVTH: Lê Thành Nguyên
Hình 2. Giao diện phần mềm DTREG
Mô hình đã xây dựng cây quyết định với 28 mức giá được phân cấp thể hiện ở các
nút lá. Giá trị của các nút lá là giá trị trung bình đại diện cho các khu đất có các đặc điểm
chung được thể hiện từ nút gốc đến nút lá.

Quá trình phân nhánh là quá trình chia đôi bộ dữ liệu điều tra, được thực hiện trên
cơ sở các mẫu có các thuộc tính giống nhau sẽ được chia vào cùng một nhóm. Khi nhóm
mẫu có nhiều thuộc tính khác nhau thì thuộc tính có mức độ ảnh hưởng cao sẽ được lựa
chọn để chia tách nhóm. Nhóm có giá trị trung bình cao sẽ tương ứng với yếu tố lựa chọn
phân nhánh thuận lợi và ngược lại. Các nhóm lại tiếp tục được chia nhỏ hơn theo nguyên
tắc này đến khi không còn các thuộc tính khác nhau (hoặc đến lớp phân nhánh cao nhất).
Khi đó, giá trị của nút sẽ đại diện cho nhóm và mang các đặc điểm chung của khu đất.
Từ nút ban đầu, mức giá trung bình (value of target variable in group) của đất ở đô
thị được xác định là 2908 nghìn đồng (hai triệu chín trăm lẻ tám nghìn đồng). Từ mức giá
Trang 14
GVHD: PGS. TS. Đỗ Phúc HVTH: Lê Thành Nguyên
trung bình chung của toàn huyện, mô hình tiếp tục phân tích và chia tách đến lá cuối
cùng.
Hình 3. Tổng hợp mức giá đất ở đô thi
Tại nhánh tiếp theo, yếu tố cấp đường được lựa chọn để phân nhánh. Cấp đường
được chia thành hai nhóm: nhóm thứ nhất là đường cấp nội bộ và liên xã, nhóm thứ hai là
đường cấp huyện và quốc lộ. Nhóm đường nội bộ, liên xã có đơn giá trung bình là 383
nghìn đồng (ba trăm tám mươi ba nghìn đồng), sau đó tiếp tục được phân nhánh thành
cấp đường nội bộ và liên xã với đơn giá trung bình lần lượt là 299 nghìn đồng (hai trăm
chín mươi chín nghìn đồng) và 1.332 nghìn đồng (một triệu ba trăm ba mươi hai nghìn
đồng).
Trang 15
GVHD: PGS. TS. Đỗ Phúc HVTH: Lê Thành Nguyên
Hình 4. Phân cấp yếu tố cấp đường tại một nút
Đối với nhóm đường cấp quốc lộ và cấp huyện đơn giá trung bình là 5304 nghìn
đồng (năm triệu ba trăm lẻ bốn nghìn đồng). Hai cấp đường này có cấp quản lý khác nhau
nhưng về mức độ lưu thông và hoàn thiện tương đương nhau nên không tiếp tục phân
nhánh, như vậy đối với đường quốc lộ và đường cấp huyện sẽ có giá như nhau khi các
yếu tố khác không đổi.
Tại phân nhánh tiếp theo của nhóm này, yếu tố khu vực được chọn để phân nhánh,

hai nhóm được chia ra là nhóm khu vực trung tâm (nút 34) và nhóm khu vực cận trung
tâm, ven đô thị, ngoại ô (nút 35). Khu vực trung tâm có đơn giá trung bình là 10159
nghìn đồng (mười triệu một trăm năm mươi chín nghìn đồng), các khu vực còn lại có giá
trung bình là 1552 nghìn đồng (một triệu năm trăm năm mươi hai nghìn đồng).
Trang 16
GVHD: PGS. TS. Đỗ Phúc HVTH: Lê Thành Nguyên
Hình 5. Phân cấp yếu tố khu vực
Mô hình lại tiếp tục phân nhánh ở nút 34 và 35. Đến hai nút này yếu tố được chọn
để phân cấp khác nhau, nút 34 phân nhánh theo khả năng kinh doanh còn nút 35 phân
nhánh theo khoảng cách đến chợ thị trấn. Nút 35 không phân nhánh theo khả năng kinh
doanh là vì trong khu vực trung tâm thì khả năng kinh doanh là rất thuận lợi nên không
chia tách, lúc này, khoảng cách đến chợ được chọn để phân nhánh là hợp lý vì trong khu
trung tâm càng gần chợ hay càng gần điểm trung tâm thì giá đất sẽ càng cao. Cụ thể được
thể hiện ở hai phân nhánh: khoảng cách đến chợ thị trấn <= 520m giá trung bình là 13283
nghìn đồng (mười ba triệu hai trăm tám mươi ba nghìn đồng), khoảng cách đến chợ thị
trấn >520m thì đơn giá trung bình là 9583 nghìn đồng (chín triệu năm trăm tám mươi ba
nghìn đồng). Các nhánh tiếp theo lại tiếp tục chia nhỏ hơn mức độ ảnh hưởng của khoảng
cách đến chợ thị trấn tới đơn giá tại các nút 46, 47, 48, 49, 50, 51, 52, 53, 54 và 55.
Trang 17
GVHD: PGS. TS. Đỗ Phúc HVTH: Lê Thành Nguyên
Hình 6. Phân cấp yếu tố khoảng cách đến chợ thị trấn
Theo kết quả ở Hình 6 cho thấy hai mức giá không hợp lý tại nút 54 và 55, tại đây
khoảng cách đến chợ lớn hơn 1050m nhưng giá trung bình lại cao hơn giá trung bình đối
với khoảng cách từ 520 – 1075m. Nghiên cứu lại bộ dữ liệu cho thấy kết quả trên là chính
xác, nguyên nhân là thị trấn Định Quán ngoài chợ thị trấn còn có chợ tự phát là chợ Gia
Canh, các thửa đất có giá không tuân theo quy luật là do nằm xa chợ thị trấn nhưng lại
nằm gần chợ Gia Canh nên bị ảnh hưởng bởi điểm trung tâm nhỏ này, tạo ra sự nhiễu cho
bộ dữ liệu.
Trong cùng một phân nhánh, yếu tố được lựa chọn để phân nhánh có thể khác
nhau, nút 34 và 35 cùng nằm trên một nhánh nhưng đến nhánh tiếp theo, nút 34 phân tách

theo yếu tố khả năng kinh doanh còn nút 35 phân theo khoảng cách đến chợ thị trấn như
ở trên. Khả năng kinh doanh được chia thành hai nhóm là thuận lợi (nút 37) và nhóm ít
thuận lợi, không thuận lợi (nút 36).
Trang 18
GVHD: PGS. TS. Đỗ Phúc HVTH: Lê Thành Nguyên
Hình 7. Phân cấp yếu tố khả năng kinh doanh
Nhóm thuận lợi có giá trung bình là 3750 nghìn đồng (ba triệu bảy trăm năm mươi
nghìn đồng), nhóm còn lại có giá trung bình là 1064 nghìn đồng (một triệu không trăm
sáu mươi bốn nghìn đồng). Tại phân nhánh này, nút 37 không tiếp tục chia tách mà dừng
lại trở thành nút lá vì không có sự khác biệt về các yếu tố khác để làm cơ sở phân tách.
Riêng nút 36 tiếp tục phân nhánh thành các nhánh thấp hơn mà yếu tố được lựa chọn để
chia tách là khu vực và lớp phủ mặt đường.
Hình 8. Phân cấp yếu tố lớp phủ bề mặt đường
Đối với phân cấp khu vực, tiếp tục chia thành hai nhóm là ngoại ô, ven đô thị (nút 38) với
đơn giá trung bình là 829 nghìn đồng (tám trăm hai mươi chín nghìn đồng) và cận trung
tâm (nút 39) với giá trung bình là 1888 nghìn đồng (một triệu tám trăm tám mươi tám
Trang 19
GVHD: PGS. TS. Đỗ Phúc HVTH: Lê Thành Nguyên
nghìn đồng). Nút 39 lại trở thành nút lá vì phân nhánh đến đây thì không còn yếu tố khác
biệt để chia tách, riêng nút 38 tiếp tục chia tách theo lớp phủ mặt đường là đất (nút 40) và
nhựa (nút 41) với giá trung bình lần lượt là 501 nghìn đồng (năm trăm lẻ một nghìn đồng)
và 1075 nghìn đồng (một triệu không trăm bảy mươi lăm nghìn đồng). Như vậy phân cấp
theo lớp phủ bề mặt đường như vậy là đúng với hiện thực khách quan, đường nhựa thì
lưu thông tốt hơn đường đất nên giá sẽ cao hơn.
Đối với yếu tố vị trí, mô hình chỉ lựa chọn phân nhánh đối với cấp đường nội bộ
tại các nút 12, 13, 24 và 25. Trong đó, vị trí 0 (vị trí mặt tiên) luôn có đơn giá cao hơn so
với vị trí 1 (vị trí không có mặt tiền hay vị trí hẻm). Cụ thể như hình, vị trí 1 có giá trung
bình là 360 nghìn đồng (ba trăm sáu mươi nghìn đồng), còn vị trí không có đơn giá là 405
nghìn đồng (bốn trăm lẻ năm nghìn đồng). Điều này là phù hợp với thực tế khách quan,
giá đất mặt tiền luôn cao hơn so với giá đất ở vị trí không mặt tiền.

Hình 9. Phân cấp yếu tố vị trí
Qua phân tích ảnh hưởng của từng yếu tố tới giá trị đất đai trong mô hình, nhận
thấy các yếu tố đều tác động đến giá đất theo đúng quy luật khách quan, yếu tố thuận lợi
sẽ có giá trị cao hơn các yếu tố không thuận lợi, và trong mô hình chỉ có phân nhánh yếu
tố khoảng cách tới chợ thị trấn là có một vài nút không phù hợp quy luật như nút 51, 11
và 21. Đối với nút 51 đã giải thích ở phân cấp khoảng cách đến chợ thị trấn, giá đất bị
nhiễu là do ảnh hưởng của một điểm trung tâm khác thấp hơn điểm trung tâm chợ Định
Trang 20
GVHD: PGS. TS. Đỗ Phúc HVTH: Lê Thành Nguyên
Quán đã chọn. Còn hai nút 11 và 21 đều có khoảng cách đến chợ thị trấn xa hơn so với
phân nhánh còn lại nhưng giá lại cao hơn, tuy nhiên, hai trường hợp này chỉ xảy ra đối
với 1 mẫu, nên có thể bỏ qua vì sai số trong quá trình thu thập số liệu điều tra. Với R
2
=
0.933581và phân nhánh phù hợp của cây quyết định, một lần nữa khẳng định kết quả của
mô hình có khả năng dự báo khá cao.
Việc xác định giá đất theo mô hình cây quyết định dựa vào các phân nhánh của
cây, đi từ các nhánh lớn đến nhánh nhỏ, đến nút lá cuối cùng để định giá. Hình 4.8 thể
hiện phân nhánh tại nút 34, dựa vào phân nhánh này xác định giá đất như sau: tại nút 34,
cấp đường là được xác định dựa vào phân nhánh cao hơn là tại nút 3, là cấp đường huyện,
quốc lộ, còn khu vực là khu vực ngoại ô, ven đô thị và cận trung tâm.
Hình 10. Phân cấp tại nút 34
Những thửa đất nằm trong khu vực này sẽ có khả năng kinh doanh là thuận lợi, ít
thuận lợi và không thuận lợi và được chia thành hai nhóm là ít thuận lợi, không thuận lợi
(nút 36) có giá trị trung bình là 1064 nghìn đồng (một triệu không trăm sáu mươi bốn
nghìn đồng) và thuận lợi (nút 37) có đơn giá là 3750 nghìn đồng (ba triệu bảy trăm năm
mươi nghìn đồng). Đến phân nhánh tiếp theo, khả năng kinh doanh không thuận lợi, ít
Trang 21
GVHD: PGS. TS. Đỗ Phúc HVTH: Lê Thành Nguyên
thuận lợi tiếp tục chia nhánh theo yếu tố khu vực còn khả năng thuận lợi thì không chia

tách mà trở thành nút lá. Đối với phân nhánh khu vực lại được chia thành khu vực ngoại
ô, ven đô thị (nút 38) có giá trung bình là 829 nghìn đồng (tám trăm hai mươi chín nghìn
đồng) và khu vực cận trung tâm (nút 39) có đơn giá là 1888 nghìn đồng (một triệu tám
trăm tám mươi tám nghìn đồng). Nhánh khu vực cận trung tâm cũng không tiếp tục chia
nhánh mà trở thành nút lá, còn nhánh kia tiếp tục phân cấp theo yếu tố lớp phủ bề mặt
đường và kết thúc tại 4 nút lá là nút 42, 43, 44 và 45 với hai thuộc tính của phân cấp khu
vực là ngoại ô và ven đô thị.
STT Cấp đường Khu vực Khoảng cách
đến chợ TT
(m)
Khả năng
kinh doanh
Lớp phủ
bề mặt
Đơn giá
(đồng)
1 Huyện,
quốc lộ
Trung tâm <= 255 Rất thuận lợi Nhựa 14.900.000
2 Huyện,
quốc lộ
Trung tâm 255 – 520 Rất thuận lợi Nhựa 11.667.000
3 Huyện,
quốc lộ
Trung tâm 520 - 1075 Rất thuận lợi Nhựa 7.625.000
4 Huyện,
quốc lộ
Trung tâm 1075 – 1215 Rất thuận lợi Nhựa 11.667.000
5 Huyện,
quốc lộ

Trung tâm >1215 Rất thuận lợi Nhựa 7.500.000
6 Huyện,
quốc lộ
Cận trung
tâm, Ven
đô thị,
Ngoại ô
Thuận lợi Nhựa 3.750.000
7 Huyện,
quốc lộ
Cận trung
tâm
Không thuận
lợi
Ít thuận lợi
Nhựa 1.888.000
8 Huyện,
quốc lộ
Ven đô thị Không thuận
lợi
Ít thuận lợi
Nhựa 1.475.000
9 Huyện,
quốc lộ
Ven đô thị Không thuận
lợi
Ít thuận lợi
Đất 650.000
10 Huyện,
quốc lộ

Ngoại ô Không thuận
lợi
Ít thuận lợi
Nhựa 675.000
Trang 22
GVHD: PGS. TS. Đỗ Phúc HVTH: Lê Thành Nguyên
11 Huyện,
quốc lộ
Ngoại ô Không thuận
lợi
Ít thuận lợi
Đất 202.000
12 Liên xã 1.332.000
13 Nội bộ Cận trung
tâm
<= 1475 405.000
14 Nội bộ Ven đô thị Ít thuận lợi Đất 380.000
15 Nội bộ Ven đô thị <= 680 Không thuận
lợi
Đất 320.000
16 Nội bộ Ven đô thị 680 - 1475 Không thuận
lợi
Đất 306.000
17 Nội bộ Ven đô thị 1475 - 1825 Ít thuận lợi Đất 270.000
18 Nội bộ Ven đô thị 1475 - 1825 Không thuận
lợi
Đất 253.000
19 Nội bộ Ven đô thị >= 1825 Không thuận
lợi
Đất 225.000

20 Nội bộ Ngoại ô >=1825 Không thuận
lợi
Đất 197.000
Hình 11. Kết quả định giá đất theo mô hình cây quyết định
Qua bảng, đối với cấp đường huyện, quốc lộ, ta thấy đối với khu vực trung tâm,
yếu tố ảnh hưởng nhiều đến đơn giá là khoảng cách đến chợ thị trấn, các thửa đất trong
khu trung tâm lại cạnh tranh vị trí gần điểm trung tâm, cho nên càng gần điểm trung tâm
thì đơn giá sẽ càng cao. Các khu vực còn lại giá đất lại phụ thuộc nhiều vào khả năng
kinh doanh, lớp phủ bề mặt đường. Đối với đường cấp liên xã, do số phiếu về thông tin
này ít (chiếm 0,04% tổng số phiếu điều tra) nên không được phân tích nhiều mà chỉ tính
giá trị trung bình, trên thực tế phải xét đến lớp phủ bề mặt đường, đường nhựa thì định
giá cao hơn so với đường đất. Cấp đường nội bộ tuy đơn giá thấp nhưng lại bị ảnh hưởng
bởi nhiều yếu tố khác nhau: khả năng kinh doanh, khoảng cách đến chợ thị trấn, khu vực
nhưng mức độ ảnh hưởng lại không nhiều. Thể hiện ở sự chênh lệch mức giá không cao,
cao nhất 405 nghìn đồng (bốn trăm lẻ năm nghìn đồng) và thấp nhất 197 nghìn đồng (một
trăm chín mươi bảy nghìn đồng).
Trang 23
GVHD: PGS. TS. Đỗ Phúc HVTH: Lê Thành Nguyên
PHẦN 4: KẾT LUẬN
Với kết quả đạt được, cho thấy mô hình phân tích hồi quy bằng cây quyết định là
biện pháp lý tưởng để xác định các yếu tố có ảnh hưởng đến giá đất, từ đó tiến hành phân
cấp mức giá cho phù hợp. Ứng dụng các kỹ thuật khai phá dữ liệu như các phần mềm
phân tích thống kê, phân tích dữ liệu điều tra để xác định các các yếu tố ảnh hưởng cũng
như mức độ ảnh hưởng của từng yếu tố đến giá đất. Cụ thể trên địa bàn huyện Định Quán
cho kết quả về các yếu tố ảnh hưởng đến giá đất ở đô thị: Cấp đường, Khu vực, Khoảng
cách đến chợ thị trấn, Khả năng kinh doanh, Lớp phủ bề mặt đường và Vị trí.
Phần mềm DTREG là một kỹ thuật khai phá dữ liệu mới, tiến bộ, xây dựng mô
hình cây quyết định, phân cấp các mức giá trung bình khác nhau tương ứng với các vị trí
theo các tổ hợp các yếu tố ảnh hưởng đến giá đất. Đây là kết quả khách quan và khoa học
với các tiêu chí rõ ràng. Kết quả của mô hình có hệ số tương quan rất cao.

Kết hợp ứng dụng kỹ thuật khai phá dữ liệu với kinh nghiệm định giá của các định
giá viên và kết quả phân tích của mô hình, bảng giá sẽ được xây dựng với độ chính xác
cao, khách quan và khoa học.
Trang 24
GVHD: PGS. TS. Đỗ Phúc HVTH: Lê Thành Nguyên
TÀI LIỆU THAM KHẢO
[1] Tom M. Mitchell. Machine Learning. McGraw-Hill Science/Engineering/
Math. 1997.
[2] Georgios Paliouras; Vangelis Karkaletsis; Constantine D. Spyropoulos.
Machine Learning and its application. Advanced Lectures. Springer, 2001.
[3] Trần Thị Thanh Huyền, Luận văn tốt nghiệp “Phân tích và xác định hệ số điều
chỉnh các yếu tố ảnh hưởng đến giá đất đai trên địa bàn thành phố Biên Hòa”, 2010.
[4] Nguyễn Mạnh Hùng, Trần Văn Trọng, Lý Hưng Thành, Trần Thanh Hùng,
Hoàng Hữu Phê, 2008. “ Phương pháp định giá bất động sản ứng dụng lý thuyết Vị thế -
chất lượng”.
Trang 25

×