TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
------🙙🕮🙛------
-
ĐỒ ÁN CHUYÊN NGÀNH
NGÀNH: KHOA HỌC MÁY TÍNH
Đề Tài
PHÂN TÍCH DỰ BÁO SỐ LƯỢNG CĂN HỘ BÁN ĐƯỢC
TRONG CÁC QUÝ BẰNG MƠ HÌNH HỒI QUY TUYẾN
TÍNH
Giảng viên hướng dẫn
: TS. Nguyễn Mạnh Cường
Lớp
: KHMT01 - K15
Nhóm thực hiện
: Nhóm 4
Thành Viên:
1. Hồ An Hải – 2020607641
2. Phan Thanh Hải – 2020607456
3. Nguyễn Tiến Tú – 2020601739
Hà Nội - 2023
MỤC LỤC
LỜI CẢM ƠN ................................................................................................... 1
LỜI NÓI ĐẦU .................................................................................................. 2
CHƯƠNG 1: BÀI TỐN PHÂN TÍCH DỰ BÁO SỐ LƯỢNG CĂN HỘ
BÁN ĐƯỢC TRONG CÁC QUÝ .................................................................... 4
1.1. Giới thiệu chung ..................................................................................... 4
1.2. Giới thiệu về mục tiêu của bài toán ....................................................... 5
1.3. Ý nghĩa của bài toán đối với thực tế ...................................................... 6
1.4. Phương pháp tiếp cận ............................................................................. 6
1.5. Cơ hội và thách thức .............................................................................. 7
1.5.1. Cơ hội .............................................................................................. 8
1.5.2. Thách thức ....................................................................................... 8
CHƯƠNG 2: MỘT SỐ KỸ THUẬT GIẢI QUYẾT BÀI TOÁN .................. 10
2.1. Phương hướng tiếp cận bài toán........................................................... 10
2.2. Mạng nơ-ron nhân tạo (Artificial Neural Networks - ANN) ............... 10
2.2.1. Giới thiệu....................................................................................... 10
2.2.2. Cấu trúc và cách hoạt động của mạng nơ-ron nhân tạo ................ 11
2.2.3. Các loại mạng thần kinh nhân tạo ANN ....................................... 13
2.2.4. Ưu điểm và nhược điểm ................................................................ 14
2.3. Mơ hình cây quyết định (Decision Tree) ............................................. 14
2.3.1. Giới thiệu....................................................................................... 14
2.3.2. Đặc điểm ....................................................................................... 15
2.3.4. Ưu điểm và nhược điểm ................................................................ 17
2.4. Thuật Toán K-Nearest Neighbors (KNN)............................................ 18
2.4.1. Giới thiệu....................................................................................... 18
2.4.2. Đặc điểm ....................................................................................... 18
2.4.3. Cách hoạt động của KNN ............................................................. 20
2.4.4. Ưu điểm và nhược điểm ................................................................ 21
2.5. Mơ hình hồi quy tuyến tính .................................................................. 22
2.5.1. Giới thiệu....................................................................................... 22
2.5.2. Các thành phần của hồi quy tuyến tính ......................................... 23
2.5.3. Đánh giá và diễn giải kết quả ........................................................ 24
2.5.4. Ứng dụng của Linear Regression .................................................. 24
2.5.5. Ưu điểm và hạn chế của Hồi quy tuyến tính ................................. 25
2.6. Kết luận chương 2 ................................................................................ 26
CHƯƠNG 3: KẾT QUẢ THỰC NGHIỆM .................................................... 27
3.1. Dữ liệu thực nghiệm............................................................................. 27
3.2. Quy trình thực nghiệm ......................................................................... 28
3.2.1. Đặt mục tiêu .................................................................................. 28
3.2.2. Tiền xử lý dữ liệu .......................................................................... 28
3.2.3. Phân tích mơ tả .............................................................................. 33
3.2.4. Phân tích hồi quy ........................................................................... 37
3.3. Đánh giá và đề xuất .............................................................................. 40
3.4. Kết luận chương 3 ................................................................................ 41
CHƯƠNG 4: XÂY DỰNG HỆ THỐNG DỰ BÁO SỐ LƯỢNG CĂN HỘ
BÁN ĐƯỢC TRONG CÁC QUÝ .................................................................. 42
4.1. Giới thiệu Framework .......................................................................... 42
4.2. Phân tích thiết kế hệ thống ................................................................... 42
4.2.1. Biểu đồ use-case tổng quát............................................................ 42
4.2.2. Mô tả chi tiết các use-case ............................................................ 43
4.3. Phân tích thiết kế giao diện .................................................................. 44
4.4. Kết luận chương 4 ................................................................................ 48
KẾT LUẬN ..................................................................................................... 49
TÀI LIỆU THAM KHẢO ............................................................................... 50
DANH MỤC HÌNH ẢNH
Hình 1. 1. Minh họa về bài tốn ........................................................................ 4
Hình 2. 1. Mơ hình ANN là gì?....................................................................... 11
Hình 2. 2. Cấu trúc cơ bản của mạng nơ-ron nhân tạo ANN.......................... 12
Hình 2. 3. Mơ hình ANN cơ bản ..................................................................... 13
Hình 2. 4. Ví dụ về mơ hình cây quyết định ................................................... 15
Hình 2. 5. Mơ hình KNN ................................................................................ 18
Hình 2. 6. Ví dụ về mơ hình KNN .................................................................. 20
Hình 2. 7. Hồi quy tuyến tính là gì? ................................................................ 22
Hình 2. 8. Ví dụ về hồi quy tuyến tính ............................................................ 24
Hình 3. 1. Dữ liệu 10 dịng đầu của dataset .................................................... 27
Hình 3. 2. Số lượng data bị trùng lặp .............................................................. 30
Hình 3. 3. Dữ liệu trước khi điền khuyết ........................................................ 31
Hình 3. 4. Dữ liệu sau khi điền khuyết ........................................................... 31
Hình 3. 5. Bảng tóm lược dữ liệu .................................................................... 31
Hình 3. 6. Dữ liệu trước khi chuyển đồi ......................................................... 32
Hình 3. 7. Dữ liệu sau khi chuyển đổi ............................................................ 32
Hình 3. 8. Mối liên hệ giữa giá nhà và các yếu tố khác .................................. 33
Hình 3. 9. Biểu đồ phân phối giá nhà.............................................................. 34
Hình 3. 10. Biểu đồ phân bố giá nhà theo kinh độ và vĩ độ ............................ 35
Hình 3. 11. Biểu đồ thể hiện số nhà bán được từng tháng .............................. 36
Hình 3. 12. Số lượng căn hộ bán được theo quý ............................................. 37
Hình 3. 13. Hệ số xác định R-squared của mơ hình lần lượt từng quý........... 39
Hình 3. 14. Số lượng căn hộ bán được được dự đốn trong các q.............. 40
Hình 4. 1. Biểu đồ use-case tổng quát............................................................. 42
Hình 4. 2. Giao diện chính của website .......................................................... 44
Hình 4. 3. Chọn biến độc lập........................................................................... 45
Hình 4. 4. Chọn tất cả bằng cách ấn nút Select All ........................................ 46
Hình 4. 5. Kết quả sau khi dự đoán ................................................................. 47
Hình 4. 6. Bỏ chọn các biến độc lập ............................................................... 48
LỜI CẢM ƠN
Lời đầu tiên cho phép chúng em gửi lời cảm ơn sâu sắc tới các thầy cô
trong khoa Công nghệ thông tin - Trường Đại học Công Nghiệp Hà Nội, những
người đã hết mình truyền đạt và chỉ dẫn cho chúng em những kiến thức, những
bài học quý báu và bổ ích. Đặc biệt chúng em xin được bày tỏ sự tri ân và xin
chân thành cảm ơn giảng viên Nguyễn Mạnh Cường người trực tiếp hướng
dẫn, chỉ bảo chúng em trong suốt quá trình học tập, nghiên cứu và hoàn thành
được đồ án. Sau nữa, chúng em xin gửi tình cảm sâu sắc tới gia đình và bạn bè
vì đã ln bên cạnh khuyến khích, động viên, giúp đỡ cả về vật chất linh tinh
thần cho chúng em trong suốt quy trình học tập để chúng em hồn thành tốt
việc học tập của bản thân.
Trong q trình nghiên cứu và làm đề tài, do năng lực, kiến thức, trình
độ bản thân chúng em cịn hạn hẹp nên khơng tránh khỏi những thiếu sót và
chúng em mong mỏi nhận được sự thơng cảm và những góp ý từ quý thầy cô
cũng như các bạn trong lớp. Chúng em xin chân thành cảm ơn!
Nhóm thực hiện
Hồ An Hải
Phan Thanh Hải
Nguyễn Tiến Tú
1
LỜI NÓI ĐẦU
Trong bối cảnh thị trường bất động sản đang phát triển mạnh mẽ, đồng
thời với sự phát triển không ngừng của công nghệ thông tin, việc dự báo số
lượng căn hộ bán được là một yếu tố quan trọng để các nhà phát triển, chủ đầu
tư và các bên liên quan có thể tạo ra chiến lược kinh doanh hiệu quả và đưa ra
quyết định đúng đắn.
Bên cạnh đó, mơ hình hồi quy tuyến tính là một cơng cụ mạnh mẽ trong
việc dự báo và phân tích dữ liệu. Nó cho phép chúng ta xây dựng một mơ hình
thống kê dựa trên các biến độc lập để dự đốn một biến phụ thuộc. Chính vì
vậy, nhóm 4 chúng em quyết định lựa chọn đề tài "phân tích và dự báo số lượng
căn hộ bán được trong các quý bằng mơ hình hồi quy tuyến tính".
Mục tiêu của đề tài này là xây dựng một mơ hình hồi quy tuyến tính dựa
trên dữ liệu đầu vào và sử dụng các phương pháp thống kê và kỹ thuật phân
tích dữ liệu để xác định các biến có liên quan và xây dựng một mơ hình dự báo
chính xác.
Qua việc phân tích và dự báo số lượng căn hộ bán được, nhóm chúng em
hy vọng có thể cung cấp thơng tin hữu ích cho các nhà phát triển, chủ đầu tư và
các bên liên quan trong việc đưa ra quyết định kinh doanh và lập kế hoạch
tương lai. Đồng thời, nghiên cứu này cũng có thể mở ra cơ hội cho việc nghiên
cứu và ứng dụng các phương pháp dự báo trong lĩnh vực bất động sản.
Nội dung của quyển báo cáo sẽ bao gồm các chương như sau:
Chương 1: Phát biểu bài tốn
Trong chương 1, nhóm tiến hành phát biểu bài toán, xác định dữ liệu đầu
vào, dữ liệu đầu ra của bài toán, các đặc điểm của bài toán.
Chương 2: Các kỹ thuật giải quyết bài toán
2
Sau khi đã phát biểu và xác định rõ ràng được u cầu của bài tốn, nhóm
sẽ trình bày các kỹ thuật giải quyết bài tốn hiện có cùng các ưu nhược điểm
của chúng. Tiếp theo, các giải pháp sẽ được đề xuất cho bài tốn được đặt ra.
Và mơ tả chi tiết về giải pháp đã lựa chọn.
Chương 3: Kết quả thực nghiệm
Tại chương này, nhóm tập chung trình bày về quá trình thực nghiệm cũng
như các kết quả đạt được với kỹ thuật giải quyết bài toán được đề xuất ở chương
2.
Phần kết luận:
Cuối cùng trong phần kết luận, nhóm sẽ tổng hợp các kết quả đạt được,
các hướng phát triển và mở rộng đề tài nghiên cứu trong tương lai.
Nói tóm lại, thơng qua việc thực hiện đề tài, nhóm đã có cơ hội khám
phá sâu rộng trong lĩnh vực phân tích dữ liệu và dự báo, đặc biệt là áp dụng
chúng vào thị trường bất động sản. Đây không chỉ là một nhiệm vụ học thuật
mà cịn là một trải nghiệm quan trọng giúp nhóm phát triển nhiều kỹ năng quan
trọng.
Nhóm hy vọng có thể áp dụng những kiến thức và kỹ năng mới học được
vào các dự án thực tế trong tương lai đồng thời mong muốn rằng nghiên cứu
của mình sẽ đem lại giá trị khơng chỉ cho bản thân mà cịn cho các đối tượng
khác, như những người quan tâm đến thị trường bất động sản, các nhà đầu tư,
và cả những người làm chính sách có thể sử dụng thơng tin này để đưa ra quyết
định thông tin hơn và hiệu quả hơn. Điều này cũng là một bước đầu tiên quan
trọng của nhóm trong việc góp phần vào sự phát triển bền vững và thông tin
của cộng đồng xã hội.
3
CHƯƠNG 1: BÀI TỐN PHÂN TÍCH DỰ BÁO SỐ
LƯỢNG CĂN HỘ BÁN ĐƯỢC TRONG CÁC QUÝ
1.1. Giới thiệu chung
Trong thế giới đầy động lực của thị trường bất động sản ngày nay, việc
đánh giá và dự đoán số lượng căn hộ bán được trong các quý là một thách thức
đặt ra trước các doanh nghiệp và nhà phát triển bất động sản. Đây khơng chỉ là
một khía cạnh quan trọng trong quản lý và chiến lược kinh doanh của họ mà
cịn là một yếu tố chính định hình hình ảnh và tầm vóc của thị trường.
Để hiểu rõ hơn về động thái của thị trường, phân tích số liệu trở thành
một công cụ quan trọng, nhằm đo lường sự biến động của số lượng căn hộ được
bán ra theo từng q. Bài tốn phân tích này địi hỏi sự kết hợp chặt chẽ giữa
sự hiểu biết về thị trường bất động sản và sự sâu sắc trong việc áp dụng các
phương pháp phân tích dữ liệu hiện đại.
Hình 1. 1. Minh họa về bài toán
4
Dữ liệu cần được thu thập một cách tỉ mỉ, từ các yếu tố cơ bản như diện
tích, vị trí địa lý, đến những biến đổi phức tạp như giá bán, xu hướng kinh tế
xã hội, và sự thay đổi trong nhu cầu thị trường. Chính sự kết hợp thơng tin chi
tiết này giúp xây dựng cơ sở dữ liệu đa chiều, cung cấp cái nhìn tồn diện về
sự biến động của thị trường bất động sản theo thời gian.
Đồng thời, việc áp dụng các mơ hình phân tích như hồi quy tuyến tính,
Mạng Nơ-ron Nhân tạo (ANN), hay cây quyết định giúp chúng ta hiểu rõ hơn
về mối liên quan giữa các yếu tố và số lượng căn hộ được bán ra. Những mơ
hình này khơng chỉ giúp dự đốn xu hướng tương lai mà cịn hỗ trợ quyết định
chiến lược với độ chính xác cao.
Tuy nhiên, khơng phải lúc nào cũng là mọi thứ suôn sẻ. Đối mặt với thực
tế đa dạng và động chất của thị trường bất động sản, chúng ta phải đối diện với
những thách thức như sự không chắc chắn và nhiễu loạn trong dữ liệu, cũng
như khả năng mơ hình khơng thể nắm bắt hết được mọi yếu tố ảnh hưởng.
Nhưng với sự sáng tạo và kỹ thuật phân tích tiên tiến, chúng ta có thể tiếp cận
bài tốn này một cách tồn diện và hiệu quả.
1.2. Giới thiệu về mục tiêu của bài toán
Mục tiêu của bài toán này là dự đoán số lượng căn nhà hoặc căn hộ dự
kiến được bán ra trong một khoảng thời gian cụ thể, chẳng hạn trong các q
tiếp theo.
Bên cạnh đó, bài tốn phân tích dự báo số lượng nhà bán được là một bài
toán trong lĩnh vực phân tích dữ liệu và học máy, trong đó mục đích cuối cùng
là dự đốn số nhà bán được dựa trên các đặc trưng liên quan như: giá nhà, số
lượng phịng ngủ, phịng tắm, diện tích, số tầng,v.v.
Bài toán này được sử dụng trong các nghiên cứu xã hội, kinh tế và chính
trị để nghiên cứu các yếu tố có thể ảnh hưởng tới giá nhà từ đó có thể đưa ra
các quyết định kinh doanh thơng minh và tối ưu.
5
Ngồi ra bài tốn cũng được sử dụng để phân tích số nhà bán được cung
cấp thơng tin quan trọng cho các nhà phát triển, nhà đầu tư và các bên liên quan
để đưa ra quyết định về đầu tư, phát triển dự án bất động sản, xác định tiềm
năng lợi nhuận và định hướng chiến lược.
1.3. Ý nghĩa của bài toán đối với thực tế
Mục tiêu của bài toán phân tích số nhà bán được là xây dựng một mơ
hình hoặc thuật tốn dự đốn chính xác số nhà bán ra dựa trên các thơng tin liên
quan. Qua đó, người dùng có thể đưa ra dự báo và đánh giá tiềm năng của thị
trường bất động sản, từ đó đưa ra các quyết định đầu tư, kinh doanh và tiếp thị
hiệu quả.
Bài tốn phân tích số nhà bán được mang ý nghĩa quan trọng trong nhiều
lĩnh vực. Đối với các chủ đầu tư và nhà phát triển, dự đoán số nhà bán ra giúp
họ hiểu và dự báo nhu cầu thị trường, định hình chiến lược kinh doanh, lựa
chọn dự án và quyết định về giá cả và tiếp thị. Với các nhà môi giới bất động
sản, việc dự đốn số nhà bán ra giúp họ định hình hoạt động của mình và tạo ra
các chiến lược quảng cáo và tiếp thị hiệu quả.
1.4. Phương pháp tiếp cận
Để phân tích số nhà bán được, các phương pháp và mơ hình học máy
thường được sử dụng để dự đốn số lượng nhà bán ra dựa trên các biến độc lập.
Các phương pháp phổ biến bao gồm hồi quy tuyến tính, cây quyết định,
Random Forest, Gradient Boosting, mạng nơ-ron, và thuật tốn K-Nearest
Neighbors (KNN).
Q trình phân tích dự báo số lượng nhà bán được thường bao gồm các
bước sau:
⮚ Thu thập dữ liệu: Thu thập dữ liệu là bước đầu tiên và quan trọng trong
quy trình phân tích dự báo. Các dữ liệu cần được thu thập liên quan đến
số lượng nhà bán được và các yếu tố ảnh hưởng. Các nguồn dữ liệu có
6
thể bao gồm báo cáo thị trường, giá nhà, số lượng phòng ngủ, phòng tắm,
dữ liệu kinh tế, dân số, lãi suất, v.v.
⮚ Tiền xử lý dữ liệu: Sau khi thu thập dữ liệu, tiền xử lý là bước rất cần
thiết để chuẩn hóa và làm sạch dữ liệu. Điều này bao gồm loại bỏ các giá
trị thiếu, xử lý ngoại lệ, chuẩn hóa đơn vị đo nếu cần thiết và chuyển đổi
dữ liệu về định dạng phù hợp cho việc phân tích.
⮚ Phân tích mơ tả: Bước này liên quan đến việc áp dụng phương pháp mô
tả để phân tích mối quan hệ giữa số lượng nhà bán được và các yếu tố
ảnh hưởng. Mục tiêu là tìm ra mơ hình và mối quan hệ tốt nhất giữa số
lượng nhà bán được trong các quý và các biến độc lập.
⮚ Xây dựng mơ hình: Dựa trên phân tích thống kê và dữ liệu, ta cần xây
dựng mơ hình dự báo số lượng nhà bán được bằng cách chọn mô hình
phù hợp với dữ liệu và mục tiêu dự báo. Các mơ hình dự báo phổ biến
bao gồm hồi quy tuyến tính, mạng nơ-ron nhân tạo (neural networks),
mơ hình dự báo chuỗi thời gian, v.v.
⮚ Đánh giá và tinh chỉnh mơ hình: Sau khi xây dựng mơ hình, ta cần đánh
giá hiệu suất của mơ hình. Các phương pháp đánh giá có thể được sử
dụng như: sai số dự báo, đánh giá độ chính xác dự báo, kiểm tra dự báo
trên dữ liệu kiểm tra. Nếu mơ hình khơng đạt hiệu suất mong đợi, tinh
chỉnh mơ hình bằng cách điều chỉnh các tham số, thay đổi phương pháp
hoặc thay đổi biến độc lập là cần thiết.
⮚ Dự đoán số lượng nhà bán được: Sau khi đánh giá và tinh chỉnh mơ hình,
mơ hình đã xây dựng có thể được sử dụng để dự đoán số lượng nhà bán
được trong các quý bằng cách cung cấp dữ liệu đầu vào mới cho mơ hình
và ta sẽ nhận được dự đốn về số lượng nhà bán được trong tương lai.
1.5. Cơ hội và thách thức
Bài tốn phân tích dự báo số lượng căn hộ bán được trong các quý là một
phần quan trọng của lĩnh vực dự đoán thị trường bất động sản. Chính vì vậy nó
7
có rất nhiều cơ hội phát triển. Tuy nhiên bài tốn nào cũng có những hạn chế
nhất định và bài toán này cũng vậy.
1.5.1. Cơ hội
⮚ Dự báo thị trường: Hiểu rõ số lượng căn hộ có thể được bán trong từng
quý có thể giúp các nhà phát triển bất động sản và nhà đầu tư đưa ra
quyết định chiến lược hợp lý.
⮚ Tối ưu hóa lợi nhuận: Dự báo chính xác giúp quản lý tồn kho và giá
bán, từ đó tối ưu hóa lợi nhuận và giảm thiểu rủi ro.
⮚ Tăng sự cạnh tranh: Có kiến thức về tình hình thị trường có thể giúp
các doanh nghiệp nắm bắt cơ hội và cạnh tranh hiệu quả.
⮚ Quảng cáo và tiếp thị: Có dự báo chính xác về số lượng căn hộ bán
được giúp các doanh nghiệp tối ưu hóa chiến dịch quảng cáo và tiếp thị.
1.5.2. Thách thức
⮚ Sự biến động thị trường: Thị trường bất động sản có thể biến đổi nhanh
chóng dưới tác động của nhiều yếu tố, chẳng hạn như tăng giảm nhu cầu,
thay đổi trong chính trị, hoặc tài chính tồn cầu. Dự báo trong bối cảnh
này trở nên phức tạp.
⮚ Sự phụ thuộc vào dữ liệu: Dự báo chính xác địi hỏi dữ liệu đầu vào chất
lượng và tự tin. Nếu thông tin không chính xác hoặc hạn chế, dự báo có
thể sai lệch.
⮚ Phân tích phức tạp: Dự báo số lượng căn hộ bán được địi hỏi sử dụng
mơ hình phân tích phức tạp, và việc xây dựng và duy trì mơ hình có thể
địi hỏi kiến thức và kỹ năng chun sâu.
⮚ Thời gian và nguồn lực: Phân tích dự báo cần thời gian và nguồn lực
đáng kể để thu thập, xử lý dữ liệu và xây dựng mơ hình, đặc biệt khi cần
dự báo trong nhiều kịch bản khác nhau.
8
⮚ Rủi ro không xác định: Dự báo thị trường bất động sản có thể gặp rủi ro
khơng xác định, và việc quyết định dựa trên dự báo này có thể mang theo
một mức độ rủi ro cao.
9
CHƯƠNG 2: MỘT SỐ KỸ THUẬT GIẢI QUYẾT
BÀI TOÁN
2.1. Phương hướng tiếp cận bài tốn
Q trình giải quyết bài tốn bắt đầu bằng việc thu thập và tiền xử lý các
bộ dữ liệu thực nghiệm liên quan tới các căn hộ đã được bán ra. Tiếp đến là
nghiên cứu và áp dụng các kỹ thuật để dự đoán số lượng căn hộ được bán ra
trong tương lai.
2.2. Mạng nơ-ron nhân tạo (Artificial Neural Networks - ANN)
2.2.1. Giới thiệu
Về cơ bản, Mạng nơ-ron nhân tạo là một mơ hình tính tốn. Chúng được
xây dựng dựa trên cấu trúc và chức năng của mạng lưới nơ-ron trong Sinh học
(mặc dù cấu trúc của ANN sẽ bị ảnh hưởng bởi một luồng thông tin). Do đó,
mạng nơ ron này sẽ thay đổi, chúng phụ thuộc vào đầu vào và đầu ra.
Chúng ta có thể coi ANN là dữ liệu thống kê phi tuyến. Điều này đồng
nghĩa với một mối quan hệ phức tạp, được xác định giữa đầu vào và đầu ra. Kết
quả là sẽ có nhiều mẫu khác nhau được tạo ra.
10
Hình 2. 1. Mơ hình ANN là gì?
Trong bài tốn dự đốn số lượng căn hộ bán được, ANN có thể được sử
dụng để tìm hiểu và mơ hình hóa mối quan hệ phức tạp giữa các đặc trưng của
căn nhà và số lượng đã được bán của nó.
2.2.2. Cấu trúc và cách hoạt động của mạng nơ-ron nhân tạo
ANN lấy ý tưởng từ cách hoạt động của bộ não con người - tạo ra các
kết nối phù hợp. Do đó, ANN đã sử dụng các silicon và dây điện để làm nơ ron
và đi gai sống cho mình.
Trong cơ thể con người, 1 phần não đã bao gồm 86 tỉ tế bào thần kinh và
chúng được kết nối với hàng nghìn tế bào khác thơng qua Axons. Bởi vì con
người có rất nhiều đầu vào thơng tin khác nhau từ các giác quan, nên cơ thể
cũng có nhiều đi gai để giúp truyền thông tin này.
Chúng sẽ tạo ra xung điện để di chuyển, truyền thông tin trong mạng lưới
nơ ron thần kinh này. Và điều này cũng tương tự cho mạng nơ ron nhân tạo
ANN - Khi cần xử lý các vấn đề khác nhau, nơ-ron sẽ gửi một thông điệp đến
một nơ-ron khác.
11
Hình 2. 2. Cấu trúc cơ bản của mạng nơ-ron nhân tạo ANN
Do đó, chúng ta có thể nói rằng ANN sẽ bao gồm nhiều nút bên trong,
chúng bắt chước các tế bào thần kinh sinh học bên trong não người. Các mạng
ANN sẽ kết nối các nơ-ron này bằng các liên kết và chúng có tương tác với
nhau.
Các nút trong ANN được sử dụng để lấy dữ liệu đầu vào. Hơn nữa, việc
thực hiện các thao tác trên dữ liệu cũng rất đơn giản. Sau khi thực hiện những
thao tác với dữ liệu, các hoạt động này được chuyển cho các tế bào thần kinh
khác. Đầu ra tại mỗi nút được gọi là giá trị kích hoạt hoặc giá trị nút của nó.
Mỗi liên kết trong mạng ANN đều có liên quan với trọng lượng. Ngồi
ra, chúng có khả năng học hỏi. Điều đó sẽ diễn ra bằng cách thay đổi các giá trị
trọng lượng. Dưới đây là một hình minh họa về một ANN đơn giản:
12
Hình 2. 3. Mơ hình ANN cơ bản
Ta có thể quan sát các sơ đồ cấu trúc liên kết chi tiết của mạng Nơron
nhân tạo ANN. Trong sơ đồ này, mỗi mũi tên sẽ đại diện cho 1 kết nối giữa 2
tế bào thần kinh. Ngồi ra, chúng cịn có thể sử dụng để mô tả con đường cho
các luồng thông tin. Như bạn nhận thấy, mỗi liên kết đều có một trọng số là số
nguyên, chúng ta sử dụng chúng để điều khiển tín hiệu giữa 2 tế bào thần kinh.
Nếu như đầu ra của ANN tốt, chúng ta không cần điều chỉnh trọng số.
Ngược lại, nếu đầu ra không tốt như mong đợi, hệ thống sẽ cần phải thay đổi
trọng lượng để cải thiện kết quả.
2.2.3. Các loại mạng thần kinh nhân tạo ANN
Hiện nay đang có hai loại ANN là FeedForward và Feedback.
2.2.3.1. FeedForward ANN
Mạng FeedForward ANN có luồng thơng tin một chiều. Một đơn vị sẽ
được sử dụng để gửi thông tin cho một đơn vị khác mà khơng nhận được bất
kỳ thơng tin nào. Ngồi ra, chúng sẽ khơng xuất hiện vịng phản hồi (gửi ngược
13
thơng tin về lại). Mơ hình này thường được sử dụng để nhận dạng một mẫu cụ
thể, vì chúng chứa các đầu vào và đầu ra cố định.
2.2.3.2. FeedBack ANN
Trong mạng Nơron nhân tạo này, chúng sẽ cho phép các vịng lặp phản
hồi. Chúng ta thường sử dụng mơ hình này trong các bộ nhớ có thể giải quyết
nội dung.
2.2.4. Ưu điểm và nhược điểm
ANN được sử dụng rất rộng rãi trong các bài toán dự báo và dự đoán.
Tuy nhiên nó cũng có ưu điểm và hạn chế riêng.
⮚ Ưu điểm:
● Khả năng học mẫu phức tạp
● Xử lý dữ liệu khơng đồng nhất
● Tính linh hoạt và mở rộng
⮚ Nhược điểm:
● Dễ bị quá khớp
● Đòi hỏi lượng dữ liệu lớn
● Độ phức tạp và địi hỏi tính tốn cao
● Khó hiểu và khó giải thích
2.3. Mơ hình cây quyết định (Decision Tree)
2.3.1. Giới thiệu
Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được
dùng để phân lớp các đối tượng dựa vào dãy các luật. Các thuộc tính của đối
tượng có thể thuộc các kiểu dữ liệu khác nhau như nhị phân (Binary) , định
danh (Nominal), thứ tự (Ordinal), số lượng (Quantitative) trong khi đó thuộc
tính phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal.
14
Tóm lại, cho dữ liệu về các đối tượng gồm các thuộc tính cùng với lớp
(classes) của nó, cây quyết định sẽ sinh ra các luật để dự đoán lớp của các dữ
liệu chưa biết.
Ta hãy xét một ví dụ 1 về cây quyết định. Giả sử dựa theo số phịng ngủ
mà một căn nhà sẽ được dự đốn bán với giá cao hơn hay khơng?
Hình 2. 4. Ví dụ về mơ hình cây quyết định
Dựa theo mơ hình trên, ta thấy được rằng nếu căn nhà có trên 2 phịng
ngủ mà lơ đất có diện tích lớn hơn 11500 mét vng thì căn nhà sẽ bán được
giá cao hơn so với căn nhà có trên 2 phịng ngủ mà lơ đất có diện tích lớn hơn
8500 mét vng.
2.3.2. Đặc điểm
Cây quyết định (Decision Tree) là một mơ hình học máy phổ biến được
sử dụng cho cả bài toán phân loại và dự đốn. Dưới đây là một số mơ hình
quyết định phổ biến:
⮚ Thuật tốn ID3
Thuật tốn ID3 được kỹ sư J. R. Quinlan tìm hiểu và tạo ra vào năm
1993. Nó sử dụng phương pháp tham lam tìm kiếm từ trên xuống thông qua
15
khơng gian của các nhánh có thể khơng có backtracking. ID3 sử dụng Entropy
và Information Gain để xây dựng một cây quyết định.
Entropy (H(S)) là thước đo mức độ tinh khiết trong tập dữ liệu S:
Trong đó:
● S: Là tập dữ liệu hiện tại đang tính entropy
● X: Tập các lớp trong S
● p(x): Tỉ lệ số phần tử trong lớp x về số phần tử trong tập hợp S
Information gain ( IG(A)) là độ thu lợi thông tin , độ quan trọng của 1
thuộc tính về mặt thơng tin.
Gain(S,A)≡Entropy(S)-∑_(v∈Value(A))|S_v|/|S| Entropy(S_v)
Trong đó:
● S: Tập dữ liệu
● A: Thuộc tính được đo
● Value(A): Tập các giá trị khác nhau của thuộc tính A
● Sv: Tập con SA=v
⮚ Thuật tốn C4.5
Thuật tốn C4.5 là thuật toán cải tiến của ID3. C4.5 sử dụng phương
pháp chia nhánh dựa trên Information Gain (lợi ích thơng tin). Cụ thể, nó chia
nhánh dựa trên thuật tốn ID3 nhưng sử dụng lợi ích thơng tin chính xác để xác
định đặc trưng tốt nhất để chia dữ liệu.
⮚ Một số thuật tốn khác
Ngồi ID3, C4.5, ta cịn một số thuật toán khác như:
16
● Thuật toán CHAID: tạo cây quyết định bằng cách sử dụng thống
kê chi-square để xác định các phân tách tối ưu. Các biến mục tiêu
đầu vào có thể là số (liên tục) hoặc phân loại.
● Thuật toán C&R: sử dụng phân vùng đệ quy để chia cây. Tham
biến mục tiêu có thể dạng số hoặc phân loại.
● MARS
● Conditional Inference Trees
2.3.4. Ưu điểm và nhược điểm
Cây quyết định là một thuật toán đơn giản và phổ biến. Thuật toán này
được sử dụng rộng rãi với những lợi ích của nó. Kèm với đó, cây quyết định
cũng có những nhược điểm cụ thể.
⮚ Ưu điểm:
● Mơ hình sinh ra các quy tắc dễ hiểu cho người đọc, tạo ra bộ luật
với mỗi nhánh lá là một luật của cây.
● Dữ liệu đầu vào có thể là là dữ liệu missing, khơng cần chuẩn hóa
hoặc tạo biến giả
● Có thể làm việc với cả dữ liệu số và dữ liệu phân loại
● Có thể xác thực mơ hình bằng cách sử dụng các kiểm tra thống kê
● Có khả năng là việc với dữ liệu lớn
⮚ Nhược điểm:
● Mơ hình cây quyết định phụ thuộc rất lớn vào dữ liệu của bạn.
Thậm chí, với một sự thay đổi nhỏ trong bộ dữ liệu, cấu trúc mơ
hình cây quyết định có thể thay đổi hoàn toàn.
● Cây quyết định hay gặp vấn đề overfitting
17
2.4. Thuật Toán K-Nearest Neighbors (KNN)
2.4.1. Giới thiệu
KNN (K-Nearest Neighbors) là một trong những thuật tốn học có giám
sát đơn giản nhất được sử dụng nhiều trong khai phá dữ liệu và học máy. Thuật
toán được Evelyn Fix và Joseph Hodges công bố đầu tiên vào năm 1951 và
được Thomas Cover mở rộng sau này vào năm 1967.
Ý tưởng của thuật tốn này là nó khơng học một điều gì từ tập dữ liệu
học (nên KNN được xếp vào loại lazy learning), mọi tính tốn được thực hiện
khi nó cần dự đoán nhãn của dữ liệu mới.
Lớp (nhãn) của một đối tượng dữ liệu mới có thể dự đốn từ các lớp
(nhãn) của K hàng xóm gần nó nhất.
Hình 2. 5. Mơ hình KNN
2.4.2. Đặc điểm
Bản chất của KNN chính là tính tốn khoảng cách từ điểm cần kiểm tra
đến điểm lân cận, nên nếu các tính năng có tỷ lệ khác nhau hoặc có đơn vị khác
18
nhau, ta có thể thực hiện chuẩn hóa (normalize) dữ liệu để có thể tăng hiệu suất
của thuật tốn.
Tính "lười" của KNN được thể hiện ở 2 tính chất: hàm mục tiêu được
xấp xỉ tại các địa phương, và KNN khơng có giai đoạn huấn luyện. Mọi tính
tốn được thực hiện khi nó cần dự đốn kết quả của dữ liệu mới.
Tuỳ thuộc vào mục đích phân loại hay hồi quy mà đầu ra của KNN sẽ
khác nhau:
⮚ Với bài toán phân loại, output của KNN là lớp của bản ghi cần phân loại.
Một bản ghi được xác định lớp (class) theo nguyên tắc biểu quyết đa số.
⮚ Với bài tốn hồi quy, output của KNN chính là giá trị dự đoán của của
hàm mất mát tại bản ghi đang được xét. Giá trị dự đốn này là trung bình
nhãn của k mẫu gần nhất.
Dữ liệu huấn luyện là tập hợp những điểm dữ liệu đã được gắn nhãn (với
bài toán phân lớp), và tập các điểm dữ liệu với giá trị tương ứng (với bài toán
hồi quy). Một đặc trưng của thuật tốn KNN chính là sự nhạy cảm với hình
dạng của dữ liệu.
Ví dụ: Hình thoi trong hình dưới đây đang cần được phân loại thuộc hình
chữ thập hoặc hình tam giác:
19
Hình 2. 6. Ví dụ về mơ hình KNN
⮚ Nếu k = 1, hình thoi sẽ được phân loại vào cùng loại với điểm dữ liệu
gần nhất của nó (tức là hình tam giác trong bảng bên trái - bảng A).
⮚ Nếu k = 5, thuật toán sẽ xem xét 5 điểm dữ liệu gần hình thoi nhất, đó là
3 hình tam giác và 2 hình chữ thập. Quy tắc quyết định là chọn phân loại
có số lượng lớn nhất trong 5 điểm dữ liệu được xem xét. Vì vậy, trong
trường hợp này, hình thoi cũng được xếp vào phân loại tam giác.
2.4.3. Cách hoạt động của KNN
⮚ Thuật toán KNN (với bài toán phân lớp) là như sau:
1. Nạp tập train và tập test.
2. Chọn giá trị K thích hợp
3. Với mỗi điểm một trên tập test:
3.1. Tìm khoảng cách từ điểm đó đến các điểm cịn lại trên tập train,
sắp xếp từ lớn đến bé, lưu vào danh sách
3.2. Lấy k điểm đầu tiên của danh sách, gắn nhãn chiếm ưu thế trong
k điểm cho điểm đang xét.
4. Kết thúc.
⮚ Độ đo khoảng cách:
20