Khai phá dữ liệu Dự đoán thuê phòng trọ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (808.17 KB, 28 trang )

KHOA CÔNG NGH Ệ THÔNG TIN

ĐỒ ÁN MÔN: KHAI PHÁ DỮ LIỆU

TÊN ĐỀ TÀI: BÀI TỐN DỰ ĐỐN
TH PHỊNG TRỌ

MỤC LỤC
Lời mở đầu .............................................................................................................................................. 1
Chương 1: Tổng quan ............................................................................................................................. 2
1. Giới thiệu về khai phá dữ liệu và máy học ..................................................................................... 2
1.1. Lịch sử và vai trò của data mining ........................................................................................... 2
1.2. Ưu điểm và những thách thức của data mining ....................................................................... 3
1.3. Lịch sử và vai trò của machine learning .................................................................................. 8
1.4. Ưu điểm và hạn chế của Học có giám sát và khơng giám sát .................................................. 9
2. Trình bày bài tốn: ........................................................................................................................ 11
2.1. Input ....................................................................................................................................... 11
2.2. Output .................................................................................................................................... 11
3. Phương pháp học máy được sử dụng ............................................................................................ 11
3.1. Giới thiệu: .............................................................................................................................. 11
3.2. Ưu nhược điểm của cây quyết định ....................................................................................... 12
3.3. Cơng thức tính tốn ................................................................................................................ 12
Chương 2: Thực nghiệm ....................................................................................................................... 15
1. Mơ tả tập ví dụ huấn luyện và tập test .......................................................................................... 15
2. Mô tả Chương trình demo ............................................................................................................. 16
2.1. IMPORT LIBRARIES ........................................................................................................... 16
2.2. LOAD AND PREPARE DATA ............................................................................................ 16
2.3. DECISION TREE: TRAIN MODEL .................................................................................... 17
2.4. Calculate Mean Accuracy on Training Data .......................................................................... 17
2.5. Optimize the Decision Tree ................................................................................................... 17

2.6. Plot Accuracy Against Various Parameters ........................................................................... 18
2.7. Display the Decision Tree ...................................................................................................... 18
2.8. Visualize the Confusion Matrix ............................................................................................. 18
2.9. Calculate Mean Accuracy on Testing Data ............................................................................ 19
3. Dataset .......................................................................................................................................... 19
4. Kết quả khi thực hiện thuật toán vào dataset ................................................................................ 20
Chương 3: Kết luận ............................................................................................................................... 24
Tài liệu tham khảo ................................................................................................................................ 25

Lời mở đầu
Phân lớp dữ liệu là một trong những hướng nghiên cứu chính của khai phá dữ
liệu. Cơng nghệ này đã, đang và sẽ có nhiều ứng dụng trong các lĩnh vực thương mại,
ngân hàng, y tế, giáo dục…Trong các mơ hình phân lớp đã được đề xuất, cây quyết định
được coi là công cụ mạnh, phổ biến và đặc biệt thích hợp với các ứng dụng khai phá dữ
liệu. Thuật toán phân lớp là nhân tố trung tâm trong một mơ hình phân lớp.
Để có thể hồn thành được đồ án mơn học này, nhóm chúng em đã nhận được
rất nhiều sự giúp đỡ từ nhiều phía, nhóm chúng em xin chân thành cảm ơn:
Sự giúp đỡ tận tình của thầy Vũ Ngọc Thanh Sang - đã cung cấp những kiến thức bổ
ích và chỉ dẫn nhóm em.
Cảm ơn sự đóng góp ý kiến từ các bạn cùng lớp, các bài luận văn và đồ án của
các anh chị khố trước đã giúp nhóm tham khảo.
Tuy nhiên, vẫn cịn nhiều thiếu sót hoặc sai sót mà nhóm chưa hồn thành tốt, mong cơ
và các bạn thơng cảm và bỏ qua.

1

Chương 1: Tổng quan
1. Giới thiệu về khai phá dữ liệu và máy học

1.1. Lịch sử và vai trò của data mining
Trước đây, Data mining cịn có tên gọi khác là “Khám phá tri thức trong cơ sở
dữ liệu”. Thuật ngữ “Khai thác dữ liệu” không được sử dụng cho đến những năm 1990.
Thế nhưng, nền tảng của nó vẫn bao gồm 3 ngành khoa học đan xen: thống kê, trí tuệ
nhân tạo và học máy (Machine learning).
Trong nhiều thập kỷ qua, sự phát triển của Data mining với những tiến bộ về sức
mạnh xử lý và tốc độ cho phép con người vượt ra khỏi những thực tiễn thủ cơng, tốn
thời gian để phân tích dữ liệu nhanh chóng, dễ dàng hơn. Các bộ dữ liệu được thu thập
ngày càng phức tạp và có nhiều tiềm năng để khám phá những kiến thức mới.
Các nhà bán lẻ, ngân hàng, nhà sản xuất, cung cấp viễn thông, công ty bảo
hiểm… đang sử dụng Data mining để ứng dụng vào hoạt động kinh doanh, tối ưu hóa
giá thành, khuyến mãi, nhân khẩu học, hoạt động của doanh nghiệp và mối quan hệ của
họ với khách hàng.
KPDL là quá trình khảo sát và phân tích một khối lượng lớn các dữ liệu được
lưu trữ trong các cơ sở dữ liệu, kho dữ liệu…để từ đó trích xuất ra các thơng tin quan
trọng, có giá trị tiềm ẩn bên trong. Do nhu cầu nghiệp vụ cần có cách nhìn thơng tin
trên quy mơ toàn đơn vị. Các dữ liệu này được thu từ nhiều nguồn, đa số là từ các phần
mềm nghiệp vụ như: phần mềm tài chính, kế tốn, các hệ thống quản lý tài nguyên
doanh nghiệp, các hệ thống quản lý khách hàng hay từ tác công cụ lưu trữ thông tin trên
web… Đây là những khối dữ liệu khổng lồ nhưng những thơng tin mà nó thể hiện ra thì
lộn xộn và “nghèo” đối với người dùng. Kích thước của khối dữ liệu khổng lồ đó cũng
tăng với tốc độ rất nhanh chiếm nhiều dung lượng lưu trữ. KPDL sẽ giúp trích xuất ra
các mẫu điển hình có giá trị và biến chúng thành những tri thức hữu ích. Quá trình này
gồm một số bước được thể hiện trong hình sau.

2

Ý nghĩa cụ thể của các bước như sau:
• Lựa chọn dữ liệu liên quan đến bài toán quan tâm. Hình 2-1 Các bước xây dựng

một hệ thống KPDL
• Tiền xử lý dữ liệu, làm sạch dữ liệu - Chuyển đổi dữ liệu về dạng phù hợp thuận
lợi cho việc khai phá.
• KPDL, trích xuất ra các mẫu dữ liệu (mơ hình).
• Đánh giá mẫu.
• Sử dụng tri thức khai phá được.

1.2. Ưu điểm và những thách thức của data mining
Ưu điểm của khai phá dữ liệu:
Khai phá dữ liệu là một q trình để thu thập, trích xuất, lưu trữ và phân tích dữ
liệu cho những hiểu biết cụ thể hoặc trí thơng minh hành động.
Hãy xem khai phá dữ liệu như là vấn đề khai phá khoáng sản – bạn phải đào qua
các lớp vật liệu để khám phá ra thứ gì đó có giá trị cao. Các công ty trên khắp mọi lĩnh
vực – ở mọi quy mơ, trong mọi ngành và trên tồn thế giới – dựa vào đó để thu thập
thơng tin tình báo để sử dụng mọi thứ từ các ứng dụng hỗ trợ quyết định cung cấp AI
và thuật toán học máy cho phát triển sản phẩm, chiến lược tiếp thị và mô hình tài chính.
Vấn đề cốt lõi là khai phá dữ liệu là mơ hình thống kê có thể được áp dụng cho
hồi quy tuyến tính hoặc logistic. Kết hợp với phân tích dự đốn, từ đó có thể phát hiện
ra một loạt các xu hướng, sự bất thường và các vấn đề trước đây mà các cơng ty có thể
sử dụng để kinh doanh tốt hơn.

3

Các khảo sát gần đây cho thấy rằng hơn 90% các nhà lãnh đạo CNTT và doanh
nghiệp muốn sử dụng nhiều phân tích dữ liệu hơn trong các tổ chức của họ. Họ chủ yếu
quan tâm đến việc cải thiện việc ra quyết định chiến lược, giảm thiểu rủi ro bảo mật
hoặc tính dễ bị tổn thương và tăng cường lập kế hoạch và dự báo tài nguyên.
Ở đây, cách thức khai phá dữ liệu có thể được sử dụng trong một số chức năng
kinh doanh chính:

Tài chính: Phân tích dữ liệu sâu để tạo các mơ hình rủi ro chính xác cho việc cho
vay, sáp nhập/mua lại và khám phá các hoạt động gian lận
Hoạt động CNTT: khai phá dữ liệu hỗ trợ thu thập, xử lý và phân tích khối lượng
dữ liệu ứng dụng, mạng và cơ sở hạ tầng để khám phá những hiểu biết về bảo mật hệ
thống CNTT và hiệu suất mạng.
Tiếp thị: Bề mặt trước đó ẩn các xu hướng hành vi của người mua và dự đoán
các hành vi khách hàng trong tương lai để xác định người mua chính xác hơn. Từ đó
tạo ra nhiều chiến dịch nhắm mục tiêu hơn để tăng sự tham gia và quảng bá sản phẩm
hoặc dịch vụ mới
Nhân sự: Khai phá dữ liệu từ hồ sơ của ứng viên, từ đó cung cấp cái nhìn tồn
diện về ứng viên. Xác định kết quả phù hợp nhất cho từng vai trị bằng cách sử dụng
phân tích dữ liệu để đánh giá trình độ, kinh nghiệm, kỹ năng, chứng chỉ và vị trí cơng
việc đã đảm nhiệm trước đây.
khai phá dữ liệu là một điều bắt buộc để duy trì tính cạnh tranh và đạt được lợi
thế chiến lược trong kỷ nguyên số của kinh doanh. Liên hệ với chúng tơi hơm nay để
tìm hiểu cách thức Renova Cloud có thể đơn giản hóa và hợp lý hóa tất cả các hoạt động
khai phá và phân tích dữ liệu của bạn và đáp ứng tất cả các mục tiêu kinh doanh dựa
trên dữ liệu của bạn.
Hạn chế của khai phá dữ liệu:
Mục tiêu của các kỹ thuật khai phá dữ liệu lớn là đưa ra được các thông tin yêu
cầu hoặc thậm chí phát hiện ra những mối quan hệ ẩn và các mẫu (pattern) trong hàng
loạt các tham số. Việc phân tích các dịng dữ liệu nhanh và lớn có thể đưa ra những tri
thức mới có giá trị và thậm chí là các khái niệm mang tính lý thuyết. So sánh với kết
quả thu được từ khai phá các dữ liệu thông thường, việc khai phá dữ liệu lớn trong một
lĩnh vực nào đó có tiềm năng tối đa hóa tri thức và hiểu biết của chúng ta trong lĩnh vực
đó. Tuy nhiên, theo các nhà phân tích của Gartner thì các đặc điểm nổi trội của dữ liệu
lớn là 3 chữ V (Volume - kích thước, Velocity - sự biến đổi, và Variety - đa dạng) (hoặc
gọi tắt là V3). Do đó, khai phá dữ liệu lớn phải đối mặt với tính khơng đồng nhất, kích
thước lớn, tốc độ, bảo mật, chính xác, tin cậy.
Sự đa dạng và không đồng nhất

Các kỹ thuật khai phá dữ liệu trước đây được sử dụng để khai phá các mẫu chưa
biết và các mối quan hệ các tập dữ liệu nhỏ, có cấu trúc, đồng nhất. Sự đa dạng là một
-

4

trong những đặc điểm quan trọng của dữ liệu lớn. Đây là kết quả sự tổng hợp của gần
như không giới hạn các nguồn dữ liệu, hệ quả tất yếu của hiện tượng này là sự không
đồng nhất của dữ liệu. Dữ liệu lớn đến từ rất nhiều nguồn khác nhau từ các mạng xã
hội, website, trường đại học, các bài báo, hội thảo đến các công ty, doanh nghiệp cùng
với mối quan hệ xã hội phức tạp giữa chúng. Việc khai phá những dữ liệu lớn như vậy
là một thách thức lớn đến mức khó có thể dự đốn được bởi lẽ việc xử lý những nguồn
dữ liệu gồm cả có cấu trúc, bán cấu trúc và phi cấu trúc này là vấn đề cực kì phức tạp.
Các hệ thống cơ sở dữ liệu ngày nay có thể phù hợp tốt với cấu trúc dữ liệu có cấu trúc
hoặc phù hợp một phần với dữ liệu bán cấu trúc nhưng chắc chắn là không phù hợp với
dữ liệu phi cấu trúc. Tuy nhiên, tính khơng đồng nhất của dữ liệu cũng đem lại những
cơ hội khám phá những tri thức mới trong các nguồn dữ liệu lớn này.
Xét một ví dụ kinh điển trong khai phá dữ liệu: xem xét mối quan hệ giữa các
mặt hàng trong một cửa hàng tạp hoá. Các bản ghi trong tập dữ liệu lưu trữ đều thuộc
cùng kiểu dữ liệu (các mặt hàng). Cụ thể là mối liên hệ chặt chẽ giữa "bia và bỉm“ hay
"sữa“ là sản phẩm phổ biến do được mua bởi hầu hết khách hàng cho thấy mối liên hệ
mạnh mẽ giữa "sữa“ và các sản phẩm khác. Trái ngược với đó, khai phá dữ liệu lớn phải
đối mặt với các dữ liệu bán cấu trúc và không đồng nhất. Mở rộng ví dụ đơn giản trên
cho một trang bán hàng trực tuyến như eBay. Các dữ liệu gồm ít nhất 3 kiểu đối tượng
khác nhau: mặt hàng, người mua, người bán. Các mối quan hệ có thể tồn tại như: giữa
các mặt hàng là quan hệ "mua cùng với“, giữa người bán và mặt hàng là quan hệ "bán“
và "bán bởi“, giữa mua và mặt hàng là quan hệ "mua“ và "mua bởi“, giữa người mua
và người bán là quan hệ "mua từ“ và "bán cho“. Rõ ràng, mạng dữ liệu này có các kiểu
đối tượng và quan hệ khác nhau và các kĩ thuật khai phá dữ liệu hiện tại sẽ không thể

phát hiện hết các mối quan hệ tiềm ẩn và nội tại trong mạng dữ liệu này.
Thực tế cho thấy việc xây dựng một mô hình đơn để khai phá dữ liệu khơng đồng
nhất có thể dẫn đến kết quả khai phá không chấp nhận được. Do vậy, cần thiết phải xây
dựng các hệ thống phức tạp, đa mơ hình. Vucetic [5] đã giới thiệu một thuật toán khá
thú vị để xử lý các dữ liệu khơng đồng nhất. Theo đó, tác giả sử dụng kĩ thuật phân
hoạch tập dữ liệu ban đầu thành các tập con đồng nhất và áp dụng một mơ hình chuyên
biệt cho mỗi tập con đồng nhất đó. Kỹ thuật phân hoạch sẽ giúp đẩy nhanh quá trình
khám phá tri thức từ dữ liệu lớn không đồng nhất thế nhưng có thể làm bỏ sót các tri
thức tiềm năng một khi việc phân hoạch làm phá vỡ các mối quan hệ quan trọng trong
dữ liệu.
Tương tự như khai phá dữ liệu, quá trình khai phá dữ liệu lớn bắt đầu với việc
lựa chọn dữ liệu (từ nhiều nguồn), lọc dữ liệu, làm sạch, giảm, và chuyển đổi. Tại mỗi
bước tiền xử lý luôn tồn tại những thách thức. Với lọc dữ liệu, làm sao ta có thể đảm
bảo rằng các dữ liệu bị loại bỏ sẽ không làm suy giảm nghiêm trọng chất lượng của các
kết quả cuối cùng được khai phá do sự phức tạp của tính khơng đồng nhất của dữ liệu
lớn? Các vấn đề tương tự cũng nảy sinh với các bước tiền xử lý khác và các hoạt động
của quá trình khai phá dữ liệu.
5

Quy mô dữ liệu
Dung lượng và quy mô lớn chưa từng có của dữ liệu lớn địi hỏi các cơng cụ
quản lý và khai phá dữ liệu phải được cải tiến tương ứng. Điểm quan trọng là với quy
mô cực lớn thì ta có nhiều cơ hội để khám phá nhiều tri thức hơn trong dữ liệu thông
thường (quy mô nhỏ). Những hướng tiếp cận dưới đây nếu được áp dụng hợp lý sẽ đem
lại hiệu quả trong khai phá dữ liệu lớn: (1) điện toán đám mây kết hợp với tính tốn
song song; (2) tương tác người dùng (đồ hoạ - GUI hoặc dựa trên ngôn ngữ) - giúp việc
tương tác giữa người dùng và hệ thống trở nên nhanh chóng và hiệu quả.
-

Tốc độ/tính chuyển động liên tục
Đối với dữ liệu lớn, tốc độ/chuyển động liên tục thực sự quan trọng. Khả năng
truy nhập nhanh và khai phá dữ liệu lớn không chỉ là mong muốn chủ quan mà là một
nhiệm vụ xử lý đặc biệt đối với các dòng dữ liệu (data stream) (một định dạng phổ biến
của dữ liệu lớn) - chúng ta phải hoàn thành việc xử lý/khai phá dịng dữ liệu đó trong
một thời gian nhất định, bởi nếu khơng thì kết quả xử lý/ khai phá đó trở nên ít có giá
trị hoặc thậm chí là vơ giá trị. Chẳng hạn, ứng dụng địi hỏi chạy theo thời gian thực
như dự đốn động đất, dự đoán thị trường chứng khoán, thị trường ngoại hối…
Tốc độ khai phá dữ liệu phụ thuộc vào hai yếu tố chính: (1) thời gian truy cập dữ
liệu (được xác định chủ yếu bởi hệ thống lưu trữ dữ liệu); (2) hiệu quả của các thuật
toán khai phá dữ liệu. Việc khai thác các chương trình lập chỉ mục tiên tiến là chìa khóa
giải quyết vấn đề tốc độ. Cấu trúc chỉ số đa chiều đặc biệt hữu ích cho dữ liệu lớn. Ví
dụ, sự kết hợp của R-Tree và KD-tree và gần đây là FastBit [2] (được phát triển bởi
nhóm nghiên cứu ở LBNL) được sử dụng cho dữ liệu lớn. Bên cạnh đó, mặc dù các nhà
nghiên cứu vẫn mong muốn thiết kế các chương trình lập chỉ mục mới, hiệu quả nhưng
vấn đề này vẫn là một trong những thách thức lớn nhất đối với cộng đồng nghiên cứu.
-

Tính chính xác và tin cậy
Trước đây, các hệ thống khai phá dữ liệu thường sử dụng những dữ liệu từ những
nguồn tin cậy và khá hạn chế, do vậy, kết quả khai phá thường có độ chính xác cao. Tuy
nhiên, đối với dữ liệu lớn, dữ liệu có thể đến từ nhiều nguồn khác nhau, có thể từ nguồn
khơng tin cậy và khơng thể kiểm chứng. Vì vậy, độ chính xác và tin cậy của các nguồn
dữ liệu mà kéo theo là kết quả khai phá là một vấn đề cần xem xét. Để giải quyết vấn
đề này (ít nhất là một phần) thì việc xác thực dữ liệu và xác minh nguồn gốc dữ liệu là
một bước quan trọng trong tồn bộ q trình khai phá tri thức.
Dữ liệu lớn có tính động (dynamic) cao, do đó, hệ thống phân tích và quản lý dữ
liệu lớn cũng phải cho phép các dữ liệu được quản lý trong đó được thay đổi và phát
triển. Vì vậy, "dữ liệu gốc“ (data provenance) là thành phần không thể thiếu của bất kỳ
hệ thống xử lý dữ liệu lớn nào. Dữ liệu gốc liên quan đến lịch sử phát triển, tiến hố

hoặc nguồn gốc mà dữ liệu được trích xuất hay thu thập. Khi dữ liệu phát triển, các độ
đo sự tin cậy cần được thay đổi hoặc cập nhật, do đó, các độ đo này khơng nên thiết lập
-

6

cố định. Các nghiên cứu đã chỉ ra rằng, phương pháp học bán giám sát (semi-supervised)
với dữ liệu thực có thể cung cấp độ chính xác và độ tin cậy cao hơn đối với các nguồn
dữ liệu khác. Các phương pháp xử lý dữ liệu lớn có thể chạy trên các nền tảng song
song (nền tảng đám mây - PaaS và IaaS) với khả năng mở rộng trên nhiều nguồn dữ
liệu.
Nguồn gốc của dữ liệu góp phần trực tiếp vào độ chính xác và tin cậy của kết
quả khai phá dữ liệu. Tuy nhiên, thông tin về nguồn gốc dữ liệu khơng phải lúc nào
cũng có sẵn hoặc được ghi chép. Việc khai phá dữ liệu có thể được sử dụng để phát hiện
và xác minh nguồn gốc của dữ liệu. World Wide Web - được xem là nguồn dữ liệu lớn
nhất và là cơ sở tri thức mang đầy đủ thông tin cần thiết để đưa ra câu trả lời tốt nhất
cho nhiều câu hỏi hóc búa, thế nhưng kích thước của kho lưu trữ dữ liệu lớn nhất này
vẫn tiếp tục tăng với tốc độ chưa từng có. Cơng nghệ khai phá dữ liệu lớn sẽ sớm có thể
trả lời nhiều câu hỏi lớn của nhân loại mặc dù khai phá tồn bộ World Wide Web địi
hỏi sự vượt trội về trí tuệ của con người.
Bảo mật
Dữ liệu riêng tư luôn là vấn đề cần xem xét trong khai phá dữ liệu. Vấn đề này
còn nghiêm trọng hơn khi các ứng dụng khai phá dữ liệu lớn thường địi hỏi các thơng
tin cá nhân để tạo ra các kết quả có liên quan đến từng cá nhân như các dịch vụ dựa trên
địa điểm (chẳng hạn quảng cáo). Hơn nữa, trong các dữ liệu có được từ các phương tiện
truyền thông hay mạng xã hội, các thông tin cá nhân của nhiều người thường có liên
quan đến nhau và dễ dàng bị "đào xới“ bởi các ứng dụng khai phá dữ liệu. Một ví dụ
đơn giản, các giao dịch trong cuộc sống hàng ngày của chúng ta đang được đưa lên
mạng và được lưu vết ở đó: email, tin nhắn, blog, Facebook, mua sắm, thanh toán hoá

đơn trực tuyến, số điện thoại, địa chỉ nhà, ngày sinh…
Hiện nay, nhiều thơng tin bí mật của chúng ta được bảo vệ (với một mức độ nhất
định), chẳng hạn công ty thẻ tín dụng nắm giữ bí mật về thơng tin nhận dạng của chủ
thẻ. Theo thời gian, các thông tin cá nhân của mỗi người sẽ nằm rải rác ở đâu đó trên
mạng. Tuy nhiên, điều đó khơng có nghĩa là nó khơng bị "đào xới“ lên vào một ngày
nào đó trong tương lai. Tất cả chỉ là vấn đề thời gian. Mọi người sẽ dễ dàng có được
đặc quyền sử dụng các công cụ mạnh mẽ như vậy (qua SaaS trên đám mây). Nếu khơng
có bất kỳ lá chắn bảo vệ nào cho sự riêng tư của bạn, một kẻ xấu có thể mở một tài
khoản thẻ tín dụng mới bằng tên của bạn và dễ dàng lấy đi tiền của bạn tại ngân hàng.
Tất cả mọi thứ dường như trở thành có thể! Rõ ràng, chúng ta cần có những chính sách
đúng đắn và phương pháp tiếp cận để quản lý việc chia sẻ dữ liệu cá nhân, trong khi
vẫn tạo điều kiện cho các hoạt động khai phá dữ liệu hợp pháp.
-

Sự tương tác
Sự tương tác là khả năng hoặc tính năng của một hệ thống khai phá dữ liệu cho
phép người dùng tương tác một cách nhanh chóng và đầy đủ (phản hồi/can thiệp/hướng
-

7

dẫn từ người dùng). Sự tương tác trở thành một vấn đề quan trọng trong khai phá dữ
liệu lớn. Nó liên quan đến cả ba chữ V. Sử dụng thông tin phản hồi/hướng dẫn có thể
giúp thu hẹp khối lượng dữ liệu, đẩy nhanh tốc độ xử lý, tăng khả năng mở rộng của hệ
thống. Hệ thống tương tác cho phép người dùng có khả năng hình dung, đánh giá (tiền
đánh giá) và giải thích kết quả khai phá trung gian và cuối cùng.
1.3. Lịch sử và vai trò của machine learning
Trường hợp đầu tiên của mạng nơ-ron là vào năm 1943, khi nhà sinh lý học thần
kinh Warren McCulloch và nhà toán học Walter Pitts viết một bài báo về các nơron và

cách chúng hoạt động. Họ quyết định tạo ra một mơ hình này bằng cách sử dụng một
mạch điện, và do đó mạng nơ-ron ra đời.
Năm 1950 Alan Turing đã tạo ra Bài kiểm tra Turing nổi tiếng thế giới. Bài kiểm
tra này khá đơn giản - để một máy tính vượt qua, nó phải thuyết phục được con người
rằng đó là con người chứ khơng phải máy tính.
Năm 1952 chứng kiến chương trình máy tính đầu tiên có thể học khi nó chạy.
Đó là một trị chơi chơi cờ, được tạo ra bởi Arthur Samuel.
Frank Rosenblatt đã thiết kế mạng nơ-ron nhân tạo đầu tiên vào năm 1958, được
gọi là Perceptron. Mục tiêu chính của việc này là nhận dạng mẫu và hình dạng.
Một trường hợp cực kỳ sớm khác của mạng nơ-ron là vào năm 1959, khi Bernard
Widrow và Marcian Hoff tạo ra hai mô hình của chúng tại Đại học Stanford. Đầu tiên
được gọi là ADELINE, và nó có thể phát hiện các mẫu nhị phân. Thế hệ tiếp theo được
gọi là MADELINE, và nó có thể loại bỏ tiếng vọng trên đường dây điện thoại, vì vậy
đã có một ứng dụng hữu ích trong thế giới thực.
● Những năm 1980 và 1990:
Năm 1982 là năm mà mối quan tâm đến mạng nơ-ron bắt đầu tăng trở lại, khi
John Hopfield đề xuất tạo ra một mạng lưới có các đường hai chiều, tương tự như cách
các nơron thực sự hoạt động. Hơn nữa, vào năm 1982, Nhật Bản tuyên bố họ đang tập
trung vào các mạng nơ-ron tiên tiến hơn, nhằm khuyến khích sự tài trợ của Mỹ vào khu
vực này và do đó đã tạo ra nhiều nghiên cứu hơn trong lĩnh vực này.
Mạng nơron sử dụng sự lan truyền ngược (được giải thích chi tiết trong phần
Giới thiệu về Mạng thần kinh) và bước quan trọng này đến vào năm 1986, khi ba nhà
nghiên cứu từ khoa tâm lý học Stanford quyết định mở rộng một thuật toán do Widrow
và Hoff tạo ra vào năm 1962. Do đó, điều này cho phép nhiều các lớp được sử dụng
trong mạng nơ-ron, tạo ra cái được gọi là 'người học chậm', sẽ học trong một thời gian
dài.
Cuối những năm 1980 và 1990 đã không mang lại nhiều điều cho lĩnh vực này.
Tuy nhiên vào năm 1997, máy tính Deep Blue của IBM, một máy tính chơi cờ vua, đã
đánh bại nhà vơ địch cờ vua thế giới. Kể từ đó, đã có nhiều tiến bộ hơn trong lĩnh vực
này, chẳng hạn như vào năm 1998, khi nghiên cứu tại Phịng thí nghiệm AT&T Bell về

nhận dạng chữ số cho kết quả chính xác tốt trong việc phát hiện mã bưu điện viết tay từ
8

Bưu điện Hoa Kỳ. Sự lan truyền ngược được sử dụng này, như đã nêu ở trên, được giải
thích chi tiết trong phần Giới thiệu về Mạng thần kinh.
● Thế kỷ 21:
Kể từ đầu thế kỷ 21, nhiều doanh nghiệp đã nhận ra rằng học máy sẽ làm tăng
tiềm năng tính tốn. Đây là lý do tại sao họ đang nghiên cứu nhiều hơn về nó, để đi
trước đối thủ.
Một số dự án lớn bao gồm:
➢ Google Brain (2012) - Đây là một mạng thần kinh sâu do Jeff Dean của
Google tạo ra, tập trung vào việc phát hiện mẫu trong hình ảnh và video.
Nó có thể sử dụng các tài ngun của Google, điều này khiến nó khơng
thể so sánh được với các mạng nơ-ron nhỏ hơn nhiều. Sau đó, nó được sử
dụng để phát hiện các đối tượng trong video YouTube.
➢ AlexNet (2012) - AlexNet đã giành chiến thắng trong cuộc thi ImageNet
với tỷ suất lợi nhuận lớn vào năm 2012, dẫn đến việc sử dụng GPU và
Mạng thần kinh hợp pháp trong học máy. Họ cũng tạo ra ReLU, đây là
một chức năng kích hoạt giúp cải thiện đáng kể hiệu quả của CNN.
Có hai cách phổ biến phân nhóm các thuật tốn Machine learning. Một là dựa
trên phương thức học (learning style), hai là dựa trên chức năng (function).
Theo phương thức học, các thuật toán Machine Learning thường được chia làm
4 nhóm: Supervised learning, Unsupervised learning, Semi-supervised learning và
Reinforcement learning.Ở đây nhóm em chỉ đề cập tới Supervised Learning và
Unsupervised Learning.
1.4. Ưu điểm và hạn chế của Học có giám sát và khơng giám sát
1.4.1. Supervised Learning (Học có giám sát)
Supervised learning là thuật tốn dự đoán đầu ra (outcome) của một dữ liệu mới
(new input) dựa trên các cặp (input, outcome) đã biết từ trước. Cặp dữ liệu này còn được

gọi là (data, label), tức (dữ liệu, nhãn). Supervised learning là nhóm phổ biến nhất trong
các thuật toán Machine Learning.
Một cách toán học, Supervised learning là khi chúng ra có một tập hợp biến đầu
vào X={x_1,x_2,…,x_n } và một tập hợp nhãn tương ứng Y={y_1,y_2,…,y_n }, trong
đó x_i, y_i là các vector.Các cặp dữ liệu biết trước (x_i, y_i) ∈X ×Y được gọi là tập
training data (dữ liệu huấn luyện). Từ tập training data này, chúng ta cần tạo ra một hàm
số ánh xạ mỗi phần tử từ tập X sang một phần tử (xấp xỉ) tương ứng của tập Y:
y_i≈f(x_i ), ∀i=1,2,…,N
Mục đích là xấp xỉ hàm số f, thật tốt để khi có một dữ liệu x mới, chúng ta có
thể tính được nhãn tương ứng của nó y=f(x).
➔ Ưu điểm:

9

Giúp tối ưu hóa các tiêu chí hiệu suất và giải quyết các loại vấn đề
tính tốn bằng cách sử dụng kinh nghiệm.
◆ Tính rõ ràng của dữ liệu (làm việc trên dữ liệu được gắn nhãn và do
đó dễ phân loại và dễ đào tạo).
➔ Nhược điểm:
◆ Phân loại dữ liệu lớn có thể là một thách thức.
◆ Đào tạo cho việc học có giám sát cần rất nhiều thời gian tính tốn, vì
vậy, nó địi hỏi rất nhiều thời gian.
◆ Dữ liệu khơng mong muốn có thể làm giảm độ chính xác
Thuật tốn supervised learning được chia ra thành hai loại chính: Classification
(Phân loại) và Regression (Hồi quy).
◆

1.4.2. Unsupervised Learning (Học khơng giám sát)
Trong thuật tốn này, chúng ta khơng biết được outcome hay nhãn mà chỉ có dữ

liệu đầu vào. Thuật toán unsupervised learning sẽ dựa vào cấu trúc của dữ liệu để thực
hiện một công việc nào đó, ví dụ như phân nhóm (clustering) hoặc giảm số chiều của
dữ liệu (dimension reduction) để thuận tiện trong việc lưu trữ và tính tốn.
Một cách tốn học, Unsupervised learning là khi chúng ta chỉ có dữ liệu vào X
mà khơng biết nhãn Y tương ứng.
Các bài tốn Unsupervised learning được chia thành hai loại: Clustering (phân nhóm)
và Association.
● Ưu điểm:
Mơ hình học máy khơng giám sát tìm thấy tất cả các loại mẫu chưa biết
trong dữ liệu . Do đó, nó có thể giúp bạn phát hiện các tính năng có thể hữu ích
trong việc phân loại dữ liệu.
Hơn nữa, trong mơ hình học tập khơng giám sát, không cần phải gắn nhãn
các đầu vào dữ liệu. Và dữ liệu khơng có nhãn, nhìn chung, dễ lấy hơn, vì nó có
thể được lấy trực tiếp từ máy tính mà không cần thêm sự can thiệp của con người.
Điều này làm cho việc học khơng có giám sát trở thành một mơ hình ít phức tạp
hơn so với các kỹ thuật học có giám sát.
● Nhược điểm :
Học khơng giám sát về bản chất khó hơn học có giám sát vì nó khơng có
đầu ra tương ứng.
Kết quả của thuật tốn học tập khơng được giám sát có thể kém chính xác
hơn vì dữ liệu đầu vào khơng được gắn nhãn và các thuật tốn khơng biết trước
kết quả đầu ra chính xác.

10

2. Trình bày bài tốn:
2.1. Input
Bài tốn được dựa trên thông tin thực tế đã qua khảo sát, gồm 7 tập biến đầu vào sau:
Khoảng cách (km)

Diện tích (m2)
Nhà để xe (có/ khơng)
Nhà vệ sinh riêng (có/ khơng)
Gần bệnh viện (có/ khơng)
Gần chợ (có/ khơng)
Giá th (triệu)
2.2. Output
Có nên th phịng trọ sau khi đã dựa theo và phân tích những số liệu, yếu tố đã
nêu ra hay không (gồm 2 giá trị: có và khơng)

3. Phương pháp học máy được sử dụng
3.1. Giới thiệu:
Trong lĩnh vực máy học, cây quyết định là một kiểu mơ hình dự báo (predictive
model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận
về giá trị mục tiêu của sự vật/hiện tượng.
Decision tree là một mô hình supervised learning, có thể được áp dụng vào cả
hai bài toán classification và regression. Việc xây dựng một decision tree trên dữ liệu
huấn luyện cho trước là việc đi xác định các câu hỏi và thứ tự của chúng.
Ý tưởng :
● Chúng ta cần xác định thứ tự của thuộc tính cần được xem xét tại mỗi bước.
● Tại mỗi bước, một thuộc tính tốt nhất sẽ được chọn ra dựa trên một tiêu chuẩn
nào đó.
● Với mỗi thuộc tính được chọn, ta chia dữ liệu vào các child node tương ứng với
các giá trị của thuộc tính đó rồi tiếp tục áp dụng phương pháp này cho mỗi child
node.
● Việc chọn ra thuộc tính tốt nhất ở mỗi bước như thế này được gọi là cách chọn
greedy (tham lam). Cách chọn này có thể khơng phải là tối ưu, nhưng trực giác
cho chúng ta thấy rằng cách làm này sẽ gần với cách làm tối ưu.
Mỗi một nút trong (internal node) tương ứng với một biến. Có 3 loại nút:
● Nút gốc

● Nút nội bộ: mang tên thuộc tính của CSDL

11

● Nút lá: mang tên lớp C. Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu,
cho trước các giá trị của các biến được biểu diễn bởi đường đi từ nút gốc tới nút
lá đó.
Các nhánh: là đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến
đó.
Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết
định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định.
3.2. Ưu nhược điểm của cây quyết định
So với các phương pháp khai phá dữ liệu khác, cây quyết định là phương pháp
có một số ưu điểm:
● Cây quyết định dễ hiểu. Người ta có thể hiểu mơ hình cây quyết định sau khi
được giải thích ngắn.
● Việc chuẩn bị dữ liệu cho một cây quyết định là cơ bản hoặc không cần thiết.
Các kỹ thuật khác thường địi hỏi chuẩn hóa dữ liệu, cần tạo các biến phụ
(dummy variable) và loại bỏ các giá trị rỗng.
● Cây quyết định có thể xử lý cả dữ liệu có giá trị bằng số và dữ liệu có giá trị là
tên thể loại. Các kỹ thuật khác thường chuyên để phân tích các bộ dữ liệu chỉ
gồm một loại biến. Chẳng hạn, các luật quan hệ chỉ có thể dùng cho các biến tên,
trong khi mạng nơ-ron chỉ có thể dùng cho các biến có giá trị bằng số.
● Cây quyết định là một mơ hình hộp trắng. Nếu có thể quan sát một tình huống
cho trước trong một mơ hình, thì có thể dễ dàng giải thích điều kiện đó bằng
logic Boolean. Mạng nơ-ron là một ví dụ về mơ hình hộp đen, do lời giải thích
cho kết quả q phức tạp để có thể hiểu được.
● Có thể thẩm định một mơ hình bằng các kiểm tra thống kê. Điều này làm cho ta
có thể tin tưởng vào mơ hình.

● Cây quyết định có thể xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn. Có
thể dùng máy tính cá nhân để phân tích các lượng dữ liệu lớn trong một thời gian
đủ ngắn để cho phép các nhà chiến lược đưa ra quyết định dựa trên phân tích của
cây quyết định.
Nhược điểm của cây quyết định - khó giải quyết được những vấn đề có dữ liệu
phụ thuộc thời gian liên tục - dễ xảy ra lỗi khi có quá nhiều lớp chi phí tính tốn để xây
dựng mơ hình cây quyết định CAO
3.3. Cơng thức tính tốn
Cây quyết định được học (xây dựng) từ dữ liệu huấn luyện. Với mỗi bộ dữ liệu
có thể xây dựng nhiều cây quyết định. Quá trình học là quá trình tìm kiếm cây quyết
định phù hợp với dữ liệu huấn luyện.

12

3.3.1. Thuật toán
C4.5 là thuật toán dùng để xây dựng cây quyết định được đề xuất bởi Quinlan
[7] năm 1993 , là mở rộng của ID3. Đặc điểm của C4.5:
● Cho phép dữ liệu đầu vào ở các thuộc tính là liên tục
● Cho phép thao tác với các thuộc tính có dữ liệu khơng xác định (do bị mất mát
dữ liệu)
● Đưa ra phương pháp cắt tỉa cây và giản lược các luật để phù hợp với những bộ
dữ liệu lớn
● C4.5 sử dụng cơ chế lưu trữ dữ liệu thường trú trong bộ nhớ, chính đặc điểm này
làm C4.5 thích hợp với những cơ sở dữ liệu nhỏ, và cơ chế sắp xếp lại dữ liệu tại
mỗi nút trong q trình phát triển cây quyết định.
● C4.5 cịn chứa kỹ thuật cho phép biểu diễn lại cây quyết định dưới dạng một
danh sách sắp thứ tự các luật if-then (một dạng quy tắc phân lớp dễ hiểu). Kỹ
thuật này cho phép làm giảm bớt kích thước tập luật và đơn giản hóa các luật mà
độ chính xác so với nhanh tương ứng cây quyết định là tương đương.

C4.5 có cơ chế sinh cây quyết định hiệu quả và chặt chẽ bằng việc sử dụng độ
đo lựa chọn thuộc tính tốt nhất là Information Gain. Các cơ chế xử lý với giá trị lỗi,
thiếu và tránh quá phù hợp của dữ liệu của C4.5 cùng với cơ chế cắt tỉa cây đã tạo nên
sức mạnh của C4.5. Thêm vào đó, mơ hình phân lớp C4.5 cịn có phần chuyển đổi từ
cây quyết định sang luật dạng if-then, làm tăng độ chính xác và tính dễ hiểu của kết quả
phân lớp. Đây là tiện ích rất có ý nghĩa đối với người sử dụng.
Độ đo GainRatio được sử dụng trong thuật toán C4.5 là cải tiến của thuật toán
ID3 và được xây dựng bởi Quinlan là thước đo cải tiến của chỉ số Information Gain.

Tiêu chuẩn đánh giá thuộc tính GainRatio được xác định bằng cách chia độ tăng
thông tin cho thơng tin chia (khi SI(S,A)=0 thì cần có phương án xử lý riêng)

● Khởi đầu: nút hiện thời là nút gốc chứa toàn bộ tập dữ liệu huấn luyện
● Tại nút hiện thời n, lựa chọn thuộc tính:
○ Chưa được sử dụng ở nút tổ tiên.
○ Cho phép phân chia tập dữ liệu hiện thời thành các tập con một cách tốt
nhất.
13

○ Với mỗi giá trị thuộc tính được chọn thêm một nút con bên dưới.
○ Chia các ví dụ ở nút hiện thời về các nút con theo giá trị thuộc tính được
chọn.
● Lặp (đệ quy) cho tới khi:
○ Tất cả các thuộc tỉnh đã được sử dụng ở các nút phía trên, hoặc
○ Tất cả ví dụ tại nút hiện thời có cùng nhãn phần loại.
○ Nhãn của nút được lấy theo đa số nhãn của ví dụ tại nút hiện thời.
3.3.2. Tiêu chuẩn chọn thuộc tính của ID3
● Tại mỗi nút n
○ Tập (con) dữ liệu ứng với nút đó.

○ Cần lựa chọn thuộc tính cho phép phân chia tập dữ liệu tốt nhất.
● Tiêu chuẩn:
○ Dữ liệu sau khi phân chia càng đồng nhất càng tốt
○ Đo bằng độ tăng thông tin (Information Gain - IG)
○ Chọn thuộc tính có độ tăng thơng tin lớn nhất
○ IG dựa trên entropy của tập (con) dữ liệu Entropy
● Trường hợp tập dữ liệu s có 2 loại nhãn: đúng (+) hoặc sai (-)
Entropy(S) = - p+ log2 p+ -p_log2p_
Với:
p+: % số mẫu đúng
p_: % số mẫu sai
● Trường hợp tổng quát: có C loại nhãn
Entropy(S) = ∑ci=1 -pilog2pi
Với: pi: % ví dụ của S thuộc loại i
3.3.3. Độ tăng thơng tin IG
Với tập (con) mẫu S và thuộc tính A
IG(S,A)= Entropy(S) - ∑_(V∈values(A)).|S៴ | / |S|.Entropy(S៴)
Trong đó:
★ value(A): tập các giá trị của A
★

Sv là tập con của S bao gồm các mẫu có giá trị của A bằng v

★

|S| số phần từ của S

3.3.4. Các đặc điểm của ID3
● ID3 là thuật tốn tìm kiếm cây quyết định phù hợp với dữ liệu huấn luyện
● Tìm kiếm theo kiểu tham lam, bắt đầu từ cây rỗng

● Hàm đánh giá là độ tăng thơng tin
● ID3 có khuynh hướng (bias) lựa chọn cây đơn giản
○ Ít nút
○ Các thuộc tính có độ tăng thơng tin lớn nằm gần gốc
14

3.3.5. Training error và test error
● Training error (lỗi huấn luyện)
○ Là lỗi đo được trên tập dữ liệu huấn luyện
○ Thường đo bằng sự sai khác giữa giá trị tính tốn của mơ hình và giá trị
thực của dữ liệu huấn luyện
○ Trong quá trình học ta cố gắng làm giảm tới mức tối thiểu lỗi huấn luyện
● Test error (lỗi kiểm tra)
○ Là lỗi đo được trên tập dữ liệu kiểm tra
○ Là cái ta thực sự quan tâm
3.3.6. Chống quá vừa dữ liệu bằng cắt tỉa cây (Overfitting)
● Chia dữ liệu thành hai phần:
○ Huấn luyện
○ Kiểm tra
● Tạo cây đủ lớn trên dữ liệu huấn luyện
● Tính độ chính xác của cây trên tập kiểm tra
● Loại bỏ cây con sao cho kết quả trên dữ liệu kiểm tra được cải thiện nhất
● Lặp lại cho đến khi khơng cịn cải thiện được kết quả nữa

Chương 2: Thực nghiệm
1. Mơ tả tập ví dụ huấn luyện và tập test
- Mô tả tập huấn luyện: các yếu tố liên quan đến việc thuê nhà trọ
- Tập huấn luyện có 149 mẫu với 8 thuộc tính:
● Khoảng cách (km)

● Diện tích (m2)
● Nhà để xe (có/ khơng)
● Nhà vệ sinh riêng (có/ khơng)
● Gần bệnh viện (có/ khơng)
● Gần chợ (có/ khơng)
● Giá th (triệu)
● Th (có/ khơng)
- Tập test có 99 mẫu có 8 thuộc tính:
● Khoảng cách (km)
● Diện tích (m2)
● Nhà để xe(có/ khơng)
● Nhà vệ sinh riêng (có/ khơng)
● Gần bệnh viện (có/ khơng)
● Gần chợ (có/ khơng)
● Giá th (triệu)
15

● Th (có/ khơng)
- Số cột của X vào là 7

2. Mơ tả Chương trình demo
Đoạn code là file DecisionTrees.ipynb được gửi theo bài cáo cáo và được chạy trên
Colab Google
2.1. IMPORT LIBRARIES

Chạy các thư viện trong python

2.2. LOAD AND PREPARE DATA

Nhập dữ liệu vào với 2 file csv, gồm tree_trn.csv là file dữ liệu để training và file
tree_tst.csv là file dữ liệu test cho cây quyết định

16

2.3. DECISION TREE: TRAIN MODEL

Một phương pháp đơn giản để tìm hiểu cây quyết định là tạo một đối tượng
DecisionTreeClassifier và phù hợp với dữ liệu huấn luyện (training). Đối tượng có
một phương thức score() trả về độ chính xác của mơ hình trên dữ liệu đã cho

2.4. Calculate Mean Accuracy on Training Data

2.5. Optimize the Decision Tree

17

2.6. Plot Accuracy Against Various Parameters

2.7. Display the Decision Tree

2.8. Visualize the Confusion Matrix

18

2.9. Calculate Mean Accuracy on Testing Data

3. Dataset
Bao gồm các thuộc tính:
Khoảng cách (km)
Diện tích (m2)
Chỗ để xe (có / khơng)
Nhà vệ sinh riêng (có / khơng)
Gần bệnh viện (có / khơng)
Gần chợ (có / khơng)
Giá th (triệu VNĐ)
Th (có / khơng)

Vài dịng dữ liệu trong file tree_trn.csv

19

4. Kết quả khi thực hiện thuật toán vào dataset
Dữ liệu huấn luyện
Tải dữ liệu huấn luyện từ tệp CSV trong file được đính kèm (tree_trn.csv).
Tách ma trận dự liệu khỏi biến lớp. Hiển thị ra bảng quyết định thuê từ 2 giá trị (1 là
“thuê” và 0 là “không thuê”) từ nhứng số liệu là yếu tố quyết định

Vài dòng đâu tiên trong dữ liệu huấn luyện (file tree_trn.csv)
Để thuật toán xây dựng được cây quyết định hiệu quả, đáng tin cậy, trước tiên
phải lượng hóa dữ liệu nhằm có được tập dữ liệu huấn luyện. Tập dữ liệu huấn luyện
có tầm quan trọng rất lớn, nếu nó chính xác, bao quát hầu hết các trường hợp xảy ra
trong thực tế thì tập luật rút ra từ cây quyết định sẽ chính xác và đưa ra kết quả có độ
tin cậy lớn. Minh họa việc ứng dụng hệ hỗ trợ ra quyết định trong việc phân loại thuê
trọ, tiến hành thử nghiệm với bộ dữ liệu Tap_Test.csv. Tập dữ liệu kết xuất từ chương
trình lưu trữ của Dataset. Với mỗi dữ liệu có rất nhiều thơng tin ảnh hưởng đến kết

quả được xét duyệt. Tuy nhiên ta chỉ cần quan tâm chú trọng phân tích những yếu tố
chính liên quan tới việc thuê. Những thuộc tính chủ yếu gồm: Khoảng cách, diện tích,
thơng thống, internet, gần trường học, gần siêu thị, gác, giá thuê. Từ các thuộc tính
chủ yếu đó để kết luận được có th hay khơng.
Tính độ chính xác trung bình trên dữ liệu đào tạo

Dựa vào hình trên, ta có thể thấy dữ liệu đào tạo có độ chính xác khá

20

Biểu đồ độ chính xác với các thơng số khác nhau

-

Biểu đồ thể hiện độ chính xác dựa trên các gá trị khác nhau của
max_leaf_nodes.
Các độ đo gini (màu cam) và entropy (màu xanh) được vẽ riêng biệt.
Độ chính xác của đối lập tham số dựa trên các thông số khác nhau trong khai
thác dữ liệu

21

Cây quyết định
Sử dụng plot_tree() để hiện thị cây quyết định. Hai nhãn lớp có hai sắc thái khác nhau để
phân biệt giữa chúng.

Mỗi nút đều có 2 nhánh con, cịn những nút khơng có 2 nhánh con thì đó là nút quyết định có
nên th hay khơng (nút màu xanh là có th và nút màu cam là khơng thuê)

22

Chuẩn hóa điểm số hiển thị theo tỷ lệ trên các hàng

Bản đồ Điểm chuẩn giúp bạn hiểu về dữ liệu của mình bằng cách tơ màu cho
dữ liệu dựa trên một điểm chuẩn. Trong bản đồ trên, các giá trị gần mức trung bình sẽ
có màu xanh lam. Các khu vực cao hơn mức trung bình thì chuyển dần sang màu
vàng. Độ đâm của màu vàng tăng lên khi giá trị tăng lên. Phần màu tím dần cho biết
các khu vực dưới mức trung bình. Các khi cực ở xa dưới trung bình dần chuyển sang
màu tím. Theo cách này, màu sắc được dùng để diễn đạt chi tiết và sắc độ được ẩn
trong dữ liệu
Tính độ chính xác trung bình trên dữ liệu thử nghiệm
Dựa vào hình trên, độ chính xác của dữ liệu thử nghiệm dưới mức trung bình hoặc
khoảng bằng một nửa. Nên ta có thể kết luận rằng dữ liệu thử nghiệm tập giá trị thử
nghiệm này không đạt yêu cầu

23

Khai phá dữ liệu Dự đoán thuê phòng trọ

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về