TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
======***======
BÁO CÁO BÀI TẬP LỚN
HỌC PHẦN: KHAI THÁC DỮ LIỆU VÀ ỨNG DỤNG
ĐỀ TÀI
MƠ HÌNH RANDOM FORREST VÀ ỨNG DỤNG CHO
BÀI TỐN DỰ ĐỐN THU NHẬP CÁ NHÂN
GVHD
Lớp
Nhóm
Thành viên
:
:
:
:
TS. Nguyễn Mạnh Cường
20231IT6052002
12
Hà Long Vũ - 2020602281
Hà Nội, Năm 2023
Mục Lục
Chương 1: TỔNG QUAN.........................................................................................5
1.1. Khái niệm về khai phá dữ liệu........................................................................5
1.2. Tầm quan trọng của khai phá dữ liệu.............................................................7
1.3. Những lợi thế và thách thức của khai phá dữ liệu..........................................8
1.3.1. Lợi thế......................................................................................................8
1.3.2. Thách thức...............................................................................................9
1.4. Các bước giải quyết vấn đề khai phá dữ liệu................................................10
1.4.1. Xác định mục tiêu bài toán....................................................................10
1.4.2. Thu thập dữ liệu.....................................................................................10
1.4.3. Làm sạch dữ liệu và chuyển đổi dữ liệu................................................11
1.4.4. Xây dựng mơ hình.................................................................................12
1.4.5. Đánh giá mơ hình, đánh giá mẫu...........................................................13
1.4.6. Dự đốn.................................................................................................13
1.5. Tổng quan về bài toán..................................................................................14
1.5.1. Giới thiệu bài toán.................................................................................14
1.5.2. Mục tiêu bài toán...................................................................................14
Chương 2: THUẬT TOÁN RANDOM FOREST...................................................16
2.1. Giới thiệu về Decision Tree..........................................................................16
2.1.1. Định nghĩa.............................................................................................16
2.1.2. Thuật toán ID3.......................................................................................17
2.2. Giới thiệu về Random Forest........................................................................18
2.3. Định nghĩa....................................................................................................19
2.4. Thuật toán hoạt động như thế nào?..............................................................20
2.5. Các ứng dụng................................................................................................21
2.6. Ưu điểm và nhược điểm...............................................................................22
CHƯƠNG 3: KẾT QUẢ THỰC NGHIỆM............................................................24
3.1. Bộ dữ liệu.....................................................................................................24
3.2. Tiền xử lí dữ liệu..........................................................................................25
3.2. Tối ưu mơ hình.............................................................................................31
3.3. Kết quả và đánh giá mơ hình........................................................................35
3.4. Giao diện chương trình dự đốn demo.........................................................38
KẾT LUẬN.............................................................................................................45
Tài liệu tham khảo...................................................................................................46
Mục Lục Hình Ả
Hình 1. 1: Các quá trình khai phá dữ liệu..................................................................6
Y
Hình 2. 1: Ví dụ về cây quyết định..........................................................................16
Hình 2. 2: Dữ liệu ví dụ về cây quyết định.............................................................17
Hình 2. 3: Cây quyết định xây dựng từ bộ dữ liệu ví dụ.........................................18
Hình 2. 4: Cách hoạt động của thuật tốn Random Forest......................................21
Hình 3. 1: Một vài mẫu của bộ dữ liệu....................................................................26
Hình 3. 2: Phầm trăm các giá trị “?” của các đặc trưng..........................................27
Hình 3. 3: Dữ liệu sau khi lấp đầy giá trị “?”..........................................................28
Hình 3. 4: Mã hóa dữ liệu........................................................................................29
Hình 3. 5: Biểu đồ nhiệt của ma trận tương quan....................................................30
Hình 3. 6: Mức quan trọng của từng đặc trưng.......................................................31
Hình 3. 7: Phần trăm số lượng các nhãn..................................................................32
Hình 3. 8: Phần trăm số lượng các nhãn sau khi xử lí.............................................33
Hình 3. 9: Các tham số tối ưu của mơ hình.............................................................35
Hình 3. 10: Kết quả mơ hình...................................................................................37
Hình 3. 11: Ma trận hỗn loạn...................................................................................37
Hình 3. 12. Hình ảnh giao diện chương trình dự đốn............................................42
Hình 3. 13. Kết quả dự đốn 1.................................................................................43
Hình 3. 14. Kết quả dự đoán 2.................................................................................44
Lời cảm ơn
Trước tiên với tình cảm sâu sắc và chân thành nhất, cho phép em được bày
tỏ lòng biết ơn đến các thầy cô của trường Đại học Công Nghiệp Hà Nội, đặc biệt
là các thầy cô khoa Công Nghệ Thơng Tin của trường đã đã hết mình truyền đạt và
chỉ dẫn cho chúng em những kiến thức, những bài học quý báu và bổ ích.
Và em cũng xin chân thành cảm ơn thầy giáo Tiến Sĩ Nguyễn Mạnh Cường
– người đã tận tâm hướng dẫn chúng em qua từng buổi nói chuyện, hướng dẫn,
thảo luận về các lĩnh vực trong đề tài báo cáo.
Trong quá trình làm báo cáo bài tập lớn, khó tránh khỏi sai sót. Em rất mong
nhận được ý kiến đóng góp từ thầy cơ để học thêm được nhiều kinh nghiệm và sẽ
hoàn thành tốt hơn bài báo cáo tốt nghiệp sắp tới.
Em xin chúc thầy cô luôn dồi dào sức khỏe, luôn vui vẻ và thành công trong
cuộc sống.
Em xin chân thành cảm ơn!
Lời mở đầu
Trong thời đại hiện đại với sự lan rộng không ngừng của dữ liệu, việc áp
dụng các mô hình học máy để dự đốn và phân tích đã trở thành một phần khơng
thể thiếu trong nhiều lĩnh vực.
Có thể nói thu nhập cá nhân là một lĩnh vực khá quan trọng và có nhiều ứng
dụng thiết yếu trong thời buổi ngày nay. Thu nhập cá nhân không chỉ là con số trên
giấy tờ mà còn là một đại lượng có ảnh hưởng sâu rộng đến cuộc sống của mỗi
người. Nó khơng chỉ đo lường khả năng tài chính mà cịn phản ánh mức độ tự do
tài chính, từ đó giúp tiếp cận các nguồn lực và cơ hội trong xã hội. Thu nhập ổn
định mang lại còn tạo điều kiện thuận lợi cho việc tiết kiệm, đầu tư vào giáo dục,
y tế, và các mục tiêu cá nhân.
Khi nói về việc dự đốn thu nhập cá nhân, chúng ta đang mở ra cánh cửa
cho rất nhiều ứng dụng quan trọng. Trong lĩnh vực tài chính, việc dự đốn thu nhập
cá nhân có thể hỗ trợ q trình đánh giá rủi ro tín dụng, giúp ngân hàng xác định
khả năng hoàn trả vay vốn của người vay một cách chính xác hơn. Điều này cũng
ảnh hưởng đến việc cung cấp vốn cho các dự án cá nhân, doanh nghiệp hoặc nhà
nước, góp phần vào phát triển nền kinh tế.
Bên cạnh đó, việc dự đốn thu nhập cá nhân cũng đóng vai trị quan trọng
trong lĩnh vực quản lý rủi ro. Các cơng ty bảo hiểm có thể sử dụng thông tin này để
định giá và quản lý rủi ro, đồng thời cung cấp các sản phẩm bảo hiểm phù hợp với
nhu cầu cá nhân.
Ngồi ra, từ góc độ xã hội, việc hiểu rõ về thu nhập cá nhân giúp xác định và
giảm bớt khoảng cách xã hội. Nó cung cấp cơ sở để xây dựng các chính sách hỗ
trợ, đảm bảo rằng mọi người đều có cơ hội tương đồng để tiếp cận các dịch vụ y tế,
giáo dục và các nguồn lực cần thiết để phát triển bản thân.
Chính vì những lí do trên, trong báo cáo này, tơi sẽ tập trung vào một trong
những mơ hình tốt và chính xác nhất trong lĩnh vực học máy - Mơ hình Random
Forest và ứng dụng của nó trong việc dự đốn thu nhập cá nhân.
Random Forest khơng chỉ là một trong những mơ hình phổ biến mà cịn là
một công cụ mạnh mẽ cho việc xử lý các vấn đề dự đoán. Sự đa dạng của các biến
đầu vào và mức độ phức tạp của bài toán dự đoán thu nhập cá nhân là một thử
thách lớn, tuy nhiên việc áp dụng mơ hình này có thể đem lại những kết quả tốt và
khả năng chính xác cao.
Tơi sẽ đi sâu vào cách thức hoạt động của Mơ hình Random Forest, từ cơ
bản đến những chi tiết phức tạp hơn, đồng thời minh họa bằng các ứng dụng cụ thể
trong bài toán dự đoán thu nhập cá nhân. Việc này sẽ giúp ta hiểu rõ hơn về sức
mạnh của mơ hình này và cách áp dụng nó vào thực tế.
Nội dung báo cáo này sẽ bao gồm 3 chương:
Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
Trong chương 1 này tơi sẽ bắt đầu bằng việc trình bày tổng quan về các khái
niệm cơ bản về khai phá dữ liệu. Từ đó cung cấp cái nhìn tổng quan về khai phá dữ
liệu, sau đó giới thiệu tổng quan về bài toán dự đoán thu nhập cá nhân: mục tiêu
bài tốn,
Chương 2: THUẬT TỐN RANDOM FOREST
Trong chương 2 tơi sẽ tập trung trình bày cách khái niệm xung quanh thuật
tốn Random Forest, cách hoạt động của thuật toán, các ưu điểm và nhược điểm
của thuật toán, và áp dụng cho bài toán đã đặt ra.
Chương 3: THỰC NGHIỆM
Trong chương này, chúng tơi sẽ thực hiện việc tiền xử lí dữ liệu: phân tích
và làm sạch bộ dữ liệu để phù hợp với mơ hình phân loại từ đó có được kết quả và
nhận xét về hiệu suất của mơ hình Random Forest. Sau đó dùng mơ hình đã đánh
giá để áp dụng vào một giao diện chương trình dự đốn.
KẾT LUẬN:
Cuối cùng trong phần kết luận, tôi sẽ đánh giá kết quả đạt được của mơ hình
Random Forest về độ chính xác hiệu suất mơ hình, so sánh mức hiệu quả với các
mơ hình khác, liệu mơ hình này có phù hợp tốt với bài tốn như đã đề ra không.
Tôi cũng đưa ra các kết quả của giao diện dự đoán. Đồng thời đưa ra các hướng
pháp triển cho bài tốn trong tương lai.
Qua báo cáo này, tơi hy vọng rằng báo cáo này sẽ cung cấp cái nhìn sâu sắc
và có ích về việc sử dụng mơ hình học máy Random Forest trong các ứng dụng dự
đốn thu nhập cá nhân.
Chương 1: TỔNG QUAN
1.1. Khái niệm về khai phá dữ liệu
Khai phá dữ liệu là quá trình khảo sát và phân tích một khối lượng lớn các
dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu...để từ đó trích xuất ra các
thơng tin quan trọng, có giá trị tiềm ẩn bên trong.
Các dữ liệu này được thu từ nhiều nguồn, đa số là từ các phần mềm nghiệp
vụ như: phần mềm tài chính, kế tốn, các hệ thống quản lý tài nguyên doanh
nghiệp ERP, các hệ thống quản lý khách hàng CRM, hay từ các công cụ lưu trữ
thông tin trên web...
Đây là những khối dữ liệu khổng lồ nhưng những thơng tin mà nó thể hiện
ra thì lộn xộn và “nghèo” đối với người dùng. Kích thước của khối dữ liệu khổng
lồ đó cũng tăng với tốc độ rất nhanh chiếm nhiều dung lượng lưu trữ. Khai phá dữ
liệu sẽ giúp trích xuất ra các mẫu điển hình có giá trị và biến chúng thành những tri
thức hữu ích.
Hiện nay, ngồi thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật
ngữ khác có ý nghĩa tương tự như: khai phá tri thức từ cơ sở dữ liệu, trích lọc dữ
liệu, phân tích dữ liệu/mẫu, khảo cổ dữ liệu, nạo vét dữ liệu.... Trên thực tế, nhiều
người coi khai phá dữ liệu và một thuật ngữ thông dụng khác là khám phá tri thức
trong CSDL KDD là như nhau. Còn một số người chỉ coi khai phá dữ liệu là một
bước trong trong quá trình khám phá tri thức trong cơ sở dữ liệu. Quá trình này
gồm một số bước lặp được thể hiện trong hình sau:
Hình 1. 1: Các quá trình khai phá dữ liệu
Ý nghĩa cụ thể của các bước như sau:
Lựa chọn dữ liệu liên quan đến bài toán quan tâm.
Tiền xử lý dữ liệu, làm sạch dữ liệu, chiếm tới gần 60% nỗ lực.
Chuyển đổi dữ liệu về dạng phù hợp thuận lợi cho việc khai phá.
Khai phá dữ liệu, trích xuất ra các mẫu dữ liệu.
Đánh giá mẫu.
Sử dụng tri thức khai phá được.
Trong thực tế, thuật ngữ khai phá dữ liệu thông dụng và sử rộng rãi hơn
thuật ngữ khám phá tri thức trong cơ sở dữ liệu. Theo hướng ứng dụng người ta
thường chia khai phá dữ liệu là một quá trình trong đó gồm nhiều bước nhỏ, mà ta
sẽ trình bày chi tiết ở mục tiếp theo: Các bước xây dựng một giải pháp về khai phá
dữ liệu.
Trong lĩnh vực khai phá dữ liệu tồn tại rất nhiều bài toán, nhưng chung quy
lại thì những loại bài tốn của khai phá dữ liệu bao gồm:
Phân loại
Phân cụm
Bài tốn phân tích luật kết hợp
Hồi quy
Dự đốn
Phân tích chuỗi
Phân tích độ lệch
1.2. Tầm quan trọng của khai phá dữ liệu
Theo Giga Research - một tổ chức nghiên cứu nổi tiếng của Mỹ ước tính thị
trường khai phá dữ liệu bao gồm phần mềm và dịch vụ (các công ty tư vấn và dịch
vụ) sẽ vượt qua con số 1 tỷ đôla Mỹ (báo cáo năm 2005). Một số nghiên cứu khác
thì khơng đồng tình, cho rằng con số đó chỉ dừng ở mức 700-800 triệu. Tuy nhiên
có một điểm mà các nhà phân tích đồng tỉnh đó là mức tăng trưởng của thị trường
khai phá dữ liệu ngày càng tăng và nhanh nhất trong lĩnh vực “tình báo” kinh
doanh (bao gồm các báo cáo, phân tích trực tuyến ...). Khai phá dữ liệu hiện chiếm
hơn 15% trong lĩnh vực này.
Ngày nay nền kinh tế thị trường cạnh tranh ngày càng phát triển, đi đơi với
nó là những nhu cầu tất yếu như:
Phân loại khách hàng để từ đó phân định thị trường, thị phần.
Tăng sức cạnh tranh, làm thế nào để giữ được khách hàng cũ và thu hút
được thêm nhiều khách hàng mới.
Phân tích rủi ro trước khi ra các quyết định quan trọng trong chiến lược hoạt
động sản xuất kinh doanh
Ra các báo cáo giàu thông tin ...
Tất cả các nhu cầu xã hội trên đòi hỏi cần phải có một phương thức, cơng cụ
nào đó hỗ trợ bên cạnh các chuyên gia kinh tế. Và khai phá dữ liệu là một chìa
khố hỗ trợ giải quyết vấn đề nêu trên.
Xét về khía cạnh kỹ thuật - cơng nghệ, trong vịng hơn một thập kỷ qua, sự
phát triển với tốc độ cao của công nghệ phần cứng đã tạo ra các hệ thống máy tính
cực mạnh với bộ xử lý tốc độ cao và dung lượng lưu trữ lớn. Bên cạnh đó là sự
phát triển của cơng nghệ cơ sở dữ liệu, các công cụ thu thập dữ liệu tự động cùng
với sự bùng nổ của Internet băng thông rộng đã giúp cho các nhà kinh doanh có thể
thu được những lượng dữ liệu khổng lồ. Để có thể tìm được những dữ liệu giàu
thơng tin ẩn chứa sau kho dữ liệu khổng lồ trên đòi hỏi con người phải có một
phương pháp tiếp cận mới để có thể hỗ trợ tự động khám phá ra các tri thức có ý
nghĩa và chiến lược quan trọng. Câu trả lời cho vấn đề trên cũng chính là cơng cụ
khai phá dữ liệu.
1.3. Những lợi thế và thách thức của khai phá dữ liệu
1.3.1. Lợi thế
Khai phá dữ liệu là một lĩnh vực liên quan tới nhiều nghành học khác như:
hệ cơ sở dữ liệu, thống kê xác suất, trực quan hố... Thêm vào đó khai phá dữ liệu
cịn có thể áp dụng các kỹ thuật như mạng nơron, lý thuyết tập thô, tập mờ, biểu
diễn tri thức... nên khai phá dữ liệu có một số lợi thế so với các phương pháp trên.
Sau đây là một vài so sánh của các chuyên gia giữa khai phá dữ liệu một số
phương pháp truyền thống:
Phương pháp học máy: đây là một phương pháp có nhiều đóng góp cho bài
tốn phân lớp, nhận dạng. Tuy nhiên, phương pháp học máy chủ yếu được áp dụng
trong các cơ sở dữ liệu ít biến động, đầy đủ, tập dữ liệu không quá lớn. Trên thực
tế, các cơ sở dữ liệu thường không đầy đủ, chứa nhiều nhiễu và biến đổi liên tục.
Trong trường hợp này người ta sử dụng khai phá dữ liệu.
Phương pháp thống kê: mặc dù thống kê là nền tảng của lý thuyết khai phá
dữ liệu nhưng có thể thấy rõ những tồn tại của phương pháp này mà khai phá dữ
liệu đã giải quyết được:
Các phương pháp thống kê hoạt động hồn tồn theo dữ liệu, nó khơng sử
dụng các tri thức sẵn có về lĩnh vực.
Kết quả phân tích của thống kê có thể sẽ có rất nhiều và khó có thể làm rõ
được.
Phương pháp thống kê cần có sự hướng dẫn của người dùng để xác định
phân tích dữ liệu như thế nào và ở đâu.
1.3.2. Thách thức
Bên cạnh những lợi thế trên, khai phá vẫn cịn những thách thức:
Chưa có những hệ thống giao diện lập trình ứng dụng API chuẩn nên tạo ra
những khó khăn cho các kỹ sư tích hợp, phát triển ứng dụng.u cầu kỹ sư
phải có nền tảng tốn vững chắc trong khi đa số các kỹ sư chỉ thành thạo với
các kỹ thuật cơ sở dữ liệu, ngôn ngữ lập trình...
Tiếp tục là những thách thức về nguồn nhân lực: Phân tích dữ liệu ngày càng
trở nên quan trọng, tuy nhiên hầu hết những kỹ sư vẫn chưa hiểu và thành
thạo các kỹ thuật phân tích dữ liệu.
Những hạn chế của các thuật toán: Hầu hết các thuật tốn đều khá là tổng
qt, nó sinh ra nhiều luật. Mặc dù các luật sinh ra đa số đều hữu ích nhưng
ta vẫn phải đo độ đáng quan tâm của các mẫu nên vẫn cần sự can thiệp của
các chuyên gia nghiệp vụ. Nhiều lĩnh vực mới, ví dụ như phân tích chuỗi
DNA trong cơng nghệ sinh học hiện vẫn chưa tìm được thuật tốn chun
dụng hiệu q, đang là những đề tài mới để nghiên cứu.
1.4. Các bước giải quyết vấn đề khai phá dữ liệu
Có rất nhiều tác giả đưa ra các bước của một khai phá dữ liệu, mọi sự phân
chia chỉ mang tính chất tương đối và tư tưởng chủ đạo của nó là như sau:
Bước 1: Xác định mục tiêu bài toán.
Bước 2: Thu thập dữ liệu.
Bước 3: Làm sạch dữ liệu và chuyển đổi dữ liệu.
Bước 4: Xây dựng mơ hình.
Bước 5: Đánh giá mơ hình hay đánh giá mẫu.
Bước 6: Dự đốn.
1.4.1. Xác định mục tiêu bài toán
Cũng giống như bất kỳ một dự án thơng thưởng nào, bước đầu tiên trong q
trình khai phá dữ liệu đó là phải xác định rõ được mục tiêu, nhiệm vụ của bài toán.
Đồng thời bên cạnh đó là sự phân cơng trách nhiệm ở một mức độ nào đó nhằm
đảm bảo dự án được triển khai một cách có hiệu quả.
Một vấn đề cũng rất quan trọng được đặt ra đó là “giải pháp khai phá dữ liệu
có thực sự là cần thiết cho vấn đề đó khơng? ” Câu trả lời cho câu hỏi quan trọng
này là phải xác định thật chính xác mục tiêu của bài toán, cần xem mục tiêu của bài
toán có thuộc trong các nhóm bài tốn của khai phá dữ liệu mà ta đã trình bày bên
trên khơng?
1.4.2. Thu thập dữ liệu
Sau khi xác định được mục tiêu, nhiệm vụ của bài toán, ta tiến hành thu thập
các dữ liệu liên quan. Dữ liệu có thể được thu thập từ nhiều nguồn: các cơ sở dữ
liệu của các xử lý giao dịch trực tuyến, từ các tệp lưu trữ thông tin trên web, từ các
kho dữ liệu...
Sau khi thu thập được các dữ liệu, ta có thể tiến hành chọn lọc các mẫu tiêu
biểu để làm giảm độ lớn của tập luyện.
1.4.3. Làm sạch dữ liệu và chuyển đổi dữ liệu.
Làm sạch và chuyển đổi dữ liệu là một bước rất quan trọng trong một dự án
khai phá dữ liệu.
Làm sạch dữ liệu: Mục đích của làm sạch dữ liệu là loại bỏ những dữ liệu
thừa, khơng nhất qn, có chứa nhiễu. Q trình làm sạch dữ liệu sẽ cố gắng thêm
giá trị vào những giá trị bị thiếu, làm mịn các điểm nhiễu và sửa lại các dữ liệu
không nhất quán. Sau đây là một số kỹ thuật áp dụng cho quá trình làm sạch dữ
liệu:
Xử lý các dữ liệu bị thiếu: Có rất nhiều nguyên nhân của việc dữ liệu thiếu.
Ví dụ khách hàng đôi khi không điền đầy đủ các thông tin bắt buộc... Một số
giải pháp là:
o Bỏ qua mẫu dữ liệu đó nếu mẫu dữ liệu chứa nhiều thuộc tính thiếu
giá trị.
o Dùng một hằng số thay thế, thưởng là giá trị trung bình của thuộc tính
để thêm vào, hoặc giá trị trung bình của các mẫu trong cùng một lớp
với mẫu có giá trị thiếu.
o Sử dụng các giá trị có xác suất cao nhất.
Loại bỏ các điểm biên: Các điểm biên có thể được phát hiện bằng cách sử
dụng phương pháp phân cụm dữ liệu, hay hồi quy...
Dữ liệu khơng nhất qn: Dữ liệu có thể không nhất quán với nhau trong các
bản ghi của một số giao dịch. Một số có thể được sửa lại một cách thủ cơng.
Ví dụ những lỗi do việc nhập dữ liệu gây ra. Ngồi ra cịn có những lỗi được
tạo ra trong q trình tích hợp dữ liệu, ...
Chuyển đổi dữ liệu: Mục đích của q trình chuyển đổi dữ liệu là đưa dữ
liệu về dạng phù hợp với thuật toán khai phá. Sau đây là một số kỹ thuật áp dụng
cho quá trình chuyển đổi dữ liệu:
Chuyển đổi kiểu dữ liệu: Đây là một kỹ thuật đơn giản nhất. Ví dụ như
chuyển đổi các cột dữ liệu kiểu logic sang kiểu nguyên và ngược lại. Lý do
là một số thuật toán khai phá dữ liệu thực thi tốt hơn trên dữ liệu kiểu
nguyên trong khi số khác thì ngược lại.
Nhóm: Đây cũng là một kỹ thuật nhóm các giá trị trong một cột lại để giảm
sự phức tạp. Ví dụ: Cột nghề nghiệp có thể có những giá trị khác nhau như:
Kỹ sư phần mềm, kỹ sư truyền thơng, kỹ sư cơ khí... thì chúng ta có thể
nhóm chúng lại thành nhóm kỹ sư.
Tập hợp: Trong phương pháp này các thao tác tập hợp tổng hợp được áp
dụng Ví dụ: Chúng ta muốn phân loại khách hàng dựa trên những thông tin
sử dụng điện thoại hàng tháng của khách hàng. Những thông tin lưu trữ
trong cơ sở dữ liệu là rất chi tiết, vì thế chúng ta có thể tập hợp chúng lại
thành một vài thuộc tính tổng hợp hơn như: Tổng số cuộc gọi hay thời gian
trung bình của các cuộc gọi.
Tổng quát hoá: Dữ liệu ở mức thấp (dữ liệu nguyên thuỷ) có thể được thay
thế bằng các khái niệm ở mức cao hơn bằng cách sử dụng cây phẩn cấp ngữ
cảnh. Ví dụ: Những thuộc tỉnh thành phố có thể được tổng quát hoá ở mức
cao hơn như quốc gia.
Chuẩn hố: dữ liệu của thuộc tính sẽ được đưa về 1 khoảng xác định.
1.4.4. Xây dựng mơ hình
Sau khi xác định rõ được mục tiêu, nhiệm vụ của bài toán, rồi tiến hành
chuẩn bị dữ liệu bao gồm làm sạch và chuyển đổi, ta tiến hành chọn lựa và xây
dựng mơ hình. Ta xác định xem loại bài tốn của ta thuộc loại nào: phân loại, kết
hợp hay phân đoạn...
Đối với mỗi bài toán trong khai phá dữ liệu đều có nhiều mơ hình để giải
quyết, mỗi mơ hình được xây dựng dựa trên một thuật toán hoặc kết hợp một vài
thuật tốn với nhau. Để lựa chọn chính xác mơ hình nào tốt hơn là khó khăn vì nó
phụ thuộc vào nhiều yếu tố của bài tốn. Chúng ta nên thử giải quyết bài tốn bằng
nhiều mơ hình khác nhau rồi tiến hành so sánh lựa chọn, để tìm ra mơ hình tối ưu
nhất, thích hợp nhất với bài tốn của ta.
Ví dụ: Mối quan hệ giữa các thuộc tính mà đơn giản thì ta có thể áp dụng
thuật tốn cây quyết định để xây dựng mơ hình, nhưng khi mối quan hệ phức tạp
thì dùng thuật tốn mạng nơtron lại cho hiệu quả tốt hơn.
1.4.5. Đánh giá mơ hình, đánh giá mẫu
Sau khi áp dụng một số các mơ hình chúng ta sẽ đánh giá lựa chọn xem mơ
hình nào tốt hơn.
Điểm chú ý là bên cạnh các cơng cụ hỗ trợ ta như Lift Chart... thì chúng ta
còn phải dựa vào sự hiểu biết của người dùng đối với dữ liệu.
Các mẫu đưa ra có dễ hiểu đối với con người không?
Các mẫu đưa ra có đúng với các dữ liệu thử với một mức độ chắc chắn nào
đó khơng?
Các mẫu đưa ra có tiềm năng sử dụng khơng?
1.4.6. Dự đốn
Trong hầu hết các bài tốn khai phá dữ liệu, tìm ra các mẫu chỉ là một nửa
của yêu cầu, nửa yêu cầu cịn lại là đưa ra các dự đốn. Để dự đốn được chúng ta
cần có một tập huấn luyện và tập các thuộc tính mới đưa vào cần dự đoán.
1.5. Tổng quan về bài toán.
1.5.1. Giới thiệu bài toán.
Dự đốn thu nhập cá nhân là q trình phân tích dữ liệu để ước tính hoặc dự
đốn mức thu nhập mà một người có thể kiếm được trong một khoảng thời gian
nhất định dựa trên các yếu tố như thông tin cá nhân, học vấn, kinh nghiệm làm
việc, nghề nghiệp, vị trí địa lý, và các biến số khác. Điều này chúng ta dự báo mơ
hình thu nhập cá nhân, cung cấp thơng tin hữu ích cho việc quản lý tài chính cá
nhân, kế hoạch ngành nghề, hoặc thậm chí cung cấp cơ sở cho việc định hình chính
sách xã hội và kinh tế.
Tính cần thiết của đề tài này trên thế giới là không thể phủ nhận. Trong môi
trường kinh doanh toàn cầu ngày nay, việc hiểu rõ về thu nhập cá nhân không chỉ
giúp các doanh nghiệp tối ưu hóa chiến lược tiếp thị mà cịn hỗ trợ cho việc tìm
kiếm và duy trì nguồn lực nhân sự có chất lượng. Ngồi ra, chính phủ cũng sử
dụng các mơ hình dự đốn thu nhập để thiết lập chính sách phân phối thu nhập và
phát triển kinh tế xã hội.
Tại Việt Nam, việc dự đoán thu nhập cá nhân cũng không kém phần quan
trọng. Trong môi trường kinh doanh ngày càng cạnh tranh, việc hiểu rõ về thu nhập
cá nhân không chỉ giúp các doanh nghiệp phát triển mô hình kinh doanh mà cịn hỗ
trợ cho việc quản lý tài chính cá nhân và gia đình. Ngồi ra, chính phủ cũng có thể
sử dụng thơng tin về thu nhập cá nhân để xây dựng các chính sách xã hội và kinh
tế hợp lý, nhằm mục tiêu phát triển một nền kinh tế và xã hội bền vững.
1.5.2. Mục tiêu bài toán
Bài toán dự đoán thu nhập cá nhân là một trong những vấn đề quan trọng
trong lĩnh vực học máy và phân tích dữ liệu. Nó tập trung vào việc xác định hoặc
ước tính mức thu nhập mà một cá nhân có thể kiếm được dựa trên nhiều yếu tố
khác nhau. Các yếu tố này có thể bao gồm thông tin về học vấn, kỹ năng, kinh
nghiệm, nghề nghiệp, và các yếu tố về vị trí địa lý. Bằng cách áp dụng các mơ hình
học máy, chúng ta có thể tiến hành dự đoán mức thu nhập cá nhân một cách chính
xác hoặc gần đúng.
Mục tiêu của bài tốn này là xây dựng một mơ hình dự đốn thu nhập cá
nhân có khả năng dự báo chính xác hoặc gần đúng mức thu nhập dự kiến dựa trên
dữ liệu đầu vào. Qua việc huấn luyện mơ hình học máy, chúng ta có khả năng dự
đốn mức thu nhập với độ chính xác nhất định, và từ đó rút ra những điều cần tối
ưu cho mơ hình. Đồng thời bài tốn mở ra ý tưởng có thể áp dụng mơ hình để cung
cấp thơng tin hữu ích cho cá nhân hoặc tổ chức trong việc quản lý tài chính, lập kế
hoạch ngành nghề, và thậm chí có thể hỗ trợ cho việc thiết lập chính sách xã hội và
kinh tế.
Chương 2: THUẬT TOÁN RANDOM FOREST
2.1. Giới thiệu về Decision Tree
Trong lĩnh vực máy học, cây quyết định là một kiểu mơ hình dự báo
(predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng
tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng. Mỗi một nút trong
(internal node) tương ứng với một biến; đường nối giữa nó với nút con của nó thể
hiện một giá trị cụ thể cho biến đó. Mỗi nút lá đại diện cho giá trị dự đoán của biến
mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi từ nút gốc
tới nút lá đó. Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng
cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định.
2.1.1. Định nghĩa
Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được dùng
để phân lớp các đối tượng dựa vào dãy các luật. Các thuộc tính của đối tượngn có
thể thuộc các kiểu dữ liệu khác nhau như Nhị phân (Binary) , Định danh
(Nominal), Thứ tự (Ordinal), Số lượng (Quantitative) trong khi đó thuộc tính phân
lớp phải có kiểu dữ liệu là Binary hoặc Ordinal.