BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH
KHOA KẾ TỐN
--------------------
BÁO CÁO DỰ ÁN
BỘ MƠN: KHOA HỌC DỮ LIỆU
ĐỀ TÀI:
Giảng viên:
Mã lớp học phần:
Sinh viên thực hiện: Hồ Gia Kim Hiền
Võ Minh Thư
Huỳnh Thu Thủy
Nguyễn Thị Thanh Thảo
Phan Thanh Duy
TP.HCM, ngày 22 tháng 12 năm 2022
1
MỤC LỤC
MỤC LỤC..................................................................................................................................2
DANH MỤC TỪ VIẾT TẮT.....................................................................................................3
DANH MỤC HÌNH ẢNH..........................................................................................................3
DANH MỤC BẢNG..................................................................................................................4
DANH MỤC BIỂU ĐỒ.............................................................................................................5
LỜI CẢM ƠN............................................................................................................................5
THÔNG TIN SINH VIÊN VÀ MỨC ĐỘ ĐÓNG GÓP............................................................5
CHƯƠNG 1. TỔNG QUAN ĐỀ TÀI (15% thời lượng)...........................................................5
1.1.
Lý do chọn đề tài......................................................................................................5
1.2.
Mục tiêu đề tài.........................................................................................................6
1.3
Đối tượng và phạm vi nghiên cứu của đề tài...............................................................6
1.4.
Công cụ sử dụng......................................................................................................6
1.5.
Ý nghĩa nghiên cứu..................................................................................................6
1.6.
Cấu trúc đề tài..........................................................................................................7
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT (20% thời lượng)..............................................................7
2.1.
Tổng quan về Khoa học dữ liệu...............................................................................7
2.2.
Lợi ích của Khoa học dữ liệu trong kinh doanh quản lý........................................11
2.3.
Quy trình thực hiện dự án Khoa học dữ liệu..........................................................13
2.4.
Lý thuyết và các phương pháp trong phân tích dữ liệu (đề cập đến lý thuyết, cơ sở
toán học, … của các mơ hình nhóm áp dụng)......................................................................13
CHƯƠNG 3. PHÂN TÍCH U CẦU NGƯỜI DÙNG VÀ MƠ TẢ DỮ LIỆU (20 % thời
lượng).......................................................................................................................................25
3.1.
Xác định và phân tích yêu cầu người dùng (mơ tả rõ và chi tiết bài tốn cần giải
quyết). 25
a/ Bài toán 1: Dự đoán phân loại đối tượng bị bệnh theo loại bệnh.................................25
b/ Bài toán 2: Dự báo độ tuổi bị bệnh các bệnh nhân thuộc loại “returned home”..........25
c/ Bài toán 3: Phân cụm các bệnh nhân thuộc loại “hospitalization”...............................25
d/ Bài toán 4: Phân lớp kiểm tra kết quả phân cụm từ bài toán phân cụm bệnh nhân loại
“hospitalization”...............................................................................................................25
3.2.
Tổng quan về cơ sở dữ liệu nguồn:........................................................................25
3.2.1. Mô tả dữ liệu nguồn..............................................................................................25
3.2.2 Lựa chọn và trình bày dữ liệu cần phân tích đối với yêu cầu người dùng (để giải
quyết bài toán đặt ra ở 3.1 cần dùng những dữ liệu nào ở 3.2.1).....................................27
CHƯƠNG 4. PHÂN TÍCH DỮ LIỆU VÀ KẾT QUẢ (35% thời lượng)...............................28
2
4.1
Giới thiệu giải pháp và quy trình thực hiện:..........................................................28
4.1.1 / Phân tích và xử lý dữ liệu......................................................................................28
4.1.2 / Các bài toán............................................................................................................32
a/ Bài toán 1: Dự đoán phân loại đối tượng bị bệnh theo loại bệnh.................................32
b/ Bài toán 2: Dự báo độ tuổi bệnh nhân “ returned home”.............................................33
c/ Bài toán 3: Phân cụm bệnh nhân loại “hospitalization”...............................................33
d/ Bài toán 4: Phân lớp kiểm tra kết quả phân cụm từ bài toán phân cụm bệnh nhân loại
“hospitalization”...............................................................................................................34
4.2.
Phân tích và trực quan hóa kết quả (nếu có) ( Thư đanh đá ) :))) Pé Thư Ku té....35
✻ Bài toán 1: Dự đoán phân loại đối tượng bị bệnh theo loại bệnh................................35
✻ Bài toán 2: Dự báo độ tuổi bệnh nhân “ returned home”............................................37
✻ Bài toán 3: Phân cụm bệnh nhân loại “hospitalization”..............................................39
✻ Bài toán 4: Phân lớp kiểm tra kết quả phân cụm từ bài toán phân cụm bệnh nhân loại
“hospitalization”...............................................................................................................41
CHƯƠNG 5. KẾT LUẬN (5% thời lượng).............................................................................51
5.1.
Kết quả đạt được....................................................................................................51
5.2.
Hạn chế..................................................................................................................51
5.3.
Hướng phát triển đề tài..........................................................................................51
TÀI LIỆU THAM KHẢO (5% thời lượng).............................................................................51
PHỤ LỤC (NẾU CÓ)..............................................................................................................52
DANH MỤC TỪ VIẾT TẮT
COVID - 19: Corona virut disease năm 2019
SVM : Support Vector Machine
SV : Support Vector
CART : Classification and Regression Trees
GLM : Generalized Linear Models
AUC : Area Under the Curve
IoT : Internet of Things
ROC : Receiver Operating Characteristic
ANN : Artificial Neural Network
DANH MỤC HÌNH ẢNH
Hình 1: Khoa học về phân tích dữ liệu.......................................................................................7
Hình 2: Lược đồ Data Science................................................................................................10
Hình 3: Quy trình phân tích dữ liệu.........................................................................................10
Hình 4: Sơ đồ DIKW...............................................................................................................11
3
Hình 5: Phương pháp phân tích dữ liệu...................................................................................13
Hình 6: Q trình phân lớp dữ liệu..........................................................................................14
Hình 7: Mơ hình hồi quy logistic.............................................................................................15
Hình 8: Đồ thị inverse logit.....................................................................................................15
Hình 9: Mơ hình phân lớp nhị phân sử dụng phương pháp hồi quy logistic...........................16
Hình 10: Mơ hình cây quyết định............................................................................................16
Hình 11: Mơ hình Support Vector Machine............................................................................18
Hình 12: Mơ hình Support Vector Machine............................................................................18
Hình 13: Mơ hình Meural Network.........................................................................................19
Hình 14: Underfitting...............................................................................................................20
Hình 15: Overfitting.................................................................................................................20
Hình 16: Good Fitting..............................................................................................................20
Hình 17: Bảng kết quả dự đốn................................................................................................21
Hình 18: Độ chính xác.............................................................................................................21
Hình 19: ROC..........................................................................................................................22
Hình 20: AUC..........................................................................................................................22
Hình 21: Phương pháp phân chia dữ liệu Hold-out.................................................................22
Hình 22: Phương pháp phân chia dữ liệu K-fold cross alidation.............................................23
Hình 23: Mơ hình phân cụm dữ liệu........................................................................................23
Hình 24: Mơ hình bài tốn 1....................................................................................................31
Hình 25: Mơ hình bài tốn 2....................................................................................................32
Hình 26: Mơ hình bài tốn 3....................................................................................................33
Hình 27: Mơ hình bài tốn 4....................................................................................................33
Hình 28: Sử dụng "Select Column" để giảm bớt số cột...........................................................34
Hình 29: Kết quả dự báo ( 1 )..................................................................................................36
Hình 30: Kết quả dự đốn (2)...................................................................................................38
Hình 31: Kết quả dự báo (4)....................................................................................................49
DANH MỤC BẢNG
Bảng 1: Các biến thể SVM.......................................................................................................19
Bảng 2: Mô tả biến...................................................................................................................26
Bảng 3: Bảng Valuation age....................................................................................................31
Bảng 4: Kết quả Test & Score ( 1 )........................................................................................34
Bảng 5: Kết quả Confusion Matrix ( 1 )..................................................................................35
Bảng 6: Kết quả Test & Score ( 2 )........................................................................................36
Bảng 7: Kết quả Confusion Matrix ( 2 )..................................................................................38
Bảng 8: Kết quả k-Means (3)...................................................................................................39
Bảng 9: Kết quả k-Means (4)...................................................................................................41
Bảng 10: Kết quả Test & Score ( 4 )......................................................................................47
Bảng 11: Kết quả Confusion Matrix ( 4 )................................................................................49
Bảng 12: Tiêu chí đánh giá......................................................................................................51
DANH MỤC BIỂU ĐỒ
4
Biểu đồ 1: Bảng số lượng loại bệnh nhân................................................................................28
Biểu đồ 2: Biểu đồ cột loại bệnh nhân.....................................................................................29
Biểu đồ 3: Biểu đồ tròn loại bệnh nhân....................................................................................29
Biểu đồ 4: Biểu đồ bênh nhân theo giới tính............................................................................30
Biểu đồ 5: Biểu đồ phân cụm số liệu ban đầu..........................................................................30
Biểu đồ 6: Biểu đồ phân loại Valuation age.............................................................................31
Biểu đồ 7: Biểu đồ cột phân loại Valuation age.......................................................................32
Biểu đồ 8: Minh họa Sihouette Plot (3)...................................................................................40
Biểu đồ 9: Minh họa Scatter Plot (3) ( Age/ Sex / C1)............................................................41
Biểu đồ 10: Minh họa Scatter Plot (3) ( Age/ Sex / C2)..........................................................41
Biểu đồ 11: Minh họa Sihouette Plot (4).................................................................................47
Biểu đồ 12: Minh họa Scatter Plot (4) (Age / Sex ).................................................................48
LỜI CẢM ƠN
Đầu tiên, chúng em xin gửi lời cảm ơn tới Thầy Nguyễn Văn Hồ – người trực tiếp
giảng dạy và truyền đạt những kiến thức cần thiết và bổ ích phục vụ cho quá trình làm dự án.
Trong quá trình thực hiện dự án sẽ khơng thể tránh khỏi những thiếu sót trong cách
diễn đạt, lỗi trình bày và phương hướng cũng như cách thức giải quyết các vấn đề, vì vậy
chúng em mong Thầy bỏ qua và góp ý để cố gắng sửa đổi và hoàn thiện hơn trong các dự án
tới.
Chúng em chúc Thầy nhiều sức khỏe, nhiệt huyết với nghề để truyền đạt nhiều kiến
thức bổ ích cho các thế hệ sau. Chúng em trân trọng cảm ơn Thầy!
THƠNG TIN SINH VIÊN VÀ MỨC ĐỘ ĐĨNG GĨP:
STT
Họ và tên
MSSV
Cơng việc
Đánh giá
1
Hồ Gia Kim Hiền
31211021776
100%
2
Võ Minh Thư
31211025402
100%
3
Huỳnh Thu Thủy
31211024925
100%
4
Nguyễn Thị Thanh Thảo
31211025428
100%
5
Phan Thanh Duy
31211021742
100%
CHƯƠNG 1. TỔNG QUAN ĐỀ TÀI (15% thời lượng)
1.1.
Lý do chọn đề tài
Mấy năm trở lại gần đây, trên Thế giới đã xuất hiện một “đại dịch tồn cầu” đó là
COVID – 19 (Sars–Cov–2). Đây là một bệnh truyền nhiễm gây ra bởi một virus corona. Tùy
theo thể trạng và sức khỏe của người bị nhiễm bệnh. Đa số những người còn trẻ nhiễm bệnh
COVID-19 sẽ chỉ bệnh hô hấp từ nhẹ cho đến trung bình, chỉ cần cách ly và có thể hồi phục
không cần đến những điều trị y tế đặc biệt nào. Khơng vì vậy mà xem bệnh này là một loại
bệnh thơng thường. Vì có những người đã mắc bệnh nền từ trước khi bị nhiễm COVID,
những bệnh đó như là tim mạch, tiểu đường, hơ hấp mãn tính, … hoặc là những người cao
5
tuổi khi bị mắc bệnh này có thể phát triển nghiêm trọng và dẫn đến tử vong. Theo Nguồn:
Worldometers, Bộ Y Tế (MOH), vnexpress.net cho thấy tính đến nay đã có 655.591.265 số
ca nhiễm và 6.664.515 số ca tử vong. Mặc dù, hiện nay xã hội đã giãn cách, trở lại hoạt động
sản xuất kinh doanh như bình thường nhưng khơng có nghĩa đại dịch này đã hồn tồn biến
mất. Hàng ngày, hàng giờ vẫn xuất hiện những ca nhiễm bệnh và có những ca tử vong do
COVID-19.
Vì vậy, nhóm chúng em quyết định chọn đề tài: “Khả năng mắc bệnh COVID-19”. Để
dự đốn bệnh nhân có khả năng mắc bệnh cao hay thấp để từ đó rút ra kết luận và giải pháp
để giảm thiểu số người mắc bệnh và kịp thời chữa trị cho những người có nguy cơ mắc bệnh
cao.
1.2.
Mục tiêu đề tài
Sau khi nghiên cứu và tìm hiểu về đề tài: “Khả năng mắc bệnh COVID” thì nhóm chúng em
đã đưa ra những mục tiêu sau đây:
- Dựa trên tình trạng triệu chứng hiện tại, tiền sử bệnh để từ đó đưa ra dự đốn và phân
loại đối tượng bệnh nhân theo 3 nhóm: Khả năng mắc bệnh thấp, trung bình, cao.
- Từ đó những dự đốn trên, gom cụm các đối tượng có khả năng mắc bệnh COVID-19
để các y, bác sĩ có những giải pháp điều trị cho từng nhóm đối tượng. Chính phủ có
những kế hoạch phù hợp để phân phối nguồn lực y tế một cách hiệu quả hơn.
1.3
Đối tượng và phạm vi nghiên cứu của đề tài
- Đối tượng nghiên cứu:
Đối tượng nghiên cứu của đề tài là các bệnh nhân điều trị tại đơn vị y tế: cấp 1, cấp 2 hay
cấp 3 ở Mexico.
Tập dữ liệu bao gồm thông tin dữ liệu thô chứa 100.000 hàng dữ liệu (bệnh nhân điều trị tại
đơn vị y tế: cấp 1, cấp 2 hay cấp 3) và 21 cột (đặc tính).
- Phạm vi nghiên cứu:
Thời gian: dữ liệu của đơn vị y tế cấp 1, cấp 2 hay cấp 3 tại Mexico, trong khoảng thời gian
từ 02/01/2020 đến 02/05/2021.
Không gian: Bài nghiên cứu được thực hiện dựa trên đơn vị y tế: cấp 1, cấp 2 hay cấp 3 ở
Mexico, được đăng tải trên trang web Kaggle, có đầy đủ dữ liệu được cung cấp bởi chính phủ
Mexico (liên kết).
1.4.
Cơng cụ sử dụng
Chúng em sử dụng phần mềm bảng tính Excel; cơng cụ khai phá dữ liệu Orange để xử lý dữ
liệu, biểu diễn dữ liệu cũng như so sánh các mô hình với 3 phương pháp là Logistic
Regression, Tree, SVM và sử dụng Ma trận nhầm lẫn (Confusion Matrix) để chọn phương
pháp có sai lầm loại 2 nhỏ nhất và AUC chọn phương pháp có giá trị lớn nhất qua Test and
Score.
1.5.
Ý nghĩa nghiên cứu
Với đề tài “Khả năng mắc bệnh COVID”, những dự đốn, những kết quả phân tích và tình
hình thực tế đã xảy ra thì có thể cho thấy được những lý do, nguyên nhân dẫn đến việc mắc
bệnh, những triệu chứng để chúng ta có thể đưa ra phương pháp điều trị kịp thời; cũng như là
biết được khả năng có thể nhiễm bệnh như thế nào để chuẩn bị, phịng ngừa để góp phần đẩy
lùi dịch bệnh.
6
1.6.
Cấu trúc đề tài
Gồm có 4 chương nội dung:
Chương 1: Tổng quan đề tài
Chương 2: Cơ sở lý thuyết
Chương 3: Phân tích u cầu người dùng và mơ tả dữ liệu
Chương 4: Phân tích dữ liệu và kết quả
Chương 5: Kết luận
CHƯƠNG 2. CƠ SỞ LÝ THUYẾT (20% thời lượng)
2.1.
Tổng quan về Khoa học dữ liệu
TÓM TẮT: Khoa học dữ liệu là một lĩnh vực liên ngành mà trong đó, những bộ dữ liệu
được xử lý, sắp xếp và giải mã bằng các mơ hình thống kê hay phương pháp toán học. Khoa
học dữ liệu (Data science) gồm ba phần chính: tạo và quản trị dữ liệu, phân tích dữ liệu,
và áp dụng kết quả phân tích thành những hành động có giá trị. Việc phân tích và sử
dụng dữ liệu dựa vào ba nguồn tri thức: toán học (thống kê tốn học - Mathematical
Statistics), cơng nghệ thơng tin (máy học - Machine Learning) và tri thức của lĩnh vực
ứng dụng cụ thể.Về quy trình và hệ thống trích xuất kiến thức hoặc hiểu biết từ các dạng
dữ liệu khác nhau (có cấu trúc hoặc khơng có cấu trúc), nó là sự tiếp nối của một số lĩnh
vực phân tích dữ liệu.
• Data là gì?
Một tập hợp các thơng tin, trong đó gồm chữ, số, hình ảnh…được chia làm dữ liệu thơ và dữ
liệu đã được xử lý.
• Vai trị của Data?
Trong máy tính, Data hay dữ liệu là thơng tin đã được chuyển sang dạng có hiệu quả để
di chuyển hoặc xử lý. Liên quan đến máy tính và phương tiện truyền dẫn ngày nay, dữ
liệu là thông tin được chuyển đổi thành dạng số nhị phân.Có hai loại dữ liệu chính:
- Dữ liệu định tính ( dữ liệu phân loại), có thể được đo hoặc tính dưới dạng số, được
sắp xếp theo thể loại, không phải theo số. Những dữ liệu này bao gồm âm thanh, hình
ảnh, biểu tượng hoặc văn bản. Giới tính của một người, tức là, nam hoặc nữ là dữ liệu
định tính.Dữ liệu định tính cho biết về nhận thức của mọi người và giúp các nhà
nghiên cứu thị trường hiểu thị hiếu của khách hàng và sau đó lên ý tưởng và chiến
lược phù hợp.
- Dữ liệu định lượng ( Dữ liệu số ): Có thể được biểu thị bằng các giá trị số, nghĩa là nó
có thể đếm được và kể cả phân tích dữ liệu thống kê. Dữ liệu định lượng có thể
được dùng để thao tác thống kê và các dữ liệu này có thể được biểu diễn bằng
nhiều biểu đồ như biểu đồ cột, biểu đường, biểu đồ trịn,…
• Data Science là gì?
Data Science được định nghĩa là tất cả những gì về thu thập, khai thác và phân tích dữ
liệu để tìm ra insight giá trị. Sau đó trực quan hóa các Insight cho các bên liên quan, để
chuyển hóa Insight thành hành động. Đây là lĩnh vực đa ngành sử dụng các phương pháp
và quy trình khoa học để rút ra insight từ dữ liệu. Ngoài ra, Data Science cịn là cơng cụ
lao động quan trọng trong thời kỳ chuyển đổi số.
• Các nguyên tắc của Data Science?
7
Hình 1: Khoa học về phân tích dữ liệu
Học máy (Machine Learning)
Học máy là một phần quan trọng của khoa học dữ liệu. Nó giúp phân tích lượng dữ liệu
khổng lồ bằng cách sử dụng các thuật toán khác nhau. Là một nhà khoa học dữ liệu, bạn cần
phải thành thạo về Học máy.
Mơ hình hóa (Modeling)
Các nhà khoa học dữ liệu cần phải giỏi mơ hình hóa, một q trình bao gồm việc tìm ra một
thuật tốn phù hợp để giải quyết vấn đề và đào tạo các mô hình. Mơ hình hóa cũng là một
phần của Học máy.
Số liệu thống kê (Statistic)
Thống kê là một phần quan trọng của Data Science. Nó giúp nhập dữ liệu, đánh giá mơ hình,
trực quan hóa hóa dữ liệu,.... Các nhà khoa học dữ liệu có thể tạo ra những hiểu biết sâu
sắc hơn từ dữ liệu với sự trợ giúp của Thống kê.
Lập trình (Programming)
Python và R thường được sử dụng trong việc thực hiện các dự án khoa học dữ liệu. Điều
quan trọng là phải biết ngơn ngữ lập trình.
Cơ sở dữ liệu (Databases)
Các nhà khoa học dữ liệu xử lý rất nhiều dữ liệu nên điều quan trọng là họ phải biết cách
làm việc với cơ sở dữ liệu.
• Ứng dụng Data Science
Ứng dụng của Data Science trong ngành ngân hàng
Ngân hàng là ngành ứng dụng của Data Science nhiều nhất:
+ Mơ hình rủi ro: sự hỗ trợ đắc lực của Data Science và Big Data trong mơ hình rủi ro,
ngân hàng có thể áp dụng để phân tích, sàng lọc những khách hàng khả năng không đủ
chi trả khoản vay trước viễn cảnh rủi ro nhất có thể xảy ra.
+ Hệ thống phòng chống gian lận: định vị, phân tích các hoạt động của người dùng, rà
sốt tồn bộ q trình để tìm ra những mơ hình có kẽ hở và độc hại. Dùng thuật toán
phân cụm như K-Means, SVM
8
+ Giá trị vòng đời khách hàng: sàng lọc và phân loại những khách hàng tiềm năng cùng với
những giá trị thiết thực trong tương lai thơng qua phân tích dự đốn nhờ cơng cụ dữ liệu như
CART hay GLM
+ Phân khúc thị trường: định vị cũng như khoanh vùng chính xác nhóm khách hàng
thơng qua K-means
+ Hệ thống gợi ý: User-Based Collaborative Filtering và Item-Based Collaborative
Filtering.
+ Phân tích dự đốn theo thời gian thực: dự đốn các tình huống xảy ra trong tương lai,
trong đó Machine Learning đóng vai trị chính yếu trong q trình phân tích này.
Trong các phân tích đánh giá thực tế, ngân hàng sử dụng thuật toán Machine Learning để
cải thiện chiến lược của họ và đào sâu tìm hiểu nhiều vấn đề tác động đến chất lượng
công việc.
Ứng dụng của Data Science trong ngành tài chính
Data Science giữ vị trí quan trọng trong quy trình tự động hóa nghiệp vụ tài chính kế
tốn, sử dụng và vận hành hệ thống báo động nguy cơ như các ngân hàng qua Data
Science.
Nhờ có thuật tốn trong Data Science chắt lọc những dữ liệu khách hàng sẵn có giúp thúc
đẩy năng suất làm việc, phát triển cơng việc theo định hướng bền vững.
+ Machine Learning đưa ra dự báo trên phân tích, cho phép cơng ty có thể dự báo giá
trị vòng đời khách hàng và thị phần họ đang và có thể chiếm lĩnh.Những kỹ thuật và
thuật toán Machine Learning thúc đẩy tương tác trên truyền thông đa phương tiện, tăng
tốc độ tiếp nhận phản hồi, chăm sóc khách hàng để phân tích hiệu quả.
+ Ngơn ngữ hóa và data mining (khai phá dữ liệu) trong ứng dụng của Data Science
giúp quá trình chuyển đổi từ thông tin sang dạng thức linh động, tiến bộ hơn để tăng lợi
nhuận.
Ứng dụng của Data Science trong ngành sản xuất
Dựa vào các ứng dụng của Data Science, nền sản xuất có thể cải thiện được khả năng
tạo ra sản phẩm, tối ưu hiệu suất, giảm chi phí và tăng lợi nhuận. Công cụ hỗ trợ như
IoT (Internet of Things), Data Science cho phép những doanh nghiệp dự đoán được vấn
đề, điều phối hệ thống và phân tích dịng dữ liệu của họ.Một ứng dụng của Data Scientist
khác cho ngành sản xuất là tự động hóa (automation).
Ứng dụng của Data Science trong ngành giao thông vận tải
Data Science giúp môi trường giao thơng an tồn hơn cho người điều khiển giao
thông, giúp các phương tiện giao thông được cải tiến, thêm yếu tố tự động hóa.
Data Science nhân rộng khái niệm “xe tự lái” – là một bước tiến lớn trong ngành
ở thời đại số. Lộ trình khoa học cũng là sản phẩm ra đời từ Data Science. Thông qua
nhiều biến số của thông tin khách hàng, địa điểm, chỉ dẫn kinh tế, logistics, phương tiện
như xe cộ có thể nhận biết đoạn đường thuận lợi và chỉ hướng cho người điều khiển một
cách tự động.
Ứng dụng của Data Science trong ngành y tế – chăm sóc sức khỏe
Các lĩnh vực đã áp dụng thành công những ứng dụng của Data Science có thể kể
đến như Phân tích hình ảnh y khoa, gen và bộ gen, điều chế thuốc, phân tích và chẩn
9
đoán, ứng dụng phần mềm sức khỏe hay trợ lý sức khỏe tâm lý. Xử lý và chẩn đoán qua
X-ray, MRI, CT-scans giờ đây dễ dàng và cịn “thơng minh” hơn.
+ Ở lĩnh vực di truyền học thì MapReduce cũng có thể xem là một nền tảng hỗ trợ đắc
lực cho việc dự báo các gen.
+ Điều chế thuốc dựa vào tư liệu người dùng v.v… Cơng tác chẩn đốn bệnh cũng trở
nên khoa học và chính xác hơn khi ứng dụng Data Science vào máy móc y khoa.
+ Cơng cụ để tính tốn phác đồ điều trị phù hợp cho bệnh nhân.
+ Phần mềm và ứng dụng trợ lý sức khỏe được xây dựng trên nền tảng ứng dụng của
Data Science.
Ứng dụng của Data Science trong ngành E-Commerce (Thương mại điện tử)
Nhận biết nền tảng khách hàng tiềm năng, Data Science được sử dụng và khai
thác trên các sản phẩm, dịch vụ của nhà cung cấp, phân tích và dự đốn xu thế thị trường
nhờ đó doanh nghiệp tối ưu được cơ cấu về giá cho phân khúc khách hàng của mình.
+ Phân đoạn thị trường và chọn lọc đối tượng khách hàng mục tiêu ở các doanh
nghiệp. Sử dụng kỹ thuật Data Science trong các đề xuất nâng cao của hệ thống, nền
tảng E-commerce hồn tồn có thể đưa ra những thông tin giá trị và khả thi đối với
doanh nghiệp để họ định hướng chiến lược mua và bán của mình trên thị trường.
+ Dùng phương pháp phân tích dựa trên dữ liệu có sẵn các phản hồi của khách hàng để
có được những thơng tin mà doanh nghiệp muốn. Cơng việc địi hỏi sử dụng Natural
Language Processing để phân tích các câu chữ của khách hàng (cách lọc negative/
positive comment trên facebook) hay kết quả khảo sát.
+ Fraud Detection, một trong những cơng cụ có vai trị chính trong Machine Learning
phát hiện gian lận trong kinh doanh online, offline.
• Quy trình xử lý dữ liệu
Hình 2: Lược đồ Data Science
Cũng như các hình thức thí nghiệm khác, khoa học dữ liệu sẽ yêu cầu bạn thực hiện các
quan sát, đặt câu hỏi, hình thành các giả thuyết, tạo các bài kiểm tra, phân tích kết quả
và đưa ra một khuyến nghị thực tế.
1
Hình 3: Quy trình phân tích dữ liệu
2.2.
Lợi ích của Khoa học dữ liệu trong kinh doanh quản lý
Data science thường được ứng dụng vào các tập đoàn, doanh nghiệp sở hữu nguồn dữ
liệu lớn, để tìm kiếm cơ hội, cảnh báo rủi ro. Chẳng hạn như:
● Phân tích rủi ro trong ngành tài chính;
● Dự đốn tỉ lệ chốt hợp đồng thành công của từng đối tượng;
● Điều phối hệ thống vận hành trong nhóm ngành sản xuất.
- Ứng dụng để chuyển đổi dữ liệu phức tạp cơ sở ra quyết định cho cấp quản lý
Hình 4: Sơ đồ DIKW
● Thơng tin hóa dữ liệu:
Ở bước đầu tiên, sau khi thu thập được dữ liệu đầu vào, data science sẽ phân loại, cấu trúc
hóa các dữ liệu này theo từng nhóm để chúng trở thành những thơng tin giá trị. Dựa trên bối
cảnh cụ thể data science sẽ phân nhóm các dữ liệu để trả lời cho các câu hỏi như “who”,
“what”, “where” và “when”. Quá trình sắp xếp lại các dữ liệu này giúp cho nhà quản lý hiểu
được ý nghĩa của các dữ liệu đầu vào và mối quan hệ của các nhóm dữ liệu với nhau.
1
● Lý giải thông tin qua nhiều ‘lớp lang’:
Từ những thơng tin đã được hệ thống, vai trị của data science là tiếp tục lý giải những
nguyên nhân từ những thông tin trên. Nhà quản lý sẽ được cung cấp bức tranh tổng thể về các
vấn đề trong doanh nghiệp bởi những insight đúc kết được sau quá trình ‘ngấu nghiến nghiền
ngẫm dữ liệu’.
● Vắt kiệt thông tin cho những quyết định quan trọng:
Ở tầng trên cùng của mơ hình dữ liệu thì data science giúp nhà điều hành đưa ra quyết định
nhanh chóng, hiệu quả,và hạ thấp rủi ro khi cần giải tức thời. Có thể kết quả trả về khơng q
tồn diện bởi giới hạn trong lượng thơng tin truy xuất, thu thập được, nhưng đây sẽ là những
kết quả phản ánh gần sát nhất với thực tế. Data đầu vào càng đầy đủ và chất lượng, độ tin cậy
của kết quả trả ra sẽ càng cao.
Mặc dù, việc quyết định sẽ còn phụ thuộc vào khả năng tư duy nhà quản lý nhưng việc được
trang bị bởi những dữ liệu rõ ràng, cụ thể sẽ giúp họ đi đến những quyết định có tỷ lệ thành
cơng cao hơn việc phụ thuộc vào cảm tính hay kinh nghiệm cá nhân.
- Ứng dụng để tối đa hóa hiệu suất kinh doanh
Phát hiện vấn đề từ sớm: data science giúp cho các doanh nghiệp dễ dàng rà soát các hoạt
động của doanh nghiệp, kể cả những vấn đề phức tạp. Từ đây, data scientist phối hợp với các
nhà quản lý hệ thống được các vấn đề tắc nghẽn trong doanh nghiệp một cách tổng quát từ
gốc rễ vấn đề cho đến dự báo tác động của nó.
Nắm bắt xu hướng: ứng dụng của khoa học dữ liệu cũng có thể chỉ ra những xu hướng mới
trên thị trường, thị hiếu của người tiêu dùng. Dựa trên cơ sở này, nhà quản lý có thể điều
hướng doanh nghiệp sớm theo nắm bắt và thậm chí dẫn đầu xu hướng.
Cải thiện sản phẩm, dịch vụ và cơ cấu tổ chức: data science mang lại cái nhìn tổng quan về
các điểm giao nhau của nội tại doanh nghiệp đến thị hiếu người tiêu dùng, thị trường. Những
dữ liệu trực quan mà data science cung cấp sẽ giúp doanh nghiệp có xác định được định
hướng điều chỉnh phù hợp với bối cảnh và thõa các điểm giao trên.
Thúc đẩy ý tưởng mới và thâm nhập thị trường: những ý tưởng dựa trên những insight giá
trị mà các đối thủ cạnh tranh chưa khai thác được chính là cơ hội để các doanh nghiệp dẫn
đầu trong một sân chơi mới.
Hỗ trợ quá trình thử nghiệm sản phẩm: đối với 1 thị trường, sản phẩm mới các nhà quản lý
phải đối mặt với những biến số khác nhau từ các vấn đề khách quan. Ứng dụng của data
science sẽ được phát huy để dự báo những nguy cơ, ghi nhận phản ứng của thị trường, xác
định vấn đề chưa đạt được như kỳ vọng… để gia tăng khả năng thành cơng cho q trình thử
nghiệm.
Hồn thiện trải nghiệm khách hàng: data science giúp ghi nhận những điểm hài lòng của
khách hàng về sản phẩm/ dịch vụ, những vấn đề cịn ghi nhận phản ứng khơng tốt. Qua đó,
nhà quản lý biết được đâu là điểm chạm cần cải thiện và hoàn thiện tổng thể trải nghiệm
khách hàng để tạo ra lợi thế cạnh tranh trong bối cảnh thị trường .
Bảo mật thông tin: data science kết hợp với data analytics nâng cao tính hiệu quả của q
trình ngăn ngừa sự tấn cơng bảo mật thơng tin trong doanh nghiệp. Vì khoa học dữ liệu nhanh
chóng ghi nhận được các dữ liệu bất thường và loại bỏ được nguy cơ các vấn đề gây hại đến
quá trình vận hành của doanh nghiệp.
1
Như vậy, ứng dụng của data science trong thời đại mới khơng những mang lại khả năng nhìn
nhận vấn đề một cách toàn diện, giúp xác định đường hướng giải quyết vấn đề ít rủi ro mà
cịn bao trùm lên tổng thể các hoạt động kinh doanh. Và làm thế nào để khai thác hiệu quả
các ứng dụng này chính là bài toán lớn cho những các nhà quản lý.
2.3.
Quy trình thực hiện dự án Khoa học dữ liệu
● Bước 1: Đóng khung vấn đề (xác định đề tài nghiên cứu)
● Bước 2: Thu thập dữ liệu thô cần thiết để giải quyết vấn đề
● Bước 3: Xử lý dữ liệu
● Bước 4: Khám phá dữ liệu
● Bước 5: Thực hiện phân tích chuyên sâu
● Bước 6: Truyền đạt kết quả phân tích
2.4.
Lý thuyết và các phương pháp trong phân tích dữ liệu (đề cập đến lý thuyết,
cơ sở tốn học, … của các mơ hình nhóm áp dụng)
✥ Phương pháp phân tích dữ liệu là q trình thu thập, mơ hình hóa và phân tích dữ liệu để
rút ra những hiểu biết sâu sắc hỗ trợ việc ra quyết định. Có một số phương pháp và kỹ thuật
để thực hiện phân tích tùy thuộc vào ngành và mục đích của phân tích.
Hình 5: Phương pháp phân tích dữ liệu
✥ Mô tả phương pháp:
● Phương pháp phân lớp dữ liệu
1. Định nghĩa
Là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờ một
mơ hình phân lớp. Mơ hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn
trước đó (thuộc về lớp nào). Q trình gán nhãn (thuộc lớp nào) cho đối tượng dữ liệu
chính là q trình phân lớp dữ liệu.
1
2. Quá trình phân lớp
Hình 6: Quá trình phân lớp dữ liệu
Bước 1: Xây dựng mơ hình (ngồi ra cịn gọi là giai đoạn “học” hoặc “huấn luyện”)
- Dữ liệu đầu vào: nghĩa là dữ liệu mẫu đã được gán nhãn và tiền xử lý.
ui
ui
ui
ui
ui
-
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
i
i
i
i
ui
ui
i
ui
i
ui
ui
ui
ui
Các thuật toán phân lớp như là cây quyết định, hàm số toán học, tập luật…
Kết quả của bước này là mơ hình phân lớp mà đã được huấn luyện (trình phân
lớp)
Bước 2: Trong đó:
Bước 2.1: Đánh giá mơ hình (
này sẽ kiểm tra tính đúng đắn của mơ hình)
Dữ
liệu
đầu
nghĩa
là
một
tập
liệu
khác
đãnhiên,được
n hình phân
vàlớp, tiền
xử
lý. Tuy
khi đưagá
vào mơ
ta
sẽ
“lờ”
đi
thuộc
nhãn.
được
gán
sẽ đã
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
i
i
ui
i
ui
i
ui
ui
ui
i
i
ui
i
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
i
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
Để
so
i
mẫu
tính
ui
ui
xác
sánh
định
thuộc
tính
tính
ui
ui
ui
đúng
gán
ui
ui
ui
ui
ui
ui
phân
ui
lớp
ui
của
mơ
ui
hình.
ui
2.2:
Phân
lớp
dữ
iệu
mới
Dữ
liệu
đầu
vào:
nghĩa
là
liệu
“khuyết” thuộc
tính
cần
dự
đốn
lớp
(nhãn)
Mơ
hình
sẽ
tự
động
phân lớp
(gán
nhãn)
các
đối
tượng
dữ
liệu
này
dựa
vào
được
huấn luyện ở bước 1.
những gì
3. Phân loại bài tốn phân lớp
Bài tốn phân lớp có nhiệm vụ là phân các đối tượng dữ liệu vào n lớpcho trước:
n = 2: Phân lớp nhị phân
+ n> 2: Phân lớp đa lớp.
Mỗi đối tượng dữ liệu chỉ thuộc vào 1 lớp duy nhất là: Phân lớp đơn nhãn.
ui
ui
i
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
-
ui
ui
ui
+
ui
ui
ui
đắn
của
mơ
hình
ta
nhãn
của
dữ
liệu
đầu
vào,
kế
quả
-
ui
ui
ui
ui
ui
ui
Bước
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
1
-
Một đối tượng dữ liệu có thể cùng lúc thuộc về nhiều lớp khác nhau là Phân lớp đa
nhãn.
4. Các mơ hình phân lớp
4.1. Hồi quy logistic (Tên tiếng anh: Logistic Regression)
1
Định nghĩa: Hồi quy Logistic là một mơ hình xác suất dự đoán giá trị đầu ra rời rạc từ một
tập các giá trị đầu vào (được biểu diễn dưới dạng vector).
H
ì
n
h
7:
Mơ hình hồi quy logistic
Một ví dụ điển hình như là phân loại Email, gồm có email cơng việc, email gia
đình,...
Giao dịch trực tuyến như là an tồn hay là khơng an tồn, khối u lành
hay là
tính
ác
Thuật
trên dùng hàm sigmoid logistic để đưa ra đánh giá theo xác
tốn
suất.
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
i
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
u
tính.
i
ui
ui
ui
Mơ tả đối với bài toán phân lớp:
● Tập nhãn y = {𝑦1, 𝑦2, … , 𝑦𝑛} trong đó: 𝑛 𝑙à 𝑠ố 𝑙ớ𝑝.
Một đối tượng dữ liệu 𝒙 = 𝑥1, 𝑥2, … , 𝑥𝑑 trong đó: 𝑑 𝑙à 𝑠ố 𝑡ℎ𝑢ộ𝑐 𝑡í𝑛ℎ 𝑐ủ𝑎 𝑚ỗ𝑖 𝑑ò𝑛𝑔 𝑑ữ 𝑙𝑖ệ𝑢
𝑣à đượ𝑐 𝑏𝑖ể𝑢 𝑑𝑖ế𝑛 𝑑ướ𝑖 𝑑ạ𝑛𝑔 𝑣𝑒𝑐𝑡𝑜𝑟
1
● Hàm logistic 𝑃(𝑦 = 1) =
dự đoán đối tượng xem đối tượng x sở
−w 0+w 1 x 1+ w2 x2 +...+ wdxd
1+ e
hữu các thuộc tính cụ thể sẽ thuộc vào lớp y
nào.
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
Hình 8: Đồ thị inverse logit
Trong đó:
d: số lượng đặc trưng (thuộc tính) của dữ liệu.
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
1
● w: trọng số, ban đầu sẽ được khởi tạo ngẫu nhiên, sau đó sẽ được điều chỉnh lại
cho phù hợp.
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
i=0
∑❑wixi
z=
d
P(y) = sigmoid(z) =
1
1+ e−z
Hình 9: Mơ hình phân lớp nhị phân sử dụng phương pháp hồi quy logistic
Vấn đề: cần tìm bộ hệ số (trọng số): w0, w1, w2, ... ,
phù hợp để ước lượng.
wd
→ Bộ hệ này sẽ được tính tốn và điều chỉnh trong giai đoạn huấn luyện. Sau đó, sẽ
số
được sử
trong q trình đánh giá mơ hình và phân lớp dữ liệu mới.
dụng
4.2. Mơ hình cây quyết định (Decision Tree)
Khái niệm
- Trong lý thuyết quản trị,
cây quyết định là đồ thị các quyết
định cùng các kết quả khả dĩ đi
kèm nhằm hỗ trợ quá trình ra
quyết định.
- Trong lĩnh vực khai thác dữ liệu,
cây quyết định là phương pháp
nhằm mơ tả, phân loại và tổng hợp
hóa tập dữ liệu cho trước.”
Hình 10: Mơ hình cây quyết định
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
Decision Tree Cây quyết
định) là một phân cấp cấu trúc được dùng để phân lớp các
đốitượng dựa vào dãy các luật (S
đối
tượng
eries of Rules). Các thuộc tính
(ngoại
thuộc tính phân lớp - Category at
tribute) có thể thuộc
trừ
các
liệu
khác
kiểu dữ
Nominal, ordinal, quantitative values) trongkhi
nhau
(Binary, lại, cho dữ liệu về các đối tượng gồm có các thuộc
đó tínhthuộc
phân
lớp
cùng vớitính
lớp (classes)
phải
có
y vẫn có một số chú ý
q trình sử dụng để xây dựng các mơ hình phân
kiểu dữ l iệu
Binary
hoặc
Tóm
Tree được tạo
ra bởi chỉ
giới Ordinal.
của
nó,
Câycác trường
yết hợplàđịnh
sẽ
sinh
các
luật
để
dự
dự đoán
lớp
của
các
dữ
liệu
chưa
biết
phương
ph
ân
lớp
(unseen da
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
uiui
ui
i
ui
ui
ui
ui
i
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
Decision Tree
i
ui ui
ui
ui
u
ui
ui
ui
ui
ui
ui
u
ui
ui
ui
u
u
ui
ui
ui
ui
ui
mặc dù vậ ta).
ui
ui
u
ui
ui
ui
ui
ui
là
ui
ui
ui
i
u
i
ui
u
một
i
một
i
áp
1
quả
và
hiểu
u
dễ
rất hiệu
lớp
như
sau: Hiệu
quả
của
phân
lớp
phụ
lớ
thuộc rấ t
n vào training
data. Chẳng
hạn
Decision
hạn
trong
một ít samples
data
hiệu
quả
ứng
khơng
(thường
training
data
phải
đủ
lớn
tin
cậy) và
vì
vậy
ta khơng
thể nói
rằng
tập các
luậ t (Series
of
Rules)
được
sinh ra
bởi
Decision
Tree
là
tập
luật
tốt
nhất.
ui
ui
i
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
i
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
i
1
Lưu ý:
- Một tập dữ liệu có thể được biểu diễn bởi nhiều cây quyết tương ứng.
- Trong số đó, (theo nguyên lý Ockham’s Razor) cây nào càng gọn thì càng tốt hơn.
Ưu điểm:
● Dễ hiểu.
● Khơng địi hỏi việc chuẩn hóa dữ liệu.
● Có thể xử lý trên nhiều kiểu dữ liệu khác nhau.
● Xử lý tốt một lượng dữ liệu lớn trong thời gian nhắn.
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
i
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
i
i
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
Khuyết điểm:
quyết trong tình huống dữ liệu phụ thuộc thời gian.
● Khó
giải
●
Chi
xây dựng mơ hình cao.
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
4.3. Mơ hình Support Vector Machine
- SVM là một thuật tốn có giám sát, nhận dữ liệu vào, xem chúng như những
các vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng
một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu.
- SVM là một thuật toán phân loại nhị phân, nhận dữ liệu vào và phân loại chúng vào
các lớp khác nhau.
- SVM xây dựng (learn) một siêu phẳng (hyperplane) để phân lớp (classify) tập dữ liệu
thành hai lớp riêng biệt. Để làm được điều này SVM xây dựng một siêu phẳng
một
trong
một
không
an
nhiều chiều
hoặc
vô
tập hợp các s iêu phẳng
hạn
có thể
được
chiều,
sử dụng
các phân
loại,
hồi
quy.
Để phân loại tốt
cần
phả
xác
định
siêu
phẳng
(Optimal
nằm ở
xa
các điểm dữ liệu
tấ
cả các lớp
(hàm
lề)
càng
tốt
vì
lề
càng
lớn
thì
sai
số
của
thuật
tổng qt hó a
phân
loại càng
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
- Một siêu phẳng là một hàm tương tự như phương trình đường thẳng y = ax + b.
Nếu
iệu
chỉ
gồm 2
thì
siêu
phẳng
cần phân lớp
dữ l
lúc này s
ờng
thẳng.
là một đư
ui
ta
ẽ
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
-
ui
SVM
sử
dụng
để
ánh
xạ
tập
dữ
thủthuật
liệu ban đầ
u
vào
khơng
gian
nhiều
chiều
hơn.
Khi đã
ánh xạ
sang
khơng
gian
nhiều
chiều,
SVM
sẽ
xem
xét
và
chọn
ra
siêu
phẳng
phù
hợp
tập
dữ
liệu
đó.
Muốn
các
điểm
để phân l ớp
dữ
liệu
chia
có thể đư ợc
một
cách
tuyến
tính
thì
cần
phả i
hai
siêu
phẳng
của
lề
sao
cho
khơng
ểm
có đi
giữa
chúng
và
giữa
chúng
là
tối
đa.
khoảng c ách
Trong
nhiều
trường
hợp,
khơng thể phân
chia
dữ liệu
một
cách
tuyến
tính
trong
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
1
ui
một
không
gian
ban
đầu
đề.
vậy
nhiều
khi
cần
xạ
các điểm
liệu
trong
không
gian
mới
nhiều
chiều
để
việc phân
chúng
trở
gian
mới.
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
được
dùng
để mô
phả i
ông
an
ban
đầu
hơn,
nên
dễ
ng
hơn
ui
ui
một
ui
ui
vấn
ui
ui
vào
ui
một
ui
ui
ui
trong
ui
không
ui
ui
ui
Một số khái niệm:
- Margin: là khoảng cách giữa siêu phẳng
(trong trường hợp không gian 2 chiều là
đường thẳng) đến 2 điểm dữ liệu gần nhất
tương ứng với 2 phân lớp. SVM cố
gắng tối ưu bằng cách tối đa hóa giá
trị margin
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
ui
2