Tải bản đầy đủ (.docx) (37 trang)

ĐỒ ÁN CƠ SỞ : Tìm hiểu Khoa học dữ liệu Data Science

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.17 MB, 37 trang )

TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH
KHOA CÔNG NGHỆ THÔNG TIN

ĐỒ ÁN CƠ SỞ

Tên đề tài: Tìm hiểu Khoa học dữ liệu (Data Science)

Giảng viên hướng dẫn: VƯƠNG XUÂN CHÍ
Sinh viên thực hiện: NGUYỄN MINH ĐĂNG
MSSV: 2011549718
Khố: 2020
Ngành/ chun ngành: CƠNG NGHỆ THÔNG TIN/KHOA HỌC DỮ
LIỆU

Tp HCM, tháng 09 năm 2022

1


TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH
KHOA CÔNG NGHỆ THÔNG TIN

ĐỒ ÁN CƠ SỞ

Tên đề tài: Tìm hiểu Khoa học dữ liệu (Data Science)

Giảng viên hướng dẫn: VƯƠNG XUÂN CHÍ
Sinh viên thực hiện: NGUYỄN MINH ĐĂNG
MSSV: 2011549718
Khố: 2020
Ngành/ chun ngành: CƠNG NGHỆ THÔNG TIN/KHOA HỌC DỮ


LIỆU

TPHCM, tháng 09 năm 2022

2


Trường Đại học Nguyễn Tất Thành
Khoa Công Nghệ Thông Tin
   

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
   

NHIỆM VỤ ĐỒ ÁN CƠ SỞ
Họ và tên: Nguyễn Minh Đăng.................................................MSSV: 2011549718
Chuyên ngành: Khoa học Dữ Liệu...........................................Lớp:20DTH2A
Tên đề tài: Tìm hiểu Khoa học dữ liệu (Data science)..............
Giáo viên hướng dẫn: Vương Xn Chí
Thời gian thực hiện: 20/06/2022 đến 20/09/2022
MƠ TẢ ĐỀ TÀI: Data Science được định nghĩa là tất cả những gì về thu thập, khai
thác và phân tích dữ liệu để tìm ra insight giá trị. Sau đó trực quan hóa các Insight cho
các bên liên quan, để chuyển hóa Insight thành hành động. Đây là lĩnh vực đa ngành
sử dụng các phương pháp và quy trình khoa học để rút ra insight từ dữ liệu.
NỘI DUNG VÀ PHƯƠNG PHÁP:
- Giới thiệu ngành Data science
- Phân tích dữ liệu, tạo Data và truy vấn SQL
- Áp dụng Machine learning vào ngành học
- Kiến thức rút ra rừ ngành Khoa học dữ liệu

YÊU CẦU:
- Có kiến thức, đam mê, hiểu biết về công nghệ mới như Mạng neural, Machine
Learning, Deep Learning…. Đọc hiểu tài liệu tiếng Anh, kỹ năng trình bày văn bản
trên máy tính tốt.
- Có tác phong làm việc chăm chỉ, tinh thần trách nhiệm cao, có khả năng làm việc độc
lập hoặc làm việc trong nhóm tốt.
Nội dung và yêu cầu đã được thông qua Bộ môn.
TP.HCM, ngày 26 tháng 06 năm
2022
TRƯỞNG BỘ MÔN
(Ký và ghi rõ họ tên)

GIÁO VIÊN HƯỚNG DẪN
(Ký và ghi rõ họ tên)

3


LỜI MỞ ĐẦU
Sự phát triển mạnh mẽ của cuộc cách mạng khoa học và công nghệ, đặc biệt là của
công nghệ thông tin và truyền thông đã tác động sâu sắc đến sự phát triển kinh tế thế
giới. Thế giới đang chuyển dần từ xã hội công nghiệp sang xã hội thơng tin với nền
kinh tế chi thức. Tồn cầu hóa kinh tế được xác định là một xu thế khách quan, tạo cơ
hội cho phát triển. Khoa học và cơng nghệ (KH&CN) sẽ có bước nhảy vọt và những
đột phá lớn, tác động nhều mặt đến tất cả các quốc gia
Những năm gần đây, vai trò của các hệ thống thông tin trong doanh nghiệp đã ngày
càng lớn mạnh. Từ chỗ chỉ được sử dụng để hỗ trợ một số hoạt động trong văn phịng,
hệ thống thơng tin đã trở nên có vai trị chiến lược trong doanh nghiệp. Đặc biệt những
thành tựu trong công nghệ thông tin (CNTT) đã khiến doanh nghiệp ngày càng chú ý
hơn tới việc áp dụng những nó để gia tăng thế cạnh tranh và tạo cơ hội cho mình.

Thành tựu CNTT khơng chỉ giới hạn trong các doanh nghiệp lớn, tầm cỡ đa quốc gia
mà còn lan rộng trong tất cả các doanh nghiệp, kể cả những doanh nghiệp vừa và nhỏ
ở những nước đang phát triển. Tuy nhiên, việc ứng dụng thành tựu CNTT một ứng
dụng thành công trong các lĩnh vực hiện nay cũng cịn mới ở nước ta. Vì vậy, đồ án
của nhóm đó là tìm hiểu về “Khoa học dữ liệu (Data science)” để có cái nhìn sâu hơn,
thực tế hơn về việc ứng dụng hệ thống thông tin trong các lĩnh vực đời sống. Vì thời
gian thực hiện khơng nhiều nên chắc chắn cịn nhiều thiếu sót, mong được thầy cô chỉ
dẫn thêm

4


LỜI CẢM ƠN
Em xin gửi lời cảm ơn chân thành đến thầy Vương Xn Chí giảng viên khoa Cơng
nghệ thơng tin trường Đại học Nguyễn Tất Thành đã trang bị giúp em những kỹ năng
cơ bản và kiến thức cần thiết để hoàn thành được đồ án cơ sở này.
Tuy nhiên, trong quá trình làm đồ án cơ sở do kiến thức chun ngành của em cịn hạn
chế nên khơng thể tránh khỏi một vài thiếu sót khi trình bày và đánh giá vấn đề. Rất
mong nhận được sự góp ý, đánh giá của các thầy cô bộ môn để đề tài của em thêm
hoàn thiện hơn.
Em xin chân thành cảm ơn!

5


TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH
TRUNG TÂM KHẢO THÍ

BM-ChT11


KỲ THI KẾT THÚC HỌC PHẦN
HỌC KỲ …..… NĂM HỌC …….. - ….…

PHIẾU CHẤM THI TIỂU LUẬN/ĐỒ ÁN
Môn thi:Đồ án cơ sở Khoa học Dữ Liệu.........................Lớp học phần:20DTH2A.......................
Nhóm sinh viên thực hiện:
1. Nguyễn Tiến Thành.......................................
2. Nguyễn Minh Đăng.......................................
Ngày thi: 22/09/2022.......................................................Phòng thi: ..............................................
Đề tài tiểu luận/báo cáo của sinh viên : Tìm hiểu Khoa học Dữ Liệu (Data Science)..................
Phần đánh giá của giảng viên (căn cứ trên thang rubrics của mơn học):
Tiêu chí (theo
Đánh giá của GV
CĐR HP)
Cấu trúc của ....................................................................................
báo cáo
....................................................................................
Nội dung
- Các nội dung ....................................................................................
thành phần
....................................................................................
- Lập luận
....................................................................................
....................................................................................
- Kết luận
....................................................................................
Trình bày

Điểm tối
đa


Điểm đạt
được

....................................................................................

TỔNG ĐIỂM
Giảng viên chấm thi
(ký, ghi rõ họ tên)

6


MỤC LỤC

7


Chương 1./ Giới thiệu ngành Data Sciense
1./ Data Sciense là gì?
Data science cịn được biết đến với tên gọi là Khoa học dữ liệu. Đúng với tên gọi của nó,
về mặt bản chất, đây chính là cơng việc thu thập và phân tích dữ liệu. Data science là một
lĩnh vực liên ngành mà trong đó, những bộ dữ liệu được xử lý, sắp xếp và giải mã bằng
các mơ hình thống kê hay phương pháp toán học.
Khoa học dữ liệu là lĩnh vực nghiên cứu dữ liệu nhằm khai thác những thơng tin chun
sâu có ý nghĩa đối với hoạt động kinh doanh. Đây là một phương thức tiếp cận đa ngành,
kết hợp những nguyên tắc và phương pháp thực hành của các lĩnh vực tốn học, thống kê,
trí tuệ nhân tạo và kỹ thuật máy tính để phân tích khối lượng lớn dữ liệu. Nội dung phân
tích này sẽ giúp các nhà khoa học dữ liệu đặt ra và trả lời những câu hỏi như sự kiện gì đã
xảy ra, tại sao nó xảy ra, sự kiện gì sẽ xảy ra và có thể sử dụng kết quả thu được cho mục

đích gì.

Hình 1.1 Data Science và các lĩnh vực liên quan

8


2./ Tầm quan trọng của Data Sciense
Các công ty phụ thuộc vào nền tảng dữ liệu để cấu trúc, phát triển và cải tiến doanh
nghiệp. Các Data Scientist làm việc với các con số, phân tích một một khối lượng lớn
Data để xuất ra những Insight ý nghĩa. Những insight này rất hữu ích khi phân tích cơng
ty và các hoạt động của cơng ty trên thị trường từ đó đưa ra các quyết định đúng đắn.
Cũng như các ngành cơng nghiệp thương mại khác, ngành chăm sóc sức khỏe cũng ứng
dụng Data Science. Nơi mà cơng nghệ đang có nhu cầu rất lớn để nhận dạng các khối u
siêu nhỏ ngay từ giai đoạn đầu.
Thống kê chỉ ra số lượng vai trò của các Data Scientist đã tăng trưởng 650% kể từ năm
2012. Khoảng 11,5 triệu việc làm liên quan đến chức danh này sẽ được tạo ra đến năm
2026 (theo U.S. Bureau of Labor Statistics). Bên cạnh đó công việc của các Data
Scientist được xếp hạng top các công việc nổi bật trên LinkedIn.
Khoa học dữ liệu quan trọng bởi vì lĩnh vực này kết hợp các cơng cụ, phương pháp và
công nghệ để rút ra ý nghĩa từ dữ liệu. Các tổ chức hiện đại chìm ngập trong dữ liệu và
hiện có vơ vàn thiết bị có thể tự động thu thập và lưu trữ dữ liệu. Các hệ thống và cổng
thanh toán trực tuyến đang dần thu thập nhiều dữ liệu hơn trong những lĩnh vực thương
mại điện tử, y tế, tài chính cũng như mọi khía cạnh khác của đời sống con người. Chúng
ta có sẵn khối lượng đồ sộ dữ liệu dưới dạng văn bản, âm thanh, video và hình ảnh.
Đáng tiếc thay, dữ liệu thơ chẳng có giá trị trừ khi chúng có thể được sử dụng để giải
quyết vấn đề. Các nhà khoa học dữ liệu có thể chuyển đổi dữ liệu thơ thành những đề
xuất có ý nghĩa. Họ có thể phát hiện và giải quyết các vấn đề mà doanh nghiệp cịn khơng
biết là chúng tồn tại. Các tổ chức có thể sử dụng những đề xuất này để khiến khách hàng
hài lịng hơn, tối ưu hóa chuỗi cung ứng hoặc cho ra mắt các sản phẩm mới.

2.1./ Tại sao khoa học dữ liệu lại quan trọng?
Khoa học dữ liệu quan trọng bởi vì lĩnh vực này kết hợp các công cụ, phương pháp và
công nghệ để rút ra ý nghĩa từ dữ liệu. Các tổ chức hiện đại chìm ngập trong dữ liệu và
hiện có vơ vàn thiết bị có thể tự động thu thập và lưu trữ dữ liệu. Các hệ thống và cổng
thanh toán trực tuyến đang dần thu thập nhiều dữ liệu hơn trong những lĩnh vực thương

9


mại điện tử, y tế, tài chính cũng như mọi khía cạnh khác của đời sống con người. Chúng
ta có sẵn khối lượng đồ sộ dữ liệu dưới dạng văn bản, âm thanh, video và hình ảnh.
Đáng tiếc thay, dữ liệu thơ chẳng có giá trị trừ khi chúng có thể được sử dụng để giải
quyết vấn đề. Các nhà khoa học dữ liệu có thể chuyển đổi dữ liệu thơ thành những đề
xuất có ý nghĩa. Họ có thể phát hiện và giải quyết các vấn đề mà doanh nghiệp cịn khơng
biết là chúng tồn tại. Các tổ chức có thể sử dụng những đề xuất này để khiến khách hàng
hài lịng hơn, tối ưu hóa chuỗi cung ứng hoặc cho ra mắt các sản phẩm mới.

Hình 1.2 Tại sao Data Science lại quan trọng?
3./ Lợi ích của Data Science
Khoa học dữ liệu đang cách mạng hóa phương thức hoạt động của các công ty. Nhiều
doanh nghiệp, bất kể quy mô, đều cần một chiến lược khoa học dữ liệu hiệu quả để thúc
đẩy tăng trưởng và duy trì lợi thế cạnh tranh. Một số lợi ích chính bao gồm:
3.1./ Khám phá các mẫu biến đổi tiềm ẩn
Khoa học dữ liệu cho phép các doanh nghiệp phát hiện ra những mẫu và mối quan hệ mới
có tiềm năng biến đổi tồn bộ tổ chức. Nó có thể hé lộ những thay đổi với chi phí thấp
10


trong việc quản lý nguồn lực để tạo ra tác động tối đa đến tỷ suất lợi nhuận. Ví dụ: một
công ty thương mại điện tử sử dụng khoa học dữ liệu để phát hiện ra rằng có rất nhiều

truy vấn của khách hàng được tạo sau giờ làm việc. Các cuộc điều tra cho thấy rằng
khách hàng có nhiều khả năng mua hàng hơn nếu họ được phản hồi nhanh chóng thay vì
nhận được câu trả lời trong ngày làm việc tiếp theo. Bằng cách triển khai dịch vụ khách
hàng 24/7, doanh thu của doanh nghiệp đã tăng thêm 30%.
3.2./ Sáng tạo các sản phẩm và giải pháp mới
Khoa học dữ liệu có thể hé lộ những lỗ hổng và vấn đề thường bị bỏ sót. Thơng tin
chun sâu hơn về quyết định mua hàng, phản hồi của khách hàng và quy trình kinh
doanh có thể thúc đẩy sự đổi mới sáng tạo trong hoạt động nội bộ cũng như các giải pháp
bên ngồi. Ví dụ: giải pháp thanh toán trực tuyến sử dụng khoa học dữ liệu để đối chiếu
và phân tích đánh giá của khách hàng về cơng ty trên mạng xã hội. Phân tích cho thấy
rằng khách hàng quên mật khẩu trong giai đoạn mua sắm cao điểm và khơng hài lịng với
hệ thống khơi phục mật khẩu hiện tại. Cơng ty có thể sáng tạo ra một giải pháp tốt hơn và
nhận thấy mức độ hài lòng của khách hàng tăng lên đáng kể.
3.3./ Tối ưu hóa trong thời gian thực
Các doanh nghiệp, đặc biệt là những doanh nghiệp quy mô lớn, gặp rất nhiều thách thức
trong việc phản ứng với những điều kiện thay đổi trong thời gian thực. Điều này có thể
gây ra những tổn thất hoặc gián đoạn đáng kể trong hoạt động kinh doanh. Khoa học dữ
liệu có thể hỗ trợ các cơng ty dự đốn thay đổi và phản ứng một cách tối ưu với những
tình huống khác nhau. Ví dụ: một công ty vận chuyển bằng xe tải sử dụng khoa học dữ
liệu để giảm thời gian ngừng hoạt động khi xe bị hỏng hóc. Họ xác định được các mẫu
tuyến đường và ca làm việc khiến xe hỏng nhanh hơn và thay đổi lịch trình vận chuyển.
Họ cũng thiết lập một kho phụ tùng thay thế phổ biến cần thay thường xuyên để sửa chữa
xe tải nhanh chóng hơn.

11


4./ Ứng dụng của Khoa học Dữ Liệu
Data Science được coi là một trong những mảng có tính ảnh hưởng đến sự phát triển của
các doanh nghiệp và có tính ứng dụng trong thực tế rất cao. Dưới đây là 6 ứng dụng thực

tế nhất của Data Science.
4.1./ Ứng dụng trong ngành ngân hàng
Đầu tiên phải nhắc đến chính là ngành ngân hàng, Data Science giúp cho các ngân hàng
phân tích các dữ liệu trong Big Data của mình để tìm ra vịng đời giá trị khách hàng, phân
tích hành động của các nhóm khách hàng, phân tích chống gian lận,.... Chính những dữ
liệu sau khi được phân tích sẽ giúp các ngân hàng có kế hoạch phát triển, và có sức cạnh
tranh với các đối thủ khác.
4.2./ Ứng dụng trong ngành tài chính
Đối với ngành tài chính, ngành Data Science có vai trị quan trọng để giúp các cơng ty tự
động hóa các cơng việc trong nghiệp vụ tài chính kế tốn. Hoặc dựa vào các thơng tin cá
nhân của khách hàng để phân tích dự đốn nhu cầu của khách hàng trong tương lai, từ đó
đưa ra những dịch vụ, sản phẩm phù hợp.
4.3./ Ứng dụng trong ngành sản xuất
Đối với ngành sản xuất, Data Science sẽ giúp cho doanh nghiệp có thể tự động hóa quy
trình sản xuất, từ đó cải thiện được khả năng sản xuất ra sản phẩm với chi phí thấp hơn,
hiệu suất cao hơn đồng thời tăng doanh thu và lợi nhuận.
4.4./ Ứng dụng trong ngành vận tải
Ứng dụng của Data Science trong ngành giao thơng vận tải là bằng cách phân tích dữ liệu
từ bản đồ, đường phố, hành vi người lái, công ty sẽ tạo ra những công nghệ như xe tự lái,
tự động cảnh báo nguy hiểm,...
Ngồi ra, nhiều cơng ty vận tải như Grab, Goviet,... cũng đang sử dụng Data Science để
điều chỉnh giá cả, nâng cao trải nghiệm khách hàng. Những cơng cụ dự đốn qua số liệu
cực kỳ hiệu quả đã giúp họ nắm bắt thông tin về người truy cập, giá dịch vụ qua đồng hồ
đo và mật độ lưu thông trên đường.

12


4.5./ Ứng dụng trong ngành y tế – chăm sóc sức khỏe
Ứng dụng của Data Science trong ngành y tế – chăm sóc sức khỏe: nhờ sự phát triển của

ngành Data Science mà các nhà khoa học có thể phân loại được những bệnh bẩm sinh do
gen quyết định, các phản ứng của cơ thể và gen đối với thuốc chữa bệnh.
Cũng nhờ những dữ liệu phân tích được mà họ có thể điều chế ra những loại thuốc mới
trong thời gian ngắn, với tỉ lệ thành công cao. Data Science cũng hỗ trợ phân tích và
chuẩn đốn các bệnh nhờ việc tổng hợp, phân tích dữ liệu của dấu hiệu bệnh.
5./ Lịch sử và tương lai của Khoa học Dữ Liệu
5.1./ Lịch sử lĩnh vực khoa học dữ liệu
Tuy rằng thuật ngữ khoa học dữ liệu khơng có gì mới, ý nghĩa và hàm ý của thuật ngữ
này đã thay đổi theo thời gian. Thuật ngữ này lần đầu xuất hiện vào khoảng thập niên 60,
trong vai trò là tên gọi khác của thống kê. Đến cuối thập niên 90, các chuyên gia khoa
học máy tính đã chính thức hóa thuật ngữ này. Một định nghĩa được đề xuất cho khoa học
dữ liệu mô tả lĩnh vực này như một ngành riêng biệt gồm 3 khía cạnh: thiết kế, thu thập
và phân tích dữ liệu. Vẫn phải mất thêm một thập niên nữa thì thuật ngữ này mới được sử
dụng ngoài giới học thuật.
5.2./ Tương lai của lĩnh vực khoa học dữ liệu
Những đột phá về trí tuệ nhân tạo và máy học đã giúp hoạt động xử lý dữ liệu nhanh và
hiệu quả hơn. Nhu cầu trong ngành đã tạo ra một hệ sinh thái các khóa học, bằng cấp và
vị trí việc làm trong lĩnh vực khoa học dữ liệu. Do địi hỏi trình độ chun mơn và bộ kỹ
năng đa ngành nghề, lĩnh vực khoa học dữ liệu cho thấy sự phát triển mạnh mẽ được dự
kiến trong những thập niên tới.

13


Hình 1.3 Khoa học dữ liệu (kỷ nguyên số của tương lai)
6./ Công dụng của Khoa học Dữ Liệu
Khoa học dữ liệu được sử dụng để nghiên cứu dữ liệu theo 4 phương pháp chính:
6.1./ Phân tích mơ tả
Phân tích mô tả xem xét dữ liệu để thu thập thông tin chuyên sâu về những sự kiện đã
hoặc đang xảy ra trong môi trường dữ liệu. Đặc trưng của phương pháp này là sự trực

quan hóa dữ liệu, chẳng hạn như bằng biểu đồ tròn, biểu đồ cột, biểu đồ đường, bảng
hoặc văn bản thuyết minh. Ví dụ: một dịch vụ đặt vé máy bay có thể ghi lại dữ liệu như
số lượng vé được đặt mỗi ngày. Phân tích mô tả sẽ chỉ ra mức tăng giảm đột biến trong số
lượng vé được đặt và các tháng hoạt động hiệu quả cao của dịch vụ này.
6.2./ Phân tích chẩn đốn
Phân tích chẩn đốn là một phương pháp phân tích chuyên sâu hoặc chi tiết dữ liệu để
nắm được nguyên nhân khiến một sự kiện xảy ra. Đặc trưng của phương pháp này là các
kỹ thuật như truy sâu, khám phá dữ liệu, khai thác dữ liệu và đối chiếu. Nhiều thao tác
14


vận hành và chuyển đổi dữ liệu có thể được thực hiện trên một tập dữ liệu nhất định để
phát hiện ra những mẫu độc đáo trong từng kỹ thuật này. Ví dụ: dịch vụ đặt vé máy bay
có thể sẽ truy sâu vào một tháng hoạt động đặc biệt hiệu quả để hiểu rõ hơn về mức tăng
đột biến trong số lượng vé được đặt. Điều này có thể dẫn tới việc phát hiện ra rằng nhiều
khách hàng ghé thăm một thành phố nhất định để tham dự một sự kiện thể thao hàng
tháng.
6.3./ Phân tích dự đốn
Phân tích dự đoán sử dụng dữ liệu lịch sử để đưa ra các dự báo chính xác về mẫu dữ liệu
có thể xảy ra trong tương lai. Đặc trưng của phương pháp này là các kỹ thuật như máy
học, dự báo, so khớp mẫu và lập mơ hình dự đốn. Trong mỗi kỹ thuật, máy tính được
đào tạo để thiết kế ngược các mối quan hệ nguyên nhân-kết quả trong dữ liệu. Ví dụ: đội
ngũ dịch vụ đặt vé máy bay có thể sử dụng khoa học dữ liệu để dự đoán mẫu đặt vé trong
năm tới vào thời điểm đầu mỗi năm. Chương trình hoặc thuật tốn máy tính có thể xem
xét dữ liệu trong quá khứ và dự đoán mức tăng đột biến trong số lượng vé được đặt cho
các điểm đến nhất định trong tháng 5. Khi đã dự đoán được nhu cầu du lịch trong tương
lai của khách hàng, cơng ty sẽ có thể bắt đầu quảng cáo nhắm mục tiêu cho các thành phố
đó từ tháng 2.
6.4./ Phân tích đề xuất
Phân tích đề xuất đưa dữ liệu dự đoán lên một tầm cao mới. Phương pháp này khơng chỉ

dự đốn sự kiện gì sẽ xảy ra mà còn đề xuất một phản ứng tối ưu cho kết quả đó. Nó có
thể phân tích tác động tiềm ẩn của các lựa chọn khác nhau và đề xuất hướng hành động
tốt nhất. Nó sử dụng phân tích đồ thị, mô phỏng, xử lý sự kiện phức tạp, mạng nơ-ron và
cơng cụ đề xuất từ máy học.
Quay lại ví dụ về dịch vụ đặt vé máy bay, phân tích đề xuất có thể xem xét các chiến dịch
tiếp thị trước đây để tăng tối đa lợi thế của mức tăng đột biến sắp tới trong số lượng vé
được đặt. Nhà khoa học dữ liệu có thể dự đốn kết quả đặt vé cho các mức chi tiêu tiếp
thị khác nhau trên những kênh tiếp thị đa dạng. Những dự báo này sẽ giúp công ty đặt vé
máy bay tự tin hơn khi đưa ra các quyết định tiếp thị.

15


7./ Quy trình khoa học dữ liệu là gì?
Quy trình khoa học dữ liệu thường được bắt đầu bởi một vấn đề kinh doanh. Nhà khoa
học dữ liệu sẽ làm việc với các bên liên quan để tìm hiểu nhu cầu của doanh nghiệp. Một
khi vấn đề đã được xác định, nhà khoa học dữ liệu sẽ giải quyết nó bằng cách sử dụng
quy trình khoa học dữ liệu OSEMN:
7.1./ O – Thu thập dữ liệu (Obtain data)
Dữ liệu có thể tồn tại từ trước, mới được thu thập hoặc là một kho dữ liệu có thể tải
xuống từ Internet. Các nhà khoa học dữ liệu có thể trích xuất dữ liệu từ những cơ sở dữ
liệu nội bộ hoặc bên ngồi, phần mềm CRM của cơng ty, nhật ký máy chủ web, mạng xã
hội hoặc mua dữ liệu từ các nguồn bên thứ ba đáng tin cậy.
7.2./ S – Làm sạch dữ liệu (Scrub data)
Làm sạch dữ liệu là quy trình chuẩn hóa dữ liệu dựa theo một định dạng được định trước.
Quy trình này bao gồm xử lý dữ liệu còn thiếu, sửa lỗi dữ liệu và loại bỏ mọi dữ liệu
ngoại lai. Một số ví dụ về làm sạch dữ liệu:·
-

Thay đổi toàn bộ các giá trị ngày thành một định dạng tiêu chuẩn phổ biến.

Sửa lỗi chính tả hoặc thừa khoảng trống.
Sửa lỗi tính tốn khơng chính xác hoặc xóa dấu phẩy khỏi các số lớn.

7.3./ E – Khám phá dữ liệu (Explore data)
Khám phá dữ liệu là thao tác phân tích sơ bộ dữ liệu được sử dụng để lập kế hoạch kỹ
hơn cho các chiến lược mơ hình hóa dữ liệu. Các nhà khoa học dữ liệu nắm được hiểu
biết ban đầu về dữ liệu bằng cách sử dụng thống kê mô tả và các cơng cụ trực quan hóa
dữ liệu. Sau đó họ khám phá dữ liệu để xác định các mẫu thú vị có thể được nghiên cứu
hoặc tận dụng.
7.4./ M – Mơ hình hóa dữ liệu (Model data)
Phần mềm và các thuật toán máy học được sử dụng để thu thập thơng tin chun sâu hơn,
dự đốn kết quả và đề xuất hướng hành động tốt nhất. Các kỹ thuật máy học như liên kết,
phân loại và phân nhóm được áp dụng cho tập dữ liệu đào tạo. Mơ hình có thể được thử
nghiệm so với dữ liệu thử nghiệm định trước để đánh giá độ chính xác của kết quả. Mơ
hình dữ liệu có thể được tinh chỉnh nhiều lần để cải thiện kết quả thu được.
16


7.5./ N – Diễn giải kết quả (Interpret results)
Các nhà khoa học dữ liệu hợp tác cùng các chuyên gia phân tích và doanh nghiệp để
chuyển đổi thơng tin chi tiết về dữ liệu thành hành động. Họ tạo ra các sơ đồ, đồ thị và
biểu đồ để thể hiện những xu hướng và dự đốn. Tóm tắt dữ liệu giúp các bên liên quan
hiểu rõ và triển khai kết quả một cách hữu hiệu.
8./ Các kỹ thuật khoa học dữ liệu là gì?
Các chuyên gia khoa học dữ liệu sử dụng hệ thống máy tính để giám sát quy trình khoa
học dữ liệu. Những kỹ thuật hàng đầu được sử dụng bởi các nhà khoa học dữ liệu là:
8.1./ Phân loại
Phân loại là kỹ thuật sắp xếp dữ liệu thành các nhóm hoặc danh mục cụ thể. Máy tính
được đào tạo để xác định và sắp xếp dữ liệu. Các tập dữ liệu đã xác định được sử dụng để
xây dựng những thuật toán ra quyết định trong một máy tính có khả năng xử lý và phân

loại dữ liệu một cách nhanh chóng. Ví dụ:·
-

Phân loại sản phẩm theo phổ biến hoặc không phổ biến
Phân loại đơn bảo hiểm theo rủi ro cao hoặc rủi ro thấp
Phân loại bình luận trên mạng xã hội thành tích cực, tiêu cực hoặc trung lập.

Các chuyên gia khoa học dữ liệu sử dụng hệ thống máy tính để giám sát quy trình khoa
học dữ liệu.
8.2./ Hồi quy
Hồi quy là phương pháp tìm ra mối quan hệ giữa 2 điểm dữ liệu dường như không liên
quan. Mối liên kết này thường được lập mơ hình xoay quanh một cơng thức tốn học và
được biểu thị dưới dạng đồ thị hoặc đường cong. Khi giá trị của một điểm dữ liệu đã
được xác định, hồi quy sẽ được sử dụng để dự đoán điểm dữ liệu cịn lại. Ví dụ:·
-

Tốc độ lây nhiễm của các căn bệnh lây qua đường khơng khí.
Mối quan hệ giữa mức độ hài lòng của khách hàng và số lượng nhân viên.
Mối quan hệ giữa số trạm cứu hỏa và số người bị thương do hỏa hoạn tại một
địa điểm cụ thể.

17


8.3./ Phân nhóm
Phân nhóm là phương pháp gộp các dữ liệu có liên quan chặt chẽ lại với nhau để tìm
kiếm các mẫu và điểm dị thường. Phân nhóm khác với phân loại vì dữ liệu khơng thể
được sắp xếp chính xác vào các hạng mục cố định. Do đó, dữ liệu được nhóm thành các
mối quan hệ có khả năng xảy ra nhất. Thơng qua phân nhóm, các mẫu và mối quan hệ
mới có thể được phát hiện. Ví dụ: ·

-

Nhóm những khách hàng có hành vi mua hàng giống nhau để cải thiện dịch vụ

-

khách hàng.
Nhóm lưu lượng mạng để xác định mẫu sử dụng hàng ngày và nhanh chóng

-

phát hiện một cuộc tấn cơng mạng.
Nhóm các bài viết thành nhiều hạng mục tin tức khác nhau và sử dụng thơng
tin này để tìm kiếm tin giả.

8.4./ Ngun tắc cơ bản đằng sau các kỹ thuật khoa học dữ liệu
Mặc dù khác nhau về chi tiết, nhưng những kỹ thuật này có các nguyên tắc cơ bản như
sau:
-

Đào tạo một cỗ máy cách phân loại dữ liệu dựa trên một tập dữ liệu đã xác
định. Ví dụ: những từ khóa mẫu được nhập vào máy tính kèm theo giá trị phân

-

loại của chúng. “Hạnh phúc” là tích cực, còn “Ghét” là tiêu cực.
Cung cấp dữ liệu chưa xác định cho máy và cho phép thiết bị phân loại tập dữ

-


liệu một cách độc lập.
Cho phép sai lệch về kết quả và xử lý hệ số xác suất của kết quả.

9./ Những công nghệ khoa học dữ liệu khác nhau là gì?
Các nhà khoa học dữ liệu làm việc với những cơng nghệ phức tạp như:
9.1./ Trí tuệ nhân tạo
Các mơ hình máy học và phần mềm liên quan được sử dụng để phân tích dự đốn và
phân tích đề xuất.
9.2./ Điện tốn đám mây
Cơng nghệ đám mây đã trao cho các nhà khoa học dữ liệu sự linh hoạt và sức mạnh xử lý
cần thiết để phân tích dữ liệu nâng cao.
18


9.3./ Internet vạn vật
IoT đề cập đến hàng loạt các thiết bị có thể tự động kết nối với Internet. Những thiết bị
này thu thập dữ liệu cho các sáng kiến khoa học dữ liệu. Chúng tạo ra khối lượng dữ liệu
đồ sộ có thể được sử dụng để khai thác dữ liệu và trích xuất dữ liệu.
9.4./ Máy tính lượng tử
Máy tính lượng tử có thể thực hiện các phép tính phức tạp ở tốc độ cao. Các nhà khoa
học dữ liệu trình độ cao sử dụng chúng để xây dựng các thuật toán định lượng phức tạp.

Hình 1.4 Công nghệ Khoa học Dữ liệu
10./ Khoa học dữ liệu có gì khác biệt so với các lĩnh vực dữ liệu khác có liên quan?
Khoa học dữ liệu là một thuật ngữ bao hàm tất cả các vai trò và lĩnh vực khác liên quan
đến dữ liệu. Hãy cùng tìm hiểu về một số lĩnh vực đó dưới đây:
10.1./ Điểm khác biệt giữa khoa học dữ liệu và phân tích dữ liệu là gì?
Mặc dù hai thuật ngữ này có thể được sử dụng thay thế cho nhau, phân tích dữ liệu là một
nhánh phụ của khoa học dữ liệu. Khoa học dữ liệu là một thuật ngữ bao hàm mọi khía
cạnh của xử lý dữ liệu—từ thu thập dữ liệu đến lập mơ hình rồi rút ra thơng tin chuyên

sâu. Mặt khác, phân tích dữ liệu chủ yếu liên quan tới thống kê, tốn học và phân tích
thống kê. Lĩnh vực này chỉ tập trung vào phân tích dữ liệu, trong khi đó, khoa học dữ liệu
19


liên quan đến bức tranh toàn cảnh hơn về dữ liệu của tổ chức. Tại hầu hết môi trường làm
việc, các nhà khoa học dữ liệu và nhà phân tích dữ liệu phối hợp cùng nhau để đạt các
mục tiêu kinh doanh chung. Một nhà phân tích dữ liệu có thể dành nhiều thời gian hơn
cho việc phân tích thơng thường, cung cấp các báo cáo thường xuyên. Một nhà khoa học
dữ liệu có thể thiết kế phương thức lưu trữ, điều chỉnh và phân tích dữ liệu. Nói một cách
đơn giản, nhà phân tích dữ liệu diễn giải dữ liệu hiện có, cịn nhà khoa học dữ liệu tạo ra
các phương pháp và công cụ mới để xử lý dữ liệu cho các nhà phân tích sử dụng.
10.2./ Điểm khác biệt giữa khoa học dữ liệu và phân tích kinh doanh là gì?
Mặc dù có sự trùng lặp giữa khoa học dữ liệu và phân tích kinh doanh, điểm khác biệt
chính giữa hai lĩnh vực này là việc sử dụng công nghệ trong từng lĩnh vực. Các nhà khoa
học dữ liệu làm việc sát với công nghệ dữ liệu hơn các nhà phân tích kinh doanh. Các nhà
phân tích kinh doanh thu hẹp khoảng cách giữa kinh doanh và CNTT. Họ xác định các
trường hợp kinh doanh, thu thập thông tin từ những bên liên quan hoặc xác thực các giải
pháp. Mặt khác, các nhà khoa học dữ liệu sử dụng công nghệ để làm việc với dữ liệu kinh
doanh. Họ có thể viết ra các chương trình, áp dụng những kỹ thuật máy học để tạo ra mơ
hình và phát triển thuật toán mới. Các nhà khoa học dữ liệu khơng chỉ nắm rõ vấn đề mà
cịn có thể xây dựng một công cụ cung cấp giải pháp cho vấn đề đó. Việc các nhà phân
tích kinh doanh phối hợp với những nhà khoa học dữ liệu trong cùng nhóm là chuyện
khơng hiếm gặp. Nhà phân tích kinh doanh lấy và sử dụng kết quả từ nhà khoa học dữ
liệu để diễn giải theo cách mà toàn thể doanh nghiệp có thể hiểu.
10.3./ Điểm khác biệt giữa khoa học dữ liệu và kỹ thuật dữ liệu là gì?
Các kỹ sư dữ liệu xây dựng và duy trì các hệ thống cho phép nhà khoa học dữ liệu truy
cập và diễn giải dữ liệu. Họ làm việc chặt chẽ với công nghệ cơ bản hơn là các nhà khoa
học dữ liệu. Vai trò này thường liên quan tới việc tạo các mơ hình dữ liệu, xây dựng
đường ống dữ liệu và giám sát quy trình trích xuất, chuyển đổi, tải (ETL). Tùy thuộc vào

quy mô và cơ cấu của tổ chức, kỹ sư dữ liệu cũng có thể quản lý cơ sở hạ tầng liên quan
như nền tảng lưu trữ, truyền phát và xử lý dữ liệu lớn như Amazon S3. Các nhà khoa học
dữ liệu sử dụng dữ liệu mà kỹ sư dữ liệu đã xử lý để xây dựng và đào tạo các mơ hình dự
20


đốn. Sau đó, các nhà khoa học dữ liệu có thể giao kết quả cho các nhà phân tích để đưa
ra quyết định tiếp theo.
10.4./ Điểm khác biệt giữa khoa học dữ liệu và máy học là gì?
Máy học là lĩnh vực khoa học về đào tạo máy móc phân tích và học hỏi từ dữ liệu giống
như con người. Đây là một trong những phương pháp được sử dụng trong các dự án khoa
học dữ liệu nhằm thu thập thông tin chuyên sâu tự động từ dữ liệu. Các kỹ sư máy học
chun về kỹ năng tính tốn, thuật toán và viết mã cụ thể cho các phương pháp máy học.
Các nhà khoa học dữ liệu có thể sử dụng các phương pháp máy học như một công cụ
hoặc hợp tác chặt chẽ với các kỹ sư máy học khác để xử lý dữ liệu.
10.5./ Điểm khác biệt giữa khoa học dữ liệu và thống kê là gì?
Thống kê là một lĩnh vực dựa trên toán học nhằm thu thập và diễn giải dữ liệu định
lượng. Ngược lại, khoa học dữ liệu là một lĩnh vực đa ngành sử dụng các phương pháp,
quy trình và hệ thống khoa học để trích xuất tri thức từ dữ liệu dưới nhiều hình thức khác
nhau. Các nhà khoa học dữ liệu sử dụng các phương pháp từ nhiều lĩnh vực, bao gồm cả
thống kê. Tuy nhiên, các lĩnh vực này khác nhau về quy trình và những vấn đề mà chúng
nghiên cứu.

Chương 2./ Machine Learning trong ngành học
1./ Machine Learning là gì?
Có 2 định nghĩa khá rõ ràng về Machine Learning như sau:
-

Theo Arthur Samuel (1959): Máy học là ngành học cung cấp cho máy tính khả


-

năng học hỏi mà khơng cần được lập trình một cách rõ ràng
Theo Giáo sư Tom Mitchell – Carnegie Mellon University: Machine Learning
là 1 chương trình máy tính được nói là học hỏi từ kinh nghiệm E từ các tác vụ
T và với độ đo hiệu suất P. Nếu hiệu suất của nó áp dụng trên tác vụ T và được
đo lường bởi độ đo P tăng từ kinh nghiệm E

21


Hình 2.1 Machine Learning
Ví dụ cho định nghĩa của Tom Mitchell
Ví dụ 1: Giả sử như bạn muốn máy tính xác định một tin nhắn có phải là SPAM hay
khơng
Tác vụ T: Xác định 1 tin nhắn có phải SPAM hay không?
Kinh nghiệm E: Xem lại những tin nhắn đánh dấu là SPAM xem có những đặc tính gì để
có thể xác định nó là SPAM.
Độ đo P: Là phần trăm số tin nhắn SPAM được phân loại đúng.
Ví dụ 2: Chương trình nhận dạng số (số từ 0 -> 9)
T: Là nhận dạng được ảnh chứa ký tự số.
E: Đặc trưng để phân loại ký tự số từ tập dữ liệu số cho trước.
P: Độ chính xác của quá trình nhận dạng.

22


Hình 2.2 Mối liên hệ giữa Trí Tuệ Nhân Tạo với các nhánh học như Máy Học, Biểu Diễn
Tri Thức và Suy Luận, Xử Lý Ngôn Ngữ Tự Nhiên, Thị Giác Máy Tính…


23


2./ Sự phát triển của Machine Learning
Nhờ vào công nghệ điện tốn, ngày nay Machine Learning khơng cịn là máy tính “học”
những chuyện trong quá khứ nữa. Machine Learning được sinh ra từ khả năng nhận diện
pattern và từ lý thuyết các máy tính có thể “học” mà khơng cần phải lập trình để thực
hiện các tasks cụ thể đó. Về phía các nhà nghiên cứu quan tâm đến trí tuệ nhân tạo, họ lại
muốn xem thử liệu máy tính có thể học dữ liệu như thế nào. Yếu tố lặp trong Machine
Learning rất quan trọng vì khi các models tiếp xúc với dữ liệu mới, Machine Learning có
thể thích ứng được 1 cách độc lập. Machine Learning sẽ “học” các computations trước để
trả về các kết quả, các quyết định đáng tin cậy, lặp lại được.
Từ lâu đã có nhiều thuật toán Machine Learning nổi tiếng nhưng khả năng tự động áp
dụng các phép tính phức tạp vào Big Data – lặp đi lặp lại với tốc độ nhanh hơn – chỉ mới
phát triển gần đây.
Các ứng dụng của Machine Learni

ng đã trở nên quá quen thuộc như:

-

Xe tự lái, giảm thiểu tai nạn của Google? Chính là bản chất của machine

-

learning
Các ưu đãi recommendation online như của Amazong & Netflix? Ứng dụng

-


của Machine Learning trong cuộc sống hằng ngày
Muốn biết người dùng nói gì về bạn trên Twitter? Machine Learning kết hợp

-

với sự sáng tạo của quy tắc ngôn ngữ
Nhận diện lừa đảo? Một trong những nhu cầu sử dụng hiển nhiên ngày nay

24


Hình 2.3 Sự phát triển của Machine Learning
Cùng với công nghệ máy tính ngày càng phát triển, Máy Học ngày nay khơng giống như
Máy Học của q khứ nữa. Nó được sinh ra từ nhận dạng mẫu (pattern recognition) và lý
thuyết rằng máy tính có thể học mà khơng cần được lập trình để thực hiện các nhiệm vụ
cụ thể; các nhà nghiên cứu quan tâm đến trí tuệ nhân tạo muốn xem liệu máy tính có thể
học từ dữ liệu hay khơng. Khía cạnh lặp đi lặp lại của Máy Học rất quan trọng vì khi các
mơ hình được tiếp xúc với dữ liệu mới, chúng có thể thích ứng một cách độc lập. Chúng
học hỏi từ các tính tốn trước đó để đưa ra các quyết định và kết quả rất đáng tin cậy, có
thể lặp lại. Đây là một ngành khoa học không mới – nhưng lại là một ngành khoa học đã
đạt được nhiều bước tiến lớn.
3./ Thế nào để có những hệ thống Machine Learning tốt?
- Khả năng chuẩn bị dữ liệu
- Thuật toán – căn bản & nâng cao
- Quy trình tự động và quy trình lặp lại
- Khả năng scale
- Ensemble modeling
25



×