Tải bản đầy đủ (.docx) (25 trang)

Đồ án deeplearning hc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (685.22 KB, 25 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH
KHOA CÔNG NGHỆ THÔNG TIN

ĐỒ ÁN MÔN HỌC
ĐỒ ÁN DEEPLEARNING

Giảng viên giảng dạy
Sinh viên thực hiện
MSSV
Lớp
Chun ngành
Mơn học
Khóa

:
:
:
:
:
:
:

HỒ KHƠI
VÕ QUỐC ĐỨC
2000005949
20DTH1D
Khoa Học Dữ Liệu
Đồ Án Deeplearning
2021 – 2022


Tp.HCM, Tháng 12 Năm 2022


Trường Đại học Nguyễn Tất Thành
Khoa Công Nghệ Thông Tin
🙜🙜🙜🙜

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT
NAM
Độc lập – Tự do – Hạnh phúc
🙜🙜🙜🙜
NHIỆM VỤ ĐỒ ÁN CƠ SỞ

(Sinh viên phải đóng tờ này vào báo cáo)
Họ và tên: VÕ QUỐC ĐỨC
MSSV: 2000005949
Email: SĐT: 0909689203
Chuyên ngành: Khoa học dữ liệu
Lớp: 20DTH1D
Tên đề tài: Mơ Hình Dự Đốn Chi Phí Dựa Trên Quãng Đường Đi
Giáo viên hướng dẫn: Hồ Khôi

`

Thời gian thực hiện: 14/ 10 /2022 đến 21/12/2022
Nhiệm vụ/nội dung (mô tả chi tiết nội dung, yêu cầu, phương pháp… ):
NỘI DUNG VÀ PHƯƠNG PHÁP:
Mạng nơ ron nhân tạo được ứng dụng cho rất nhiều lĩnh vực như: tài chính,
giao dịch, phân tích kinh doanh, lập kế hoạch cho doanh nghiệp và bảo trì sản
phẩm. Neural Network cịn được sử dụng khá rộng rãi cho những hoạt động

kinh doanh khác như: dự báo thời tiết, và tìm kiếm các giải pháp nhằm nghiên
cứu tiếp thị, dự đốn âm thanh, hình ảnh, nhận diện …
YÊU CẦU:





Tìm hiểu về mạng ANN, áp dụng ANN để ứng dụng giải quyết nhận diện
khuôn mặt ở người

Nội dung và yêu cầu đã được thông qua Bộ mơn.
TP.HCM, ngày 27 tháng 06 năm 2021
TRƯỞNG BỘ MƠN
(Ký và ghi rõ họ tên)

ThS. Vương Xuân Chí

GIÁO VIÊN HƯỚNG DẪN
(Ký và ghi rõ họ tên)

ThS. Hồ Khôi

2


3


LỜI CẢM ƠN

Lời nói đầu tiên em xin gửi lời cám ơn đến thầy Hồ Khôi đã hướng dẫn và giúp đỡ em
trong suốt học kỳ này với bộ môn Khoa học dữ liệu, thầy đã truyền đạt cho em nhiều
kiến thức về mạng Noron và những kiến thức bổ ích về Khoa học dữ liệu . Song với
đó thầy đã tạo cho em nguồn cảm hứng, sự tìm tịi và học hỏi về môn Khoa học dữ
liệu này. Đặc biệt trong lúc giảng bài, thầy ln tích cực giảng rõ từng chi tiết, luôn
vui tươi, thoải mái để tạo cho chúng em một bầu khơng khí dễ chịu dễ tiếp thu được
bài học. Vì thế cho đến ngày hơm nay em đã thực sự hiểu rõ hơn về nó và có thêm
những kiến thức hay cho ngành mà em đang theo đuổi. Cám ơn thầy đã tận tình hướng
dẫn và giải đáp tất cả khúc mắc mỗi khi em gặp khó khăn trong q trình học và làm
bài. Cảm ơn thầy !
Em cũng xin cám ơn các giảng viên khoa Công Nghệ Thông Tin Trường Đại Học
Nguyễn Tất Thành đã tạo điều kiện và giúp đỡ em trong quá trình học tập.
Và em cũng gửi lời cảm ơn đến tập thể lớp 20DTH1D đã cùng đồng hành với em
trong học kỳ này nói chung và bộ mơn này nói riêng.

Sinh viên thực hiện
Võ Quốc Đức

4


LỜI MỞ ĐẦU
Công nghệ thông tin là một ngành học được đào tạo để sử dụng máy tính và các phần
mềm máy tính để phân phối và xử lý các dữ liệu thông tin, đồng thời dùng để trao đổi,
lưu trữ và chuyển đổi các dữ liệu thông tin dưới nhiều hình thức khác nhau.
Sau khi được đào tạo, sinh viên học ngành này sẽ được trang bị kiến thức nền tảng và
chuyên sâu về lĩnh vực công nghệ thông tin để nâng cao tay nghề nhằm phát triển khả
năng sửa chữa, xây dựng, cài đặt, bảo trì các phần cứng của máy tính cũng như nghiên
cứu và phát triển các ứng dụng phần mềm. Ngoài ra cũng được trang bị kiến thức về
an tồn và bảo mật thơng tin mạng, một trong những lĩnh vực quan trọng được quan

tâm hàng đầu trên thế giới hiện nay.
Hiện nay, Công nghệ thông tin (CNTT) đang trong giai đoạn phát triển như vũ báo ở
mọi lĩnh vực hoạt động khắp nơi trên thế giới.Điều này đã làm cho nghành công nghệ
thông tin ngày càng được nhiều người quan tâm đặc biệt là giới trẻ hiện nay, tư tưởng
thích cái mới, thích sự tìm tịi sáng tạo là yếu tố quan trọng hấp dẫn các bạn trẻ đến
nghành nghề này.
Tồn cầu hóa những năm 1990 đã làm xuất hiện khuynh hướng xã hội quan trọng, đó
là sự chuyển trạng thái từ xã hội cơng nghiệp sang xã hội kiến thức và trong đó thơng
tin giữ vai trị trọng yếu. Sự phát triển và ứng dụng CNTT ngày nay báo trước một
thời kỳ mới với những thay đổi xã hội lớn lao. CNTT như một công nghệ chung xâm
nhập vào mọi lĩnh vực kinh tế xã hội.. Là một ngành tổng thể bao gồm nhiều nhánh
nhỏ như mạng lưới bưu chính viễn thơng, truyền thơng đa phương tiện, internet...,
chúng ta có thể khẳng định rằng ở Việt Nam đã xây dựng được một cơ cấu hạ tầng có
đồng bộ, đầy đủ trong hệ thống ngành cơng nghệ thơng tin. Ở đây chúng ta có thể kể
tới một dấu mốc đáng nhớ trong sự phát triển ngành CNTT đó là vào năm 1997, nước
ta đã biến “giấc mơ Internet” thành hiện thực bằng việc tham gia kết nối vào mạng
tồn cầu và tính cho tới thời điểm này, Việt nam đã trở thành quốc gia có tỷ lệ tăng
trưởng Internet nhanh nhất trong khu vực

5


NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................

............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
............................................................................................................................................
Điểm đồ án: ........................................................................................................................
............................................................................................................................................
TPHCM, Ngày …… tháng …… năm
Giáo viên hướng dẫn
Hồ Khôi

6


MỤC LỤC
CHƯƠNG I. GIỚI THIỆU.........................................................................................8
1. GIỚI THIỆU ĐỀ TÀI....................................................................................................................................8
2. LÝ DO CHỌN ĐỀ TÀI.................................................................................................................................8
3. MỤC TIÊU CỦA ĐỀ TÀI.................................................................................................8
4. PHƯƠNG PHÁP ĐỀ TÀI..................................................................................................8
5. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU.............................................................................................9
CHƯƠNG II : ỨNG DỤNG THUẬT TỐN............................................................9
1.MƠ TẢ BÀI TỐN..........................................................................................................9
2. XÂY DỰNG BỘ DỮ LIỆU...............................................................................................9
3. ÁP DỤNG THUẬT TOÁN VÀO BÀI TỐN.....................................................................10
3.1 Mơ hình Hồi quy tuyến tính (Linear Regression Model).......................................10
3.2 Hàm mất mát (Loss Function)...............................................................................11
3.3 Thuật toán tối ưu Loss Function (Optimization Algorithms).................................13
3.4 Một số biểu đồ thường gặp :.................................................................................15
4. THỰC NGHIỆM VỚI THƯ VIỆN PYPTHON........................................................................................18

CHƯƠNG III–XÂY DỰNG ỨNG DỤNG BẰNG NGƠN NGỮ PYTHON..........18
1. CÁC ĐOẠN CODE VÀ GIẢI THÍCH...............................................................................18
2.DỰ ĐỐN....................................................................................................................19
3.TỈ LỆ CHÍNH XÁC CỦA ƯỚC LƯỢNG............................................................................21
KẾT LUẬN................................................................................................................ 23
KẾT QUẢ ĐẠT ĐƯỢC......................................................................................................23
HƯỚNG PHÁT TRIỂN ĐỀ TÀI.....................................................................................................................23
TÀI LIỆU THAM KHẢO.........................................................................................23

DANH MỤC CÁC BẢNG HÌNH
Hình 1 mơ phỏng dữ liệu.............................................................................................10
7


Hình 2 cơng thức tốn Linear Regression..................................................................11
Hình 3 Cơng thức tổng qt:.......................................................................................11
Hình 4 cơng thức hàm mất mát...................................................................................12
Hình 5 ví dụ................................................................................................................. 12
Hình 6 ví dụ................................................................................................................. 12
Hình 7 ví dụ................................................................................................................. 12
Hình 8 ví dụ................................................................................................................. 13
Hình 9 cơng thức tốn học...........................................................................................14
Hình 10 Gradient Descent cho hàm 1 biến :................................................................14
Hình 11 ví dụ............................................................................................................... 15
Hình 12 ví dụ............................................................................................................... 15
Hình 13 biểu đồ plot....................................................................................................16
Hình 14 biểu đồ Bar Chart...........................................................................................16
Hình 15 biểu đồ Histogram Plot..................................................................................17
Hình 16 biểu đồ Box Plot............................................................................................17
Hình 17 Biểu đồ Scatter Plot.......................................................................................18

Hình 18 khai báo thư viện và đọc file csv...................................................................19
Hình 19 hàm load_data................................................................................................19
Hình 20 hàm mất mát..................................................................................................20
Hình 21 kết quả...........................................................................................................20
Hình 22 Gradient_Descent..........................................................................................20
Hình 23 in ra kết quả...................................................................................................21
Hình 24 kết quả...........................................................................................................21
Hình 25 đọc file và khai báo thư viện..........................................................................21
Hình 26 tạo và lấy dữ liệu...........................................................................................21
Hình 27 vẽ các giá trị và in chúng ra...........................................................................22
Hình 28 kết quả...........................................................................................................22

CHƯƠNG I. GIỚI THIỆU
1. Giới thiệu đề tài
Hiện nay, trong lối sống hằng ngày và nhu cầu của con người ngày càng cao , việc đi
lại và vận chuyển các vật dụng đều khơng cịn khó khăn nữa . Với việc chỉ cần có một
8


cái điện thoại và nhấc máy lên đặt một cuốc xe là có thể kiếm được cho mình một tài
xế xe ơm uy tín , chất lượng.
Do đó có một mơ hình được gọi là “ Xe ơm cơng nghệ” ra đời, mơ hình này giúp cho
mọi người dễ dàng thuận tiện khi muốn tham gia giao thông mà không có đủ điều kiện
để tham gia giao thơng, để sử dụng mơ hình này, rất đơn giản bạn chỉ cần tải ứng dụng
về máy của bạn ( có rất nhiều ứng dụng khác nhau tương ứng với các hãng khác
nhau).Ví dụ : Bee, Grab, Gojeck… sau đó bạn đăng nhập ứng dụng chọn điểm bắt
đầu và điểm đến, ứng dụng sẽ tự động đề xuất cho bạn tài xế gần nhất, quãng đường đi
tốt nhất và số tiền cần phải trả tương ứng với quãng đường mà bạn đi.
Vì vậy, dựa trên nhu cầu và sự phát triển công nghệ tơi quyết định xây dựng một bài
tốn dự đốn về một sự cố do ứng dụng bị lỗi và không thể thanh tốn tiền lúc đó. Tơi

dựa trên những dữ liệu có sẵn và dùng các thuật tốn để giải quyết vấn đề . Sau đó tơi
sẽ có được kết quả như mong muốn.
2. Lý do chọn đề tài
Do hiện nay việc sử dụng “ xe ôm công nghệ” rất phổ biến nên lượng người truy cập
vào ứng dụng là rất lớn và truy cập cùng một lúc, việc này đôi khi sẽ làm cho ứng
dụng xuất hiện lỗi như không đề xuất tài xế gần nhất, quãng đường tốt nhất, không
hiển thị số tiền cần phải chi trả,…và việc này tôi đã từng gặp phải nên chúng
3. Mục tiêu của đề tài
Khi ứng dụng xuất hiện lỗi không hiện thị số tiền cần phải trả tương ứng với quãng
đường đi, tôi sẽ dựa vào dữ liệu “ lịch sử” của những lần đi trước ( số km đã đi và số
tiền đã chi trả) để tính ra số tiền cần trả .
4. Phương pháp đề tài
Tôi sẽ sử dụng các kiến thức đã học, các thuật toán như Linear Regression, Logistic
Regression,…đã tiếp thu trong quá trình nghe giảng và kiến thức đã học, trau dồi mỗi
ngày. Song với đó là bộ dữ liệu tôi đã thu thập được để nghiên cứu, dự đoán số tiền
cần trả tương ứng với quãng đường đã đi.
5. Đối tượng và phạm vi nghiên cứu
• Đối tượng: những người đang gặp phải lỗi khi truy cập ứng dụng khi sử dụng ứng
dụng “Xe ôm cơng nghệ”.
• Phạm vi nghiên cứu: chỉ áp dụng duy nhất đối với những trường hợp xảy ra lỗi
“không hiển thị số tiền cần chi trả”.
9


CHƯƠNG II : ỨNG DỤNG THUẬT TỐN
1.Mơ tả bài tốn.
Một hôm , tôi đặt 1 chuyến Garb từ nhà tôi đến quận 1 dài 10km nhưng xui thay ứng
dụng này bị mất khả năng tính tốn thành tiền và bác xe ơm khơng thể biết số tiền
chính xác mà tơi cần trả.
May thay , tơi vẫn cịn truy cập vào lịch sử các chuyến đi của mình như bảng ….. bên

dưới , liệu rằng dựa trên những thông tin này tơi có thể tính được số tiền tơi cần trả
cho 10km ngày hôm nay ?
Giả sử số Km tôi đi và số tiền cần phải trả Garb phụ thuộc tuyến tính vào nhau, tức là
số KM tăng thì số tiền cần phải trả Grab tăng hoặc số Km giảm thì số tiền cần trả
Grab giảm, tơi có thể tìm ra được 1 hàm biểu thị được mối quan hệ giữa 2 đại lượng
này khơng ? Câu trả lời là Có .
Tại sao tơi phải tìm ra hàm đó ? Vì nếu tìm được nó, việc tơi cần làm chỉ thay số Km
tơi đi ngày hơm đó vào hàm và tìm ra được số tiền cần trả .
2. Xây dựng bộ dữ liệu
Đầu tiên , tôi truy cập vào lịch sử của ứng dụng để thấy hết những dữ liệu mà tơi đã đi.
Ta có được bảng dữ liệu như sau :

10


Hình 1 mơ phỏng dữ liệu
Trong đó :
Distance là qng đường đã đi được với đơn vị là Kilomet (Km)
Cost là chi phí cần phải trả tương ứng với quãng đường đã đi với đơn vị là VND.
Rain là thời tiết ngày hơm đó có mưa hay khơng . Giá trị 0 và 1 cho biết có hoặc
khơng có mưa.
Peltroleum là giá xăng mặc định mà người xe ôm phải trả trong cơng việc của minh.
3. Áp dụng thuật tốn vào bài tốn
3.1 Mơ hình Hồi quy tuyến tính (Linear Regression Model)
Định nghĩa : Trong thống kê, hồi quy tuyến tính là một phương pháp dùng để mơ hình
hóa mối quan hệ giữa một đại lượng vô hướng với một hoặc nhiều biến độc lập.
Các dạng của mơ hình hồi quy tuyến tính:

11



Hình 2 cơng thức tốn Linear Regression

Hình 3 Cơng thức tổng quát:
Ý nghĩa của hồi quy tuyến tính :
Đối với mục đích của chúng ta, thuật ngữ tuyến tính (linear)trong mơ hình hồi quy
tuyến tính nghĩa là tuyến tính ở các hệ số hồi quy (linearity in the regression
coefficients), Bs, và khơng phải tuyến tính ở các biến Y và X. [Diễn giải: Nghĩa là Y
và X có thể ở các dạng phi tuyến (nonlinear)]. Ví dụ, các biến Y và X có thể ở dạng
logarít tự nhiên như ln(X2).
Ví dụ: tham khảo Gary Koop, Bayesian Econometrics, John Wiley & Sons, West
Sussex, England, 2003.
(natural logarithm)5 , dạng tỷ lệ nghịch như 1/X 3 (reciprocal), hoặc dạng bình phương
như X22 (square), lập phương như X23 (cube), hay bất kỳ dạng nào khác.
Tuyến tính ở các hệ số Bs, nghĩa là Bs khơng ở dạng bình phương như B 22 , tỷ lệ B2/
B3, hay ln(B4). Có các trường hợp ở đó chúng ta phải xem xét các mơ hình hồi quy
khơng tuyến tính ở các hệ số hồi quy6 .
3.2 Hàm mất mát (Loss Function)
Định nghĩa : Hàm mất mát trả về một số không âm thể hiện mức độ chênh lệch giữa
giá trị mà model của chúng ta dự đoán và giá trị thực tế.
Ordinary Least Squares :
12


Mức độ chênh lệch như chúng ta nhắc bên trên chính là tất cả các đường màu xanh
được biểu diễn dưới đây. Ta sẽ có một hàm thể hiện trung bình tổng các đại lượng sai
lệch.

Hình 4 cơng thức hàm mất mát
Vậy để hàm F càng xấp xỉ data của chúng ta thì hàm inline largeJ (theta) </a> chúng

ta phải đạt giá trị nhỏ nhất theo ** inline largeJ (theta) **.
* Cách xây dựng Loss Function
Vì loss function đo đạc chênh lệch giữa và , nên khơng lạ gì nếu ta nghĩ ngay đến việc
lấy hiệu giữa chúng:

Hình 5 ví dụ
Tuy nhiên hàm này lại khơng thỏa mãn tính chất khơng âm của một loss function. Ta
có thể sửa nó lại một chút để thỏa mãn tính chất này.
Ví dụ như lấy giá trị tuyệt đối của hiệu:

Hình 6 ví dụ
Loss function này không âm nhưng lại không thuận tiện trong việc cực tiểu hóa, bởi vì
đạo hàm của nó không liên tục (nhớ là đạo hàm của bị đứt quãng tại ) và thường các
phương pháp cực tiểu hóa hàm số thơng dụng địi hỏi phải tính được đạo hàm. Một
cách khác đó là lấy bình phương của hiệu:

Hình 7 ví dụ
Khi tính đạo hàm theo , ta được . Các bạn có thể thấy rằng hằng số được thêm vào chỉ
để cho công thức đạo hàm được đẹp hơn, khơng có hằng số phụ. Loss function này
13


được gọi là square loss. Square loss có thể được sử dụng cho cả regression và
classification, nhưng thực tế thì nó thường được dùng cho regression hơn.
Đối với binary classification, ta có một cách tiếp cận khác để xây dựng loss function.
Nhắc lại là đối với dạng bài này, thì nếu model trả về tức là thích đáp án -1 hơn, trả về
tức là thích đáp án +1 hơn.
Một cách rất tự nhiên, ta thấy rằng loss function của binary classification cần phải đạt
được một số tiêu chí sau:
o Ta cần phải phạt model nhiều hơn khi dự đoán sai hơn là khi dự đốn đúng. Vì

thế, tiêu chí đầu tiên của ta là khi model dự đoán sai ( khác dấu với ), loss
function phải trả về giá trị lớn hơn so với khi model dự đoán đúng ( cùng dấu
với ).
o Nếu có hai đáp án và đều cùng dấu (hoặc khác dấu) với thì ta nên phạt đáp án
nào nhiều hơn? Như đã nói, giá trị tuyệt đối thể hiện "độ thích" của model đối
với một phương án. Giá trị này càng lớn thì model càng "thích" một phương án.
Trong trường hợp cùng dấu với , phương án được thích là phương án đúng, do
đó, model càng thích thì ta phải càng khuyến khích và phạt ít đi. Cũng với lập
luận như vậy, nếu khác dấu với , vì phương án được thích là phương án sai nên
model càng thích thì ta phải càng phạt nặng để model không tái phạm nữa.
Một cách tổng quát, đối với binary classification thì các loss function thường có dạng
như sau:

Hình
Hình 8 ví dụ
trong đó là một hàm khơng âm và khơng tăng.
3.3 Thuật tốn tối ưu Loss Function (Optimization Algorithms)
Gradient Descent
Thay vì sử dụng cơng thức ăn liền Normal Equation, thì trong thực tế chúng ta sẽ sử
dụng thuật tốn Gradient Descent. Giải thích một cách đơn giản, chúng ta sẽ cho Ө

14


tăng và giảm một khoảng nhất định, sao cho giá trị của hàm Loss function J(Ө) giảm
dần đến giá trị cực tiểu.
Như bạn có thể thấy trên hình: Lúc ban đầu hàm J(Ө) có giá trị lớn nên hàm ban đầu
cần tìm dự đốn chưa chính xác các dữ liệu, nhưng khi hàm J(Ө) giảm dần, hàm ban
đầu dự đoán chính xác hơn rất nhiều.
Cơng thức tốn học


Hình 9 cơng thức tốn học

Gradient Descent cho hàm 1 biến :

Hình 10 Gradient Descent cho hàm 1 biến :
Quay trở lại hình vẽ ban đầu và một vài quan sát tôi đã nêu. Giả sử x t là điểm ta tìm
được sau vịng lặp thứ t . Ta cần tìm một thuật toán để đưa xt về càng gần x∗ càng tốt.
Trong hình đầu tiên, chúng ta lại có thêm hai quan sát nữa:
o Nếu đạo hàm của hàm số tại xt : f′(xt) > 0 thì xt nằm về bên phải so với x∗ (và
ngược lại). Để điểm tiếp theo xt+1gần với x∗ hơn, chúng ta cần di chuyển xt về
phía bên trái, tức về phía âm. Nói các khác, chúng ta cần di chuyển ngược dấu
với đạo hàm:
15


Hình 11 ví dụ
Trong đó Δ là một đại lượng ngược dấu với đạo hàm f′(xt)
o xt càng xa x∗ về phía bên phải thì f′(xt) càng lớn hơn 0 (và ngược lại). Vậy,
lượng di chuyển Δ, một cách trực quan nhất, là tỉ lệ thuận với −f′(xt).
Hai nhận xét phía trên cho chúng ta một cách cập nhật đơn giản là:

Hình 12 ví dụ
Trong đó η (đọc là eta) là một số dương được gọi là learning rate (tốc độ học). Dấu
trừ thể hiện việc chúng ta phải đi ngược với đạo hàm (Đây cũng chính là lý do phương
pháp này được gọi là Gradient Descent - descent nghĩa là đi ngược). Các quan sát đơn
giản phía trên, mặc dù khơng phải đúng cho tất cả các bài tốn, là nền tảng cho rất
nhiều phương pháp tối ưu nói chung và thuật tốn Machine Learning nói riêng.
Điểm mạnh :
Tính toán nhẹ nhàng hơn rất nhiều so với phương pháp ban đầu. Về sau chúng ta sẽ

tìm hiểu các phương thức khác kết hợp với Gradient Descent để giảm nhẹ khối lượng
tính tốn.
Điểm yếu :
Kết quả thường khơng chính xác 100%, nhiều vấn đề liên quan xảy ra ví dụ như giá trị
của hàm Loss không thể giảm thêm mà bị mắc kẹt tại một điểm local nào đó.
3.4 Một số biểu đồ thường gặp :
 Biểu đồ đường (Line Plot)
o Line plot thường được sử dụng để biểu diễn dữ liệu có tính liên tục.
o Trục x đại diện cho khoảng thời gian quan sát dữ liệu, trục y thể hiện giá
trị của dữ liệu.

16


Hình 13 biểu đồ plot
 Biểu đồ thanh (Bar Chart)
o Bar chart thường sử dụng để biểu diễn số lượng tương đối cho các
categories.
o Trục x đại diện cho các categories
o Trục y thể hiện giá trị của categories tương ứng.

Hình 14 biểu đồ Bar Chart
 Biểu đồ dạng Histogram Plot
o Histogram Plot thường được sử dụng để biểu diễn sự phân bố của một mẫu
dữ liệu.
o Trục x thể hiện tuần suất hoặc giá trị của các cụm giá trị của mẫu dữ liệu
o Trục y thể hiện các cụm giá trị của mẫu dữ liệu.

17



Hình 15 biểu đồ Histogram Plot
 Biểu đồ dạng hộp (Box Plot)
o Box Plot thường được sử dụng để biểu diễn tóm tắt sự phân bố của các mẫu
dữ liệu.
o Trục x thể hiện mẫu dữ liệu có thể có nhiều mẫu dữ liệu đặt cạnh nhau
o Trục y thể hiện giá trị cho mẫu dữ liệu tương ứng,
o Trong đó: hình hộp là thể hiện cho khoảng 50% giá trị của mẫu, bắt đầu từ
điểm 25% và kết thúc ở điểm 75%.

Hình 16 biểu đồ Box Plot
 Biểu đồ phân tán (Scatter Plot)
o Scatter Plot thường được sử dụng để biểu diễn tóm tắt sự phân bố của một
hoặc nhiều cụm mẫu dữ liệu.
18


o Các điểm dữ liệu là sự kết hợp của 2 đặc trưng ở trục x - y.
o Trục x thể hiện giá trị của đặc trưng thứ nhất
o Trục y thể hiện giá trị của đặc trưng cịn lại.

Hình 17 Biểu đồ Scatter Plot
4. Thực nghiệm với thư viện Pypthon
Chúng tôi sử dụng các thư viện mà gần gũi với người dùng chẳng hạn như thư viện
numpy, thư viện pandas , thư viện matplotlib … Ở đây chúng tôi sẽ trình bày cụ thể
mục đích sử dụng các thư viện đó .
Đầu tiên với việc khai báo thư viện numpy :
 Cách khai báo thư viện numpy
o Import numpy as np
Thư viện này dùng để phân tích và xử lí dữ liệu thơ

Matplotlib, seaborn, yellowbrick: Các thư viện phục vụ việc trực quan hóa dữ liệu:
seaborn và yellowbrick được phát triển dựa trên matplotlib => dễ sử dụng hơn rất
nhiều.
Cài đặt các thư viện trên thông qua lênh pip với cú pháp:
 pip install tên_thư_viện.

19


CHƯƠNG III–XÂY DỰNG ỨNG DỤNG BẰNG NGÔN NGỮ
PYTHON
1. Các đoạn code và giải thích
Cơng cụ mà chúng em sử dụng để viết trong lần này là Google Colab vì nó khá phổ
biến và dễ dàng sử dụng đối với hầu hết người lập trình.
2. Dự đốn
Đầu tiên chúng ta khai báo các thư viện cần thiết dùng để viết code, sau đó dùng biến
tên là “ data “ để đọc dữ liệu từ file có đi là “ csv “ từ google drive.

Hình 18 khai báo thư viện và đọc file csv
Tiếp theo chúng em viết hàm có tên là “ load_data “ để điều chỉnh dữ liều về dạng ma
trận để tính tốn

Hình 19 hàm load_data
Sau đó ta sử dụng hàm trong thư viện sklear để tìm nghiệm cho bài toán Linear
Regression
20




Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×