báo cáo đồ án khoa học dữ liệu là gì

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.47 MB, 31 trang )

Trang 1<div class="page_container" data-page="1">

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH



NHÓM 1

Trần Việt ThànhPhùng Mai LinhVăn Thị Thảo Nhi

31211025616 31211022489 31211021157Trần Lê Minh Trung 31211027088

</div>Trang 2<div class="page_container" data-page="2">

Chương I. Giới thiệu về khoa học dữ liệu và Giới thiệu đề tài

I.Tổng quan về khoa học dữ liệu.

1.1 Dữ liệu là gì?

“Internet” xuất hiện đầu tiên vào khoảng năm 1974, đó là một bước đột phá và đã tácđộng khơng ít đến đời sống của chúng ta. Cùng với sự phát triển của nó, internet trởthành nền tảng và đã tạo nên một kỷ nguyên mới - một thời đại mới, nơi mà “Côngnghệ thời đại 4.0” đang được ứng dụng và có sức tác động mạnh mẽ đối với thế giớingày nay. Sự phát triển vượt bậc ấy cũng đã mang đến một thử thách mới đó là việclưu trữ dữ liệu với số lượng khổng lồ nhưng lại dễ dàng tìm kiếm và phân tích. Nhưngđiều đó đã được thay thế bởi những tiến bộ trong cơng nghệ thơng tin như Điện tốnđám mây hay Khoa học dữ liệu giúp việc lưu trữ và xử lý dữ liệu trở nên đơn giản hơnbao giờ hết.

Vậy dữ liệu là gì mà lại quan trọng đến thế? Jack Ma đã nói: “Trong kinh doanh, dữ

liệu là tất cả.”. Dữ liệu là tập hợp các thông tin, số liệu, ký hiệu, hay bất kỳ loại thơngtin nào có thể được lưu trữ, xử lý, và truyền tải bằng các phương tiện kỹ thuật số hoặckhông kỹ thuật số. Dữ liệu có thể tồn tại ở nhiều định dạng khác nhau, ví dụ như vănbản, hình ảnh, âm thanh, video, hay các tệp tin khác. Dữ liệu được phân làm hai loại:dữ liệu có cấu trúc và khơng cấu trúc. Phần lớn các dữ liệu trên thế giới là dữ liệukhông cấu trúc. Loại này không thể chứa trong cơ sở dữ liệu dạng bảng được. Sự hạnchế về cấu trúc khiến cho loại cơ sở dữ liệu này khơng thể thu thập, lưu trữ và phântích. Trong khi dữ liệu có cấu trúc là loại dữ liệu rất dễ dàng thu thập bởi vì nó đượclưu trữ trong cả cột và hàng của bảng. Nhờ sự thuận tiện đó, loại dữ liệu có cấu trúc

</div>Trang 3<div class="page_container" data-page="3">

được áp dụng để lưu giữ thông tin trong mọi lĩnh vực đã giúp doanh nghiệp giảm đượckhá nhiều thời gian và chi phí cho cơng tác thu thập, quản lý và khai thác.

1.2 Vai trò của dữ liệu

Dữ liệu là điều cần thiết và không thể thiếu đối với cuộc sống hiện đại ngàynay. Chính dữ liệu là cơ sở để hình thành một hệ thống thơng tin đa ngành, đa lĩnh vựcnhằm tạo một trải nghiệm mới, đem đến lợi ích cho con người, doanh nghiệp và xãhội, dữ liệu là nền tảng để đảm bảo một tương lai phát triển bền vững của nhân loại.Dữ liệu có vai trò gồm:

1. Hỗ trợ quyết định: Dữ liệu giúp các chuyên gia và quản lý đưa ra quyết định chínhxác và nhanh chóng dựa trên các phân tích và dự đốn.

2. Phát hiện xu hướng và thơng tin mới: Dữ liệu giúp các nhà nghiên cứu và chuyêngia phát hiện ra các xu hướng mới, thông tin quan trọng và hiểu rõ hơn về các hiệntượng.

3. Cải thiện hiệu quả và hiệu suất: Dữ liệu giúp các tổ chức cải thiện hiệu quả và hiệusuất của mình bằng cách tối ưu hóa quy trình sản xuất, tăng cường quản lý và giảmthiểu lãng phí.

4. Phục vụ khách hàng tốt hơn: Dữ liệu giúp các doanh nghiệp hiểu khách hàng của họvà cung cấp sản phẩm và dịch vụ tốt hơn.

5. Tăng cường an ninh: Dữ liệu giúp các tổ chức phát hiện và ngăn chặn các cuộc tấncông an ninh mạng và các hoạt động gian lận khác.

6. Cải thiện y tế: Dữ liệu y tế giúp các chuyên gia y tế hiểu rõ hơn về các bệnh vàthuốc và tối ưu hóa chăm sóc sức khỏe.

</div>Trang 4<div class="page_container" data-page="4">

7. Cải thiện giáo dục: Dữ liệu giúp các nhà giáo dục cải thiện chất lượng giáo dục vàđưa ra các quyết định chính xác dựa trên dữ liệu về học sinh và giáo viên.

“Tóm lại, dữ liệu đã và đang đóng góp vơ cùng to lớn cho thời kỳ mớinày.Không chỉ được sử dụng trong công tác nghiên cứu, dữ liệu giúp con người pháthuy tối đa năng lực sáng tạo để có thể dự báo và đề ra quyết định trong tương lai ởnhiều lĩnh vực. Nhưng để sử dụng được lượng dữ liệu lớn như hiện nay đòi hỏi sự pháttriển vượt bậc của việc tổng hợp, quản lý, phân tích dữ liệu cũng như khả năng đưa raquyết định cuối cùng. Đó là nền tảng để một nền khoa học mới hình thành, chính làKhoa học dữ liệu.

1.3 Khoa học dữ liệu là gì?

Khoa học dữ liệu (Data Science) là một lĩnh vực liên quan đến việc thu thập, xửlý và phân tích dữ liệu để rút ra thơng tin hữu ích và đưa ra các quyết định dựa trên dữliệu đó. Nó bao gồm các phương pháp và công nghệ liên quan đến khoa học máy tính,thống kê, tốn học, và các lĩnh vực khác để xây dựng các mơ hình dữ liệu và phân tíchdữ liệu.

Khoa học dữ liệu có thể được áp dụng trong nhiều lĩnh vực, bao gồm kinhdoanh, y tế, khoa học, chính phủ, và nhiều lĩnh vực khác. Các chuyên gia về khoa họcdữ liệu sử dụng các phương pháp và công nghệ để:

 Thu thập và lưu trữ dữ liệu

 Làm sạch và xử lý dữ liệu để chuẩn bị cho việc phân tích Phân tích dữ liệu để tìm ra các mẫu và thông tin quan trọng

Too long to read onyour phone? Save

to read later onyour computer

Save to a Studylist

</div>Trang 5<div class="page_container" data-page="5">

 Xây dựng các mơ hình dữ liệu để dự đoán và đưa ra các quyết định dựa trên dữliệu đó

 Đánh giá và tối ưu hóa các mơ hình dữ liệu.

Khoa học dữ liệu là một lĩnh vực phát triển rất nhanh trong thời gian gần đây và đóngvai trị quan trọng trong việc tạo ra giá trị từ dữ liệu

1.4 Quy trình phân tích dữ liệu

“Việc đưa ra lựa chọn nào khơng phải chỉ cần xem xét dữ liệu được thu thập màcó thể nhanh chóng quyết định ngay. Để ban quản trị của doanh nghiệp đưa ra quyếtđịnh chính xác nhất, dữ liệu thô sau khi được thu thập phải tiến hành chuyển đổi thànhnhững dữ liệu trực quan hơn theo một quy trình nhất định. Đó được gọi là quy trìnhphân tích dữ liệu, gồm 5 bước cơ bản sau:”

Bước 1: Đặt vấn đề và thu thập dữ liệu

Bước 2: Tiền xử lý dữ liệu

Bước 3: Chuyển đổi dữ liệu

</div>Trang 6<div class="page_container" data-page="6">

- Đầu tiên, người xử lý cần hiểu rõ yêu cầu và độ phức tạp của dữ liệu trước khixử lý. Tránh tình trạng thu thập và xử lý số liệu vội vàng, thiếu sự chuẩn bị.- Tiếp theo, bạn cần xác định chính xác các biến và tập dữ liệu. Sau khi hiểu yêu

cầu, các biến và bộ dữ liệu liên quan có thể được xác định dễ dàng, giúp quátrình xử lý thuận tiện hơn.

- Cuối cùng, bất kể dữ liệu có đáp ứng nhu cầu đã nêu hay không, dữ liệu cầnđược đánh giá lại để xác minh tính đúng đắn của q trình xử lý.

1.6 Ứng dụng của Khoa học dữ liệu trong thực tế

“Khoa học dữ liệu hiện là lĩnh vực có ảnh hưởng nhất đối với nhiều ngànhnghề. Nó chi phối mọi hoạt động của con người. Nhờ có khoa học dữ liệu mà mọi nhucầu thiết thực của con người đã được đáp ứng và mang lại nhiều lợi ích cho họ. Mộtvài lĩnh vực tiêu biểu có ảnh hưởng lớn đến khoa học dữ liệu. Ví dụ: Y tế – chăm sócsức khỏe, thương mại điện tử, giao thơng, tài chính, ngân hàng, sản xuất,… cơ chếkiểm sốt quốc gia, và phát triển kinh tế quốc gia. Hiện nay chúng ta có thẻ căn cướccơng dân gắn chíp điện tử rất hữu ích cho việc theo dõi thơng tin của người dân. Mớiđây nhất, chính phủ đã phạt vi phạm an tồn giao thơng bằng cách kết hợp AI với cơsở dữ liệu có sẵn dựa trên biển số để phát hiện phương tiện vi phạm giao thông và địnhvị chủ phương tiện dựa trên thông tin đăng ký. Các bộ, ngành cũng đang ứng dụngkhoa học dữ liệu để dự báo lạm phát, GDP, v.v. và có những bước đi phù hợp để pháttriển đất nước.”

“Qua những ứng dụng rộng rãi, đa ngành nghề, đa lĩnh vực và tầm ảnh hưởngto lớn của Khoa học dữ liệu, có thể khẳng định Khoa học dữ liệu là một phần khôngthể thiếu trong thế giới ngày nay. Trong tương lai khơng xa, mọi ngành nghề có ít

</div>Trang 7<div class="page_container" data-page="7">

nhiều sẽ cần đến sự can thiệp của Khoa học dữ liệu, giúp cuộc sống mỗi người chúngta trở nên dễ dàng và hiện đại hơn.”

II. Giới thiệu về đề tài1.2.1 Lý do chọn đề tài

Việc sử dụng TMĐT trong những năm gần đây đã tăng một cách đáng kể ở cácnước phát triển và đặc biệt tiềm năng hơn ở những nước đang phát triển, nhưng điềunày chưa thật sự phản ánh rõ tầm ảnh hưởng của nó có thật sự đủ mạnh mẽ đến ý địnhmua sắm online của người dùng. Tại các cửa hàng vật lý, người bán hàng có thể cónhững chiến lược riêng trong việc tiếp cận đến khách hàng thông qua những trảinghiệm của họ. Những trải nghiệm này cực kỳ quan trọng trong việc xây dựng các mơhình kinh doanh và tận dụng được tốt các nguồn lực hiện có. Đối với TMĐT và cơngty cơng nghệ, họ sẽ bắt đầu phải dành nhiều cơng sức hơn để có thể tìm ra tâm lý muahàng của người dùng để có một chỗ đứng vững chắc trong việc mua sắm online nganghàng với các cửa hàng vật lý hiện có.

Trong bài phân tích này, chúng em sẽ xem xét hành vi mua sắm của khách hàngtruy cập vào trang web TMĐT trong phiên truy cập hiện tại (thời gian ghi nhận truycập vào trang web vào thời điểm đó) thông qua các thông số được ghi lại trên trangweb. Cuối cùng đưa ra kết luận tại thời điểm trước khi rời phiên truy cập, họ có mua

hàng hay là không. Đề tài của chúng em sẽ là “Ứng dụng Khoa học dữ liệu trong

việc phân tích ý định mua sắm trực tuyến của người dùng trên website TMĐT đểđưa ra các hướng đi tốt nhất cho nhà bán lẻ” với sự hỗ trợ từ những kiến thức của

học phần Khoa học dữ liệu và sự trợ giúp của phần mềm Orange.

Thơng qua mơ hình phân loại của các dữ liê ‚u truy cập của khách hàng để dựđoán viê ‚c người dùng có mua sắm hay khơng. Từ đó, đưa ra những quyết định giảipháp phù hợp cho các nhà bán lẻ để có được những chiến lược giữ chân và thu húthơn. Đồng thời tạo thêm lợi nhuâ ‚n cho cửa hàng và có được độ tin cậy của kháchhàng.

1.2.2 Mục tiêu nghiên cứu

Mục tiêu tổng quát của bài báo cáo là thơng qua viê ‚c phân tích dữ liê ‚u để đánhgiá, dự báo tìm ra khách hàng có khả năng mua hàng. Từ đó, phân tích lý do để cóđược các giải pháp nâng cao chất lượng mua sắm, đưa ra các gói ưu đãi hấp dẫn giatăng tỷ suất tiếp tục mua hàng đồng thời thu hút khách hàng mới dựa trên bô ‚ dữ liê ‚uonline_shoppers_intention.csv

Để đạt được mục tiêu này, chúng em sẽ chia nhỏ ra thành 3 phương pháp chínhđể giải quyết bài tốn này một cách hiệu quả hơn và có sự hỗ trợ của phần mềmOrange để xử lý dữ liệu:

Bài tốn 1: Phân tích các đặc điểm về ý định mua sắm của người dùng trêntrang web TMĐT dựa vào lược đồ và các cơng cụ thống kê

Bài tốn 2: Dự đoán ý định mua sắm của người dùng trên trang web TMĐT dựavào các phương pháp phân lớp.

Bài tốn 3: Phân loại các nhóm khách hàng có ý định mua sắm trên trang webTMĐT dựa vào các phương pháp phân cụm.

1.2.3 Đối tượng và phạm vi nghiên cứu

</div>Trang 8<div class="page_container" data-page="8">

Đối tượng nghiên cứu của bài gồm có 12.330 lượt truy cập trong mỗi phiên vớicác dữ liệu về số trang quản trị, trang thông tin, trang sản phẩm, các thông số rời trang,loại khách hàng, hệ điều hành sử dụng, ngày lễ mua hàng, … Các biến đầu vào có thểđược sử dụng để xây dựng các mơ hình dự đốn và phân loại, nhằm đánh giá khả năngngười dùng thực hiện mua hàng trên trang web. Biến đầu ra (Revenue) có thể được sửdụng để xác định xem một người dùng cụ thể đã mua hàng hay chưa.

Phạm vi nghiên cứu: Bộ dữ liệu này được thu thập từ một trang web TMĐTtrong giai đoạn từ tháng 1 đến tháng 12 năm 2014.

Chương II. Tổng quan về chương trình sử dụng và các phươngpháp sử dụng

2.1 Các phương pháp của Excel

2.1.1 Phương pháp thống kê mô tả

2.1.1.1Thống kê bằng công cụ Descriptive Statistics

Chức năng của cơng cụ này bao gồm tính các giá trị trung bình, trung vị, độ lệchchuẩn, phương sai và tỷ lệ phần trăm của các giá trị trong tập dữ liệu. Công cụthống kê mô tả giúp người dùng hiểu rõ hơn về tính chất của dữ liệu và đưa ranhững quyết định đúng đắn hơn trong quá trình phân tích dữ liệu.

- Bước 1: Chuẩn bị bảng số liệu cần thống kê.

- Bước 2: Chọn lệnh Data → Data Analysis → Descriptive Statistics, xuất hiện hộpthoại Descriptive Statistics.

- Bước 3: Đưa ra khai báo cho các thông số Input, sau đó chọn thơng số OutputOptions

2.1.1.2Báo cáo tổng hợp nhóm với Subtotal

Chức năng: Cho phép người dùng phân tích dữ liệu theo từng nhóm con và tính tốn

các giá trị thống kê, chẳng hạn như tổng, trung bình, độ lệch chuẩn, tối đa, tối thiểucủa các giá trị trong từng nhóm con đó. Kết quả sau khi được tổng sẽ được đặt trênhoặc dưới từng nhóm

2.1.1.3 Hợp nhất dữ liệu với Consolidate

nhau, có cấu trúc tương tự hoặc khác nhau, vào một bảng tính chung.Consolidatecó thể hợp nhất dữ liệu theo 2 hình thức:

- Tổng hợp theo vị trí: các bảng dữ liệu giống nhau về cấu trúc.

- Tổng hợp theo hạng mục (theo hàng và cột): các bảng dữ liệu khác nhau về cấutrúc

- Bước 1: Chọn vùng sẽ chứa dữ liệu được hợp nhất.

</div>Trang 9<div class="page_container" data-page="9">

- Bước 2: Chọn Data → Data Tools → Consolidate, xuất hiện hộp thoại Consolidate

2.1.1.4 Tổng hợp dữ liệu đa chiều với PivotTable

trên các giá trị trong bảng tính. Excel cung cấp cơng cụ PivotTable để tổng hợp vàphân tích dữ liệu với nhiều góc độ và nhiều cấp khác nhau. Nguồn dữ liệu để tạoPivotTable có thể là một cơ sở dữ liệu của Excel hay từ nguồn dữ liệu bên ngoài(như MS Access, MS SQL Server,…)

- Bước 1: Chọn một ô bất kỳ trên vùng cơ sở dữ liệu- Bước 2: Nhấn chọn Insert → sau đó chọn PivotTable.

- Bước 3: Hộp thoại Create PivotTable sẽ xuất hiện, sau đó chọn nơi chứa PivotTablevà dữ liệu nguồn click nút ok.

- Bước 4: Từ PivotTable Fields thực hiện drag các tên field vào 4 khu vực sau :FILTERS,VALUES, COLUMNS và ROWS

 Hiệu chỉnh PivotTable: Thay đổi tên Field:

- Khi thả các field vào vùng layout thì PivotTable sẽ tự tạo ra các nền màu đậm- Tất cả các nội dung trong ô đều tạo tự động dựa trên nơi bố trí và

 Thay đổi phép tổng hợp dữ liệu:

- Nhấn mũi tên tên xổ xuống cạnh field cần định dạng trong khu vực Values - Chọn Value Field Settings trong danh sách mở ra

- Chọn phương thức xử lý trong mục Summarize value field by

2.1.2 Phương pháp phân tích dự báo

2.1.2.1Trung bình trượt (Moving Average):

Chức năng: Moving Average giúp tính tốn trung bình của một phạm vi cụ thể

hoặc tạo ra biểu đồ trung bình trượt dễ dàng.Loại trung bình trượt: Có 4 loại:

 Đường trung bình trượt gản đơn (SMA - Simple Moving Average)

 Đường trung bình trượt tuyến tính có trọng số (LWMA - Linearly WeightedMoving Average)

 Đường trung bình trượt số mũ (EMA - Exponential Moving Average) Đường trung bình trượt biến đổi (VMA)

Cách thực hiện:

 Bước 1: Chuẩn bị bảng số liệu cần dự báo.

 Bước 2: Chọn lệnh Data → Data Analysis → Moving Average

 Bước 3: Hộp thoại Moving Average hiện ra. Điền thông tin các ô tương ứng.Input Range - Dữ liệu đầu vào

Interval - Khoảng thời gian cần tính.Output Range - Dữ liệu đầu ra.

2.1.2.2San bằng mũ (Exponential Smoothing):

</div>Trang 10<div class="page_container" data-page="10">

Chức năng: Dự đoán dữ liệu gần nhất cộng với phần trăm chênh lệch giữa số

dự đoán và số thực tế ở thời điểm dự đoán và còn làm mịn theo cấp số nhân để nhận ranhững điểm bất thường.

Cách thực hiện:

 Bước 1: Chuẩn bị bảng số liệu cần dự báo

 Bước 2: Chọn lện Data → Data Analysis → Exponential Smoothing Bước 3: Hộp thoại Moving Average hiện ra. Điền thông tin các ô tương ứng.

Input Range - Dữ liệu đầu vào.Output Range - Dữ liệu đầu ra.Damping Factor - Hệ số san bằng.Labels - Tiêu đề cho hàng/cột đầu tiên.

2.1.2.3Hồi quy (Regression):

Chức năng: nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay cịn gọi

là biến được giải thích) vào một hay nhiều biến khác (biến độc lập hay còn gọi là biếngiải thích)

Cách thực hiện:

 Bằng hàm:

Hàm Trend - Trả về giá trị dọc theo đường hồi quy (theo phương pháp bình phương bénhất)

Cú pháp: TREND(known_y’s, known_x’s, new_x’s, const).

Hàm Forecast - Dự báo giá trị tương lai căn cứ vào các giá trị hiện tại. Cú pháp: FORECAST(x, known_y’s, known_x’s).

Hàm Intercept - Dùng để tính hệ số a của phương trình hồi quy đơn tuyến tính. Cú pháp : INTERCEPT(known_y’s, known_x’s)

Hàm Slope - Dùng để tính hệ số b của phương trình hồi quy đơn tuyến tính.Cú pháp : SLOPE(known_y’s, known_x’s).

Hàm Correl - Dùng để tính hệ số tương quan giữa X và Y. Cú pháp : CORREL(array1,array2).

 Bằng đồ thị:

 Bước 1: Chuẩn bị số liệu cần dự đoán.

 Bước 2: Chọn lần lượt vùng địa chỉ chứa biến phụ thuộc Y, và vùng địa chỉchứa biến độc lập X

 Bước 3: Vẽ đồ thi dạng Scatter.

 Bước 4: Click chuột phải vào data series, chọn Add Trendline Bước 5: Tuỳ chọn hiển thị trong Trendline Options

Linear: dạng đường thẳng Display Equation on chart Display R-squared value on chart

2.1.3 Phương pháp phân tích tối ưu

2.1.3.1 Khái niệm: Phương pháp phân tích tối ưu trong Excel là một cơng

cụ phân tích dữ liệu cho phép người dùng tìm kiếm giá trị tối ưu cho một số đầuvào nhất định với một số hệ thống ràng buộc nhất định. Cơng cụ này có thể đượcsử dụng để tối ưu hóa các vấn đề như chi phí vận chuyển, mơ hình định lượngkinh tế, lập lịch cơng việc, tối ưu hố quỹ đạo đầu tư, tìm kiếm giá trị tối ưu chomột hàm mục tiêu. Phương pháp này sử dụng các cơng thức và bảng tính để tìmkiếm giá trị tối ưu và cung cấp kết quả phân tích một cách dễ hiểu. Các công cụ

</div>Trang 11<div class="page_container" data-page="11">

và tính năng liên quan đến phân tích tối ưu trong Excel bao gồm Solver Add-Invà công thức SUMPRODUCT.

2.1.3.2 Công cụ: Để thực hiện phương pháp phân tích tối ưu trong Excel,

ta có thể tham khảo cơng cụ phân tích như Solver, Goal Seek và ScenarioManager, cùng với các phương pháp phân tích liên quan khác. Bên cạnh đó,phân tích tối ưu trong Excel cần phải tập trung vào xử lý dữ liệu và phân tích kếtquả để đưa ra quyết định và giải quyết các vấn đề liên quan đến tối ưu hoá cácgiá trị.

Ví dụ: Tối ưu hóa cơng thức tổng quan giá trị giải trình:

Giả sử rằng bạn đang làm việc với một tệp dữ liệu lớn và cần tìm cách tối ưucơng thức tổng quan giá trị giải trình. Bạn muốn tìm giá trị tối ưu cho mỗi biếnvà giá trị tối ưu của công thức tổng quan.

Bước 1: Khai báo biến:

Đầu tiên, bạn cần khai báo các biến trong bài tốn của mình. Ví dụ, chúng ta có3 biến: A1, A2, và A3.

Bước 2: Thiết lập hàm mục tiêu: Tiếp theo, bạn cần thiết lập hàm mục tiêu đểtìm giá trị tối ưu. Ví dụ, bạn có thể sử dụng cơng thức tổng quan giá trị giải trìnhsau:

Tổng giá trị giải trình = A1 + A2 + A3. Bạn cần thiết lập công thức này trongmột ô như A4.

Bước 3: Thiết lập ràng buộc Bạn cần thiết lập ràng buộc cho các biến. Ví dụ, giảsử rằng giá trị của mỗi biến phải nằm trong phạm vi từ 1 đến 10.

Bước 4: Thực hiện tối ưu hóa.

Sau khi đã thiết lập các ràng buộc và hàm mục tiêu trong Bước 2 và Bước 3, bạncó thể đi đến Bước 4 để tìm giá trị tối ưu.

2.1.3.3 Cơng cụ Solver trong Excel là một công cụ phổ biến để phân tích tối

ưu các bài tốn có nhiều biến. Dưới đây là một ví dụ về cách sử dụng cơng cụSolver trong Excel. Ví dụ: Phương pháp phân tích tối ưu Solver trong Excel baogồm các bước sau:

1. Xác định mục tiêu và ràng buộc của bài toán tối ưu hóa.2. Tạo bảng tính Excel và nhập dữ liệu vào bảng tính.3. Thiết lập các ơ trong bảng tính làm biến số.4. Thiết lập ô mục tiêu và các ô ràng buộc.

</div>Trang 12<div class="page_container" data-page="12">

5. Mở Solver bằng cách chọn tab Data trên thanh công cụ Excel, chọnSolver và nhập các thông tin cần thiết như ô mục tiêu, các ô biến số vàràng buộc.

6. Thiết lập các điều kiện tối ưu hóa khác như số lần lặp tối đa và độ chínhxác mong muốn.

7. Chạy Solver để tìm kiếm giải pháp tối ưu cho bài toán.8. Kiểm tra kết quả và thực hiện các thay đổi nếu cần thiết.

2.3 Phần mềm Orange

2.3.1 Mô tả

Phần mềm Orange là một cơng cụ phân tích dữ liệu mã nguồn mở được thiết kế đểgiúp các chuyên gia dữ liệu và nhà nghiên cứu phân tích dữ liệu dễ dàng hơn. Nó cungcấp cho người dùng một giao diện đồ họa trực quan để thực hiện các tác vụ phân tíchdữ liệu phức tạp một cách nhanh chóng và dễ dàng. Orange hỗ trợ nhiều loại phân tíchdữ liệu, bao gồm phân tích hồi quy, phân tích phân cụm, phân tích chuỗi thời gian vànhiều hơn nữa. Nó cũng cho phép người dùng xây dựng các mơ hình dự đoán và tươngtác với các bộ dữ liệu khác nhau. Với tính linh hoạt và khả năng tùy chỉnh cao, Orangelà một công cụ mạnh mẽ để giúp người dùng khai thác giá trị từ các bộ dữ liệu của họ.

2.3.2 Tính năng2.3.2.1 Nhóm Data

Nhóm Data trong phần mềm Orange là một tínhnăng quan trọng cho phép người dùng quản lý và xử lýcác bộ dữ liệu khác nhau. Data dùng để biến đổi, rúttrích và nạp dữ liệu (ETL process),..bao gồm:

chép, xóa và chuyển đổi các bộ dữ liệu trongNhóm Data.

người dùng kết hợp các bộ dữ liệu khácnhau từ các nguồn khác nhau để tạo ramột bộ dữ liệu lớn hơn

dụng các tính năng của Nhóm Data để xửlý, lọc và sắp xếp các bộ dữ liệu.

2.3.2.2 Nhóm Visualize

</div>Trang 13<div class="page_container" data-page="13">

Nhóm Visualize trong phần mềm Orange là một tính năng quan trọng dùng đểbiểu diễn các biểu đồ (chart) giúp người dùng quan sát dữ liệu một cách trực quan vàtốt hơn. . Các tính năng chính của Nhóm Visualize bao gồm:

- Hiển thị dữ liệu: Người dùng có thể chọn các biểu đồ và đồ thị để hiển thị dữ

liệu của họ.

- Tùy chỉnh biểu đồ: Người dùng có thể tùy chỉnh các biểu đồ và đồ thị của họ

bằng cách thay đổi màu sắc, kích thước, kiểu và các thuộc tính khác.

- Phân tích dữ liệu: Nhóm Visualize cho phép người dùng phân tích dữ liệu của họ

bằng cách sử dụng các biểu đồ và đồ thị.

2.3.2.3 Nhóm Model

Nhóm Model cho phép người dùng xây dựng vàđánh giá các mơ hình dự đốn từ các bộ dữ liệu gồm cáchàm máy học (machine learning) phân lớp dữ liệu vớiTree, SVM, Logictis Regression, …

- Xây dựng mơ hình: Người dùng có thể sử dụng

các tính năng của Nhóm Model để xây dựng cácmơ hình dự đốn từ các bộ dữ liệu của họ.

- Đánh giá mơ hình: Nhóm Model cho phép người

dùng đánh giá hiệu suất của các mơ hình dự đoánbằng cách sử dụng các phương pháp đánh giá khácnhau.

- Tinh chỉnh tham số: Người dùng có thể tinh chỉnh các

tham số của các mơ hình dự đốn để cải thiện hiệu suấtcủa chúng.

2.3.2.4 Nhóm Evaluate

Nhóm Evaluate là các phương pháp dùng để đánh giá hiệu suất của các mơ hìnhdự đốn như : Test& Score, Prediction, Confusion,..

- Đánh giá hiệu suất: Người dùng có thể

sử dụng các tính năng của Nhóm Evaluateđể đánh giá hiệu suất của các mơ hình dựđốn từ các bộ dữ liệu của họ.

- Phân tích kết quả: Nhóm Evaluate cho

phép người dùng phân tích kết quả đánhgiá để hiểu rõ hơn về hiệu suất của các mơhình.

</div>Trang 14<div class="page_container" data-page="14">

- So sánh mơ hình: Người dùng có thể so sánh hiệu suất của các mơ hình khác

nhau để tìm ra mơ hình tốt nhất cho bộ dữ liệu của họ.

2.3.2.5 Nhóm Unsupervised

Nhóm Unsupervised cho phép người dùng khám phá và phân tích các bộ dữliệu mà khơng cần có các nhãn đầu vào. Bao gồm các hàm máy học (machinelearing) gom nhóm dữ liệu như: K-means,

- Phân tích cụm: Người dùng có thể sử

dụng các tính năng của NhómUnsupervised để phân tích cụm của cácđối tượng trong bộ dữ liệu của họ.

- Giảm chiều dữ liệu: Nhóm

Unsupervised cho phép người dùng giảmsố chiều của các bộ dữ liệu để dễ dàngkhám phá và trực quan hóa.

- Tìm kiếm mẫu: Người dùng có thể sử

dụng các tính năng của NhómUnsupervised để tìm kiếm các mẫu tiềmnăng trong bộ dữ liệu của họ.

1.2.6. Nhóm Educational

Nhóm Educational cho phép người dùng học và nghiên cứu các thuật tốn vàphương pháp phân tích dữ liệu.

- Hướng dẫn: Nhóm Educational cung cấp các hướng dẫn chi tiết về các thuật

tốn và phương pháp phân tích dữ liệu, giúp người dùng hiểu rõ hơn về chúng.

- Bài tập: Nhóm Educational cung cấp các bài tập để người dùng có thể thực

hành và áp dụng kiến thức của mình vào các ví dụ thực tế.

- Tài liệu: Nhóm Educational cung cấp tài liệu tham khảo để người dùng có

thể tìm hiểu sâu hơn về các thuật toán và phương pháp phân tích dữ liệu.

- Trực quan hóa: Các tính năng của Nhóm Educational có thể được trực quan

hóa để giúp người dùng hiểu rõ hơn về các khái niệm và kết quả.

- Hỗ trợ: Nhóm Educational cung cấp hỗ trợ cho người dùng khi gặp khó

khăn trong việc hiểu các thuật tốn và phương pháp phân tích dữ liệu.

2.3 Phương pháp phân lớp dữ liệu2.3.1 Bài toán phân lớp dữ liệu

</div>Trang 15<div class="page_container" data-page="15">

2.3.1.1 Giới thiệu phân lớp dữ liệu

a. Định nghĩa:

“Phân lớp dữ liệu là phân một đối tượng dữ liệu vào một hoặc nhiều lớp (loại) đã chonhờ một mơ hình phân lớp. Mơ hình này được huấn luyện dựa trên một tập dữ liệu đãđược gán nhãn trước đó (thuộc về lớp nào). Quá trình gán nhãn (phân chia lớp) cho đốitượng dữ liệu chính là q trình phân lớp dữ liệu.”

b. Q trình phân lớp dữ liệu:

“Quá trình phân lớp dữ liệu gồm 2 bước chính:

Bước 1: Xây dựng mơ hình (hay cịn gọi là giai đoạn “học” hoặc “huấn luyện”)

 Dữ liệu đầu vào: là dữ liệu mẫu đã được xử lý trước và dán nhãn Các thuật toán phân lớp: cây quyết định, hàm số toán học, tập toán Kết quả của bước này chính là mơ hình phân lớp (trình phân lớp)

Bước 2: Sử dụng mơ hình được tách thành 2 bước:

- Đánh giá mơ hình (kiểm tra tính đúng đắn của mơ hình)

 Dữ liệu đầu vào: là tập dữ liệu mẫu khác đã được xử lý trước và dán nhãn Tính đúng đắn của mơ hình sẽ được xác định bằng cách so sánh thuộc tính gán

nhãn của dữ liệu đầu vào và kết quả của mơ hình phân lớp- Phân lớp dữ liệu mới

 Dữ liệu đầu vào: là dữ liệu “khuyết" thuộc tính cần dự đốn lớp

 Mơ hình sẽ tự động phân lớp cho các đối tượng dữ liệu này dựa vào dữ liệubước 1

</div>