Tải bản đầy đủ (.docx) (76 trang)

Bài tập 1 Phân tích dữ liệu kinh doanh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.67 MB, 76 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MNH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN
__________________________

BÁO CÁO LAB 1

Môn học: PHÂN TÍCH DỮ LIỆU KINH DOANH

Giảng viên hướng dẫn:

TS. Nguyễn Đình Thuân

Nhóm thực hiện:
Nhóm 5Girls: -

Nguyễn Thị Cẩm Hoài – 17520499

-

Phạm Huỳnh Mỹ Hạnh – 17520433

-

Hồ Thị Ngọc Huyền – 17520596

-

Trương Thị Mỹ Linh – 17520692

-



Trà Thảo Nguyên - 17520831

TP HCM, Ngày 12 tháng 03 năm 2020


Lab1_IS403.K21

Mục lục
I. BÀI 1A: GDP BÌNH QUÂN CỦA VN................................................................................................3
1.Sử dụng MS Excel:............................................................................................................................3
1.1. Thống kê mô tả:...........................................................................................................................3
1.2. Tính toán lại bằng Excel:...........................................................................................................6
1.3 Công cụ trực quan hóa dữ liệu (Data Visualization):.................................................................7
2. Sử dụng ngôn ngữ R.........................................................................................................................9
2.1 Thống kê mô tả.............................................................................................................................9
2.2 Công cụ trực quan hóa dữ liệu (Data Visualization):..............................................................11
3. Sử dụng Spss....................................................................................................................................13
3.1 Thống kê mô tả...........................................................................................................................13
3.2

Công cụ trực quan hóa dữ liệu (Data Visualization)..........................................................16

II. BÀI 1B: PURCHASE ORDERS.......................................................................................................20
1.

2.

3.


Sử dụng R:...................................................................................................................................20
1.1.

Thống kê mô tả (Descriptive Statistics)..............................................................................20

1.2.

Công cụ trực quan hóa dữ liệu (Data Visualization)..........................................................22

Sử dụng SPSS.............................................................................................................................24
2.1.

Thống kê mô tả (Descriptive Statistics):.............................................................................24

2.2.

Công cụ trực quan hóa dữ liệu (Data Visualization).........................................................30

Sử dụng MS Excel:.....................................................................................................................38
3.1.

Thống kê mô tả (Descriptive Statistics):.............................................................................38

3.2.

Công cụ trực quan hóa dữ liệu (Data Visualization).........................................................42

II. BÀI 1B: COMPUTER REPAIR TIMES........................................................................................50
1.


2.

Sử dụng R....................................................................................................................................50
1.1.

Thống kê mô tả (Descriptive Statistics)..............................................................................50

1.2.

Công cụ trực quan hóa dữ liệu (Data Visualization)..........................................................51

Sử dụng SPSS.............................................................................................................................54
2.1.

3.

Thống kê mô tả (Descriptive Statistics)..............................................................................54

Sử dụng Microsoft Excel............................................................................................................63
3.1.

Thống kê mô tả (Descriptive Statistics)..............................................................................63

3.2. Công cụ trực quan hóa dữ liệu (Data Visualization)..............................................................67
3.3. Tính toán lại..............................................................................................................................70
TÀI LIỆU THAM KHẢO.....................................................................................................................73
BẢNG PHÂN CÔNG.............................................................................................................................74

2



Lab1_IS403.K21

I. BÀI 1A: GDP BÌNH QUÂN CỦA VN
1.Sử dụng MS Excel:
1.1. Thống kê mô tả:
Vào data chọn data analysis sau đó chọn Descriptive Statistics

Nhập vùng dữ liệu

3


Lab1_IS403.K21

Kết quả:

4


Lab1_IS403.K21

-

-

-

Count : số lượng các giá trị quan sát : Count(data range)
Min, max dùng để xác định giá trị nhỏ nhất và lớn nhất trong dãy quan sát:

Min(data range) ; Max(data range)
Mean: giá trị trung bình của tất cả dãy số trong tập hợp: AVERAGE(data range)
Median: dùng để tính trung vị trung bình. Trung bình vị là số nằm giữa một dãy
các số hay nói cách khác là số mà một nửa các số trong dãy lớn hơn nó và một
nửa các số còn lại trong dãy nhỏ hơn nó MEDIAN(data range)
Mode: dùng để xác định giá trị xuất hiện nhiều nhất trong dãy quan sát:
MODE.SNGL (data range)
Quantitle: Tứ phân vị là đại lượng mô tả sự phân bố và sự phân tán của tập dữ
liệu.
 Tứ phân vị ở tối thiểu.: QUARTILE.INC(Data range,0)
 Tứ phân vị thứ nhất (phân vị thứ 25).: QUARTILE.INC(Data range,1)
 Tứ phân vị ở giá trị trung bình (phân vị thứ 50). QUARTILE.INC(Data
range,2)
 Tứ phân vị ở giá trị thứ 3 (phân vị thứ 75).: QUARTILE.INC(Data range,3)
 Tứ phân vị ở giá trị tối đa: QUARTILE.INC(Data range,4)
Range: khoảng cách giữa giá trị quan sát nhỏ nhất đến giá trị quan sát lớn nhất.

Range=Max-Min
-

Variance: Phương sai, Dùng để đo lường mức độ phân tán của một tập các giá trị
quan sát xung quanh giá trị trung bình của tập quan sát đó. VAR.S(data range)

-

Standard Deviation : Độ lệch chuẩn, Một công cụ khác dùng để đo lường độ phân
tán của dữ liệu xung quanh giá trị trung bình của nó. STDE.S(data range)

-


Coefficient of Deviation: Hệ số biến thiên có được bằng cách chia độ lệch chuẩn
cho giá trị trung bình hoặc trung bình.

5


Lab1_IS403.K21

= STDE.S/AVERAGE
-

Skewness : dùng để tính độ lệch của một phân bố. Độ lệch thể hiện độ không đối
xứng của phân bố quanh trục của nó. Độ lệch dương cho biết phân bố có phía
không đối xứng mở rộng đến nhiều giá trị dương hơn. Độ lệch âm cho biết phân
bố có phía không đối xứng mở rộng đến nhiều giá trị âm hơn.
SKEW(data range)

-

Kurtosis: dùng để tính xác định độ nhọn hay còn gọi là độ lồi
KURT( data range)

1.2. Tính toán lại bằng Excel:
Variance: Phương sai bằng trung bình các bình phương sai lệch giữa các giá

S

-

6


trị quan sát đối với giá trị trung bình của các quan sát đó.
n
2
i
2
i 1

 (x



 x)

n 1

Standard Deviation :


Lab1_IS403.K21

1.3 Công cụ trực quan hóa dữ liệu (Data Visualization):
1.3.1. Histogram:

7


Lab1_IS403.K21

1.3.2. Box Plot


8


Lab1_IS403.K21

2. Sử dụng ngôn ngữ R
2.1 Thống kê mô tả
- Nhập dữ liệu:

9

-

Tính Count, Min, Max, Mean, Median, Mode, Quantile, Range, Variance,
Standard Deviation, Coefficient of Deviation, Skewness, Kurtosis.

-

Count : số lượng các giá trị GDP

-

Min : Giá trị nhỏ nhất của GDP

-

Max: Giá trị lớn nhất của GDP

-


Mean : Giá trị trung bình của GDP

-

Variance: Phương sai

-

Standard Deviation: Độ lệch chuẩn


Lab1_IS403.K21

10

-

Median: Trung vị trung binh của GDP

-

Range: Độ chênh lệch của giá trị lớn nhất và nhỏ nhất

-

Quantile: Tứ phân vị

-


Mode : Giá trị xuất hiện nhiều nhất của GDP

-

Coefficient of Deviation: Hệ số biến thiên của GDP, bằng Độ lệch chuẩn (sd)
chia Giá trị Trung bình(mean)

-

Skewness: Độ xiên của GDP

-

Kurtosis: Độ nhọn của GDP


Lab1_IS403.K21

2.2 Công cụ trực quan hóa dữ liệu (Data Visualization):
2.2.1. Histogram

2.2.2. Box Plot

11


Lab1_IS403.K21

12



Lab1_IS403.K21

3. Sử dụng Spss
3.1 Thống kê mô tả
- Nhập dữ liệu

Vào Analyze -> escriptive Statistics -> Frequencies

Chọn variable là GDP sau đó click vào statistics

13


Lab1_IS403.K21

Chọn các giá trị muốn hiển thị

Kết quả ta nhận được

14


Lab1_IS403.K21

15

-

Valid: số lượng các giá trị GDP

Mean: giá trị trung bình của GDP
Median: trung vị trung bình của GDP
Mode: giá trị xuất hiện nhiều nhất trong dãy quan sát
Std. Deviation : Độ lệch chuẩn của GDP
Variance: Phương sai của GDP
Skewness : độ xiên của GDP
Kurtosis: độ nhọn của GDP
Range: khoảng cách giữa giá trị quan sát nhỏ nhất đến giá trị quan sát lớn nhất.

-

Range=Max-Min

-

Minium: giá trị nhỏ nhất của GDP
Maximum : giá trị lớn nhất của GDP


Lab1_IS403.K21

3.2 Công cụ trực quan hóa dữ liệu (Data Visualization)
3.2.1. Histogram
Vào Graphs -> Legacy Dialogs-> Histogram

Chọn giá trị là GDP rồi nhấn ok

16



Lab1_IS403.K21

Kết quả

3.2.2. Box Plot
17


Lab1_IS403.K21

Vào Graphs  Legacy Dialogs -> Boxplot

18


Lab1_IS403.K21

Kết quả

19


Lab1_IS403.K21

II. BÀI 1B: PURCHASE ORDERS
1. Sử dụng R:
20


Lab1_IS403.K21


1.1.
Thống kê mô tả (Descriptive Statistics)
- Nhập dữ liệu và lưu file vào R

21

-

Kiểm tra dữ liệu

-

Min: Giá trị nhỏ nhất của Cost per order, Quantity

-

Max: Giá trị lớn nhất của Cost per order, Quantity

-

Mean: Giá trị trung bình của Cost per order, Quantity
Tạo vector x chứa dữ liệu cột Cost per order, Quantity
Sử dụng lệnh “table” để biết tần số của x
Lọc ra viết lệnh lọc ra các giá trị lặp nhiều nhất

-

Median: Trung vị của Cost per order, Quantity


-

Mode: Giá trị xuất hiện nhiều nhất của Cost per order, Quantity


Lab1_IS403.K21

22

-

Interquartile Range (IQR): Tứ phân vị của Cost per order, Quantity

-

Range: Độ chênh lệch của giá trị lớn nhất và nhỏ nhất của Cost per order,
Quantity
Lấy giá trin lớn nhất(max) trừ cho giá trị nhỏ nhất(min)

-

Variance: Phương sai của Cost per order, Quantity

-

Standard Deviation: Độ lệch chuẩn của Cost per order, Quantity

-

Coefficient of Deviation: Hệ số biến thiên của Cost per order, Quantity

Được tính bằng Độ lệch chuẩn (sd) chia Giá trị Trung bình(mean)


Lab1_IS403.K21

23

-

Skewness: Độ xiên trong Cost per order, Quantity
Sử dụng thư viện “e1071”

-

Kurtosis: Độ nhọn trong Cost per order, Quantity
Sử dụng thư viện “e1071”


Lab1_IS403.K21

1.2.
Công cụ trực quan hóa dữ liệu (Data Visualization)
1.2.1. Box Plot: Sử dụng lệnh “boxplot” trong cột dữ liệu Cost per order

 Từ biểu đồ ta thấy Mean(Trung vị) trong khoảng 15000, Min(Giá trị nhỏ nhất
trong khoảng 0-100, Max(Giá trị lớn nhất) lớn hơn 120000, Tứ phân vị thứ
nhất khoảng 30000, Tứ phân vị thứ 3 khoảng 10000 nên IQR trong khoảng
20000.
1.2.2. Histogram: Sử dụng lệnh “hist” trong cột dữ liệu Cost per order


24


Lab1_IS403.K21

 Trục tung của biểu đồ biểu diễn Cost per order ,trục hoành biểu diễn tần suất
Mức Cost per order trong khoảng 0-20000 có tần suất nhiều nhất.

25


×