Tải bản đầy đủ (.ppt) (91 trang)

slide bài giảng bai 7. nhập và xử lý dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.35 MB, 91 trang )

Bài 7.
Nhập và xử lý dữ liệu
Môn học: Phương pháp nghiên cứu kinh tế
Khoa Kinh tế Phát triển
Đại học Kinh Tế TP. Hồ Chí Minh
2
7.1 Giới thiệu
Nhằm hướng dẫn sinh viên cách:

Cách nhập liệu, xử lý và phân tích dữ liệu.

Các kỹ thuật phân tích dữ liệu mang tính
khám phá (exploratory data analysis).

Cách sử dụng bảng chéo (cross-tabulation)
để trắc nghiệm mối quan hệ giữa các biến
phân loại (categorical variables).

Cách sử dụng các thống kê phân tích trắc
nghiệm giả thiết.
TS. Trần Tiến Khai, UEH
3
7.2 Quy trình phân tích dữ liệu
Lập đề cương NC
Thu thập và chuẩn
bị dữ liệu
Phân tích và diễn giải dữ liệu
Phân tích mô tả các biến số
Lập bảng chéo cho các biến số
Trình bày dữ liệu
(histogram, boxplots, Pareto, stem-and-


leaf, AID, etc.)
Phân tích dữ liệu
Báo cáo nghiên cứu
Ra quyết định
Kế hoạch phân tích sơ
khởi
Xác định lại giả tthuyết
Thể hiện trực quan dữ liệu
Trắc nghiệm giả thiết
Hình 8.1 Các bước khám
phá, trắc nghiệm và phân
tích trong quá trình nghiên
cứu
TS. Trần Tiến Khai, UEH
4
7.3 Nhập số liệu
7.3.1 Cách bố trí dữ liệu trên máy
tính

Mục tiêu:

Nhằm tạo điều kiện thuận tiện cho việc
nhập liệu

Nhằm tạo sự thuận lợi cho việc chỉnh sửa
dữ liệu
TS. Trần Tiến Khai, UEH
5
7.3 Nhập số liệu


Thực hiện:

Nguyên tắc chung: đặt tên biến ngắn gọn, viết
tắt (tiếng Việt không dấu hoặc tiếng Anh). Tên
biến nên được đặt theo quy định.

Dùng Excel: dễ thao tác và chỉnh sửa, không
gian lưu trữ hạn chế, công cụ thống kê và kinh
tế lượng không đủ cho phân tích.

Dùng SPSS: không gian lưu trữ gần như không
hạn chế, công cụ thống kê và kinh tế lượng phát
triển đầy đủ cho nhu cầu phân tích. Khai báo dữ
liệu bắt buộc, mất thời gian.
TS. Trần Tiến Khai, UEH
6
7.3 Nhập số liệu
Hình 5. 2 Cách
nhập dữ liệu vào
bảng tính SPSS
TS. Trần Tiến Khai, UEH
7
7.3 Nhập số liệu
Hình 8.3 Cách định nghĩa các thuộc tính của các biến số định tính và
định lượng
TS. Trần Tiến Khai, UEH
8
Định nghĩa kiểu biến
TS. Trần Tiến Khai, UEH
9

Xác định nhãn (giải thích) của biến
TS. Trần Tiến Khai, UEH
10
Xác định giá trị phân loại của biến
TS. Trần Tiến Khai, UEH
11
Xác định thang đo của biến
TS. Trần Tiến Khai, UEH
12
7.4 Làm sạch dữ liệu
7.4.1 Phát hiện giá trị dị biệt trong dữ liệu
a. Sử dụng Excel: hàm Max và Min, công cụ Auto Filter, đồ
thị Scatter
TS. Trần Tiến Khai, UEH
13
7.4 Làm sạch dữ liệu
Hình 5.4 Công cụ đồ
thị Scatter trong Excel
TS. Trần Tiến Khai, UEH
14
7.4 Làm sạch dữ liệu
7.4.1 Phát hiện giá trị dị biệt trong dữ liệu
b. Sử dụng SPSS: đồ thị Scatter, công cụ Frequency, Bar
Chart, Pie Chart, và Box Plot trong Explore
TS. Trần Tiến Khai, UEH
15
7.4 Làm sạch dữ liệu
b. Sử dụng SPSS: đồ thị Scatter
Number of used days in a month
403020100

A g e o f m otorbike user
80
70
60
50
40
30
20
10
Motobike Names
Others
Honda @
Honda Dream
SYM Attila
Yamaha Cygnus
Honda Wave
Yamaha Jupiter
Yamaha Sirius
Honda Future Neo
Honda AirBlade
TS. Trần Tiến Khai, UEH
16
7.4 Làm sạch dữ liệu
b. Sử dụng SPSS: công cụ Frequency, Explore
Hình 8.6 Công cụ Frequency và Explore trong SPSS
TS. Trần Tiến Khai, UEH
17
7.4 Làm sạch dữ liệu
b. Sử dụng SPSS: công cụ Frequency
Frequency Percent %Valid Cumulative

Percent
Honda Air Blade 10 10.0 10.0 10.0
Honda Future Neo 8 8.0 8.0 18.0
Yamaha Sirius 7 7.0 7.0 25.0
Yamaha Jupiter 13 13.0 13.0 38.0
Honda Wave 24 24.0 24.0 62.0
Yamaha Cygnus 4 4.0 4.0 66.0
SYM Attila 11 11.0 11.0 77.0
Honda Dream 6 6.0 6.0 83.0
Honda @ 7 7.0 7.0 90.0
Others 10 10.0 10.0 100.0
Total 100 100.0 100.0
TS. Trần Tiến Khai, UEH
18
7.4 Làm sạch dữ liệu
b. Sử dụng SPSS: công cụ Pie Chart và Bar Chart
10.0%
7.0%
6.0%
11.0%
4.0%
24.0%
13.0%
7.0%
8.0%
10.0%
Others
Honda @
Honda Dream
SYM Attila

Yamaha Cygnus
Honda Wave
Yamaha Jupiter
Yamaha Sirius
Honda Future Neo
Honda AirBlade
Motobike Names
P e rce nt
30
20
10
0
TS. Trần Tiến Khai, UEH
19
7.4 Làm sạch dữ liệu

Biểu đồ histogram là một giải pháp quy ước
dùng để thể hiện các dữ liệu tỷ lệ hoặc
khoảng cách.

Biểu đồ histogram được sử dụng để phân
nhóm các giá trị dữ liệu của các biến số
(variable) thành các khoảng cách.

Biểu đồ histogram được xây dựng dưới
dạng các thanh thể hiện giá trị dữ liệu.
b. Sử dụng SPSS: công cụ Histogram
TS. Trần Tiến Khai, UEH
20
7.4 Làm sạch dữ liệu


Biểu đồ histogram rất hữu dụng cho việc: (1)
thể hiện tất cả các khoảng cách trong một
phân phối (distribution), và (2) trắc nghiệm
dạng hình của phân phối như độ méo
(skewness), độ nhọn (kurtosis).

Ghi chú: Biểu đồ histogram không dùng được
cho các biến danh nghĩa.
b. Sử dụng SPSS: công cụ Histogram
TS. Trần Tiến Khai, UEH
21
7.4 Làm sạch dữ liệu
Age of motorbike user
757065605550454035302520
30
20
10
0
Std. Dev = 14.42
Mean = 39
N = 100.00
Ví dụ 8.2 Phân phối
biến số tuổi của
người sử dụng xe
máy
b. Sử dụng SPSS: công cụ Histogram
TS. Trần Tiến Khai, UEH
22
7.4 Làm sạch dữ liệu


Mỗi dòng của biểu đồ được gọi là một
thân; và mỗi số liệu thể hiện trên
một thân gọi là một lá.

Khi biểu đồ thân-và-lá được quay trái
90
0
, nó sẽ có dạng hình tương tự như
biểu đồ histogram.
b. Sử dụng SPSS: biểu đồ Thân-và-Lá (Stem-and-Leaf Displays)
TS. Trần Tiến Khai, UEH
23
7.4 Làm sạch dữ liệu
b. Sử dụng SPSS: biểu đồ Thân-và-Lá (Stem-and-Leaf Displays)
Age of motorbike user Stem-and-Leaf Plot
Frequency Stem & Leaf
6.00 1 . 889999
18.00 2 . 000111122222233344
8.00 2 . 55677788
13.00 3 . 0012233334444
4.00 3 . 5556
12.00 4 . 123333334444
13.00 4 . 5555566777789
10.00 5 . 0123344444
9.00 5 . 566667779
2.00 6 . 03
4.00 6 . 5567
.00 7 .
1.00 7 . 6

Stem width: 10
Each leaf: 1 case(s)
8.3 Biểu đồ Thân-và Lá
của biến số Tuổi của
người sử dụng xe máy
TS. Trần Tiến Khai, UEH
24
7.4 Làm sạch dữ liệu

Biểu đồ hộp, hay còn gọi là biểu đồ hộp-và-râu (box-
and-whisker plot), cho ta một hình ảnh trực quan khác
về vị trí, độ phân tán, dạng hình, độ dài đuôi và các giá
trị bất thường (outliers) của phân phối.

Biểu đồ hộp thể hiện tóm tắt 5 giá trị thống kê của một
phân phối là trung vị (median), hai tứ phân vị trên và
dưới (the upper and lower quartiles), và các giá trị quan
sát lớn nhất và nhỏ nhất
b. Sử dụng SPSS: biểu đồ hộp (Box-Plots)
TS. Trần Tiến Khai, UEH
25
7.4 Làm sạch dữ liệu

Các thành phần chủ yếu của biểu đồ hộp là:

Hộp hình chữ nhật chứa đựng 50% các giá trị dữ liệu.

Đường thẳng ở trung tâm hộp là giá trị trung vị.

Hai lề của hộp thể hiện hai giá trị tứ phân vị thứ 1 và

thứ 3 (tương ứng với giá trị thứ 25% (25th percentile)
và giá trị thứ 75% (75th percentile) của dãy số liệu.

Các “râu” kéo dài từ lề phía trên và phía dưới của hộp
thể hiện giá trị lớn nhất và nhỏ nhất. Các giá trị này
nằm trong khoảng tối đa 1,5 lần khoảng cách giữa các
tứ phân vị tính từ lề của hộp.
b. Sử dụng SPSS: biểu đồ hộp (Box-Plots)
TS. Trần Tiến Khai, UEH

×