bài tập phân tích dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.04 MB, 37 trang )

Trang 1<div class="page_container" data-page="1">

HỌC VIỆN TÀI CHÍNH

VIỆN ĐÀO TẠO QUỐC TẾ

Institute of International Finance Education

DUAL DEGREE PROGRAMME- DDP

BÀI TẬP PHÂN TÍCH DỮ LIỆU

Course name: RESEARCH METHOD

(Phương pháp nghiên cứu)

Academic Year (Semester): 2023-2024 (Semester 1)

Student Full Name: Hồ Tự Hồng Student ID: DDP0603123 Class Code: RM1.0601

Page of 137

</div>Trang 2<div class="page_container" data-page="2">

Mentor: PGS.TS. Lê Đình Hải

BÀI LÀM

Bài 1. Cho bảng số liệu

Obs thunhap tieudung Obs thunhap tieudung

</div>Trang 3<div class="page_container" data-page="3">

1. Cộtđầutiên làtêncácbiến. 2. Cột

thứ 2là N=44,đâychínhlà sốlượng mẫu.

3. Cột thứ 3 là Minimum, là giá trị nhỏ nhất. Giá trị nhỏ nhất của biến Thu nhập là0.25 có ý nghĩa: trong 44 người được khảo sát thì 0.25 là mức thu nhập thấp nhất;giá trị nhỏ nhất của biến Tiêu dùng là 0.18 có ý nghĩa: trong 44 người được khảo sátthì 0.18 là mức tiêu dùng thấp nhất.

4. Cột thứ 4 là Maximum, là giá trị lớn nhất. Giá trị lớn nhất của biến Thu nhập là 1.80có ý nghĩa: trong 44 người được khảo sát thì 1.80 là mức thu nhập cao nhất; giá trịlớn nhất của biến Tiêu dùng là 0.95 có ý nghĩa: trong 44 người được khảo sát thì0.95 là mức tiêu dùng cao nhất.

5. Cột thứ 5 là Mean, giá trị trung bình. Giá trị trung bình của biến Thu nhập là 0.7898có ý nghĩa: mức thu nhập trung bình của 44 người tham gia khảo sát là 0.7898; Giátrị trung bình của biến Tiêu dùng là 0.4539 có ý nghĩa: mức tiêu dùng trung bình của44 người tham gia khảo sát là 0.4539.

6. Cột tiếp theo là Std.Deviation, độ lệch chuẩn. Độ lệch chuẩn biến Thu nhập là0.41414 lớn hơn so với độ lệch chuẩn biến Tiêu thụ là 0.20308 Theo 44 ngườitham gia khảo sát thì mức thu nhập giữa họ có sự khác nhau nhiều hơn mức tiêudùng.

Page of 337

Descriptive Statistics

Std.DeviationStatisticStatisticStatisticStatistic Std. ErrorStatistic

Valid N (listwise)44

</div>Trang 4<div class="page_container" data-page="4">

b. Vẽ biểu đồ Histogram của thu nhập trên đó có vẽ đường cong chuẩn, hãy nhậnxét phân bố của biến thu nhập.

Biểu đồ trên thể hiện sự phân bố của biến Thu nhập với cỡ mẫu là 44.

Nhìn vào đây ta thấy biểu đồ phân bố theo hình dạng phân phối chuẩn. Có một đườngcong giống hình chng trên hình là đường phân phối chuẩn, ta thấy biểu đồ tần sốhistogram tương ứng với đường cong hình chng đó. Bên cạnh đó, giá trị trung bìnhmean là 0.79 và độ lệch chuẩn bằng 0.414; biểu đồ phân bố lệch trái.

Với dạng biểu đồ này ta thấy rằng dữ liệu đã bị giới hạn một phía. Ta có thể khắcphục bằng cách đưa những dữ liệu bị giới hạn hay bị loại bỏ bởi tiêu chuẩn nào đó vàovà tìm hiểu, rà sốt lại lịch sử lấy dữ liệu.

Page of 437

</div>Trang 5<div class="page_container" data-page="5">

c. Hãy sử dụng các thủ tục cần thiết phân tích mối quan hệ giữa thu nhập và tiêudùng.

**. Correlation is significant at the 0.01 level (2-tailed).

Từ bảng Correlations ta thấy giá trị Sig.(2-tailed)= 0,000< α = 0,05 nên 2 biến thunhập và tiêu dùng có tương quan rất chặt chẽ với nhau.

Hệ số tương quan bội giữa thu nhập và tiêu dùng là r = 0.975 (0,9 < r= 0,975 < 1)

2 biến thu nhập và tiêu dùng có mối tương quan đồng biến với nhau, khi thu nhậptăng thì tiêu dùng cũng tăng và ngược lại.

Vậy 2 biến thu nhập và tiêu dùng có tương quan rất chặt chẽ và đồng biến với nhau.

Bài 2. Cho bảng số liệu doanh thu trong ngày của 2 cửa hàng của công ty như sau:

Page of 537

Cửa hàng 1 4.5 4.75 4.85 3.85 3.9 4.35 4.7 4.25 5.3 3.9 5.4 5.3 4.5 3.95 4.35Cửa hàng 2 3.4 4.25 4.5 4.9 4.6 4.45 3.95 3 4.7 3.7 5.05 3.3 3.43 4.15 5.2

</div>Trang 6<div class="page_container" data-page="6">

Hãy dùng các thủ tục cần thiết trong SPSS để phân tích và so sánh doanh thu của haicửa hàng nói trên. Cửa hàng nào cho doanh thu cao hơn (giả thiết rằng doanh thutrong ngày có phân bố gần phân bố chuẩn).

Group Statistics

Std. ErrorMean

Kiểm định phương sai 2 mẫu :

H0: Var 1 (Cửa hàng 1) = Var 2 (Cửa hàng 2)H1: Var 1 (Cửa hàng 1) ≠ Var 2 (Cửa hàng 2)

Var 1 phương sai về doanh thu của cửa hàng 1 Var 2 phương sai về doanh thu của cửa hàng 2 Kiểm định giá trị bình quân của 2 mẫu độc lập: H0: µ1 (Cửa hàng 1) = µ2 (Cửa hàng 2) H1: µ1 (Cửa hàng 1) ≠ µ2 (Cửa Hàng 2)

Kiểm định ta được:

( Dựa vào Independent Samples Test )

Page of 637

</div>Trang 7<div class="page_container" data-page="7">

Independent Samples Test

t-test for Equality of Means

Page of 737

</div>Trang 8<div class="page_container" data-page="8">

Sig. (2-tailed)Mean DifferenceStd. ErrorDifference

Independent Samples Test

t-test for Equality of Means95% Confidence Interval of the DifferenceIndependent Samples Test

Levene's Test for Equality ofVariances

t-test for Equality ofMeans

</div>Trang 9<div class="page_container" data-page="9">

Nhìn vào bảng Independent Samples Test ta thấy:

Cột Sig. = 0,216 > α =0,05 nên ta có cơ sở chấp nhận H0. Var 1 = Var 2.

Phương sai 2 mẫu bằng nhau.

Khi đó:

So sánh giá trị ở cột Sig.(2-tailed) dòng 1 với α = 0,05.

Cột Sig.(2-tailed) dòng 1 = 0,126 > α = 0,05 nên ta có cơ sở chấp nhận H0. µ1 = µ2.

Doanh thu bình quân của 2 cửa hàng khơng có sự khác biệt đáng kể với mức độ tin cậy 95%.

Bài 3. Cho bảng số liệu lượng tiêu thụ sản phẩm của doanh nghiệp được ghi theo mùa

trong nhiều năm

Hãy thực hiện xử lý dữ liệu thích hợp, phân tích ảnh hưởng của mùa tới lượng tiêuthụ của sản phẩm.

Descriptives Tiêu Thụ

N Mean Deviation Std. Error Std.

</div>Trang 10<div class="page_container" data-page="10">

Test of Homogeneity of VariancesLevene

</div>Trang 11<div class="page_container" data-page="11">

Kiểm định giả thuyết:

H0: M1 (Mùa Xuân) = M2 (Mùa Hạ) = M3 (Mùa Thu)= M4 (Mùa Đơng)

H1: Có ít nhất một M khác biệt nhiều so với các M cịn lại (Tức là có ít nhất 1 mùa códoanh thu khác biệt đáng kể với các mùa còn lại).

So sánh giá trị cột sig của bảng ANOVA với α = 0,05.

Vì sig. ở bảng ANOVA = 0,001 < α = 0,05 nên ta có cơ sở bác bỏ H0, chấp nhận H1.

Vậy với mức độ tin cậy 95% ln khẳng định rằng có ít nhất 1 mùa khác biệt đáng kể với 3 mùa cònlại.

Dựa vào bảng Multiple Comparisons, giá trị cột Mean Difference (I-J) các dịng có dấu

* thì giá trị ở cột Sig. tương ứng < α = 0,05 và có sự khác biệt đáng kể.

Vậy với mức độ tin cậy 95% ta ln khẳng định rằng Mùa đơng có lượng tiêu thụ thấp hơnmột cách đáng kể so với 3 mùa còn lại.

Page 11 of 37

</div>Trang 12<div class="page_container" data-page="12">

Bài 4: Tìm hiểu về nhu cầu sử dụng điện thoại, ơng Bình đã sử dụng bộ dữ liệu củaSingapore giai đoạn 1960-1981 với 2 biến sau:

TEL: Số lượng máy điện thoại trên 1000 người.

GDP: Tổng sản phẩm quốc nội theo đầu người, tại mức giá cơ cấu tính theo đô la Singapore năm1968.

</div>Trang 13<div class="page_container" data-page="13">

b. Hãy tính các trị thống kê tổng hợp cho biến GDP và TEL (trung bình, phương sai, độlệch chuẩn, Max, Min).

Descriptive Statistics

StatisticStatisticStatisticStatisticStd. ErrorStatisticStatistic

</div>Trang 14<div class="page_container" data-page="14">

Trong đó:

- Mean: Giá trị trung bình.

**. Correlation is significant at the 0.01 level (2-tailed).

Bảng Correlations cho ta thấy giá trị Sig. (2-tailed) = 0,000 < α = 0,05 nên 2 biến GDPvà TEL có tương quan rất chặt chẽ với nhau.

Hệ số tương quan bội giữa GDP và TEL là r = 0.973 gần bằng 1, nên 2 GDP và TELcó mối tương quan đồng biến với nhau, khi GDP tăng thì TEL cũng tăng và ngược lại.

Vậy 2 biến GDP và TEL có tương quan rất chặt chẽ và đồng biến với nhau.

d. Xây dựng mơ hình hồi quy giữa TEL và GDP.

Page of 1437

</div>Trang 15<div class="page_container" data-page="15">

a. Predictors:(Constant), GDP

b. Dependent Variable: TEL

Ta có phương trình mơ hình hồi quy mẫu: TEL= .GDP + Trong đó:

- TEL: Biến phụ thuộc - GDP: Biến độc lập- hệ số tự do - hệ số góc phần dư

Kiểm tra sự phù hợp và tin cậy của mơ hình:

Dựa vào bảng Model Summaryb ta thấy mơ hình tương đối phù hợp và đáng tin cậyvì R = 0.943 có nghĩa là trong các nhân tố ảnh hưởng đến sự thay đổi của TEL thì GDP2đã giải thích được 94,3% sự thay đổi của TEL còn lại 5,7% chịu tác động ảnh hưởng cácnhân tố khác chưa có điều kiện đưa vào mơ hình.

Adjusted RSquare

Std. Error oftheEstimate

Change StatisticsR Square

ChangeFChange1,973a,946,94321,061,946 350,667

</div>Trang 16<div class="page_container" data-page="16">

Unstandardized Coefficients

a. Dependent Variable: TEL

Kiểm tra sự tồn tại của hệ số hồi quy: H0: B1 = 0

H1: B1 ≠ 0 H0: B2 = 0 H1: B2 ≠ 0

Phương trình của mơ hình hồi quy: TEL = -66.106 + 0.065 GDP

.

Với mức độ tin cậy 95% hệ số hồi quy của biến GDP ln ln khác 0 vì Sig = 0,000 < α =0,05 và GDP ảnh hưởng đáng kể đến TEL.

Vậy trong trường hợp các yếu tố khác khơng đổi, khi GDP tăng lên 1 triệu đơ thì TEL tăng 0.065 đơn vị.

Ta có được thống kê số dư là:

</div>Trang 17<div class="page_container" data-page="17">

Bài 5: Sinh viên tự đề xuất một yêu cầu nghiên cứu trong thực tế và ứng dụng cơng cụ

SPSS để tính tốn, xây dựng mơ hình, giải thích ý nghĩa và đề xuất giải pháp nếu có.

Bài 6: Cho số liệu về sản xuất lúa ở tệp "RiceProduction", các biến tương ứng là:

Các điều kiện sản xuất và đặc trưng của hộ gia đình

- Plot: số mảnh ruộng của hộ gia đình

- LandClass: Cấp đất (cấp đất càng cao đất càng xấu) - Crop: hệ số mùa vụ (số vụ lúa bình quân/năm) - Age: tuổi của chủ hộ

Page of 1737

</div>Trang 18<div class="page_container" data-page="18">

- Hhsize: số người trong hộ gia đình

- Vùng miền: Các quan sát từ 1-192 là các hộ gia đình ở miền Bắc (mã hóa Miền Bắc =1),các quan sát từ số 193 trở đi là các hộ gia đình miền Nam (mã hóa Miền Nam=0).

Yêu cầu:

1. Nhập dữ liệu từ file Excel vào phần mềm SPSS và ghi vào fileTen_RiceProduction_STT.sav

2. Bỏ đi 10 quan sát ngẫu nhiên (STT và 9 quan sát khác)

3. Xây dựng hàm hồi quy nghiên cứu các nhân tố ảnh hưởng đến sản lượng lúa của hộ giađình, ước lượng hàm hồi quy, phân tích ảnh hưởng của các nhân tố, gợi mở hoặc đề xuấtchính sách.

</div>Trang 19<div class="page_container" data-page="19">

Khi kiểm tra yếu tố sản lượng lúa, ta loại bỏ các số dị biệt có số thứ tự: 202, 190, 226, 214.

- Kiểm tra phân phối chuẩn các biến định lượng:

Page of 1937

</div>Trang 20<div class="page_container" data-page="20">

Các biến đều chưa tiệm cận với phân phối chuẩn. Sử dụng phương pháp chuyển đổi biến Ln.

</div>Trang 21<div class="page_container" data-page="21">

Page of 2137

</div>Trang 22<div class="page_container" data-page="22">

Phương trình: LnOutput =

- Phân tích tương quan giữa các biến độc lập với biến phụ thuộc:

Correlations LnLan

d LnFertiliser LnLabo

ur LnMachi ne LnPlot Cấp đất Tuổi của hộ

chủ Số khẩu của hộ Vùng miền

Page of 2237

</div>Trang 23<div class="page_container" data-page="23">

Correlation 1 .946

-.031 .552 369

.260**-.509 **

Sig. (2-tailed) N

.000 .000 .000 369

.265 369

LnLabour Pearson

Correlation .820 **.848 **1 .823 **.226 **.196**.028 .595 369

Sig. (2-tailed) N

LnPlot Pearson

Correlation -.121 *-.058 .226 **-.077 1 -.145**-.041 .429 369

.109*-.448 **

Sig. (2-tailed) N

.000 .000 .000 .000 369

.005 369

.001 369

-.169**1 Sig. (2-tailed) .000 .000 .000 .000 .000 .000 .001

**. Correlation is significant at the 0.01 level (2-tailed).

Page of 2337

</div>Trang 24<div class="page_container" data-page="24">

Dựa vào bảng trên, ta loại các biến LnPlot, tuổi chủ hộ và số khẩu có |r| < 0,3 do cótương quan yếu với sản lượng lúa.

Phương trình: LnOutput =

(3)

- Kiểm tra các khuyết tật mô hình:

+ Hiện tượng đa cộng tuyến:

Model

Unstandardized Coefficients

Standardized Coefficients

Dựa vào bảng Coefficients, có giá trị ở cột VIF của LnLand, LnFertiliser,LnMachine >= 10 nên có hiện tượng đa cộng tuyến.

Để khắc phục điều này, ta có bỏ biến LnLand, chạy lại mơ hình.

Model

Unstandardized Coefficients

Standardized Coefficients

</div>Trang 25<div class="page_container" data-page="25">

LnLabour .301 .043 .177 6.990 .000 .171 5.837 LnMachine .365 .035 .344 10.548 .000 .103 9.682

Cấp đất -.054 .010 -.067 -5.668 .000 .776 1.289 Vùng miền -.409 .029 -.235 -14.235 .000 .403 2.480 a. Dependent Variable: LnOutput

VIF của tất cả các biến đều <10 nên mơ hình khơng có hiện tượng đa cộng tuyến.

+ Hiện tượng tương quan phần dư:

Model Summaryb

Model R R Square Adjusted Square

R Std. Error of the

Estimate Durbin-Watson 1

.960 .960 .17514 1.462 a. Predictors: (Constant), Vùng miền, LnLabour, Cấp đất, LnFertiliser, LnMachine b. Dependent Variable: LnOutput

Ta thấy Durbin-Watson = 1,462 thỏa mãn điều kiện lớn hơn 1 và nhỏ hơn 3 nên mơhình khơng có hiện tượng tự tương quan phần dư.

+ Phần dư có tiệm cận với phân phối chuẩn hay không:

Page of 2537

</div>Trang 26<div class="page_container" data-page="26">

Căn cứ vào đồ thị Histogram có dạng giống hình chng. Phân bố của phần dư tiệm cận phân phối chuẩn.

- Kiểm tra sự tồn tại của mơ hình:

Model Sum of Squares df Mean Square F Sig. 1

Regression Residual Total

267.929 5 53.586 1746.849 .000 b

11.135 363 .031 279.064 368 a. Dependent Variable: LnOutput

b. Predictors: (Constant), Vùng miền, LnLabour, Cấp đất, LnFertiliser, LnMachine

H0: B1 = B2 = B3 = B4 = B5 = 0

H1: Có ít nhất một B khác biệt đáng kể với các B còn lại. Page of 2637

</div>Trang 27<div class="page_container" data-page="27">

So sánh giá trị cột sig của bảng ANOVA với α = 0,05.

Vì Sig = 0,000 < α = 0,05 nên ta có cơ sở bác bỏ H0, chấp nhận H1. Vậy với mức độ tin cậy 95% mô hình ln tồn tại.

- Kiểm định sự phù hợp và tin cậy của mơ hình:

Model Summaryb

Model R R Square Adjusted Square

R Std. Error of the

Estimate Durbin-Watson 1

.960 .960 .17514 1.462 a. Predictors: (Constant), Vùng miền, LnLabour, Cấp đất, LnFertiliser, LnMachine b. Dependent Variable: LnOutput

Mô hình tương đối phù hợp và đáng tin cậy vì R2 = 0,960 có nghĩa là trong các yếutố ảnh hưởng đến sản lượng lúa của hộ gia đình, các yếu tố trong mơ hình của phương trình(3) đã giải thích được 96,0% sự thay đổi về sản lượng lúa của hộ gia đình và cịn lại 4,0%được giải thích bằng các yếu tố khác chưa giải quyết trong mô hình.

- Kiểm định sự tồn tại của hệ số hồi quy:

</div>Trang 28<div class="page_container" data-page="28">

- Xác định tầm quan trọng của các yếu tố ảnh hưởng:

Model

UnstandardizedCoefficients

StandardizedCoefficients ABS

(Beta) %

Tầm quantrọng B Std. Error Beta

</div>Trang 29<div class="page_container" data-page="29">

*Ông cha ta đã có câu “Nhất nước, nhì phân, tam cần, tứ giống” nước hiện tải thìchưa cần nhắc đến cịn việc bón phân và sử dụng đúng loại phân bón tốt sẽ giúp cải thiên vànâng cao chất lượng lúa cũng như sản lượng lúa.

+ Tích cực đầu tư cơ giới hóa, phát triển cơ sở hạ tầng, máy móc thiết bị. + Ưu tiên phát triển trồng lúa các vùng miền Nam.

+ Đào tạo chất lượng cho lao động nông thôn, cải tạo chất lượng đất trồng.

Page of 2937

</div>Trang 30<div class="page_container" data-page="30">

Bài 7: Cho số liệu về khảo sát các nhân tố ảnh hưởng đến nghèo tại 1 địa phương Yêu cầu: Xây dựng hàm hồi quy nghiên cứu các nhân tố ảnh hưởng đến nghèo tại địa

phương nghiên cứu, phân tích ảnh hưởng của các nhân tố, gợi mở hoặc đề xuất chính sách.

Phương trình hồi quy: DANGHO =

</div>Trang 31<div class="page_container" data-page="31">

- Phân tích mối quan hệ giữa Hocvan và với các biến quan sát còn lại

hệ số tương quan bội (Pearson Correlation)

0,0 < r=0,026 < 0,3 chúng ta kết luận rằng Hocvan và Pthuoc có mối quan hệ

- Xác định tương quan giữa các biến định tính với nhau:

Dân tộc với Giới tính chủ hộ khơng có sự tương quan vì giá trị cột Sig. = 0,744 > 0,3

Dân tộc với Nghề chủ hộ có mối quan hệ tương quan và có mối quan hệ tương quan lỏng

Dân tộc với Đường ô tơ tương quan trung bình, thể hiện tương quan nghịchDân tộc với Làm xa nhà có mối quan hệ tương quan yếu và ngược chiều.Dân tộc với Có vay ngân hàng có mối quan hệ tương quan yếu và nghịch biến; người Kinh, Hoa vay vốn có cơ hội thốt nghèo

</div>Trang 32<div class="page_container" data-page="32">

Page of 3237

</div>Trang 33<div class="page_container" data-page="33">

Page of 3337

</div>Trang 34<div class="page_container" data-page="34">

- Chuyển đổi biến cũ phân phối không đều thành các biến phân phối chuẩn: dùngchuyển đổi biến Ln

- Biến diện tích: Coi: LnDtich = Ln(Dtich + 1) sau đó kiểm tra Histogram, ta thấy sốdị biệt đã giảm đi đáng kể so với ban đầu.

- Tương tự với 3 biến còn lại: LnPTHUOC, LnHOCVAN, LnKCACH

Phương trình hồi quy: DANGHO =

(2)

Page of 3437

</div>Trang 35<div class="page_container" data-page="35">

- Kiểm định sự tồn tại của mơ hình: (Phân tích bằng Binary Logisstic ởRegression )

Omnibus Tests of Model Coefficients

Cox & SnellR Square

Nagelkerke RSquare

Dựa vào bảng Model Summary, giá trị Nagelkerke R-Square = 0,538 có nghĩa làtrong các yếu tố ảnh hưởng đến xác suất nghèo/không nghèo của hộ gia đình, các yếu tốtrong mơ hình đã giải thích được 52,1% cịn lại 47,9% được giải thích bởi các yếu tố khácchưa có điều kiện đưa vào mơ hình.

Mơ hình tương đối phù hợp.

- Kiểm định về mức độ chính xác dự báo của mơ hình

(Phân tích bằng Binary Logisstic ở Regression )

Page of 3537

</div>