Tải bản đầy đủ (.pdf) (41 trang)

Đề tài phân tích thông tin về một cửa hàng điện tử trực tuyến

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.56 MB, 41 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b><small>ĐẠI HỌC QUỐC GIA TP. HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA </small></b>

<b><small>KHOA ĐIỆN- ỆN TỬĐI</small></b>

Tạ Duy Khiêm 2211575 Thống kê mô tả

Lê Đức Mạnh 2211994 Bài toán kiểm định 2 mẫu Nguyễn Hồ Vương Bảo 2210237 Hồi quy tuyến tính Đỗ Việt Hùng 2211323 Phân tích anova 1 yếu tố Mai Chánh Lộc 2211923 Bài toán kiểm định 1 mẫu

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>Mục L c ụ</b>

<b>I. Cơ sở lý thuyết: ... 3 </b>

1) Bài toán kiểm định 1 mẫu. ... 3

2) Bài toán kiểm định 2 mẫu. ... 3

3) Bài toán kiểm định ANOVA ... 5

4) Các phương pháp hồi quy tuyến tính... 6

<b>II. Thống kê mơ tả ... 7 </b>

III.<b> Thố</b>ng kê suy di<b>ễn: ... 21 </b>

1) Bài toán kiểm định 1 mẫu. ... 21

2) Bài toán kiểm định 2 mẫu. ... 24

3) Bài toán kiểm định ANOVA ... 28

4) Các phương pháp hồi quy tuyến tính... 32

<b>IV. Tài liệu tham khảo: ... 41 </b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>I. Cơ sở lý thuyết: 1) Bài toán kiểm định 1 mẫu. </b>

- ả ết không H0 : (Null Hypothesis) là giả Gi thi thiết về yếu tố cần kiểm định của tổng thể ở ạng thái bình thường, khơng chịu tác động củtr a các hiện tượng liên quan.

- ả Gi thiết đối H1 (Alternative Hypothesis) là một mệnh đề mâu thuẫn với H0 , H1 thể hiện xu hướng cần kiểm định.

- Tiêu chuẩn kiểm định là hàm thống kê G = G( X1 ,X2 , ..,Xn , 0 ), xây dựng trên mẫu  ngẫu nhiên W= ( X1 , X2 , .., Xn ) và tham số 0 liên quan đến H0 ; Điều kiện đặ t ra v i ớ thống kê G là nếu H0 đúng thì quy luật phân phối xác suất của G phải hoàn toàn xác định. - Miền bác bỏ giả ết RR ( Rejection region) là miền số ực thỏa P(G RR /H0 thi th  đúng) = .  là mộ ố khá bé, thường không quá 10% và đượt s c gọi là mức ý nghĩa của kiểm định. Một ký hiệu khác của miền bác bỏ được dùng trong bài: W Mi - ền chấp nhận AR: phần bù của miền bác bỏ trong R.

Quy tắc kiểm định: Từ mẫu thực nghiệm, ta tính được một giá trị cụ ể củth a tiêu chuẩn kiểm định, gọi là giá trị kiểm định thống kê: gqs = G(x1 , x2 , .., xn , 0 ) . Theo nguyên  lý xác suất bé, biến cố G  RR có xác suất nhỏ nên với 1 mẫu thực nghiệm ngẫu nhiên, nó khơng thể xảy ra.

Kết luận của một bài tốn kiểm định có thể mắc các sai lầm sau: - Sai lầm loại I: Bác bỏ giả ết H0 trong khi H0 đúng. Xác suất mắc phảthi i sai l m này nầ ếu H0 đúng chính bằng mức ý nghĩa . Nguyên nhân mắc phải sai lầm lo i I thưạ ờng có thể do kích thước mẫu quá nhỏ, có thể do phương pháp lấy mẫu … - Sai lầm loại II: Thừa nhận H0 trong khi H0 sai, tức là mặc dù thực tế H1 đúng nhưng giá trị thực nghiệm gqs khơng thuộc RR.

<b>2) Bài tốn kiểm định 2 mẫu. </b>

Bài toán kiểm định 2 mẫu là một trong những bài toán thống kê cơ bản, được sử dụng để so sánh hai mẫu dữ ệu và xem xét sự khác biệt giữa hai mẫu, từ đó đưa ra nhận xét hay li kết luận về sự khác biệt đó.

<b>2.1) Giả thuyết: </b>

<i>1. Giả thuyết khơng:</i>

H<small>0</small> (Null Hypothesis): Khơng có sự khác biệt ý nghĩa nào giữa hai mẫu. Cả hai mẫu được cho là đến từ cùng một phân phối.

<i>2. Giả thuyết thay thế:</i>

H<small>1</small> (Alternative Hypothesis): Có sự khác biệt ý nghĩa giữa hai mẫu. Một trong những dạng phổ biến của giả thuyết thay thế là (trung bình của hai mẫu khác nhau).

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>2.2) Loại kiểm định: </b>

<i>1. Kiểm định z hoặc t: </i>

Sự lựa chọn giữa kiểm định z (khi biết đến độ lệch chuẩn của quần thể) và kiểm định t (khi chỉ biế ến độ lệch chuẩn mẫu) phụ t đ thuộc vào thơng tin có sẵn.

So sánh thống kê với giới hạn quyế ịnh (critical value) hoặt đ c giá tr p: ị

Nếu p-value nhỏ hơn một ngưỡng alpha (thường là 0.05), ta bác bỏ giả thuyết không. Ngược lại, nếu p-value lớn hơn α, ta không thể bác bỏ giả thuyết không.

<b>• Kết lu n: ậ</b>

Tính ý nghĩa thực tế:

Nếu bác bỏ giả thuyết khơng, ta có thể kết luận rằng có sự khác biệt ý nghĩa giữa hai mẫu. Ngược lại, nếu không bác bỏ, ta không có đủ ứng cứ để kết luận rằng có sự khác biệt ý ch nghĩa.

<b>• Lưu ý: </b>

- Sự quan trọng của kích thước mẫu: Kích thước mẫu lớn thường giúp kiểm định có sức mạnh thống kê cao hơn.

- ểm tra các điều kiện kiểm định: Cần kiểm tra các điều kiện cho phép sử dụng kiểKi m định z hoặc t, đặc biệt là về tính phân phối chuẩn và tính đồng nhấ ủa phương sai.t c Trong bài toán kiểm định 2 mẫu, việc hiểu và áp dụng đúng các khái niệm trên sẽ giúp xác định xem có sự khác biệt giữa hai mẫu hay không và đưa ra kết luận hợp lý dựa trên thông tin thống kê.

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>3) Bài toán kiểm định ANOVA 3.1) Khái niệm: </b>

Phân tích phương sai (Analysis of Variance) hay còn gọi là kiểm định ANOVA là một kỹ thuật thống kê tham số đượ ử dụng để so sánh các bộ dữ c s liệu. Nói một cách dễ hiểu, phân tích ANOVA có chức năng đánh giá sự khác biệt ti m năng trong mề ột biến phụ thuộc mức quy mơ bằng một biến mức danh nghĩa có từ 2 loại trở lên. Các nhà phân tích sử dụng thử nghiệm ANOVA để xác định ảnh hưởng của các biến độ ập đốc l i với biến phụ thuộc trong nghiên cứu hồi quy. Kỹ thuật kiểm định ANOVA này được phát triển bởi Ronald Fisher năm 1918.

Ví dụ về phân tích phương sai:

Một nhóm bệnh nhân tâm thần đang thử ba liệu pháp khác nhau: tư vấn, dùng thuốc và phản hồi sinh học. Bạn muốn xem liệu mộ ệu pháp tốt hơn những liệu pháp khác.t li

<b>3.2) Phân loại: </b>

a) Anova mộ ếu tố:t y

Anova một yếu tố là một lo i thạ ử nghiệm thống kê so sánh phương sai trong nhóm có nghĩa là trong một mẫu trong khi chỉ xem xét mộ ếu tố hoặt y c một biến độ ập. Phương c l sai một yếu tố so sánh ba hoặc nhiều hơn ba nhóm phân loại để xác định xem có sự khác biệt giữa chúng hay khơng. Trong mỗi nhóm nên có ba hoặc nhiều quan sát và phương tiện của các mẫu được so sánh.

Các giả định của anova 1 yếu tố:

-Tổng thể có phân phối chuẩn hoặc gần chuẩn -Mẫu phải được chọn ngẫu nhiên và độc lập -Tổng thể ải có phương sai bằng nhauph b) Anova hai yếu tố:

Anova hai yếu tố mở rộng khám phá sự ảnh hưởng của hai yếu tố độ ập đến biến phụ c l thuộc. Nó khơng chỉ giúp xác định sự ảnh hưởng củ ừng yếu tố một cách riêng lẻ a t mà còn xem xét xem có tương tác giữa chúng hay khơng, tức là liệu sự ảnh hưởng của một yếu tố có thể phụ thuộc vào giá trị của yếu tố khác hay không.

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b>4) Các phương pháp hồi quy tuyến tính </b>

- Hồi quy chính là một phương pháp thống kê để thiết lập mối quan hệ giữa một biến phụ thuộc và một nhóm tập hợp các biến độ ập. Mơ hình vớc l i một biến phụ thuộc với hai hoặc nhiều biến độc lập được gọi là hồi quy bội (hay còn g i là hồi quy đa biến) ọ Ví dụ: Ch tiêu cỉ ủa hộ gia đình về thực phẩm phụ thuộc vào quy mô hộ gia đình, thu nhập, vị trí địa lý…; Tỷ lệ tử vong trẻ em của một quốc gia phụ thuộc vào thu nhập bình quân đầu người, trình độ giáo dục,...; Lương của một người phụ thuộc vào ch c vứ ụ, kinh nghiệm, độ tu i,.. ổ

- Nếu mơ hình hồi quy phân tích sự ụ ph thuộc của 1 biến phụ thuộc vào 1 biến độ ập c l gọi là hồi quy đơn, nếu có nhiều biến độ ập gọc l i là hồi quy bội. Hồi quy tuyến tính là mơ hình hồi quy trong đó mối quan hệ giữa các biến được biểu diễn bởi một đường thẳng (đường thẳng là đường phù hợp nhấ ới dữ ệu). t v li

- Trong phần bài tập lớn chúng ta quan tâm đến hồi quy tuyến tính Logistic, một kỹ thuật phân tích dữ ệu sử dụng tốn học để tìm ra mốli i quan hệ giữa hai yếu tố dữ ệu. Sau đó, li kỹ thuật này sử dụng mối quan hệ đã tìm được để dự đốn giá trị của những yếu tố đó dựa trên yếu tố cịn lại. Dự đốn thường cho ra mộ ố kết s t quả hữu hạn, như có hoặc không.

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<b>II. Thống kê mơ t ả</b>

Tính các giá trị thống kê mơ tả (trung bình, độ lệch chuẩn, min, max, trung vị) cho các biế

Tính các giá trị ống kê mơ tả (trung bình, độ lệth ch chuẩn, min, max, trung vị) cho các biến sau khi đã chuyển qua dạng log(x+1)

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

Vẽ biểu đồ Histogram thể hiện phân phố ủa biến is_expedited_delivery trước và sau khi i c chuyển sang dạng log(x+1)

hist(new_df[,"is_expedited_delivery"],xlab="is_expedited_delivery ",main="Histogram o f

hist(new_df2[,"is_expedited_delivery"] ,xlab="log(is_expedited_delivery +1) ",main="H istogram of log( is_expedited_delivery+1)",ylim=c(0,150),col=3,labels=T)

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

Vẽ biểu đồ Histogram thể hiện phân phố ủa biến order_price trước và sau khi chuyển i c

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

Vẽ biểu đồ Histogram thể hiện phân phố ủa delivery_charges order_price trước và sau i c khi chuyển sang dạng log(x+1)

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

Vẽ biểu đồ Histogram thể hiện phân phố ủa delivery_charges trước và sau khi chuyển i c

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

Vẽ biểu đồ Histogram thể hiện phân phố ủa order_total trước và sau khi chuyển sang i c

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

Vẽ biểu đồ Histogram thể hiện phân phố ủa distance_to_nearest_warehouse trước và i c sau khi chuyển sang dạng log(x+1)

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

Vẽ biểu đồ Histogram thể hiện phân phố ủa is_happy_customer trưới c c và sau khi chuyển sang dạng log(x+1)

hist(new_df[,"is_happy_customer"],xlab=" is_happy_customer",main="Histogram of is_

Nhìn vào biểu đồ histogram, ta thấy đa số các biến khơng có phân phối chuẩn do đồ thị bị lệch về một bên hoặc không có dạng hình chng.

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

Vẽ biểu đồ phân tán thể hiện sự phân phối của biến is_happy_customer theo biến is_expedited_delivery trước và sau khi chuyển sang dạng log(x+1).

plot(is_happy_customer~ is_expedited_delivery,data=new_df,xlab=" is_expedited_delive ry ",ylab="is_happy_customer",main="Plot of is_happy_customer and is_expedited_deli very ",col=2)

plot(is_happy_customer~ is_expedited_delivery,data=new_df2,xlab=" log(is_expedited_ delivery +1)",ylab="is_happy_customer",main="Plot of is_happy_customer and log(is_e xpedited_delivery+1) ",col=3)

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

Vẽ biểu đồ phân tán thể hiện sự phân phối của biến is_happy_customer theo biến order_price trước và sau khi chuyển sang dạng log(x+1).

plot(is_happy_customer~ order_price,data=new_df,xlab=" order_price",ylab="is_happy_ customer",main="Plot of is_happy_customer and order_price",col=2)

plot(is_happy_customer~ order_price,data=new_df2,xlab=" log(order_price+1)",ylab="is _happy_customer",main="Plot of is_happy_customer and log(order_price+1) ",col=3)

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

Vẽ biểu đồ phân tán thể hiện sự phân phối của biến is_happy_customer theo biến delivery_charges trước và sau khi chuyển sang dạng log(x+1).

plot(is_happy_customer~ delivery_charges,data=new_df,xlab=" delivery_charges",ylab= "is_happy_customer",main="Plot of is_happy_customer and delivery_charges",col=2) plot(is_happy_customer~ delivery_charges,data=new_df2,xlab=" log(delivery_charges+1 )",ylab="is_happy_customer",main="Plot of is_happy_customer and log(delivery_charge s+1) ",col=3)

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

Vẽ biểu đồ phân tán thể hiện sự phân phối của biến is_happy_customer theo biến coupon_discount trước và sau khi chuyển sang dạng log(x+1).

plot(is_happy_customer~ coupon_discount,data=new_df,xlab=" coupon_discount",ylab= "is_happy_customer",main="Plot of is_happy_customer and coupon_discount",col=2) plot(is_happy_customer~ coupon_discount,data=new_df2,xlab=" log(coupon_discount+1 )",ylab="is_happy_customer",main="Plot of is_happy_customer and log(coupon_discoun t+1) ",col=3)

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

Vẽ biểu đồ phân tán thể hiện sự phân phối của biến is_happy_customer theo biến order_total trước và sau khi chuyển sang dạng log(x+1).

plot(is_happy_customer~ order_total,data=new_df,xlab=" order_total",ylab="is_happy_c ustomer",main="Plot of is_happy_customer and order_total",col=2)

plot(is_happy_customer~ order_total,data=new_df2,xlab=" log(order_total+1)",ylab="is_ happy_customer",main="Plot of is_happy_customer and log(order_total+1) ",col=3)

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

Vẽ biểu đồ phân tán thể hiện sự phân phối của biến is_happy_customer theo biến is_expedited_delivery trước và sau khi chuyển sang dạng log(x+1).

plot(is_happy_customer~ is_expedited_delivery,data=new_df,xlab=" is_expedited_delive ry",ylab="is_happy_customer",main="Plot of is_happy_customer and is_expedited_deliv ery",col=2)

plot(is_happy_customer~ is_expedited_delivery,data=new_df2,xlab=" log(is_expedited_ delivery+1)",ylab="is_happy_customer",main="Plot of is_happy_customer and log(is_ex pedited_delivery+1) ",col=3)

- Nhận xét

Dựa vào biểu đồ phân tán, ta thấy có rất nhiều điểm không tập trung thành một vệt thẳng. Điều này thể hiện mối tương quan tuyến tính tương đối không rõ giữa các biến được vẽ.

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

<b>III. Thống kê suy diễn: 1) Bài toán kiểm định 1 mẫu. </b>

*Kiểm tra các giả định:

- Giả định 1: Chi phí đặt hàng ở các kho hàng tuân theo phân phối chuẩn:

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

- Giả định 2:

leveneTest(order_total~as.factor(nearest_warehouse),data=open_data_2)

+ Nhận xét:

Giả thuyết H0: Phương sai chi phí đặt hàng ở 3 kho hàng bằng nhau. Giả thuyết H1: có ít nhất 2 kho hàng có phương sai chi phí đặt hàng khác nhau. Vì p-value = 0.4631 > mức ý nghĩa 5% nên ta chưa bác bỏ được giả thuyết H0. Vì vậy phương sai chi phí đặt hàng của khách hàng ở ở 3 kho hàng bằng nhau.

+ Thực hiện phân tích phương sai 1 nhân tố:

aov(order_total~nearest_warehouse,data=open_data_2) summary(anova_model_1)

+ Nhận xét:

Giả thuyết H0: chi phí đặt hàng trung bình ở 3 kho hàng bằng nhau. Giả thuyết H1: có ít nhất 2 kho hàng có chi phí đ t hàng trung bình khác nhau.ặ Vì p-value = 0.856 > mức ý nghĩa 5% nên ta chưa bác bỏ được giả thuyết H0. Vì vậy chi phí đặt hàng trung bình của khách hàng ở ở 3 kho hàng bằng nhau.

+ Nhận xét: Dựa trên các đ th QQồ ị -plot, ta nhận thấy các quan sát không nằm trên đường thẳng, ta có thể kết luận chi phí đặt hàng ở các kho hàng không tuân theo phân phối chuẩn. Ngoài ra, p-value ở các kiểm định đều bé hơn rất nhiều so với mức ý nghĩa 5%, nên ta cũng có thể đưa ra kết luận là chi phí đặt hàng ở các kho hàng đều không tuân theo phân ph i chuố ẩn.

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

<b>2) Bài toán kiểm định 2 mẫu. </b>

<i>Khi làm bài toán ểm định 2 mẫu, trước hết ta cần xác định 2 mẫu, và ta sẽ đi kiểm định kicùng 1 thông số của 2 mẫu đó. Ở đây có nhiều mẫu để xét, nhưng ta sẽ đặt vấn đề hướng đến sự hài lòng của khách hàng ( một yếu tố quan trọng bậc nhất trong kinh doanh ). Và ta sẽ ọn các thông số để so sánh, ở bài này, ta sẽ ọn kiểchchm định loại t. </i>

<b>2.1) Kiểm định chung </b>

Kiểm định đối với giá trị vận chuyển: Thực tế là giá trị vận chuyển của đơn hàng có tác động lớn đối với sự hài lịng của khách hàng. Chi phí vận chuyển hợp lý đối với khoảng cách, kích thước đơn hàng và giá trị đơn hàng là một ki m đế ịnh hết sức thiết thực. Trước tiên, ta cần xác định xem chi phí giao hàng giữa 2 mẫu có liên quan tới nhau hay khơn, hay nói cách khác là xét xem chi phí giao hàng có ảnh hưởng tới sự hài lịng của khách hàng hay khơng. Tức là nếu được cho là “ Có ý nghĩa thống kê “ thì ta có thể kết luận là chi phí giao hàng có ảnh hưởng tới sự hài lịng của khách hàng, và qua đó ta đi phân tích xem ảnh hưởng cụ thể như thế nào.

Ở đây ta dùng kiểm định T-test để kiểm định.

Trước tiên ta gõ lệnh: table(data$is_happy_customer) để ểm tra số ợng hàng lịng và ki lư khơng hài lòng.

Ta nhận được kết quả trong 500 khách hàng thì có 359 người hài lịng và 141 người hài lịng, tỷ lệ là gần 7:3, hay nói cách khách tỷ lệ khách hàng hài lòng là 71,8% và tỷ lệ khách hàng khơng hài lịng là 28,2%. Ta mô tả bằng biểu đồ pie plot sau:

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

Để mô tả về 2 loại khách hàng Hài Lịng và Khơng Hài Lịng, ta dùng lệnh sau:

describeBy(delivery_charges,is_happy_customer)

Ở đây ta đặt tên dữ liệu là data, ta nhận được kết qu : ả

Vì để giá trị là 0,1 sẽ khó hình dung nên ta đã đổi “1” thành “HaiLong”, “0” thành “KhongHaiLong”, và ta thu đư c nhợ ững thông số cơ bản như trên.

ếp đến, ta sử dụng kiểm định t.test có sẵn trong R, để có thể kiểm định 2 mẫu khách Ti hàng.

Ta dùng lệnh sau:

t=t.test(delivery_charges~is_happy_customer) print(t)

Và ta thu được kết quả dưới đây:

Ở đây, p-value là rất nhỏ, t.test cho ta kết quả t = 9.6782, tức là “diffirent” cao gấp 9 lần “SD of diffirent”, hay nói một cách đơn giản, là kiểm định của ta CÓ Ý NGHĨA THỐNG KÊ.

Vậy, ý nghĩa thống kê của nó như thế nào, ta cùng theo dõi phần tiếp theo, ta sẽ phân tích dữ ệu bằng sơ đồ.li

</div>

×