công cụ phân tích tiêu chuẩn của thống kê suy luận

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.13 MB, 27 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC GIÁO DỤC

TIỂU LUẬN HỌC PHẦN…

ĐỀ TIỂU LUẬN …

Giảng viên:

Học viên: Phan Cẩm Tú Ngày sinh: 18/10/1998 Lớp: Tốn 3

Khóa: 2021 - 2023 Mã số HV: 21015679

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

LỜI CẢM ƠN

Trong thời gian nghiên cứu và hoàn thành tiểu luận, em đã nhận được sự giúp đỡ nhiệt tình của cơ giáo và các bạn học viên trong lớp . Qua đây, em xin bày tỏ lịng biết ơn sâu sắc tới các thầy, cơ trong tổ phương pháp dạy học và đặc biệt là GS.TS. Vũ Trọng Lưỡng- người đã định hướng đề tài và tận tình chỉ bảo, giúp đỡ em hồn thiện học phần này.

Do thời gian và kiến thức có hạn, tiểu luận khơng tránh khỏi có những hạn chế và thiếu sót nhất định. Em kính mong nhận được sự đóng góp ý kiến của thầy và các bạnhọc viên để tiểu luận của em được hoàn thiện hơn.

Em xin chân thành cảm ơn! Hà Nội, 10 tháng 4 năm 2023

Phạm Cẩm Tú

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

I. Khái niệm cơ bản về thống kê...4

1. Định nghĩa về Thống kê:...4

2. Các loại Thống kê:...5

3. Phân loại các nghiên cứu Thống kê:...6

II. Thống kê mô tả...7

1. Biến số & Dữ liệu...7

III. Suy luận thống kê...19

1. Định nghĩa thống kê suy luận...19

2. Cơng cụ phân tích tiêu chuẩn của thống kê suy luận...20

2.1. Kiểm định giả thuyết...20

2.2. Khoảng tin cậy (CIs)...20

2.3. Phân tích hồi quy...21

3. Kết quả thống kê suy luận:...21

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

I. Khái niệm cơ bản về thống kê1. Định nghĩa về Thống kê:

Dưới đây là 2 định nghĩa phổ biến của Thống Kê:

- Thống kê là những dữ kiện hay dữ liệu, xuất hiện dưới dạng số hoặc không phải dạng số, được tổ chức và tóm tắt, để cung cấp thơng tin hữu ích và dễ tiếp cận cho một chủ đề cụ thế nào đó. - Thống kê là khoa học về tổ chức và tóm tắt thơng tin dạng số hoặc khơng phải dạng số.

Nhiệm vụ của các nhà thống kê là phân tích dữ liệu nhằm mục đích tổng qt hóa và đưa ra các kết luận.

- Thống kê suy luận

Trước khi tìm hiểu về Thống kê suy luận thì chúng ta sẽ đi qua khái niệm về Population, Sample và Census.

Population là toàn bộ phần tử hay đối tượng được cho là có mặt trong nghiên cứu, trong khi đó Sample chỉ là một phần trong đó, mình hay gọi là một tập con (subset).

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

Ví dụ: Trong tập dữ liệu chọn Population là các sinh viên của ba trường trung học ở Hoa Kỳ nhưng để khảo sát toàn bộ sinh viên của ba trường đại học ở Hoa Kỳ thì mất rất nhiều thời gian và chi phí vì vậy cần chọn Sample là 1000 sinh viên bất kì khảo sát từ đó sẽ thựchiện thống kê suy luận để đưa ra kết luận đại diện cho toàn bộ sinh viên của ba trường trung học ở Hoa Kỳ.

Từ ví dụ trên ta có thể đưa ra khái niệm tổng quát về Thống kê suy luận như sau: Thống kê suy luận bao gồm các phương pháp rút ra và đo lường độ tin cậy của các kết luận về tổng thể dựa trên thông tin thu được từ một mẫu của tổng thể.

- Thống kê mô tả và thống kê suy luận có mối liên hệ chặt chẽ với nhau. Phải ln luôn sử dụng các kỹ thuật của thống kê mô tả để tổ chức, tóm tắt các thơng tin thu được từ tập Sample trước khi thực hiện thống kê suy luận. Hơn nữa nhờ thống kê mô tả cho bạn thơng tin về đặc điểm, tính chất của Sample, giúp bạn hiểu rõ dữ liệu hơn, dẫn đến việc lựa chọn các phương pháp phân tích suy luận phù hợp.

3. Phân loại các nghiên cứu Thống kê:

Nếu như mục đích của nghiên cứu là kiểm tra và khám phá thông tin, những đặc điểm đặc biệt, thơng tin hữu ích có trong bản thân dữliệu thơi thì đây là nghiên cứu thiên hướng mơ tả (Descriptive Statistics).

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

Tuy nhiên nếu như dữ liệu thu thập được là

một Sample thuộc Population nào đấy, sau đó sử dụng chúng để đưa ra kết luận cho Population thì nó là Thống kê suy luận.

II. Thống kê mô tả1. Biến số & Dữ liệu

Tập dữ liệu sử dụng: K ết quả học tập của học sinh

Trước khi đi vào mô tả dữ liệu thì chúng ta cần nắm rõ một vài khái niệm cơ bản trước.

- Variable - Biến số: một đặc điểm thay đổi từ người này sang người khác hay vật nay sang vật khác, ví dụ như chiều cao, câng nặng, số lượng cặp sinh đơi, giới tính, tình trạng hơn nhân và màu mắt. Chúng ta có các loại biến sau:

+ Qualitative - Biến định tính: Biến số mà giá trị của nó ko ở dạng số như tình trạng học vẫn, Giới tính là Nam và Nữ, đây khơng phải làdữ liệu dạng số.

+ Quantitative - Biến định lượng: Biến số mà giá trị nó ở dạng số. Nhưng trong nhánh này sẽ chia làm 2 dạng là Discrete (Rời rạc) và Continous (Liên tục), biến rời rạc là biến có giá trị nguyên và số lượng của chúng có thể đếm được ví dụ như Số lượng cặp sinh đôi, số lượng trẻ em cả nước, trong khi đó biến liên tục tồn tại dưới dạng

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

khoảng, và giá trị của biến có thể là bất kì giá trị nào trong khoảng đó

Ví dụ: Điểm số của một bài kiểu tra trong khoảng từ 50 đến 100.

- Các giá trị của biến bất kì gọi là Data, một giá trị nằm trong Data gọi là Observation (Điểm số của 1 sinh viên bất kì là 87). Tập hợp dữ liệu của nhiều biến được gọi là Dataset. Tương tự với biến chúng ta sẽ có qualitative data, quantitative data, discrete data, và continuous data.

2. Tổ chức Dữ liệu định tính

Việc đầu tiên bạn làm trong phần mô tả này là tổ chức chúng thành các bảng, biểu đồ hoặc đồ thị để nắm được những ý chính của dữ liệu, nói cho dễ hiểu là bạn tóm tắt nó lại cho dễ hiểu đó.

2.1 Frequency Table

- Bước 1: Lấy ra danh sách giá trị không bị trùng của tập dữ liệu, ởtệp dữ liệu: K ết quả học tập của học sinh ta có 6 giá trị khơng bị trùng của biến định tính “Trình độ học vấn” là “Một số trường cao đẳng”, “Bằng Cao đẳng”, “Bằng cử nhân”, “Trung học phổ thông”, “Một số trường trung học” và “Bằng thạc sĩ”; tương tự với biến định tính “Giới tính” thì chỉ có 2 giá trị không bị trùng là “Nam” và “Nữ”;

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

với biến định tính “Bữa ăn trưa” thì chỉ có 2 giá trị khơng bị trùng là “Chuẩn” và “Miễn phí/giảm giá”

- Bước 2: Đếm số lần xuất hiện của mỗi giá trị không bị trùng của biến định tính “Trình độ học vẫn của phụ huynh” trong tập dữ liệu được chọn

Frequency Table

Qua Frequency Table cho thấy trong tập dữ liệu thu thập - Số lần suất hiện của “Một số trường cao đẳng” là lớn nhất với 224 lần, tiếp theo là “Trung học phổ thơng” với 215 lần và ít nhất là “Bằng thạc sĩ” với 75 lần.

- Số sinh viên nam và sinh viên nữ gần bằng nhau trong đó số lượng sinh viên nam lớn hơn với 508 sinh viên nam và 492 sinh viênnữ.

- Toàn bộ sinh viên trong tập dữ liệu đầu đăng kí ăn tại cantin trong đó số sinh viên đăng kí theo diện sinh viên bình thường là 660sinh viên và số sinh viên được hưởng chính sách miễn phí hoặc giảmgiá là 340 sinh viên.

2.2 Relative - Frequency Distributions

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

Tương tự như Frequency Table, Relative frequency sẽ hiển thị phần trăm trên tổng số thay vì là số lần xuất hiện. Bạn chỉ cần lấy frequency chia cho tổng số dòng dữ liệu có trong bảng.

Relative frequency Table

Qua Relative frequency Table cho trong tập biến định tính đang xét tần số suất hiện của “Một số trường cao đẳng” là lớn nhất với tỉ lệ 0.224 và ít nhất là “Bằng thạc sĩ” với tỉ lệ 0.075.

2.3 Pie Charts

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<small>17.70%7.50%Trình độ học vấn</small>

<small>Một số trường cao đẳngBằng Cao đẳngTrung học phổ thôngMột số trường trung họcBằng thạc sĩBằng cử nhân</small>

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

Đối với dữ liệu định lượng trước tiên chúng ta sẽ nhóm dữ liệu lại thành các class - nhóm hay lớp (còn được gọi là categories hay là bins) và sau đó làm việc với chúng như dữ liệu định tính. Có 3 ngun tắc chung để bạn nhóm dữ liệu định lượng thành class: - Số lượng class phải khơng q nhiều cũng khơng q ít, quá ít sẽdẫn tới việc bỏ qua các đặc điểm khác biệt giữa các class, quá nhiều thì lại làm cho mình khó quan sát và đơi khi khơng thấy được tính tương đồng.

- Mỗi điểm dữ liệu (observation) phải thuộc một class duy nhất. - Trong trường hợp khả thi, tất cả các lớp nên có cùng số phần tử, trong trường hợp lý tưởng nhé bạn.

Một số phương pháp được sử dụng để nhóm dữ liệu thành các class: single-value grouping, limit grouping, và cutpoint grouping vớiđặc điểm cụ thể như sau:

- Single-value grouping: phương pháp này xem mỗi điểm dữ liệu làmột class, nó chỉ thích hợp với tập dữ liệu có ít unique value (giá trị khơng trùng lặp) và ở dạng rời rạc (discrete) không phải continous (liên tục).

- Limit grouping: Trong trường hợp dữ liệu q nhiều thì chúng ta sẽ khơng sử dụng phương pháp Single Point được, vừa không thể thống kê được chúng, bạn có thể tưởng tượng bản tần suất trên dài vài chục trang thì khơng thể nói là bạn đang summarize dữ liệu được, chúng ta sẽ dùng phương pháp Limit grouping, tạo ra các khoản dữ liệu để phân lớp. Chỉ dùng cho dữ liệu dạng rời rạc, có thể đếm được

- Cutpoint grouping: Trong trường hợp dữ liệu quá nhiều thì chúng ta sẽ không sử dụng phương pháp Single Point được, vừa không thể

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

thống kê được chúng, bạn có thể tưởng tượng bản tần suất trên dài vài chục trang thì khơng thể nói là bạn đang summarize dữ liệu được, chúng ta sẽ dùng phương pháp Limit grouping, tạo ra các khoản dữ liệu để phân lớp. Chỉ dùng cho dữ liệu dạng liên tục

Với tệp dữ liệu: K ết quả học tập của học sinh vì số điểm của một học sinh có thể trải đều từ 1 đến 100 nên chung ta sẽ sử dụng phương pháp limit grouping.

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

Điểm số của các học sinh từng mơn học Qua cách nhóm và sử lý số liệu như trên ta có thể dễ dàng lọc ra các nhóm thơng tin như sau

- Số điểm của các sinh viên tập trung vào khoảng từ 61-70 điểm và 71-80 điểm.

- Khơng có sinh viên nào bị điểm từ 0 đến 10 điểm.

- Số sinh viên đạt điểm từ 91-100 điểm chiếm 6-8% trên tổng số sinh viên tham gia khảo sát.

Biểu đồ

Cũng giống như dữ liệu định tính, chúng ta có thể biểu diễn dữ liệu định lượng dưới dạng biểu đồ giúp cho việc quan sát trở nên trực quan sinh động hơn dễ dàng nắm bắt được các thông tin quan trọng.

Có 3 phương pháp phổ biến là histograms, dotplots, và leaf:

- Histogram biểu diễn class trên trục x và tần suất (relative frequencies, percents) ở trục y, nói đơn giản bạn sẽ vẽ barchart với dữ liệu tần suất nhưng thay vì cách xa nhau thì chúng sẽ được đặt sát lại và sắp xếp theo độ lớn tăng dần.

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

- Dotplots một dạng biểu diễn hình học cho dữ liệu định lượng nữalà Dotplot, mỗi observation sẽ được biểu diễn thành 1 điểm tương ứng với trục hồnh, nếu có 2 giá trị bằng nhau thì chúng sẽ xếp chồng lên nhau. Dotplot thường được sử dụng với tập dữ liệu nhỏ vừa phải, nhìn vào đây bạn sẽ dễ nhận thấy các cụm dữ liệu hay outliers.

- Stem-and-leaf: giống Histogram nhưng thay vì hiển thì chiều dài cột thì ở đây sẽ hiển thị cụ thể số liệu.

Trong trường hợp tệp dữ liệu: K ết quả học tập của học sinh thì chọn phương pháp Histograms sẽ giúp người nhìn dễ dàng so sánh giữa các khoảng điểm số của sinh viên:

- Điểm toán:

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

- Tỉ lệ sinh viên có điểm tốn khơng đạt yêu cầu <sup>40</sup> thấp <sup>5%</sup>

- Tỉ lệ sinh viên đạt điểm toán giỏi và xuất sắc <sup>80</sup> khoảng <small>22%</small>.

- Nhóm điểm tốn từ 60 – 80 chiếm tỉ lệ cao nhất <sup>45%</sup>- Điểm đọc

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

- Tỉ lệ sinh viên có điểm đọc khơng đạt u cầu <sup>40</sup> thấp <sup>5%</sup>

- Tỉ lệ sinh viên đạt điểm đọc giỏi và xuất sắc <sup>80</sup> khoảng <small>25%</small>.

- Nhóm điểm đọc từ 60 – 80 chiếm tỉ lệ cao nhất <sup>50%</sup>

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

- Điểm viết

- Tỉ lệ sinh viên có điểm viết khơng đạt u cầu <sup>40</sup> thấp <sup>5%</sup>

- Tỉ lệ sinh viên đạt điểm viết giỏi và xuất sắc <sup>80</sup> khoảng <small>25%</small>.

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

- Nhóm điểm viết từ 60 – 80 chiếm tỉ lệ cao nhất <sup>45%</sup>

4. Measures of Center

Các chỉ số thể hiện giá trị trung tâm, giá trị tiêu biểu hay bạn có thể gọi là giá trị đại diện cho phần đông dữ liệu, có nhiều cách chọn giá trị đại diện ví dụ như: Mean - Trung bình, Median - Trung vị, Mode. Các chỉ số này được gọi là Mesuares of Central

Tendency hay Measures of Center với mục đích chọn ra giá trị tiêu biểu, đủ điều kiện đại diện cho phần lớn các giá trị có trong tập dữ liệu.

4.1 Mean - Trung bình

Mean được hiểu như giá trị trung bìnhđiểm tốn, điểm đọc, điểm viết của sinhviên trong tập số liệu thu thập được lầnlượt là 67.81, 70.382 và 69.14.

Qua đó cho thấy đọc có điểm trung bình cao nhất trong 3 mơn. Vàđiểm trung bình của cả 3 mơn của sinh viên năm trong khoảng 70 điểm.

4.2 Median - Trung vị

Trung vị là giá trị nằm ở trung tâmthật sự, khác với trung bình ở phía trên,đầu tiên bạn sẽ sắp xếp dữ liệu theo thứ

tự tăng dần sau đó chọn ra giá trị trung tâm bằng cơng thức

vớin là tổng số lượng dữ liệu bạn có.

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

Trong tập số liệu thu thập được có n 1000 nên suy ra vị trí của

median sẽ là

<small>2</small> lúc này bạn sẽ có median bằng giá trị tại vị trí số 500 và số 501 cộng lại chia đơi.

4.3 Mode - Yếu vị

Mode chính là giá trị có tần suất xuấthiện nhiều nhất.

Lưu ý: Nếu 2 giá trị có cùng tần suất

và cùng lớn nhất thì chúng ta có 2 Mode, nếu như khơng có giá trị nào xuất hiện hơn 1 lần thì tập dữ liệu ấy khơng có Mode. Mode sử dụng được với cả dữ liệu định tính và định lượng.

5. Measures of Variation

Chúng ta đã đi qua khái niệm giá trị trung tâm và xuất hiện nhiều nhất, tuy nhiên sẽ có trường hợp 2 tập dữ liệu có chung Mean, Median, Mode nhưng vẫn có sự khác biệt. Để mơ tả sự khác biệt nàyngười ta sử dụng các chỉ số đo sự thay đổi, biến thiên của dữ liệu được biết đến với tên gọi là measures of variation hay measures of spread. Các chỉ số Measure of Variation phổ biến nhất là : range, standard deviation

5.1 Range

Range là hiệu số giữa giá trị lớn nhất vànhỏ nhất (range = max-min)

5.2 Standard Deviation

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

Standard Deviation (Độ lệch chuẩn - Std) cho ta biết được khoảng cách trung bình (độ phân tán) của các điểm dữ liệu so với giá trị trung bình (Mean). Nếu độ lệch chuẩn thấp tức là dữ liệu có tính biến động thấp và ngược lại.

Độ lêch chuẩn được tính bằng căn bậc hai của Phương sai - Variance. Cách tướng phương sai như sau:

- Tìm giá trị trung bình - Mean - Với mỗi điểm dữ liệu bạn lấygiá trị đó trừ đi Mean và bìnhphương chúng lên

- Cộng tất cả kết quả từ bước trước chia cho số lượng dữ liệu khảo sát (n)

- Variance of "điểm toán"III. Suy luận thống kê

1. Định nghĩa thống kê suy luận

Thống kê suy luận (inferential statistics): bao gồm các phương pháp ước lượng các đặc trưng của tổng thể, phân tích mối liên hệ giữa các hiện tượng nghiên cứu, dự đoán hoặc ra quyết định trêncơ sở thu thập thông tin từ kết quả quan sát mẫu.

Thống kê suy luận là tất cả về khái quát hóa từ mẫu đến quần thể,tức là lấy dữ liệu từ một mẫu và đưa ra các suy luận về quần thể lớnhơn mà từ đó mẫu được rút ra. Mục tiêu của thống kê suy luận là rútra kết luận từ một mẫu và khái quát hóa chúng thành một quần thể,và mẫu phải phản ánh chính xác quần thể đó. Ở cấp độ rộng, các bạn cần phải làm như sau:

- Xác định quần thể chúng ta đang nghiên cứu.

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

- Vẽ một mẫu đại diện từ quần thể đó. - Sử dụng các phân tích kết hợp lấy mẫu lỗi.

Lấy mẫu ngẫu nhiên giúp chắc chắn rằng mẫu đại diện cho tổng thể. Đây là quá trình quan trọng tạo ra số liệu thống kê, chẳng hạn như giá trị trung bình,… Tuy nhiên, việc thu thập một mẫu thực sự ngẫu nhiên có thể là một q trình phức tạp. Ngược lại, lấy mẫu có sẵn sẽ dễ thu thập hơn, nhưng sẽ khó lấy mẫu đại diện và kết quả cũng ít chính xác hơn.

2. Cơng cụ phân tích tiêu chuẩn của thống kê suy luận

Các phương pháp phổ biến nhất trong thống kê suy luận là kiểm định giả thuyết, khoảng tin cậy và phân tích hồi quy.

2.1. Kiểm định giả thuyết

- Phương pháp kiểm tra giả thuyết sử dụng dữ liệu mẫu trả lời các câu hỏi như sau:

- Quần thể có ý nghĩa lớn hơn hay nhỏ hơn so với một giá trị cụ thể?

- Là phương tiện của hai hoặc nhiều quần thể khác nhau? Ví dụ: Nếu chúng ta kiểm tra chất lượng của sinh viên bằng cách so sánh kết quả các bài kiểm tra trong nhóm nghiên cứu và kiểu sốt. Các thử nghiệm giả thuyết có thể cho biết kết quả học tập củasinh viên trong mẫu có khả năng tồn tại trong toàn quần thể (sinh viên của 3 trường đại học) hay không.

Tất nhiên, chúng ta không muốn sử dụng kết quả nếu nó chỉ có hiệu quả trong một mẫu cụ thể. Thay vào đó, chúng ta cần bằng chứng cho thấy nó sẽ hữu ích trong tồn bộ sinh viên. Các thử

</div>

công cụ phân tích tiêu chuẩn của thống kê suy luận

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về