Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.59 MB, 105 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
<i><b>Ví dụ: Dữ liệu về NSLĐ của một số công nhân trong XN X được trình bày </b></i>
dưới biểu đồ cành và lá như sau:
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4"><b>Analyze > Descriptive Statictis > Explore </b>
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6"><small>+ Có ít biểu hiện: Có thể xem mỗi biểu hiện là một tổ</small>
<small>+ Có nhiều biểu hiện: Nhóm gộp các biểu hiện giống nhau về một tính chất nào đó thành một tổ</small>
<i><b><small>• Biến định lượng:</small></b></i>
<b><small>+ Có ít trị số: Có thể xem mỗi trị số là một tổ</small></b>
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7"><b><small>+ Có nhiều trị số: Theo nguyên tắc lượng đổi kéo theo chất đổi; phân tổ có khoảng </small></b>
<small>cách tổ; mỗi tổ có x</small><sub>imin</sub><small> và X</small><sub>imax </sub><small>. Trị số khoảng cách tổ của mỗi tổ: h</small><sub>i</sub><small> = x</small><sub>imax</sub><small> - x</small><sub>imin</sub><small> ; Số tổ có 2 cách xác định: Dựa vào kinh nghiệm hoặc dựa vào công thức:</small>
<small> K số tổ (Số tổ là một số nguyên dương và làm trịn theo</small><b><small> TỐN HỌC. </small></b><small> Đặt thêm giả thút phân tổ đều</small>
<b><small> - Xác định trị số khoảng cách tổ của phân tổ đều:</small></b>
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8"><b>* Xác định trị số khoảng cách tổ đều và giới hạn của các tổ</b>
- Trị số khoảng cách tổ làm tròn <b>LÊN</b>, số thập phân tùy thuộc vào nguồn dữ liệu ban đầu
- X<sub>1min</sub> = x <sub>min</sub> <sub> </sub>
<small>- </small>X<sub>imax </sub> = X<sub>imin </sub> + h<sub>i</sub> ( h<sub>1</sub> = h<sub>2</sub> = ….= h<sub>k</sub> ) - X<sub>imax</sub> = x<sub>(i+1)min</sub>
- Nếu 1 quan sát có lượng biến bằng X<sub>imax</sub> sẽ được xếp vào tổ (i+1)
<b>B3. Bảng kết quả phân tổ </b>
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11"><b>*Phân tổ mở: </b>
- Tổ đầu tiên khơng có x<small>1min</small>
- Tổ cuối cùng khơng có x<small>kmax</small>
- Sử dụng qui ước để tìm x<small>1min </small>và x<sub>kmax </sub>
<b>h<sub>1</sub> = h<sub>2 </sub>= x<sub>2max </sub>- x<sub>2min </sub>Vậy<sub> </sub></b>x<sub>1min </sub>=<sub> </sub>x<sub>1max </sub>– h<sub>1</sub>
<b>h<sub>k</sub> = h<sub>k-1 = </sub></b>x<sub>(k-1)max </sub> <b>- x</b><sub>(k-1)min </sub>Vậy x<sub>kmax </sub>= x<sub>kmin</sub> + h<sub>k</sub>
<small>10Marada Inn Quality Ratings</small>
<small>Tune-up Parts Cost</small>
<small></small> <b><small>Ví dụ: Sửa xe ơ tơ Hudson</small></b>
<small>50 60 70 80 90 100 110</small>
<small>Chi phí ($)</small>
<small>Chi phí cho phần điều chỉnh</small> <b><small>Ví dụ: Sửa xe ô tô Hudson</small></b>
Xác định nhãn các tổ lề trái và phía đầu cho hai biến
Bảng chéo có thể sử dụng khi:
Bảng chéo một là một bản tóm tắt các dữ liệu cho bảng hai biến
<b>Ví dụ: Số căn nhà Finger Lakes bán được cho mỗi loại </b>
và giá cả trong hai năm qua được thể hiện dưới đây
<b>Analyze > Descriptive Statictis > Crosstabulation> </b>
</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29"><small>ColonialLog Split-Level A-Frame Split-LevelA-Frame</small>
</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30"><small>ColonialLog Split</small> <sub>A-Frame</sub>
</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">Các chỉ tiêu mơ tả khuynh hướng hội tụ (vị trí trung tâm)
Các chỉ tiêu mô tả độ phân tán
</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32"><small>Nếu các đo lường này được tính cho dữ liệu</small>
<b><small>từ một mẫu chúng được gọi là thống kê mẫu. </small></b>
<small>Nếu các đo lường này được tính cho dữ liệu</small>
<b><small>từ một mẫu chúng được gọi là thống kê mẫu. </small></b>
<small>Nếu các đặc trưng này được tính cho dữ liệu từ </small>
<b><small>một tổng thế, chúng được gọi là các tham số </small></b>
<b><small>tổng thể.</small></b>
<small>Nếu các đặc trưng này được tính cho dữ liệu từ </small>
<b><small>một tổng thế, chúng được gọi là các tham số </small></b>
</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">Số trung bình là thước đo quan trọng nhất của đo lường độ hội tụ.
Giá trị trung bình của một tập dữ liệu là mức trung bình của tất cả các giá trị dữ liệu.
Giá trị trung bình của một tập dữ liệu là mức trung bình của tất cả các giá trị dữ liệu.
</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">Trung bình mẫu
Trung bình tổng thể
</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35"><i>Lượng biến x<sub>i</sub> là chỉ tiêu khối lượng và tài liệu không phân tổ</i>
</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">
<i>1.Lượng biến x<sub>i</sub> là chỉ tiêu khối lượng và tài liệu phân tổ</i>
<i>2.Lượng biến x<sub>i là</sub></i> chỉ tiêu chất lượng và trong số W<sub>i</sub> là tần số (tần suất)
</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">X<sub>i</sub> gọi là trị số giữa tổ i
</div><span class="text_page_counter">Trang 41</span><div class="page_container" data-page="41"><i>Lượng biến x<sub>i </sub></i>la<sub>̀</sub> chỉ tiêu chất lượng có thơng tin về x<i><sub>i </sub></i>và W<sub>i</sub>
</div><span class="text_page_counter">Trang 44</span><div class="page_container" data-page="44"><i>Lượng biến x<sub>i </sub></i>là<sub>̀</sub> chỉ tiêu chất lượng có thông tin về x<i><sub>i </sub></i>và M<sub>i</sub>
</div><span class="text_page_counter">Trang 47</span><div class="page_container" data-page="47"><i>Lượng biến x<sub>i </sub></i>là<sub>̀</sub> chỉ tiêu chất lượng có thơng tin về x<i><sub>i </sub></i>và M<sub>1</sub> = M<sub>2</sub>=…. = M<sub>n(N)</sub>
</div><span class="text_page_counter">Trang 49</span><div class="page_container" data-page="49"><small> Lượng biến x</small><sub>i</sub><small> là tốc độ phát triển (số tương đối động thái, tỷ lệ phát triển, chỉ số ptriển) </small><b><small>Tốc độ tăng (tỷ lệ tăng) = tốc độ phát triển -1 (lần)</small></b>
<small></small><b><small> Số trung bình nhân giản đơn </small></b>
<small></small><b><small> Số trung bình nhân gia quyền </small></b>
</div><span class="text_page_counter">Trang 55</span><div class="page_container" data-page="55"><b>1. Khoảng biến thiên</b>
<b>2. Độ lệch tuyệt đối bình quân</b>
</div><span class="text_page_counter">Trang 58</span><div class="page_container" data-page="58">Khoảng biến thiên của bộ dữ liệu là chênh lệch giữa giá trị dữ liệu lớn nhất và giá trị dữ liệu nhỏ nhất
Đây là thang đo đơn giản nhất của độ phân tán
Nó rất nhạy cảm với các giá trị dữ liệu nhỏ nhất và giá trị dữ liệu lớn nhất.
</div><span class="text_page_counter">Trang 60</span><div class="page_container" data-page="60">Range = X<sub>max</sub> - X<sub>min</sub>
</div><span class="text_page_counter">Trang 61</span><div class="page_container" data-page="61"><small> </small>
</div><span class="text_page_counter">Trang 62</span><div class="page_container" data-page="62">+ Phương sai là thước đo của sự phân tán mà sử dụng tất cả các dữ liệu.
+ Nó được dựa trên sự khác biệt giữa giá trị mỗi quan sát (x<sub>i</sub>) và trung bình + Phương sai hữu ích trong việc so sánh sự thay đổi của hai hay nhiều biến. + Phương sai là mức trung bình của bình phương sự khác biệt giữa các
giá trị dữ liệu và giá trị trung bình
<small>Cho mẫu</small>
<small>Cho tổng thể</small>
<b>Tài liệu không phân tổ:</b>
<small>Cho mẫu</small> <sup>Cho tổng thể</sup>
<b>Tài liệu có phân tổ</b>
+ Độ lệch chuẩn của bộ dữ liệu là căn bậc hai của phương sai
+ Nó được đo bằng đơn vị tương tự như dữ liệu, dùng nó giải thích dễ dàng hơn phương sai
<small> </small>
<b>Độ lệch chuẩn được tính theo cơng thức sau:</b>
<b>Chú ý:</b> Cả 4 chỉ tiêu khoảng biến thiên, độ lệch tuyệt đối bình quân, phương sai và độ lệch chuẩn không dùng so sánh 2 tổng thể (mẫu) có qui mơ khác nhau và Khơng dùng so sánh 2 biến khác nhau
</div><span class="text_page_counter">Trang 68</span><div class="page_container" data-page="68"><small> </small>
+ Hệ số biến thiên cho thấy sự lớn như thế nào của độ lệch chuẩn quan hệ đến giá trị trung bình
<b>Chú ý:</b> Hệ số biến thiên khắc phục các nhược điểm của 4 chỉ tiêu trên, cho phép so sánh 2 tổng thể (mẫu) có qui mô khác nhau, 2 biến khác nhau
</div><span class="text_page_counter">Trang 71</span><div class="page_container" data-page="71"><b>Cho mẫu</b>
<i><b> Tỷ lệ mẫu Tỷ lệ tổng thể ( tỷ lệ của biến thay phiên)</b></i>
n<sub>i</sub> : Tần số biểu hiện biến nghiên cứu của mẫu
N<sub>i</sub> : Tần số biểu hiện biến nghiên cứu của tổng thể
</div><span class="text_page_counter">Trang 72</span><div class="page_container" data-page="72">+ Một biểu đồ hộp là bản tóm tắt đồ họa của dữ liệu mà dựa trên một bản tóm tắt năm số.
+ Chìa khóa cho sự phát triển của một một biểu đồ hộp là tính tốn của trung vị , tứ phân vị thứ nhất (Q1) và tứ phân vị thứ ba (Q3).
+ Biểu đồ cung cấp một cách khác để xác định giá trị ngoại lai.
Giới hạn được định vị trí (khơng vẽ) bằng cách sử dụng khoảng tứ phân vị (IQR = Q3 – Q1).
Giới hạn dưới: Q1 - 1.5(IQR)
Giới hạn trên: Q3 + 1.5(IQR)
Dữ liệu bên ngoài những giới hạn này được coi là giá trị ngoại lai.
Các vị trí của mỗi cái nằm ngoài được hiển thị với biểu tượng *.
</div><span class="text_page_counter">Trang 77</span><div class="page_container" data-page="77"><small></small> Một đo lường quan trọng hình dạng của phân phối được gọi là độ lệch
<small></small> Cơng thức 1:
<small></small> Trong đó: n: kích thước mẫu
<small></small> x<sub>i</sub> Lượng biến thứ i
<small></small> trung bình mẫu Độ lệch chuẩn mẫu
</div><span class="text_page_counter">Trang 80</span><div class="page_container" data-page="80"><small></small> Công thức 2:
<small></small> <b>Đối xứng (Symmetric) (Khơng lệch (not skewed))</b>
<b><small>• Hơi lệch về phía phải (Moderately Skewed Right)</small></b>
<small></small> <b>Rất lệch phải (Highly Skewed Right)</b>
Bảy mươi căn là mẫu lấy ngẫu nhiên trong một làng đại học. Giá thuê hàng tháng cho các căn hộ đều được liệt kê dưới đây theo thứ tự tăng dần.
</div><span class="text_page_counter">Trang 86</span><div class="page_container" data-page="86"><small></small> <b><small>Ví dụ: Căn hợ cho th</small></b>
Kurtosis là đại lượng đo lường mức độ tập trung tương đối của các quan sát xung quanh trung tâm của nó trong mối quan hệ so sánh với hai đuôi
</div><span class="text_page_counter">Trang 89</span><div class="page_container" data-page="89"><small></small> Mô tả liên hệ tương quan giữa hai biến định lượng:
<small></small> Hiệp phương sai
<small></small> Hệ số tương quan (Pearson)
<small></small> Hệ số tương quan hạng (Spearman)
<small></small> Mô tả liên hệ giữa hai biến định danh:
</div><span class="text_page_counter">Trang 90</span><div class="page_container" data-page="90"><small></small> x<sub>i</sub> lượng biến trung bình mẫu biến x
<small></small> y<sub>i</sub> lượng biến trung bình mẫu biến y
Độ lệch chuẩn mẫu biến x
Độ lệch chuẩn mẫu biến y S<sub>xy</sub> : Hiệp phương sai mẫu
</div><span class="text_page_counter">Trang 91</span><div class="page_container" data-page="91"><b><small>Tổng thể</small></b>
<small></small> S<sub>xy</sub> = 0 hai biến khơng có liên hệ tương quan
<small></small> S<sub>xy</sub> > 0 hai biến có liên hệ tương quan tuyến tính thuận
<small></small> S<sub>xy</sub> < 0 hai biến có liên hệ tương quan tún tính nghịch
+ Hiệp phương sai là thước đo tương quan tuyến tính giữa hai biến + giá trị dương cho thấy một mối quan hệ thuận
+ giá trị âm cho thấy một mối quan hệ nghịch
</div><span class="text_page_counter">Trang 93</span><div class="page_container" data-page="93"><b><small>Tổng thể </small></b>
+ Tương quan là một biện pháp liên hợp tún tính và khơng nhất thiết nhân quả. + Chỉ vì hai biến có liên quan chặt chẽ, nó khơng có nghĩa là một biến là nguyên nhân của biến khác.
+ -1 ≤ r<sub>xy</sub> ≤ 1
+ r<sub>xy </sub> gần -1 tương quan hệ tuyến tính nghịch mạnh mẽ. + r<sub>xy</sub> gần 1 tương quan hệ tuyến tính thuận mạnh mẽ. + r<sub>xy</sub> gần với 0, tương quan càng yếu
</div><span class="text_page_counter">Trang 97</span><div class="page_container" data-page="97">-1 ≤ r<sub>xy</sub> ≤ 1
r<sub>xy </sub> gần -1 tương quan hệ tuyến tính nghịch mạnh mẽ. r<sub>xy</sub> gần 1 tương quan hệ tuyến tính thuận mạnh mẽ. r<sub>xy</sub> gần với 0, tương quan càng yếu
<i>d<sub>i</sub> = hạngx<sub>i</sub> – hạngy<sub>i </sub></i>Chênh lệch về hạng của biến x và biến y
<b><small>Xếp hạng theo nguyên tắc:</small></b>
<b><small>+ Sắp xếp các lượng biến từ nhỏ đến lớn</small></b>
<b><small>+ Giá trị nhỏ xếp hạng nhỏ, giá trị lớn xếp hạng lớn + Các giá trị bằng nhau xếp hạng trung bình</small></b>
</div><span class="text_page_counter">Trang 100</span><div class="page_container" data-page="100"><small></small> <b>Hệ số Cramer:</b>
K: số hàng hoặc cột trong bảng (chọn K nào nhỏ hơn) n: Số quan sát trong mẫu
Cramer cho biết độ mạnh của mối liên hệ giữa các biến định danh
- V càng gần 0: Liên hệ càng yếu.
</div><span class="text_page_counter">Trang 101</span><div class="page_container" data-page="101"><small></small> <b>Hệ số liên hợp (coefficient of contingency)</b>
C = 0 hai biến khơng có mối quan hệ 0 ≤ C ≤ 1
</div><span class="text_page_counter">Trang 104</span><div class="page_container" data-page="104"><small></small> <b>Hệ số Gamma:</b>
(liên hệ nghịch hoàn toàn) -1 ≤ Gramma ≤ 1 (liên hệ thuận hoàn toàn) Gramma = 0 hai biến độc lập
Gramma được tính dựa trên thông tin mẫu. Để chắc chăn đúng, ta kiểm định ý nghĩa của Gramma ( Với H<sub>0</sub>: Gramma của tổng thể = 0)
<small></small> <b>Hệ số Kendall-Tau </b>
Tau-b: Thích hợp với bảng cân đối. Tức số hàng = số cột Tau-c: thích hợp bảng khơng cân đối
</div>