CASES, VARIABLES AND LEVELS OF MEASUREMENT
Biến và trường hợp:
- Biến: đặc điểm của một vật gì đó hoặc một người nào đó, trong nhiều trường hợp (
khác nhau về giá trị)
-
Các trường hợp : người nào đó hoặc vật nào đó
Các trường hợp hay còn gọi là thang đo bao gồm:
-
Mức danh nghĩa:
Sự khác nhau giữa các danh mục cụ thể của biến
Vd: nghề nghiệp ( công viên chức, tụ do...)
-
Mức thứ tự
Sự khác nhau giữ các danh mục cụ thể của các biến
Với thứ tự giữa các biến
Vd: khoa ( 1;2;3...)
-
Mức độ khoảng
Sự khác nhau giữa các danh mục cụ thể của các biến
Với thứ tự giữa các biến
Khoảng thời gian tương tự giữa các biến
Vd: tuổi ( 32;33;34...)
-
Mức tỉ lệ
Vd: chiều cao, cân nặng...
DATA MATRIX AND FREQUENCY TABLE
Ví dụ về ma trận dữ liệu thu được từ phiếu khảo sát 596 sản phụ:
Tổng hợp từ dữ liệu:
-
Ma trạn dữ liệu khổng lồ
-
Tổng hợp dữ liệu: sử dụng bảng và đồ th
Tần số bảng thu được từ ma trận dữ liệu:
Yếu tố cốt lõi cho tất cả các phân tích thống kê và đó là tổng quan về dữ liêu:
Tỏng hợp dữ liệu:
-
Tần số dữ liệu
-
Cho biến định lượng mã hóa lại nếu cần
GRAPH AND SHAPE OF DISTRIBUTION
Biểu đồ tròn
Các danh mục cụ thể của biến được trình bày bởi ý nghĩa của lát cát trong hình tròn
Các mặt của lát cắt đại diện cho tỉ lệ phần trăm của các danh mục cụ thể
Biểu đồ cột
Danh mục cụ thể của các biến được trình bày bởi ý nghĩa của các mặt cắt của cột
Chiều cao của cột đại diện cho tỉ lệ phần trăm của các danh mục cụ thể
MODE, MEDIAN, MEAN
TÓM TẮT SỰ PHÂN BỐ
Graph(Đồ thị)
Số liệu thống kê đo ở vị trí trung tâm ( xu hướng trung tâm)
o
Mode : giá trị xuất hiện thường xuyên, có thể nhiều hơn 1
Ex: tuoi_thai = {38, 37, 39, 40, 41, 39, 39, 41, 42}
o
Median: trung vị ( trung bình của vị trí) khi sắp xếp từ số nhỏ nhất đến lớn nhất
>sort (sample_ tuoithai)
[1] 37 38 39 39 39 40 41 41 42
o
Mean: giá trị trung bình
Khi nào bạn nên báo cáo bằng biện pháp xu hướng trung tâm?
Biến định tính sử dụng Mode
Biến định lượng sử dụng hàm Median và Mean
Khi nào sử dụng hàm Mean? Khi nào sử dụng hàm Median?
VD: Tháng lương trung bình của 1 cặp vợ chồng? ( triệu đồng)
Ghi chú: Với outliers( giá trị ngoại lai) ưu tiên sử dụng hàm median
Kết luận
Để mô tả trung tâm sự phân bố, chúng ta sử dụng:
Mode cho biến định tính
Mean, Median cho biến định lượng
Với outlier sử dụng Median, không có outlier sử dụng Mean
RANGE, INTERQUARTILE RANGE, VÀ BOXPLOT
PHÉP ĐO CỦA ĐỘ PHÂN TÁN
Để mô tả độ phân tán, chúng ta cần:
Nhiều hơn các phép đo xu hướng trung tâm
Đó là các phép đo độ phân tán (= sự biến đổi)
Range( Biên độ) : giá trị cao nhất đến giá trị thấp nhất, phụ thuộc vào giá trị cực trị
Interquartile range (Biên độ tương tác)
Boxplot (Graph) : đồ thị boxplot
Interquartile range (Biên độ tương tác) :bỏ giá trị cực trị, chia độ phân tán thành 4
phần:
Xác định Q1, Q2, Q3
Qua đó ta có thể thấy Q2 là trung vị của group1, Q2=39,2
Q1 là trung vị nhóm bên trái của Q2, Q1=38,5
Q3 là trung vị nhóm bên phải của Q2, Q3=42,2
Giá trị nhỏ nhất (min) là 32,7
Giá trị lớn nhất (max) là 43,8
Quy tắc xác định giá trị ngoại lai
Kết luận:
Để mô tả trung tâm sự phân bố, chúng ta cần:
Các phép đo của xu hướng trung tâm, nhưng nó chỉ mô tả 1 phần của sự phân bố
Các phép đo của biến/ độ phân tán : Range, Interquartile range, Boxplot
Bỏ đi các ảnh hưởng của giá trị ngoại lai