Đề Cương Môn: THỐNG KÊ XÃ HỘI
1. Thống kê học là một khoa học nghiên cứu hệ thống các phương pháp thu thập,
phân tích và xử lý các thông tin, các con số của các hiện tượng số lớn để tìm hiểu
bản chất và tính quy luật vốn có của nó trong điều kiện và thời gian cụ thể.
-Thống kê xã hội học là việc vận dụng kiến thức của thống kê học trong việc
nghiên cứu các vấn đề xã hội, các hiện tượng xh, các quá trình xh để tìm hiểu bản
chất của đối tượng n/c.
-Tổng thể là các dữ liệu liên quan đến mọi trường hợp or gần như mọi trường hợp.
2. Biến số là những đặc trưng hay thuộc tính của mỗi đơn vị n/c mà giá trị của nó
khác nhau tuỳ theo từng trường hợp: + Biến độc lập thường là các biến nguyên
nhân của 1 sự vật, hiện tượng nào đó. Xét về mặt thời gian biến độc lập thường xảy
ra trước biến còn lại. Biến độc lập là những đặc trưng của cá nhân hoặc các quá
trình xã hội, các sự kiện xã hội,
+ Biến phụ thuộc là biến sảy ra sau các biến còn lại hay còn gọi là biến kết quả,
biến cần được giải thích. Có thể chịu sự tác động của biến khác.
3. Thang đo: là một phương tiện quan trọng để đo lường trong các nghiên cứu
khoa học xã hội nhằm thu thập thông tin về đối tượng điều tra. Nó thể hiện dưới
dạng các phương án của câu hỏi trong bảng hỏi.
- Đặc trưng:
+ độ dài của thang đo được tính từ điểm cực tiểu đến điểm cực đại của thang đo.
+ đơn vị của thang đo được xây dựng trên cơ sở là những phần mà theo đó độ dài
của thang đo được chia ra.
+ Chỉ số của thang đo có thể là con số tuyệt đối hoặc tỉ số % và thông qua tỉ số có
thể xác định được vị trí của cá nhân được đo theo một dấu hiệu trong thang đo.
- Các loại thang đo:
+ Thang đo định danh: được dùng để đo lường các đối tượng có chia thành nhiều
lớp tách biệt nhau nhưng không cắt nhau. Nó thể hiện là loại thang đo thể hiện sự
ngang bằng nhau giữa các phần phân chia của đối tượng. Các con số trên thang
định danh chỉ là có số hiệu, kí hiệu chứ không có ý nghĩa về mặt thứ bậc.
+ Thang đo thứ tự: là một hệ thống được tạo nên trên cơ sở thang đo định danh, có
đầy đủ các tính chất của thang đo định danh nhưng nó trội hơn thang đo định danh
là ở chỗ các lớp phân chia được sắp xếp theo thứ tự tăng hoặc giảm. Thang đó thứ
tự không có khả năng nhận thức mức độ lớn hơn hoặc nhỏ hơn bao nhiêu lần.
1
+ Thang đo khoảng cách: là loại thang đo thứ tự nhưng khoảng cách giữa các lớp
đã được xác định. Thang đo khoảng cách có đầy đủ các thuộc tính của thang đo thứ
tự nhưng nó có khả năng nhận thức cao hơn ở chỗ khoảng cách giữa các lớp đã
được xác định. Do đó ngoài việc biết được trật tự các lớp tăng hoặc giảm ta còn
biết được khoảng cách giữa các đối tượng.
+ Thang đo tỉ lệ: là loại thang đo có đầy đủ các thuộc tính của thang đo khoảng
cách nhưng nó có một thuộc tính riêng đó là nó có tồn tại điểm 0 trên thực tế nghĩa
là có điểm khởi đầu cố định.
4. Mode: Mo là giá trị xuất hiện nhiều nhất trong một dãy trị số nào đó của một
biến.
-Điều kiện sử dụng: Trong thống kê Mo là giá trị rễ xác định nhất, tuy nhiên giá trị
của Mo lại phụ thuộc vào sự khác biệt trong tần suất của mỗi giá trị. Giá trị Mo
được sử dụng với mọi biến số nhưng sử dụng có hiệu quả nhất với biến định danh.
Đối với biến số có quá nhiều giá trị thì việc sử dụng Mo sẽ kém hiệu quả hơn.
- Cách xác định:
* Đối với biến không có khoảng cách tổ thì giá trị nào có phân bố tần suất lớn nhất
( giá trị xuất hiện nhiều nhất trong biến số đó) thì đó là Mo. ( Mo=F(max)).
* Đối với biến có khoảng cách tổ:+ Khoảng cách tổ bằng nhau:
B1: xác định tổ chứa Mo: Mo nằm trong tổ có tần suất lớn nhất (Fmax)
B2: Mo=Xo+ho. fo-f(o-1)/fo-f(o-1)+fo-f(o+1); trong đó:…..
+ Khoảng cách tổ không bằng nhau:
B1: xác định tổ chứa Mo bằng cách xác định mật độ phân bố của các giá trị trong
một biến số : di=fi/hi trong đó di là mật độ phân bố của tổ thứ i, hi là khoảng cách
của tổ thứ i. Chú ý: hi cuối cùng lấy khoảng cách của tổ kề cận nó
Mo nằn trong tổ có mật độ phân bố lớn nhất dfmax
B2:Tính Mo=Xo+Ho. do-d(o-1)/ do-d(o-1)+do-d(o+1) trong đó: Mo là Mode, Xo
là giới hạn dưới của tổ chứa Mo, Ho là khoảng cách của tổ chứa Mo, do là tần suất
của tổ chứa Mo, d(o-1) là tần suất của tổ trước tổ chứa Mo, d(o+1) là tần suất của
tổ sau tổ chứa Mo.
2
5. Trung bình cộng: X~
- Giá trị trung bình cộng là một đại lượng biểu thị mức độ trung tâm của toàn bộ
tập hợp mẫu. Nó xoá bỏ những biến đổi ngẫu nhiên hay không ngẫu nhiên những
ảnh hưởng của đặc điểm cá biệt và cho phép trình bày đặc trưng chung nào đó của
tập hợp các đơn vị n/c.
- Điều kiện sử dụng: giá trị TBC được sử dụng có hiệu quả nhất với biến khoảng
cách và biến tỉ lệ. Các giá trị trong 1 biến số phải đồng nhất hoặc cùng một tính
chất của đơn vị đo.
- Cách tính X~:
* Trung bình cộng giản đơn: X~=€xi/n
Trong đó: X~ là giá trị TBC, xi là giá trị thứ i của 1 biến nào đó, n là tổng số mẫu
n/c.
* Trung bình cộng gia quyền:
+ Biến không có khoảng cách tổ: X~=€xi.fi/€fi. Trong đó: X~ là giá trị TBC, xi là
giá trị thứ i của biến nào đó, fi là tần suất của giá trị thứ i.
+ Biến có khoảng cách tổ: xác định giá trị đại diện của mỗi tổ Xdd theo các trường
hợp: • tổ đóng: Xdd=Xmax+Xmin/2; • tổ mở đầu: Xdd=Xmax-h/2; • tổ mở cuối:
Xdd=Xmin+h/2. Trong đó: Xmax là giá trị cực đại của tổ...,Xmin là giá trị cực tiểu
của tổ...,h là khoảng cách của tổ...
=>X~=€xi.fi/€fi trong đó X~ là giá trị TBC, xi là giá trị Xdd của tổ thứ i, fi là tần
suất tổ thứ i.
- Ý nghĩa của giá trị TBC:
+ dựa vào giá trị TBC chúng ta có thể thấy được xu hướng phát triển cơ bản của
đối tượng nghiên cứu, do vậy nó thường được sử dụng trong các nghiên cứu về
biến đổi xã hội.
+ giá trị TBC cũng được sử dụng trong nghiên cứu nhằm nêu lên các đặc điểm
chung nhất của hiện tượng xã hội trong điều kiện, hoàn cảnh cụ thể.
+ ngoài ra giá trị TBC cũng dùng trong so sánh sự phân bố trong các tổng thể khác
nhau, đánh giá thực hiện kế hoạch đã đặt ra hoặc thống kê sản phẩm.
3
6. Trung vị: Me
- là chỉ số chia đôi tổng số các giá trị của biến. Giá trị trung vị cho chúng ta biết
một nửa số đơn vị nằm dưới trung vị và một nửa số đơn vị nằm trên trung vị.
*Cách xác định Me.- Me đối với biến số không có khoảng cách tổ: giá trị của trung
vị sẽ là giá trị ở giữa trong dãy số lượng biến.
- Me với biến có khoảng cách tổ.
+ xác định tổ chứa trung vị bằng cách tính tần suất tích luỹ và tần suất trung bình.
TSTB =€fi/2. Sau đó ta xác định tổ chứa Me là tổ có tần suất tích luỹ gần nhất với
tần suất trung bình.
+ tính Me=Xe+he.€fi/2-Se-1/fe. Trong đó: Me là giá trị trung vị, Xe là giá trị cận
dưới của tổ chứa me, he là khoảng cách của tổ chứa Me, Se-1 là tần suất tích luỹ
của tổ trên tổ chứa Me, fe là tần suất của tổ chứa Me, fi là tần suất của tổ thứ i.
- Điều kiện sử dụng: giá trị Me được sử dụng có hiệu quả với thang đo khoảng
cách, tỉ lệ và thứ tự. Giá trị Me được sử dụng để thay thế giá trị trung bình khi có
các giá trị ngoại lai quá lớn hoặc quá nhỏ. Giá trị trung vị cho ta biết sự phân bố
của các giá trị trong biến số là như nào?
7. Đo lường sự biến thiên.
- là việc ta xem xét các giá trị trong 1 biến số hội tụ quanh 1 giá trị hay phân tán
quanh 1 giá trị nào đó. Giá trị được dùng để xem xét sự hội tụ hay phân tán (gọi
chung là biến thiên) thường dùng là giá trị trung bình.
+ nếu giá trị các biến số so với giá trị trung bình ít có sự khác biệt thì sự phân bố
của biến số là tương đối đồng nhất hay chúng ta gọi là phân bố tập trung.
+ nếu giá trị các biến số so với giá trị trung bình có sự khác biệt lớn thì sự phân bố
của biến số là dàn trải hay chúng ta gọi là sự biến thiên.
- Phương sai: là một số không âm được sử dụng nhằm xác định xem giữa các đơn
vị được sử dụng với giá trị trung bình để thiết lập một sự thay đổi trung bình so với
giá trị trung bình cộng là bao nhiêu.
+ phương sai tổng thể $^
+ phương sai của mẫu S^
- Cách xác định:
4
B1: tính X~
B2: lấy giá trị trung bình vừa tính được trừ cho từng giá trị của một biến
B3: bình phương mỗi hiệu số vừa tính được ở bước 2 và nhân với tần suất tương
ứng nếu có
B4: lấy tổng vừa tính ở bước 3 chia cho tổng số mẫu trừ 1.
Công thức: S^=€(xi-X~)^.fi/n-1
Trong đó: S^ là phương sai của mẫu, xi là giá trị thứ i của biến số, X~ là giá trị
trung bình, n là tổng mẫu quan sát, fi là tần suất của tổ thứ i.
- Ý nghĩa của phương sai: giá trị phương sai cho chúng ta biết mức độ phân tán của
các giá trị riêng xung quanh trọng tâm của nó là giá trị trung bình. Nếu S^ lớn thì
phân phối của biến là dàn trải (độ biến thiên cao). Nếu S^ nhỏ thì phân phối của
biến là tập trung hay hội tụ.
* Độ lệch chuẩn: là căn bậc 2 của phương sai. Cho biết vị trí các giá trị trong một
biến so với trung bình.
Kí hiệu: S, $ ;Cách xác định: B1: xác định phương sai, B2: lấy căn bậc 2 của
phương sai S=#^S^.
Tính chất: bất cứ sự sắp xếp nào cũng có 75% các giá trị của biết số sẽ rơi vào
khoảng trung bình cộng trừ cho 2 độ lệch chuẩn =_X~+_2.Si.
Sẽ có 89% các giá trị của biến số sẽ rơi vào khoảng trung bình cộng trừ cho 3 lần
độ lệch chuẩn =_(X~+_3.Si).
* Hệ số biến thiên: V. là đại lượng đo lường độ phân tán sử dụng cho 2 tổng thể có
trung bình khác nhau. Công thức: V=S.100%/X~. Trong đó: V là hệ số biến thiên,
S là độ lệch chuẩn, X~ là giá trị trung bình.
- Ý nghĩa của hệ số biến thiên: giúp chúng ta đánh giá lại độ chính xác số bình
quân trung bình: phân bố dàn trải, tính đại diện không cao; phân bố tập trung, tính
đại diện cao.
Vận dụng nghiên cứu về tình hình kinh tế: giàu- nghèo, thu nhập,...
Giúp nhà sản xuất đánh giá lại sản phẩm: nếu phân phối không tập trung tính đại
diện không cao, không đạt yêu cầu.
5
8. Kiển định khi bình phương: X^
- là đại lượng được vận dụng để xác định mối quan hệ giữa mẫu và khách thể
nghiên cứu.
- Các bước kiểm định: B1: lập giả thuyết Ho là giả thuyết kiển định, chúng ta giả
định rằng trong khách thể nghiên cứu của chúng ta không tồn tại mối quan hệ giữa
2 biến.
B2: căn cứ vào tình hình thực tế lập giả thuyết H1 là giả thuyết thay thế, giả định
rằng trong khách thể nghiên cứu có tồn tại mối quan hệ giữa 2 biến.
B3: chọn mức ý nghĩa ¥. Nếu không cho sẵn ta sẽ lấy mức ý nghĩa ¥=0.05.
B4: căn cứ vào dữ liệu mẫu tính khi bình phương quan sát X^q.: X^q=€(qili)^/li.
B5: xác định bậc tự do df= (dòng-1). (cột-1)
B6: xác định khi bình phương tới hạn bằng cách căn cứ vào mức ý nghĩa ¥ đã chọn
và bậc tự do tính ở bước 5. X^t
B7: so sánh X^q và X^t.
+ nếu X^q
thuyết Ho và thừa nhận không tìm thấy mối quan hệ nào trong khách thể nghiên
cứu.
+ nếu X^q>X^t ta không có đủ bằng chứng để chấp nhận Ho, khi đó Ho bị bác bỏ
và chúng ta chấp nhận giả thuyết H1.
- Hệ số ngẫu nhiên C=#^{X^/N+X^.
+Ý nghĩa: Giá trị của C chạy từ 0-1; nếu C=0=> kl không có mqh giữa 2 biến.
Nếu C chạy từ 0-1 biều thị mức độ mqh: C càng gần 1 thì mức độ mqh càng mạnh
* Hệ số r: là đại lượng đo lường mức độ mối quan hệ trong 2 biến khoảng cách và
biến tỉ lệ. R=XY~-X~.Y~/$x.$y. Trong đó X là giá trị của biến phụ thuộc, Y là giá
trị của biến độc lập, $^x=€(Xi-X~)^/n; $^y=€(Yi-Y~)^/n.
- Ý nghĩa của hệ số r:
khách thể n/c.
+ r=0 giữa 2 biến không có mối quan hệ nào trong
+ r=+_1 là mối quan hệ hàm số y=a=bx( mqh rất chặt chẽ).
+ r càng lớn hơn 0 cho biết mức độ mối quan hệ càng mạnh.+ r càng nhở hơn 0
mqh càng yếu.
9. Hàm hồi quy tuyến tính.
6
- được sử dụng để dự báo mức độ mối quan hệ dành cho biến khoảng cách hoặc
biến tỉ lệ.
- Công thức xây dựng:
+ Trường hợp1: nếu ta xác định biến x là biến độc
lập, y là biến phụ thuộc. Ta có hàm y=a+b.x. Trong đó: b=XY~_X~.Y~/$^x;
$^x=€(xi-X~)^/n; a=Y~-b.X~;
+ Trường hợp 2. Nếu ta xác định x là biến phụ thuộc, y là biến độc lập. Ta có hàm
x=a+b.y. Trong đó: b=XY~_X~.Y~/$^y; $^y=€(yi-Y~)^/n; a=X~-b.Y~;
- Ý nghĩa: Hàn hồi quy được sử dụng để dự báo mức độ mối quan hệ giữa 2 biến
trong bảng tương quan với từng giá trị cụ thể.
10. Thống kê 3 biến.
- là một dạng của thống kê 2 biến nhưng có sự xuất hiện của biến thứ 3.
- Các trường hợp và khả năng sảy ra khi đưa biến thứ 3 vào bảng nguyên thuỷ.
* Biến thứ 3 có trước biến độc lập và biến phụ thuộc.
+ Trường hợp 1: giả sử cố mối quan hệ giữa 2 biến A và B trong bảng nguyên
thuỷ. Khi đưa biến thứ 3 vào ( biến số có trước biến độc lập về mặt thời gian) vào
bảng nguyên thuỷ. Nếu mối quan hệ giữa 2 biến A và B không tồn tại thì ta kết
luận mối quan hệ giữa 2 biến A và B trong bảng nguyên thuỷ là mối quan hệ không
có thật (hay còn gọi là mối quan hệ bề ngoài). Thực chất chúng ta giải thích mqh
giữa 2 biến A và B trong bảng nguyên thuỷ bằng 1 biến thứ 3.
+ Trường hợp 2: giả sử có mqh giữa 2 biến A và B trong bảng nguyên thuỷ. Khi
đưa biến thứ 3 vào bảng 2 biến, nếu chúng ta vẫn tìm thấy mqh giữa 2 biến A và B
trong bảng bộ phận, chúng ta kết luận mqh giữa 2 biến A và B trong bảng nguyên
thuỷ là mqh chân thật (hay là sự lặp lại của mối quan hệ).
+ Trường hợp 3: giả sử không có mqh giữa 2 biến A và B trong bảng nguyên thuỷ
(G=0) chúng ta đưa biến thứ 3 vào, nếu chúng ta tìn thấy mqh giữa 2 biến A và B
trong bảng bộ phận, chúng ta kết luận biến thứ 3 là biến số ẩn.
* Biến thứ 3 có trước biến phụ thuộc và sau biến độc lập:
+ giả sử có mqh giữa 2 biến A và B trong bảng nguyên thuỷ. Khi xuất hiện biến thứ
3 (là biến có trước biến phụ thuộc và sau biến độc lập) nếu. Nếu giữa 2 biến trong
7
bảng bộ phận không có mqh thì chúng ta có thể kết luận biến thứ 3 là biến trung
gian.
+ giả sử có mqh giữa 2 biến trong bảng nguyên thuỷ, khi xuất hiện biến thứ 3 nếu
giữa 2 biến trong bảng bộ phận vẫn có mqh thì kết luận biến thứ 3 không có vai trò
gì trong mqh giữa 2 biến trong bảng nguyên thuỷ, biến thứ 3 không phải là biến
trung gian.
8