Tải bản đầy đủ (.pdf) (76 trang)

phân tích thống kê dữ liệu trong điều tra xã hội học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (836.2 KB, 76 trang )


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

i







§¹i häc Th¸i Nguyªn
ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG





Đồng Thị Thùy Linh






PHÂN TÍCH THỐNG KÊ DỮ LIỆU TRONG
ĐIỀU TRA XÃ HỘI HỌC


Chuyªn ngµnh: Khoa häc m¸y tÝnh
M· sè: 60 48 01







LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN



H-íng dÉn khoa häc: PGS.TS Bùi Thế Hồng












Th¸i Nguyªn - 2011

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG






Đồng Thị Thùy Linh






PHÂN TÍCH THỐNG KÊ DỮ LIỆU TRONG
ĐIỀU TRA XÃ HỘI HỌC


Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01





LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN



Hướng dẫn khoa học: PGS.TS Bùi Thế Hồng













Th¸i Nguyªn - 2011






Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

ii






LỜI CẢM ƠN!
Em xin gửi lời cảm ơn chân thành nhất đến PGS.TS Bùi Thế Hồng, người
đã tận tình
hướng
dẫn, giúp đỡ em trong suốt thời gian thực hiện luận văn này.
Con cảm ơn Cha, Mẹ và gia đình, những người đã dạy dỗ, khuyến khích,
động viên con trong những lúc khó khăn, tạo mọi điều kiện cho chúng con
nghiên cứu học tập.

Em cảm ơn các thầy, cô trong Viện Công Nghệ Thông Tin Hà Nội cùng
các thầy cô trong trường Đại học Công nghệ thông tin và truyền thông – ĐH
Thái Nguyên đã dìu dắt, giảng dạy em, giúp em có những kiến thức quý báu trong
những năm học qua.
Cảm ơn các bạn đã tận tình động viên đóng góp ý kiến cho luận văn của tôi.
Mặc dù đã cố gắng hết sức cùng với sự tận tâm của thầy giáo hướng dẫn
song do
trình
độ còn hạn chế, nội dung đề tài còn mới mẻ nên Luận văn khó tránh
khỏi những thiếu sót. Em rất mong nhận được sự thông cảm và góp ý của thầy cô và
các bạn.

Thái Nguyên, ngày 30 tháng 9 năm 2011.
Học viên



Đồng Thị Thùy Linh

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

i






LỜI CAM ĐOAN


Em xin cam đoan toàn bộ nội dung bản luận văn này là do em tự sưu tầm, tra
cứu và sắp xếp cho phù hợp với nội dung yêu cầu của đề tài.
Tất cả các thử nghiệm của luận văn đều do em tự thiết kế và xây dựng, trong
đó có sử dụng một số ứng dụng chuẩn của phần mềm SPSS 18.0 và bộ số liệu cuộc
điều tra về “Mô tả thực trạng, kiến thức, hành vi phòng chống tai nạn thương tích
của học sinh phổ thông trước và sau can thiệp. Xây dựng và đánh giá mô hình
phòng chống TNTT tại trường phổ thông thành phố Thái Nguyên,” .
Nếu sai em xin hoàn toàn chịu trách nhiệm.

Thái Nguyên, ngày 30 tháng 9 năm 2011
Ngƣời cam đoan



Đồng Thị Thùy Linh

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

ii






MỤC LỤC
Trang phụ bìa
LỜI CAM ĐOAN i
MỤC LỤC ii
Danh mục các bảng v

Lời mở đầu 1
Chương 1: Tổng quan về thống kê dữ liệu và điều tra xã hội học 3
1.1. Khái quát về dữ liệu và thống kê 3
1.1.1. Dữ liệu là gì? 3
1.1.2. Thống kê là gì? 3
1.1.3. Một số khái niệm thường dùng của thống kê 4
1.1.4. Khái quát quá trình nghiên cứu thống kê 6
1.2. Giới thiệu các phương pháp tiến hành điều tra xã hội học 7
1.2.1. Đối tượng nghiên cứu của xã hội học 7
1.2.2. Những phương pháp nghiên cứu xã hội học 8
1.3. Các phương pháp và kỹ thuật đó phân tích thống kê dữ liệu. 11
1.3.1. Ước lượng 11
1.3.2. Tương quan và hồi quy 11
1.3.3. Kiểm định giả thuyết 12
1.4. Giới thiệu về các phần mềm ứng dụng phân tích thống kê dữ liệu 13
1.4.1. Phần mềm SPSS 13
1.4.2. Phần mềm Epidata 13
Chương 2: Một số vấn đề trong phân tích dữ liệu thống kê 14
2.1. Thống kê mô tả 14
2.1.1 Mục tiêu của các nghiên cứu mô tả 14
2.1.2. Những nội dung chính của các nghiên cứu mô tả 14
2.1.3. Thiết kế nghiên cứu mô tả 15
2.1.4. Mối quan hệ nhân quả 17

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

iii







2.2. Cơ sở dữ liệu 17
2.2.1. Cơ sở dữ liệu là gì? 17
2.2.2. Các dạng cơ sở dữ liệu 18
2.2.3. Biểu diễn thông tin thống kê trong cơ sở dữ liệu 19
2.2.4. Mã hóa các thông tin trong cơ sở dữ liệu 20
2.2.5. Xác định và xử lý các giá trị bị thiếu và vượt trội trong cơ sở dữ liệu 22
2.3. Ước lượng 23
2.3.1. Khái niệm 23
2.3.2. Ước lượng một trung bình quần thể 24
2.3.3. Ước lượng tỷ lệ của một quần thể 26
2.3.4. Ước lượng sự khác nhau giữa hai trung bình quần thể 27
2.3.5. Ước lượng sự khác nhau giữa hai tỷ lệ quần thể 29
2.4. Kiểm định giả thuyết thống kê 30
2.4.1. Khái niệm 30
2.4.2. Hình thành các giả thuyết 30
2.4.3. Các kết luận và kết quả có được từ việc kiểm định giả thuyết 31
2.4.4. Các bước của việc kiểm định giả thuyết thống kê 32
2.4.5. Các thống kê kiểm định và miền bác bỏ 33
2.4.6. Ứng dụng lý thuyết kiểm định 34
Chương 3: Ứng dụng thử nghiệm trong điều tra xã hội học 40
3.1. Giới thiệu về cuộc điều tra 40
3.1.1. Đối tượng nghiên cứu 40
3.1.2. Địa điểm và thời gian nghiên cứu 40
3.1.3. Phương pháp nghiên cứu 41
3.2. Phương pháp thu thập và xử lý số liệu 43
3.2.1. Phương pháp thu thập số liệu 43
3.2.2. Phương pháp xử lý nhập số liệu 43

3.2.3. Kết quả của cuộc nghiên cứu 44
3.3. Sử dụng phương pháp ước lượng các tham số rút ra từ quần thể 45

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

iv






3.3.1. Ước lượng về sự hiểu biết trung bình của học sinh phổ thông về phòng
tránh TNTT do bỏng 46
3.3.2. Ước lượng sự khác nhau về sự hiểu biết trung bình của học sinh trước và
sau can thiệp 49
3.3.3. Ước lượng tỷ lệ học sinh bị TNTT trên tổng số học sinh 50
3.4. Kiểm định giả thuyết 51
3.4.1. Kiểm định giả thuyết về sự khác nhau về mức độ hiểu biết trung bình của
học sinh về phòng tránh TNTT do bỏng trước và sau can thiệp. 52
3.4.2. Kiểm định giả thuyết về tỷ lệ học sinh bị TNTT trên tổng số học sinh 54
3.4.3. Kiểm định giả thuyết về tỷ lệ học sinh bị TNTT trước và sau can thiệp và
theo giới 55
Kết luận 60
Kiến nghị những nghiên cứu tiếp theo 61
Tài liệu tham khảo 62
PHỤ LỤC 63


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


v






Danh mục các bảng
Bảng 2.1. Các kết luận và kết quả khi kiểm định một giả thuyết
Bảng 3.1. Tỷ lệ học sinh có hành vi đúng về TNTT do bỏng trước can thiệp
Bảng 3.2. Bảng kết quả khoảng tin cậy cho trung bình quần thể chung cho toàn thể
mẫu.
Bảng 3.3. Bảng mô tả về trung bình quần thể về kiến thức phòng tránh TNTT trước
can thiệp và sau can thiệp của trường Quang Trung
Bảng 3.4. Kết quả tìm khoảng tin cậy cho sự khác nhau giữa hai trung bình mẫu
với độ tin cậy 95%
Bảng 3.5. Kết quả tìm khoảng tin cậy cho sự khác nhau giữa hai trung bình mẫu
với độ tin cậy 98%
Bảng 3.6. Tỷ lệ học sinh bị TNTT
Bảng 3.7. Kết quả các nhóm thống kê (Group Statistics)
Bảng 3.8. Kết quả kiểm định về mức độ hiểu biết trung bình về phòng tránh TNTT
do bỏng của học sinh trước và sau can thiệp
Bảng 3.9. Tỷ lệ học sinh bị TNTT
Bảng 3.10. Kết quả phân tích kiểm định (Test Statistics)
Bảng 3.11: Tỷ lệ TNTT về giới
Bảng 3.12. Kiểm định Chi bình phương (Chi-Square Tests)
Bảng 3.13: Tỷ lệ TNTT về giới
Bảng 3.14. Kiểm định Chi bình phương (Chi-Square Tests)
Bảng 3.15: Tỷ lệ TNTT về giới

Bảng 3.16. Kiểm định Chi bình phương (Chi-Square Tests)

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

1






Lời mở đầu
1. Tính cấp thiết của đề tài
Thống kê là một bộ môn khoa học bao gồm các phương pháp thu thập, tổ
chức và phân tích các dữ liệu. Ngày nay thống kê đã đi vào hầu hết các lĩnh vực của
xã hội như kinh tế thị trường, chỉ số giá cả, tỷ lệ tăng giảm dân số, khí hậu, thời tiết,
y tế Những cuộc khảo sát thăm dò dư luận, các cuộc điều tra chọn mẫu về dân
số, sức khỏe, giáo dục và các dự báo dân số đã và đang được tiến hành, tất cả
đều chứng thực cho tầm quan trọng của các phương pháp thống kê trong các sự
kiện quan trọng hằng ngày.
Phân tích thống kê là một bộ phận khoa học đã hình thành từ lâu, đã chứng
minh được sự cần thiết và quan trọng của nó trong đời sống và phát triển kinh tế xã
hội hiện đại.
2. Mục tiêu nghiên cứu của đề tài
- Tìm hiểu về điều tra xã hội học và phân tích dữ liệu thống kê.
- Ứng dụng thực tế trong điều tra xã hội học.
3. Đối tƣợng và phạm vi nghiên cứu
- Các khảo sát điều tra xã hội học.
- Phân tích thống kê số liệu điều tra xã hội học.
- Các công cụ phân tích thống kê dữ liệu.

- Các phương pháp đánh giá ước lượng hỗ trợ ra quyết định về các xu hướng hay
các chính sách xã hội.
4. Phƣơng pháp nghiên cứu
- Tìm hiểu các phương pháp tiến hành điều tra xã hội học.
- Nghiên cứu các phương pháp phân tích thống kê dữ liệu.
- Chọn lựa các phương pháp phân tích tổng hợp và các công cụ đánh giá dữ liệu.


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

2






5. Kết cấu luận văn
Bố cục của Luận văn gồm ba chương chính như sau:
Chương 1: Tổng quan về thống kê dữ liệu và điều tra xã hội học.
- Khái quát về dữ liệu thống kê.
- Giới thiệu các phương pháp tiến hành điều tra xã hội học.
- Các phương pháp và kỹ thuật phân tích thống kê dữ liệu.
Chương 2: Một số vấn đề trong phân tích dữ liệu thống kê.
- Thống kê mô tả.
- Cơ sở dữ liệu.
- Ước lượng.
- Kiểm định giả thuyết.
Chương 3: Ứng dụng thử nghiệm trong điều tra xã hội học.
Dựa trên số liệu của cuộc điều tra, sử dụng thống kê suy luận để:

- Tìm khoảng tin cậy.
- Kiểm định các giả thuyết.
6. Kết quả đạt đƣợc
Qua quá trình thực hiện luận văn em đã thực hiện được một số công việc sau:
- Hiểu được về điều tra xã hội học, quá trình thực hiện một cuộc điều tra xã hội
học, và ý nghĩa của nó trong xã hội hiện đại.
- Hiểu được về thống kê dữ liệu và phân tích thống kê dữ liệu.
- Áp dụng được ước lượng và kiểm định giả thuyết vào phân tích thống kê dữ
liệu.
7. Ý nghĩa khoa học của đề tài
- Đề tài có ý nghĩa khoa học, thời sự và mang đậm tính thực tiễn.
- Thông qua quá trình phân tích dữ liệu thống kê trong điều tra xã hội học
đưa ra các đánh giá hỗ trợ cho việc ra quyết định về các xu hướng hay các
chính sách xã hội.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

3






Chƣơng 1: Tổng quan về thống kê dữ liệu và điều tra xã hội học
1.1. Khái quát về dữ liệu và thống kê
1.1.1. Dữ liệu là gì?

Dữ liệu được định nghĩa là những điều được biết đến, hoặc giả định sự kiện
và con số, mà từ đó kết luận có thể được suy ra. Nói chung, dữ liệu là thông tin ở

dạng thô về chất lượng cũng như số lượng. Các nguồn có thể được bất cứ điều gì từ
tin đồn kết quả của nghiên cứu và điều tra. Các điều khoản của báo cáo có thể được
mô tả, số, hoặc kết hợp khác nhau của cả hai. Việc chuyển đổi từ dữ liệu kiến thức
có thể được xem xét bao gồm các trình tự phân cấp [9]:


Phân tích



Mô hình hóa



Dữ liệu thường được xem là cấp thấp nhất của trừu tượng mà từ đó thông tin
và sau đó kiến thức có nguồn gốc. Dữ liệu thô, tức là dữ liệu chưa qua chế biến, đề
cập đến một tập hợp các số, ký tự, hình ảnh, kết quả đầu ra khác từ các thiết bị thu
thập thông tin để chuyển đổi số lượng vật lý vào biểu tượng [9].
1.1.2. Thống kê là gì?
a. Khái niệm thống kê
Thống kê là hệ thống các phương pháp dùng để thu thập, xử lý và phân tích
các con số (mặt lượng) của những hiện tượng số lớn để tìm hiểu bản chất và qui luật
vốn có của chúng (mặt chất) trong điều kiện không gian và thời gian cụ thể [7].
Mọi sự vật, hiện tượng đều có hai mặt chất và lượng không tách rời nhau, và
khi chúng ta nghiên cứu hiện tượng, điều chúng ta muốn biết đó là bản chất của
hiện tượng. Nhưng mặt chất thường ẩn bên trong, còn mặt lượng biểu hiện ra bên
ngoài dưới dạng các đại lượng ngẫu nhiên. Do đó phải thông qua các phương pháp
xử lý thích hợp trên mặt lượng của số lớn đơn vị cấu thành hiện tượng, tác động của
Tri thức
Thông tin

Dữ liệu

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

4






các yếu tố ngẫu nhiên mới được bù trừ và triệt tiêu, bản chất của hiện tượng mới
bộc lộ ra và ta có thể nhận thức đúng đắn bản chất, quy luật vận động của nó [7].
Thống kê được chia làm hai lĩnh vực [7]:
- Thống kê mô tả : bao gồm các phương pháp thu thập số liệu, mô tả và trình
bày số liệu, tính toán các đặc trưng đo lường.
- Thống kê suy diễn : Bao gồm các phương pháp như ước lượng, kiểm định,
phân tích mối liên hệ, dự đoán trên cơ sở các thông tin thu thập từ mẫu.
b. Đối tƣợng nghiên cứu của thống kê
Đối tượng nghiên cứu của thống kê là mặt lượng trong mối quan hệ chặt chẽ
với mặt chất của hiện tượng kinh tế - xã hội, tự nhiên trong một không gian và thời
gian cụ thể, như biến động cơ học của dân số, hiện tượng vế quá trình tái sản xuất
sản phẩm, về đời sống vật chất văn hoá…. Cũng như mọi vật tồn tại trong xã hội,
hiện tương kinh tế xã hội cũng tồn tại trên hai mặt: chất và lượng có liên quan mật
thiết với nhau. Trong hiện tương kinh tế - xã hội mặt chất biểu hiện ở: đặc điểm,
tính chất, đặc trưng, tính qui luật phát triển của hiện tượng nghiên cứu. Mặt lượng là
những biểu hiện là những biểu hiện được biểu hiện bằng những con số cụ thể nói
lên: qui mô, tốc độ phát triển, kết cấu…. Thống kê không nghiên cứu trực tiếp mặt
chất của hiện tượng kinh tế - xã hội mà chỉ nghiên cứu mặt số lượng cụ thể của hiện
tượng kinh tế xã hội. Thông qua phân tích hệ thống chỉ tiêu thống kê của những con

số cụ thể, chúng ta rút ra được những đặc điểm, tính chất, đặc trưng và tính qui luật
phát triển kinh tế xã hội qua từng thời gian và địa điểm cụ thể, thống kê nghiên cứu
số lớn của các hiện tượng kinh tế xã hội là xuất phát từ qui luật số lớn trong lý
thuyết xác suất và tính qui luật thống kê. Thông qua nghiên cứu số lớn các hiện
tượng cá biệt nhằm loại bỏ tác động ngẫu nhiên, riêng lẻ cá biệt, nhằm bộc lộ rõ tính
tất nhiên, tính phổ biến, điển hình chung của số lớn hiện tượng nghiên cứu [7].
1.1.3. Một số khái niệm thƣờng dùng của thống kê
1.1.3.1 Tổng thể thống kê, đơn vị tổng thể thống kê
Tổng thể thống kê là tập hợp các đơn vị (hay phần tử) thuộc hiện tượng
nghiên cứu, cần quan sát, thu thập và phân tích về mặt lượng của chúng theo một

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

5






hay một số tiêu thức nào đó. Các đơn vị (hay phần tử) cấu thành tổng thể thống kê
gọi là đơn vị tổng thể [7].
Như vậy thực chất của việc xác định tổng thể thống kê là việc xác định các
đơn vị tổng thể. Đơn vị tổng thể là xuất phát điểm của quá trình nghiên cứu thống
kê vì nó chứa đựng những thông tin ban đầu cho qua trình nghiên cứu.
Tổng thể đồng chất: Là tổng thể bao gồm các đơn vị giống nhau hay một số
đặc điểm chủ yếu có liên quan trực tiếp đến mục đích nghiên cứu [7].
1.1.3.2. Các loại tổng thể
- Tổng thể chung: Bao gồm các đơn vị thuộc phạm vi hiện tượng nghiên cứu
đã được xác định.

- Tổng thể bộ phận: Bao gồm nột số đơn vị thuộc phạm vi hiện tượng nghiên
cứu đã xác định.
- Tổng thể đồng chất: Bao gồm các đơn vị giống nhau ở một số đặc điểm chủ
yếu có liên quan mục đích nghiên cứu.
- Tổng thể không đồng chất: Bao gồm các đơn vị không giống nhau ở một số
đặc điểm chủ yếu có liên quan mục đích nghiên cứu
- Tổng thể bộc lộ: Bao gồm các đơn vị mà trực tiếp quan sát, nhận biết được.
- Tổng thể tiềm ẩn: Bao gồm các đơn vị mà không trực tiếp quan sát, nhận
biết được.
1.1.3.3. Tiêu thức thống kê
Nghiên cứu thống kê phải dựa vào những đặc điểm của đơn vị tổng thể.
Đơn vị tổng thể có nhiều đặc điểm, tuỳ theo mục đích nghiên cứu một số
đặc điểm được chọn ra để nghiên cứu [7].
Ví dụ: Nghiên cứu nhân khẩu, mỗi nhân khẩu có các tiêu thức như giới tính,
độ tuổi…., nghiên cứu doanh nghiệp như số lượng công nhân, vốn, giá trị sản xuất.
Tiêu thức thống kê được phân làm hai loại:
Tiêu thức thuộc tính: là tiêu thức phản ánh tính chất hay loại hình của đơn
vị tổng thể, không có biểu hiện trực tiếp bằng con số [7].
Ví dụ: Các tiêu thức như: giới tính, nghề nghiệp, tôn giáo…

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

6






Tiêu thức số lượng: là tiêu thức có biểu hiện trực tiếp bằng con số [7].

Ví dụ: các tiêu thức như: tiền lương của công nhân, chiều cao, cân nặng trung
bình của con người.
Các trị số khác nhau của tiêu thức số lượng là gọi là lượng biến. Lượng biến
được phân làm hai loại:
 Lượng biến rời rạc: là lượng biến mà các giá trị có thể là hữu hạn hay vô hạn
và có thể đếm được, như số công nhân, số sản phẩm.
 Lượng biến liên tục: các giá trị của nó có thể lấp kín cả một khoảng trên trục
số, như trọng lượng, chiều cao của sinh viên, năng suất của cây trồng [7].
1.1.3.4. Chỉ tiêu thống kê
Chỉ tiêu thống kê là các trị số phản ánh các đặc điểm, tính chất cơ bản của
tổng thể thống kê trong điều kiện thời gian và không gian xác định. Chỉ tiêu thống
kê được chia làm hai loại [7]:
 Chỉ tiêu khối lượng: Các chỉ tiêu biểu hiện quy mô, khối lượng của tổng thể
nghiên cứu, như số nhân khẩu, số doanh nghiệp, số vốn, vốn lưu động…
 Chỉ tiêu chất lượng: là chỉ tiêu biểu hiện tính chất trình độ phổ biến, quan hệ
so sánh của hiện tượng nghiên cứu, như giá thành.
1.1.4. Khái quát quá trình nghiên cứu thống kê
Quá trình nghiên cứu thống kê hay bất kỳ quá trình nghiên cứu nào, cũng đều
trải qua các bước, được khái quát bằng mô hình sau [7]:

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

7








1.2. Giới thiệu các phƣơng pháp tiến hành điều tra xã hội học.
1.2.1. Đối tƣợng nghiên cứu của xã hội học
Xã hội học là khoa học về sự hình thành, phát triển và sự vận hành của các
cộng đồng xã hội, các tổ chức xã hội và các quá trình xã hội với tính cách là các
hình thức tồn tại của chúng; là khoa học về các quan hệ xã hội với tính cách là các
cơ chế liên hệ và tác động qua lại giữa các cá nhân và cộng đồng; là khoa học về
quy luật của các hành động xã hội và các hành vi của quần chúng [6].
Xã hội học là một khoa học lý thuyết cũng như các khoa học xã hội học
khác. Trong một hệ thống những sự trừu tượng hóa (như các khái niệm, phạm trù,
Xác định vấn đề nghiên cứu, mục đích, nội dung, đối
tượng nghiên cứu
Báo cáo và truyền đạt kết quả nghiên cứu.
Xây dựng hệ thống các khái niệm, chỉ tiêu thống kê

Điều tra thống kê
Xử lý số liệu:
- Tập hợp, sắp xếp số liệu
- Chọn các phần mềm xử lý số liệu
- Phân tích thống kê sơ bộ
- Lựa chọn các phương pháp phân tích thống kê
thích hợp
-
Phân tích và giải thích kết quả.
Dự đoán xu hướng phát triển.


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

8







quy luật, giả thuyết xã hội học …), nhà xã hội học luôn tìm cách tái thể hiện trong
quá trình tư duy, đối tượng xã hội, mô tả trạng thái của nó thâm nhập vào các quy
luật hoạt động và phát triển của nó, hiểu được và dự báo xu hướng phát triển tất yếu
của nó. Đồng thời, xã hội học là một trong các khoa học thực nghiệm. Nó rút ra các
kết luận xã hội từ các trắc nghiệm, các quan sát thực nghiệm xã hội, từ các tài liệu
thực nghiệm thu được về các đối tượng xã hội [6].
Như vậy, xã hội học là một khoa học vừa có tính chất thực nghiệm lại vừa có
tính chất lý thuyết, nghĩa là một khoa học không chỉ mô tả các sự kiện thực nghiệm
mà còn rút ra những quy luật và khái niệm từ sự phân tích lý thuyết các dữ liệu thực
nghiệm. Do bản chất của xã hội học với tính cách là một khoa học thực nghiệm – lý
thuyết, cho nên nhận thức xã hội học có hai cấp độ: thực nghiệm và lý thuyết. Cấp
độ xã hội học thực nghiệm bao gồm việc thu thập thông tin xã hội thông qua quan
sát, thí nghiệm và xử lý các thông tin xã hội đó.
1.2.2. Những phƣơng pháp nghiên cứu xã hội học
Để nghiên cứu các hiện tượng xã hội, cần sử dụng nhiều phương pháp nghiên
cứu khác nhau. Việc sử dụng phương pháp nghiên cứu hay công cụ thu thập thông
tin nào, hoặc phối hợp chúng như thế nào, hoàn toàn tùy thuộc vào mục tiêu của
cuộc nghiên cứu.
1.2.1.1. Phương pháp phân tích tư liệu sẵn có
Phương pháp phân tích tư liệu sẵn có bao gồm phương pháp phân tích thứ
cấp, phân tích tư liệu thống kê hiện có, phương pháp lịch sử và phân tích nội dung.
Trong những nghiên cứu về các lĩnh vực khác nhau của đời sống xã hội, người ta
cũng thường hay sử dụng một trong những phương pháp phân tích tư liệu sẵn có.
Khi tìm kiếm dữ liệu, chúng ta phải vạch sẵn các yêu cầu cốt yếu trong cuộc
nghiên cứu để tránh tình thu thập nhiều thông tin thừa. Khi đã có đủ dữ liệu, chúng

ta phải làm cho nó đáp ứng được mục đích nghiên cứu của mình bằng cách xác định
những biến số cần thiết, đáp ứng đầy đủ yêu cầu của cuộc nghiên cứu. Tính hiệu lực
và độ tin cậy của dữ liệu là tiêu chuẩn đầu tiên khi lựa chọn một nhóm dữ liệu cho

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

9






phân tích thứ cấp. Phương pháp phân tích số liệu thống kê hiện có được áp dụng rất
nhiều trong các công trình nghiên cứu về xã hội.
Phân tích những số liệu thống kê hiện có là việc phân tích lại các số liệu
thống kê đã được chuẩn bị và báo cáo từ trước. Người ta cũng có thể sử dụng những
số liệu thống kê để tạo ra những dữ liệu mới [6].
1.2.1.2. Phương pháp điều tra
Điều tra là phương pháp thu thập thông tin sơ cấp bằng lời dựa trên sự tác
động qua lại về mặt tâm lý mang tính trực tiếp (phỏng vấn) hoặc gián tiếp giữa nhà
nghiên cứu và người được hỏi. Bảng hỏi là một trong những yếu tố quan trọng của
phương pháp điều tra.
Trong các cuộc nghiên cứu, không thể nghiên cứu toàn bộ số dân cứu của
công đồng được kháo sát, vì vậy cần phải chọn ra một mẫu để nghiên cứu.
Chọn người trả lời:
Những người rơi vào mẫu nghiên cứu là những ai, số lượng bao nhiêu, cách
thức chọn họ như thế nào… hoàn toàn phụ thuộc vào mục tiêu, nội dung kế hoạch
cũng như kinh phí của cuộc nghiên cứu.
Xây dựng bảng hỏi.

Bảng hỏi là công cụ đo lường những nhân tố có liên quan đến cá nhân của
người trả lời. Tính đặc thù của bảng hỏi là ở chỗ nhờ nó, người ta có thể đo được
các biến số nhất định có quan hệ với đối tượng nghiên cứu.
Trong phương pháp điều tra, các nhà nghiên cứu đặc biệt quan tâm đến chất
lượng của thông tin. Vì vậy, khi lập kế hoạch nghiên cứu họ cố gắng tính đến những
điều kiện có thể ảnh hưởng đến chất lượng của thông tin, sao cho có thể đảm bảo
được độ tin cậy của thông tin và tính xác thực của thông tin [6].
Những câu hỏi thăm dò các quan niệm, thái độ có thể đưa ra những lựa chọn
như hoàn toàn đồng ý, đồng ý, tương đối đồng ý, không đồng ý lắm, hoàn toàn
không đồng ý
Những câu hỏi đóng làm cho các câu trả lời dễ đo lường, dễ so sánh đồng
thời cũng dễ khái quát hoá cho tổng thể dân cư, tuy nhiên vì những người tham gia

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

10






phải chọn từ những câu trả lời một cách chặt chẽ, những câu hỏi đóng đôi khi không
làm rõ tâm thế và những ý kiến thực sự của họ.
Những câu hỏi mở là câu hỏi để cho người trả lời tự viết hay trả lời theo ý và
bằng ngôn ngữ riêng của mình. Nó cho phép những người phỏng vấn kiểm tra sâu
sắc hơn tâm thế, cảm xúc, lòng tin và ý kiến của người trả lời. Điều này rất có ý
nghĩa vì nó tạo khả năng cho các nhóm yếu thế có cơ hội trình bày những ý kiến
theo hoàn cảnh riêng của mình. Tuy vậy, những câu trả lời đối với các câu hỏi mở
không dễ dàng đo lường và người nghiên cứu gặp khó khăn hơn trong khi so sánh

các câu trả lời.
Ngoài ra các câu hỏi mở rộng được kết hợp từ những câu hỏi đóng và những
câu hỏi mở cũng thường được sử dụng để có thể dễ dàng khai thác sâu hơn những
thông tin cần thiết.
Độ tin cậy và tính xác thực của thông tin.
Tính ổn định của thông tin trước những sự tác động của những yếu tố ngẫu
nhiên, được gọi là độ tin cậy của thông tin. Độ tin cậy phụ thuộc vào khả năng chủ
thể trả lời câu hỏi như nhau đối với những câu hỏi như nhau. Như vậy, để đảm bảo
độ tin cậy của thông tin chúng ta phải cố gắng ổn định những điều kiện để thu thập
thông tin.
Tính xác thực của thông tin là thuộc tính của phương pháp đem lại loại thông
tin sao cho những khác biệt của họ về những đặc điểm phù hợp với những khác biệt
thực. Tức là nếu như chúng ta có tổ chức nghiên cứu lặp lại bao nhiêu lần đi chăng
nữa cũng vẫn thu được những kết quả tương tự.
Điều tra thử. Trước khi in bảng hỏi cho cuộc nghiên cứu đại trà, cần thực
hiện cuộc điều tra thử để kiểm định lần cuối cùng các chi tiết.
Chúng ta cần chắc chắn rằng các câu hỏi của chúng ta đã được trình bày theo
những ngôn từ và cách nghĩ của ngưới địa phương.
1.2.1.3. Phương pháp phỏng vấn
Phỏng vấn là một phương pháp thu thập số liệu trong đó người được phỏng
vấn sẽ trả lời một số câu hỏi do người phỏng vấn đặt ra. Phỏng vấn sâu giúp người

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

11







nghiên cứu đi sâu vào một số khía cạnh của những cảm nhận, động cơ, thái độ hoặc
lịch sử cuộc đời của người cung cấp thông tin (người được hỏi) [6].
Phỏng vấn có thể chuyển tiếp thông tin về số liệu thực tế như cấu trúc hộ gia
đình, phân công lao động và cách làm ăn sinh sống. Phỏng vấn cũng có thể sử dụng
để tìm hiểu về quan niệm, giá trị và cách ứng xử của con người.
1.2.1.4. Phương pháp quan sát
Quan sát và vai trò của nó trong nghiên cứu thực nghiệm.
Quan sát là một trong những phương pháp thu thập thông xã hội sơ cấp về
đối tượng nghiên cứu bằng cách tri giác trực tiếp và ghi chép tỉ mi mọi nhân tố có
liên quan đến đối tượng nghiên cứu và có ý nghĩa đối với mục tiêu của cuộc nghiên
cứu. Những đặc trưng cơ bản của việc quan sát là: tính có hệ thống, tính kế hoạch
và tính mục đích. Phương pháp quan sát có thể thực hiện một cách độc lập nhưng
cũng có thể thực hiện một cách kết hợp với những phương pháp khác [6].
Trong nghiên cứu thực nghiệm xã hội, quan sát ít khi được sử dụng một cách
độc lập mà thường được kết hợp với các phương pháp thu thập thông tin khác như
phỏng vấn sâu, phỏng vấn sâu cá nhân và phỏng vấn nhóm.
1.3. Các phƣơng pháp và kỹ thuật đó phân tích thống kê dữ liệu.
1.3.1. Ƣớc lƣợng
Khi nghiên cứu điều tra chọn mẫu, cái chính không phải nhằm nghiên cứu
tổng thể mẫu đại diện được chọn ra từ tổng thể chung, mà chính là qua tổng thể mẫu
đó để nghiên cứu được tính quy luật và trạng thái của tổng thể chung chứa nó. Ước
lượng là sử dụng các thông tin của mẫu để đi tới một suy luận về giá trị thật của một
tham số quần thể, hoặc sự khác nhau giữa hai tham số quần thể.
1.3.2. Tƣơng quan và hồi quy
Mặc dù có nhiều tình huống trong thực tế chỉ liên quan đến một biến, song lại
có rất nhiều trường hợp khác những nhà quyết định lại cần sự quan tâm, xem xét đến
mối quan hệ giữa hai hay nhiều biến với nhau. Tương quan và hồi quy là những kỹ

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


12






thuật thống kê rất cần thiết trong phân tích và đánh giá dữ liệu và rất quan trọng đối
với người ra quyết định trong việc xác định mối liên quan giữa các biến [7].
- Tương quan: là phương pháp dùng để nghiên cứu mối quan hệ giữa hai hay
nhiều biến ngẫu nhiên. Mục tiêu của phương pháp này là để đo cường độ của mối
quan hệ giữa hai biến X và Y, hai biến này được xem là hai biến ngẫu nhiên ngang
nhau - không phân biệt biến độc lập hay biến phụ thuộc. Phân tích tương quan khảo
sát khuynh hướng và mức độ của sự liên quan, được dùng để đo lường tính bền vững
của mối liên hệ giữa các biến, đặc biệt là các biến định lượng [7].
- Hồi quy được dùng để xem xét mối liên hệ tuyến tính giữa hai biến X và Y,
trong đó X được xem là biến độc lâp (ảnh hưởng đến biến Y) còn Y là biến phụ
thuộc (chịu ảnh hưởng của biến X). Mục tiêu của phân tích hồi quy là mô hình hóa
mối liên hệ, nghĩa là từ dữ liệu thu thập được ta cố gắng xây dựng một mô hình toán
học nhằm thể hiện một cách tốt nhất mối liên hệ giữa hai biến X và Y. Phân tích hồi
quy xác định sự liên quan định lượng giữa hai biến ngẫu nhiên X và Y, kết quả của
phân tích hồi quy được dùng cho dự đoán [7].
1.3.3. Kiểm định giả thuyết
Kiểm định giả thuyết là một phương pháp suy luận khác thường dùng trong
phân tích thống kê dữ liệu. Các qui trình mà ta sẽ xét đến không phải là ước lượng
giá trị của một tham số mà là tiến hành một kết luận về nó. Thông thường, trong
thực tế người ta rất muốn biết liệu một đặc tính nào đó của một quần thể có lớn hơn
một giá trị nhất định nào không, hoặc liệu một giá trị của một tham số nào đó mà ta
nhận được có bé hơn một giá trị giả định hay không. Chẳng hạn như, chúng ta rất

muốn biết độ bền trung bình của một sản phẩm do hãng A sản xuất ra có lớn hơn độ
bền trung bình của một sản phẩm cùng loại do hãng B sản xuất không [2].

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

13






1.4. Giới thiệu về các phần mềm ứng dụng phân tích thống kê dữ liệu
1.4.1. Phần mềm SPSS
SPSS là một phần mềm chuyên ngành thống kê khởi đầu được lập cho các
máy tính lớn vào những năm 1960, sau này được lập cho các máy tính cá nhân trong
môi trường DOS và gần đây là môi trường Windows. SPSS là một hệ thống phần
mềm thống kê toàn diện được thiết kế để thực hiện tất cả các bước trong bất kỳ
phân tích thống kê nào từ thống kê mô tả đến các thống kê suy luận. SPSS được
thiết kế rất tốt trên môi trường Windows và rất dễ dàng cho chúng ta – những người
sử dụng – vì chúng ta hầu như không phải lập trình để giải quyết những nhiệm vụ
phức tạp, làm cho quá trình phân tích dữ liệu trở nên dễ hơn và ngắn gọn hơn [4].
1.4.2. Phần mềm Epidata
EpiData là phần mềm hỗ trợ nhập và quản lý số liệu, được lập trình bởi Bác
sĩ Jens M.Lauritsen, người Đan Mạch. Phần mềm này đã được sử dụng lần đầu tiên
cho một nghiên cứu dịch tễ học “Phòng chống tai nạn”. Ý tưởng của người phát
triển phần mềm EpiData là việc tạo ra một phần mềm nhập liệu miễn phí, giao diện
người dùng thân thiện, dễ sử dụng. Với Epidata, người sử dụng có thể nhập số liệu
dưới dạng văn bản đơn giản và sau đó chuyển đổi số liệu sang các dạng khác nhau
để phục vụ cho việc phân tích thống kê số liệu bằng các phần mềm khác nhau.

Epidata có giao diện người dùng thân thiện và tạo ra tiến trình làm việc đơn giản.
Những người sử dụng có trình độ Tin học khác nhau đều có thể dễ dàng học tập và
sử dụng được phần mềm này trong một thời gian rất ngắn. Epidata có thể xuất số
liệu sang nhiều dạng khác nhau để sử dụng cho phân tích số liệu bằng các phần
mềm như Stata, Spss, .v.v.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

14






Chƣơng 2: Một số vấn đề trong phân tích dữ liệu thống kê
2.1. Thống kê mô tả
Nghiên cứu mô tả là loại hình nghiên cứu mà nhà nghiên cứu tiến hành, thực
hiện nhằm xác định rõ bản chất các sự vật và hiện tượng trong những điều kiện đặc
thù về không gian cũng như thời gian. Nghiên cứu mô tả thông thường bao gồm
việc thu thập và trình bày số liệu một cách có hệ thống nhằm đưa ra một bức tranh
rõ nét, đầy đủ về một tình hình, vấn đề sức khoẻ cụ thể. Mô tả một hiện tượng chính
xác mới hình thành được giả thuyết nhân - quả đúng, mới đề xuất được các biện
pháp phòng ngừa có hiệu quả [3].
2.1.1 Mục tiêu của các nghiên cứu mô tả
Nghiên cứu mô tả cần phải đáp ứng ít nhất 2 mục tiêu sau đây [3]:
- Mô tả được một hiện tượng và các yếu tố nguy cơ có liên quan đến hiện
tượng đó.
- Phác thảo được giả thuyết nhân quả giữa các yếu tố nguy cơ và hiện tượng
nghiên cứu.

2.1.2. Những nội dung chính của các nghiên cứu mô tả
Nội dung cơ bản của nghiên cứu mô tả là xác định được thực trạng các yếu
tố con người và các yếu tố không gian, thời gian cụ thể ở một thời điểm nhất định.
2.1.2.1. Yếu tố nguy cơ, căn nguyên
Yếu tố nguy cơ ở đây được hiểu một cách rộng rãi đó là tất cả những yếu tố
nào thuộc về bản chất như: yếu tố vật lý, hoá học, sinh lý, tâm lý, di truyền, khí
tượng, các yếu tố kinh tế văn hoá xã hội mà sự tác động của chúng có thể tạo nên
cho cơ thể con người những thay đổi có lợi hoặc đặc biệt là không có lợi về sức
khoẻ con người [3].



Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

15






2.1.2.2. Hậu quả
Hầu hết các vấn đề sức khoẻ đều có liên quan đến mối quan hệ nhân quả. Để
tìm hiểu ta phải nghiên cứu thật đầy đủ về nguyên nhân mới mong xác định được
hậu quả có thể của tình trạng phơi nhiễm. Trong mối quan hệ nhân quả, thì hậu quả
là tất cả mọi bệnh trạng mà ta quan tâm nghiên cứu, bao gồm các bệnh, khuyết tật
và những trạng thái không bình thường của sức khoẻ. Nếu ta tiến hành nghiên cứu
với 2 mục tiêu trên thì mối quan hệ nhân quả mới có thể xác lập được [3].
2.1.2.3. Xác định quần thể nghiên cứu
Quần thể nghiên cứu được xác định phụ thuộc mục đích và khả năng nghiên

cứu. Thông thường người ta chỉ tiến hành nghiên cứu trên một mẫu nghiên cứu mà
mẫu đó được xác định dựa trên một quần thể nhỏ nhất song vẫn đáp ứng được mục
tiêu nghiên cứu. Các quần thể được chọn thường là quần thể phơi nhiễm, quần thể
có nguy cơ, quần thể có nguy cơ cao [3].
2.1.2.4. Mô tả yếu tố nguy cơ
Yếu tố có nguy cơ là yếu tố có liên quan hay làm tăng khả năng mắc một
bệnh nào đó, có thể là hành vi, lối sống, các yếu tố môi trường, các tác nhân lý, hoá,
sinh học gây bệnh Mô tả rõ ràng các yếu tố nguy cơ của hiện tượng sức khoẻ, mới
có cơ sở để phân tích rõ ràng và đầy đủ các yếu tố liên quan với chúng, không bỏ
sót và như vậy mới đạt được mục tiêu của công việc mô tả đặc biệt là mô tả tương
quan. Nếu thấy mô tả tương quan không chắc chắn thì có thể phải thay đổi bằng các
phương pháp khác như mô tả so sánh nhiều nhóm hoặc nghiên cứu bệnh chứng ta
sẽ xác định được các yếu tố nguy cơ [3].
2.1.3. Thiết kế nghiên cứu mô tả
2.1.3.1. Nghiên cứu mô tả
Nghiên cứu mô tả là mô tả các hiện tượng hay các đặc trưng liên quan đến
đám đông (ai? cái gì? ở đâu? như thế nào?). Ước lượng tỉ lệ đám đông do các đặc
trưng này. Khám phá các mối liên hệ giữa các biến khác nhau. Nghiên cứu mô tả
nhằm mục đích giải thích mối quan hệ giữa các biến với nhau [3].

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

16






Nghiên cứu mô tả trường hợp bệnh là mô tả rất sâu sắc đặc tính của một số

giới hạn các “trường hợp”. Một trường hợp cụ thể là một bệnh nhân, một trung tâm
y tế hay một làng Những nghiên cứu dạng này cho ta thấy rõ được bản chất vấn đề
mà ta cần nghiên cứu. Nghiên cứu trường hợp phổ biến nhất là trong các lĩnh vực
khoa học xã hội, quản lý và y học lâm sàng. Ví dụ, trong y học lâm sàng các đặc
tính của một loại bệnh mà cho đến nay vẫn chưa nhận biết rõ cũng có thể được ghi
nhận như là nghiên cứu một trường hợp.
2.1.3.2. Điều tra cắt ngang nhằm định hướng sự phân bố của một số biến số trong
quần thể nghiên cứu tại một thời điểm như:
- Các đặc tính về mặt thể chất của con người, hay môi trường.
- Các cuộc điều tra về tỷ lệ hiện mắc (của bệnh phong, bệnh giun ).
- Đánh giá mức độ bao phủ của vấn đề (tiêm chủng, dịch bệnh )
- Các đặc điểm về mặt kinh tế - xã hội của con người như: tuổi, học vấn,….
- Tình trạng hôn nhân, số con và thu nhập
- Hành vi của con người và sự hiểu biết, thái độ, niềm tin và các quan niệm.
- Các sự kiện xuất hiện trong quần thể xác định
Một cuộc điều tra cắt ngang có thể được tiến hành nhắc đi nhắc lại nhiều lần
liên tiếp nhằm đo lường các thay đổi diễn ra theo thời gian của các đặc tính được
nghiên cứu.
Song song với việc mô tả các hiện tượng sức khoẻ theo ba góc độ là: Con
người không gian - thời gian, trong các nghiên cứu mô tả, người ta thường mô tả về
các yếu tố nguy cơ có liên quan đến hiện tượng. Mô tả về nguy cơ, cũng giống như
mô tả về bệnh, có thể mô tả theo định tính và định lượng [3].
2.1.3.3. Mô tả tương quan
Mô tả tương quan hay được sử dụng để bước đầu nêu giả thuyết về mối quan
hệ nhân quả giữa một hiện tượng sức khoẻ và các yếu tố nguy cơ. Đây là một
nghiên cứu mà nhà nghiên cứu phải xem xét vấn đề trong mối quan hệ với nhiều
yếu tố khác mà ta có thể thấy được hoặc xem xét được. Có thể nghiên cứu với sự

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên


17






tương quan một yếu tố hoặc tương quan đa yếu tố vì trong thực tế có nhiều yếu tố
nguy cơ cùng tác động đồng thời hoặc trong từng khoảng thời gian.
2.1.4. Mối quan hệ nhân quả
Người ta coi mối quan hệ này chính là sự tương tác qua lại giữa hai thành
phần: yếu tố nguy cơ - bệnh. Đây là điều không thể thiếu được trong giả thuyết
nhân - quả. Đôi khi các nghiên cứu thường đi xa hơn bằng cách kết hợp việc mô tả
một quần thể nghiên cứu với việc so sánh một số nhóm trong quần thể đó. Việc làm
này rất phổ biến, chính vì vậy đôi khi khó phân biệt được danh giới rõ ràng giữa
nghiên cứu mô tả và các nghiên cứu so sánh mà người ta thường gọi là nghiên cứu
mô tả tìm nguyên nhân.
2.2. Cơ sở dữ liệu
2.2.1. Cơ sở dữ liệu là gì?
Cơ sở dữ liệu là một mẫu thông tin dưới dạng điện tử, nó có thể bao gồm một
hoặc nhiều tệp dữ liệu khác nhau. Cơ sở dữ liệu có thể được thể hiện dưới dạng một
bảng số liệu gồm nhiều hàng và cột khác nhau trong đó mỗi dòng thể hiện một chỉ
tiêu nào đó và mỗi cột thể hiện cho một quan sát [8].
Các thông tin trong cơ sở dữ liệu phải được thể hiện ở dạng số vì các phép xử
lý toán học chỉ có thể tiến hành khi thông tin đó đã được lượng hóa, những thông tin
về mặt định tính phải được mã hóa trước khi tiến hành các phép xử lý thống kê [8].
Tất cả các thông tin định tính được mã hóa trong quá trình thu thập hay vào số
liệu trong cơ sở dữ liệu phải được ghi lại để tránh nhầm lẫn trong quá trình xử lý
tính toán sau này. Một cơ sở dữ liệu được trình bày dưới dạng bảng trong đó mỗi
dòng thể hiện cho một mẫu điều tra và mỗi cột thể hiện cho một chỉ tiêu điều tra hay

một thông tin. Như vậy, số lượng mẫu điều tra sẽ quyết định số lượng hàng cần phải
có trong cơ sở dữ liệu, trong khi đó số lượng các chỉ tiêu điều tra sẽ quyết định số
lượng các cột trong cơ sở dữ liệu. Chúng ta cũng có thể thay đổi các hàng là các chỉ
tiêu điều tra và các cột là các mẫu điều tra tùy theo yêu cầu và cách nào phù hợp
hơn cho việc phân tích dữ liệu.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

18






Quá trình quản lý và nhập số liệu vào máy tính gồm hai công đoạn:
(1) Chuẩn bị cơ sở dữ liệu
Là việc chuẩn bị cấu trúc của cơ sở dữ liệu theo một trật tự nhất định sao cho
việc quản lý các thông tin khoa học nhất và đảm bảo việc kết xuất dữ liệu sang các
phần mềm tính toán khác là có khả thi. Thông thường chúng ta phải dựa vào các kết
cấu của phiếu điều tra, số lượng mẫu, số lượng các chỉ tiêu chi tiết trong phiếu điều
tra để có thể có được một kết cấu của cơ sở dữ liệu phù hợp.
Trong việc chuẩn bị cấu trúc của cơ sở dữ liệu, một trong những vấn đề quan
trọng cần phải lưu tâm ngay từ đầu đó là hệ thống mã hóa và các thông tin liên
quan. Các phần mềm tính toán thông thường không thể xử lý được các thông tin
định tính (cho các câu hỏi mở), do vậy, chúng ta phải chuyển các thông tin dạng đó
sang dạng định lượng và để làm được điều này chúng ta cần phải xây dựng một hệ
thống các mã hóa cho từng câu hỏi và ý trả lời một.
(2) Kết chuyển dữ liệu từ cơ sở dữ liệu sang phần mềm xử lý
Việc xử lý các thông tin điều tra thường bằng các phần mềm thống kê như

phần mềm SPSS, EpiData, … bên cạnh đó chúng ta cũng có thể sử dụng Excel để
tính toán các thông tin cần thiết cho nghiên cứu. Việc kết chuyển chúng ta có thể
làm trực tiếp bằng một số câu lệnh trong các phần mềm đó [8].
2.2.2. Các dạng cơ sở dữ liệu
Định dạng cơ sở dữ liên quan mật thiết đến hình thức vào số liệu trong cơ sở
dữ liệu đó, tuy nhiên có hai dạng định dạng chính:
- Cơ sở dữ liệu dưới dạng bảng tính như trong Excel: đây là dạng thông dụng
và rất hay được các nhà nghiên cứu ứng dụng để quản lý thông tin. Tuy
nhiên, một trong những hạn chế của định dạng cơ sở dữ liệu này đó là ta phải
thực hiện việc truy nhập một cách thủ công và vì thế mất nhiều thời gian
cũng như khả năng xảy ra nhầm lẫn là khá cao, hay nói cách khác là nguy cơ
tiềm ẩn của sai số phi thống kê cao.
- Cơ sở dữ liệu được định dạng lật hay nói cách khác mội một hoặc một vài
thông tin được thiết kế thành một trang, như vậy, phải sử dụng nhiều trang

×