Tải bản đầy đủ (.pdf) (69 trang)

Bài giảng Tin học nhóm ngành Nông-Lâm-Ngư và Môi trường - Chương 5, 6: Xử lý phân tích số liệu thống kê Bằng MS Excel 2010 - Biểu diễn kết quả thống kê trong báo cáo khoa học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.28 MB, 69 trang )

Chương 5:
Xử lý phân tích số liệu thống kê
Bằng MS Excel 2010


Nội dung chính
 Một số kiến thức dữ liệu thống kê
 Công cụ phân tích dữ liệu thống kê trong Excel
 Phân tích số liệu thống kê
 Thống kê mô tả
 Tổ chức đồ
 Tính hệ số tương quan và phương trình hồi quy
 So sánh 2 mẫu (Kiểm định giả thuyết)


Một số kiến thức dữ liệu thống kê
 Một đề cương nghiên cứu
o Giả thuyết
o Thiết kế một thí nghiệm hay cuộc điều tra
o Quy trình chọn mẫu
o Phương pháp và cách thức điều tra
o Phân tích số liệu
o Báo cáo kết quả

 Tư tưởng chính của thống kê suy rộng là lấy mẫu từ
một tổng thể và sau đó sử dụng kết quả phân tích
các thông tin từ mẫu này để suy rộng ra cho tổng
thể nghiên cứu.


Số liệu


 Có bộ số liệu tốt, có được mô hình phân tích thống
kê chính xác sẽ giúp ta đưa ra những quyết định
chính xác hơn, phù hợp hơn với thực tế


Chọn mẫu
 Ai là đối tượng nghiên cứu?
 Mẫu tổng thể lý thuyết

 Những ai có thể tiếp cận được?
 Mẫu tổng thể có thể tiếp cận được

 Làm thế nào để tiếp cận được?
 Khung chọn mẫu

 Ai tham gia vào nghiên cứu?
 Mẫu được chọn


Phân phối mẫu
 Phân phối của một số vô hạn các mẫu có cùng quy
mô như mẫu trong nghiên cứu của chúng ta được
gọi là phân phối mẫu.


Phân phối mẫu
 Giá trị bình quân: giá trị trung tâm
 Độ lệch chuẩn: mức độ dao động hay biến động
 Tỷ lệ của một số quan sát/tổng thể về một đặc
trưng nào đó



Ví dụ
 Dể có năng suất và sản lượng lúa của một địa bàn
điều tra nào đó (huyện A chẳng hạn) người ta chỉ
tiến hành thu thập số liệu về năng suất và sản
lượng lúa thu được trên diện tích lúa thu hoạch
của một số hộ gia đình được chọn vào mẫu của
huyện để điều tra thực tế, sau đó dùng kết quả thu
được tính toán và suy rộng cho năng suất và sản
lượng lúa của toàn huyện


Ví dụ


Cơ sở dữ liệu
 Cơ sở dữ liệu (Database, trong thống kê) là phần
thông tin thu thập được từ một cuộc điều tra bất
kz nào đó và được sắp xếp có cấu trúc nhất định
để có thể dễ dàng cho việc xử l{ số liệu đó thông
qua các phần mềm thống kê, cũng như dễ dàng
cho việc kiểm tra độ chuẩn xác của thông tin thu
lượm được.


Công cụ phân tích thống kê


Phân tích số liệu thống kê

 Mô tả thống kê
 Phân phối mẫu
 Đo lường sự biến động
 Tương quan và các mối quan hệ


Thống kê mô tả
 Mô tả thống kê là cách thức miêu tả số liệu dưới
dạng số trung bình, trung vị, độ lệch hay mode...
 Trung bình (Mean):
 Là bình quân số học của các quan sát: 𝑥
𝑛
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
𝑖=1 𝑥
𝑥=
=
𝑛
𝑛
 𝑥:tổng các giá trị của từng quan sát.
 𝑛: số lượng các quan sát trong nghiên cứu.


Thống kê mô tả
 Trung vị (median): Là giá trị của quan sát có vị trí được
sắp xếp ở giữa theo cách sắp xếp giá trị từ nhỏ đến lớn
hoặc ngược lại. Một nửa số quan sát sẽ có giá trị nhỏ
hơn giá trị ứng vị và một nửa có giá trị lớn hơn giá trị
trung vị.
 Cách tìm:
 Sắp xếp lại các quan sát theo giá trị từ nhỏ nhất đến lớn nhất

 Tìm quan sát có vị trí trung tâm.
 Trường hợp số quan sát là chẵn ta sẽ lấy giá trị bình quân
của 2 quan sát đứng giữa làm giá trị trung vị


Thống kê mô tả
 Mode: là giá trị của những quan sát được xuất hiện
nhiều nhất.
 Độ lệch chuẩn (Standard Deviation): Đo lường mức độ
dao động của số liệu quanh giá trị bình quân
𝑛
𝑖=1(𝑥

− 𝑥 )2
𝑛−1

 Phương sai mẫu(Sample Variance): Bình phương độ
lệch chuẩn

𝑆2

1
=
𝑛−1

𝑛

(𝑥𝑖 − 𝑥) 2
𝑖=1



Thống kê mô tả
 Một số khái niệm khác
 Standard error: tỷ số độ lệch chuẩn mẫu /căn bậc hai của n.
 Phương sai mẫu hay độ lệch chuẩn mẫu cho ta biết độ phân
tán của số liệu quanh giá trị trung bình, nếu các giá trị này càng
nhỏ chứng tỏ số liệu càng tập trung.
 Kurtosis đánh giá đường mật độ phân phối của dãy số liệu có
nhọn hơn hay tù hơn đường mật độ chuẩn tắc. Nếu trong
khoảng từ −2 đến 2 thì có thể coi số liệu xấp xỉ chuẩn.
 Skewness đánh giá đường phân phối lệch trái hay lệch phải.
Nếu trong khoảng từ −2 đến 2 thì có thể coi số liệu cân đối gần
như số liệu trong phân phối chuẩn tắc.
 Confidence Level được hiểu là nửa độ dài khoảng tin cậy. Giả sử
Confidence Level là m thì khoảng tin cậy của trung bình tổng
thể là: (Mean − m , Mean + m)


Thống kê mô tả
 Hệ số tương quan r (Conelation coefflcient):dao động
trong khoảng từ -1 đến +1
(𝑥 − 𝑥)(𝑦 − 𝑦)
𝑟=
(𝑥 − 𝑥 )2 .

2

(𝑦 − 𝑦)

o Nếu r 𝜖 [-0.25, +0.25] tương quan yếu hoặc không có tương

quan với nhau.
o Từ +0,26 đến +0,50 (hoặc từ -0,26 đến -0,50) mức tương quan
trung bình.
o Từ +0,5 đến +0,75 (hoặc từ -0,5 đến -0,75) tương quan khá.
o Trên 0,75 (hoặc nhỏ hơn -0,75) tương quan chặt.


Thống kê mô tả với EXCEL
 Chọn Data > Data Analysis > Descriptive Statistics và
khai báo các tham số
 Input range: miền dữ liệu (cả nhãn)
 Grouped by: Columns (theo cột)
 Labels in first row: nếu có nhãn ở
hàng đầu
 Confidence level for mean: độ tin
cậy 95%
 Output range: miền xuất
 Summary Statistics: hiện các thống
kê cơ bản


Ví dụ
 Khảo sát về các đặc tính của lúa ta thu được bốn cột
số liệu: dài bông(cm), P1000 (trọng lượng 1000 hạt),
số bông/một cây, năng suất. Số liệu được bố trí như
trong hình.


Ví dụ
 Kết quả thu được



Ví dụ
 Phân tích kết quả
 Mean, median, mode, Standard error
 Nếu 2 giá trị Mean và Median xấp xỉ nhau ta thì số liệu là cân
đối. Trong ví dụ trên các cột số liệu là cân đối trừ cột “số
bông” hơi bị lệch.
 Confidence Level được hiểu là nửa độ dài khoảng tin cậy.
Giả sử Confidence Level là m thì khoảng tin cậy của trung
bình tổng thể là: (Mean − m , Mean + m). Trong ví dụ trên, ta
có khoảng tin cậy 95% của “dài bông” là: ( 26.4 − 0.55 , 26.4
+ 0.55), tức là (25.85 , 26.95).


Tổ chức đồ
 Tần số xuất hiện của số liệu trong các khoảng cách đều
nhau cho phép phác hoạ biểu đồ tần số, còn gọi là tổ
chức đồ. Để vẽ tổ chức đồ cần phải tiến hành phân
tổ/nhóm số liệu.
 Thao tác:
 Tạo miền phân tổ
 Vẽ tổ chức đồ


Tạo miền phân tổ (Bin)
 Dùng các hàm Min, Max để xác định giá trị nhỏ nhất và
giá trị lớn nhất
 Định ra giá trị cận dưới và giá trị cận trên của miền
phân tổ

 Ghi giá trị cận dưới vào ô đầu của miền phân tổ và bôi
đen toàn miền này
 Chọn: Edit > Fill > Series để khai báo các mục:
 Trong mục Series in chọn Columns (dữ liệu theo cột)
 Trong mục Type chọn Linear (dữ liệu tăng theo cấp số cộng)
 Trong Step value: nhập giá trị bước tăng,
 Trong Stop value: nhập giá trị cận trên,
 OK


Vẽ tổ chức đồ
 Chọn Tools> Data Analysis> Histogram để khai báo
các mục:
Input range: miền dữ liệu
Input Bin: miền phân tổ
Labels : nhãn ở hàng đầu nếu có
Output range: miền kết quả
Pareto: tần số sắp xếp giảm dần
Cumulative Percentage: tần suất cộng dồn %
Chart output: biểu đồ
OK


Ví dụ:
 Dựa trên 30 số liệu về chiều dài cá, tạo miền phân tổ
(Bin) từ ô D2 tới ô D12 (kể cả nhãn), giá trị cận dưới là
10, cận trên là 55, giá trị bước tăng 5.



×