Sinh thống kê
GS TS Lê Hoàng Ninh
1
© 2006
Dịnh nghỉa một số thuật ngữ
trong sinh thống kê
• Dữ liệu:
– Số đo hay quan sát một biến số
• Biến số:
– Đặc trưng được khảo sát đo đạt
– Có thể có nhiều trị số khác nhau từ đối tượng
nầy đến đối tượng khác
Evidence-based Chiropractic
2
© 2006
Định nghĩa từ dùng trong
thống kê
• Biến số độc lập
– Có trước biến số phụ thuộc; căn nguyên/
nguyên nhân của một hệ quả nào đó
– Thuốc lá -> ung thư phổi
– Thuốc A -> khỏi bệnh
• Biến số phụ thuộc:
– Số đo hệ quả,/ kết cuộc
– Trị số phụ thuộc và biến độc lập
Evidence-based Chiropractic
3
© 2006
Từ ….
• Tham số (Parameters)
– Dữ liệu/ số đo trên quần thể (Summary data
from a population)
• Số thống kê (Statistics)
– Dữ liệu/ số đo trên mẫu (Summary data from
a sample)
Evidence-based Chiropractic
4
© 2006
Quần thể
• Quần thể là tập hợp các cá thể mà mẫu
được lấy ra
– e.g., headache patients in a chiropractic
office; automobile crash victims in an
emergency room
• Trong nghiên cứu, không thể đo đạt khảo
sát trên toàn bộ quần thể
• Do vậy cần phải lấy mẫu ( tổ hợp con của
quần thể)
Evidence-based Chiropractic
5
© 2006
Mẫu ngẫu nhiên
• Các đối tượng được lấy ra từ quần thể để
sao cho các cá thể có cơ hội như nhau
được chọn ra
• Mẫu ngẫu nhiên thì đại diện cho quần thể
• Mẫu không ngẫu nhiên thì không đại diện
– May be biased regarding age, severity of the
condition, socioeconomic status etc.
Evidence-based Chiropractic
6
© 2006
Mẫu ngẫu nhiên
• Mẫu ngẫu nhiên hiếm có trong các nghiên
cứu chăm sóc bệnh nhân
• Thay vào đó, dùng phân phối ngẫu nhiên
vào 2 nhóm điều trị và nhóm chứng
– Each person has an equal chance of being
assigned to either of the groups
• Phân phối ngẫu nhiên vào các nhóm =
randomization
Evidence-based Chiropractic
7
© 2006
Thống kê mô tả (DSs)
• Cách tóm tắt dữ liệu
• Minh họa bộ dữ liệu = shape, central
tendency, and variability of a set of data
– The shape of data has to do with the
frequencies of the values of observations
Evidence-based Chiropractic
8
© 2006
Thống kê mô tả
– Khuynh hướng trung tâm : vị trí chính giữa bộ
dữ liệu
– Khuynh hướng biến thiên: các trị số phía dưới
, phía trên trị số trung tâm
• Dispersion
• Thống kê mô tả khác biệt với thống kê suy
lý
– Thống kê mô tả không thể kiểm định giả
thuyết
Evidence-based Chiropractic
9
© 2006
MỘT BỘ DỮ LiỆU
• Distribution provides a summary of:
– Frequencies of each of the values
•
•
•
•
•
•
2–3
3–4
4–3
5–1
6–1
7–2
etc.
– Ranges of values
• Lowest = 2
• Highest = 7
Evidence-based Chiropractic
10
Case #
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Visits
7
2
2
3
4
3
5
3
4
6
2
3
7
4
© 2006
Bảng phân phối tần số
•2
•3
•4
•5
•6
•7
Frequency Percent
3
21.4
4
28.6
3
21.4
1
7.1
1
7.1
2
14.3
Evidence-based Chiropractic
11
Cumulative %
21.4
50.0
71.4
78.5
85.6
100.0
© 2006
PHÂN PHỐI TẦN SỐ ĐƯỢC BIỂU
THỊ BẰNG histogram
Evidence-based Chiropractic
12
© 2006
Histograms (cont.)
• A histogram is a type of bar chart, but
there are no spaces between the bars
• Histograms are used to visually depict
frequency distributions of continuous data
• Bar charts are used to depict categorical
information
– e.g., Male–Female, Mild–Moderate–Severe,
etc.
Evidence-based Chiropractic
13
© 2006
SỐ ĐO KHUYNH HƯỚNG
TRUNG TÂM
• Số trung bình
– The most commonly used DS
• Tính số trung bình
– Add all values of a series of numbers and
then divided by the total number of elements
Evidence-based Chiropractic
14
© 2006
Công thức tính số trung bình
• Trung bình mẫu
X
X
n
X
N
• Trung bình quần thể
X (X bar) refers to the mean of a sample and μ refers to the
mean of a population
X is a command that adds all of the X values
n is the total number of values in the series of a sample and
N is the same for a population
Evidence-based Chiropractic
15
© 2006
Số đo trung tâm
• Mode
Mode
Mode
– The most frequently
occurring value in a
series
– The modal value is
the highest bar in a
histogram
Evidence-based Chiropractic
16
© 2006
Số đo trung tâm
• Trung vịn
– The value that divides a series of values in
half when they are all listed in order
– When there are an odd number of values
• The median is the middle value
– When there are an even number of values
• Count from each end of the series toward the
middle and then average the 2 middle values
Evidence-based Chiropractic
17
© 2006
Số đo trung tâm
• Each of the three methods of measuring
central tendency has certain advantages
and disadvantages
• Which method should be used?
– It depends on the type of data that is being
analyzed
– e.g., categorical, continuous, and the level of
measurement that is involved
Evidence-based Chiropractic
18
© 2006
Cấp độ số đo
•
There are 4 levels of measurement
– Nominal, ordinal, interval, and ratio
1. Nominal
– Data are coded by a number, name, or letter
that is assigned to a category or group
– Examples
•
•
Gender (e.g., male, female)
Treatment preference (e.g., manipulation,
mobilization, massage)
Evidence-based Chiropractic
19
© 2006
Cấp độ số đo
2. Ordinal
– Is similar to nominal because the
measurements involve categories
– However, the categories are ordered by rank
– Examples
•
•
Pain level (e.g., mild, moderate, severe)
Military rank (e.g., lieutenant, captain, major,
colonel, general)
Evidence-based Chiropractic
20
© 2006
Cấp độ số đo
• Ordinal values only describe order, not
quantity
– Thus, severe pain is not the same as 2 times
mild pain
• The only mathematical operations allowed
for nominal and ordinal data are counting
of categories
– e.g., 25 males and 30 females
Evidence-based Chiropractic
21
© 2006
Cấp độ số đo
3. Khoảng
– Measurements are ordered (like ordinal
data)
– Have equal intervals
– Does not have a true zero
– Examples
•
•
The Fahrenheit scale, where 0° does not
correspond to an absence of heat (no true zero)
In contrast to Kelvin, which does have a true zero
Evidence-based Chiropractic
22
© 2006
Cấp độ số đo
4. Ratio
– Measurements have equal intervals
– There is a true zero
– Ratio is the most advanced level of
measurement, which can handle most types
of mathematical operations
Evidence-based Chiropractic
23
© 2006
Levels of measurement (cont.)
• Ratio examples
– Range of motion
• No movement corresponds to zero degrees
• The interval between 10 and 20 degrees is the
same as between 40 and 50 degrees
– Lifting capacity
• A person who is unable to lift scores zero
• A person who lifts 30 kg can lift twice as much as
one who lifts 15 kg
Evidence-based Chiropractic
24
© 2006
Levels of measurement (cont.)
• NOIR is a mnemonic to help remember
the names and order of the levels of
measurement
– Nominal
Ordinal
Interval
Ratio
Evidence-based Chiropractic
25
© 2006