Tải bản đầy đủ (.doc) (56 trang)

Tận dụng sức mạnh hàm thống kê trong excel (song ngữ anh việt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (158.29 KB, 56 trang )

Hàm thống kê trong excel
HARNESSING THE POWER OF FUNCTIONS
Tận dụng sức mạnh của các hàm
Excel’s statistical functions calculate all the standard
statistical measures, such as average, maximum, minimum,
and standard deviation. For most of the statistical functions,
you supply a list of values (which could be an entire
population or just a sample from a population). You can
enter individual values or cells, or you can specify a range.
Excel has dozens of statistical functions, many of which are
rarely, if ever, used in business.
Những hàm thống kê của Excel tính toán tất cả những các số
đo thống kê chuẩn như trung bình, lớn nhất, nhỏ nhất, và độ
lệch chuẩn. Đối với hầu hết các hàm thống kê, bạn cung cấp
cho nó một danh sách các giá trị (có thể là toàn bộ tập hợp
hay chỉ là một mẫu của tập hợp). Bạn có thể nhập những giá
trị hoặc những ô riêng lẻ, hay là xác định một mảng. Excel
có hàng chục hàm thống kê, có nhiều hàm trong số đó hiếm
khi được sử dụng trong công việc kinh doanh.
12.1. Understanding Descriptive Statistics
Tìm hiểu về thống kê mô tả
One of the goals of this book is to show you how to use
formulas and functions to turn a jumble of numbers and
values into results and summaries that give you useful
information about the data. Excel’s statistical functions are
particularly useful for extracting analytical sense out of data
nonsense. Many of these functions might seem strange and
obscure, but they reward a bit of patience and effort with
striking new views of your data.
Một trong những mục đích của cuốn sách này là trình bày
cho bạn cách sử dụng các công thức và các hàm để biến một


mớ hỗn độn những con số và những giá trị thành những kết
quả và bảng tổng kết, nhằm cho bạn thông tin hữu dụng về
dữ liệu. Các hàm thống kê của Excel đặc biệt hữu dụng cho
việc trích xuất ra những phân tích có nghĩa khỏi những dữ
liệu vô nghĩa. Nhiều hàm trong số này có vẻ lạ lẫm và khó
hiểu, nhưng chúng sẽ đền đáp cho sự kiên nhẫn và nỗ lực
của bạn bằng những cái nhìn mới đáng ngạc nhiên cho dữ
liệu.
This is particularly true of the branch of statistics known
casually as descriptive statistics (or summary statistics). As
the name implies, descriptive statistics are used to describe
various aspects of a data set, to give you a better overall
picture of the phenomenon underlying the numbers. In
Excel’s statistical repertoire, 16 measures make up its
descriptive statistics package: sum, count, mean, median,
mode, maximum, minimum, rank, kth largest, kth smallest,
standard deviation, variance, standard error of the mean,
confidence level, kurtosis, and skewness.
Điều này đặc biệt đúng với nhóm thống kê được biết với tên
là thống kê mô tả (hay thống kê tổng hợp). Như tên gọi của
nó, thống kê mô tả được sử dụng để mô tả những khía cạnh
khác nhau của một tập hợp dữ liệu, nhằm mang lại cho bạn
một cái nhìn rõ ràng hơn về sự thật ở bên dưới các con số.
Trong kho thống kê của Excel, có 16 số đo thống kê tạo nên
một gói thống kê mô tả: sum (tính tổng), count (đếm),
mean (giá trị trung bình), median (trung bình vị), mode (số
lần xuất hiện), maximum (giá trị lớn nhất), minimum (giá trị
nhỏ nhất), rank (thứ hạng), kth largest (giá trị lớn thứ k),
kth smallest (giá trị nhỏ thứ k), standard deviation (độ lệch
chuẩn), variance (phương sai), và những lỗi thông thường

của giá trị trung bình, mức tin cậy, độ nhọn, hệ số lệch
In this chapter, you’ll learn how to wield all of these
statistical measures (except sum, which you’ve already seen
earlier in this book).
Trong chương này, bạn sẽ học cách nắm vững tất cả các số
đo thống kê (ngoại trừ sum(tính tổng) bạn đã học trong
phần trước).
You can download the workbook that contains this chapter’s
examples here:
Bạn có thể tải về bảng tính với những ví dụ trong chương
này tại đây:
www.mcfedries.com/Excel2007Formulas/
Trong chương này, do hầu hết các hàm tôi đã trình bày chi
tiết ở topic: Các hàm Thống kê
( />t=7979), nên tôi sẽ không trình bày lại danh sách các hàm,
cú pháp và chú giải các đối số của mỗi hàm nữa (không theo
như nguyên bản cuốn sách này). Trong các bài dịch sau đây,
khi nói đến một hàm nào, tôi sẽ tạo liên kết (link) đến bài
viết về hàm đó. Nếu muốn tìm hiểu kỹ hơn về cú pháp và
cách sử dụng các đối số (argument), các bạn theo những
liên kết này để xem.
BNTT
01-07-08, 11:01 PM
12.2. Counting Items with the COUNT() Function
Đếm các phần tử với Hàm COUNT
The simplest of the descriptive statistics is the total number
of values, which is given by the COUNT() function:
Thống kê đơn giản nhất trong số các thống kê mô tả là tổng
số các giá trị được cho bởi hàm COUNT():
COUNT

( />p=54786&postcount=2) (value1 [,value2, ])
The COUNT() function counts only the numeric values that
appear in the list of arguments. Text values, dates, logical
values, and errors are ignored. In the worksheet shown in
Figure 12.1, the following formula is used to count the
number of defect values in the database:
Hàm COUNT() chỉ đếm các giá trị số ở trong danh sách các
đối số. Các giá trị text, giá trị ngày tháng, giá trị logic, và
các lỗi sẽ được bỏ qua. Trong bảng tính minh họa ở hình
12.1, công thức sau đây được dùng để đếm số sản phẩm bị
lỗi trong cơ sở dữ liệu:
=COUNT(D3:D22)
/>apter%2012/Figure121.jpg
Figure 12.1 - Statistics.xlsx
( />Statistics.xlsx)
TIP:
To get a quick look at the count, select the range or, if
you’re working with data in a table, select a single column in
the table. Excel displays the Count in the status bar.
Để xem nhanh kết quả của việc đếm, bạn chọn dãy muốn
đếm, hoặc nếu bạn đang làm việc với dữ liệu dạng bảng, thì
chọn một cột đơn trong bảng. Excel sẽ hiển thị tất cả những
gì nó đếm được ở mục Count dưới thanh trạng thái (Status
bar).
/>M%20THONG%20KE/COUNT1.png
If you want to know how many numeric values are in the
selection, right-click the status bar and then click the
Numerical Count value.
Nếu bạn chỉ muốn biết có bao nhiêu giá trị số (numeric
value) trong vùng đang chọn, bạn nhấn nút chuột phải vào

thanh trạng thái và chọn giá trị Numerical Count.
/>M%20THONG%20KE/COUNT2.png
BNTT
02-07-08, 12:00 AM
12.3. Calculating Averages
Tính trung bình
The most basic statistical analysis worthy of the name is
probably the average, although you always need to ask
yourself which average you need. There are three: mean,
median, and mode. The next few sections show you the
worksheet functions that calculate them.
Sự phân tích thống kê cơ bản đáng chú ý nhất có lẽ là giá trị
trung bình, mặc dù bạn luôn cần phải biết bạn muốn có loại
trung bình nào. Có ba loại: trung bình cộng (mean), trung
bình vị (median), và trung bình trọng số (mode). Vài phần
tiếp theo đây sẽ trình bày cho bạn những hàm để tính các
giá trị trung bình này.
12.3.1. The AVERAGE Function — Hàm AVERAGE
The mean is what you probably think of when someone uses
the term average. That is, it’s the arithmetic mean of a set
of numbers. In Excel, you calculate the mean using the
AVERAGE() function:
Mean nghĩa là những gì bạn có thể nghĩ đến khi người ta sử
dụng thuật ngữ average. Nghĩa là, nó là trung bình cộng của
một tập hợp các con số. Trong Excel, bạn tính trung bình
cộng bằng hàm AVERAGE():
AVERAGE
( />p=54788&postcount=3) (number1 [, number2, ])
For example, to calculate the mean of the values in the
defects database, you use the following formula:

Ví dụ, để tính trung bình cộng của những giá trị trong cơ sở
dữ liệu các sản phẩm lỗi (xem lại ví dụ của bài trước, hình
12.1), bạn dùng công thức sau:
=AVERAGE(D3:D22)
TIP:
If you need just a quick glance at the mean value, select the
range. Excel displays the Average in the status bar.
Nếu bạn chỉ cần xem lướt qua giá trị trung bình cộng của
môt dãy, bạn chọn nó, Excel hiển thị giá trị này ở mục
Average dưới thanh trạng thái.
/>M%20THONG%20KE/AVERAGE2.png
CAUTION:
The AVERAGE() function (as well as the MEDIAN() and
MODE() functions discussed in the next two sections)
ignores text and logical values. It also ignores blank cells,
but it does not ignore cells that contain the value 0.
Hàm AVERAGE() (cũng như hàm MEDIAN() và hàm MODE()
sẽ nói đến trong hai phần tiếp theo đây) bỏ qua các giá trị
text và các giá trị logic. Nó cũng bỏ qua các ô rỗng, nhưng
nó không bỏ qua những ô có giá trị là 0.
12.3.2. The MEDIAN Function — Hàm MEDIAN
The median is the value in a data set that falls in the middle
when all the values are sorted in numeric order. That is,
50% of the values fall below the median, and 50% fall above
it. The median is useful in data sets that have one or two
extreme values that can throw off the mean result because
the median is not affected by extremes. You calculate the
median using the MEDIAN() function:
Median — trung bình vị — là một giá trị nằm ở giữa một tập
hợp các dữ liệu, khi tất cả các giá trị được sắp xếp theo thứ

tự. Nghĩa là, có 50% giá trị xếp dưới median và 50% giá trị
xếp trên median. Trung bình vị hữu dụng trong một tập hợp
dữ liệu có một hoặc hai giá trị cực trị có thể đưa đến kết quả
trung bình, bởi vì trung bình vị không phụ thuộc vào các cực
trị. Bạn sử dụng hàm MEDIAN() để tính trung bình vị:
MEDIAN
( />p=54815&postcount=5) (number1 [, number2, ])
For example, to calculate the median of the values in the
defects database, you use the following formula:
Ví dụ, để tính trung bình vị của những giá trị trong cơ sở dữ
liệu các sản phẩm lỗi, bạn dùng công thức sau:
=MEDIAN(D3:D22)
12.3.3. The MODE Function — Hàm MODE
The mode is the value in a data set that occurs most
frequently. The mode is most useful when you’re dealing
with data that doesn’t lend itself to being either added
(necessary for calculating the mean) or sorted (necessary
for calculating the median). For example, you might be
tabulating the result of a poll that included a question about
the respondent’s favorite color. The mean and median don’t
make sense with such a question, but the mode will tell you
which color was chosen the most.
Mode là một giá trị xuất hiện nhiều lần nhất trong một tập
hợp các dữ liệu. Mode rất hữu dụng khi bạn làm việc với
những dữ liệu không thích hợp với việc cộng (việc cần thiết
để tính trung bình cộng) hoặc sắp xếp theo thứ tự (cần thiết
cho việc tính trung bình vị). Ví dụ, bạn có thể lập một bảng
kết quả của một thăm dò có bao gồm một câu hỏi về màu
da ưa thích nhất. Trung bình cộng (mean) và trung bình vị
(median) không thích hợp với một câu hỏi như vậy, nhưng

mode sẽ cho bạn biết màu nào được chọn nhiều nhất.
You calculate the mode using the MODE() function:
Bạn tính mode (số lần xuất hiện nhiều nhất) bằng hàm
MODE():
MODE ( />p=54820&postcount=6) (number1 [, number2, ])
For example, to calculate the mode of the values in the
defects database, you use the following formula:
Ví dụ, để tính giá trị xuất hiện nhiều nhất trong cơ sở dữ liệu
các sản phẩm lỗi, bạn dùng công thức sau:
=MODE(D3:D22)
BNTT
02-07-08, 07:35 PM
12.3.4. Calculating the Weighted Mean
Tính trung bình gia trọng
In some data sets, one value might be more important than
another. For example, suppose that your company has
several divisions, the biggest of which generates $100
million in annual sales and the smallest of which generates
only $1 million in sales. If you want to calculate the average
profit margin for the divisions, it doesn’t make sense to treat
the divisions equally because the largest is two orders of
magnitude bigger than the smallest. You need some way of
factoring the size of each division into your average profit
margin calculation.
Trong một số tập hợp dữ liệu, có thể có một giá trị thì quan
trọng hơn những giá trị khác. Ví dụ, giả sử rằng công ty của
bạn có vài bộ phận, bộ phận lớn nhất đem lại $100 triệu
trong tổng doanh thu hằng năm, còn bộ phận nhỏ nhất chỉ
mang lại doanh thu có $1 triệu. Nếu bạn muốn tính mức lợi
nhuận trung bình cho các bộ phận, việc xem các bộ phận

đều như nhau thì không hợp lý bởi vì bộ phận lớn nhất hơn
bộ phận nhỏ nhất đến hai bậc. Bạn cần có cách khác để đưa
quy mô của mỗi bộ phận vào trong phép tính trung bình lợi
nhuận.
You can do this by calculating the weighted mean. This is an
arithmetic mean in which each value is weighted according
to its importance in the data set. Here’s the procedure to
follow to calculate the weighted mean:
Bạn có thể làm điều đó bằng cách tính trung bình gia trọng.
Đây là một trung bình cộng mà trong đó mỗi giá trị có trọng
số tùy theo mức quan trọng của nó trong một tập hợp dữ
liệu. Đây là những bước để tính mức trung bình gia trọng:
For each value, multiply the value by its weight.
Với mỗi giá trị, nhân giá trị với trọng số của nó.
Sum the results from step 1.
Tính tổng của các kết quả ở bước 1.
Sum the weights.
Tính tổng các trọng số.
Divide the sum from step 2 by the sum from step 3.
Chia tổng ở bước 2 cho tổng ở bước 3
Let’s make this more concrete by tying this into our
database of product defects. Suppose you want to know the
average percentage of product defects (the values in column
F). Simply applying the AVERAGE() function to the range
F3:F22 doesn’t give an accurate answer because the number
of units produced by each division is different (the maximum
is 1,625 in division C, and the minimum is 690 in division R).
To get an accurate result, you must give more weight to
those divisions that produced more units. In other words,
you need to calculate the weighted mean for the percentage

of defective products.
Hãy làm cho điều này cụ thể hơn bằng cách đưa nó vào
trong cơ sở dữ liệu của các sản phẩm lỗi của chúng ta. Giả
sử bạn muốn biết số phần trăm trung bình các sản phẩm bị
lỗi (những giá trị trong cột F). Việc đơn giản áp dụng hàm
AVERAGE() vào dãy F3:F22 không đem lại một kết quả
chính xác bởi vì số sản phẩm mà mỗi đơn vị sản xuất được
thì khác nhau (bộ phận C làm ra nhiều nhất, 1,625 sản
phẩm; còn bộ phận R làm được ít nhất, 690 sản phẩm). Để
có được kết quả chính xác, bạn phải tăng thêm trọng số (gia
trọng) cho những bộ phận làm được nhiều sản phẩm hơn.
Nói cách khác, bạn cẩn phải tính mức trung bình gia trọng
cho số phần trăm các sản phẩm lỗi.
/>apter%2012/Figure122.jpg
Figure 12.2 - Statistics.xlsx
( />Statistics.xlsx)
In this case, the weights are the units produced by each
division, so the weighted mean is calculated as follows:
Trong trường hợp này, trọng số là số sản phẩm của mỗi bộ
phận làm được, do đó trung bình gia trọng được tính như
sau:
Multiply the percentage defective values by the units. (The
sharp-eyed reader will note that this just gives the number
of defects. I’ll ignore this for now for illustration purposes.)
Nhân giá trị phần trăm sản phẩm bị lỗi với số sản phẩm.
(Nếu bạn tinh mắt bạn sẽ thấy điều này cho ra con số các
sản phẩm lỗi. Tôi sẽ bỏ qua điều này, bởi vì đây chỉ là minh
họa).
Sum the results from step 1.
Tính tổng các kết quả ở bước 1.

Sum the units.
Tính tổng các sản phẩm.
Divide the sum from step 2 by the sum from step 3.
Lấy tổng số ở bước 2 chia cho tổng số ở bước 3.
You can combine all of these steps into the following array
formula, as shown in Figure 12.2:
Bạn có thể kết hợp các bước trên trong công thức mảng sau
đây, như minh họa ở hình 12.2:
{=SUM(F3:F22 * E3:E22) / SUM(E3:E22))}
BNTT
02-07-08, 11:33 PM
12.4. Calculating Extreme Values
Tính các cực trị
The average calculations tell you things about the “middle”
of the data, but it can also be useful to know something
about the “edges” of the data. For example, what’s the
biggest value and what’s the smallest? The next two
sections take you through the worksheet functions that
return the extreme values of a sample or population.
Các phép tính trung bình cho bạn biết về "điểm giữa" của dữ
liệu, nhưng cũng thật hữu ích nếu biết được điều gì đó về
"biên" của dữ liệu, ví dụ, giá trị lớn nhất và giá trị nhỏ nhất
là gì? Hai phần tiếp theo đây trình bày cho bạn những hàm
trả về các cực trị của một mẫu hoặc một tập hợp.
12.4.1. The MAX and MIN Function — Hàm MAX và Hàm MIN
If you want to know the largest value in a data set, use the
MAX() function:
Khi bạn muốn biết giá trị lớn nhất của một tập hợp dữ liệu,
bạn cùng hàm MAX():
MAX ( />p=54851&postcount=7) (number1 [, number2, ])

For example, to calculate the maximum value in the defects
database, you use the following formula:
Ví dụ, để tính giá trị lớn nhất trong cơ sở dữ liệu các sản
phẩm lỗi, bạn dùng công thức sau:
=MAX(D3:D22)
To get the smallest value in a data set, use the MIN()
function:
Để có giá trị nhỏ nhất trong một tập hợp dữ liệu, dùng hàm
MIN():
MIN ( />p=54862&postcount=8) (number1 [, number2, ])
For example, to calculate the minimum value in the defects
database, you use the following formula:
Ví dụ, để tính giá trị nhỏ nhất trong cơ sở dữ liệu các sản
phẩm lỗi, bạn dùng công thức sau:
=MIN(D3:D22)
TIP:
If you need just a quick glance at the maximum or minimum
value, select the range, right-click the status bar, and then
click the Maximum or Minimum value.
Nếu bạn chỉ muốn xem lướt qua giá trị cực đại hoặc cực tiểu,
bạn chọn dãy và nhấn nút phải chuột vào Status bar, và
chọn giá trị Maximum hoặc Minimum.
NOTE:
If you need to determine the maximum or minimum over a
range or array that includes text values or logical values,
use the MAXA() or MINA() functions instead. These functions
ignore text values and treat logical values as either 1 (for
TRUE) or 0 (for FALSE).
Nếu bạn muốn những giá trị cực đại hay cực tiểu trong một
dãy hoặc một mảng bao gồm cả những giá trị text và các giá

trị logic, bạn dùng hàm MAXA() hoặc MINA(), những hàm
này sẽ bỏ qua các giá trị text, và xem những giá trị logic
hoặc là 1 (TRUE) hoặc là 0 (FALSE).
BNTT
02-07-08, 11:44 PM
12.4.2. The LARGE and SMALL Function — Hàm LARGE và
Hàm SMALL
Instead of knowing just the largest value, you might need to
know the kth largest value, where k is some integer. You
can calculate this using Excel’s LARGE() function:
Thay vì chỉ biết có giá trị lớn nhất, bạn cũng nên biết giá trị
lớn thứ k, với k là một số nguyên nào đó. Bạn có thể tính giá
trị này với hàm LARGE() của Excel:
LARGE
( />p=54869&postcount=9) (array, k)
For example, the following formula returns 15, the second-
largest defects value in the product defects database:
Ví dụ, công thức sau đây trả về 15, giá trị lớn thứ hai của
các sản phẩm lỗi trong cơ sở dữ liệu các sản phẩm lỗi:
=LARGE(D3:D22, 2)
Similarly, instead of knowing just the smallest value, you
might need to know the kth smallest value, where k is some
integer. You can determine this value using the SMALL()
function:
Tương tự, thay vì chỉ biết giá trị nhỏ nhất, bạn cũng cần biết
được giá trị nhỏ thứ k, với k là một số nguyên nào đó. Bạn
có thể xác định giá trị này bằng hàm SMALL():
SMALL
( />p=54870&postcount=10) (array, k)
For example, the following formula returns 4, the third-

smallest defects value in the product defects database (see
Figure 12.3):
Ví dụ, công thức sau đây trả về 4, giá trị nhỏ thứ ba của các
sản phẩm lỗi trong cơ sở dữ liệu các sản phẩm lỗi (xem hình
12.3):
=SMALL(D3:D22, 3)
/>apter%2012/Figure123.jpg
Figure 12.3 - Statistics.xlsx
( />Statistics.xlsx)
BNTT
04-07-08, 09:28 AM
Performing Calculations on the Top k Values
Thực hiện các phép tính với k giá trị cao nhất
Sometimes, you might need to sum only the top 3 values in
a data set, or take the average of the top 10 values. You can
do this by combining the LARGE() function and the
appropriate arithmetic function (such as SUM()) in an array
formula. Here’s the general formula:
Đôi khi, bạn cần phải tính tổng của 3 giá trị cao nhất trong
một tập hợp dữ liệu, hoặc lấy trung bình của 10 giá trị cao
nhất. Bạn có thể làm điều này bằng cách kết hợp hàm
LARGE() và một hàm số học thích hợp (như là SUM()) trong
một công thức mảng. Đây là công thức chung:
{=FUNCTION(LARGE(range, {1,2,3, ,k}))}
Here, FUNCTION() is the arithmetic function, range is the
array or range containing the data, and k is the number of
values you want to work with. In other words, LARGE()
applies the top k values from range to the FUNCTION().
Ở đây, FUNCTION là một hàm số học, range là một mảng
hay là một dãy chứa dữ liệu, và k là số các giá trị mà bạn

muốn làm việc với chúng. Nói cách khác, LARGE() áp dụng k
giá trị cao nhất của range vào trong FUNCTION.
For example, suppose that you want to find the mean of the
top five values in the defects database. Here’s an array
formula that does this:
Ví dụ, giả sử bạn muốn tìm trung bình của 5 giá trị cao nhất
trong cơ sở dữ liệu các sản phẩm lỗi, đây là công thức mảng
để làm điều này:
{=AVERAGE(LARGE(D3:D22,{1,2,3,4,5}))}
Performing Calculations on the Bottom k Values
Thực hiện các phép tính với k giá trị thấp nhất
You can probably figure out that performing calculations on
the smallest k values is similar. In fact, the only difference is
that you substitute the SMALL() function for LARGE():
Tương tự, bạn có thể thực hiện các phép tính với k giá trị
thấp nhất trong một tập hợp dữ liệu. Thật sự thì chỉ có mỗi
một điều khác, là bạn thay hàm LARGE() bằng hàm
SMALL():
{=FUNCTION(SMALL(range, {1,2,3, ,k}))}
For example, the following array formula sums the smallest
three defect values in the defects database:
Ví dụ, công thức mảng sau đây tính tổng của 3 giá trị thấp
nhất trong cơ sở dữ liệu các sản phẩm lỗi:
{=SUM(SMALL(D3:D22,{1,2,3}))}
BNTT
04-07-08, 09:57 AM
12.5. Calculating Measures of Variation
Tính độ biến thiên
Descriptive statistics such as the mean, median, and mode
fall under what statisticians call measures of central

tendency (or sometimes measures of location). These
numbers are designed to give you some idea of what
constitutes a “typical” value in the data set.
Những thống kê mô tả như tính trung bình cộng (mean),
trung bình vị (median), và tính số lần xuất hiện (mode) là
những điều mà các nhà thống kê gọi là thước đo của xu
hướng trung tâm (hoặc đôi khi được gọi là thước đo của vị
trí). Những con số này được thiết kế để đem lại cho bạn một
số ý niệm về những cái cấu thành một giá trị "tiêu biểu"
trong một tập hợp dữ liệu.
This is in contrast to the so-called measures of variation (or
sometimes measures of dispersion), which are designed to
give you some idea of how the values in the data set vary
with respect to one another. For example, a data set in
which all the values are the same would have no variability;
in contrast, a data set with wildly different values would
have high variability. Just what is meant by “wildly different”
is what the statistical techniques in this section are designed
to help you calculate.
Tương phản với thước đo của xu hướng trung tâm (measures
of central tendency) là độ biến thiên (hay còn gọi là độ phân
tán), được thiết kế để cho bạn biết một số ý niệm về những
giá trị trong tập hợp dữ liệu khác nhau như thế nào. Ví dụ,
một tập hợp dữ liệu những giá trị hoàn toàn giống nhau sẽ
không có sự biến thiên, trái lại, một tập hợp những dữ liệu
cực kỳ khác nhau thì sẽ có độ biến thiên cao. Để hiểu "cực
kỳ khác nhau" là gì, phần này sẽ trình bày những kỹ thuật
thống kê được thiết kế để giúp bạn tính toán.
12.5.1. Calculating the Range
Tính độ biến thiên trong dãy

The simplest measure of variability is the range, which is
defined as the difference between a data set’s maximum and
minimum values. Excel doesn’t have a function that
calculates the range directly. Instead, you first apply the
MAX() and MIN() functions to the data set. Then, when you
have these extreme values, you calculate the range by
subtracting the minimum from the maximum.
Độ biến thiên đơn giản nhất là độ biến thiên trong dãy, được
định nghĩa là sự khác nhau giữa các giá trị lớn nhất và nhỏ
nhất trong một tập hợp. Excel không có hàm để tính độ biến
thiên trong dãy cách trực tiếp, nhưng thay vào đó, đầu tiên
bạn áp dụng hàm MAX() và MIN() vào tập hợp dữ liệu này,
rồi khi bạn đã có những cực trị, bạn tính độ biến thiên trong
dãy bằng cách lấy giá trị cực đại trừ đi giá trị cực tiểu.
For example, here’s a formula that calculates the range for
the defects database:
Ví dụ, đây là công thức để tính độ biến thiên trong dãy cho
những sản phẩm lỗi:
=MAX(D3:D22) - MIN(D3:D22)
Speaking generally, the range is a useful measure of
variation only for small sample sizes. The larger the sample
is, the more likely it becomes that an extreme maximum or
minimum will occur, and the range will be skewed
accordingly.
Nói chung, độ biến thiên trong dãy chỉ hữu dụng với những
mẫu có kích thước nhỏ. Một mẫu càng lớn thì khả năng
chênh lệch giữa một giá trị cực đại và một giá trị cực tiểu
càng lớn, và dãy cũng sẽ bị lệch nhiều hơn.
BNTT
05-07-08, 12:51 AM

12.5.2. Calculating the Variance with the VAR() Function
Tính phương sai bằng hàm VAR
When computing the variability of a set of values, one
straightforward approach is to calculate how much each
value deviates from the mean. You could then add those
differences and divide by the number of values in the
sample to get what might be called the average difference.
The problem, however, is that, by definition of the arithmetic
mean, adding the differences (some of which are positive
and some of which are negative) gives the result 0. To solve
this problem, you need to add the absolute values of the
deviations and then divide by the sample size. This is what
statisticians call the average deviation.
Khi tính sự biến thiên của một tập hợp giá trị, có một
phương pháp đơn giản là tính mỗi giá trị lệch khỏi giá trị
trung bình (mean) bao nhiêu, sau đó, bạn cộng hết mấy độ
lệch này rồi chia cho số giá trị có trong mẫu, và bạn sẽ có
cái gọi là độ lệch trung bình. Tuy nhiên, vấn đề là theo định
nghĩa của trung bình cộng thì việc cộng các độ lệch (một số
cái là dương và một số cái là âm) sẽ cho ra kết quả là 0. Để
giải quyết vấn đề này, bạn cần cộng các giá trị tuyệt đối của
các độ lệch và sau đó mới chia cho số giá trị trong mẫu. Đây
là cái mà các nhà thống kê gọi là độ lệch trung bình.
Unfortunately, this simple state of affairs is still problematic
because (for highly technical reasons) mathematicians tend
to shudder at equations that require absolute values. To get
around this, they instead use the square of each deviation
from the mean, which always results in a positive number.
They sum these squares and divide by the number of values
(I’m simplifying things considerably here), and the result is

the called the variance. This is a common measure of
variation, although interpreting it is hard because the result
isn’t in the units of the sample: It’s in those units squared.
What does it mean to speak of “defects squared,” for
example? This doesn’t matter that much for our purposes
because, as you’ll see in the next section, the variance is
used chiefly to get to the standard deviation.
Nhưng không may, công việc đơn giản này vẫn gây hoài
nghi (vì những lý do mang tính kỹ thuật cao), các nhà toán
học hay rùng mình trước những chương trình đòi hỏi những
giá trị tuyệt đối. Để giải quyết điều này, họ sử dụng bình
phương của mỗi độ lệch từ giá trị trung bình, việc này luôn
tạo ra một giá trị dương, rồi họ tính tổng các bình phương
này rồi chia cho số giá trị, và kết quả được gọi là phương
sai. Đây là một độ biến thiên chung, mặc dù hiểu được nó
thì không dễ bởi vì kết quả không nằm trong các đơn vị của
mẫu, mà nó nằm trong các đơn vị được tính bình phương. Ví
dụ, "các sản phẩm lỗi" được tính bình phương là gì? Điều này
không quan trọng cho lắm đối với mục đích của chúng ta,
bởi vì như bạn sẽ thấy trong phần tiếp theo đây, phương sai
được sử dụng chủ yếu là để có được độ lệch chuẩn.
In any case, variance is usually a standard part of a
descriptive statistics package, so that’s why I’m covering it.
Excel calculates the variance using the VARP() and VAR()
functions:
Trong bất kỳ trường hợp nào, phương sai thường là một
chuẩn của một thống kê mô tả, do đó đây là lý do tại sao nó
được đề cập đến. Excel tính phương sai bằng cách sử dụng
các hàm VARP() và VAR():
VARP ( />p=55066&postcount=14) (number1 [, number2, ])

VAR ( />p=54884&postcount=13)(number1 [, number2, ])
You use the VARP() function if your data set represents the
entire population (as it does, for example, in the product
defects case); you use the VAR() function if your data set
represents only a sample from the entire population.
Bạn dùng hàm VARP() nếu tập hợp dữ liệu của bạn tượng
trưng cho toàn bộ tập hợp (ví dụ như trong trường hợp các
sản phẩm lỗi); bạn dùng hàm VAR() nếu tập hợp dữ liệu chỉ
tượng trưng cho một mẫu từ toàn bộ tập hợp.
For example, to calculate the variance of the values in the
defects database, you use the following formula:
Ví dụ, để tính phương sai của các giá trị trong cơ sở dữ liệu
các sản phẩm lỗi, bạn dùng công thức sau đây:
=VARP(D3:D22)
NOTE:
If you need to determine the variance over a range or array
that includes text values or logical values, use the VARPA()
or VARA() functions instead.These functions ignore text
values and treat logical values as either 1 (for TRUE) or 0
(for FALSE).
Nếu bạn muốn tính phương sai trong một dãy hoặc một
mảng bao gồm cả những giá trị text và các giá trị logic, bạn
dùng hàm VARPA() hoặc VARA(), những hàm này sẽ bỏ qua
các giá trị text, và xem những giá trị logic hoặc là 1 (TRUE)
hoặc là 0 (FALSE).
BNTT
05-07-08, 01:17 AM
12.5.3. Calculating the Standard Deviation with the STDEVP
and STDEV Functions
Tính độ lệch chuẩn bằng hàm STDEVP và hàm STDEV

As I mentioned in the previous section, in real-world
scenarios, the variance is really used only as an
intermediate step for calculating the most important of the
measures of variation, the standard deviation. This measure
tells you how much the values in the data set vary with
respect to the average (the arithmetic mean). What exactly
this means won’t become clear until you learn about
frequency distributions in the next section. For now,
however, it’s enough to know that a low standard deviation
means that the data values are clustered near the mean,
and a high standard deviation means the values are spread
out from the mean.
Như tôi đã nói trong bài trước, trong thực tế, phương sai chỉ
được dùng như một bước trung gian để tính cái chính yếu
của độ lệch, hay còn gọi là độ lệch chuẩn. Độ lệch chuẩn cho
bạn biết giá trị trong tập hợp dữ liệu lệch bao nhiêu so với
giá trị trung bình. Định nghĩa này sẽ rõ ràng hơn khi bạn học
về sự phân bổ tần số trong bài sau. Tuy nhiên, nó cũng đủ
để hiểu rằng một độ lệch chuẩn thấp nghĩa là các giá trị của
dữ liệu thì gần với giá trị trung bình, còn độ lệch chuẩn cao
có nghĩa là các giá trị của dữ liệu thì cách xa giá trị trung
bình.
The standard deviation is defined as the square root of the
variance. This is good because it means that the resulting
units will be the same as those used by the data. For
example, the variance of the product defects is expressed in
the meaningless defects squared units, but the standard
deviation is expressed in defects.
Độ lệch chuẩn được định nghĩa là căn bậc hai của phương
sai. Điều này thì tốt bởi vì nó có nghĩa là những đơn vị của

kết quả sẽ giống như các đơn vị được dùng trong dữ liệu. Ví
dụ, phương sai của các sản phẩm lỗi được biểu thị như "bình
phương sản phẩm lỗi", nhưng độ lệch chuẩn thì được biểu thị
bằng chính các sản phẩm lỗi.
You could calculate the standard deviation by taking the
square root of the VAR() result, but Excel offers a more
direct route:
Bạn có thể tính độ lệch chuẩn bằng cách lấy căn bậc hai của
kết quả của hàm VAR(), nhưng Excel cho bạn một cách làm
trực tiếp hơn:
STDEVP
( />p=55081&postcount=17) (number1 [, number2, ])
STDEV
( />p=55080&postcount=16)(number1 [, number2, ])
You use the STDEVP() function if your data set represents
the entire population (as in the product defects case); you
use the STDEV() function if your data set represents only a
sample from the entire population.
Bạn dùng hàm STDEVP() nếu tập hợp dữ liệu của bạn tượng
trưng cho toàn bộ tập hợp (ví dụ như trong trường hợp các
sản phẩm lỗi); bạn dùng hàm STDEV() nếu tập hợp dữ liệu
chỉ tượng trưng cho một mẫu từ toàn bộ tập hợp.
For example, to calculate the standard deviation of the
values in the defects database, you use the following
formula (see Figure 12.4):
Ví dụ, để tính độ lệch chuẩn của các giá trị trong cơ sở dữ
liệu các sản phẩm lỗi, bạn dùng công thức sau đây (xem
hình 12.4):
=STDEVP(D3:D22)
/>apter%2012/Figure124.jpg

Figure 12.4 - Statistics.xlsx
( />Statistics.xlsx)
NOTE:
If you need to determine the standard deviation over a
range or array that includes text values or logical values,
use the STDEVPA() or STDEVA() functions instead.These
functions ignore text values and treat logical values as either
1 (for TRUE) or 0 (for FALSE).
Nếu bạn muốn tính phương sai trong một dãy hoặc một
mảng bao gồm cả những giá trị text và các giá trị logic, bạn
dùng hàm STDEVPA() hoặc STDEVA(), những hàm này sẽ bỏ
qua các giá trị text, và xem những giá trị logic hoặc là 1
(TRUE) hoặc là 0 (FALSE).
BNTT
05-07-08, 09:41 AM
12.6. Working with Frequency Distributions
Làm việc với các sự phân bổ tần số
A frequency distribution is a data table that groups data
values into bins — ranges of values — and shows how many
values fall into each bin. The size of each bin is called the
bin interval. How many bins should you use? The answer
usually depends on the data. If you want to calculate the
frequency distribution for a set of student grades, for
example, you’d probably set up six bins: 0–49, 50–59, 60–
69, 70–79, 80–89, and 90+. For poll results, you might
group the data by age into four bins: 18–34, 35–49, 50–64,
and 65+.
Một sự phân bổ tần số là một bảng nhóm các dữ liệu theo
từng dãy giá trị (bin) và trình bày số giá trị trong mỗi dãy
đó. Kích thước của mỗi dãy giá trị (bin) được gọi là khoảng

giá trị. Bạn nên sử dụng bao nhiêu khoảng giá trị? Câu trả
lời thường phụ thuộc vào dữ liệu. Ví dụ, nếu bạn muốn tính
sự phân bổ tần số cho một tập hợp điểm thi của sinh viên,
bạn có thể thiết lập 6 khoảng giá trị: 0-49 (điểm, tối đa là
100), 50–59, 60–69, 70–79, 80–89, và trên 90. Đối với các
bảng thăm dò, bạn có thể kết nhóm dữ liệu theo độ tuổi vào
4 khoảng giá trị: 18–34, 35–49, 50–64, và trên 65 tuổi.
If your data has no obvious bin intervals, you can use the
following rule:
Nếu dữ liệu của bạn không có các khoảng giá trị rõ ràng,
bạn có thể dùng quy tắc sau đây:
If n is the number of values in the data set, enclose n
between two successive powers of 2, and take the higher
exponent to be the number of bins.
Nếu n là số giá trị trong tập hợp dữ liệu, đặt n vào giữa hai
lũy thừa liên tục của 2, và lấy số mũ cao nhất để làm số
khoảng giá trị.
For example, if n is 100, you would use 7 bins because 100
lies between 26 (64) and 27 (128). For the product defects,
n is 20, so the number of bins should be 5 because 20 falls
between 24 (16) and 25 (32).
Ví dụ, nếu n là 100, bạn sẽ dùng 7 khoảng giá trị, bởi vì 100
nằm giữa 2^6 (=64) và 2^7 (=128). Với ví dụ về các sản
phẩm lỗi, n là 20, nên số khoảng giá trị được dùng là 5, vì
20 nằm giữa 2^4 (=16) và 2^5 (=32).
NOTE:
Here’s a worksheet formula that implements the bin-
calculation rule:
Đây là một công thức để tính ra số khoảng giá trị:
=CEILING(LOG(COUNT(input_range), 2), 1)

(input_range là dãy chứa các giá trị)
BNTT
05-07-08, 10:03 AM
12.6.1. The FREQUENCY Function — Hàm FREQUENCY
To help you construct a frequency distribution, Excel offers
the FREQUENCY() function:
Để giúp bạn xây dựng một sự phân bổ tần số, Excel có hàm
FREQUENCY():
FREQUENCY
( />p=55174&postcount=18) (data_array, bins_array)
Here are some things you need to know about this function:
Đây là một số điều bạn cần biết về hàm này:
For the bins_array, you enter only the upper limit of each
bin. If the last bin is openended (such as 16+), you don’t
include it in the bins_array. For example, here’s the
bins_array for the product defects frequency distribution
shown earlier: {3, 7, 11, 15}.
Đối với đối số bins_array, bạn chỉ nhập giới hạn trên của mỗi
khoảng giá trị. Nếu khoảng giá trị cuối cùng là mở (ví dụ,
trên 16), bạn đừng đưa nó vào trong danh sách bins_array.
Ví dụ, đây là bins_array cho sự phân bổ tần số của ví dụ về
các sản phẩm lỗi mà chúng ta đã xem xét từ đầu đến giờ:
{3, 7, 11, 15}.
CAUTION:
Make sure that you enter your bin values in ascending order.
Hãy chắc chắn rằng bạn luôn nhập những khoảng giá trị của
mình (trong đối số bin_array) theo thứ tự tăng dần.
The FREQUENCY() function returns an array (the number of
values that fall within each bin) that is one greater than the
number of elements in bins_array. For example, if the

bins_array contains four elements, FREQUENCY() returns
five elements (the extra element is the number of values
that fall in the open-ended bin).
Hàm FREQUENCY() trả về một mảng (số các giá trị trong
mỗi khoảng giá trị) lớn hơn số các phần tử trong bins_array
1 đơn vị. Ví dụ, nếu bins_array chứa 4 phần tử,
FREQUENCY() sẽ trả về 5 phần tử (phần tử cuối cùng là số
giá trị cho khoảng giá trị mở, thường là khoảng giá trị cuối
cùng trong danh sách các khoảng giá trị của bạn).
Because FREQUENCY() returns an array, you must enter it
as an array formula. To do this, select the range in which
you want the function results to appear (again, make this
range one cell bigger than the bins_array range), type in the
formula, and press Ctrl+Shift+Enter.
Bởi vì FREQUENCY() trả về một mảng, nên bạn phải nhập nó
ở dạng công thức mảng. Để làm điều này, bạn chọn dãy mà
bạn muốn chưa kết quả của hàm (nhắc lại, dãy này phải
nhiều hơn dãy trong bins_array 1 ô), nhập công thức, rồi
nhấn Ctrl+Shift+Enter.
Figure 12.5 shows the product defects database with a
frequency distribution added. The bins_array is the range
K4:K7, and the FREQUENCY() results appear in the range
L5:L8, with the following formula entered as an array in that
range:
Hình 12.5 minh họa cơ sở dữ liệu các sản phẩm lỗi với một
bảng phân bổ tần số được thêm vào (phía bên phải).

×