Tải bản đầy đủ (.doc) (85 trang)

Một số kỹ thuật phân cụm dữ liệu và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.31 MB, 85 trang )

i

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

---------------------------------------

NGUYỄN THỊ HUỆ

MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU
VÀ ỨNG DỤNG

Chuyên ngành: Khoa học máy tính

Thái Nguyên - 2014


ii

LỜI CẢM ƠN
Em xin gửi lời cảm ơn chân thành nhất đến PGS.TS Bùi Thế Hồng,
người đã tận tình hướng dẫn, giúp đỡ em trong suốt thời gian thực hiện luận
văn này.
Em cảm ơn các thầy trong Viện Công Nghệ Thông Tin Hà Nội cùng
các thầy cô trong trường Đại học Công nghệ thông tin và truyền thông – ĐH
Thái Nguyên đã giảng dạy em, giúp em có những kiến thức quý báu trong
những năm học qua.
Mặc dù đã cố gắng hết sức cùng với sự tận tâm của thầy giáo hướng dẫn
song do trình độ còn hạn chế nên luận văn của em khó tránh khỏi những thiếu
sót. Em rất mong nhận được sự thông cảm và góp ý của thầy cô và các bạn.
Thái Nguyên, tháng 06 năm 2014


Học viên

Nguyễn Thị Huệ


3

LỜI CAM ĐOAN
Em xin cam đoan toàn bộ nội dung bản luận văn này là do em tự sưu
tầm, tra cứu và sắp xếp cho phù hợp với nội dung yêu cầu của đề tài.
Tất cả các thử nghiệm của luận văn đều do em tự thiết kế và xây dựng,
thuật toán phân cụm Hierarchical clustering được viết bằng MATLAB và kết
quả thử nghiệm của thuật toán này được so sánh với kết quả thử nghiệm trên
cùng bộ dữ liệu được phân tích bằng thuật toán chuẩn của phần mềm phân
tích thống kê dữ liệu SPSS 20.0. Bảng dữ liệu về Tỉ suất chết của trẻ em dưới
1 tuổi, tỉ suất sinh thô và tổng tỉ suất sinh năm 2007 của các nước trên thế
giới là do em sưu tầm từ những nguồn tin cậy của một số tổ chức của liên hợp
quốc (Worldbank, UNFPA, UNDP) và từ đĩa DVD Microsoft Student with
Encara Prenium 2009. Nếu sai em xin hoàn toàn chịu trách nhiệm.
Thái Nguyên, tháng 06 năm 2014

Nguyễn Thị Huệ


4

MỤC LỤC
LỜI

CẢM


ƠN..................................................................................................................i
CAM

ĐOAN

.........................................................................................................iii

MỤC

LỤC

.....................................................................................................................iv
MỤC

LỜI

CÁC

DANH

BẢNG
MỤC

DANH

..........................................................................................vi
CÁC

HÌNH


VẼ

....................................................................................vii DANH MỤC CÁC TỪ
VIẾT

TẮT...........................................................................viii

MỞ

ĐẦU

.......................................................................................................................ix
CHƯƠNG 1: TỔNG QUAN VỀ PHÂN TÍCH THỐNG KÊ DỮ LIỆU
.................1

BÀI
TOÁN
PHÂN
LIỆU.....................................................................1
1.1

CỤM

DỮ

Tổng quan về phân tích thống kê dữ liệu. ............................................ 1

1.1.1 Giới thiệu về phân tích thống kê dữ
liệu.....................................................1

1.1.2 Các thống kê mô
tả.......................................................................................4
1.1.3 Phân bố lấy mẫu và suy luận quần thể từ các thống kê mẫu.
....................5
1.1.4 Các phương pháp ước lượng và tham số thống
kê.....................................7
1.1.5 Kiểm định giả thuyết thống kê.
.................................................................12
1.2 Bài toán phân tích cụm trong phân tích thống kê dữ liệu ...................... 16
1.2.1 Định nghĩa về phân cụm dữ liệu
...............................................................16


5

1.2.2 Một số cách tiếp cận trong phân cụm dữ liệu thống kê
...........................17
CHƯƠNG
..................................................................................................................20
MỘT
SỐ
KỸ
THUẬT
.......................................................20

PHÂN

CỤM

DỮ


2
LIỆU

2.1 Thuật toán phân cụm dữ liệu dựa vào phân cụm phân hoạch. .............. 20
2.1.1 Thuật toán K – means
................................................................................20
2.1.2 Thuật toán
PAM.........................................................................................24
2.1.3 Thuật toán
CLARA....................................................................................26
2.2 Thuật toán phân cụm dữ liệu dựa vào mật độ........................................ 27


6

2.2.1 Thuật toán
DBSCAN.................................................................................27
2.2.3 Thuật toán DENCLUDE
...........................................................................34
2.3 Thuật toán phân cum dữ liệu dựa vào phân cụm phân cấp .................. 36
2.3.1 Thuật toán BIRCH
.....................................................................................36
2.3.2 Thuật toán Hierarchical clustering
............................................................39
CHƯƠNG 3 ..................................................................................................................43
ỨNG DỤNG PHÂN TÍCH CỤM TRONG NHÂN KHẨU HỌC
.........................43
3.1 Xác định bài toán ................................................................................... 43
3.2 Phân tích và lựa chọn công cụ phân cụm............................................... 48

3.2.1 Các chức năng chính của chương trình phân cụm bằng
MATLAB......48
3.2.2 Mã nguồn chương trình
(Matlab)..............................................................51
3.3. Thực hiện phân tích cụm bằng phân tích thống kê dữ liệu................... 53
3.3.1 Phương pháp phân tích
..............................................................................53
3.3.2 Các bước tiến hành phân cụm các quốc gia theo các chỉ số nhân
khẩu học

54

3.4 Phân tích ý nghĩa của các cụm quốc gia theo ba chỉ số phân cụm ........ 63
KẾT LUẬN ..................................................................................................................69
TÀI LIỆU THAM
KHẢO...........................................................................................70


7

DANH MỤC CÁC BẢNG
Bảng 3.1 Bảng chỉ số nhân khẩu học của quốc gia
...................................................48
Bảng 3.2: Các thông kê mô tả của các biến phân
cụm...............................................54
Bảng 3.3: Bảng hệ số tương quan giữa các biến
........................................................55
Bảng 3.4 Bảng phân cụm sơ bộ theo 3 phương
án.....................................................62
Bảng 3.5 Bảng các chỉ số thống kê theo phương án 6 cụm

......................................63
Bảng 3.6 bảng các chỉ số thống kê theo phương án 5
cụm.......................................65
Bảng 3.7 Bảng các chỉ số thống kê theo phương án 4 cụm
......................................66


vii

DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Mô hình quá trình nghiên cứu thống kê
.......................................................3
Hình 2.1: Các thiết lập để xác định danh giới các cụm ban
đầu................................20
Hình 2.2: Tính toán trọng tâm của các cụm mới
........................................................21
Hình 2.3: Ví dụ hình dạng phân cụm bằng Kmeans.................................................23
Hình 2.4: Cây CF sử dụng trong
BIRCH....................................................................37
Hình 2.5: Khoảng cách liên kết đơn
............................................................................40
Hình 2.6: Phương pháp khoảng cách liên kết hoàn
toàn............................................40
Hình 2.7: Phương pháp khoảng cách liên kết trung
bình...........................................41
Hình: 2.8 Phương pháp phân tích cụm dựa vào phương
sai......................................41
Hình 2.9: Phương pháp phân tích cụm dựa vào khoảng cách trung tâm
..................42
Hình 2.10: Sơ đồ thuật toán

.........................................................................................42
Hình 3.1 Các chỉ số nhân khẩu học của các cụm với phương án k=4
.....................49
Hình 3.2: Các chỉ số nhân khẩu học của các cụm với phương án k=5
....................50
Hình 3.3: Các chỉ số nhân khẩu học của các cụm với phương án k=6
....................50
Hình 3.4: Hộp thoại thực hiện Descriptive Statistics
.................................................54
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

Hình 3.5: Hộp thoại thực hiện thủ tục Corelations
.....................................................55
Hình 3.6: Hộp thoại phân tích cụm
.............................................................................56

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

8

DANH MỤC CÁC TỪ VIẾT TẮT
STT

Tên viết
tắt


Tên tiếng Anh

Định nghĩa
Tỉ suất chết của

1

IMR

Infant Mortality Rate

trẻ em dưới 1 tuổi
(‰)

2

BR

Crude Birth Rate

Tỉ suất sinh thô
(‰)
Số con trung bình
sinh ra sống của

3

TFR

Total Fertility Rate


một người phụ nữ
trong suốt thời
gian sinh sản

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

9

MỞ ĐẦU
1. Lý do chọn đề tài
Ngày nay, chúng ta thường phải xử lý những tập dữ liệu lớn bao gồm
rất nhiều các quan sát, các đối tượng. Để hiểu rõ về cấu trúc của các tập dữ
liệu này, người ta thường tiến hành hai kiểu phân tích. Kiểu thứ nhất là phân
lớp các đối tượng dữ liệu theo một thuộc tính phân lớp nào đó. Kỹ thuật này
bao gồm hai bước. Bước thứ nhất là xây dựng mô hình dựa vào một tập dữ
liệu mẫu được phân chia theo một thuộc tính lớp. Bước thứ hai là phân lớp
các đối tượng dữ liệu theo mô hình đã xây dựng ở bước một. Kiểu này được
gọi là học có giám sát tức là phải có mẫu trước. Kiểu thứ hai là phân cụm.
Phân cụm là kỹ thuật phân chia một tập lớn các đối tượng thành các cụm khác
nhau theo một số thuộc tính nào đó sao cho các đối tượng trong cùng một
cụm là tương đồng với nhau theo các thuộc tính này và các cụm khác nhau là
hoàn toàn khác biệt với nhau cùng trên các thuộc tính đã cho. Nói cách khác,
mục tiêu của phân cụm là phân chia các quan sát thành các nhóm đồng nhất
và khác biệt.
Không giống như phân loại dữ liệu, phân cụm không đòi hỏi phải định
nghĩa trước các mẫu dữ liệu huấn luyện. Vì vậy, thông thường cần có một
chuyên gia về lĩnh vực đó để đánh giá các cụm thu được. Phân cụm dữ liệu

được sử dụng nhiều trong các ứng dụng về phân cụm các quốc gia, các vùng
lãnh thổ theo một số tiêu chí về nhân khẩu học, về phát triển kinh tế và xã hội,
hoặc phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, …Cho
đến hiện nay, phân tích cụm đã được sử dụng nhiều trong phân tích thống kê
và đang được áp dụng rộng rãi trong khai phá dữ liệu. Những nghiên cứu tiếp
theo về kỹ thuật này là rất cần thiết và hứa hẹn nhiều triển vọng.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

Do đặc thù của kỹ thuật phân cụm và do khả năng ứng dụng rất phong
phú của kỹ thuật này nên em đã chọn nghiên cứu đề tài Một số kỹ thuật phân
cụm dữ liệu và ứng dụng làm luận văn tốt nghiệp cao học.
2. Mục tiêu của đề tài
Nghiên cứu các kỹ thuật phân cụm dữ liệu trong phân tích thống kê dữ
liệu cũng như trong khai phá dữ liệu và thử nghiệm phân tích cụm trong nhân
khẩu học.
3. Đối tượng và phạm vi nghiên cứu
- Nghiên cứu một số kỹ thuật phân cụm trong phân tích thống kê dữ
liệu và trong khai phá dữ liệu.
- Phân tích thống kê dữ liệu.
- Khai phá dữ liệu.
- Điều tra nhân khẩu học
4. Phương pháp nghiên cứu
- Tìm hiểu, thu thập các tài liệu có liên quan.
- Nghiên cứu các phương pháp phân cụm trong phân tích thống kê dữ
liệu, trong khai phá dữ liệu và cài đặt thuật toán phân cụm Hieararchical
Clustering.
5. Ý nghĩa khoa học của đề tài.

- Phân tích cụm là một kỹ thuật có phạm vi ứng dụng rất rộng, đặc biệt
là trong lĩnh vực phân tích điều tra xã hội học và khai phá dữ liệu. Phân tích
và đánh giá các kỹ thuật phân cụm khác nhau là một vấn đề cần thiết trong
việc chọn lựa một kỹ thuật thích hợp với mỗi kiểu ứng dụng.
- Đề tài của luận văn nhằm mục đích nghiên cứu đánh giá so sánh kỹ
thuật phân cụm đã được cài đặt trong bộ chương trình phân tích thống kê
SPSS và kỹ thuật phân cụm áp dụng trong khai phá dữ liệu. Qua đó có thể sẽ
rút ra được những kết luận về hiệu quả của hai kiểu phân tích cụm này.


6. Nội dung chính của luận văn
Chương 1. Tổng quan về phân tích thống kê dữ liệu và bài toán phân cụm dữ
liệu.
1.1 Tổng quan về phân tích thống kê dữ liệu
1.2 Bài toán phân cụm trong thống kê dữ liệu
Chương 2: Các kỹ thuật phân cụm dữ liệu
2.1 Thuật toán phân cụm dữ liệu dựa vào cụm trung tâm
2.2 Thuật toán phân cụm dữ liệu dựa vào mật độ
2.3Thuật toán phân cụm dữ liệu dựa vào phân cụm phân cấp
Chương 3. Ứng dụng phân cụm trong nhân khẩu học
3.1 Xác định bài toán phân tích cụm
3.2 Xây dựng chương trình phân cụm dữ liệu với thuật toán
Hierarchical clustering bằng MATLAB.
3.3 Phân tích cụm bằng SPSS
7. Các kết quả dự kiến
- Cài đặt thuật toán phân cụm Hierarchical clustering và thử nghiệm
phân cụm các quốc gia trên thế giới thành 6 cụm theo 3 chỉ số nhân khẩu học
gồm tỉ suất chết của trẻ em dưới 1 tuổi, tỉ suất sinh thô và tổng tỉ suất sinh
- Xây dựng một qui trình phân tích cụm bằng bộ chương trình phân tích
thống kê SPSS.

- Tiến hành thử nghiệm sử dụng SPSS để phân cụm dữ liệu đã thử
nghiệm bằng thuật toán phân cụm Hieararchical clustering nói trên.
- So sánh các kết quả của hai thử nghiệm và rút ra kết luận về hai
phương pháp này.


1

CHƯƠNG 1
TỔNG QUAN VỀ PHÂN TÍCH THỐNG KÊ DỮ LIỆU
VÀ BÀI TOÁN PHÂN CỤM DỮ LIỆU
1.1 Tổng quan về phân tích thống kê dữ liệu.
1.1.1 Giới thiệu về phân tích thống kê dữ liệu.
1.1.1.1 Khái niệm thống kê
Thống kê là một hệ thống các phương pháp bao gồm thu thập, tổng
hợp, trình bày số liệu, tính toán các đặc trưng của đối tượng nghiên cứu nhằm
phục vụ cho quá trình phân tích, dự đoán và ra quyết định.
Thống kê thường được chia thành 2 lĩnh vực:
- Thống kê mô tả: là các phương pháp có liên quan đến việc thu thập số
liệu, tóm tắt, trình bày, tính toán và mô tả các đặc trưng khác nhau để phản
ánh một cách tổng quát đối tượng nghiên cứu.
- Thống kê suy luận: là bao gồm các phương pháp ước lượng các đặc
trưng của tổng thể, phân tích mối liên hệ giữa các hiện tượng nghiên cứu, dự
đoán hoặc ra quyết định trên cơ sở thông tin thu thập từ kết quả quan sát mẫu.
1.1.1.2 Phân tích thống kê
Phân tích thống kê là toàn bộ quá trình của việc tổ chức, xử lý, tổng
hợp và rút ra kết luận từ dữ liệu. Trong phân tích thống kê, các phương pháp
mô tả và các phương pháp suy luận được kết hợp với nhau. Các vấn đề nghiên
cứu sẽ chỉ dẫn ra phải thực hiện kiểu suy luận nào, mỗi kiểu suy luận lại chỉ ra
việc dữ liệu cần phải được tổng hợp ra sao để rút ra các thông tin thích hợp.

Thống kê đã đóng góp vai trò trung tâm ngày càng tăng trong nhân
khẩu học.
1.1.1.3 Một số khái niệm thường dùng của thống kê
Tổng thể thống kê, đơn vị tổng thể thống kê
Tổng thể thống kê là tập hợp các đơn vị (hay phần tử) thuộc hiện tượng
nghiên cứu, cần quan sát, thu thập và phân tích về mặt lượng của chúng theo
một hay một số tiêu thức nào đó. Các đơn vị (hay phần tử) cấu thành tổng thể
thống kê gọi là đơn vị tổng thể.


2

Như vậy thực chất của việc xác định tổng thể thống kê là việc xác định
các đơn vị tổng thể. Đơn vị tổng thể là xuất phát điểm của quá trình nghiên
cứu thống kê vì nó chứa đựng những thông tin ban đầu cho qúa trình nghiên
cứu.
Tổng thể đồng chất: Là tổng thể bao gồm các đơn vị giống nhau hay
một số đặc điểm chủ yếu có liên quan trực tiếp đến mục đích nghiên cứu.
Các loại tổng thể
- Tổng thể bộ phận: Bao gồm một số đơn vị thuộc phạm vi hiện tượng
nghiên cứu đã xác định.
- Tổng thể đồng chất: Bao gồm các đơn vị giống nhau ở một số đặc
điểm chủ yếu có liên quan mục đích nghiên cứu.
- Tổng thể không đồng chất: Bao gồm các đơn vị không giống nhau ở
một số đặc điểm chủ yếu có liên quan mục đích nghiên cứu.
- Tổng thể bộc lộ: Bao gồm các đơn vị mà trực tiếp quan sát, nhận biết
được.
- Tổng thể tiềm ẩn: Bao gồm các đơn vị mà không trực tiếp quan sát,
nhận biết được.
Tiêu thức thống kê

Nghiên cứu thống kê phải dựa vào những đặc điểm của đơn vị tổng thể.
Đơn vị tổng thể có nhiều đặc điểm, tuỳ theo mục đích nghiên cứu một số đặc
điểm được chọn ra để nghiên cứu.
Tiêu thức thống kê được phân làm hai loại:
Tiêu thức thuộc tính: là tiêu thức phản ánh tính chất hay loại hình của
đơn vị tổng thể, không có biểu hiện trực tiếp bằng con số.
Tiêu thức số lượng: là tiêu thức có biểu hiện trực tiếp bằng con số.
Chỉ tiêu thống kê
Chỉ tiêu thống kê là các trị số phản ánh các đặc điểm, tính chất cơ bản
của tổng thể thống kê trong điều kiện thời gian và không gian xác định.
Chỉ tiêu thống kê được chia làm hai loại:
Chỉ tiêu khối lượng: Các chỉ tiêu biểu hiện quy mô, khối lượng của
tổng thể nghiên cứu, số nhân khẩu, số doanh nghiệp, số vốn, vốn lưu động…


Chỉ tiêu chất lượng: là chỉ tiêu biểu hiện tính chất trình độ phổ biến,
quan hệ so sánh của hiện tượng nghiên cứu, như giá thành.
1.1.1.4 Khái quát quá trình nghiên cứu thống kê
Quá trình nghiên cứu thống kê hay bất kỳ quá trình nghiên cứu nào,
cũng đều trải qua các bước, được khái quát bằng mô hình sau:
Xác định vấn đề nghiên cứu, mục đích, nội dung,
đối tượng nghiên cứu.
Xây dựng hệ thống các khái niệm chỉ tiêu thống

Điều tra thống kê

-

Xử lý số liệu:
Tập hơp, sắp xếp số liệu

Chọn các phần mềm xử lý số liệu
Phân tích thống kê sơ bộ
Lựa chọn các phương pháp phân tích
thống kê thích hợp

Phân tích và giải thích kết quả
Dự đoán xu hướng phát triển

Báo cáo và truyền đạt kết quả nghiên cứu

Hình 1.1: Mô hình quá trình nghiên cứu thống kê


1.1.2 Các thống kê mô tả
Nghiên cứu mô tả là loại hình nghiên cứu mà nhà nghiên cứu tiến hành,
thực hiện nhằm xác định rõ bản chất các sự vật và hiện tượng trong những
điều kiện đặc thù về không gian cũng như thời gian. Nghiên cứu mô tả thông
thường bao gồm việc thu thập và trình bày số liệu một cách có hệ thống nhằm
đưa ra một bức tranh rõ nét, đầy đủ về một tình hình, vấn đề sức khoẻ cụ thể.
Mô tả một hiện tượng chính xác mới hình thành được giả thuyết nhân - quả
đúng, mới đề xuất được các biện pháp phòng ngừa có hiệu quả.
1.1.2.1 Mục tiêu của các nghiên cứu mô tả
Nghiên cứu mô tả cần phải đáp ứng ít nhất 2 mục tiêu sau đây:
- Mô tả được một hiện tượng và các yếu tố nguy cơ có liên quan đến
hiện tượng đó.
- Phác thảo được giả thuyết nhân quả giữa các yếu tố nguy cơ và hiện
tượng nghiên cứu.
1.1.2.2 Những nội dung chính của các nghiên cứu mô tả
Nội dung cơ bản của nghiên cứu mô tả là xác định được thực trạng các
yếu tố con người và các yếu tố không gian, thời gian cụ thể ở một thời điểm

nhất định.
Yếu tố nguy cơ, căn nguyên
Yếu tố nguy cơ ở đây được hiểu một cách rộng rãi đó là tất cả những
yếu tố nào thuộc về bản chất như: yếu tố vật lý, hoá học, sinh lý, tâm lý, di
truyền, khí tượng, các yếu tố kinh tế văn hoá xã hội... mà sự tác động của
chúng có thể tạo nên cho cơ thể con người những thay đổi có lợi hoặc đặc biệt
là không có lợi về sức khoẻ con người.
Hậu quả
Hầu hết các vấn đề sức khoẻ đều có liên quan đến mối quan hệ nhân
quả. Để tìm hiểu ta phải nghiên cứu thật đầy đủ về nguyên nhân mới mong


5

xác định được hậu quả có thể của tình trạng phơi nhiễm. Trong mối quan hệ
nhân quả, thì hậu quả là tất cả mọi bệnh trạng mà ta quan tâm nghiên cứu, bao
gồm các bệnh, khuyết tật và những trạng thái không bình thường của sức
khoẻ. Nếu ta tiến hành nghiên cứu với 2 mục tiêu trên thì mối quan hệ nhân
quả mới có thể xác lập được.
Xác định quần thể nghiên cứu
Quần thể nghiên cứu được xác định phụ thuộc mục đích và khả năng
nghiên cứu. Thông thường người ta chỉ tiến hành nghiên cứu trên một mẫu
nghiên cứu mà mẫu đó được xác định dựa trên một quần thể nhỏ nhất song
vẫn đáp ứng được mục tiêu nghiên cứu. Các quần thể được chọn thường là
quần thể phơi nhiễm, quần thể có nguy cơ, quần thể có nguy cơ cao.
Mô tả yếu tố nguy cơ
Yếu tố có nguy cơ là yếu tố có liên quan hay làm tăng khả năng mắc
một bệnh nào đó, có thể là hành vi, lối sống, các yếu tố môi trường, các tác
nhân lý, hoá, sinh học gây bệnh... Mô tả rõ ràng các yếu tố nguy cơ của hiện
tượng sức khoẻ, mới có cơ sở để phân tích rõ ràng và đầy đủ các yếu tố liên

quan với chúng, không bỏ sót và như vậy mới đạt được mục tiêu của công
việc mô tả đặc biệt là mô tả tương quan. Nếu thấy mô tả tương quan không
chắc chắn thì có thể phải thay đổi bằng các phương pháp khác như mô tả so
sánh nhiều nhóm hoặc nghiên cứu bệnh chứng... ta sẽ xác định được các yếu
tố nguy cơ.
1.1.3 Phân bố lấy mẫu và suy luận quần thể từ các thống kê mẫu.
1.1.3.1 Lấy một mẫu ngẫu nhiên
Một trong các cách để thảo mãn yêu cầu lấy một mẫu ngẫu nhiên là
chọn mẫu theo một phương pháp sao cho mọi mẫu khác nhau với cùng một cỡ
n đều có xác suất để được chọn là như nhau. Thủ tục này được gọi là lấy mẫu


6

ngẫu nhiên và mẫu được chọn theo cách này được gọi là mẫu ngẫu nhiên với
cỡ n.
Một mẫu ngẫu nhiên gồm n đơn vị quan sát là một mẫu được lựa chọn
theo một cách nào đó sao cho mọi mẫu khác nhau với cỡ n đều có xác suất
được chọn bằng nhau.
Ví dụ
Một đại lý bán hàng có thể nhận các hàng hóa văn phòng phẩm từ tám
công ty cung cấp. Nếu đại lý này quyết định sử dụng hàng hoá của ba nhà
cung cấp trong một năm nào đó và để tránh thiên vị trong lựa chọn, một mẫu
gồm ba nhà cung cấp sẽ được chọn từ tám công ty.
a. Có bao nhiêu mẫu gồm ba nhà cung cấp khác nhau có thể được chọn từ
tám công ty?
b. Hãy liệt kê các mẫu này.
c. Đặt ra tiêu chuẩn cần phải thảo mãn để đảm bảo mẫu được chọn là hoàn
toàn ngẫu nhiên.
Lời giải

a. Trong ví dụ này, quần thể được xét là tám nhà cung cấp (ta ký hiệu là A,

B, C, D, E, F, G, H), từ quần thể này, chúng ta muốn chọn một mẫu với cỡ
n = 3 phần tử. Số các mẫu khác nhau với cỡ n = 3 có thể chọn được từ một
quần thể gồm N = 8 phần tử là
N

Cn

N!
n! (N n)!

8 * 7 * 6 * 5 * 4 * 3* 2 * 1
8!
56
3! 5! (3* 2 * 1) (5 * 4 * 2 * 1)


b. Sau đây là danh sách của 56 mẫu:

A, B, C

A, C, F

A, E, G

B, C, G

B, E, H


C, E, F

D, E, H

A, B, D

A, C, G

A, E, H

B, C, H

B, F, G

C, E, G

D, F, G

A, B, E

A, C, H

A, F, G

B, D, E

B, F, H

C, E, H


D, F, H

A, B, F

A, D, E

A, F, H

B, D, F

B, G, H

C, F, G

D, G, H

A, B, G

A, D, F

A, G, H B, D, G

C, D, E

C, F, H

E, F, G

A, B, H


A, D, G B, C, D

B, D, H

C, D, F

C, G, H

E, F, H

A, C, D

A, D, H B, C, E

B, E, F

C, D, G

D, E, F

E, G, H

A, C, E

A, E, F

B, E, G

C, D, H


D, E, G

B, C, F

F, G, H

c. Mỗi mẫu phải có cùng một cơ hội được chọn để chúng ta có một mẫu ngẫu

nhiên. Vì có tất cả 56 mẫu với cỡ n = 3, nên mỗi mẫu phải có một xác suất
bằng 1/56 để được chọn bằng thủ tục ngẫu nhiên.
1.1.3.2 Phân bố lấy mẫu
Một độ đo mô tả bằng số của một quần thể được gọi là một tham số.
Một đại lượng được tính từ các quan sát của một mẫu ngẫu nhiên được
gọi là một thống kê.
Một phân bố lấy mẫu (sampling distribution) của một thống kê (dựa
trên n quan sát) là phân bố tần xuất tương đối của các giá trị của thống kê này
được sinh ra theo lý thuyết bằng cách rút lặp đi lặp lại nhiều lần các mẫu ngẫu
nhiên cỡ n và tính giá trị của thống kê này đối với từng mẫu.
1.1.4 Các phương pháp ước lượng và tham số thống kê
1.1.4.1. Khái niệm
Trong thống kê, một ước lượng là một giá trị được tính toán từ một
mẫu thử và người ta hy vọng đó là giá trị tiêu biểu cho giá trị cần xác định
trong dân số. Khi nghiên cứu điều tra chọn mẫu, qua mẫu đó người ta nghiên
cứu để tính quy luật và trạng thái của tổng thể chung chứa nó, tức là dựa vào


trung bình, phương sai, tỷ lệ của mẫu để suy ra trung bình, phương sai, tỷ lệ
của tổng thể chung chưa biết.
1.1.4.2 Ước lượng một trung bình quần thể
Trường hợp mẫu lớn

Thuật ngữ mẫu lớn dùng để chỉ các mẫu có cỡ đủ lớn để có thế áp
dụng định lý giới hạn trung tâm như sau:
Nếu cỡ mẫu đủ lớn thì trung bình

của một mẫu được rút ngẫu nhiên

từ một quần thể có một phân bố lấy mẫu xấp xỉ dạng chuẩn cho dù phân bố
tần suất tương đối của quần thể ở dạng nào. Khi cỡ mẫu tăng thì phân bố lấy
mẫu càng gần với dạng chuẩn hơn.
Tính chất của phân bố lấy mẫu

: Nếu

là trung bình của một

mẫu ngẫu nhiên cỡ n được rút ra từ một quần thể có trung bình
chuẩn , thì: Phân bố lấy mẫu của

có trung bình bằng trung bình của quần

thể mà từ đó mẫu được rút. Tức là, nếu chúng ta gọi
bố lấy mẫu của

Thì

và độ lệch

là trung bình của phân

= .


Phân bố lấy mẫu của

có độ lệch chuẩn bằng độ lệch chuẩn của quần

thể mà từ đố mẫu rút chia cho căn bậc hai của cỡ mẫu. Tứclà, nếu chúng ta ký
hiệu

là độ lệch chuẩn của phân bố lấy mẫu của thì
Cỡ mẫu sẽ xác định hình dáng của phân bố lấy mẫu . Nếu cỡ đủ lớn

thì phân bố lấy mẫu sẽ có dạng gần chuẩn. Một khoảng tin cậy cho một tham
số là một khoảng mà chúng ta mong muốn giá trị đúng của tham số quần thể
sẽ được chứa trong đó. Các điểm nút của khoảng này sẽ được tính trên cơ sở
các thông tin của mẫu.


Chú ý rằng, trong thực tế chúng ta thường không biết giá trị đúng của
và cũng không lặp đi lặp lại nhiều lần việc lấy mẫu mà chúng ta chỉ cần chọn
một mẫu và xây dựng khoảng tin cậy 95% dựa trên mẫu đã chọn.


9

Hệ số tin cậy là tỷ lệ số lần một khoảng tin cậy chứa giá trị đúng của
tham số quần thể khi thủ tục xây dựng khoảng tin cậy được lặp đi lặp lại
nhiều lần.
Khoảng tin cậy (1- ) 100% với mẫu lớn cho trung bình quần thể

Trong đó


là.

là giá trị z xác định một miền đuôi phải có diện tích

độ lệch chuẩn của quần thể được rút mẫu, n là cỡ của mẫu và
trung bình mẫu. giả thiết n

,



là giá trị của

30. Mối quan hệ giữa độ rộng của khoảng tin

cậy và hệ số tin cậy
Đối với một cỡ mấu đã cho thì độ rộng của khoảng tin cậy cho một
tham số nào đó của quẩn thể sẽ tăng lên khi hệ số tin cậy tăng. Cụ thể hơn là,
khoảng tin cậy phải trở nên rộng hơn để chúng ta có thể tin tưởng nhiều hơn
rằng nó sẽ chứa giá trị đúng của tham số quần thể.
Quan hệ giữa độ rộng của khoảng tin cậy và cỡ mẫu.
Đối với một hệ số tin cậy cố định thì độ rộng của khoảng tin cậy sẽ
giảm đi khi cỡ mẫu tăng lên. Tức là, các mẫu lớn hơn cung cấp nhiều thông
tin hơn về quần thể so với các quần thể nhỏ hơn.
Trường hợp mẫu nhỏ.
Với các mẫu nhỏ cần phải lưu ý đến 2 vấn đề sau:
Vì định lý giới hạn trung tâm chỉ có thể áp dụng được cho các mẫu lớn,
nên chúng ta không thể giả thiết rằng phân bố lấy mẫu của là
chuẩn. Đối với mẫu nhỏ, phân bố lấy mẫu của


xấp xỉ dạng

phụ thuộc vào hình dạng của

phân bố tấn suất trương đối của quần thể được rút mẫu.
Độ lệch chuẩn của mẫu
quần thể khi cơ mẫu bé.

có thể không xấp xỉ thoả đáng độ lệch chuẩn


10

1.1.4.3 Ước lượng tỷ lệ của một quần thể
Trong mục này chúng ta sẽ nghiên cứu phương pháp ước lượng tỷ lệ
nhị thức, tức là tỷ lệ các phần tử của một quần thể có một đặc tính nào đó. Ví
dụ, một nhà nhân khẩu học có thể sẽ quan tâm đến tỷ lệ của số phụ nữ có
chồng; một bác sỹ có thể quan tâm đến tỷ lệ của số người mắc bệnh lao trong
một thành phố. Vấn đề của chúng ta là làm thế nào để ước lượng được một tỷ
lệ nhị thức p dựa trên các thông tin có được từ một mẫu được rút ra từ một
quần thể .
Phân bố lấy mẫu của pˆ
Đối với các mẫu đủ lớn thì phân bố lấy mẫu của pˆ có dạng xấp xỉ dạng
chuẩn với Trung bình là:
Và độ lệch chuẩn là :

=p

=


trong đó q = 1-p

Một khoảng tin cậy cho p dựa trên mẫu lớn có thể được xây dựng bằng một
thủ tục tương tự như thủ tục đã sử dụng để ước lượng một trung bình quần
thể.
Khoảng tin cậy mẫu lớn (1- ) 100% cho một tỷ lệ quần thể p là

Trong đó

là tỷ lệ mẫu của các quan sát với đặc tính cần nghiên cứu và

Chú ý rằng, chúng ta phải thay



vào công thức của

để xây

dựng khoảng tin cậy. Việc xấp xỉ này sẽ hợp lý chừng nào cỡ mẫu n đủ lớn.
1.1.4.4 Ước lượng sự khác nhau giữa hai trung bình quần thể
Trong trường hợp ước lượng một trung bình quần thể với mẫu lớn
chúng ta đã biết cách ước lượng tham số

dựa trên một mẫu lớn được rút từ

một quần thể. Trong mục này, chugns ta sẽ nghiên cứu một kỹ thuật sử dụng



11

thông tin trong hai mẫu khác nhau để ước lượng sự khác nhau giữa hai trung
bình quần thể. Phân bố lấy mẫu của (

)

Đối với các cỡ mẫu đủ lớn (
(

, thì phân bố lấy mẫu của

) dựa trên các mẫu ngẫu nhiên độc lập được rút từ hai quần thể sẽ có

dạng xấp xỉ chuẩn với
Trung bình là:

=

Độ lệch chuẩn là:

=

Giống như khi ước lượng mẫu lớn cho trung bình của một quần thể, giả thiết
về mẫu lớn cho phép chúng ta có thể áp dụng định lý giới hạn trung tâm để
thu được phân bố lấy mẫu của (
dụng




) ; đồng thời nó cũng cho phép sử

như các xấp xỉ của các phương sai quần thể

Thủ tục để tạo ra một khoảng tin cậy mẫu lớn cho (


) được cho sau

đây
Khoảng tin cậy (1- ) 100% mẫu lớn cho (
(

)

=(

)

)

(lưu ý: Chúng ta phải sử dụng các phương sai mẫu

(



)

để thay thế gần


đúng cho các tham số quần thể tương ứng). Các giả thiết mà thủ tục trên đây
đã dựa vào để tính khoảng tin cậy là.
Các giả thiết cần phải có đối với ước lượng dựa trên mẫu lớn của (

-

)


×