Tải bản đầy đủ (.pdf) (81 trang)

Một số kỹ thuật phân cụm dữ liệu và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.38 MB, 81 trang )

i
...

ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

---------------------------------------

NGUYỄN THỊ HUỆ

MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU
VÀ ỨNG DỤNG

Chuyên ngành: Khoa học máy tính

Thái Nguyên - 2014

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

ii

LỜI CẢM ƠN
Em xin gửi lời cảm ơn chân thành nhất đến PGS.TS Bùi Thế Hồng,
ngƣời đã tận tình hƣớng dẫn, giúp đỡ em trong suốt thời gian thực hiện luận
văn này.
Em cảm ơn các thầy trong Viện Công Nghệ Thông Tin Hà Nội cùng
các thầy cô trong trƣờng Đại học Công nghệ thông tin và truyền thông – ĐH
Thái Nguyên đã giảng dạy em, giúp em có những kiến thức quý báu trong
những năm học qua.


Mặc dù đã cố gắng hết sức cùng với sự tận tâm của thầy giáo hƣớng dẫn
song do trình độ cịn hạn chế nên luận văn của em khó tránh khỏi những thiếu
sót. Em rất mong nhận đƣợc sự thơng cảm và góp ý của thầy cô và các bạn.
Thái Nguyên, tháng 06 năm 2014
Học viên

Nguyễn Thị Huệ

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

iii

LỜI CAM ĐOAN
Em xin cam đoan toàn bộ nội dung bản luận văn này là do em tự sƣu
tầm, tra cứu và sắp xếp cho phù hợp với nội dung yêu cầu của đề tài.
Tất cả các thử nghiệm của luận văn đều do em tự thiết kế và xây dựng,
thuật toán phân cụm Hierarchical clustering đƣợc viết bằng MATLAB và kết
quả thử nghiệm của thuật toán này đƣợc so sánh với kết quả thử nghiệm trên
cùng bộ dữ liệu đƣợc phân tích bằng thuật tốn chuẩn của phần mềm phân
tích thống kê dữ liệu SPSS 20.0. Bảng dữ liệu về Tỉ suất chết của trẻ em dưới
1 tuổi, tỉ suất sinh thô và tổng tỉ suất sinh năm 2007 của các nƣớc trên thế
giới là do em sƣu tầm từ những nguồn tin cậy của một số tổ chức của liên hợp
quốc (Worldbank, UNFPA, UNDP) và từ đĩa DVD Microsoft Student with
Encara Prenium 2009. Nếu sai em xin hoàn toàn chịu trách nhiệm.
Thái Nguyên, tháng 06 năm 2014

Nguyễn Thị Huệ


Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

iv

MỤC LỤC
LỜI CẢM ƠN.................................................................................................................. i
LỜI CAM ĐOAN .........................................................................................................iii
MỤC LỤC .....................................................................................................................iv
DANH MỤC CÁC BẢNG ..........................................................................................vi
DANH MỤC CÁC HÌNH VẼ ....................................................................................vii
DANH MỤC CÁC TỪ VIẾT TẮT...........................................................................viii
MỞ ĐẦU .......................................................................................................................ix
CHƢƠNG 1: TỔNG QUAN VỀ PHÂN TÍCH THỐNG KÊ DỮ LIỆU ................. 1
VÀ BÀI TỐN PHÂN CỤM DỮ LIỆU..................................................................... 1
1.1

Tổng quan về phân tích thống kê dữ liệu. ............................................ 1

1.1.1 Giới thiệu về phân tích thống kê dữ liệu. .................................................... 1
1.1.2 Các thống kê mô tả....................................................................................... 4
1.1.3 Phân bố lấy mẫu và suy luận quần thể từ các thống kê mẫu. .................... 5
1.1.4 Các phƣơng pháp ƣớc lƣợng và tham số thống kê..................................... 7
1.1.5 Kiểm định giả thuyết thống kê. .................................................................12
1.2 Bài tốn phân tích cụm trong phân tích thống kê dữ liệu ...................... 16
1.2.1 Định nghĩa về phân cụm dữ liệu ...............................................................16
1.2.2 Một số cách tiếp cận trong phân cụm dữ liệu thống kê ...........................17
CHƢƠNG 2 ..................................................................................................................20
MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU .......................................................20

2.1 Thuật toán phân cụm dữ liệu dựa vào phân cụm phân hoạch. .............. 20
2.1.1 Thuật toán K – means ................................................................................20
2.1.2 Thuật toán PAM .........................................................................................24
2.1.3 Thuật toán CLARA....................................................................................26
2.2 Thuật toán phân cụm dữ liệu dựa vào mật độ........................................ 27
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

v

2.2.1 Thuật toán DBSCAN .................................................................................27
2.2.3 Thuật toán DENCLUDE ...........................................................................34
2.3 Thuật toán phân cum dữ liệu dựa vào phân cụm phân cấp .................. 36
2.3.1 Thuật toán BIRCH .....................................................................................36
2.3.2 Thuật toán Hierarchical clustering ............................................................39
CHƢƠNG 3 ..................................................................................................................43
ỨNG DỤNG PHÂN TÍCH CỤM TRONG NHÂN KHẨU HỌC .........................43
3.1 Xác định bài toán ................................................................................... 43
3.2 Phân tích và lựa chọn cơng cụ phân cụm............................................... 48
3.2.1 Các chức năng chính của chƣơng trình phân cụm bằng MATLAB......48
3.2.2 Mã nguồn chƣơng trình (Matlab)..............................................................51
3.3. Thực hiện phân tích cụm bằng phân tích thống kê dữ liệu ................... 53
3.3.1 Phƣơng pháp phân tích ..............................................................................53
3.3.2 Các bƣớc tiến hành phân cụm các quốc gia theo các chỉ số nhân khẩu
học

54

3.4 Phân tích ý nghĩa của các cụm quốc gia theo ba chỉ số phân cụm ........ 63

KẾT LUẬN ..................................................................................................................69
TÀI LIỆU THAM KHẢO ...........................................................................................70

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

vi

DANH MỤC CÁC BẢNG
Bảng 3.1 Bảng chỉ số nhân khẩu học của quốc gia ...................................................48
Bảng 3.2: Các thông kê mô tả của các biến phân cụm...............................................54
Bảng 3.3: Bảng hệ số tƣơng quan giữa các biến ........................................................55
Bảng 3.4 Bảng phân cụm sơ bộ theo 3 phƣơng án.....................................................62
Bảng 3.5 Bảng các chỉ số thống kê theo phƣơng án 6 cụm ......................................63
Bảng 3.6 bảng các chỉ số thống kê theo phƣơng án 5 cụm.......................................65
Bảng 3.7 Bảng các chỉ số thống kê theo phƣơng án 4 cụm ......................................66

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

vii

DANH MỤC CÁC HÌNH VẼ

Hình 1.1: Mơ hình q trình nghiên cứu thống kê ....................................................... 3
Hình 2.1: Các thiết lập để xác định danh giới các cụm ban đầu................................20
Hình 2.2: Tính tốn trọng tâm của các cụm mới ........................................................21
Hình 2.3: Ví dụ hình dạng phân cụm bằng K-means.................................................23

Hình 2.4: Cây CF sử dụng trong BIRCH....................................................................37
Hình 2.5: Khoảng cách liên kết đơn ............................................................................40
Hình 2.6: Phƣơng pháp khoảng cách liên kết hồn tồn............................................40
Hình 2.7: Phƣơng pháp khoảng cách liên kết trung bình...........................................41
Hình: 2.8 Phƣơng pháp phân tích cụm dựa vào phƣơng sai......................................41
Hình 2.9: Phƣơng pháp phân tích cụm dựa vào khoảng cách trung tâm ..................42
Hình 2.10: Sơ đồ thuật tốn .........................................................................................42
Hình 3.1 Các chỉ số nhân khẩu học của các cụm với phƣơng án k=4 .....................49
Hình 3.2: Các chỉ số nhân khẩu học của các cụm với phƣơng án k=5 ....................50
Hình 3.3: Các chỉ số nhân khẩu học của các cụm với phƣơng án k=6 ....................50
Hình 3.4: Hộp thoại thực hiện Descriptive Statistics .................................................54
Hình 3.5: Hộp thoại thực hiện thủ tục Corelations .....................................................55
Hình 3.6: Hộp thoại phân tích cụm .............................................................................56

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

viii

DANH MỤC CÁC TỪ VIẾT TẮT
STT

Tên viết
tắt

Tên tiếng Anh

Định nghĩa
Tỉ suất chết của


1

IMR

Infant Mortality Rate

trẻ em dƣới 1 tuổi
(‰)

2

BR

Crude Birth Rate

Tỉ suất sinh thơ
(‰)
Số con trung bình
sinh ra sống của

3

TFR

Total Fertility Rate

một ngƣời phụ nữ
trong suốt thời
gian sinh sản


Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

ix

MỞ ĐẦU
1. Lý do chọn đề tài
Ngày nay, chúng ta thƣờng phải xử lý những tập dữ liệu lớn bao gồm
rất nhiều các quan sát, các đối tƣợng. Để hiểu rõ về cấu trúc của các tập dữ
liệu này, ngƣời ta thƣờng tiến hành hai kiểu phân tích. Kiểu thứ nhất là phân
lớp các đối tƣợng dữ liệu theo một thuộc tính phân lớp nào đó. Kỹ thuật này
bao gồm hai bƣớc. Bƣớc thứ nhất là xây dựng mơ hình dựa vào một tập dữ
liệu mẫu đƣợc phân chia theo một thuộc tính lớp. Bƣớc thứ hai là phân lớp
các đối tƣợng dữ liệu theo mơ hình đã xây dựng ở bƣớc một. Kiểu này đƣợc
gọi là học có giám sát tức là phải có mẫu trƣớc. Kiểu thứ hai là phân cụm.
Phân cụm là kỹ thuật phân chia một tập lớn các đối tƣợng thành các cụm khác
nhau theo một số thuộc tính nào đó sao cho các đối tƣợng trong cùng một
cụm là tƣơng đồng với nhau theo các thuộc tính này và các cụm khác nhau là
hồn tồn khác biệt với nhau cùng trên các thuộc tính đã cho. Nói cách khác,
mục tiêu của phân cụm là phân chia các quan sát thành các nhóm đồng nhất
và khác biệt.
Không giống nhƣ phân loại dữ liệu, phân cụm khơng địi hỏi phải định
nghĩa trƣớc các mẫu dữ liệu huấn luyện. Vì vậy, thơng thƣờng cần có một
chun gia về lĩnh vực đó để đánh giá các cụm thu đƣợc. Phân cụm dữ liệu
đƣợc sử dụng nhiều trong các ứng dụng về phân cụm các quốc gia, các vùng
lãnh thổ theo một số tiêu chí về nhân khẩu học, về phát triển kinh tế và xã hội,
hoặc phân đoạn thị trƣờng, phân đoạn khách hàng, nhận dạng mẫu, …Cho
đến hiện nay, phân tích cụm đã đƣợc sử dụng nhiều trong phân tích thống kê

và đang đƣợc áp dụng rộng rãi trong khai phá dữ liệu. Những nghiên cứu tiếp
theo về kỹ thuật này là rất cần thiết và hứa hẹn nhiều triển vọng.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

x

Do đặc thù của kỹ thuật phân cụm và do khả năng ứng dụng rất phong
phú của kỹ thuật này nên em đã chọn nghiên cứu đề tài Một số kỹ thuật phân
cụm dữ liệu và ứng dụng làm luận văn tốt nghiệp cao học.
2. Mục tiêu của đề tài
Nghiên cứu các kỹ thuật phân cụm dữ liệu trong phân tích thống kê dữ
liệu cũng nhƣ trong khai phá dữ liệu và thử nghiệm phân tích cụm trong nhân
khẩu học.
3. Đối tƣợng và phạm vi nghiên cứu
- Nghiên cứu một số kỹ thuật phân cụm trong phân tích thống kê dữ
liệu và trong khai phá dữ liệu.
- Phân tích thống kê dữ liệu.
- Khai phá dữ liệu.
- Điều tra nhân khẩu học
4. Phƣơng pháp nghiên cứu
- Tìm hiểu, thu thập các tài liệu có liên quan.
- Nghiên cứu các phƣơng pháp phân cụm trong phân tích thống kê dữ
liệu, trong khai phá dữ liệu và cài đặt thuật toán phân cụm Hieararchical
Clustering.
5. Ý nghĩa khoa học của đề tài.
- Phân tích cụm là một kỹ thuật có phạm vi ứng dụng rất rộng, đặc biệt
là trong lĩnh vực phân tích điều tra xã hội học và khai phá dữ liệu. Phân tích

và đánh giá các kỹ thuật phân cụm khác nhau là một vấn đề cần thiết trong
việc chọn lựa một kỹ thuật thích hợp với mỗi kiểu ứng dụng.
- Đề tài của luận văn nhằm mục đích nghiên cứu đánh giá so sánh kỹ
thuật phân cụm đã đƣợc cài đặt trong bộ chƣơng trình phân tích thống kê
SPSS và kỹ thuật phân cụm áp dụng trong khai phá dữ liệu. Qua đó có thể sẽ
rút ra đƣợc những kết luận về hiệu quả của hai kiểu phân tích cụm này.
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

xi

6. Nội dung chính của luận văn
Chƣơng 1. Tổng quan về phân tích thống kê dữ liệu và bài tốn phân cụm dữ
liệu.
1.1 Tổng quan về phân tích thống kê dữ liệu
1.2 Bài toán phân cụm trong thống kê dữ liệu
Chƣơng 2: Các kỹ thuật phân cụm dữ liệu
2.1 Thuật toán phân cụm dữ liệu dựa vào cụm trung tâm
2.2 Thuật toán phân cụm dữ liệu dựa vào mật độ
2.3Thuật toán phân cụm dữ liệu dựa vào phân cụm phân cấp
Chƣơng 3. Ứng dụng phân cụm trong nhân khẩu học
3.1 Xác định bài tốn phân tích cụm
3.2 Xây dựng chƣơng trình phân cụm dữ liệu với thuật tốn
Hierarchical clustering bằng MATLAB.
3.3 Phân tích cụm bằng SPSS
7. Các kết quả dự kiến
- Cài đặt thuật toán phân cụm Hierarchical clustering và thử nghiệm
phân cụm các quốc gia trên thế giới thành 6 cụm theo 3 chỉ số nhân khẩu học
gồm tỉ suất chết của trẻ em dƣới 1 tuổi, tỉ suất sinh thô và tổng tỉ suất sinh

- Xây dựng một qui trình phân tích cụm bằng bộ chƣơng trình phân tích
thống kê SPSS.
- Tiến hành thử nghiệm sử dụng SPSS để phân cụm dữ liệu đã thử
nghiệm bằng thuật toán phân cụm Hieararchical clustering nói trên.
- So sánh các kết quả của hai thử nghiệm và rút ra kết luận về hai
phƣơng pháp này.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

1

CHƢƠNG 1
TỔNG QUAN VỀ PHÂN TÍCH THỐNG KÊ DỮ LIỆU
VÀ BÀI TOÁN PHÂN CỤM DỮ LIỆU
1.1 Tổng quan về phân tích thống kê dữ liệu.
1.1.1 Giới thiệu về phân tích thống kê dữ liệu.
1.1.1.1 Khái niệm thống kê
Thống kê là một hệ thống các phƣơng pháp bao gồm thu thập, tổng
hợp, trình bày số liệu, tính tốn các đặc trƣng của đối tƣợng nghiên cứu nhằm
phục vụ cho quá trình phân tích, dự đốn và ra quyết định.
Thống kê thƣờng đƣợc chia thành 2 lĩnh vực:
- Thống kê mô tả: là các phƣơng pháp có liên quan đến việc thu thập số
liệu, tóm tắt, trình bày, tính tốn và mơ tả các đặc trƣng khác nhau để phản
ánh một cách tổng quát đối tƣợng nghiên cứu.
- Thống kê suy luận: là bao gồm các phƣơng pháp ƣớc lƣợng các đặc
trƣng của tổng thể, phân tích mối liên hệ giữa các hiện tƣợng nghiên cứu, dự
đoán hoặc ra quyết định trên cơ sở thông tin thu thập từ kết quả quan sát mẫu.
1.1.1.2 Phân tích thống kê

Phân tích thống kê là tồn bộ q trình của việc tổ chức, xử lý, tổng
hợp và rút ra kết luận từ dữ liệu. Trong phân tích thống kê, các phƣơng pháp
mơ tả và các phƣơng pháp suy luận đƣợc kết hợp với nhau. Các vấn đề nghiên
cứu sẽ chỉ dẫn ra phải thực hiện kiểu suy luận nào, mỗi kiểu suy luận lại chỉ ra
việc dữ liệu cần phải đƣợc tổng hợp ra sao để rút ra các thơng tin thích hợp.
Thống kê đã đóng góp vai trị trung tâm ngày càng tăng trong nhân
khẩu học.
1.1.1.3 Một số khái niệm thƣờng dùng của thống kê
Tổng thể thống kê, đơn vị tổng thể thống kê
Tổng thể thống kê là tập hợp các đơn vị (hay phần tử) thuộc hiện tƣợng
nghiên cứu, cần quan sát, thu thập và phân tích về mặt lƣợng của chúng theo
một hay một số tiêu thức nào đó. Các đơn vị (hay phần tử) cấu thành tổng thể
thống kê gọi là đơn vị tổng thể.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

2

Nhƣ vậy thực chất của việc xác định tổng thể thống kê là việc xác định
các đơn vị tổng thể. Đơn vị tổng thể là xuất phát điểm của quá trình nghiên
cứu thống kê vì nó chứa đựng những thơng tin ban đầu cho qúa trình nghiên
cứu.
Tổng thể đồng chất: Là tổng thể bao gồm các đơn vị giống nhau hay
một số đặc điểm chủ yếu có liên quan trực tiếp đến mục đích nghiên cứu.
Các loại tổng thể
- Tổng thể bộ phận: Bao gồm một số đơn vị thuộc phạm vi hiện tƣợng
nghiên cứu đã xác định.
- Tổng thể đồng chất: Bao gồm các đơn vị giống nhau ở một số đặc

điểm chủ yếu có liên quan mục đích nghiên cứu.
- Tổng thể không đồng chất: Bao gồm các đơn vị không giống nhau ở
một số đặc điểm chủ yếu có liên quan mục đích nghiên cứu.
- Tổng thể bộc lộ: Bao gồm các đơn vị mà trực tiếp quan sát, nhận biết
đƣợc.
- Tổng thể tiềm ẩn: Bao gồm các đơn vị mà không trực tiếp quan sát,
nhận biết đƣợc.
Tiêu thức thống kê
Nghiên cứu thống kê phải dựa vào những đặc điểm của đơn vị tổng thể.
Đơn vị tổng thể có nhiều đặc điểm, tuỳ theo mục đích nghiên cứu một số đặc
điểm đƣợc chọn ra để nghiên cứu.
Tiêu thức thống kê được phân làm hai loại:
Tiêu thức thuộc tính: là tiêu thức phản ánh tính chất hay loại hình của
đơn vị tổng thể, khơng có biểu hiện trực tiếp bằng con số.
Tiêu thức số lượng: là tiêu thức có biểu hiện trực tiếp bằng con số.
Chỉ tiêu thống kê
Chỉ tiêu thống kê là các trị số phản ánh các đặc điểm, tính chất cơ bản
của tổng thể thống kê trong điều kiện thời gian và không gian xác định.
Chỉ tiêu thống kê đƣợc chia làm hai loại:
Chỉ tiêu khối lƣợng: Các chỉ tiêu biểu hiện quy mô, khối lƣợng của
tổng thể nghiên cứu, số nhân khẩu, số doanh nghiệp, số vốn, vốn lƣu động…
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

3

Chỉ tiêu chất lƣợng: là chỉ tiêu biểu hiện tính chất trình độ phổ biến,
quan hệ so sánh của hiện tƣợng nghiên cứu, nhƣ giá thành.
1.1.1.4 Khái quát quá trình nghiên cứu thống kê

Quá trình nghiên cứu thống kê hay bất kỳ quá trình nghiên cứu nào,
cũng đều trải qua các bƣớc, đƣợc khái qt bằng mơ hình sau:
Xác định vấn đề nghiên cứu, mục đích, nội dung,
đối tƣợng nghiên cứu.
Xây dựng hệ thống các khái niệm chỉ tiêu thống

Điều tra thống kê

-

Xử lý số liệu:
Tập hơp, sắp xếp số liệu
Chọn các phần mềm xử lý số liệu
Phân tích thống kê sơ bộ
Lựa chọn các phƣơng pháp phân tích
thống kê thích hợp

Phân tích và giải thích kết quả
Dự đốn xu hƣớng phát triển

Báo cáo và truyền đạt kết quả nghiên cứu

Hình 1.1: Mơ hình q trình nghiên cứu thống kê

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

4


1.1.2 Các thống kê mô tả
Nghiên cứu mô tả là loại hình nghiên cứu mà nhà nghiên cứu tiến hành,
thực hiện nhằm xác định rõ bản chất các sự vật và hiện tƣợng trong những
điều kiện đặc thù về không gian cũng nhƣ thời gian. Nghiên cứu mô tả thông
thƣờng bao gồm việc thu thập và trình bày số liệu một cách có hệ thống nhằm
đƣa ra một bức tranh rõ nét, đầy đủ về một tình hình, vấn đề sức khoẻ cụ thể.
Mơ tả một hiện tƣợng chính xác mới hình thành đƣợc giả thuyết nhân - quả
đúng, mới đề xuất đƣợc các biện pháp phịng ngừa có hiệu quả.
1.1.2.1 Mục tiêu của các nghiên cứu mô tả
Nghiên cứu mơ tả cần phải đáp ứng ít nhất 2 mục tiêu sau đây:
- Mô tả đƣợc một hiện tƣợng và các yếu tố nguy cơ có liên quan đến
hiện tƣợng đó.
- Phác thảo đƣợc giả thuyết nhân quả giữa các yếu tố nguy cơ và hiện
tƣợng nghiên cứu.
1.1.2.2 Những nội dung chính của các nghiên cứu mơ tả
Nội dung cơ bản của nghiên cứu mô tả là xác định đƣợc thực trạng các
yếu tố con ngƣời và các yếu tố không gian, thời gian cụ thể ở một thời điểm
nhất định.
Yếu tố nguy cơ, căn nguyên
Yếu tố nguy cơ ở đây đƣợc hiểu một cách rộng rãi đó là tất cả những
yếu tố nào thuộc về bản chất nhƣ: yếu tố vật lý, hoá học, sinh lý, tâm lý, di
truyền, khí tƣợng, các yếu tố kinh tế văn hố xã hội... mà sự tác động của
chúng có thể tạo nên cho cơ thể con ngƣời những thay đổi có lợi hoặc đặc biệt
là khơng có lợi về sức khoẻ con ngƣời.
Hậu quả
Hầu hết các vấn đề sức khoẻ đều có liên quan đến mối quan hệ nhân
quả. Để tìm hiểu ta phải nghiên cứu thật đầy đủ về nguyên nhân mới mong
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>


5

xác định đƣợc hậu quả có thể của tình trạng phơi nhiễm. Trong mối quan hệ
nhân quả, thì hậu quả là tất cả mọi bệnh trạng mà ta quan tâm nghiên cứu, bao
gồm các bệnh, khuyết tật và những trạng thái khơng bình thƣờng của sức
khoẻ. Nếu ta tiến hành nghiên cứu với 2 mục tiêu trên thì mối quan hệ nhân
quả mới có thể xác lập đƣợc.
Xác định quần thể nghiên cứu
Quần thể nghiên cứu đƣợc xác định phụ thuộc mục đích và khả năng
nghiên cứu. Thơng thƣờng ngƣời ta chỉ tiến hành nghiên cứu trên một mẫu
nghiên cứu mà mẫu đó đƣợc xác định dựa trên một quần thể nhỏ nhất song
vẫn đáp ứng đƣợc mục tiêu nghiên cứu. Các quần thể đƣợc chọn thƣờng là
quần thể phơi nhiễm, quần thể có nguy cơ, quần thể có nguy cơ cao.
Mơ tả yếu tố nguy cơ
Yếu tố có nguy cơ là yếu tố có liên quan hay làm tăng khả năng mắc
một bệnh nào đó, có thể là hành vi, lối sống, các yếu tố môi trƣờng, các tác
nhân lý, hố, sinh học gây bệnh... Mơ tả rõ ràng các yếu tố nguy cơ của hiện
tƣợng sức khoẻ, mới có cơ sở để phân tích rõ ràng và đầy đủ các yếu tố liên
quan với chúng, khơng bỏ sót và nhƣ vậy mới đạt đƣợc mục tiêu của công
việc mô tả đặc biệt là mô tả tƣơng quan. Nếu thấy mơ tả tƣơng quan khơng
chắc chắn thì có thể phải thay đổi bằng các phƣơng pháp khác nhƣ mô tả so
sánh nhiều nhóm hoặc nghiên cứu bệnh chứng... ta sẽ xác định đƣợc các yếu
tố nguy cơ.
1.1.3 Phân bố lấy mẫu và suy luận quần thể từ các thống kê mẫu.
1.1.3.1 Lấy một mẫu ngẫu nhiên
Một trong các cách để thảo mãn yêu cầu lấy một mẫu ngẫu nhiên là
chọn mẫu theo một phƣơng pháp sao cho mọi mẫu khác nhau với cùng một cỡ
n đều có xác suất để đƣợc chọn là nhƣ nhau. Thủ tục này đƣợc gọi là lấy mẫu


Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

6

ngẫu nhiên và mẫu đƣợc chọn theo cách này đƣợc gọi là mẫu ngẫu nhiên với
cỡ n.
Một mẫu ngẫu nhiên gồm n đơn vị quan sát là một mẫu đƣợc lựa chọn
theo một cách nào đó sao cho mọi mẫu khác nhau với cỡ n đều có xác suất
đƣợc chọn bằng nhau.
Ví dụ
Một đại lý bán hàng có thể nhận các hàng hóa văn phịng phẩm từ tám
cơng ty cung cấp. Nếu đại lý này quyết định sử dụng hàng hố của ba nhà
cung cấp trong một năm nào đó và để tránh thiên vị trong lựa chọn, một mẫu
gồm ba nhà cung cấp sẽ đƣợc chọn từ tám công ty.
a. Có bao nhiêu mẫu gồm ba nhà cung cấp khác nhau có thể đƣợc chọn từ
tám cơng ty?
b. Hãy liệt kê các mẫu này.
c. Đặt ra tiêu chuẩn cần phải thảo mãn để đảm bảo mẫu đƣợc chọn là hồn
tồn ngẫu nhiên.
Lời giải
a. Trong ví dụ này, quần thể đƣợc xét là tám nhà cung cấp (ta ký hiệu là A,

B, C, D, E, F, G, H), từ quần thể này, chúng ta muốn chọn một mẫu với cỡ
n = 3 phần tử. Số các mẫu khác nhau với cỡ n = 3 có thể chọn đƣợc từ một
quần thể gồm N = 8 phần tử là
CnN

N!

n! ( N n)!

8!
3! 5!

8 * 7 * 6 * 5* 4 * 3* 2 * 1
(3 * 2 * 1) (5 * 4 * 2 * 1)

Số hóa bởi Trung tâm Học liệu - ĐHTN

56

/>

7
b. Sau đây là danh sách của 56 mẫu:

A, B, C

A, C, F

A, E, G

B, C, G

B, E, H

C, E, F

D, E, H


A, B, D

A, C, G

A, E, H

B, C, H

B, F, G

C, E, G

D, F, G

A, B, E

A, C, H

A, F, G

B, D, E

B, F, H

C, E, H

D, F, H

A, B, F


A, D, E

A, F, H

B, D, F

B, G, H

C, F, G

D, G, H

A, B, G

A, D, F

A, G, H B, D, G

C, D, E

C, F, H

E, F, G

A, B, H

A, D, G

B, C, D


B, D, H

C, D, F

C, G, H

E, F, H

A, C, D

A, D, H

B, C, E

B, E, F

C, D, G

D, E, F

E, G, H

A, C, E

A, E, F

B, C, F

B, E, G


C, D, H

D, E, G

F, G, H

c. Mỗi mẫu phải có cùng một cơ hội đƣợc chọn để chúng ta có một mẫu ngẫu

nhiên. Vì có tất cả 56 mẫu với cỡ n = 3, nên mỗi mẫu phải có một xác suất
bằng 1/56 để đƣợc chọn bằng thủ tục ngẫu nhiên.
1.1.3.2 Phân bố lấy mẫu
Một độ đo mô tả bằng số của một quần thể đƣợc gọi là một tham số.
Một đại lƣợng đƣợc tính từ các quan sát của một mẫu ngẫu nhiên đƣợc
gọi là một thống kê.
Một phân bố lấy mẫu (sampling distribution) của một thống kê (dựa
trên n quan sát) là phân bố tần xuất tƣơng đối của các giá trị của thống kê này
đƣợc sinh ra theo lý thuyết bằng cách rút lặp đi lặp lại nhiều lần các mẫu ngẫu
nhiên cỡ n và tính giá trị của thống kê này đối với từng mẫu.
1.1.4 Các phƣơng pháp ƣớc lƣợng và tham số thống kê
1.1.4.1. Khái niệm
Trong thống kê, một ƣớc lƣợng là một giá trị đƣợc tính tốn từ một
mẫu thử và ngƣời ta hy vọng đó là giá trị tiêu biểu cho giá trị cần xác định
trong dân số. Khi nghiên cứu điều tra chọn mẫu, qua mẫu đó ngƣời ta nghiên
cứu để tính quy luật và trạng thái của tổng thể chung chứa nó, tức là dựa vào

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>


8

trung bình, phƣơng sai, tỷ lệ của mẫu để suy ra trung bình, phƣơng sai, tỷ lệ
của tổng thể chung chƣa biết.
1.1.4.2 Ƣớc lƣợng một trung bình quần thể
Trường hợp mẫu lớn
Thuật ngữ mẫu lớn dùng để chỉ các mẫu có cỡ đủ lớn để có thế áp
dụng định lý giới hạn trung tâm nhƣ sau:
Nếu cỡ mẫu đủ lớn thì trung bình

của một mẫu đƣợc rút ngẫu nhiên

từ một quần thể có một phân bố lấy mẫu xấp xỉ dạng chuẩn cho dù phân bố
tần suất tƣơng đối của quần thể ở dạng nào. Khi cỡ mẫu tăng thì phân bố lấy
mẫu càng gần với dạng chuẩn hơn.
Tính chất của phân bố lấy mẫu : Nếu

là trung bình của một mẫu

ngẫu nhiên cỡ n đƣợc rút ra từ một quần thể có trung bình
, thì: Phân bố lấy mẫu của

có trung bình bằng trung bình của quần thể mà

từ đó mẫu đƣợc rút. Tức là, nếu chúng ta gọi
mẫu của

Thì

và độ lệch chuẩn


là trung bình của phân bố lấy

= .

Phân bố lấy mẫu của

có độ lệch chuẩn bằng độ lệch chuẩn của quần

thể mà từ đố mẫu rút chia cho căn bậc hai của cỡ mẫu. Tứclà, nếu chúng ta ký
hiệu

là độ lệch chuẩn của phân bố lấy mẫu của

thì

Cỡ mẫu sẽ xác định hình dáng của phân bố lấy mẫu . Nếu cỡ đủ lớn
thì phân bố lấy mẫu sẽ có dạng gần chuẩn. Một khoảng tin cậy cho một tham
số là một khoảng mà chúng ta mong muốn giá trị đúng của tham số quần thể
sẽ đƣợc chứa trong đó. Các điểm nút của khoảng này sẽ đƣợc tính trên cơ sở
các thơng tin của mẫu.
Chú ý rằng, trong thực tế chúng ta thƣờng không biết giá trị đúng của
và cũng không lặp đi lặp lại nhiều lần việc lấy mẫu mà chúng ta chỉ cần chọn
một mẫu và xây dựng khoảng tin cậy 95% dựa trên mẫu đã chọn.
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

9


Hệ số tin cậy là tỷ lệ số lần một khoảng tin cậy chứa giá trị đúng của
tham số quần thể khi thủ tục xây dựng khoảng tin cậy đƣợc lặp đi lặp lại
nhiều lần.
Khoảng tin cậy (1- ) 100% với mẫu lớn cho trung bình quần thể

Trong đó

là.

là giá trị z xác định một miền đi phải có diện tích

độ lệch chuẩn của quần thể đƣợc rút mẫu, n là cỡ của mẫu và
trung bình mẫu. giả thiết n

,



là giá trị của

30. Mối quan hệ giữa độ rộng của khoảng tin

cậy và hệ số tin cậy
Đối với một cỡ mấu đã cho thì độ rộng của khoảng tin cậy cho một
tham số nào đó của quẩn thể sẽ tăng lên khi hệ số tin cậy tăng. Cụ thể hơn là,
khoảng tin cậy phải trở nên rộng hơn để chúng ta có thể tin tƣởng nhiều hơn
rằng nó sẽ chứa giá trị đúng của tham số quần thể.
Quan hệ giữa độ rộng của khoảng tin cậy và cỡ mẫu.
Đối với một hệ số tin cậy cố định thì độ rộng của khoảng tin cậy sẽ
giảm đi khi cỡ mẫu tăng lên. Tức là, các mẫu lớn hơn cung cấp nhiều thông

tin hơn về quần thể so với các quần thể nhỏ hơn.
Trường hợp mẫu nhỏ.
Với các mẫu nhỏ cần phải lƣu ý đến 2 vấn đề sau:
Vì định lý giới hạn trung tâm chỉ có thể áp dụng đƣợc cho các mẫu lớn,
nên chúng ta không thể giả thiết rằng phân bố lấy mẫu của là
chuẩn. Đối với mẫu nhỏ, phân bố lấy mẫu của

xấp xỉ dạng

phụ thuộc vào hình dạng của

phân bố tấn suất trƣơng đối của quần thể đƣợc rút mẫu.
Độ lệch chuẩn của mẫu

có thể khơng xấp xỉ thoả đáng độ lệch chuẩn

quần thể khi cơ mẫu bé.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

10

1.1.4.3 Ƣớc lƣợng tỷ lệ của một quần thể
Trong mục này chúng ta sẽ nghiên cứu phƣơng pháp ƣớc lƣợng tỷ lệ
nhị thức, tức là tỷ lệ các phần tử của một quần thể có một đặc tính nào đó. Ví
dụ, một nhà nhân khẩu học có thể sẽ quan tâm đến tỷ lệ của số phụ nữ có
chồng; một bác sỹ có thể quan tâm đến tỷ lệ của số ngƣời mắc bệnh lao trong
một thành phố. Vấn đề của chúng ta là làm thế nào để ƣớc lƣợng đƣợc một tỷ

lệ nhị thức p dựa trên các thông tin có đƣợc từ một mẫu đƣợc rút ra từ một
quần thể .
Phân bố lấy mẫu của pˆ
Đối với các mẫu đủ lớn thì phân bố lấy mẫu của pˆ có dạng xấp xỉ dạng
chuẩn với Trung bình là:
Và độ lệch chuẩn là :

=p

=

trong đó q = 1-p

Một khoảng tin cậy cho p dựa trên mẫu lớn có thể được xây dựng bằng một
thủ tục tương tự như thủ tục đã sử dụng để ước lượng một trung bình quần
thể.
Khoảng tin cậy mẫu lớn (1- ) 100% cho một tỷ lệ quần thể p là

Trong đó

là tỷ lệ mẫu của các quan sát với đặc tính cần nghiên cứu và

Chú ý rằng, chúng ta phải thay



vào công thức của

để xây


dựng khoảng tin cậy. Việc xấp xỉ này sẽ hợp lý chừng nào cỡ mẫu n đủ lớn.
1.1.4.4 Ƣớc lƣợng sự khác nhau giữa hai trung bình quần thể
Trong trƣờng hợp ƣớc lƣợng một trung bình quần thể với mẫu lớn
chúng ta đã biết cách ƣớc lƣợng tham số

dựa trên một mẫu lớn đƣợc rút từ

một quần thể. Trong mục này, chugns ta sẽ nghiên cứu một kỹ thuật sử dụng

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

11

thông tin trong hai mẫu khác nhau để ƣớc lƣợng sự khác nhau giữa hai trung
bình quần thể. Phân bố lấy mẫu của (

)

Đối với các cỡ mẫu đủ lớn (

, thì phân bố lấy mẫu của

) dựa trên các mẫu ngẫu nhiên độc lập đƣợc rút từ hai quần thể sẽ có

(

dạng xấp xỉ chuẩn với
Trung bình là:


=

Độ lệch chuẩn là:

=

Giống nhƣ khi ƣớc lƣợng mẫu lớn cho trung bình của một quần thể, giả thiết
về mẫu lớn cho phép chúng ta có thể áp dụng định lý giới hạn trung tâm để
thu đƣợc phân bố lấy mẫu của (
dụng



) ; đồng thời nó cũng cho phép sử

nhƣ các xấp xỉ của các phƣơng sai quần thể

Thủ tục để tạo ra một khoảng tin cậy mẫu lớn cho (


) đƣợc cho sau

đây
Khoảng tin cậy (1- ) 100% mẫu lớn cho (
(

)

=(


)

)

(lƣu ý: Chúng ta phải sử dụng các phƣơng sai mẫu

(



)

để thay thế gần

đúng cho các tham số quần thể tƣơng ứng). Các giả thiết mà thủ tục trên đây
đã dựa vào để tính khoảng tin cậy là.
Các giả thiết cần phải có đối với ƣớc lƣợng dựa trên mẫu lớn của (

-

)

1. Việc mẫu ngẫu nhiên đƣợc chọn một cách độc lập từ hai quần thể
đích. Tức là việc lựa chọn các phần tử trong một mẫu không làm ảnh hƣởng
và cũng không bị ảnh hƣởng bởi sự lựa chọn của các phần tử trong mẫu kia.
Số hóa bởi Trung tâm Học liệu - ĐHTN

/>


12

2. Các mẫu



là đủ lớn ( ít nhất là 30).

Khi ƣớc lƣợng sự khác nhau giữa hai trung bình quần thể dựa trên các
mẫu nhỏ đƣợc rút ra từ mỗi quần thể chúng ta phải xác định một số giải thiết
về các phân bố tần xuất tƣơng đối của hai quần thể.
Các giả thiết cần phải có đối với ƣớc lƣợng dựa trên mẫu nhỏ của (

-

)
- Cả hai quần thể rút mẫu đều phải có các phân bố tần xuất tƣơng đối
xấp xỉ dạng chuẩn
- Các phƣơng sai

của hai quần thể là bằng nhau

- Các mẫu ngẫu nhiên đƣợc chọn một cách độc lập từ hai quần thể.
Khi các giả thiết này đƣợc thỏa mãn chúng ta có thể sử dụng thủ tục
sau đây đƣợc rút từ các quần thể tƣơng ứng.
Khoảng tin cậy (1- ) 100% dựa trên cá mẫu nhỏ cho (
(

)


và giá trị của

-

)

đƣợc tính với (

+

-

2) bậc tự do
Vì chúng ta giả thiết rằng hai quần thể có cùng một phƣơng sai
) nên ta có thể thiết kế một ƣớc lƣợng chung cho

dựa trên

các thông tin của hai mẫu. Ƣớc lƣợng chung này đƣợc ký hiệu

và đƣợc

(

tính bằng cơng thức đã cho nhƣ ở trên.
1.1.5 Kiểm định giả thuyết thống kê.
1.1.5.1 Hình thành các giả thuyết
Trong thực tế ngƣời ta rất muốn biết liệu một đặc tính nào đó của một
quần thể có lớn hơn một giá trị nhất định nào không, hoặc liệu một giá trị của
một tham số nào đó mà ta nhận đƣợc có bé hơn một giá trị giả định hay

khơng.

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

13

Khi muốn đặt ra một phép thử cho một lý thuyết mới, chúng ta phải
hình thành một giả định hay một tiêu chuẩn mà chúng ta tin rằng nó sẽ đúng.
Giả thuyết mà chúng ta định đặt ra là một giả thuyết thay thế. Đi đôi với giả
thuyết thay thế là giả thuyết gốc hay giả thuyết đối lập với giả thuyết thay thế.
Các giả thuyết gốc và giả thuyết thay thế mơ tả hai trạng thái tự nhiên có thể
có nhƣng khơng thể đồng thời xảy ra. Khi một ngƣời nghiên cứu bắt đầu thu
thập thông tin về một hiện tƣợng mà ngƣời đó quan tâm thì họ sẽ cố gắng đƣa
ra các luận chứng ủng hộ cho giả thuyết thay thế. Phƣơng pháp sau là một
phƣơng pháp gián tiếp để nhận đƣợc kết luận nghiêng về giả thuyết thay thế,
tức là thay vì cố chứng minh giả thuyết gốc là đúng chúng ta sẽ đƣa ra các
dấu hiệu chứng tỏ giả thuyết gốc là sai.
Một giả thuyết thống kê là một kết luận về giá trị của một tham số quần thể.
Giả thuyết đối lập với giả thuyết mà ta hy vọng có thể là đúng đƣợc gọi
là giả thuyết gốc hay giả thuyết không (ký hiệu

).

Giả thuyết mà ta mong muốn có thể chứng minh đƣợc là đúng đƣợc gọi
là giả thuyết thay thế (ký hiệu Ha).
Các nhà nghiên cứu thƣờng rất hay đƣa ra một giả thuyết khơng với hy
vọng họ có thể loại bỏ nó.
Một giả thuyết thay thế có thể giả định về sự thay đổi của


theo một

hƣớng hoặc nhiều khi là một thay đổi khơng xác định hƣớng. Một kiểm định
trong đó giả thuyết thay thế là có hƣớng đƣợc gọi là một kiểm định giả thuyết
một phía. Một kiểm định trong đó giả thuyết thay thế không đƣợc xác định sẽ
đi theo hƣớng nào tính từ

gọi là một kiểm định giả thuyết hai chiều.

1.1.5.2 Các kết luận và kết quả có đƣợc từ việc kiểm định giả thuyết
Mục đích của việc kiểm định giả thuyết là đƣa ra một quyết định liệu
có thể loại bỏ

và nghiêng về

không. Mặc dù luôn mong rằng có thể đƣa

Số hóa bởi Trung tâm Học liệu - ĐHTN

/>

14

ra đƣợc một kết luận đúng đắn nhƣng quyết định này sẽ phải dựa trên các
thơng tin mẫu vì vậy chúng ta dễ mắc phải một trong hai loại sai lầm sau:
- Một sai lầm loại I xảy ra nếu chúng ta loại bỏ một giả thuyết khơng
khi nó đúng. Xác suất mắc một sai lầm loại I thƣờng đƣợc ký hiệu là α.
- Một sai lầm loại II xảy ra nếu chúng ta không loại bỏ một giả thuyết
không khi nó sai. Xác suất mắc một sai lầm loại I thƣờng đƣợc ký hiệu là α.

Giả thuyết khơng có thể là đúng hoặc sai vì vậy chúng ta sẽ đƣa ra một
quyết định chấp nhận hoặc bác bỏ nó. Nhƣ vậy có bốn tình huống xảy ra khi
kiểm định một giả thuyết.
Thực chất

Quyết định

Giả thuyết không đúng

Giả thuyết không sai

(

(

sai)

đúng)

Không bác bỏ

Quyết định đúng

Sai lầm loại II

bác bỏ

Sai lầm loại I

Quyết định đúng


Nguy cơ bị mắc sai lầm loại I chỉ có khi
một sai lầm loại II chỉ có khi

bị bác bỏ, nguy cơ bị mắc

không bị bác bỏ. Vì vậy chúng ta có thể

khơng mắc sai lầm hoặc có thể mắc hoặc là sai lầm loại I (với xác suất α)
hoặc sai lầm loại II (với xác suất β) nhƣng không bao giờ mắc cả hai. Khi α
tăng thì β giảm và ngƣợc lại. Cách duy nhất để giảm α và β một cách đồng
thời là làm tăng lƣợng thơng tin có thể có trong mẫu, tức là tăng kích thƣớc
của mẫu.
Xác suất mắc sai lầm loại I có thể kiểm sốt đƣợc nên nó thƣờng đƣợc
lấy làm độ đo về mức độ tin cậy của kết luận.
Quy trình xác định các giả thuyết và hình thành các kết luận:
1. Xác định giả thuyết mà ta muốn chứng minh là giả thuyết thay thế.
2. Giả thuyết không

sẽ là đối thuyết của

Số hóa bởi Trung tâm Học liệu - ĐHTN

và chứa dấu bằng.

/>

×