Tải bản đầy đủ (.doc) (115 trang)

LUẬN VĂN THẠC SĨ CHUYÊN NGÀNH LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN HỌC PHƯƠNG PHÁP THỐNG KÊ TRONG KINH DOANH VÀ TÀI CHÍNH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.06 MB, 115 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN HÀ NỘI

HOÀNG MINH ĐÔNG
PHƯƠNG PHÁP THỐNG KÊ
TRONG KINH DOANH VÀ TÀI CHÍNH
Chuyên ngành: Lý thuyết xác suất và thống kê toán học
Mã số: 60.46.15
LUẬN VĂN THẠC SỸ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
GS. TSKH ĐẶNG HÙNG THẮNG
Hà Nội – 2013
1
Lời mở đầu
Chúng ta đang sống trong xã hội chết ngạt vì dữ liệu, nhưng lại đói khát về
thông tin. Chính do nhu cầu tìm kiếm thông tin từ một khối lượng lớn dữ liệu đã dẫn
đến sự cần thiết phải có các công cụ phù hợp để làm việc này, mà khai thác dữ liệu
(Data mining) là một công cụ chính yếu. Khai thác dữ liệu đã được phát triển như là
một ngành tương đối mới, nó liên quan tới hai lĩnh vực chủ yếu là thống kê, khoa học
máy tính.Với sự yêu thích toán ứng dụng cùng với chút hiểu biết về xác suất và thống
kê, đã thôi thúc tôi tìm hiểu về lĩnh vực khai thác dữ liệu – đó cũng là lý do tôi chọn
đề tài “Phương pháp thống kê trong kinh doanh và tài chính”. Đến nay vẫn chưa
có định nghĩa thống nhất cho khái niệm khai thác dữ liệu. Nhưng tôi cho rằng định
nghĩa sau đây của tác giả Paolo Giudici (người Ý) trong cuốn Applied Data Mining.
Statistical methods for Business and Industry ([5]) là hoàn chỉnh hơn và tôi cũng đồng
ý với định nghĩa này; cuốn sách này cũng là tài liệu tham khảo chính cho luận văn của
tôi. Paolo Giudici phát biểu rằng: Khai thác dữ liệu là quá trình lựa chọn, thăm dò và
mô hình hóa khối lượng lớn dữ liệu để tìm ra những quy luật hoặc những mối quan hệ
từ những ẩn số đầu tiên với mục đích là đạt được các kết quả rõ ràng và hữu ích cho
các chủ sở hữu cơ sở dữ liệu.
Cụ thể, khai thác dữ liệu bao gồm một chuỗi các hoạt động từ xác định mục tiêu


phân tích đến đánh giá kết quả. Chuỗi hoạt động này có thể được phân chia thành các
giai đoạn như sau:
(1). Xác định mục tiêu phân tích:
Thực tế, các mục tiêu mà công ty hướng tới thường rõ ràng, nhưng các vấn đề
tiềm ẩn có thể gây khó khăn khi chuyển sang các mục tiêu cụ thể cho phân tích. Một
phát biểu rõ ràng về vấn đề và các mục tiêu cần đạt được là điều kiện tiên quyết để
thiết lập các phân tích chính xác.
(2). Lựa chọn, tổ chức và tiền xử lý dữ liệu:
2
Giai đoạn lựa chọn, tổ chức và tiền xử lý dữ liệu không được trình bày trong
luận văn vì nó liên quan chủ yếu đến lĩnh cực khác chẳng hạn như công nghệ thông tin
hơn là liên quan đến thống kê – khía cạnh mà tôi quan tâm. Cũng vì vậy mà các khái
niệm về cơ sở dữ liệu, siêu thị dữ liệu cũng không được trình bày trong luận văn này.
Để biết thêm chi tiết, chúng ta có thể xem [7] và [8].
(3). Phân tích thăm dò dữ liệu và chuyển đổi dữ liệu (nếu cần):
Phân tích thăm dò có thể phát hiện ra bất kỳ dữ liệu bất thường nào – khác với
phần còn lại của dữ liệu. Những dữ liệu cụ thể này không nhất thiết phải bị loại bỏ vì
nó có thể chứa thông tin quan trọng để đạt được các mục tiêu phân tích. Phân tích thăm
dò dữ liệu luôn luôn cần thiết vì nó cho phép nhà phân tích dự đoán những phương
pháp thống kê nào thích hợp nhất trong giai đoạn tiếp theo của phân tích. Việc phân
tích thăm dò cũng có thể đề xuất việc thu thập dữ liệu mới vì dữ liệu hiện tại không đủ
để đạt được mục đích. Các phương pháp thăm dò chính cho khai thác dữ liệu sẽ được
trình bày ở chương 1. Để biết thêm chi tiết, chúng ta có thể xem [11].
(4). Xác định các phương pháp thống kê được sử dụng trong các giai đoạn phân
tích:
Có nhiều phương pháp thống kê và cũng có nhiều thuật toán có thể được sử
dụng, vì vậy điều quan trọng là phải có một sự phân loại các phương pháp đó. Việc lựa
chọn các phương pháp phụ thuộc vào vấn đề được nghiên cứu hoặc kiểu dữ liệu hiện
có. Dựa trên mục đích phân tích, ta có thể phân chia thành 3 loại chính:
(a). Phương pháp mô tả: Tức là các biến được đối xử như nhau và không có giả

thuyết nhân quả. Có các phương pháp như phân tích phương sai, phân cụm (cluster),
bản đồ Kohonen (Kohonen map) – xem Bishop, C. (1995), Neural Networks for
Pattern Recognition, Clarendon Press, Oxford., các phương pháp kết hợp (có 2
phương pháp cơ bản là bagging và boosting), các mô hình loga tuyến tính (log-linear
models) – tiết xem [1] và [3] và các mô hình đồ thị (graphical models) – xem
Whittaker (1990), Edwards (1995) hoặc Lauritzen (1996). Trong toàn bộ luận văn của
mình, tôi chỉ nói đến mô hình loga tuyến tính. Lý thuyết về mô hình loga tuyến tính
được trình bày ở chương 2.
3
(b). Phương pháp dự báo: Có các phương pháp như hồi quy tuyến tính chuẩn,
hồi quy logistic (logistic regression) - chi tiết xem [1] và [3], cây quyết định (decision
tree) – có nhiều tài liệu, chẳng hạn như tài liệu [2] và mạng thần kinh (neural network)
– Bishop (1995) với công cụ perceptron nhiều lớp. Lý thuyết về hồi quy tuyến tính
chuẩn được xem như là kiến thức cơ bản nên sẽ không được trình bày trong luận văn.
Lý thuyết mạng thần kinh là một phương pháp thiên về tính toán nên tôi cũng không
dùng phương pháp này cho phân tích bài toán của mình. Còn hồi quy logistic (một mô
hình thống kê) và cây quyết định (phương pháp rõ ràng, dễ hiểu cho bài toán phân lớp
và hồi quy) là được trình bày lý thuyết và được áp dụng cho các bài toán. Hai phương
pháp này được trình bày ở chương 2.
(c). Phương pháp địa phương: Bao gồm các quy tắc kết hợp (association rules)
và các quy tắc trình tự (sequence rules). Tôi sẽ chỉ quan tâm tới các quy tắc kết hợp.
Lý thuyết của nó được trình bày ở chương 2.
(5). Phân tích dữ liệu dựa trên các phương pháp đã chọn:
Phân tích dữ liệu cần có sự trợ giúp tính toán của máy tính bằng cách sử dụng
các phần mềm thống kê chẳng hạn như phần mềm SAS Enterprise Miner, SPSS,
STATA, R và hầu hết các thuật toán sẽ không được trình bày trong luận văn.
(6). Đánh giá và so sánh các phương pháp được sử dụng. Lựa chọn mô hình cuối
cùng cho phân tích:
Để tạo ra một quyết định cuối cùng, điều cần thiết là chọn mô hình phân tích dữ
liệu tốt nhất từ các phương pháp thống kê hiện có. Do đó việc lựa chọn mô hình phải

dựa trên một sự so sánh giữa các kết quả thu được từ các phương pháp khác nhau. Đây
là một việc kiểm tra về tính hợp lý của các phương pháp thống kê cụ thể mà sau đó nó
được áp dụng vào dữ liệu. Có thể không có phương pháp nào trong các phương pháp
đã sử dụng cho phép các mục tiêu đạt được một cách thỏa đáng, khi đó cần thiết phải
quay trở lại xác định một phương pháp mới thích hợp hơn cho phân tích. Khi đánh giá
hiệu suất của một phương pháp cụ thể, các yếu tố khác vẫn phải được xem xét như
ràng buộc về thời gian, ràng buộc về nguồn lực, chất lượng dữ liệu và tính sẵn sàng
của dữ liệu. Các phương pháp khác nhau có khả năng làm nổi bật các khía cạnh khác
4
nhau, như vậy đôi khi nếu không xét đồng thời các phương pháp thì nhiều khía cạnh sẽ
bị bỏ qua.
(7). Giải thích mô hình đã chọn và cách sử dụng tiếp theo trong quá trình quyết
định:
Khai thác dữ liệu không chỉ là phân tích dữ liệu mà còn là tích hợp các kết quả
vào quá trình quyết định của công ty. Việc khai thác các quy tắc và sử dụng chúng
trong cho phép chúng ta chuyển từ giai đoạn phân tích sang giai đoạn sản sinh ra một
động cơ quyết định. Một khi mô hình được chọn và được thực hiện với một tập dữ liệu
thì quy tắc phân loại có thể được áp dụng cho toàn bộ quần thể tham chiếu. Ví dụ
chúng ta có thể phân biệt trước, đó là khách hàng sẽ mang lại lợi nhuận hay không
mang lại lợi nhuận hoặc chúng ta có thể điều chỉnh các chính sách phân biệt thương
mại cho các nhóm khách hàng mục tiêu khác nhau nhằm làm tăng lợi nhuận của công
ty. Do tôi chỉ chú trọng vào khía cạnh thống kê của khai thác dữ liệu nên giai đoạn này
sẽ không được trình bày trong luận văn.
Các bài toán cụ thể trong luận văn sẽ bắt đầu bằng mục tiêu phân tích, rồi qua
các bước mô tả dữ liệu, phân tích thăm dò, xây dựng mô hình và kết thúc bằng so sánh
mô hình.
Cuối cùng, tôi cũng xin xác nhận rằng trong luận văn này tôi dùng cuốn sách [5]
của tác giả Giudici làm tài liệu tham khảo chính trong đó bao gồm cả ba bài toán ứng
dụng.
Luận văn được chia làm 3 chương cùng với lời mở đầu, kết luận và danh mục tài

liệu tham khảo:
Chương 1: Phân tích dữ liệu thăm dò.
Trước khi tìm một mô hình thống kê cho tập dữ liệu, ta phải tiến hành phân tích
thăm dò cho từng biến và cho từng cặp biến thông qua các độ đo để sau đó lựa chọn
mô hình hợp lý.
Chương 2: Các mô hình thống kê.
Có nhiều mô hình dùng cho khai thác dữ liệu, trong đó có cả những mô hình
thiên về thống kê và những mô hình thiên về tính toán. Như tôi đã nói ở trên, chương
5
này tôi chi nói về mô hình tuyến tính suy rộng, mô hình hồi quy logistic, cây quyết
định (thống kê dự báo), mô hình loga tuyến tính (thống kê mô tả) và quy tắc kết hợp
(mô hình địa phương)
Chương 3: Một số ứng dụng trong kinh doanh và tài chính.
Chương này có ba bài toán thực tế là Phân tích thị trường qua giỏ hàng, Quản lý
quan hệ khách hàng và Tính điểm tín dụng (tham khảo thêm ở [6]). Ở đây, tôi chỉ dùng
các mô hình trên làm phương pháp phân tích ba bài toán này. Quả thật là việc xử lý dữ
liệu phải cần đến các phần mềm thống kê, đặc biệt là phần mềm SAS Enterprise
Miner, nhưng thật tiếc là tôi không có điều kiện để làm việc này nên tôi chỉ dùng dữ
liệu và kết quả đã phân tích được của Paolo Giudici.
Luận văn được hoàn thành dưới sự hướng dẫn khoa học của GS. TSKH Đặng
Hùng Thắng – giảng viên trường Đại học Khoa học tự nhiên – Đại học Quốc gia Hà
Nội. Em xin bày tỏ lòng biết ơn chân thành đến thầy vì sự chỉ bảo của thầy trong suốt
thời gian qua giúp em hoàn thành luận văn.
Nhân dịp này em cũng xin bày tỏ lòng biết ơn sâu sắc đến các thầy phản biện,
những người đã đọc và đóng góp ý kiến để luận văn của em được hoàn thiện hơn.
Cuối cùng, tôi cũng xin cám ơn các cán bộ trường THPT Nam Duyên Hà –
Hưng Hà – Thái Bình, sở Giáo dục & Đào tạo tỉnh Thái Bình đã tạo điều kiện về thời
gian và kinh phí cho tôi đi học và cám ơn các thầy cô giáo trường Đại học Khoa học tự
nhiên đã tận tình giảng dạy, cung cấp những kiến thức toán học để tôi hoàn thiện hơn
về chuyên môn.

Hà Nội, tháng 5 năm 2013
6
Mục lục
Chương 1. Phân tích dữ liệu thăm dò………………… 1
1.1 Phân tích thăm dò đơn biến……………………………….……. 1
1.1.1 Độ đo vị trí……………………………………………… 2
1.1.2 Các độ đo sự phân tán…………………………… 2
1.1.3 Các độ đo về tính bất đối xứng…………………………. 3
1.1.4 Nhị phân hóa một biến định tính………………… 5
1.2 Phân tích thăm dò hai biến……………………………………. 5
1.3 Phân tích thăm dò dữ liệu định tính nhiều biến……………… 7
1.3.1 Độc lập và liên kết……………………………………… 8
1.3.2 Các độ đo khoảng cách…………………………………. 9
1.3.3 Các độ đo sự phụ thuộc………………………………… 11
1.3.4 Các độ đo dựa trên mô hình………………………. …… 13
Chương 2. Các mô hình thống kê………………… … 17
2.1 Thống kê dự báo……………………………………… 17
2.1.1 Mô hình tuyến tính suy rộng……………………… …… 17
2.1.2 Mô hình hồi quy logistic……………………… … …… 24
2.1.3 Cây quyết định…………………………………… …… 26
2.2 Thống kê mô tả……………………………………………. …… 32
Mô hình loga tuyến tính cho bảng sự kiện………………. …… 32
2.3 Mô hình địa phương………………………………………. …… 40
Quy tắc kết hợp………………………………………… …… 40
2.4 So sánh mô hình………………………………………………… 45
Chương 3. Một số ứng dụng trong kinh doanh và tài
chính…………………………………………… … 48
7
3.1 Ứng dụng 1: Phân tích thị trường qua giỏ hàng……….……… 48
3.1.1 Mục tiêu phân tích………………………………….…… 48

3.1.2 Mô tả dữ liệu…………………………………………… 48
3.1.3 Phân tích dữ liệu thăm dò……………………… ……… 51
3.1.4 Xây dựng mô hình………………………………….…… 55
3.1.4.1 Các mô hình loga tuyến tính……………… …… 55
3.1.4.2 Các quy tắc kết hợp…………………….….…… 58
3.1.5 So sánh mô hình…………………………………… …… 63
3.2 Ứng dụng 2: Quản lý quan hệ khách hàng…………….…… 65
3.2.1 Mục tiêu phân tích……………………………… …… 65
3.2.2 Mô tả dữ liệu……………………………………………. 65
3.2.3 Phân tích dữ liệu thăm dò……………………………… 66
3.2.4 Xây dựng mô hình……………………………… 70
3.2.4.1 Các mô hình hồi quy logistic…………………… 70
3.2.4.2 Các mô hình cây phân lớp……………………… 71
3.2.5 So sánh mô hình……………………………………… 74
3.3 Ứng dụng 3: Tính điểm tín dụng……………………………… 79
3.3.1 Mục tiêu phân tích………………………………………. 79
3.3.2 Mô tả dữ liệu……………………………………………. 79
3.3.3 Phân tích dữ liệu thăm dò…………………… ……… 82
3.3.4 Xây dựng mô hình………………………………………. 85
3.3.4.1 Các mô hình hồi quy logistic…………………… 85
3.3.4.2 Các mô hình cây phân lớp……………………… 89
3.3.5 So sánh mô hình………………………………………… 98
Kết luận………………………………………………… 101
Tài liệu tham khảo……………………………………… 102
8
Danh mục các hình
Hình 1.1 Các biểu đồ thống kê mô tả các phân phối .……………………. 4
Hình 1.2 Hộp đồ thị ……………………………………………………… 4
Hình 1.3 Đồ thị phân tán ……………………………… ……………… 6
Hình 1.4 Ma trận đồ thị phân tán ………………………………………… 6

9
Hình 2.1 Minh họa về cây quyết định …………………………………… 27
Hình 2.2 Ví dụ về cây CART ……………………………………….…… 30
Hình 2.3a Mối quan hệ giữa các mô hình loga tuyến tính cơ bản cho
bảng 3 chiều …………………………………………….……… 39
Hình 2.3b Mối quan hệ giữa các mô hình loga tuyến tính cơ bản cho
bảng 3 chiều …………………………………………….……… 40
Hình 2.4 Ví dụ về đường cong ROC …………………………………… 47
Hình 3.1 Đồ thị thể hiện những sự kết hợp dương mạnh giữa các
sản phẩm ………………………………………… …… … 54
Hình 3.2 Phân phối điều kiện của (a) First amount spent
và (b) products at first order (numb) đối với các mức của Y 69
Hình 3.3 Sự biến thiên của độ chính xác phân lớp cho cây phân lớp
khi số lá tăng …………………………………………………… 72
Hình 3.4 Sơ đồ cây CART cho bài toán ………………………………… 72
Hình 3.5 Các đường cong ROC cho các mô hình được xét …………….… 77
Hình 3.6 Các đường cong ROC cho các mô hình cuối cùng ………… 100
Danh mục các bảng
Bảng 1.1 Phân phối tần số cho một biến định tính ……… ………… … 3
Bảng 1.2 Bảng sự kiện 2 chiều lý thuyết …………………………….……. 7
Bảng 1.3 So sánh các độ đo kết hợp …………………………………… 11
Bảng 1.4 Bảng sự kiện quan sát giữa các trang catalog và windows ……… 15
Bảng 2.1 Các kiểu mô hình tuyến tính suy rộng …………… …………… 19
Bảng 2.2 Ma trận hỗn độn …………………………………………………. 46
Bảng 3.1 Các loại sản phẩm được xét và các số đếm tần số tương ứng …… 49
Bảng 3.2 Tập dữ liệu giao dịch …………………………………………… 50
10
Bảng 3.3 Cơ sở dữ liệu chủ thẻ …………………………………………… 51
Bảng 3.4 Ví dụ về bảng sự kiện 2 chiều và tính toán các tỷ số chênh …… 52
Bảng 3.5 Các tỷ số chênh lớn nhất giữa các cặp sản phẩm và khoảng tin cậy tương

ứng …………………………………………… ….……… 53
Bảng 3.6 Các ước lượng hợp lý cực đại của các tham số loga tuyến tính 55
Bảng 3.7 Các quy tắc kết hợp có giá cao nhất ………………………… …. 60
Bảng 3.8 Các quy tắc kết hợp có độ tin cậy cao nhất ………………… … 61
Bảng 3.9 Các quy tắc kết hợp lên tới cấp 3 được sắp xếp theo giá ……… 62
Bảng 3.10 Các quy tắc kết hợp cấp 4 được sắp xếp theo độ tin cậy ……… 63
Bảng 3.11 Danh sách các biến về khách hàng ………………………… …. 66
Bảng 3.12 Phân phối của biến phản ứng ………………………………… … 67
Bảng 3.13 Phân phối điều kiện của biến phản ứng trên các biến giải thích
xã hội nhân khẩu học ………………………………………….…. 67
Bảng 3.14 Bảng sự kiện phân lớp biến phản ứng và biến trả góp …………… 68
Bảng 3.15 Ma trận dữ liệu được xét …………………………………………. 70
Bảng 3.16 Mô hình hồi quy logistic được chọn ………………………….… 70
Bảng 3.17 Các quy tắc cho cây phân lớp ………………………………….… 72
Bảng 3.18 Ma trận hỗn độn cho mô hình hồi quy logistic ……………… …. 74
Bảng 3.19 Ma trận hỗn độn cho cây phân lớp CART …………………….…. 75
Bảng 3.20 So sánh tóm tắt của các sai số lỗi phân lớp ………………………. 76
Bảng 3.21 So sánh các chỉ số Gini về hiệu suất …………………………… 77
Bảng 3.22 Cấu trúc của ma trận dữ liệu …………………………………… 81
Bảng 3.23 Phân lớp biến deadline …………………………………………… 81
Bảng 3.24 Phân lớp biến account ……………………………………………. 82
Bảng 3.25 Phân lớp các biến sex và marital status ……………………… … 82
Bảng 3.26 Các tỷ số chênh một chiều với biến phản ứng ………………… 83
Bảng 3.27 Giải thích các tỷ số chênh ……………………………………… 84
Bảng 3.28 Kết quả của quy trình lựa chọn tiến lên ………………………… 85
Bảng 3.29 Ước lượng hợp lý cực đại của các tham số ………………………. 86
11
Bảng 3.30 Giải thích mô hình ước lượng ……………………………………. 88
Bảng 3.31 So sánh giữa các tỷ số chênh một chiều và các tỷ số chênh
nhiều chiều ……………………………………………………… 89

Bảng 3.32 Các kết quả cho cây phân lớp CART với tạp chất Gini ………… 90
Bảng 3.33 Các kết quả cho cây phân lớp CART với tạp chất Entropy …… 94
12
Chương 1
Phân tích dữ liệu thăm dò
Thực tế phần lớn dữ liệu là các biến ngẫu nhiên và vectơ ngẫu nhiên. Biến ngẫu nhiên
được chia thành các loại sau: biến định lượng (liên tục, rời rạc) và biến định tính (thứ tự, định
danh – biến định tính không có thứ tự). Các biến định lượng rời rạc và các biến định tính
được gọi chung là các biến phân hạng (categorical), các kết quả có thể xảy ra của biến được
gọi là các mức. Trong luận văn này phần lớn chỉ nói đến các biến phân hạng, đặc biệt là biến
nhị thức. Đối với các dữ liệu ở dạng biến định lượng liên tục thường được rời rạc hóa thành
các biến định lượng rời rạc. Kiến thức về các biến ngẫu nhiên, vectơ ngẫu nhiên liên tục được
xem là đã biết trước nên lý thuyết của nó không được trình bày trong luận văn này. Để biết
thêm chi tiết, hãy xem [11].
1.1 Phân tích thăm dò đơn biến
Việc phân tích các biến một cách đơn lẻ là một bước quan trọng trong phân tích sơ bộ
dữ liệu; nó có thể thu thập thông tin quan trọng cho phân tích đa biến và việc mô hình hóa sau
này. Các công cụ chính của phân tích thăm dò đơn biến là những biểu diễn đồ thị và một loạt
các chỉ số tóm tắt. Những biểu diễn đồ thị sẽ khác nhau tùy theo kiểu dữ liệu. Các biểu đồ cột
và biểu đồ hình tròn phổ biến được sử dụng cho dữ liệu định danh. Các biểu đồ tần số thường
được sử dụng để biểu diễn các biến định tính thứ tự và các biến định lượng rời rạc – ở đó các
mức được sắp thứ tự trên trục hoành. Để có được một phân phối tần số cho các biến định
lượng liên tục đầu tiên ta phải rời rạc hóa các biến theo các khoảng lớp, bắt đầu bằng việc
thiết lập độ rộng mỗi khoảng. Thông thường quy ước là lấy các khoảng có độ rộng không đổi
hoặc các khoảng có độ rộng khác nhau nhưng với cùng một tần số (đẳng tần). Biểu diễn đồ
thị của các biến liên tục được tái phân loại thành các khoảng lớp là biểu đồ thống kê. Để xây
dựng một biểu đồ thống kê thì các khoảng được chọn phải được bố trí dọc theo trục hoành.
Ta đã biết cách biểu diễn đồ thị của một phân phối đơn biến. Tuy nhiên đôi khi chúng
ta cần tóm tắt hơn nữa tất cả các quan sát; do đó cần xây dựng các chỉ số thống kê thích hợp
13

để tóm tắt những khía cạnh quan trọng của các quan sát. Các chỉ số thống kê một chiều có thể
được phân loại thành các chỉ số về vị trí, sự phân tán, tính bất đối xứng,
1.1.1 Độ đo vị trí
Tôi sẽ không viết lại định nghĩa các độ đo này.
Giá trị trung bình
Tính toán được cho các biến định lượng.
Mode
Tính toán được trên tất cả các loại biến. Với các biến phân hạng thì mode là mức có
tần số lớn nhất.
Trung vị và các điểm phân vị
Không dùng cho dữ liệu định danh. Một giá trị khái quát của trung vị được gọi là phân
vị, nó chia phân phối tần số thành 2 phần có tổng tần số xác định trước. Quan tâm đặc biệt là
các tứ phân vị thứ 1, 2, 3 ký hiệu lần lượt là
1 2 3
, , q q q
chúng chia phân phối tần số thành 4
phần có tổng tần số bằng nhau. Cụ thể, tổng tần số của các quan sát nhỏ hơn
1
q
là 0,25, nhỏ
hơn
2
q
(trung vị) là 0,5, nhỏ hơn
3
q
là 0,75.
1.1.2 Độ đo sự phân tán
Một chỉ số đơn giản của sự phân tán là hiệu số giữa giá trị quan sát lớn nhất và giá trị
quan sát nhỏ nhất của một biến, được gọi là biên độ dao động. Một chỉ số đơn giản khác là

3 1
IQR q q= −
được gọi là phạm vi khoảng tứ phân vị. Biên độ và
IQR
không được sử dụng
thường xuyên.
Biến định lượng
Đối với dữ liệu định lượng, thì phép đo độ phân tán là phương sai. Cho trước một mẫu
N
quan sát
1 2
, , ,
N
x x x
của biến
X
thì phương sai mẫu được xác định như sau:
( )
2
2
1
1
( )
N
i
i
s X x x
N
=
= −


và để có được ước lượng không chệch cho phương sai của biến
X
thì ta hay sử dụng công thức
( )
2
2
1
1
( )
1
N
i
i
s X x x
N
=
= −


.
Biến định tính
14
Tương tự như phương sai của biến định lượng, đối với các biến định tính cũng có các
độ đo về sự phân tán, tất nhiên là không thể sử dụng khái niệm phương sai mà có cách đo
khác về sự phân tán. Xét một biểu diễn tổng quát của phân phối tần số của một biến định tính
với
k
mức.
Bảng 1.1 Phân phối tần số cho một biến định tính

Các mức của biến Tần số tương đối
*
1
x
1
p
*
2
x
2
p
M
M
*
k
x
k
p
Có 2 tình huống cực hạn:
• Không thuần nhất rỗng:
1
j
p =
với
j
nào đó,
0
i
p =
với

i j∀ ≠
• Không thuần nhất cực đại:
1
, 1,
i
p i k
k
= ∀ =
Một chỉ số về sự phân tán sẽ phải đạt giá trị cực tiểu trong tình huống thứ 1 và đạt giá trị cực
đại trong tình huống thứ 2. Chú ý, trong toàn bộ luận văn, tôi dùng ký hiệu
log k =
lôga
nêpe của
k
.
Bây giờ ta đưa ra 2 chỉ số thỏa mãn các điều kiện trên:
Chỉ số Gini:
2
1
1
k
i
i
G p
=
= −



chỉ số Gini chuẩn hóa:

'
( 1) /
G
G
k k
=

Chỉ số Entropy:
1
.log
k
i i
i
E p p
=
= −


chỉ số Entropy chuẩn hóa:
'
log
E
E
k
=
1.1.3 Các độ đo về tính bất đối xứng
Để có được một dấu hiệu về sự bất đối xứng của một phân phối, ta có thể so sánh giá
trị trung bình với trung vị. Nếu những độ đo này gần như bằng nhau thì dữ liệu có xu hướng
phân bố một cách đối xứng. Nếu giá trị trung bình lớn hơn trung vị, thì phân phối được gọi là
lệch phải (bất đối xứng dương); nếu trung vị lớn hơn giá trị trung bình thì phân phối được gọi

là lệch trái (bất đối xứng âm). Có thể dùng các biểu đồ cột hoặc biểu đồ thống kê để điều tra
hình thức của phân phối dữ liệu. Hình 1.1 thể hiện các biểu đồ thống kê cho một phân phối
lệch phải, một phân phối đối xứng và một phân phối lệch trái.
15
Hình 1.1 Các biểu đồ thống kê mô tả các phân phối
(a) lệch phải (trung bình > trung vị)
(b) đối xứng (trung bình = trung vị)
(c) lệch trái (trung bình < trung vị):
Một công cụ khác là hộp đồ thị. Hộp đồ thị sử dụng trung vị
Me
, điểm tứ phân vị thứ
1
1
q
, thứ 3
3
q
và phạm vị khoảng tứ phân vị
IQR
. Hình 1.2 cho thấy một ví dụ. Ở đây
1 2
, T T
được định nghĩa như sau:
1
T
= max (giá trị quan sát nhỏ nhất,
1
1,5.−q IQR
)
2

T
= max (giá trị quan sát lớn nhất,
3
1,5.+q IQR
)
Hình 1.2 Hộp đồ thị
Nếu
Me
cách đều
1 3
, Q Q
thì phân phối là đối xứng; nếu khác đi thì phân phối bị lệch.
Ví dụ khi
3 1
Q Me Me Q− > −
thì phân phối lệch phải như hình 1.2. Hộp đồ thị cũng chỉ ra sự
hiện diện của những quan sát bất thường hay ngoại lệ, đó là những giá trị quan sát nhỏ hơn
1
T
hoặc lớn hơn
2
T
. Hình 1.2 thể hiện một phân phối lệch phải. Hơn nữa một số quan sát bất
thường hiện diện ở đuôi bên phải của phân phối.
Một chỉ số thống kê tóm tắt có thể đo tính bất đối xứng của phân phối (chỉ tính toán
được đối với biến định lượng), ký hiệu là
γ
, được xác định như sau:
16
3

3
s
µ
γ
=
, trong đó
( ) ( )
3 2
1 1
3
,
N N
i i
i i
x x x x
s
N N
µ
= =
− −
= =
∑ ∑
Có 3 trường hợp cụ thể:
• Nếu
0
γ
=
thì phân phối là đối xứng
• Nếu
0

γ
<
thì phân phối là bất đối xứng trái
• Nếu
0
γ
>
thì phân phối là bất đối xứng phải
1.1.4 Nhị phân hóa một biến định tính
Trong khai thác dữ liệu, nhiều khi ta cần nhị phân hóa một biến định tính, nhất là đối
với biến định danh. Giả sử
X
là biến định tính với
I
mức
{ }
1,2, ,I
. Khi đó sẽ có một song
ánh giữa
X
và vectơ các biến Bernoulli
( )
1 2 I 1 I
X ,X , ,X ,X

, trong đó
i
1 khi X i
X , i 1,I
0 khi X i

=

= =



.
Vì chỉ cần biết thông tin của
X
về
I 1

mức là biết được thông tin về mức còn lại nên cũng
có một song ánh giữa
X
và vectơ
( )
1 2 I 1
X ,X , ,X

.
Như vậy khi làm việc với
X
, ta có thể làm việc với
( )
1 2 I 1 I
X ,X , ,X ,X

hoặc với
( )

1 2 I 1
X ,X , ,X

và có thể coi biến Bernoulli là biến định lượng (có metric giữa các mức).
1.2 Phân tích thăm dò hai biến
Mối quan hệ giữa 2 biến có thể được biểu diễn đồ thị bằng cách sử dụng đồ thị phân
tán. Trên mặt phẳng tọa độ, trục hoành biểu diễn các giá trị (biến định lượng) hoặc các mức
(biến định tính) của một biến còn trục tung biểu diễn các giá trị hoặc các mức của biến kia.
Khi đó các tọa độ tạo thành một hình, hình này được gọi là đồ thị phân tán của 2 biến. Đồ thị
phân tán là một biểu diễn trực quan về mối quan hệ giữa 2 biến. Đồ thị phân tán được vẽ với
mọi loại biến. Ở đây có hình minh họa đồ thị phân tán, nó mô tả mối quan hệ giữa 2 biến định
lượng liên tục ROI và ROE.
17

Hình 1.3 Đồ thị phân tán
Một tập dữ liệu thực tế thường chứa nhiều hơn 2 biến, nhưng cũng có thể truy xuất
được những thông tin liên quan từ việc phân tích mỗi đồ thị phân tán. Ta có thể tạo ra một ma
trận đồ thị phân tán trong đó mỗi thành phần là đồ thị phân tán của 2 biến tương ứng với dòng
và cột.
Hình 1.4 Ma trận đồ thị phân tán
18
Đối với phân tích thăm dò nhiều hơn 2 biến định lượng sẽ không được trình bày ở đây;
đó là hiệp phương sai, ma trận hiệp phương sai, hệ số tương quan, ma trận tương quan…và ta
đã biết như là kiến thức cơ sở. Việc phân tích thăm dò nhiều hơn 2 biến định tính sẽ được
trình bày ở mục tiếp theo.
1.3 Phân tích thăm dò dữ liệu định tính nhiều biến
Ta đã sử dụng hiệp phương sai và hệ số tương quan như là những phép đo chính trong
việc đo các mối quan hệ thống kê giữa các biến định lượng. Với các biến định tính thứ tự thì
có thể mở rộng hiệp phương sai và hệ số tương quan tới các hạng của các biến. Hệ số tương
quan giữa các hạng được gọi là hệ số tương quan Spearman.

Nói chung, việc chuyển các mức của các biến định tính thứ tự sang các hạng tương
ứng cho phép hầu hết các phân tích ứng dụng cho dữ liệu định lượng được mở rộng tới
trường hợp định tính thứ tự bao gồm cả việc phân tích các thành phần chính. Tuy nhiên nếu
ma trận dữ liệu chứa dữ liệu định danh thì khái niệm hiệp phương sai và hệ số tương quan
không thể sử dụng được nữa. Phần còn lại của mục này xem xét các phép đo tóm tắt về mức
độ của các mối quan hệ giữa các biến định tính bất kỳ. Những độ đo này được gọi là các chỉ
số kết hợp. Những chỉ số này đôi khi có thể được áp dụng cho các biến định lượng rời rạc.
Trong việc kiểm tra các biến định tính, một phần cơ bản được tham gia bởi các tần số
của các mức của biến. Dữ liệu định tính thường được biểu diễn trực tiếp dưới dạng một bảng
sự kiện. Bảng 1.2 là một bảng sự kiện 2 chiều lý thuyết để giới thiệu khái niệm được sử dụng
trong mục này.
Bảng 1.2 Bảng sự kiện 2 chiều lý thuyết
1 j J
Y Y YL L
Tổng
1
i
I
X
X
X
M
M
11 1 j 1J
i1 ij iJ
I 1 Ij IJ
n n n
n n n
n n n
L L

M M M
L L
M M M
L L
1
i
I
n
n
n
+
+
+
M
M
Tổng
1 j J
n n n
+ + +
L L
n
19
X
Y
Ở đây:
ij
n
là tần số của cặp mức
( )
;

i j
X Y
với
1, , 1,i I j J= =
của các biến
, X Y
.
ij
n
được gọi là
các tần số ô.
*
1

J
i ij
j
n n
+
=
=

là tần số biên duyên của dòng thứ
i
trong bảng, nó biểu diễn tổng số quan sát
ở mức thứ
i
của biến
X
,

1,i I=
.
*
ij
1
I
j
i
n n
+
=
=

là tần số biên duyên của cột thứ
j
trong bảng, nó ký hiệu cho tổng số các quan
sát ở mức thứ
j
của biến
Y
,
1,j J=
. Với các tần số trong bảng, ta có thể viết mối quan hệ
biên duyên như sau:
ij
1 1 1 1
I J I J
i j
i j i j
n n n n

+ +
= = = =
= = =
∑ ∑ ∑∑
Từ
p
biến, ta xây dựng được
( 1)
2
p p −
bảng sự kiện 2 chiều, tương ứng với tất cả các cặp
biến định tính.
1.3.1. Độc lập và liên kết
Để xây dựng các chỉ số mô tả mối quan hệ giữa các biến định tính, chúng ta cần khái
niệm độc lập thống kê. Hai biến
X

Y
được gọi là độc lập thống kê nếu chúng thỏa mãn
các điều kiện sau đây:
1 2
1 2
, 1,
ij
i i iJ i
j J
n
n n n n
i I
n n n n n

+
+ + + +
= = = = = = ∀ =
1 2
1 2
, 1,
j j ij Ij j
i I
n n n n n
j I
n n n n n
+
+ + + +
⇔ = = = = = = ∀ =

, 1, , 1,
. , 1, , 1,
i j
ij
ij j
i
n n
n i I j J
n
n n
n
i I j J
n n n
+ +
+

+
⇔ = ∀ = ∀ =
⇔ = ∀ = ∀ =
Dưới dạng các tần số tương đối, thì điều này tương đương với:
( )
,
( , ) ( ). ( ), ,
i j X i Y j
X Y
p x y p x p y i j= ∀
Tổng quát, với bảng nhiều chiều
1 2 p
I I I× × ×
cho
p
biến
1 2 p
X ,X , ,X
thì
Các biến độc lập
1 2
1 2


. , 1,
p p
i i i i
i i
k k
n n

n n
i I
n n n n
+ +
+ + + + +
⇔ = ∀ =
20
Hay
( )
1 2
1 2
1 2 1 2
, , ,
( , , , ) ( ). ( ) ( )
p
p
p X X X p
X X X
p x x x p x p x p x=
.
Các khái niệm và kết quả cho bảng nhiều chiều cũng hoàn toàn tương tự với các khái niệm và
kết quả cho bảng 2 chiều. Ở đây, về mặt lý thuyết, ta tập trung vào bảng 2 chiều.
Khi làm việc với dữ liệu thực tế, thì điều kiện độc lập thống kê hầu như không bao giờ thỏa
mãn chính xác mà các dữ liệu quan sát thường cho thấy một mức phụ thuộc qua lại nào đó
giữa các biến.
Khái niệm độc lập thống kê áp dụng cho các biến ngẫu nhiên định tính và định lượng.
Đối với các biến định lượng, có thể tính được các phép đo tóm tắt (được gọi là các phép đo
tương quan) nó thực hiện trên cả các mức và các tần số. Đối với các biến định tính, các phép
đo tóm tắt (được gọi là các phép đo liên kết) chỉ có thể sử dụng các tần số bởi vì các mức
không metric.

Đối với các biến định lượng, nếu 2 biến
, X Y
độc lập thống kê thì
cov( , ) 0 ( r(X,Y)=0)X Y = ⇔
. Điều ngược lại chưa chắc đúng, tức là nếu 2 biến
, X Y
thỏa
mãn
cov( , ) 0 ( ( , ) 0)X Y r X Y= ⇔ =
thì không suy ra được 2 biến này độc lập. Có một ngoại lệ
là khi
( , )X Y
là phân phối chuẩn 2 chiều thì từ sự không tương quan suy ra sự độc lập.
Các phép đo liên kết có nhiều loại, ở đây ta kiểm tra 3 loại khác nhau: các độ đo
khoảng cách, các độ đo sự phụ thuộc và các độ đo dựa trên mô hình.
1.3.2 Các độ đo khoảng cách
Sự độc lập giữa 2 biến
, X Y
xảy ra khi
, 1, , 1,
i j
ij
n n
n i I j J
n
+ +
= ∀ = ∀ =
Một phương pháp đầu tiên để tóm tắt sự kết hợp có thể được dựa trên việc tính toán một độ
đo toàn diện về tính bất đồng giữa tần số quan sát
ij

n
và kỳ vọng của nó:
*
i j
ij
n n
n
n
+ +
=
trong các
giả thuyết về sự độc lập giữa 2 biến. Thống kê ban đầu được đề xuất bởi Karl Pearson là phép
đo được sử dụng rộng rãi nhất cho việc xác minh giả thuyết về sự độc lập giữa
X

Y
. Nó
được định nghĩa như sau:
* 2
2
*
1 1
( )
I J
ij ij
i j
ij
n n
n
χ

= =

=
∑∑
21
Chú ý rằng
2
0
χ
=
nếu các biến
, X Y
độc lập. Thống kê
2
χ
có thể được viết dưới dạng tương
đương (để nhấn mạnh sự phụ thuộc của thống kê
2
χ
vào số quan sát
n
):
2
2
1 1
1
I J
ij
i j
i j

n
n
n n
χ
= =
+ +
 
= −
 ÷
 ÷
 
∑∑

Đây là một hàm tăng theo
n
. Điều này cho thấy một bất tiện. Để khắc phục sự bất tiện ấy,
một số phép đo thay thế đã được đề xuất, chẳng hạn như:
2
2
2
1 1
1
I J
ij
i j
i j
n
n n n
χ
= =

+ +
Φ = = −
∑∑
Với các bảng sự kiện
2 2×
biểu diễn các biến nhị thức thì
2
Φ
đã ở dạng chuẩn hóa vì nó nhận
các giá trị thuộc
[ ]
0;1
.
Có thể chỉ ra rằng:
2
2
cov ( , )
( ) ( )
X Y
Var X Var Y
Φ =
chính là bình phương hệ số tương quan tuyến tính. Với các bảng sự kiện lớn hơn
I J
×
thì
2
Φ
không ở dạng chuẩn hóa. Để có được chỉ số chuẩn hóa hữu ích cho so sánh, ta sử dụng một
cải tiến khác của
2

χ
được gọi là chỉ số Cramer. Chỉ số Cramer có được bằng cách chia
2
Φ
cho giá trị lớn nhất mà nó có thể đạt được:
{ }
2
max min I 1, J 1
Φ
= − −
. Do đó chỉ số
Cramer bằng:
{ }
2
2
.min 1, 1
V
n I J
χ
=
− −
Ta cũng có kết quả:
*
2
0V = ⇔
, X Y
độc lập
*
2
1V =

với sự phụ thuộc lớn nhất giữa 2 biến.
Do đó có 3 tình huống:
+
2
1V =

I J

: Có sự phụ thuộc lớn nhất của
Y
vào
X
khi mỗi dòng của bảng 1.7 có
duy nhất 1 tần số khác 0. Điều này xảy ra nếu với mỗi mức của
X
tương ứng với 1 và chỉ 1
mức của
Y
.
+
2
1V =

J I≥
: Có sự phụ thuộc lớn nhất của
X
vào
Y
nếu ở mỗi cột của bảng có duy
nhất 1 tần số khác 0. Điều này có nghĩa là với mỗi mức của

Y
tương ứng với 1 và chỉ 1 mức
của
X
.
22
+
2
1V =

I J=
: Nếu 2 điều kiện trên đồng thời xảy ra, tức là thì 2 biến được gọi là phụ
thuộc lẫn nhau tối đa.
Chúng ta đã giới thiệu trường hợp các bảng sự kiện 2 chiều liên quan đến 2 biến với
một số tùy ý các mức. Tuy nhiên các phép đo ở đây có thể áp dụng được cho các bảng sự kiện
nhiều chiều.
Các chỉ số kết hợp dựa trên thống kê khi – bình phương Pearson
2
χ
đo khoảng cách
của mối quan hệ giữa
X

Y
tới tình huống độc lập. Chúng đề cập đến một khái niệm
chung về sự kết hợp, theo nghĩa là chúng chỉ đo khoảng cách tới tình huống độc lập, mà
không đưa ra thông tin về bản chất của khoảng cách đó. Những chỉ số này khá tổng quát, vì
chúng có thể được áp dụng với cùng cách thức cho tất cả các loại bảng sự kiện. Hơn nữa như
chúng ta thấy thống kê
2

χ
có một phân phối tiệm cận phân phối khi – bình phương, nên nó
cũng có thể được sử dụng để đánh giá một ngưỡng suy luận nhằm quy nạp xem liệu các biến
được kiểm tra có phụ thuộc nhau đáng kể hay không. Bảng 1.3 cho thấy một ví dụ tính toán
các độ đo dựa trên
2
χ
.
Bảng 1.3 So sánh các độ đo kết hợp
1.3.3 Các độ đo sự phụ thuộc
Các độ đo đã thấy cho đến giờ là tất cả các hàm của thống kê
2
χ
, do đó chúng gần như
không giải thích được trong hầu hết các ứng dụng thực tế. Khía cạnh này đã được nhấn mạnh
bởi Goodman và Kruskal (1979), những người đã đề xuất một cách tiếp cận thay thế để đo sự
kết hợp trong một bảng sự kiện. Các thiết lập tiếp theo của Goodman và Kruskal được dựa
23
trên việc định nghĩa các chỉ số cho các ngữ cảnh cụ thể đang được điều tra. Nói cách khác,
các chỉ số này xác định bản chất sự phụ thuộc giữa các biến hiện có.
Giả sử rằng trong một bảng sự kiện 2 chiều,
Y
là biến phản ứng (phụ thuộc),
X

biến giải thích (độc lập). Ta có thể đánh giá xem thông tin về mức của
X
có thể làm giảm
tính không xác định về các mức của
Y

hay không. Mức độ không xác định về mức của một
tính chất định tính thường được biểu thị bằng cách sử dụng một chỉ số không thuần nhất (xem
1.1.3).
Cho
( )
1 2
( ) , , ,
J
Y f f f
δ
+ + +
=
là độ đo không thuần nhất cho phân phối biên duyên của
Y
, được chỉ ra bằng vectơ các tần số biên duyên. Tương tự, cho
( | )Y i
δ
là độ đo sự phân tán
được tính toán dựa trên phân phối điều kiên của
Y
đối với dòng thứ
i
của biến
X
trong bảng
sự kiện:
( )
1| 2| | |
( | ) , , , ; ,
ij

i
i i J i j i i
i
f
n
Y i f f f f f
f n
δ
+
+
+
= = =
.
Một chỉ số kết hợp được dựa trên “sự giảm theo tỷ lệ lỗi” hay chỉ số giảm tỷ lệ lỗi (EPR:
error proportianal reduction index) có thể được tính như sau:
( ) [ ( | )]
( )
Y M Y X
EPR
Y
δ δ
δ

=
Ở đây
[ ( | )]M Y X
δ
là không thuần nhất trung bình được tính đối với phân phối của
X
, cụ thể

là:
1
[ ( | )] . ( | ),
I
i
i i
i
n
M Y X f Y i f
n
δ δ
+
+ +
=
= =

Chú ý: hàm
( )
t
δ
được xác định trong 2 trường hợp trên (chỉ số Gini hoặc chỉ số Entropy) là
hàm lõm
J
biến nên theo bất đẳng thức Jensen ta có:
( ) [ ( | )] 0 1Y M Y X EPR
δ δ
≥ ⇒ ≤ ≤
Chỉ số này đo tỷ lệ không thuần nhất của
Y
(được tính thông qua

δ
), nó có thể được giải
thích bằng mối liên hệ với
X
. Cấu trúc của nó tương tự với các bình phương hệ số tương
quan tuyến tính. Bằng việc chọn
δ
thích hợp, có thể có được các độ đo kết hợp khác nhau.
Thông thường là sự lựa chọn giữa chỉ số Gini và chỉ số Entropy. Việc sử dụng chỉ số Gini
trong biểu thức
EPR
, ta có được hệ số tập trung
|Y X
τ
:
24
2
2
1 1 1
|
2
1
1
I J J
ij
j
i j j
i
Y X
J

j
j
f
f
f
f
τ
+
= = =
+
+
=

=

∑∑ ∑

Bằng việc sử dụng chỉ số Entropy trong biểu thức
EPR
, ta có được hệ số không xác định
|Y X
U
:
( )
1 1
|
1
.log
.log
I J

ij
ij
i j
i j
Y X
J
j j
j
f
f
f f
U
f f
= =
+ +
+ +
=
 
 ÷
 ÷
 
= −
∑∑

Trong trường hợp các tần số bằng 0, ta quy ước
log0 0=
. Cả
|Y X
τ


|Y X
U
đều lấy giá trị trong
đoạn
[ ]
0; 1
. Ta có thể chỉ ra rằng:
*
| |
0
Y X Y X
U
τ
= =


các biến độc lập
*
| |
1
Y X Y X
U
τ
= = ⇔

Y
phụ thuộc tối đa vào
X
.
Cả

|Y X
τ

|Y X
U
đều biểu diễn các lượng giảm sự không thuần nhất mà có thể được giải thích
thông qua sự phụ thuộc của
Y
vào
X
. Để ứng dụng chúng đòi hỏi chúng ta phải xác định
một mối quan hệ nhân quả từ một biến (giải thích) với biến khác (phụ thuộc), trong khi các
chỉ số dựa trên
2
χ
thì đối xứng. Hơn nữa
2
χ
không dễ dàng mở rộng được cho các bảng sự
kiện với số chiều lớn hơn 2 để có được một ngưỡng suy luận.
1.3.4 Các độ đo dựa trên mô hình
Ta có thể kiểm tra các phép đo kết hợp mà không phụ thuộc vào các phân phối biên
duyên của các biến. Không có phép đo nào trước đó đáp ứng được yêu cầu này. Bây giờ ta
xem xét một lớp các chỉ số dễ dàng giải thích được mà không phụ thuộc vào các phân phối
biên duyên. Những phép đo này được dựa vào các mô hình xác suất, do đó cho phép một xử
lý suy luận. Ta sẽ giả sử một mô hình xác suất, trong đó các tần số tương đối ô được thay
bằng các xác suất ô. Các xác suất ô có thể được giải thích như các tần số tương đối khi cỡ
mẫu dần tới vô cùng, do đó chúng có cùng các tính chất như các tần số tương đối. Các số đếm
ô trong bảng thường có phân phối đa thức để điều tra sự phụ thuộc giữa các biến hoặc đôi khi
trong bảng 2 chiều các số đếm ô có phân phối tích đa thức để điều tra sự khác nhau về tỷ lệ

trong các quần thể.
25

×