Tải bản đầy đủ (.pdf) (132 trang)

Phương pháp thống kê trong kinh doanh và tài chính

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.16 MB, 132 trang )

vi
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN HÀ NỘI
--------------------

HOÀNG MINH ĐÔNG

PHƢƠNG PHÁP THỐNG KÊ
TRONG KINH DOANH VÀ TÀI CHÍNH

LUẬN VĂN THẠC SỸ KHOA HỌC

Hà Nội – 2013


vii
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN HÀ NỘI
--------------------

HOÀNG MINH ĐÔNG

PHƢƠNG PHÁP THỐNG KÊ
TRONG KINH DOANH VÀ TÀI CHÍNH
Chuyên ngành: Lý thuyết xác suất và thống kê toán học
Mã số:

60.46.15

LUẬN VĂN THẠC SỸ KHOA HỌC


NGƯỜI HƯỚNG DẪN KHOA HỌC:GS. TSKH ĐẶNG HÙNG THẮNG

Hà Nội – 2013


viii

Lời mở đầu
Chúng ta đang sống trong xã hội chết ngạt vì dữ liệu, nhưng lại đói khát về
thông tin. Chính do nhu cầu tìm kiếm thông tin từ một khối lượng lớn dữ liệu đã
dẫn đến sự cần thiết phải có các công cụ phù hợp để làm việc này, mà khai thác dữ
liệu (Data mining) là một công cụ chính yếu. Khai thác dữ liệu đã được phát triển
như là một ngành tương đối mới, nó liên quan tới hai lĩnh vực chủ yếu là thống kê,
khoa học máy tính.Với sự yêu thích toán ứng dụng cùng với chút hiểu biết về xác
suất và thống kê, đã thôi thúc tôi tìm hiểu về lĩnh vực khai thác dữ liệu – đó cũng
là lý do tôi chọn đề tài “Phƣơng pháp thống kê trong kinh doanh và tài chính”.
Đến nay vẫn chưa có định nghĩa thống nhất cho khái niệm khai thác dữ liệu.
Nhưng tôi cho rằng định nghĩa sau đây của tác giả Paolo Giudici (người Ý) trong
cuốn Applied Data Mining. Statistical methods for Business and Industry ([5]) là
hoàn chỉnh hơn và tôi cũng đồng ý với định nghĩa này; cuốn sách này cũng là tài
liệu tham khảo chính cho luận văn của tôi. Paolo Giudici phát biểu rằng: Khai thác
dữ liệu là quá trình lựa chọn, thăm dò và mô hình hóa khối lượng lớn dữ liệu để
tìm ra những quy luật hoặc những mối quan hệ từ những ẩn số đầu tiên với mục
đích là đạt được các kết quả rõ ràng và hữu ích cho các chủ sở hữu cơ sở dữ liệu.
Cụ thể, khai thác dữ liệu bao gồm một chuỗi các hoạt động từ xác định mục
tiêu phân tích đến đánh giá kết quả. Chuỗi hoạt động này có thể được phân chia
thành các giai đoạn như sau:
(1). Xác định mục tiêu phân tích:
Thực tế, các mục tiêu mà công ty hướng tới thường rõ ràng, nhưng các vấn
đề tiềm ẩn có thể gây khó khăn khi chuyển sang các mục tiêu cụ thể cho phân tích.

Một phát biểu rõ ràng về vấn đề và các mục tiêu cần đạt được là điều kiện tiên
quyết để thiết lập các phân tích chính xác.


ix
(2). Lựa chọn, tổ chức và tiền xử lý dữ liệu:
Giai đoạn lựa chọn, tổ chức và tiền xử lý dữ liệu không được trình bày trong
luận văn vì nó liên quan chủ yếu đến lĩnh cực khác chẳng hạn như công nghệ thông
tin hơn là liên quan đến thống kê – khía cạnh mà tôi quan tâm. Cũng vì vậy mà các
khái niệm về cơ sở dữ liệu, siêu thị dữ liệu cũng không được trình bày trong luận
văn này. Để biết thêm chi tiết, chúng ta có thể xem [7] và [8].
(3). Phân tích thăm dò dữ liệu và chuyển đổi dữ liệu (nếu cần):
Phân tích thăm dò có thể phát hiện ra bất kỳ dữ liệu bất thường nào – khác
với phần còn lại của dữ liệu. Những dữ liệu cụ thể này không nhất thiết phải bị loại
bỏ vì nó có thể chứa thông tin quan trọng để đạt được các mục tiêu phân tích. Phân
tích thăm dò dữ liệu luôn luôn cần thiết vì nó cho phép nhà phân tích dự đoán
những phương pháp thống kê nào thích hợp nhất trong giai đoạn tiếp theo của phân
tích. Việc phân tích thăm dò cũng có thể đề xuất việc thu thập dữ liệu mới vì dữ
liệu hiện tại không đủ để đạt được mục đích. Các phương pháp thăm dò chính cho
khai thác dữ liệu sẽ được trình bày ở chương 1. Để biết thêm chi tiết, chúng ta có
thể xem [11].
(4). Xác định các phƣơng pháp thống kê đƣợc sử dụng trong các giai đoạn
phân tích:
Có nhiều phương pháp thống kê và cũng có nhiều thuật toán có thể được sử
dụng, vì vậy điều quan trọng là phải có một sự phân loại các phương pháp đó. Việc
lựa chọn các phương pháp phụ thuộc vào vấn đề được nghiên cứu hoặc kiểu dữ
liệu hiện có. Dựa trên mục đích phân tích, ta có thể phân chia thành 3 loại chính:
(a). Phƣơng pháp mô tả: Tức là các biến được đối xử như nhau và không có
giả thuyết nhân quả. Có các phương pháp như phân tích phương sai, phân cụm
(cluster), bản đồ Kohonen (Kohonen map) – xem Bishop, C. (1995), Neural

Networks for Pattern Recognition, Clarendon Press, Oxford., các phương pháp kết
hợp (có 2 phương pháp cơ bản là bagging và boosting), các mô hình loga tuyến


x
tính (log-linear models) – tiết xem [1] và [3] và các mô hình đồ thị (graphical
models) – xem Whittaker (1990), Edwards (1995) hoặc Lauritzen (1996). Trong
toàn bộ luận văn của mình, tôi chỉ nói đến mô hình loga tuyến tính. Lý thuyết về
mô hình loga tuyến tính được trình bày ở chương 2.
(b). Phƣơng pháp dự báo: Có các phương pháp như hồi quy tuyến tính
chuẩn, hồi quy logistic (logistic regression) - chi tiết xem [1] và [3], cây quyết định
(decision tree) – có nhiều tài liệu, chẳng hạn như tài liệu [2] và mạng thần kinh
(neural network) – Bishop (1995) với công cụ perceptron nhiều lớp. Lý thuyết về
hồi quy tuyến tính chuẩn được xem như là kiến thức cơ bản nên sẽ không được
trình bày trong luận văn. Lý thuyết mạng thần kinh là một phương pháp thiên về
tính toán nên tôi cũng không dùng phương pháp này cho phân tích bài toán của
mình. Còn hồi quy logistic (một mô hình thống kê) và cây quyết định (phương
pháp rõ ràng, dễ hiểu cho bài toán phân lớp và hồi quy) là được trình bày lý thuyết
và được áp dụng cho các bài toán. Hai phương pháp này được trình bày ở chương
2.
(c). Phƣơng pháp địa phƣơng: Bao gồm các quy tắc kết hợp (association
rules) và các quy tắc trình tự (sequence rules). Tôi sẽ chỉ quan tâm tới các quy tắc
kết hợp. Lý thuyết của nó được trình bày ở chương 2.
(5). Phân tích dữ liệu dựa trên các phƣơng pháp đã chọn:
Phân tích dữ liệu cần có sự trợ giúp tính toán của máy tính bằng cách sử
dụng các phần mềm thống kê chẳng hạn như phần mềm SAS Enterprise Miner,
SPSS, STATA, R... và hầu hết các thuật toán sẽ không được trình bày trong luận
văn.
(6). Đánh giá và so sánh các phƣơng pháp đƣợc sử dụng. Lựa chọn mô hình
cuối cùng cho phân tích:

Để tạo ra một quyết định cuối cùng, điều cần thiết là chọn mô hình phân tích
dữ liệu tốt nhất từ các phương pháp thống kê hiện có. Do đó việc lựa chọn mô hình


xi
phải dựa trên một sự so sánh giữa các kết quả thu được từ các phương pháp khác
nhau. Đây là một việc kiểm tra về tính hợp lý của các phương pháp thống kê cụ thể
mà sau đó nó được áp dụng vào dữ liệu. Có thể không có phương pháp nào trong
các phương pháp đã sử dụng cho phép các mục tiêu đạt được một cách thỏa đáng,
khi đó cần thiết phải quay trở lại xác định một phương pháp mới thích hợp hơn cho
phân tích. Khi đánh giá hiệu suất của một phương pháp cụ thể, các yếu tố khác vẫn
phải được xem xét như ràng buộc về thời gian, ràng buộc về nguồn lực, chất lượng
dữ liệu và tính sẵn sàng của dữ liệu. Các phương pháp khác nhau có khả năng làm
nổi bật các khía cạnh khác nhau, như vậy đôi khi nếu không xét đồng thời các
phương pháp thì nhiều khía cạnh sẽ bị bỏ qua.
(7). Giải thích mô hình đã chọn và cách sử dụng tiếp theo trong quá trình
quyết định:
Khai thác dữ liệu không chỉ là phân tích dữ liệu mà còn là tích hợp các kết
quả vào quá trình quyết định của công ty. Việc khai thác các quy tắc và sử dụng
chúng trong cho phép chúng ta chuyển từ giai đoạn phân tích sang giai đoạn sản
sinh ra một động cơ quyết định. Một khi mô hình được chọn và được thực hiện với
một tập dữ liệu thì quy tắc phân loại có thể được áp dụng cho toàn bộ quần thể
tham chiếu. Ví dụ chúng ta có thể phân biệt trước, đó là khách hàng sẽ mang lại lợi
nhuận hay không mang lại lợi nhuận hoặc chúng ta có thể điều chỉnh các chính
sách phân biệt thương mại cho các nhóm khách hàng mục tiêu khác nhau nhằm
làm tăng lợi nhuận của công ty. Do tôi chỉ chú trọng vào khía cạnh thống kê của
khai thác dữ liệu nên giai đoạn này sẽ không được trình bày trong luận văn.
Các bài toán cụ thể trong luận văn sẽ bắt đầu bằng mục tiêu phân tích, rồi
qua các bước mô tả dữ liệu, phân tích thăm dò, xây dựng mô hình và kết thúc bằng
so sánh mô hình.



xii
Cuối cùng, tôi cũng xin xác nhận rằng trong luận văn này tôi dùng cuốn sách
[5] của tác giả Giudici làm tài liệu tham khảo chính trong đó bao gồm cả ba bài
toán ứng dụng.
Luận văn được chia làm 3 chương cùng với lời mở đầu, kết luận và danh
mục tài liệu tham khảo:
Chƣơng 1: Phân tích dữ liệu thăm dò.
Trước khi tìm một mô hình thống kê cho tập dữ liệu, ta phải tiến hành phân
tích thăm dò cho từng biến và cho từng cặp biến thông qua các độ đo để sau đó lựa
chọn mô hình hợp lý.
Chƣơng 2: Các mô hình thống kê.
Có nhiều mô hình dùng cho khai thác dữ liệu, trong đó có cả những mô hình
thiên về thống kê và những mô hình thiên về tính toán. Như tôi đã nói ở trên,
chương này tôi chi nói về mô hình tuyến tính suy rộng, mô hình hồi quy logistic,
cây quyết định (thống kê dự báo), mô hình loga tuyến tính (thống kê mô tả) và quy
tắc kết hợp (mô hình địa phương)
Chƣơng 3: Một số ứng dụng trong kinh doanh và tài chính.
Chương này có ba bài toán thực tế là Phân tích thị trường qua giỏ hàng,
Quản lý quan hệ khách hàng và Tính điểm tín dụng (tham khảo thêm ở [6]). Ở đây,
tôi chỉ dùng các mô hình trên làm phương pháp phân tích ba bài toán này. Quả thật
là việc xử lý dữ liệu phải cần đến các phần mềm thống kê, đặc biệt là phần mềm
SAS Enterprise Miner, nhưng thật tiếc là tôi không có điều kiện để làm việc này
nên tôi chỉ dùng dữ liệu và kết quả đã phân tích được của Paolo Giudici.


xiii
Luận văn được hoàn thành dưới sự hướng dẫn khoa học của GS. TSKH
Đặng Hùng Thắng – giảng viên trường Đại học Khoa học tự nhiên – Đại học Quốc

gia Hà Nội. Em xin bày tỏ lòng biết ơn chân thành đến thầy vì sự chỉ bảo của thầy
trong suốt thời gian qua giúp em hoàn thành luận văn.
Nhân dịp này em cũng xin bày tỏ lòng biết ơn sâu sắc đến các thầy phản
biện, những người đã đọc và đóng góp ý kiến để luận văn của em được hoàn thiện
hơn.
Cuối cùng, tôi cũng xin cám ơn các cán bộ trường THPT Nam Duyên Hà –
Hưng Hà – Thái Bình, sở Giáo dục & Đào tạo tỉnh Thái Bình đã tạo điều kiện về
thời gian và kinh phí cho tôi đi học và cám ơn các thầy cô giáo trường Đại học
Khoa học tự nhiên đã tận tình giảng dạy, cung cấp những kiến thức toán học để tôi
hoàn thiện hơn về chuyên môn.
Hà Nội, tháng 5, năm 2013


xiv

Mục lục
Chƣơng 1. Phân tích dữ liệu thăm dò………………….... 1
1.1 Phân tích thăm dò đơn biến………………………………. ……. 1
1.1.1 Độ đo vị trí……………………………………………… 2
1.1.2 Các độ đo sự phân tán……………………………........... 2
1.1.3 Các độ đo về tính bất đối xứng…………………………. 3
1.1.4 Nhị phân hóa một biến định tính………………….......... 5
1.2 Phân tích thăm dò hai biến……………………………………. 5
1.3 Phân tích thăm dò dữ liệu định tính nhiều biến……………… 7
1.3.1 Độc lập và liên kết……………………………………… 8
1.3.2 Các độ đo khoảng cách…………………………………. 9
1.3.3 Các độ đo sự phụ thuộc…………………………… …… 11
1.3.4 Các độ đo dựa trên mô hình………………………. …… 13

Chƣơng 2. Các mô hình thống kê…………………... ….. 17

2.1 Thống kê dự báo………………………………………................ 17
2.1.1 Mô hình tuyến tính suy rộng……………………… …… 17
2.1.2 Mô hình hồi quy logistic………………………...… …… 24
2.1.3 Cây quyết định…………………………………….. …… 26
2.2 Thống kê mô tả……………………………………………. …… 32
Mô hình loga tuyến tính cho bảng sự kiện………………. …… 32
2.3 Mô hình địa phƣơng………………………………………. …… 40
Quy tắc kết hợp………………………………………….. …… 40
2.4 So sánh mô hình…………………………………………… …… 45


xv

Chƣơng 3. Một số ứng dụng trong kinh doanh và tài
chính…………………………………………….. ….. 48
3.1 Ứng dụng 1: Phân tích thị trƣờng qua giỏ hàng……….……… 48
3.1.1 Mục tiêu phân tích…………………………………. …… 48
3.1.2 Mô tả dữ liệu…………………………………………….. 48
3.1.3 Phân tích dữ liệu thăm dò………………………..… …… 51
3.1.4 Xây dựng mô hình…………………………………. …… 55
3.1.4.1 Các mô hình loga tuyến tính……………… …… 55
3.1.4.2 Các quy tắc kết hợp…………………….…. …… 58
3.1.5 So sánh mô hình…………………………………… …… 63
3.2 Ứng dụng 2: Quản lý quan hệ khách hàng…………….…….... 65
3.2.1 Mục tiêu phân tích……………………………….....…… 65
3.2.2 Mô tả dữ liệu……………………………………………. 65
3.2.3 Phân tích dữ liệu thăm dò……………………………….. 66
3.2.4 Xây dựng mô hình………………………………............. 70
3.2.4.1 Các mô hình hồi quy logistic…………………… 70
3.2.4.2 Các mô hình cây phân lớp……………………… 71

3.2.5 So sánh mô hình……………………………………….... 74
3.3 Ứng dụng 3: Tính điểm tín dụng……………………………… 79
3.3.1 Mục tiêu phân tích………………………………………. 79
3.3.2 Mô tả dữ liệu……………………………………………. 79
3.3.3 Phân tích dữ liệu thăm dò……………………...………... 82
3.3.4 Xây dựng mô hình………………………………………. 85
3.3.4.1 Các mô hình hồi quy logistic…………………… 85


xvi
3.3.4.2 Các mô hình cây phân lớp……………………… 89
3.3.5 So sánh mô hình………………………………………… 98

Kết luận…………………………………………………... 101
Tài liệu tham khảo……………………………………….. 102


xvii

Danh mục các hình
Hình 1.1

Các biểu đồ thống kê mô tả các phân phối .……………………. 4

Hình 1.2

Hộp đồ thị ……………………………………………………… 4

Hình 1.3


Ví dụ về đồ thị phân tán ...……………………....……………… 6

Hình 1.4

Ví dụ về ma trận đồ thị phân tán ..……………………………… 6

Hình 2.1

Minh họa về cây quyết định …………………………………… 27

Hình 2.2

Ví dụ về cây CART ……………………………………….…… 30

Hình 2.3a Mối quan hệ giữa các mô hình loga tuyến tính cơ bản cho
bảng 3 chiều …………………………………………….……… 39
Hình 2.3b Mối quan hệ giữa các mô hình loga tuyến tính cơ bản cho
bảng 3 chiều …………………………………………….……… 40
Hình 2.4

Ví dụ về đường cong ROC …………………………………….. 47

Hình 3.1

Đồ thị thể hiện những sự kết hợp dương mạnh giữa các
sản phẩm ...…………………………………………....……...… 54

Hình 3.2

Phân phối điều kiện của (a) First amount spent

và (b) products at first order (numb) đối với các mức của Y ...... 69

Hình 3.3

Sự biến thiên của độ chính xác phân lớp cho cây phân lớp
khi số lá tăng …………………………………………………… 72

Hình 3.4

Sơ đồ cây CART cho bài toán ..………………………………… 72

Hình 3.5

Các đường cong ROC cho các mô hình được xét …………….… 77

Hình 3.6

Các đường cong ROC cho các mô hình cuối cùng ..…………..... 100


xviii

Danh mục các bảng
Bảng 1.1

Phân phối tần số cho một biến định tính ………....…………....… 3

Bảng 1.2

Bảng sự kiện 2 chiều lý thuyết ………………….………….……. 7


Bảng 1.3

Ví dụ về các độ đo khoảng cách………………………………..... 11

Bảng 1.4

Bảng sự kiện quan sát giữa các trang catalog và windows ……… 15

Bảng 2.1

Các kiểu mô hình tuyến tính suy rộng ……………...…………… 19

Bảng 2.2

Ma trận hỗn độn …………………………………………………. 46

Bảng 3.1

Các loại sản phẩm được xét và các số đếm tần số tương ứng …… 49

Bảng 3.2

Tập dữ liệu giao dịch …………………………………………….. 50

Bảng 3.3

Cơ sở dữ liệu chủ thẻ …………………………………………….. 51

Bảng 3.4


Ví dụ về bảng sự kiện 2 chiều và tính toán các tỷ số chênh ……... 52

Bảng 3.5

Các tỷ số chênh lớn nhất giữa các cặp sản phẩm và khoảng tin cậy
tương ứng ……………………………………………...….……… 53

Bảng 3.6

Các ước lượng hợp lý cực đại của các tham số loga tuyến tính ..... 55

Bảng 3.7

Các quy tắc kết hợp có giá cao nhất …………………………..…. 60

Bảng 3.8

Các quy tắc kết hợp có độ tin cậy cao nhất …………………..….. 61

Bảng 3.9

Các quy tắc kết hợp lên tới cấp 3 được sắp xếp theo giá ………... 62

Bảng 3.10 Các quy tắc kết hợp cấp 4 được sắp xếp theo độ tin cậy ……….... 63
Bảng 3.11 Danh sách các biến về khách hàng …………………………....…. 66
Bảng 3.12 Phân phối của biến phản ứng …………………………………..… 67
Bảng 3.13 Phân phối điều kiện của biến phản ứng trên các biến giải thích
xã hội nhân khẩu học ………………………………………….…. 67
Bảng 3.14 Bảng sự kiện phân lớp biến phản ứng và biến trả góp …………… 68

Bảng 3.15 Ma trận dữ liệu được xét …………………………………………. 70


xix
Bảng 3.16 Mô hình hồi quy logistic được chọn ..………………………….… 70
Bảng 3.17 Các quy tắc cho cây phân lớp ………………………………….… 72
Bảng 3.18 Ma trận hỗn độn cho mô hình hồi quy logistic ………………..…. 74
Bảng 3.19 Ma trận hỗn độn cho cây phân lớp CART …………………….…. 75
Bảng 3.20 So sánh tóm tắt của các sai số lỗi phân lớp ………………………. 76
Bảng 3.21 So sánh các chỉ số Gini về hiệu suất ……………………………... 77
Bảng 3.22 Cấu trúc của ma trận dữ liệu ……………………………………... 81
Bảng 3.23 Phân lớp biến deadline …………………………………………… 81
Bảng 3.24 Phân lớp biến account ……………………………………………. 82
Bảng 3.25 Phân lớp các biến sex và marital status ………………………..… 82
Bảng 3.26 Các tỷ số chênh một chiều với biến phản ứng ………………….... 83
Bảng 3.27 Giải thích các tỷ số chênh ………………………………………... 84
Bảng 3.28 Kết quả của quy trình lựa chọn tiến lên ………………………….. 85
Bảng 3.29 Ước lượng hợp lý cực đại của các tham số ………………………. 86
Bảng 3.30 Giải thích mô hình ước lượng ……………………………………. 88
Bảng 3.31 So sánh giữa các tỷ số chênh một chiều và các tỷ số chênh
nhiều chiều ……………………………………………………….. 89
Bảng 3.32 Các kết quả cho cây phân lớp CART với tạp chất Gini ………….. 90
Bảng 3.33 Các kết quả cho cây phân lớp CART với tạp chất Entropy ..…….. 94


xx

Chƣơng 1
Phân tích dữ liệu thăm dò
Thực tế phần lớn dữ liệu là các biến ngẫu nhiên và vectơ ngẫu nhiên. Biến ngẫu

nhiên được chia thành các loại sau: biến định lượng (liên tục, rời rạc) và biến định tính
(thứ tự, định danh – biến định tính không có thứ tự). Các biến định lượng rời rạc và các
biến định tính được gọi chung là các biến phân hạng (categorical), các kết quả có thể xảy
ra của biến được gọi là các mức. Trong luận văn này phần lớn chỉ nói đến các biến phân
hạng, đặc biệt là biến nhị thức. Đối với các dữ liệu ở dạng biến định lượng liên tục
thường được rời rạc hóa thành các biến định lượng rời rạc. Kiến thức về các biến ngẫu
nhiên, vectơ ngẫu nhiên liên tục được xem là đã biết trước nên lý thuyết của nó không
được trình bày trong luận văn này. Để biết thêm chi tiết, hãy xem [11].

1.1 Phân tích thăm dò đơn biến
Việc phân tích các biến một cách đơn lẻ là một bước quan trọng trong phân tích sơ
bộ dữ liệu; nó có thể thu thập thông tin quan trọng cho phân tích đa biến và việc mô hình
hóa sau này. Các công cụ chính của phân tích thăm dò đơn biến là những biểu diễn đồ thị
và một loạt các chỉ số tóm tắt. Những biểu diễn đồ thị sẽ khác nhau tùy theo kiểu dữ liệu.
Các biểu đồ cột và biểu đồ hình tròn phổ biến được sử dụng cho dữ liệu định danh. Các
biểu đồ tần số thường được sử dụng để biểu diễn các biến định tính thứ tự và các biến
định lượng rời rạc – ở đó các mức được sắp thứ tự trên trục hoành. Để có được một phân
phối tần số cho các biến định lượng liên tục đầu tiên ta phải rời rạc hóa các biến theo các
khoảng lớp, bắt đầu bằng việc thiết lập độ rộng mỗi khoảng. Thông thường quy ước là
lấy các khoảng có độ rộng không đổi hoặc các khoảng có độ rộng khác nhau nhưng với
cùng một tần số (đẳng tần). Biểu diễn đồ thị của các biến liên tục được tái phân loại thành


xxi
các khoảng lớp là biểu đồ thống kê. Để xây dựng một biểu đồ thống kê thì các khoảng
được chọn phải được bố trí dọc theo trục hoành.
Ta đã biết cách biểu diễn đồ thị của một phân phối đơn biến. Tuy nhiên đôi khi
chúng ta cần tóm tắt hơn nữa tất cả các quan sát; do đó cần xây dựng các chỉ số thống kê
thích hợp để tóm tắt những khía cạnh quan trọng của các quan sát. Các chỉ số thống kê
một chiều có thể được phân loại thành các chỉ số về vị trí, sự phân tán, tính bất đối

xứng,...

1.1.1 Độ đo vị trí
Tôi sẽ không viết lại định nghĩa các độ đo này.
Giá trị trung bình
Tính toán được cho các biến định lượng.
Mode
Tính toán được trên tất cả các loại biến. Với các biến phân hạng thì mode là mức
có tần số lớn nhất.
Trung vị và các điểm phân vị
Không dùng cho dữ liệu định danh. Một giá trị khái quát của trung vị được gọi là
phân vị, nó chia phân phối tần số thành 2 phần có tổng tần số xác định trước. Quan tâm
đặc biệt là các tứ phân vị thứ 1, 2, 3 ký hiệu lần lượt là q1 , q2 , q3 chúng chia phân phối
tần số thành 4 phần có tổng tần số bằng nhau. Cụ thể, tổng tần số của các quan sát nhỏ
hơn q1 là 0,25, nhỏ hơn q2 (trung vị) là 0,5, nhỏ hơn q3 là 0,75.

1.1.2 Độ đo sự phân tán
Một chỉ số đơn giản của sự phân tán là hiệu số giữa giá trị quan sát lớn nhất và giá
trị quan sát nhỏ nhất của một biến, được gọi là biên độ dao động. Một chỉ số đơn giản
khác là IQR  q3  q1 được gọi là độ rộng khoảng tứ phân vị. Biên độ và IQR không được
sử dụng thường xuyên.
Biến định lƣợng
Đối với dữ liệu định lượng, thì phép đo độ phân tán là phương sai. Cho trước một
mẫu N quan sát x1 , x2 ,..., xN của biến X thì phương sai mẫu được xác định như sau:


xxii




1 N
s ( X )   xi  x
N i 1
2



2

và để có được ước lượng không chệch cho phương sai của

biến X thì ta hay sử dụng công thức
s2 ( X ) 





2

1 N
 xi  x .
N  1 i 1

Biến định tính
Tương tự như phương sai của biến định lượng, đối với các biến định tính cũng có
các độ đo về sự phân tán, tất nhiên là không thể sử dụng khái niệm phương sai mà có
cách đo khác về sự phân tán. Xét một biểu diễn tổng quát của phân phối tần số của một
biến định tính với k mức.
Bảng 1.1 Phân phối tần số cho một biến định tính

Các mức của biến

Tần số tương đối

x1*

p1

x*2

p2





x*k

pk

Có 2 tình huống cực hạn:
 Không thuần nhất rỗng: p j  1 với j nào đó, pi  0 với i  j
1
k

 Không thuần nhất cực đại: pi  , i  1, k
Một chỉ số về sự phân tán sẽ phải đạt giá trị cực tiểu trong tình huống thứ 1 và đạt giá trị
cực đại trong tình huống thứ 2. Chú ý, trong toàn bộ luận văn, tôi dùng ký hiệu log k 
lôga nêpe của k .
Bây giờ ta đưa ra 2 chỉ số thỏa mãn các điều kiện trên:

k

Chỉ số Gini: G  1   pi2
i 1

 chỉ số Gini chuẩn hóa: G ' 

G
(k  1) / k


xxiii
k

Chỉ số Entropy: E   pi .log pi  chỉ số Entropy chuẩn hóa: E ' 
i 1

E
log k

1.1.3 Các độ đo về tính bất đối xứng
Để có được một dấu hiệu về sự bất đối xứng của một phân phối, ta có thể so sánh
giá trị trung bình với trung vị. Nếu những độ đo này gần như bằng nhau thì dữ liệu có xu
hướng phân bố một cách đối xứng. Nếu giá trị trung bình lớn hơn trung vị, thì phân phối
được gọi là lệch phải (bất đối xứng dương); nếu trung vị lớn hơn giá trị trung bình thì
phân phối được gọi là lệch trái (bất đối xứng âm). Có thể dùng các biểu đồ cột hoặc biểu
đồ thống kê để điều tra hình thức của phân phối dữ liệu. Hình 1.1 thể hiện các biểu đồ
thống kê cho một phân phối lệch phải, một phân phối đối xứng và một phân phối lệch
trái.


Hình 1.1 Các biểu đồ thống kê mô tả các phân phối
(a) lệch phải (trung bình > trung vị)
(b) đối xứng (trung bình = trung vị)
(c) lệch trái (trung bình < trung vị):

Một công cụ khác là hộp đồ thị. Hộp đồ thị sử dụng trung vị Me , điểm tứ phân vị
thứ 1 q1 , thứ 3 q3 và độ rộng khoảng tứ phân vị IQR . Hình 1.2 cho thấy một ví dụ. Ở đây
T1 , T2 được định nghĩa như sau:
T1 = max (giá trị quan sát nhỏ nhất, q1  1,5.IQR )

T2 = max (giá trị quan sát lớn nhất, q3  1,5.IQR )


xxiv

Hình 1.2 Hộp đồ thị

Nếu Me cách đều Q1 , Q3 thì phân phối là đối xứng; nếu khác đi thì phân phối bị
lệch. Ví dụ khi Q3  Me  Me  Q1 thì phân phối lệch phải như hình 1.2. Hộp đồ thị cũng
chỉ ra sự hiện diện của những quan sát bất thường hay ngoại lệ, đó là những giá trị quan
sát nhỏ hơn T1 hoặc lớn hơn T2 . Hình 1.2 thể hiện một phân phối lệch phải. Hơn nữa một
số quan sát bất thường hiện diện ở đuôi bên phải của phân phối.
Một chỉ số thống kê tóm tắt có thể đo tính bất đối xứng của phân phối (chỉ tính
toán được đối với biến định lượng), ký hiệu là  , được xác định như sau:


N




3
s

3

, trong đó 3 

i 1

xi  x
N



 x  x
N

3

, s

i 1

2

i

N

Có 3 trường hợp cụ thể:

 Nếu   0 thì phân phối là đối xứng
 Nếu   0 thì phân phối là bất đối xứng trái
 Nếu   0 thì phân phối là bất đối xứng phải

1.1.4 Nhị phân hóa một biến định tính
Trong khai thác dữ liệu, nhiều khi ta cần nhị phân hóa một biến định tính, nhất là
đối với biến định danh. Giả sử X là biến định tính với I mức 1,2,...,I  . Khi đó sẽ có
một song ánh giữa X và vectơ các biến Bernoulli  X 1 ,X 2 ,...,X I 1 ,X I  , trong đó

1 khi X  i
Xi  
, i  1,I .
0
khi
X

i



xxv
Vì chỉ cần biết thông tin của X về I  1 mức là biết được thông tin về mức còn lại nên
cũng có một song ánh giữa X và vectơ  X 1 ,X 2 ,...,X I 1  .
Như vậy khi làm việc với X , ta có thể làm việc với

 X 1 ,X 2 ,...,X I 1 

 X 1 ,X 2 ,...,X I 1 ,X I 

hoặc với


và có thể coi biến Bernoulli là biến định lượng (có metric giữa các

mức).

1.2 Phân tích thăm dò hai biến
Mối quan hệ giữa 2 biến có thể được biểu diễn đồ thị bằng cách sử dụng đồ thị
phân tán. Trên mặt phẳng tọa độ, trục hoành biểu diễn các giá trị (biến định lượng) hoặc
các mức (biến định tính) của một biến còn trục tung biểu diễn các giá trị hoặc các mức
của biến kia. Khi đó các tọa độ tạo thành một hình, hình này được gọi là đồ thị phân tán
của 2 biến. Đồ thị phân tán là một biểu diễn trực quan về mối quan hệ giữa 2 biến. Đồ thị
phân tán được vẽ với mọi loại biến. Ở đây có hình minh họa đồ thị phân tán, nó mô tả
mối quan hệ giữa 2 biến định lượng liên tục ROI và ROE.

Hình 1.3 Ví dụ về đồ thị phân tán

Một tập dữ liệu thực tế thường chứa nhiều hơn 2 biến, nhưng cũng có thể truy xuất
được những thông tin liên quan từ việc phân tích mỗi đồ thị phân tán. Ta có thể tạo ra
một ma trận đồ thị phân tán, trong đó mỗi thành phần là một đồ thị phân tán của 2 biến
tương ứng với dòng và cột.


xxvi

Hình 1.4 Ví dụ về ma trận đồ thị phân tán

Đối với phân tích thăm dò nhiều hơn 2 biến định lượng sẽ không được trình bày ở
đây; đó là hiệp phương sai, ma trận hiệp phương sai, hệ số tương quan, ma trận tương
quan…và ta đã biết như là kiến thức cơ sở. Việc phân tích thăm dò nhiều hơn 2 biến định
tính sẽ được trình bày ở mục tiếp theo.


1.3 Phân tích thăm dò dữ liệu định tính nhiều biến
Ta đã sử dụng hiệp phương sai và hệ số tương quan như là những phép đo chính
trong việc đo các mối quan hệ thống kê giữa các biến định lượng. Với các biến định tính
thứ tự thì có thể mở rộng hiệp phương sai và hệ số tương quan tới các hạng của các biến.
Hệ số tương quan giữa các hạng được gọi là hệ số tương quan Spearman.


xxvii
Nói chung, việc chuyển các mức của các biến định tính thứ tự sang các hạng tương
ứng cho phép hầu hết các phân tích ứng dụng cho dữ liệu định lượng được mở rộng tới
trường hợp định tính thứ tự bao gồm cả việc phân tích các thành phần chính. Tuy nhiên
nếu ma trận dữ liệu chứa dữ liệu định danh thì khái niệm hiệp phương sai và hệ số tương
quan không thể sử dụng được nữa. Phần còn lại của mục này xem xét các phép đo tóm tắt
về mức độ của các mối quan hệ giữa các biến định tính bất kỳ. Những độ đo này được gọi
là các chỉ số kết hợp. Những chỉ số này đôi khi có thể được áp dụng cho các biến định
lượng rời rạc.
Trong việc kiểm tra các biến định tính, một phần cơ bản được tham gia bởi các tần
số của các mức của biến. Dữ liệu định tính thường được biểu diễn trực tiếp dưới dạng
một bảng sự kiện. Bảng 1.2 là một bảng sự kiện 2 chiều lý thuyết để giới thiệu khái niệm
được sử dụng trong mục này.
Bảng 1.2 Bảng sự kiện 2 chiều lý thuyết

X
X1

Y

Y1  Yj  YJ


Tổng

n11  n1 j  n1J

n1


nij



 niJ


ni 




ni1 


XI

nI 1  nIj

 nIJ

nI 


n1  n j  n J

n


Xi

Tổng




Ở đây: nij là tần số của cặp mức  X i ; Y j  với i  1, I , j  1, J của các biến X , Y . nij được
gọi là các tần số ô.
* ni  

J

n
j 1

ij

là tần số biên duyên của dòng thứ i trong bảng, nó biểu diễn tổng số quan

sát ở mức thứ i của biến X , i  1, I .


xxviii
I


* n j   nij là tần số biên duyên của cột thứ j trong bảng, nó ký hiệu cho tổng số các
i 1

quan sát ở mức thứ j của biến Y , j  1, J . Với các tần số trong bảng, ta có thể viết mối
quan hệ biên duyên như sau:
I

J

I

i 1

j 1

J

 ni   n j   nij  n
i 1 j 1

Từ p biến, ta xây dựng được

p( p  1)
bảng sự kiện 2 chiều, tương ứng với tất cả các cặp
2

biến định tính.

1.3.1. Độc lập và liên kết

Để xây dựng các chỉ số mô tả mối quan hệ giữa các biến định tính, chúng ta cần
khái niệm độc lập thống kê. Hai biến X và Y được gọi là độc lập thống kê nếu chúng
thỏa mãn các điều kiện sau đây:
nij
ni1 ni 2
n
n

 ... 
 ...  iJ  i  , i  1, I
n1 n2
n j
n J
n



n1 j



n1

 nij 


nij
n

n2 j

n2

 ... 

ni  n j



n

nij
ni 

 ... 

nIj
nI 



n j
n

, j  1, I

, i  1, I , j  1, J

ni  n j
.
, i  1, I , j  1, J

n n

Dưới dạng các tần số tương đối, thì điều này tương đương với:
p X ,Y  ( xi , y j )  pX ( xi ). pY ( y j ), i, j

Tổng quát, với bảng nhiều chiều I1  I 2  ...  I p cho p biến X 1 ,X 2 ,....,X p thì
Các biến độc lập


Hay

ni1i2 ...i p
n



ni1 ... n i2 ... n...i p
.
...
, ik  1, I k
n
n
n

p X , X ,..., X  ( x1 , x2 ,..., x p )  pX1 ( x1 ). pX 2 ( x2 )... p X p ( x p ) .
1
2
p



xxix
Các khái niệm và kết quả cho bảng nhiều chiều cũng hoàn toàn tương tự với các khái
niệm và kết quả cho bảng 2 chiều. Ở đây, về mặt lý thuyết, ta tập trung vào bảng 2 chiều.
Khi làm việc với dữ liệu thực tế, thì điều kiện độc lập thống kê hầu như không bao giờ
thỏa mãn chính xác mà các dữ liệu quan sát thường cho thấy một mức phụ thuộc qua lại
nào đó giữa các biến.
Khái niệm độc lập thống kê áp dụng cho các biến ngẫu nhiên định tính và định
lượng. Đối với các biến định lượng, có thể tính được các phép đo tóm tắt (được gọi là các
phép đo tương quan) nó thực hiện trên cả các mức và các tần số. Đối với các biến định
tính, các phép đo tóm tắt (được gọi là các phép đo liên kết) chỉ có thể sử dụng các tần số
bởi vì các mức không metric.
Đối với các biến định lượng, nếu 2 biến X , Y độc lập thống kê thì
cov( X , Y )  0 (  r(X,Y)=0) . Điều ngược lại chưa chắc đúng, tức là nếu 2 biến X , Y thỏa

mãn cov( X , Y )  0 ( r ( X , Y )  0) thì không suy ra được 2 biến này độc lập. Có một
ngoại lệ là khi ( X , Y ) là phân phối chuẩn 2 chiều thì từ sự không tương quan suy ra sự
độc lập.
Các phép đo liên kết có nhiều loại, ở đây ta kiểm tra 3 loại khác nhau: các độ đo
khoảng cách, các độ đo sự phụ thuộc và các độ đo dựa trên mô hình.

1.3.2 Các độ đo khoảng cách
Sự độc lập giữa 2 biến X , Y xảy ra khi
nij 

ni  n j
n

, i  1, I , j  1, J

Một phương pháp đầu tiên để tóm tắt sự kết hợp có thể được dựa trên việc tính toán một

độ đo toàn diện về tính bất đồng giữa tần số quan sát nij và kỳ vọng của nó: nij* 

ni  n j
n

trong các giả thuyết về sự độc lập giữa 2 biến. Thống kê ban đầu được đề xuất bởi Karl
Pearson là phép đo được sử dụng rộng rãi nhất cho việc xác minh giả thuyết về sự độc lập
giữa X và Y . Nó được định nghĩa như sau:


xxx
I

J

  
2

(nij  nij* )2
nij*

i 1 j 1

Chú ý rằng  2  0 nếu các biến X , Y độc lập. Thống kê  2 có thể được viết dưới dạng
tương đương (để nhấn mạnh sự phụ thuộc của thống kê  2 vào số quan sát n ):


I

J


nij2

j 1

ni  n j

 2  n  

 i 1


 1



Đây là một hàm tăng theo n . Điều này cho thấy một bất tiện. Để khắc phục sự bất tiện
ấy, một số phép đo thay thế đã được đề xuất, chẳng hạn như:
2 

2
n

I

J

 
i 1 j 1


nij2
ni  n j

1

Với các bảng sự kiện 2  2 biểu diễn các biến nhị thức thì  2 đã ở dạng chuẩn hóa vì nó
nhận các giá trị thuộc 0;1 .
Có thể chỉ ra rằng:
2 

cov2 ( X , Y )
Var ( X )Var (Y )

chính là bình phương hệ số tương quan tuyến tính. Với các bảng sự kiện lớn hơn I  J thì
 2 không ở dạng chuẩn hóa. Để có được chỉ số chuẩn hóa hữu ích cho so sánh, ta sử

dụng một cải tiến khác của  2 được gọi là chỉ số Cramer. Chỉ số Cramer có được bằng
cách chia  2 cho giá trị lớn nhất mà nó có thể đạt được: max  2  min I  1, J  1 .
Do đó chỉ số Cramer bằng:
V 
2

2

n.min I  1, J  1

Ta cũng có kết quả:
* V 2  0  X , Y độc lập
* V 2  1 với sự phụ thuộc lớn nhất giữa 2 biến.
Do đó có 3 tình huống:



×