Tải bản đầy đủ (.pdf) (197 trang)

Địa thống kê và ứng dụng trong dự báo các thông số địa cơ học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (16.5 MB, 197 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA KỸ THUẬT ĐỊA CHẤT & DẦU KHÍ
----------

Tài liệu tham khảo
ĐỊA THỐNG KÊ VÀ ỨNG DỤNG TRONG DỰ
BÁO CÁC THÔNG SỐ ĐỊA CƠ HỌC

Biên soạn: TS. Tạ Quốc Dũng
KS: Nguyễn Văn Thuận
TP. HỒ CHÍ MINH, 2016


Mục Lục

MỤC LỤC
MỤC LỤC .................................................................................................................. i 
DANH MỤC HÌNH ẢNH ....................................................................................... iv 
DANH MỤC BẢNG BIỂU .................................................................................... vii 
DANH MỤC VIẾT TẮT ...................................................................................... viii 
CHƯƠNG 1: SƠ LƯỢC VỀ ĐỊA THỐNG KÊ ....................................................1 
1.1. GIỚI THIỆU ........................................................................................... 1 
1.2. LÝ THUYẾT........................................................................................... 2 
1.3. MỤC ĐÍCH ............................................................................................. 2 
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT THỐNG KÊ VÀ ĐỊA THỐNG KÊ ............4 
2.1. GIỚI THIỆU ........................................................................................... 4 
2.2. XÁC SUẤT THỐNG KÊ ....................................................................... 5 
2.3. HÀM CẤU TRÚC – VARIOGRAM – γ(h) ....................................... 18 
2.4. COVARIANCE C(h) ............................................................................ 33 
2.5. TƯƠNG QUAN DỮ LIỆU – REGRESSION .................................... 34 


2.6. GIẢ THUYẾT TÍNH ỔN ĐỊNH - DỪNG (STATIONARITY) ....... 39 
2.7. BÀI TẬP ................................................................................................ 42 
CHƯƠNG 3: CÁC PHƯƠNG PHÁP ĐỊA THỐNG KÊ.....................................50 
3.1. KIỂM TRA CHÉO (Cross Validate) .................................................. 50 
3.2. PHƯƠNG PHÁP NGHỊCH ĐẢO KHOẢNG CÁCH....................... 50 
3.3. KRIGING .............................................................................................. 51 
3.4. CO – KRIGING .................................................................................... 56 
3.5. SIMULATION ...................................................................................... 58 
3.6. BÀI TẬP ................................................................................................ 80 
i


Mục Lục
CHƯƠNG 4: CÁC ĐƯỜNG CONG ĐỊA VẬT LÝ .............................................96 
4.1. GAMMA RAY ...................................................................................... 96 
4.2. VELOCITY ........................................................................................... 97 
4.3. RESISTIVITY ...................................................................................... 98 
4.4. NEUTRON .......................................................................................... 100 
4.5. DENSITY ............................................................................................ 101 
4.6. BÀI TẬP .............................................................................................. 103 
CHƯƠNG 5: ỨNG DỤNG CÁC PHƯƠNG PHÁP ĐỊA THỐNG KÊ VÀO
TÍNH TỐN CÁC THƠNG SỐ CƠ HỌC ĐẤT ĐÁ.........................................104 
5.1. ĐỘ BỀN ĐẤT ĐÁ............................................................................... 104 
5.2. GÓC SÁT TRONG ............................................................................ 109 
5.3. HỆ SỐ POISSON ............................................................................... 112 
5.4. ÁP SUẤT LỖ RỖNG ......................................................................... 115 
5.5. ỨNG SUẤT THẲNG ĐỨNG ............................................................ 118 
5.6. ỨNG SUẤT NGANG NHỎ NHẤT .................................................. 121 
5.7. ỨNG SUẤT NGANG LỚN NHẤT ................................................... 124 
5.8. BÀI TẬP .............................................................................................. 129 

TÀI LIỆU THAM KHẢO ....................................................................................130 
PHỤ LỤC ...............................................................................................................132 
A.1. HƯỚNG DẪN SỬ DỤNG PHẦN MỀM ĐỊA VẬT LÝ IP 3.5..................132 
A.1.1. 

Giới Thiệu.................................................................................... 132 

A.1.2. 

Các bước thực hiện ..................................................................... 132 

A.2. HƯỚNG DẪN SỬ DỤNG PHẦN MỀM GS+ ............................................159 
A.2.1. 

MÔ TẢ PHẦN MỀM ................................................................. 159 

A.2.2. 

CÁC BƯỚC ĐỂ CHẠY GS+ .................................................... 159 

A.2.3. 

CÁC ỨNG DỤNG ...................................................................... 168 
ii


Mục Lục
A.3. MỐI QUAN HỆ KHÔNG GIAN .................................................................187 
A.3.1. 


Mối quan hệ giữa Covariance và Variogram .......................... 187 

A.4. DỮ LIỆU GIẾNG KHOAN..........................................................................188 
A.4.1. 

Giếng XX – 34 – 29 ..................................................................... 188 

iii


Danh Mục Hình Ảnh

DANH MỤC HÌNH ẢNH
Hình 2-1: A và B độc lập với nhau.................................................................. 6 
Hình 2-2: A và B phụ thuộc nhau.................................................................... 6 
Hình 2-3 Giá trị hàm liên tục ngẫu nhiên ........................................................ 8 
Hình 2-4: Ví dụ về các giá trị Mod, Mean và Median. ................................. 11 
Hình 2-5 : Phân phối chuẩn ........................................................................... 15 
Hình 2-6: Phân phối chuẩn tắc ...................................................................... 16 
Hình 2-7:Phân phối Khi bình phương ........................................................... 17 
Hình 2-8: Phân phối Student ......................................................................... 17 
Hình 2-9 Biểu đồ variogram .......................................................................... 19 
Hình 2-10 Mơ hình variogram với sill .......................................................... 22 
Hình 2-11 Mơ hình variogram kết hợp giữa mơ hình cầu và nugget-effected
................................................................................................................................ 23 
Hình 2-12 Ảnh hưởng các giá trị H trong mơ hình fGn.................................. 25 
Hình 2-13 Ảnh hưởng của H trong mơ hình fBm ........................................... 26 
Hình 2-14 Variogram với các H khác nhau .................................................. 26 
Hình 2-15 Variogram và covariance của mơ hình sin ................................... 27 
Hình 2-16 Variogram bất đẳng hướng hình học ........................................... 29 

Hình 2-17 Các mơ hình variogram bất đẳng hướng đới ............................... 30 
Hình 2-18 : Các dáng điệu gốc tọa độ của h [7] ....................................... 32 
Hình 2-19: Covariance và Variogram ........................................................... 34 
Hình 2-20 Các mơ hình của hàm đa thức phi tuyến [13] .............................. 39 
Hình 3-1 So sánh độ rỗng giữa dữ liệu mẫu và giá trị xác định từ kriging ... 59 
Hình 3-2 Sự so sánh giá trị độ rỗng giữa dữ liệu mẫu và giá trị mô phỏng có
điều kiện. ................................................................................................................ 60 

iv


Mục Lục
Hình 3-3 So sánh mơ hình variogram từ mẫu và variogram xác định từ
kriging. ................................................................................................................... 61 
Hình 3-4 Chuyển các chỉ số trong dữ liệu cứng và mềm .............................. 63 
Hình 3-5 Xác định các chỉ số tại khu vực chưa có mẫu. ............................... 66 


Hình 3-6 Hàm phân phối tích lũy khu vực khơng chắc chắn uo .................. 67 
Hình 3-7 Trong số cho các khu vực không chắc chắn khi sử dụng chuyển đổi
xác suất. .................................................................................................................. 67 
Hình 3-8: Mơ hình cùa phương pháp chuyển đổi để tạo các phân phối ban
đầu. ......................................................................................................................... 70 
Hình 3-9 Quy trình mơ phỏng theo luyện kim SA [2] .................................. 75 
Hình 3-10 Các loại hình thái địa chất cho mơ phỏng .................................... 78 
Hình 4-1 Xác định tầng chứa, chắn và thể tích sét bằng phương pháp gamma
tự nhiên ................................................................................................................... 96 
Hình 4-2 Log vận tốc..................................................................................... 97 
Hình 4-3 Xác định tầng chứa và áp suất lỗ rỗng (track 3) bằng phương pháp
điện trở suất .......................................................................................................... 100 

Hình 4-4 Thể tích sét tính từ đường neutron ............................................... 101 
Hình 4-5 Đường tỉ trọng (track 3) vận tốc từ địa chấn (track 2) và đường ứng
suất thằng đứng (track 4)...................................................................................... 102 
Hình 5-1 Biểu đồ variogram của UCS của giếng 2P và 3P......................... 106 
Hình 5-2 Tương quang độ bền đá (UCS) của giếng XX-2P (màu đỏ), XX-3P
(màu xanh) và giếng nội suy XX-4P (màu hồng). ............................................... 108 
Hình 5-3 Tương quan độ bền nén đơn trục (UCS) giếng XX-4P thực và nội
suy ........................................................................................................................ 108 
Hình 5-4 Biểu đồ variogram của hệ số Poisson .......................................... 109 
Hình 5-5 Tương quang hệ số Poisson của giếng XX-2P (màu đỏ), XX-3P
(màu xanh) và giếng nội suy XX-4P (màu hồng) ................................................ 111 
v


Mục Lục
Hình 5-6 Tương quan hệ số góc ma sát trong (IFC) giếng XX-4P thực và nội
suy ........................................................................................................................ 111 
Hình 5-7 Biểu đồ variogram của hệ số góc ma sát trong (  ) .................... 112 
Hình 5-8 Tương quang hệ số góc ma sát trong của giếng XX-2P (màu đỏ),
XX-3P (màu xanh) và giếng nội suy XX-4P (màu hồng). ................................... 114 
Hình 5-9 Tương quan hệ số Poisson (PR) giếng XX-4P thực và nội suy ... 114 
Hình 5-10 Biểu đồ variogram áp suất lỗ rỗng Pp ........................................ 115 
Hình 5-11 Tương quang áp suất lỗ rộng của giếng XX-2P (màu đỏ), XX-3P
(màu xanh) và giếng nội suy XX-4P (màu hồng). ............................................... 117 
Hình 5-12 Tương quan áp suất lỗ rỗng Pp giếng XX-4P thực và nội suy ... 117 
Hình 5-13 Biểu đồ variogram của ứng suất thẳng đứng  v ........................ 118 
Hình 5-14 Tương quang ứng suất thẳng đứng của giếng XX-2P (màu đỏ),
XX-3P (màu xanh) và giếng nội suy XX-4P (màu hồng). ................................... 120 
Hình 5-15 Tương quan ứng suất thẳng đứng  v giếng XX-4P thực và nội suy
.............................................................................................................................. 120 

Hình 5-16 Biểu đồ variogram của ứng suất ngang nhỏ nhất  h ................. 121 
Hình 5-17 Tương quang ứng suất ngang nhỏ nhất của giếng XX-2P (màu
đỏ), XX-3P (màu xanh) và giếng nội suy XX-4P (màu hồng). ........................... 123 
Hình 5-18 Tương quan ứng suất ngang nhỏ nhất giếng XX-4P thực và nội
suy ........................................................................................................................ 123 
Hình 5-19 Biểu đồ variogramcủa ứng suất ngang lớn nhất  H ................... 124 
Hình 5-20 Tương quang hệ số góc ma sát trong của giếng XX-2P (màu đỏ),
XX-3P (màu xanh) và giếng nội suy XX-4P (màu hồng). ................................... 126 
Hình 5-21 Tương quan ứng suất ngang lớn nhất giếng XX-4P thực và nội suy
.............................................................................................................................. 126 
Hình 5-22 Tương quan mơ hình địa cơ và thông số đàn hồi theo địa tầng của
giếng XX-2P, XX-3P và XX-4P .......................................................................... 128 
vi


Danh Mục Hình Ảnh

DANH MỤC BẢNG BIỂU
Bảng 2-1: Bảng phân phối xác suất cho biến rời rạc....................................... 8 
Bảng 2-2: Bảng phân phối xác suất biến ngẫu nhiên rời rạc hai chiều [5] ... 12 
Bảng 2-3: Các mơ hình variograms............................................................... 30 
Bảng 4-1: Vận tốc sóng và thời gian truyền sóng trong các thành hệ khác
nhau ........................................................................................................................ 98 
Bảng 5-1 Tóm tắt hệ số tương quan của các mơ hình variogram cho các
giếng ..................................................................................................................... 127 
Bảng 5-2 Tóm tắt hệ số tương quan của các thơng số mơ hình địa cơ giếng
XX-4P................................................................................................................... 127 

vii



Ký hiệu viết tắt

DANH MỤC VIẾT TẮT
a:

Range hay bán kính ảnh hưởng

h:

Khoảng cách lag hay giữa hai điểm

Co:

Sill hay giá trị ngưỡng

γ(h):

Variogram với lag là h

C(h):

Covariance của h

C(X,Y): Covariance biến X và Y
D(X): Phương sai của biến X.
E(x):

Kỳ vọng của biến x.


N(h):

Số cặp điểm có khoảng cách h

ρ:

tỉ trọng (g/cm3)

Z(u):

giá trị tại điểm u.

Z(u+h): giá trị tại điểm u+h
σ:

Độ lệch chuẩn

R:

Điện trở suất từ đường log (ohm)

Rn:

Điện trở suất từ đường chuẩn

∆t:

Thời gian truyền sóng trên đường log (μs/ft)

∆tn:


Thời gian truyền sóng chuẩn (μs/ft)

Vp:

Vận tốc sóng P – sóng dọc (pull wave) (m/s), Vp = 304878/DTC

Vs:

Vận tốc sóng S – sóng ngang (shear wave) (m/s), Vs = 304878/DTS

DTC:

Thời gian truyền sóng dọc (μs/ft)

DTS:

Thời gian truyền sóng ngang (μs/ft),

Pp:

Áp suất lỗ rỗng (ppg, psi, Pa)

σv:

Ứng suất thẳng đứng – Overburden stress (ppg, Psi, Pa)

σhmin:

Ứng suất ngang nhỏ nhất – Minimum horizontal stress (ppg, Psi, Pa)

viii


Chương 1

CHƯƠNG 1: SƠ LƯỢC VỀ ĐỊA THỐNG KÊ
1.1. GIỚI THIỆU
Ứng dụng thống kê để giải quyết các vấn đề về mỏ, địa chất và địa chất thủy
văn được quan tâm nhiều vào những năm gần đây. Từ đó, thuật ngữ Địa Thống Kê
xuất hiện. Ban đầu, các nhà khoa học đã nhân ra rằng thống kê cổ điển không phù
hợp cho xác định sự phân tán của trữ lượng mỏ, D.G.Krige , một kỹ sư mỏ người
Nam Phi và nhà thống kê H.S.Sichel đã phát triển phương pháp mới. [1] Sau đó, một
kỹ sư người Pháp là Georges Matheron đã mở rộng các khái niệm đổi mới của Krige
và hình thành một khai niệm độc lập mới gọi là Kriging dựa trên các thành quả của
Krige. Mặc dù kỹ thuật kriging ban đầu hình thành để giải quyết các vấn đề về trữ
lượng các mỏ với các thiết bị mấy tính tốc độ cao trong những năm 1970 nhưng đến
những năm 1980 thì các kỹ thuật địa thống kê đó mới áp dụng vào trong cơng nghệ
dầu khí.
Một chi phí khổng lồ cho phát triển và hiểu rõ các vỉa bất đồng nhất, mong
muốn tăng khả năng thu hồi của các cơng ty dầu khí bằng cách phát triển và cải tiến
các kỹ thuật mới áp dụng vào các vỉa có đặc tính bất đồng nhất. Địa thống kê là một
trong nhiều các kỹ thuật gần đây thường được kết hợp vào quá trình đánh giá và phát
triển vỉa bất đồng nhất.
Từ những năm 1980, kỹ thuật địa thống kê đã được chấp nhận trong đánh giá
các mỏ dầu khí, đặc biệt là minh giải tài liệu địa chất 3D. Các kết quả thường được
đưa vào mô phỏng các dòng chất lưu trong vỉa. Cho nên, sử dụng địa thống kê rất cần
thiết cho sự phối hợp giữa khoa học địa chất và các quy luật công nghệ mỏ, đóng góp
đáng kể vào q trình xây dựng mơ hình của mỏ dầu khí.
Địa chất truyền thống, khi chưa có áp dụng máy móc, thì dựa hồn tồn vào mơ
tả và sự phân loại các cấu trúc cùng với các hiện tượng địa chất. Theo đó, các mơ

hình địa chất định tính được chuyển thành các mơ hình số, mặc dù được tính tốn dựa
vào các kỹ thuật cơng nghệ hơn là dựa vào các nhà địa chất. Nếu mô hình địa chất là
mơ tả chính xác các hiện tượng trong hiện tại, thì trong q khứ thì các mơ hình số đó
có xu hướng ít giống với các địa chất thực tế. Sự khác biệt hầu hết là do sự minh giải
các quy luật và thường do phiến diện về kinh tế. Các mơ hình đã và đang là quá trình
1


Mục Lục
rất đắt giá và không thực tế nếu độ phân giải càng cao. Để giảm thiểu thời gian thì
các mơ hình địa chất được làm thơ lại đến khi các nút của lưới mơ hình có khả năng
kiểm sốt.
Nhưng nếu mơ hình phân nhánh, bất đồng nhất hay phức tạp thì sự giảm thiểu
các nút của lưới mơ hình càng giảm, nếu giảm q mức thì mơ hình sẽ quá đơn giản
và ảnh hưởng đến kết quả. Nhưng các vỉa phức tạp thì q trình mơ phỏng sẽ gây ra
sự sai lầm nhiều. Để ngăn chặn vấn đề này, kỹ thuật liên kết lịch sử (Historymatching) được sử dụng để làm mơ hình được chính xác hơn. Các lỗ rỗng, độ thấm
và các thơng số khác có thể thay đổi cho đến khi phù hợp mơ phỏng dịng chảy trong
giếng khoan thực tế.
Trong các vùng mỏ thì các thơng số rất khó dự đốn, nên các giếng dự định
khoan sẽ rất khó đốn được địa chất của nó. Việc nội suy các thông số của các giếng
lân cận cũng là vấn đề nan giải nếu chúng ta khơng có mơ hình chính xác, các
phương pháp phù hợp.
1.2. LÝ THUYẾT
Dựa vào các số liệu mẫu từ các giếng xung quanh, kết hợp với các phương pháp
nội suy địa thống kê để dự đoán và đánh giá cho một khác giếng khoan khác trong
cùng khu vực, xây dựng mơ hình phân bố các thơng số dự đốn trong khu vực.
1.3. MỤC ĐÍCH  
Mục đích của nghiên cứu này là đánh giá và dự đốn các thơng số địa cơ học
(geomechanics) dựa vào các phương pháp nội suy địa thống kê trong một khu vực
mỏ. Chi tiết các mục đích sẽ làm như sau:

 Xây dựng cơ sở lý thuyết và phương pháp luận của nội suy địa thống kê.
 Thu thập một bộ số liệu của các giếng đã có sẵn như modun đàn hồi
(young, bulk, shear, UCS, ...) và các ứng suất tại chỗ (áp suất lỗ rỗng,
ứng suất ngang nhỏ nhất, ứng suất ngang lớn nhất,...)
Áp dụng các phương pháp để dự đốn các thơng số cho một giếng khoan và
đánh giá lại dựa vào các số liệu thực tế.
 Xây dựng mơ hình phân bố các thơng số đó cho toàn khu vực mỏ.
Trong nghiên cứu này, sẽ thực hiện các phương pháp nội suy như sau:
2


Mục Lục
1. Trọng số nghịch đảo khoảng cách
2. Simple Kriging
3. Ordiany Kriging
4. Co-Kriging cho các biến tương quan. 

3


Chương 2

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT THỐNG KÊ VÀ ĐỊA THỐNG KÊ
2.1. GIỚI THIỆU
Từ những năm đầu của thập kỷ năm mươi, D.G. Krige (sau đó là giáo sư trường
đại học tổng hợp Witwatersand - Cộng hoà Nam Phi) và các cộng sự đã nghiên cứu
trên một loạt mỏ vàng, uran, pirit, thấy rằng: Nếu hàm lượng trung bình của khối tính
chỉ được xác định bằng các thơng tin bên trong nó, thì đối với quặng có hàm lượng
đạt giá trị công nghiệp trở lên, hàm lượng xác định này bị tăng lên (tức trữ lượng khai
thác nhỏ hơn trữ lượng tính tốn). Nhưng khối quặng nghèo, kết quả tính tốn lại bị

giảm đi. Sai số hệ thống này khơng thể khắc phục được bằng các phương pháp tính
tốn truyền thống. Để khắc phục tình trạng này, D.G. Krige đề nghị phải hiệu chỉnh
cơng thức tính giá trị trung bình cho phù hợp với thực tế. Theo ơng, để tính giá trị
trung bình gần đúng nhất của khối (Zv) ngồi các thơng tin bên trong khối, cần bổ
xung tất cả các thơng tin có thể được bên ngồi khối. Về mặt phương pháp luận,
Krige hồn tồn đúng vì đã triệt để tận dụng lượng thơng tin đã có. Nhưng cách giải
quyết, cụ thể là công thức hiệu chỉnh do ông đưa ra chưa hợp lý.
Xuất phát từ quan điểm đúng đắn của Krige, từ những năm 1955, giáo sư
G.Matheron (trường đại học Mỏ quốc gia Pari - Cộng hoà Pháp) đã phát triển thành
một bộ môn khoa học là địa thống kê. Để tôn vinh người đặt nền tảng cho môn học,
Matheron lấy tên Kriging (Kriging) để đặt tên cho phương pháp ước lượng các giá trị
trung bình.
Tuỳ thuộc vào mục đích nhiệm vụ nghiên cứu, địa thống kê có thể giải quyết
được nhiều vấn đề; thơng thường nhất bao gồm:
- Tính liên tục: Mức độ, đặc tính biến đổi của các thơng số nghiên cứu (TSCN).
- Kích thước đới ảnh hưởng, tính đẳng hướng, dị hướng của TSCN. Dựa vào
những nội dung này đã giải quyết được những vấn đề rất cốt lõi:
+ Phân loại, ghép các TSCN, đối tượng nghiên cứu (ĐTNC);
+ Cơ sở cho phân cấp trữ lượng và tài nguyên khoáng sản.
+ Xác lập quy cách mẫu, mật độ mạng lưới quan sát, đo đạc lấy mẫu hợp
lý.
4


Mục Lục
+ Xác định số lượng, đánh giá chất lượng các TSCN; số lượng thu hồi,
quan hệ tương quan chất lượng, số lượng.
Địa thống kê là phương pháp mới, đang được tiếp tục hoàn thiện. Đã từ
nhiều năm, phương pháp được xem là hiện đại, và đang trở lên rất phổ biến, đặc
biệt là các nước tư bản phát triển: Pháp, Mỹ, Canada, Anh .... Địa thống kê không

chỉ áp dụng rộng rãi trong khảo sát thăm dò mỏ, địa vật lý, địa chất thuỷ văn, địa
chất cơng trình, địa hố, dầu khí, khai thác mỏ mà cịn ở nhiều lĩnh vực khác:
Nơng nghiệp, sinh học, khí tượng thuỷ văn, ngư nghiệp, xã hội học, cơ học và môi
trường. Như vậy, đối tượng nghiên cứu, ứng dụng của địa thống kê là rất rộng.
Ban đầu đối tượng nghiên cứu được xem như "trường hình học" mà trong đó, các
thơng số nghiên cứu được xem như là những biến lượng không gian điểm. Về thực
chất các bài
2.2. XÁC SUẤT THỐNG KÊ
Các quy luật thống kê phải hiểu rõ để áp dụng vào địa thống kê được thuần
thục. Xác suất thống kê là bộ xương của địa thống kê và nhiều quy luật thống kê
được áp dụng trực tiếp để hiểu rõ hơn các dữ liệu mẫu. Trong phần này sẽ tập trung
các quy luật thống kê cần thiết để hiểu và phân tích dữ liệu. [2]
2.2.1. Khái niệm cơ bản về xác suất
Xác suất thống kê được sử dụng nhiều trong cuộc sống chúng ta, các trò chơi
may rủi cũng cần đến xác suất thắng thua. Trong dầu khí, các giếng khoan, đặc biệt là
các giếng thăm dò, cũng là một trị may rủi của các cơng ty. Vì các cơng ty đầu tư
hàng triệu đô cho mỗi giếng khoan để tìm dầu khí, nếu giếng thăm dị khơng có sản
phẩm sẽ làm công ty bị lỗ, ngược lại, nếu giếng có sản phẩm thương mại thì sẽ có lời
và nếu giếng khoan có sản phẩm nhưng cho dịng ít khơng có thương mại thì cũng
xem như bị lỗ. Các giếng khoan đó của các cơng ty đều xây dựng trên khái niệm xác
suất để thiết kế chương trình thăm dị và đánh giá trong một giai đoạn kinh tế nhất
định. [3]
Xác suất thống kê được đánh giá theo biên độ từ 0 (hoặc 0%) là hồn tồn
khơng xảy ra đến 1 (hoặc 100%) là chắc chắn xảy ra. Xác suất của một tập hợp các
sự kiện có thể xảy ra có thể biết chính xác cơ chế hình thành nhưng chúng ta không
5


Mục Lục
thể mơ tả được q trình tự nhiên của nó. Chúng ta chỉ quan sát được xác suất thực

nghiệm và tính tốn sau:



ế
ố ầ

ố ó


ể ả
ế

ố đó

2.1

Trong đó, P là xác suất thực nghiệm và tập hợp các mẫu thử là  .
Quy luật cơ bản của xác suất thống kê thường thể hiện trạng thái của tập hợp
các phần tử và mô tả trên biểu đồ Venn, là biểu đồ Venn thể hiện các mối quan hệ
logic toán học giữa các phần tử trong tập hợp), nó được mơ tả cho ví dụ sau:

Hình 2-1: A và B độc lập với nhau

Hình 2-2: A và B phụ thuộc nhau

Cả hình chữ nhật của hai hình trên có giá trị bằng 1 và có xác suất P = 1. A và B
là hai mẫu trong tập hợp hình chữ nhật đó với P(A) = 0.5 và P(B) = 0.3. Trường hợp
1, (Hình 2-1), A và B độc lập với nhau nghĩa là xác suất để xảy ra đồng thời hai mẫu
A và B là 0:

P(A giao B) = P(A  B)  0

2.2

6


Mục Lục
Trong đó, dấu  là ký hiệu giao của hai mẫu. Trường hợp 2, (Hình 2-2) hai
mẫu phụ thuộc nhau hay xác suất xảy ra đồng thời giữa hai mẫu là P(A  B) =1.
Một số quy tắc trong xác suất khi xảy ra hoặc là có A hoặc là có B:
P(A hoặc B) = P(A  B)  P(A)+P(B)  P(A  B)

2.3

Trong đó  là ký hiệu của hợp hai mẫu. Trong trường hợp 1 A và B độc lập
với nhau thì chúng ta có:
P(A hoặc B) = P(A  B)  P(A)+P(B)  P(A  B) = 0.5+0.3 = 0.8

2.4

Phương trình 2.4 có nghĩa là xác suất khơng có A hoặc B là 0.2. Trong trường
hợp thứ 2, xác suất khơng có A hoặc B là 0.3 và chúng ta có:
P(A hoặc B) = P(A  B)  P(A)+P(B)  P(A  B) = 0.5  0.3 - 0.1 = 0.7

2.5

Một khái niệm quan trọng trong nhiều vấn đề suy luận thống kê là điều kiện xác
suất, khi chúng ta đánh giá xác suất xuất hiện của một mẫu dựa vào mẫu khác đã biết
hay đã có. Chúng ta áp dụng khái niệm đó vào đánh giá dưới bề mặt đất để suy luận

các quá trình và thuộc tính dựa vào các thơng số đã quan sát hay đã có. Trong trường
hợp 2 hình 2-2, chúng ta xem xét xác suất suất hiện của mẫu A trong tập B đã biết và
với điền khi là mẫu A, nó sẽ được tính số mẫu A trong B chia cho B hay:
P(A|B) 

P ( A  B ) 0.1 1


P( B)
0.3 3

2.6

Trong đó đường gạch đứng đọc là cho (given). Trong trường hợp 1 thì chúng ta
có P(A|B) = 0 vì A và B độc lập, khơng điều kiện ràng buộc, A xuất hiện mà B thì
khơng có. Từ quy tắc điều kiện xác suất ta có quy tắc nhân xác suất, nó mơ tả xác
suất xảy ra đồng thời hai biến của hai mẫu. Công thức cho quy tắc đó:
P(A  B)  P ( B ).P(A|B)=P(A).P(B|A)

2.7

Hai biến độc lập khi sự xuất hiện của một biến này không ảnh hưởng đến xác
suất xuất hiện của biến kia, hay P(A|B) = P(A) và P(B|A) = P(B). Nên hay biến độc
lập sẽ có:
P(A  B)  P( A).P ( B )

2.8

Quy tắc nhân đó có thể mở rộng ra cho n biến độc lập Ai, như sau:
P( A1  A2  ...  An )  P( A1 ).P(A2 )...P(An )


2.9

7


Mục Lục
2.2.2. Thống kê một biến
a.

Định nghĩa

Thống kê một biến hay còn gọi biến ngẫu nhiên là đại lượng nhận các giá trị
nào đó phụ thuộc vào các yếu tố ngẫu nhiên và có hai dạng biến ngẫu nhiên là rời rạc
và liên tục, được định nghĩa như sau [4] [5] [6] [3]:
Biến ngẫu nhiên rời rạc nếu nó chỉ nhận một số hữu hạn hoặc vô hạn đếm được
các giá trị, Nghĩa là có thể liệt kê các giá trị thành một dãy x1, x2,... Biến ngẫu nhiên
rời rạc được biểu diễn bằng một bảng phân bố xác suất của một biến (chẳng hạn X)
như sau:
Bảng 2-1: Bảng phân phối xác suất cho biến rời rạc

X
P

X1
p1

X2
p2


...
...

Biến ngẫu nhiên liên tục nếu các giá trị của nó có thể lấp đầy một hoặc một số
các khoảng hữu hạn hoặc vô hạn và xác suất P{ X= a } bằng không với mọi a. Biến
ngẫu nhiên liên tục được biễu diễn bằng hàm phân bố mật độ xác suất của biến ngẫu
nhiên F(x) (Probability Density Function – PDF):
x

F ( x) 



f (t)dt

2.10



Giá trị của hàm F(x) chính là diện tích hình phẳng giới hạn bởi đồ thị hàm mật
độ F(x), trục hồnh và đường thẳng song song với trục tung có hồng độ là x.

Hình 2-3 Giá trị hàm liên tục ngẫu nhiên

8


Mục Lục
b.


Kỳ vọng

Một trong khái niệm quan trong nhất trong lý thuyết thống kê là giá trị kỳ vọng
của biến ngẫu nhiên. Nếu X là biến ngẫu nhiên rời rạc có giá trị là x1, x2, x3,…, thì ta
có giá trị kỳ vọng của X ký hiệu là E(X) là:
n

n

E ( X )   xi P ( X  xi )

&

i

 P(X  x )  1
i

2.11

i

Mỗi giá trị kỳ vọng X là một giá trị trung bình của mỗi giá trị xi, mỗi xi có một
giá trị xác suất pi. Như vậy, kỳ vọng của một đại lượng ngẫu nhiên là trung bình theo
xác suất các giá trị có thể nhận được của đại lượng ngẫu nhiên.
Nếu X là đại lượng ngẫu nhiên liên tục có hàm mật độ F(x) thì kỳ vọng của X:


E( X ) 


 xF ( x)dx

2.12



Một số tính chất của kỳ vọng:
 E(C) = C
 E(X+Y) = E(X) +E(Y)
 E(C.X)=C.E(X)
 E(XY) = E(X).E(Y) nếu X và Y độc lập
Ý nghĩa của kỳ vọng là giá trị trung bình mà biến ngẫu nhiên nhận được. Giả sử
biến ngẫu nhiên X nhận các giá trị x1, x2, ..., xm với các tần số tương ứng r1, r2,..., rm.
rixi là tổng giá trị X nhận được với cùng giá trị xi . Do đó r1x1 + r2x2 +...+ rmxm là tổng
tất cả các giá trị X nhận được. Trường hợp biến ngẫu nhiên liên tục phép tính tổng
của giá trị trung bình được thay bằng phép tính tích phân xác định.
c.

Phương sai

Cho đại lượng X là biến ngẫu nhiên có kỳ vọng E(X). Khi đó ta gọi phương sai
của X là kỳ vọng của bình phương độ sai khác giữa X và E(X), ký hiệu là D(X)
D( X )  E[( X  E ( X ))2 ]

2.13

Từ định nghĩa trên và ý nghĩa kỳ vọng ta thấy phương sai là trung bình của bình
phương sai số X và E(X). Như vậy, phương sai càng nhỏ thì giá trị X càng tập trung
quanh E(X).
9



Mục Lục
Nếu X có tập giá trị x1, x2, x3,...,xn và tương ứng với xác suất cho từng giá trị
của X là p1, p2, p3,..., pn thì phương sai trở thành:
n

D ( X )   E[( xi  E ( X )) 2 ] pi
i 1

2.14

Nếu X liên tục thì có hàm mật độ xác suất f(x) thì thay pi bằng f(x).


D( X ) 

2
 ( x  E ( X )) f ( x)dx 





x

2

f ( x)dx  ( E ( X ))2


2.15



Một số tính chất của phương sai với mọi biến X, Y và hằng số C:


D(X) > 0, D(C) > 0



D(C.X) = C2.D(X)



D(X) = E(X2) – (E(X))2



D(X+Y) = D(X) + D(Y) nếu X và Y độc lập.



D(X+C) = D(X)

Do D(X) > 0 nên ta định nghĩa độ lệch chuẩn :
 ( X )  D( X )

hay  2 ( X )  D(X)


2.16

Các thông số cơ bản nhất trong thống kê hay sử dụng là Mode, Mean và
Median. Mỗi thơng số có tính chất hữu ích riêng [3]:

Mode (Mod) là giá trị của phân phối mà nó có tầng suất xuất hiện
nhiều trong mẫu, nó thể hiện đặc trưng của mẫu. Mod không nhất thiết nằm ở giá trị
trung tâm của mẫu

Median (Med) là giá trị nằm giữa trong dãy tập hợp, chia mẫu thành
hai nửa bằng nhau. 50% giá trị cao hơn Med và 50% giá trị nhỏ hơn Med. Giá trị
Med nằm tại trung tâm của mẫu.


Mean (Giá trị trung bình) là được tính như sau:

Trung bình số học thơng thường và đơn giản nhất được tính như sau:
Xa 

1 n
 Xi
n i 1

2.17

Trong đó, n là số mẫu quan sát được. Trong cơ học, trung bình là giá trị trọng
tâm của vật. Trong thống kê, trung bình là giá trị kỳ vọng của phân phối.

10



Mục Lục

Hình 2-4: Ví dụ về các giá trị Mod, Mean và Median.

Ngồi ra, giá trị trung bình có thể tính theo các cơng thức khác tùy thuộc vào
mục đích sử dụng:
 Trung bình hình học (geometric mean): hay là trung bình nhân, căn bậc n
của n giá trị mẫu nhân lại với nhau:
Xg 

n

n

X
i 1

i

 n X 1. X 2 ..... X n

2.18

 Trung bình điều hịa (Harmonic Mean) là nghịch đảo của trung bình số
học trong nghịch đảo các giá trị mẫu:
1 1 n 1
 
X h n i 1 X i


2.19

Trung bình số học được sử dụng nhiều nhất, đặc biệt cho các mơ hình vật lý
để xem xét độ sai lệch của mẫu so với giá trị trung tâm. Nhưng, trong trung bình số
học này thì bị bất lợi là tính ln các giá trị ngoại biên. Cho nên để tránh các giá trị
ngoại biên thì ta có thể giới hạn lại biên của mẫu và tính lại giá trị trung bình số học,
được gọi là trung bình số học thu gọn (Trimmed Mean):
b

X at 

X
i a

i

2.20

(b  a )

Trung bình hình học sẽ giống với trung bình số học khi chúng ta chuyển
thành thang chia log. Nó sử dụng chủ yếu cho các mơ hình vật lý mà có nhiều quá
11


Mục Lục
trình xảy ra đồng thời hay nhân lại với nhau. Giá trị trung bình hình học sẽ khơng ảnh
hưởng nhiều đến các mẫu có giá trị cao.
Trung bình điều hòa chủ yếu sử dụng cho các giá trị tỉ lệ hay các phân số, tỉ
lệ trung bình và nó không ảnh hưởng đến giá trị cao mà chỉ ảnh hưởng nhiều đến giá

trị thấp.
Trong bất kỳ dữ liệu nào thì trung bình số học lớn nhất và trung bình điều
hòa là nhỏ nhất:
Xh  Xg  Xa

2.21

2.2.3. Thống kê đa biến
a.

Định nghĩa

Trong các chương trước ta xét các biến ngẫu nhiên mà giá trị chúng nhận được
có thể biểu diễn bằng một số, đó là các biến ngẫu nhiên một chiều. Tuy nhiên trong
thực tế có thể gặp các đại lượng ngẫu nhiên mà giá trị nhận được là một bộ gồm hai,
ba, …, n số. Những đại lượng này được gọi một cách tương ứng là biến ngẫu nhiên
hai

chiều,

ba

chiều,

…,

n

chiều




được

gọi

chung là biến ngẫu nhiên nhiều chiều. Các biến ngẫu nhiên hai chiều, ba chiều, …, n
chiều còn được gọi là véc tơ ngẫu nhiên hai chiều, ba chiều, …, n chiều.
Một biến ngẫu nhiên n chiều là một bộ (X1, X2, ..., Xn) với các thành phần
là các biến ngẫu nhiên. Ta ký hiệu biến ngẫu nhiên hai chiều là , trong đó
là biến ngẫu nhiên thành phần thứ nhất và Y là biến ngẫu nhiên thành phần thứ hai.
Bảng 2-2: Bảng phân phối xác suất biến ngẫu nhiên rời rạc hai chiều [5]

Y
X
x1
x2
...
xi
...
xn
Σi

y1

y2

...

yj


...

ym

Σj

p(x1,y1)
p(x2,y1)
...
p(xi,y1)
...
p(xn,y1)
p(y1)

p(x1,y2)
p(x2,y2)
...
p(xi,y2)
...
p(xn,y2)
p(y2)

...
...
...
...
...
...
...


p(x1,yj)
p(x2,yj)
...
p(xi,yj)
...
p(x1,y1)
p(yj)

...
...
...
...
...
...
...

p(x1,ym)
p(x2,ym)
...
p(xi,ym)
...
p(xn,ym)
p(ym)

p(x1)
p(x2)
...
p(xi)
...

p(xn)
1

Trong đó, ta có thêm các phân phối như phân phối lề X và Y, nó chính là cộng
dịng hay cột của bảng 2.2 và phân phối có điều kiện.

12


Mục Lục
b.

Kỳ vọng

Cho biến ngẫu nhiên hai chiều Z = (X,Y) thì ta có kỳ vọng của Z là:
E (Z)  ( E ( X ), E (Y))

2.22

Trường hợp rời rạc, ta giả sử Z có phân phối đồng thời (X = xi, Y = yi) = pij thì
ta có E(X) và E(Y) như sau:
n

n

m

E ( X )   xi p ( xi )   xi p ( xi , y j )
i 1


i 1 j 1

m

m

j 1

j 1 i 1

2.23

n

E (Y)   y j p (y j )   yi p ( xi , y j )

Khi có điều kiện thì các kỳ vọng trong biến ngẫu nhiên rời rạc trở thành:
n

p ( xi , y j )

i 1

p (y j )

E ( X / Y  y j )   xi
m

p (y j , x i )


j 1

p( xi )

E (Y / X  xi )   y j

2.24

Trong trường hợp liên tục, Z = φ(X,Y) và có hàm mật độ đồng thời f(x,y) thì kỳ
vọng cho biến ngẫu nhiên liên tục là:
E ( Z )    ( x, y ). f ( x, y )dxdy

2.25

R2

Kỳ vọng có điều kiện trong biến ngẫu nhiên liên tục:


E ( X / Y  y) 

 xf

X/y

( x) dx



2.26




E (Y / X  x) 

 yf

X/y

( y ) dx



c.

Phương sai
n

m

D( X )  E ( X 2 )  ( E ( X )) 2   xi2 p ( xi , y j )  ( E ( X )) 2
i 1 j 1

m

n

D(Y )  E (Y )  ( E (Y ))   y j p( xi , y j )  ( E (Y ))
2


2

2

2.27
2

j 1 i 1

d.

Covariance (ma trận tương quan hay hiệp phương sai)

Hiệp phương sai được sử dụng như phương sai (variance) nhưng hiệp phương
sai sử dụng thêm một biến để đánh giá tương quan. Với hai biến X và Y ta có hiệp
phương sai như sau: [4]
13


Mục Lục
Cov ( X , Y ) 

1
 ( X i  X ).(Yi  Y )
n 1

2.28

Nếu Y, X rời rạc thì ta có thể viết phương trình Cov(X,Y) lại như sau:
m


n

Cov( X , Y )  E ( XY )  E ( X ).E (Y )  E ( XY )   xi yi pij  E ( X ).E (Y )

2.29

i 1 j 1

Ma trận tương quan (X,Y):
cov( X , Y ) 
 cov( X , X ) cov( X , Y )   D( X )
D( X , Y )  


D(Y ) 
 cov(Y , X) cov(Y , Y )   cov(Y , X)

e.

2.30

Tương quan giữa các biến [4]

Hệ số tương quan đo mức độ phụ thuộc tuyến tính giữa X và Y . Khi RYX càng
gần 1 thì tính chất quan hệ tuyến tính càng chặt, khi RYX càng gần 0 thì sự phụ thuộc
tuyến tính càng ít, càng lỏng lẻo. Khi ta nói RXY = 0 thì X và Y không tương quan.
RXY 

cov(Y , X )

E ( XY )  E ( X ).E (Y)


 ( X ). (Y )
D( X ).D(Y )

E  X  E ( X )Y  E (Y )
E  X  E ( X ) E Y  E (Y )
2

2

2.31

2.2.4. Một số phân phối trong thống kê [4] [5] [6]
Trong thống kê, có rất nhiều định luật phân phối như phân phối chuẩn, phân
phối Poisson, phân phối đều, phân phối khi bình phương, phân phối student và phân
phối Fisher – Snedecor. Ở đây, chúng ta nói rõ về phân phối chuẩn vì nó sử dụng
nhiều nhất và đơn giản. Phân phối chuẩn được tìm thấy bới Gauss vào năm 1809 nên
cũng được gọi là phân phối Gauss. Nó thường được tìm thấy trong các bài toán đo
đạc các đại lượng vật lý.
a.

Phân phối Poisson

Biến ngẫu nhiên X nhận các giá trị k = 0, 1, 2,... với xác suất như phương trình
2.32 gọi là có phân bố Poisson tham số λ > 0, :
P{ X  k}  e




k
k!

2.32

Trong đó, E(X) = λ; D(X) = λ và σX = λ0.5. Giá trị λ -1 < Mod(X) = m0 < λ. Nếu
λ nguyên thì Mod(X) nhận hai giá trị λ-1 hoặc λ, nếu Mod(X) khơng ngun thì nhận
giá trị bằng phần ngun của λ.

14


Mục Lục
Nếu X1, X2 là hai biến ngẫu nhiên độc lập có phân phối Poisson lần lượt là λ1,
λ2 thì X1 + X2 cũng có Poisson là P(λ1+ λ2)
b.

Phân phối chuẩn

Biến ngẫu nhiên liên tục X có phân bố chuẩn N(μ, σ2) , ký hiệu X ~ N(μ, σ2),
hàm mật độ có dạng:
1
f ( x) 
e
 2

 ( x   )2
2 2


; x  

2.33

Trong đó, μ = Mod(x) = Med(x)
Bằng cách tính các tích phân suy rộng ta có thể tính được kỳ vọng và phương
sai của biến ngẫu nhiên liên tục X ~ N(μ, σ2):
E( X )  

;

D( X )   2

2.34

Nếu là hai biến ngẫu nhiên X, Y độc lập có phân bố chuẩn là X ~ N(μx, σx2) và
Y ~ N(μy, σy2) thì tổ hợp tuyến tính bất kỳ X và Y cũng có phân bố chuẩn.

Hình 2-5 : Phân phối chuẩn

Phân phối chuẩn N(0;1) có kỳ vọng bằng 0 và phương sai bằng 1 thì gọi là phân
2

1  (2x )
; x  
e
bố chuẩn tắc. Hàm mật độ là:  ( x) 
2
1
 ( x) 

2

x

e

 ( t )2
2

và hàm phân bố :

dt; x  



15


Mục Lục

Hình 2-6: Phân phối chuẩn tắc

Nếu X ~ N(μ;σ2) thì



X 






c.



x



 x 




  
a X  b
b 
a 



P (a  X  b)  P
  




  
  

F ( x)  P{ X  x}  P

X 

~ N (0;1) . Từ đó, ta có



2.35

Phân phối Khi bình phương (χ2)

Biến ngẫu nhiên liên tục X có phân bố Khi bình phương n bặc tự do, ký hiệu X~
2

χ (n) nếu có hàm mật độ dạng:
n
1

x
2
x

e 2 khi x  0

f ( x)   n2
 2 (n / 2)
 0
khi x  0




Trong đó, ( x) 

t

2.36

e dt là hàm gamma. Các tham số đặc trưng E(χ2(n))=n và

x 1  t

0

D(χ2(n))=2n. Giá trị tới hạn khi bình phương n bậc tự do mức α , ký hiệu 2 (n) , được
định nghĩa như sau:
P   2  2 ( n)  

2.37

16


×