i
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Nguyễn Viết Đạt
NGHIÊN CỨU ỨNG DỤNG PHƯƠNG PHÁP PHÂN
TÍCH HỆ SỐ TƯƠNG QUAN TRONG XỬ LÝ -
PHÂN TÍCH SỐ LIỆU PHỔ GAMMA HÀNG
KHÔNG
LUẬN VĂN THẠC SĨ KHOA HỌC
HÀ NỘI - 2012
ii
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Nguyễn Viết Đạt
NGHIÊN CỨU ỨNG DỤNG PHƯƠNG PHÁP PHÂN
TÍCH HỆ SỐ TƯƠNG QUAN TRONG XỬ - LÝ PHÂN
TÍCH SỐ LIỆU PHỔ GAMMA HÀNG KHÔNG
Chuyên ngành: Địa vật lý
Mã số: 60 44 61
LUẬN VĂN THẠC SĨ KHOA HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS. Võ Thanh Quỳnh
Hà Nội – 2012
iii
MỤC LỤC
MỞ ĐẦU 1
CHƯƠNG 1. CÁC PHƯƠNG PHÁP XỬ LÝ – PHÂN TÍCH TÀI LIỆU ĐỊA
VẬT LÝ HÀNG KHÔNG 3
1.1. CƠ SỞ LÝ THUYẾT XỬ LÝ TỔ HỢP SỐ LIỆU ĐỊA VẬT LÝ 3
1.1.1. Các bước xử lý tổ hợp số liệu địa địa vật lý 3
1.1.2. Các thuật toán nhận dạng 10
1.2. CÁC PHƯƠNG PHÁP XỬ LÝ PHÂN TÍCH TÀI LIỆU ĐỊA VẬT LÝ
MÁY BAY TRONG NƯỚC VÀ TRÊN THẾ GIỚI 20
1.2.1. Các phương pháp phân tích tài liệu địa vật lý máy bay trên thế giới 20
1.2.2. Các phương pháp phân tích tài liệu dịa vật lý may bay ở Việt Nam 25
CHƯƠNG 2. PHƯƠNG PHÁP HỆ SỐ TƯƠNG QUAN VÀ KHẢ NĂNG ỨNG
DỤNG CỦA PHƯƠNG PHÁP TRONG GIẢI ĐOÁN ĐỊA CHẤT SỐ LIỆU
PHỔ GAMMA HÀNG KHÔNG 27
2.1. PHƯƠNG PHÁP HỆ SỐ TƯƠNG QUAN 27
2.1.1. Hệ số tương quan 27
2.1.2. Cơ sở áp dụng phương pháp hệ số tương quan 29
2.2. ỨNG DỤNG PHƯƠNG PHÁP HỆ SỐ TƯƠNG QUAN TRONG ĐÁNH
GIÁ PHÂN LOẠI CỤM DỊ THƯỜNG 31
2.2.1. Đánh giá phân loại dị thường đơn 31
2.2.2. Đánh giá phân loại cụm dị thường 35
2.2.3. Ứng dụng hệ số tương quan trong đánh giá, phân loại cụm dị thường 36
2.3. ỨNG DỤNG PHƯƠNG PHÁP TRONG PHÂN CHIA THÀNH TẠO ĐỊA
CHẤT VÀ DỰ BÁO TRIỂN VỌNG KHOÁNG SẢN 38
iv
2.4. XÂY DỰNG CHƯƠNG TRÌNH ỨNG DỤNG PHƯƠNG PHÁP HỆ SỐ
TƯƠNG QUAN 40
CHƯƠNG 3. ÁP DỤNG PHƯƠNG PHÁP HỆ SỐ TƯƠNG QUAN TIẾN
HÀNH PHÂN TÍCH THỬ NGHIỆM TÀI LIỆU PHỔ GAMMA HÀNG
KHÔNG VÙNG ĐÔNG TỈNH ĐAK LAK 44
3.1. GIỚI THIỆU KHU VỰC NGHIÊN CỨU 44
3.1.1. Đặc điểm địa lý tự nhiên vùng nghiên cứu và khu vực lân cận 44
3.1.2. Đặc điểm dân cư - kinh tế - xã hội 48
3.1.3. Đặc điểm địa chất 49
3.2. ỨNG DỤNG PHƯƠNG PHÁP HỆ SỐ TƯƠNG QUAN VỚI SỐ LIỆU
THỰC TẾ VÙNG ĐÔNG ĐAK LAK 55
3.2.1. Ứng dụng hệ số tương quan góp phần đánh giá cụm dị thường 55
3.2.2. Ứng dụng phương pháp hệ số tương quan trong khoanh định các dị
thường và đánh giá phân loại dị thường trên toàn diện tích nghiên cứu 59
KẾT LUẬN 66
TÀI LIỆU THAM KHẢO 67
PHỤ LỤC 69
v
DANH MỤC BẢNG
Bảng 2.1: Các đặc điểm của hệ số tương quan R 29
Bảng 2.2: Các mức mã hóa theo T(1/2) 32
Bảng 2.3: Các mức mã hóa theo ∆J 32
Bảng 2.4: Các mức mã hóa theo cường độ bức xạ tương đối 33
Bảng 2.5: Các mức mã hóa theo Tỉ số ∆Th/∆U 33
Bảng 2.6: Các mức mã hóa theo Tỉ số ∆U/∆K 34
Bảng 2.7: Các mức mã hóa theo chỉ số nhiều thành phần 34
Bảng 2.8: Các nhóm bản chất phóng xạ của dị thường phổ gamma 34
Bảng 3.1: kết quả phân tích đánh giá cụm dị thường theo Báo cáo Kết quả bay đo
từ - phổ gamma tỉ lệ 1:25.000 vùng Tuy Hòa 56
Bảng 3.2: Kết quả phân loại đánh giá cụm dị thường theo hệ số tương quan 58
vi
DANH MỤC HÌNH
Hình 2.1: Đồ thị phân tán thể hiện mối quan hệ giữa 2 biến X, Y 27
Hình 2.2. Sơ đồ khối của chương trình 41
Hình 2.3: Một số hình ảnh chương trình xử lý tài liệu theo phương pháp hệ số
tương quan 43
Hình 3.1: Vị trí vùng nghiên cứu 45
Hình 3.2: Bản đồ hành chính phần phía Đông tỉnh Đak Lak 46
Hình 3.3: Sơ đồ cụm dị thường theo Báo cáo Kết quả bay đo từ - phổ gamma tỉ lệ
1:25.000 vùng Tuy Hòa 57
Hình 3.4: Sơ đồ đồng mức hệ số tương quan R
U/Th
60
Hình 3.5: Sơ đồ đồng mức hệ số tương quan R
U/K
61
Hình 3.6: Sơ đồ đồng mức hệ số tương quan R
Th/K
62
Hình 3.7: Sơ đồ phân vùng triển vọng khoáng sản khu vực nghiên cứu 64
1
MỞ ĐẦU
Hiện nay, trong công tác điều tra nghiên cứu địa chất và tìm kiếm khoáng
sản thì số lượng thông tin trên mỗi một đối tượng thu thập ngày càng lớn. Mỗi một
tài liệu chứa đựng một loại thông tin về đối tượng và nếu chỉ sử dụng một loại tài
liệu riêng biệt thì rất khó có thể giải quyết thoả đáng nhiệm vụ đặt ra. Do đó phân
tích đồng thời nhiều loại thông tin về đối tượng (tổ hợp số liệu) là một xu hướng tất
yếu, được phát triển mạnh và được áp dụng rộng rãi ở nước ta và trên thế giới.
Trong công tác bay đo từ - phổ gamma hàng không ở Việt Nam số lượng các
dị thường phổ gamma hàng không phát hiện được là rất lớn, tuy nhiên chỉ có số
lượng rất hạn chế có thể tiến hành kiểm tra đánh giá mặt đất. Vì vậy nhằm mục tiêu
nâng cao hiệu quả trong xử lý phân tích số liệu phổ gamma hàng không, học viên
tiến hành nghiên cứu và đề xuất phương pháp hệ số tương quan góp phần bổ sung
vào nhóm các phương pháp xử lý phân tích số liệu phổ gamma hàng không.
Luận văn được thực hiện với các mục tiêu Ngiên cứu phương pháp phân tích
hệ số tương quan và khả năng ứng dụng của phương pháp trong xử lý phân tích số
liệu phổ gamma hàng không. Sử dụng phương pháp hệ số tương quan để tiến hành
phân tích thử nghiệm trên số liệu thực tế từ đó đưa ra khả năng ứng dụng phương
pháp này trong xử lý số liệu phổ gamma hàng không. Với mục tiêu này, luận văn
được viết với cấu trúc 3 chương theo các nội dung chính như sau:
- Chương 1: Đưa ra khái quát về các phương pháp xử lý số liệu địa vật lý hàng
không
- Chương 2: Thực hiện phân tích ý nghĩa toán học cũng như ý nghĩa địa chất
của hệ số tương quan từ đó đưa ra phương pháp hệ số tương quan nhằm góp
phần nâng cao hiệu quả của quá trình xử lý tài liệu địa vật lý hàng không.
- Chương 3: Sử dụng phương pháp hệ số tương quan với số liệu thực tế nhằm
khẳng định khả năng ứng dụng của phương pháp này.
2
Trong quá trình thực hiện khoá luận này, học viên đã nhận được sự quan tâm
giúp đỡ tận tình của các thầy giáo, cô giáo trong Khoa Địa chất, Trường Đại học
Khoa học Tự nhiên , các cán bộ kỹ thuật Đoàn Địa vật lý máy bay (Gia Lâm, Hà
Nội), đặc biệt là sự hướng đẫn, giúp đỡ tận tình của thầy giáo hướng dẫn PGS.TS.
Võ Thanh Quỳnh. Học viên xin bày tỏ lòng biết ơn chân thành tới những sự giúp đỡ
nhiệt tình đó!
Do những hạn chế về mặt thời gian thực hiện luận văn nên nội dung của luận
văn không thể tránh khỏi những thiếu sót, rất mong nhận được sự bổ sung, góp ý
của các thầy .
Học viên thực hiện
Nguyễn Viết Đạt
3
CHƯƠNG 1. CÁC PHƯƠNG PHÁP XỬ LÝ – PHÂN TÍCH TÀI
LIỆU ĐỊA VẬT LÝ HÀNG KHÔNG
1.1. CƠ SỞ LÝ THUYẾT XỬ LÝ TỔ HỢP SỐ LIỆU ĐỊA VẬT LÝ
Khác với các lĩnh vực nghiên cứu trực tiếp đối tượng địa chất, địa vật lý
nghiên cứu gián tiếp các đối tượng đó dựa vào các đặc điểm trường vật lý của
chúng. Từ các số liệu khảo sát trường địa vật lý, mục tiêu cuối cùng của công tác
thăm dò địa vật lý là đưa ra được các thông tin của đối tượng để phục vụ cho các
mục tiêu khác nhau. Để thực hiện nhiệm vụ này có nhiều phương pháp, trong đó lý
thuyết nhận dạng – lĩnh vực toán học giải quyết các bài toán phân loại đối tượng là
một phương án được lựa chọn nhiều hiện nay trong địa vật lý.
Mỗi loại số liệu cụ thể thường chỉ phản ánh một số đặc trưng nào đó của đối
tượng vì vậy khi sử dụng số liệu đó để đưa ra kết luận về đối tượng sẽ cho kết quả
kém tin cậy do nhiều nguyên nhân khác nhau chưa kể tới các sai số mắc phải khi
thu thập và chỉnh lý số liệu. Để nâng cao chất lượng xử lý thông tin và đáp ứng
được các yêu cầu thực tế, hiện nay, người ta áp dụng phổ biến là các phương pháp
xử lý tổ hợp dữ liệu. “Xử lý tổ hợp dữ liệu về cơ bản là dựa trên nhiều loại thông
tin khác nhau để giải quyết được các nhiệm vụ đặt ra phù hợp với điều kiện kinh tế
và kỹ thuật cho phép”
1
. Không chỉ trong địa vật lý mà nhiều lĩnh vực khác cũng sử
dụng xử lý tổ hợp số liệu để nâng cao chất lượng của kết quả xử lý.
1.1.1. Các bước xử lý tổ hợp số liệu địa địa vật lý
Trong công tác xử lý tổ hợp số liệu địa vật lý, nhiệm vụ cơ bản và quan
trọng nhất là phân loại các điểm quan sát thành các diện tích hay các nhóm
diện tích nhất định. Trong đó các diện tích được phân loại có các trường địa
vật lý đặc trưng cho các đối tượng địa chất tương ứng. Để giải quyết nhiệm vụ
1
Theo Phạm Năng Vũ (2002), Bài giảng cơ sở lý thuyết xử lý số liệu địa vật lý,
4
trên, tương tự như nhiều lĩnh vực khoa học kĩ thuật khác, trong địa vật lý
người ta thường sử dụng lý thuyết nhận dạng - một lĩnh vực toán học đi sâu
vào giải quyết các bài toán phân loại đối tượng dựa vào mối quan hệ hữu cơ
giữa các đối tượng cụ thể với các dấu hiệu trường đặc trưng tương ứng cho
đối tượng đó. Xử lý tổ hợp số liệu Địa vật lý là một quá trình phức tạp phụ
thuộc vào mục đích đối tượng nghiên cứu và các dạng số liệu khác nhau. Một
cách khái quát có thể phân chia quá trình này theo các bước cơ bản sau đây
- Xây dựng mô hình và xác định phương pháp nhận dạng.
- Ước lượng các đặc trưng thống kê.
- Chọn thuật toán xử lý và thực hiện quá trình xử lý.
- Định nghiệm về sự tồn tại của các đối tượng.
- Đánh giá chất lượng xử lý.
a. Xây dựng mô hình và xác định phương pháp nhận dạng.
Để xử lý tổ hợp số liệu Địa vật lý người ta chủ yếu sử dụng các mô hình
thống kê vì các đối tượng khảo sát cần nghiên cứu có vị trí, kích thước, tính
chất vật lý không biết trước nên chúng được xem như các đối tượng ngẫu
nhiên. Mặt khác, các trường vật lý do các đối tượng địa chất tạo ra thường bị
các loại nhiễu làm méo nên các dấu hiệu trường Địa vật lý khảo sát cũng
mang tính ngẫu nhiên. Với mô hình để được nhiệm vụ tiếp theo là lựa chọn
các phương pháp nhận dạng tương ứng, tiến hành xử lý theo mô hình và giải
quyết các nhiệm vụ bài toán đặt ra.
Hiện nay có rất nhiều phương pháp nhận dạng hiện đại, được tự động
hóa bằng các phần mềm mạnh. Tuy nhiên, có thể chia chúng thành hai nhóm:
nhóm các phương pháp nhận dạng theo đối tượng chuẩn và nhóm các phương
pháp nhận dạng không có đối tượng chuẩn.
5
Nhóm các phương pháp nhận dạng theo đối tượng chuẩn được áp dụng
khi chúng ta biết được lớp đối tượng và biết được đặc trưng thống kê của các
trường địa vật lý đối với từng lớp đối tượng.
Khi xử lý số liệu địa vật lý bằng thuật toán nhận dạng có mẫu chuẩn,
nhiệm vụ đặt ra là cần xây dựng các thuật toán hay đề xuất các chỉ tiêu nhận
dạng đảm bảo để phân loại các đối số liệu quan sát thành hai lớp (thí dụ lớp
có quặng và lớp không quặng) hoặc với số lớp nhiều hơn 2 khi có trước các
đặc trưng thống kê của mỗi loại dấu hiệu ứng với các đối tượng chuẩn.
Vấn đề quan trọng, mang tính quyết định trong công tác xử lý số liệu địa
vật lý bằng thuật toán nhận dạng theo đối tượng chuẩn là lựa chọn đối tượng
chuẩn, trên đó tiến hành nghiên cứu các đặc trưng thông kê của các dấu hiệu
(các trường địa vật lý). Điều này đặc biệt quan trọng khi khảo sát các diện tích
có cấu trúc địa chất phức tạp, ở đó các trường địa vật lý quan sát được biến
đổi mạnh ngay cả ở những diện tích nhỏ.
Nhóm các phương pháp nhận dạng không có đối tượng chuẩn được áp
dụng khi chúng ta không biết trước các đặc trưng thống kê của các dấu hiệu
ứng với các lớp đối tượng cần tìm. Khi đó quá trình nhận dạng đơn thuần chỉ
thực hiện nhiệm vụ phân loại trường.
Phương pháp xử lý số liệu bằng thuật toán nhận dạng không có đối
tượng chuẩn được thực hiện như sau: bằng thuật toán phân loại trường lựa
chọn được, tiến hành chia các điểm quan sát thành một số nhất định các diện
tích đồng nhất về dấu hiệu tổ hợp. Bản chất địa chất của từng diện tích phân
ra được có thể không xác định được; để xác định chúng đòi hỏi phải có các số
liệu khoan hoặc nghiên cứu bổ sung về tính chất vật lý của đá.
b. Ước lượng các đặc trưng thống kê và lượng tin của các dấu hiệu trên
các đối tượng chuẩn
.
6
• Ước lượng các đặc trưng thống kê.
Để xử lý tổ hợp các số liệu bằng phương pháp nhận dạng có mẫu chuẩn
thì công việc quan trọng mang tính quyết định là lựa chọn các mẫu chuẩn và
xác định các đặc trưng thống kê các trường địa vật lý của chúng.
Các mẫu hay đối tượng chuẩn là phần diện tích ở đó bằng các số liệu
khoan và các số liệu địa chất khác đã xác định được bản chất địa chất của các
đối tượng gây ra trường địa vật lý. Tùy thuộc vào các mục đích nghiên cứu
khác nhau mà các đối tượng chuẩn được lựa chọn khác nhau. Ví dụ khi mục
đích nghiên cứu là tìm kiếm khoáng sản thì đối tượng chuẩn có thể là một
vùng quặng, một trường quặng, một mỏ quặng hay một vỉa quặng. Còn khi
khảo sát địa vật lý phục vụ công tác đo vẽ bản đồ địa chất thì các đối tượng
mẫu có thể là diện tích phát triển một loại đá nào đó.
Dựa vào các giá trị trường quan sát được trên các đối tượng chuẩn
người ta tiến hành xác định các đặc trưng thống kê của trường cho từng loại
đối tượng. Các đặc trưng này bao gồm:
- Đường cong biến phân (hàm phân bố mật độ xác suất thực nghiệm).
- Kỳ vọng và phương sai của trường (thông qua đường cong biến
phân ).
Ngoài ra khi cần người ta còn tính cả hệ số tương quan giữa các dấu
hiệu, phương chủ đạo của các dị thường…
Điều đặc biệt cần lưu ý để công tác phân tích nhận dạng đạt hiệu quả tốt
thì cần lựa chọn các đối tượng chuẩn sao cho các diện tích tồn tại đối tượng
chuẩn phải nằm xen kẽ với các phần diện tích khảo sát cần nhận dạng.
Đối với nhóm các phương pháp nhận dạng không có đối tượng chuẩn để
xác định các đặc trưng thống kê của trường người ta chia khu vực khảo sát
7
thành các diện tích cơ sở – cửa sổ. Kích thước của các diện tích cơ sở hay số
lượng điểm quan sát trên mỗi diện tích cơ sở được lựa chọn dựa vào tỉ lệ bản
đồ và kích thước dị thường mà các đối tượng trường tạo ra. Diện tích cơ sở có
thể nhỏ nhất cần chọn để trong tương lai có thể đề nghị (hoặc không đề nghị)
đưa vào thăm dò hoặc khảo sát chi tiết. Diện tích cơ sở cũng có thể xem như
cửa sổ trượt, các đặc trưng thống kê của trường trong cửa sổ đó được gán cho
điểm trung tâm cửa sổ.
• Lượng tin của dấu hiệu
Lượng tin của dấu hiệu là khả năng mà dấu hiệu đó có thể phân biệt được
các đối tượng khác nhau với nhau. Khả năng này phụ thuộc vào việc các đối
tượng của cùng một lớp có thường xuyên cho những giá trị cố định của dấu
hiệu đó hay không và các giá trị đó có phân bố rộng ra ngoài giới hạn của các
đối tượng của lớp đó hay không.
Người ta đưa ra các khái niệm lượng tin từng phần, lượng tin tổng (tích
phân) và lượng tin tổng hợp. Lượng tin từng phần là lượng tin của những dải
giá trị hay của nhóm các giá trị riêng biệt của một dấu hiệu nhất định. Lượng
tin tổng là lượng tin chứa toàn bộ các giá trị của một dấu hiệu (một loại
trường) nào đó. Cuối cùng lượng tin tổng hợp là lượng tin tính cho những
dạng kết hợp khác nhau của nhiều dấu hiệu.
Trong quá trình nhận dạng không phải mọi dấu hiệu trường đều quan
trọng như nhau, thậm chí có những dấu hiệu trường địa vật lý hoàn toàn
không chứa thông tin về đối tượng khảo sát và có thể là những dấu hiệu nhiễu
làm mờ nhạt đi các thông tin hữu ích. Khi đưa các dấu hiệu này vào sử dụng
để nhận dạng không làm tăng mà ngược lại làm giảm chất lượng nhận dạng
đối tượng. Chính vì vậy, trong quá trình xử lý cần tiến hành đánh giá lượng
8
tin của từng dấu hiệu để từ đó chọn ra những dấu hiệu có lượng tin cao đưa
vào xử lý và loại bỏ những dấu hiệu có lượng tin thấp.
c. Nguyên tắc lựa chọn các thuật toán xử lý.
Các thuật toán được lựa chọn để xử lý sẽ ảnh hưởng tới chất lượng xử lý.
Để chất lượng xử lý cao khi lựa chọn các thuật toán người ta dựa vào các yếu
tố sau:
• Nhiệm vụ địa chất đặt ra.
Nếu nhiệm vụ của khảo sát địa vật lý là tìm kiếm mỏ thì thuật toán phải
có khả năng nhận dạng hai lớp đối tượng: lớp quặng và lớp không quặng. Còn
nếu nhiệm vụ của khảo sát địa vật lý là phục vụ công tác đo vẽ bản đồ địa
chất thì thuật toán phải đảm bảo khả năng cùng một lúc nhận dạng được nhiều
lớp đối tượng liên quan với nhiều loại đất đá và các yếu tố kiến tạo khác nhau.
• Đặc điểm chứa thông tin của số liệu gốc.
Nếu các số liệu địa vật lý chứa thông tin ở hai mức: mức “có”- mức dị
thường và mức “không”- mức phông thì người ta sử dụng các thuật toán
logic. Trong trường hợp các số liệu địa vật lý chứa các thông tin định lượng
thì người ta sử dụng các thuật toán kiểm chứng thống kê.
• Tính độc lập và không độc lập của các dấu hiệu trường.
Khi các dấu hiệu trường địa vật lý độc lập nhau thì có thể sử dụng các
thuật toán đơn giản. Còn trong trường hợp các dấu hiệu liên quan với nhau thì
các thuật toán được sử dụng phức tạp hơn. Lưu ý là trong trường hợp các dấu
hiệu trường không độc lập nhau, để nhận dạng đòi hỏi các giá trị trường phải
phân bố theo luật chuẩn.
• Mức độ đầy đủ của các thông tin tiên nghiệm.
9
Mức độ đầy đủ của các thông tin tiên nghiệm chính là mức độ hoàn
chỉnh của các mô hình vật lý địa chất. Trong trường hợp tồn tại các đối tượng
chuẩn, nghĩa là khi biết rõ mô hình vật lý địa chất của các đối tượng thì để xử
lý người ta sử dụng các thuật toán nhận dạng có mẫu chuẩn để phân loại
trường.
d. Quyết định nghiệm về sự tồn tại của đối tượng cần tìm.
Đối với các thuật toán nhận dạng có mẫu chuẩn việc quyết định nghiệm
chủ yếu dựa vào chỉ số tương đồng. Chỉ số này xác định mức độ giống nhau
hoặc khác nhau giữa đối tượng nghiên cứu với đối tượng chuẩn theo lượng
thông tin tổng hợp của toàn bộ các dấu hiệu.
Đối với các thuật toán nhận dạng không có mẫu chuẩn thì quá trình nhận
dạng chỉ đơn thuần thực hiện việc phân chia diện tích khảo sát thành các phần
đồng nhất theo tổng hợp các dấu hiệu. Việc phân loại ở đây được tiến hành
dựa vào các chỉ tiêu định nghiệm khác nhau. Chỉ tiêu này phụ thuộc rất nhiều
vào số lượng các lớp đối tượng cần phân chia là bao nhiêu.
e. Đánh giá chất lượng xử lý.
Đối với các thuật toán nhận dạng có mẫu chuẩn, chất lượng xử lý được
đánh giá dựa vào sai số nhận dạng các đối tượng kiểm chứng (tỉ số các đối
tượng kiểm chứng được nhận dạng đúng so với tổng các đối tượng kiểm
chứng được đưa ra nhận dạng). Các đối tượng kiểm chứng là các đối tượng
mà bản chất địa chất của chúng đã được xác định rõ, song chúng không được
chọn làm đối tượng mẫu mà là đối tượng được dùng làm kiểm tra các kết quả
nhận dạng.
Đối với các thuật toán nhận dạng không đối tượng chuẩn người ta sử
dụng xác suất nhận dạng sai lầm để đánh giá chất lượng xử lý. Xác suất này
được tính dựa vào việc tính tích phân hàm phân bố mật độ xác suất của một
10
hệ số gọi là hệ số tương thích. Các hàm này được xác định riêng cho các đối
tượng kiểm chứng của từng lớp một.
1.1.2. Các thuật toán nhận dạng
Nhiệm vụ cơ bản nhất của công tác xử lý tổ hợp số liệu địa vật lý là phân loại
được các điểm quan sát thành các diện tích nhất định hay các nhóm, lớp diện tích
nhất định, ở đó các đặc trưng của trường địa vật lý giống với các đặc trưng của
trường liên quan với loại (lớp) đối tượng địa chất nhất định. Để giải quyết được
nhiệm vụ trên tương tự nhiều lĩnh vực khoa học khác người ta sử dụng lý thuyết
nhận dạng - một lĩnh vực toán học đi sấu vào giải quết các bài toán phân loại đối
tượng dựa vào mối quan hệ hữu cơ giữa các đối tượng cụ thể và các dấu hiệu đặc
trưng cho đối tượng đó.
Hiện nay, trong địa vật lý ngưồi ta sử dụng rất nhiều phương pháp nhận dạng
hiện đại, được tự động hoá bằng các phần mềm mạnh. Tuy nhiên có thể chia chúng
thành 2 nhóm: nhóm có phương pháp nhận dạng theo đối tượng chuẩn (có thông tin
tiên nghiệm) và nhóm có phương pháp nhận dạng không có đối tượng chuẩn (không
có thông tin tiên nghiệm).
a. Mẫu chuẩn, các đặc điểm đặc trưng của mẫu chuẩn
Để xử lý tổ hợp các số liệu bằng phương pháp nhận dạng có mẫu chuẩn thì
công việc quan trọng mang tính quyết định là lựa chọn các mẫu chuẩn và xác định
các đặc trưng thống kê các trường địa vật lý của chúng.
Các mẫu hay đối tượng chuẩn là phần diện tích ở đó bằng các số liệu khoan
và các số liệu địa chất khác đã xác định được bản chất địa chất của từng đối tượng
gây ra trường địa vật lý. Tuỳ thuộc vào các mục đích nghiên cứu khác nhau mà các
đối tượng chuẩn được lựa chọn khác nhau. Ví dụ khi mục đích nghiên cứu là tìm
kiếm khoáng sản thì đối tượng chuẩn có thể là một vùng quặng, một trường quặng,
một mỏ quặng hay một vỉa quặng. Còn khi khảo sát địa vật lý phục vụ công tác đo
11
vẽ bản đồ địa chất thì các đối tượng mẫu có thể là diện tích phát triển một loại đá
nào đó.
Tuỳ theo bản chất, đối tượng chuẩn có hai loại là đối tượng chuẩn mang các
thông tin đại diện và đối tượng chuẩn mang thông tin phủ nhận. Đối tượng chuẩn
đại diện mang các thông tin có khả năng phân loại một hay một lớp đối tượng.
Trong nhiều trường hợp có những đối tượng khác nhau nhưng mang các đặc điểm
trường địa vật lý tương đồng. Khi đó người ta sử dụng đối tượng chuẩn mang thông
tin phủ nhận để loại bỏ những đối tượng không đúng ra khỏi tập kết quả nhận dạng.
Cần lưu ý để công tác phân tích nhận dạng đạt hiệu quả tốt thì cần lựa chọn
các đối tượng chuẩn sao cho các diện tích tồn tại các đối tượng chuẩn phải nằm xen
kẽ với các phần diện tích khảo sát cần nhận dạng.
Một đối tượng chuẩn nào đó có phạm vi ứng dụng là giới hạn và nó phụ
thuộc vào các yếu tố sau:
- Đối tượng chuẩn phải có giá trị thông tin tin cậy theo mục tiêu tìm kiếm.
- Đối tượng chuẩn phải phù hợp với diện tích nghiên cứu.
- Mật độ lưới khảo sát các loại thông tin phải tương ứng với đối tượng chuẩn
lựa chọn.
Đối tượng chuẩn mang các dấu hiệu nhận biết, phân biệt nó với môi trường
xung quanh, các dấu hiệu có khả năng phân biệt cao trong các loại thông tin thu
thập sẽ gúp quá trình xử lý số liệu cho kết quả tin cậy. Để đánh giá chất lượng của
dấu hiệu người ta sử dụng khái niệm lượng tin của dấu hiệu. Lượng tin của dấu hiệu
là khả năng mà dấu hiệu đó có thể phân biệt được các đối tượng khác nhau với
nhau. Khả năng này phụ thuộc vào việc các đối tượng của cùng một lớp có thường
xuyên cho những giá trị cố định của dấu hiệu đó hay không và các giá trị đó có phân
bố rộng ra ngoài giới hạn của các đối tượng của lớp đó hay không.
Trong quá trình nhận dạng không phải mọi dấu hiệu trường đều quan trọng
như nhau, thậm chí có những dấu hiệu trường địa vật lý hoàn toàn không chứa
12
thông tin về đối tượng khảo sát và có thể là những dấu hiệu nhiễu làm mờ nhạt đi
các thông tin hữu ích. Khi đưa các dấu hiệu này vào sử dụng để nhận dạng không
làm tăng mà ngược lại lại làm giảm chất lượng nhận dạng đối tượng. Chính vì vậy,
trong quá trình xử lý cần tiến hành đánh giá lượng tin của từng dấu hiệu để từ đó
chọn ra những dấu hiệu có lượng tin cao đưa vào xử lý và loại bỏ những dấu hiệu có
lượng tin thấp.
Dựa vào các giá trị trường quan sát được trên các đối tượng chuẩn người ta
tiến hành xác định các đặc trưng thống kê của trường cho từng loại đối tượng. Các
đặc trưng này được sử dụng tuỳ thuộc vào thuật toán nhận dạng áp dụng. Thường
các đặc trưng thống kê bao gồm:
- Đường cong biến phân (hàm phân bố mật độ xác xuất thực nghiệm).
- Kỳ vọng và phương sai của trường (tính thông qua đường cong biến phân).
Ngoài ra khi cần người ta tính cả hệ số tương quan giữa các dấu hiệu,
phương chủ đạo của các dị thường…
b. Các thuật toán nhận dạng có mẫu chuẩn
Các thuật toán nhận dạng có mẫu chuẩn là các thuật toán tiến hành xác định
bản chất địa chất của các đối tượng dựa vào việc so sánh tập hợp các dấu hiệu địa
vật lý đặc trưng cho đối tượng chuẩn với tập hợp các dấu hiệu địa vật lý của đối
tượng nghiên cứu.
Việc lựa chọn thuật toán nhận dạng tuỳ thuộc vào các điều kiện sau:
- Số liệu xuất phát.
- Tồn tại thông tin tiên nghiệm về đối tượng.
- Nhiệm vụ cụ thể của công tác địa vật lý.
Các thuật toán nhận dạng được xây dựng dựa vào các công cụ toán học khác
nhau như: toán logic, các hàm hồi quy và lý thuyết định nghiệm thống kê… dưới
đây là một số thuật toán điển hình.
13
• Phương pháp nhận dạng sử dụng toán logic
Trong các thuật toán logic, để nhận dạng đối tượng hoặc là người ta tính
lượng tin tổng, hoặc là xác định khoảng cách tổng.
Từ đối tượng chuẩn tìm được các dấu hiệu đặc trưng và, người ta tiến hành
mã hoá các dấu hiệu trường bằng mã nhị phân gồm tập số “0” và “1”.
Nếu x
kn
là giá trị trường của dấu hiệu thứ n của mẫu thứ k thì:
- x
kn
= 0 khi mẫu k không chứa dấu hiệu thứ n.
- x
kn
=1 khi mẫu k chứa dấu hiệu thứ n.
Bằng cách trên toàn bộ các mẫu được mã hoá.
Tiếp theo, dựa vào các tổ hợp số “0” và “1” (từ thông tin) xác lập trên các
mẫu chuẩn người ta xác định các từ thông tin chuẩn cho từng lớp đối tượng. Từ
thông tin chuẩn cho một lớp (đối tượng) là từ thông tin gặp p lần ở các đối tượng
chuẩn của lớp đó và không gặp lần nào các đối tượng chuẩn thuộc lớp khác (giá trị
p được chọn theo kinh nghiệm). Đối với một lớp người ta có thể chọn khoảng giá trị
thông tin chuẩn. Các thông tin này được gọi là tổ hợp dấu hiệu phức hợp. Trong các
tổ hợp dấu hiệu phức hợp đặc trưng cho các đối tượng chuẩn của cùng một lớp thì
tổ hợp dấu hiệu nào đặc trưng cho số lượng mẫu chuẩn lớn hơn, tổ hợp dấu hiệu đó
sẽ có lượng tin lớn hơn.
Cuối cùng là nhận dạng các đối tượng nghiên cứu. Ở bước này người ta tiến
hành kiểm tra xem bao nhiêu tổ hợp dấu hiệu phức hợp của từng lớp gặp ở đối
tượng nghiên cứu. Nếu số lần gặp các tổ hợp dấu hiệu phức hợp của một lớp nào đó
nhiều hơn số lần gặp các tổ hợp phức hợp của lớp khác thì đối tượng nghiên cứu
được xếp vào lớp đó. Quá trình này được tiến hành cho tới khi đối tượng cuối cùng
được nhận dạng.
• Phương pháp nhận dạng sử dụng phân tích hồi quy
14
Trong xử lý số liệu địa vật lý, thuật toán hồi quy đầu tiên được sử dụng để sử
lý các số liệu đo địa vật lý giếng khoan và phân tích định lượng các tài liệu trọng
lực. Thực chất của thuật toán này là xây dựng các hàm hồi quy xác định mối quan
hệ giữa các tham số địa chất cần tìm với các số liệu địa vật lý quan sát được bằng
các phương pháp khác nhau. Ví dụ mối quan hệ giữa một bên là độ rỗng của đất đá
với bên kia là các số liệu đo điện trở, điện trường tự nhiên, gama… dọc thành giếng
khoan.
Thường quá trình xấp xỉ các hàm hồi quy giới hạn bởi các đa thức bậc 1, bậc
2 hoặc đặc biệt có thể xấp xỉ với đa thức bậc lớn hơn. Ví dụ: nếu chỉ có hai dấu hiệu
1 và 2 thì hàm hồi quy được xấp xỉ bằng đa thức bậc 2 có đạng:
y
k
= a
k
x
1k
+ b
k
x
2k
+c
k
x
1k
x
2k
+ d
k
x
2
1k
+ g
k
x
2
2k
+ h
k
(1.1)
Các hệ số a
k
, b
k
, c
k
, d
k
, g
k
và h
k
trong biểu thức (1.1) được xác định bằng
phương pháp bình phương tối thiểu theo các giá trị địa chất của tham số y
k
xác định
được trên các đối tượng chuẩn và các số liệu đo trường địa vật lý của các dấu hiệu
x
1k
và x
2k
của chính đối tượng đó.
Phương trình hồi quy trên được xác định cho từng đối tượng chuẩn thứ k.
Ngoài phương pháp hồi quy người ta còn tiến hành xác định giá trị ngưỡng y
k
cho
từng lớp đối tượng chuẩn. Cuối cùng đưa các giá trị trường đo được trên các đối
tượng cần nghiên cứu vào các phương trình hồi quy tìm được trên đối tượng chuẩn
ta sẽ xác định được giá trị của tham số y
k
của đối tượng nghiên cứu.
Thuật toán phân tích hồi quy có ưu điểm là dễ dàng đưa vào xử lý bổ sung
các số liệu của dấu hiệu mới bằng cách đưa thêm vào phương trình của hàm hồi quy
các số hạng mới. vì vậy thuật toán này rất phù hợp cho việc xử lý các số liệu của tổ
hợp khảo sát gồm nhiều dấu hiệu khác nhau.
Tuy nhiên thuật toán hồi quy cũng có nhược điểm ở chỗ với một tập hợp số
liệu nhất định ứng với một giá trị sai số cho trước có thể xấp xỉ được nhiều hàm hồi
quy. Nhược điểm này thể hiện rõ nhất khi các đấu hiệu quan sát trường liên quan
với nhau. Lý do trên không cho phép đưa ra được các lý giải về ý nghĩa vật lý của
15
các hệ số của hàm hồi quy tìm được. Các lý giải vật lý chỉ có thể được đưa ra khi
dạng của phương trình này được xác định cho một mô hình vật lý cụ thể, còn quá
trình xấp xỉ hồi quy chỉ được tiến hành đơn thuần với mục đích xác định hệ số của
phương trình hồi quy ứng với mô hình vật lý đó.
• Phương pháp kiểm định giả thuyết thống kê
Thuật toán nhận dạng trên cở sở mô hình thống kê đối tượng chuẩn trong
phân tích số liệu địa vật lý thường sử dụng các thông số như: tỷ số sự thật L(x) và
tổng lượng thông tin J(1:2,x).
Giá trị các thông số đó được tính theo công thức:
( )
)(
)(
2
1
xP
xP
xL =
(1.2)
(
)
=
)
(
)(
log,
2
:1
2
1
xP
xp
x
J
(1.3)
Trong đó:
P
1
(x), P
2
(x) là các xác suất bắt gặp giá trị dấu hiệu x cùng với các đối tượng
tương ứng của lớp 1 và lớp 2 (ví dụ lớp quặng và lớp không quặng). Khi sử dụng
đối tượng chuẩn cho lớp 1 (lớp quặng) thì trong các biểu thức P
2
(x) được thay bằng
1.
x là vecto giá trị các dấu hiệu được sử dụng, x
1
, x
2
,…, x
k
(ví dụ các hàm
lượng q
u
, q
th
, q
k
,…).
Khi các dấu hiệu x
1
, x
2
,…, x
k
được xem là không phụ thuộc nhau thì xác xuất
của đại lượng n chiều của tổ hợp n dấu hiệu được tính:
)() ().(
).()(
321
k
xPxPxPxPxP =
(1.4)
)() ().(
)() ().(
)()
().(
)(
21
22212
12111
k
k
k
xL
xLxL
xPxP
xP
xP
xPxP
xL ==
(1.5)
),2:
1( ),2:
1(),2:1(
),2:1(
2
1 k
xJxJx
JxJ +++=
(1.6)
16
Nếu sự phụ thuộc của các dấu hiệu là rõ và sự phân bố của chúng tuân theo
luật chuẩn thì để nhận dạng các đối tượng thuộc lớp 1 và lớp 2 người ta thường sử
dụng các hàm phân giải bậc 1 (R
1
) hoặc bậc 2 (R
2
) đối với các tham số x
1
, x
2
,…, x
n
.
Các hàm này được biểu diễn như sau:
∑
=
=
n
i
ii
xaR
1
1
(1.7)
∑∑∑
== =
+=
k
i
ii
k
i
k
j
jiij
xcxxbR
11 1
2
(1.8)
Trong đó các hệ số: a
i
, b
ij
, c
i
được xác định từ các ma trận thông tin các dấu
hiệu của các đối tượng thứ 1 và thứ 2. Thông qua các “diện tích đối tượng chuẩn”
người ta xác định được các vecto giá trị các dấu hiệu sử dụng x (trong trường hợp
các dấu hiệu được xem là không phụ thuộc nhau) hoặc các hệ số a
i
, b
ij
, c
i
(trong
trường hợp các dấu hiệu phụ thuộc nhau). Sau đó tính giá trị L(x), J(1:2,x) hoặc R
1
,
R
2
, phổ các giá trị này lên khắp diện tích khảo sát và biểu diễn chúng lên bản đồ.
Đối sánh các giá trị này với các giá trị của đối tượng chuẩn có thể nhận biết và
khoanh định được các diện tích đồng dạng với đối tượng chuẩn. Các dấu hiệu được
lựa chọn thường là một tổ hợp nào đó trong số các tham số thu được.
c. Các thuật toán nhận dạng không có mẫu chuẩn
• Thuật toán kiểm chứng thống kê
Thuật toán này tiến hành phân loại trường khi các dấu hiệu trường hoàn toàn
độc lập nhau. Ban đầu người ta sử dụng bộ lọc để tách các dị thường ra khỏi phông
nhiễu cho từng dấu hiệu trường. Kết quả lọc cho phép nhận được các số liệu trường
chủ yếu gồm các dị thường. Tiếp theo phân loại các dị thường thành các lớp dị
thường. Mỗi lớp dị thường gồm các dị thường có các đặc trưng thống kê giống
nhau. Để phân loại các dị thường đầu tiên người ta phân chia khu vực khảo sát
thành các diện tích cơ sở, sau đó dựa vào kết quả phân chia cá giá trị trường ở mỗi
cửa sổ người ta dựng các đường cong biến phân đặc trưng cho cửa sổ đó. Cuối cùng
để phân lớp các dị thường người ta sử dụng các chỉ tiêu χ
2
để so sánh và xếp loại
17
các đường cong biến phân. Các diện tích có ước lượng phân bố mật độ xác suất
giống nhau được xếp vào một lớp.
Giai đoạn cuối cùng của quá trình nhận dạng là giai đoạn thuật toán tiến hành
xác định số hiệu của lớp tổng hợp.
Với mục đích này, dựa vào các đường cong biến phân đựng được cho từng
dấu hiệu người ta xác định giá trị trung bình và phương sai rồi sắp xếp các giá trị
trung bình theo thứ tự tăng dần. Sau đó người ta dựa vào chỉ tiêu xác suất hậu
nghiệm cực đại người ta quyết định xếp loại đối tượng khảo sát và các lớp khác
nhau. Bằng cách trên, toàn bộ khu vực khảo sát được phân thành một số diện tích có
hình dạng bất kỳ, ở đó dị thường của các dấu hiệu khác nhau đè lên nhau.
• Thuật toán K trung bình
Nội dung thuật toán như sau: Giả sử tồn tại n đối tượng, nhiệm vụ đặt ra là
phân chia toàn bộ n đối tượng thành M lớp với M << n.
Để giải quyết nhiệm vụ trên, lúc đầu người ta chọn hú hoạ từ n đối tượng ra
k đối tượng, k đối tượng được chọn này xem như các mẫu chuẩn xuất phát. Tiếp
theo là tiến hành chính xác hoá liên tiếp các mẫu chuẩn chọn được bằng cách so
sánh các mẫu chuẩn với các đối tượng còn lại. Sau mỗi lần chọn tập hợp các mẫu
chuẩn E
v
chọn được ở lần chọn thứ v sẽ thay cho các mẫu chuẩn ở lần chọn thứ v-1
(lần trước đó).
Nếu ký hiệu tập hợp mẫu chuẩn (E
v
) chọn được ở lần chọn thứ v là:
E
v
= { e
1
v
, e
2
v
,… e
k
v
} với v = 0, 1, 2,
Với ký hiệu này mẫu chuẩn xuất phát là:
E
0
= { e
1
0
, e
2
0
,… e
k
0
}
Các mẫu chuẩn này chính là các mẫu được chọn ra ở vòng đầu tiên (vòng số
0) của quá trình lặp. Tiếp theo vòng số 0 thuật toán gọi tiếp số x
k+1
và tìm xem trong
k mẫu e
i
0
, mẫu chuẩn nào gần nhất với nó. Nếu tìm được, thì mẫu chuẩn thuộc tập
18
hợp E
0
tìm được này được thay thế bằng mẫu chuẩn mới. Mẫu chuẩn mới này có giá
trị e
i
1
được tính như giá trị trọng tâm giữa các giá trị của mẫu chuẩn cũ và giá trị của
đối tượng gắn kết với nó x
k+1
.
Sau quá trình hiệu chỉnh ở vòng 1, bằng phương pháp mô tả trên thuật toán
sẽ tiến hành hiệu chỉnh ở các lần tiếp theo, cho tới khi đối tượng cuối cùng được gọi
ra.
Sau khi tập hợp các mẫu chuẩn được chính xác hoá, thuật toán tiến hành
phân loại toàn bộ số lượng n các đối tượng theo tập hợp các dấu hiệu thành M lớp
dựa vào nguyên tắc khoảng cách tối thiểu.
d. Quyết định sự tồn tại của đối tượng và đánh giá chất lượng xử lý
Đối với thuật toán nhận dạng có mẫu chuẩn việc quyết định nghiệm chủ yếu
dựa vào chỉ số tương đồng. Chỉ số này xác định mức độ giống nhau hoặc khác nhau
giữa đối tượng nghiên cứu với đối tượng chẩn theo lượng thông tin tổng hợp của
toàn bộ các dấu hiệu (trường địa vật lý quan sát).
Phụ thuộc vào từng loại thuật toán nhận dạng người ta chọn những đại lượng
khác nhau để đánh giá chỉ số tương đồng. Đối với các thuật toán nhận dạng kiểm
chứng thống kê thì chỉ số tương đồng chính là hệ số tương thích λ hay xác suất hậu
nghiệm P(A
k
/B
j
). Đối với các thuật toán loại này để quyết định nghiệm người ta đưa
ra các giá trị ngưỡng của hệ số tương thích và xác suất hậu nghiệm. Giá trị của chỉ
số tương đồng sẽ được so sánh với giá trị ngưỡng này để quyết định đối tượng
nghiên cứu giống hay không giống với mẫu.
Chất lượng của kết quả xử lý được đánh giá dựa vào sai số nhận dạng các đối
tượng kiểm chứng. Các đối tượng kiểm chứng là các đối tượng mà bản chất địa chất
của chúng đã được xác định rõ, song chúng không được chọn là mẫu chuẩn để nhận
dạng mà được dùng làm các đối tượng để kiểm tra các kết quả nhận dạng.
Sai số nhận dạng được tính bằng tỷ số các đối tượng kiểm chứng được nhận
đạng dúng so với tổng các đối tượng kiểm chứng được đem ra nhận dạng.
19
Đối với các thuật toán nhận dạng kiểm chứng thống kê người ta sử dụng xác
suất nhận dạng sai lầm để đánh giá chất lượng xử lý. Xác suất này được xác định
dựa vào việc tính tích phân hàm phân bố mật độ xác suất của hệ số tương thích λ.
Các hàm này được xác định riêng cho các đối tượng kiểm chứng của từng lớp một.