Các phương pháp thống kê mới sẽ
cho phép các nhà nghiên cứu xử lý dữ liệu
một cách tốt hơn, chính xác hơn
Rand Wilcox, Giáo sư Thống kê, Đại học Nam California, Mỹ
Tóm tắt:
Các nhà nghiên cứu trong các ngành, lĩnh vực đều cố gắng làm sao để suy luận được
tổng thể dựa trên một mẫu tương đối nhỏ. Tuy nhiên nhiều phương pháp thống kê cũ có khả
năng làm cho kết quả sai lệch. Bài viết này đưa ra các ví dụ và phương pháp thống kê mới
giúp các nhà nghiên cứu xử lý dữ liệu một cách tốt hơn, chính xác hơn.
Ở bất kỳ lĩnh vực nào, nếu một nhà
này tạo cơ hội để hiểu biết chính xác hơn và
nghiên cứu đang thu thập dữ liệu dưới bất kỳ
mang sắc thái hơn về dữ liệu. Vấn đề là hiện
hình thức nào, tại một thời điểm nào đó sẽ
những kỹ thuật tốt hơn này được áp dụng
phải phân tích nó. Và chắc chắn là người đó
rộng rãi trong phạm vi cộng đồng khoa học
sẽ chuyển sang số liệu thống kê để biết dữ
với một tiến độ rất chậm.
liệu đó nói lên điều gì.
Một loạt các lĩnh vực - chẳng hạn như
Khi các phƣơng pháp cổ điển
không hiệu quả
khoa học xã hội, tiếp thị, sản xuất, ngành
Ví dụ, hãy tưởng tượng rằng các nhà
dược phẩm và vật lý - cố gắng để làm sao
suy luận được tổng thể dựa trên một mẫu
tương đối nhỏ. Tuy nhiên, nhiều nhà nghiên
cứu đang sử dụng các kỹ thuật thống kê cũ
nghiên cứu thu thập một nhóm 40 người có
cholesterol cao. Một nửa uống thuốc A, một
nửa khác uống một giả dược. Các nhà nghiên
có khả năng làm cho kết quả sai lệch. Và đó là
một vấn đề nếu như chúng ta hiểu sai về một
loại thuốc mới có tiềm năng hay một số tác
động của việc cung cấp nước cho thành phố.
Là một nhà thống kê đã theo đuổi
những tiến bộ trong lĩnh vực này, tôi biết có
rất nhiều phương pháp được cải tiến để so
sánh các nhóm cá thể hoặc sự vật, cũng như
hiểu biết về sự liên kết giữa hai hay nhiều
biến. Những phương pháp mạnh mẽ hiện đại
Điều gì sẽ xảy ra nếu những con chuột này
không thực sự đại diện cho tất cả những con chuột
khác ngoài chúng
25
cứu phát hiện ra rằng những người trong
trong số hàng triệu người dùng thuốc. Các kỹ
nhóm uống thuốc A có mức giảm cholesterol
thuật cổ điển cho rằng số lượng thay đổi
trung bình lớn hơn. Tuy nhiên, kết quả của
trong số những người nhận thuốc tiềm năng
20 người chưa phản ánh hết những gì sẽ xảy
là chính xác như số lượng thay đổi trong
ra nếu hàng ngàn người uống thuốc A?.
nhóm giả dược.
Hoặc trên một quy mô vũ trụ, hãy xem
xét nhà thiên văn học Edwin Hubble, người
Hình 1: Các đường cong dựa trên phương
trình mô tả các bộ dữ liệu đối xứng khác nhau
đã đo được 24 thiên hà từ trái đất và tốc độ
chúng di chuyển so với trái đất như thế nào.
Dữ liệu từ nhóm nhỏ này cho phép ông vẽ ra
một phương trình dự đoán vận tốc hồi quy
được gọi là tốc độ suy thoái cho khoảng cách
của nó. Nhưng kết quả của Hubble có phản
ánh được mối liên hệ giữa hàng triệu thiên
hà trong vũ trụ nếu chúng được đo lường?
Trong những tình huống này và nhiều
tình huống khác, các nhà nghiên cứu sử
dụng các mẫu nhỏ đơn giản do chi phí hạn
hẹp và khó khăn khi thu thập dữ liệu. Các
phương pháp cổ điển, thường được giảng
Một giả định tương tự cũng được thực
dạy và sử dụng, cố gắng giải quyết những
hiện khi nghiên cứu các mối liên hệ. Ví dụ,
vấn đề này bằng cách đưa ra hai giả thuyết
hãy xem xét một nghiên cứu kiểm tra mối
chính.
liên hệ giữa độ tuổi và mức độ trầm cảm.
Thứ nhất, các nhà khoa học cho rằng
có một phương trình cụ thể cho từng tình
huống riêng lẻ sẽ mô hình chính xác các xác
suất liên quan đến các kết quả có thể xảy ra.
Phương trình phổ biến nhất được sử dụng
tương ứng với cái gọi là phân phối chuẩn.
Trong số hàng triệu người ở độ tuổi 20, sẽ có
sự khác biệt về tỷ lệ trầm cảm. Điều này
cũng đúng ở tuổi 30, 80 hoặc ở bất kỳ độ
tuổi nào. Các phương pháp cổ điển cho rằng
số lượng thay đổi là giống nhau đối với bất
kỳ hai lứa tuổi mà chúng ta có thể chọn.
Các biểu đồ kết quả của dữ liệu có hình
Tất cả những giả định này cho phép
chuông và đối xứng xung quanh một số giá
các nhà nghiên cứu sử dụng các phương
trị trung tâm.
pháp lý thuyết và tính toán thuận tiện. Thật
Thứ hai, các nhà nghiên cứu giả định
số lượng biến thể là như nhau đối với cả hai
không may, họ có thể không mang lại kết
quả chính xác hợp lý.
nhóm họ đang so sánh. Ví dụ, trong nghiên
Trong khi viết cuốn sách “Giới thiệu về
cứu về thuốc, mức cholesterol sẽ thay đổi
Ước lượng chính xác và Kiểm định giả
26
thuyết”, tôi đã phân tích hàng trăm bài báo
Các phương pháp thông thường cung
và nhận thấy rằng những phương pháp này
cấp các giải pháp chính xác khi tất cả các giả
có thể không đáng tin cậy. Thật vậy, mối
định đã đề cập trước đó được đáp ứng.
quan tâm về các kết quả lý thuyết và thực
Nhưng ngay cả những vi phạm nhỏ của những
nghiệm xảy ra trong hai thế kỷ qua.
giả định này có thể là hủy hoại kết quả.
Khi các nhóm mà các nhà nghiên cứu
Mặt khác, các phương pháp mạnh mẽ
đang so sánh không khác nhau dưới bất kỳ
mới cung cấp các giải pháp gần đúng khi
hình thức nào, hoặc không có mối liên hệ,
những giả định này là đúng, làm cho chúng
các phương pháp cổ điển sẽ thực hiện tốt.
gần như chính xác như các phương pháp
Nhưng nếu các nhóm khác nhau hoặc có mối
thông thường. Nhưng khi tình hình thay đổi
liên hệ - điều đó chắc chắn không phải là
và các giả định không đúng thì các phương
hiếm - các phương pháp cổ điển có thể chùn
pháp mạnh mẽ mới sẽ tỏa sáng: Chúng tiếp
bước. Sự khác biệt và các mối liên hệ quan
tục cung cấp các giải pháp hợp lý chính xác
trọng có thể bị bỏ sót và kết luận có thể gây
cho một phạm vi rộng các tình huống mà
ra sai lệch rất lớn.
theo phương pháp truyền thống sẽ không
Ngay cả khi nhận ra những vấn đề này
cho kết quả chính xác.
có thể làm cho mọi thứ tồi tệ hơn, nếu các
Một mối quan tâm cụ thể là tình huống
nhà nghiên cứu cố gắng làm việc xung quanh
thường xảy ra khi các mô hình dữ liệu không
những hạn chế của các phương pháp thống
đối xứng. Ví dụ, trong một nghiên cứu về
kê cổ điển bằng cách sử dụng phương pháp
trầm cảm ở người lớn tuổi, một mô hình của
không hiệu quả hoặc kỹ thuật không hợp lệ.
dữ liệu không đối xứng - vì hầu hết người lớn
Chuyển đổi dữ liệu hoặc loại trừ các điểm
không bị trầm cảm quá mức.
ngoại lai - bất kỳ điểm dữ liệu cực đoan nào
khác xa các giá trị dữ liệu khác - những chiến
Hình 2: Mô hình trầm cảm ở người lớn tuổi
lược này không nhất thiết phải cố định ở các
vấn đề cơ bản.
Phƣơng pháp mới
Những tiến bộ đáng kể gần đây trong
thống kê cung cấp các phương pháp tốt hơn
để đối phó với những thiếu sót này. Trong 30
năm qua, các nhà thống kê đã tạo ra nền
tảng toán học cho những phương pháp mới
này. Chúng tôi gọi những kết quả kỹ thuật
này là mạnh mẽ, bởi vì chúng tiếp tục hoạt
Giá trị ngoại lai là một thách thức phổ
động tốt trong các tình huống mà các
biến. Các phương pháp thông thường giả
phương pháp thông thường không đáp ứng.
định rằng các giá trị ngoại lai không có tầm
27
quan trọng thực tiễn. Nhưng tất nhiên điều
rằng những cách thức cũ vẫn hoạt động tốt
đó không phải lúc nào cũng đúng, do đó, các
ngay cả khi các giả định cơ bản là sai - mặc
giá trị ngoại lai có thể là tai hại khi sử dụng
dù điều đó không phải vậy. Và hầu hết các
các phương pháp thông thường. Các phương
nhà nghiên cứu ngoài lĩnh vực thống kê
pháp mạnh mẽ mang lại cảnh báo kỹ thuật -
không cập nhật các tài liệu thống kê mới
mặc dù không rõ ràng, dựa trên cách đào tạo
nhất.
tiêu chuẩn - để giải quyết vấn đề này, sẽ
cung cấp một cách diễn giải dữ liệu chính xác
hơn nhiều.
Một bước tiến quan trọng khác là tạo
ra các phương pháp Bootstrap, những kỹ
thuật suy luận linh hoạt hơn. Kết hợp phương
pháp Bootstrap và phương pháp mạnh mẽ đã
mang lại một loạt các kỹ thuật mới và cải tiến
để hiểu dữ liệu hơn.
Có một trở ngại cuối cùng cần phải
được giải quyết nếu công nghệ hiện đại có
ảnh hưởng lớn đến dữ liệu hiểu biết của
chúng ta đó là đào tạo cơ bản.
Hầu hết sách giáo khoa giới thiệu
thống kê không thảo luận nhiều về tiến bộ và
hiểu biết đã xảy ra trong vài thập kỷ qua.
Điều này làm cho quan điểm sai lầm về các
nguyên tắc cơ bản đã không có sự tiến bộ
Những kỹ thuật hiện đại này không chỉ
quan trọng nào kể từ năm 1955. Tuy các
tăng khả năng phát hiện sự khác biệt quan
sách hướng dẫn nhằm khắc phục vấn đề này
trọng và mối quan hệ mà còn cung cấp
có sẵn và bao gồm các minh họa về cách áp
những quan điểm mới có thể làm cho chúng
dụng các phương pháp hiện đại với các phần
ta hiểu biết sâu sắc hơn về những gì dữ liệu
mềm hiện có.
đang cố gắng nói cho chúng ta biết. Không
có quan điểm duy nhất mà luôn luôn cung
cấp một bản tóm tắt chính xác của dữ liệu.
Nhiều quan điểm có thể là rất quan trọng.
Với hàng triệu đô la và khoảng thời
gian dành cho việc thu thập dữ liệu, việc
hiện đại hóa đào tạo cơ bản là hoàn toàn
cần thiết - đặc biệt đối với các nhà khoa học
Trong một số trường hợp, các phương pháp
không chuyên về thống kê. Nếu không,
hiện đại cung cấp ít hoặc không cải tiến
khám phá quan trọng sẽ bị mất và trong
nhiều kỹ thuật cổ điển. Nhưng có rất nhiều
nhiều trường hợp, sẽ không thể hiểu biết
bằng chứng cho thấy rằng chúng có thể làm
sâu sắc về dữ liệu.
thay đổi đáng kể sự hiểu biết của chúng ta
về dữ liệu.
Thiếu sót của giáo dục
Anh Tuấn (dịch)
Nguồn:
/>
Vậy tại sao những phương pháp hiện
methods-would-let-researchers-deal-with-
đại này lại không thay thế các phương pháp
data-in-better-more-robust-ways-67981
cổ điển? Sự khôn ngoan thông thường cho
28