Tải bản đầy đủ (.pdf) (4 trang)

Các phương pháp thống kê mới sẽ cho phép các nhà nghiên cứu xử lý dữ liệu một cách tốt hơn, chính xác hơn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (662.2 KB, 4 trang )



Các phương pháp thống kê mới sẽ
cho phép các nhà nghiên cứu xử lý dữ liệu
một cách tốt hơn, chính xác hơn
Rand Wilcox, Giáo sư Thống kê, Đại học Nam California, Mỹ

Tóm tắt:
Các nhà nghiên cứu trong các ngành, lĩnh vực đều cố gắng làm sao để suy luận được
tổng thể dựa trên một mẫu tương đối nhỏ. Tuy nhiên nhiều phương pháp thống kê cũ có khả
năng làm cho kết quả sai lệch. Bài viết này đưa ra các ví dụ và phương pháp thống kê mới
giúp các nhà nghiên cứu xử lý dữ liệu một cách tốt hơn, chính xác hơn.
Ở bất kỳ lĩnh vực nào, nếu một nhà

này tạo cơ hội để hiểu biết chính xác hơn và

nghiên cứu đang thu thập dữ liệu dưới bất kỳ

mang sắc thái hơn về dữ liệu. Vấn đề là hiện

hình thức nào, tại một thời điểm nào đó sẽ

những kỹ thuật tốt hơn này được áp dụng

phải phân tích nó. Và chắc chắn là người đó

rộng rãi trong phạm vi cộng đồng khoa học

sẽ chuyển sang số liệu thống kê để biết dữ

với một tiến độ rất chậm.



liệu đó nói lên điều gì.
Một loạt các lĩnh vực - chẳng hạn như

Khi các phƣơng pháp cổ điển
không hiệu quả

khoa học xã hội, tiếp thị, sản xuất, ngành

Ví dụ, hãy tưởng tượng rằng các nhà

dược phẩm và vật lý - cố gắng để làm sao
suy luận được tổng thể dựa trên một mẫu
tương đối nhỏ. Tuy nhiên, nhiều nhà nghiên
cứu đang sử dụng các kỹ thuật thống kê cũ

nghiên cứu thu thập một nhóm 40 người có
cholesterol cao. Một nửa uống thuốc A, một
nửa khác uống một giả dược. Các nhà nghiên

có khả năng làm cho kết quả sai lệch. Và đó là
một vấn đề nếu như chúng ta hiểu sai về một
loại thuốc mới có tiềm năng hay một số tác
động của việc cung cấp nước cho thành phố.
Là một nhà thống kê đã theo đuổi
những tiến bộ trong lĩnh vực này, tôi biết có
rất nhiều phương pháp được cải tiến để so
sánh các nhóm cá thể hoặc sự vật, cũng như
hiểu biết về sự liên kết giữa hai hay nhiều
biến. Những phương pháp mạnh mẽ hiện đại


Điều gì sẽ xảy ra nếu những con chuột này
không thực sự đại diện cho tất cả những con chuột
khác ngoài chúng

25



cứu phát hiện ra rằng những người trong

trong số hàng triệu người dùng thuốc. Các kỹ

nhóm uống thuốc A có mức giảm cholesterol

thuật cổ điển cho rằng số lượng thay đổi

trung bình lớn hơn. Tuy nhiên, kết quả của

trong số những người nhận thuốc tiềm năng

20 người chưa phản ánh hết những gì sẽ xảy

là chính xác như số lượng thay đổi trong

ra nếu hàng ngàn người uống thuốc A?.

nhóm giả dược.

Hoặc trên một quy mô vũ trụ, hãy xem

xét nhà thiên văn học Edwin Hubble, người

Hình 1: Các đường cong dựa trên phương
trình mô tả các bộ dữ liệu đối xứng khác nhau

đã đo được 24 thiên hà từ trái đất và tốc độ
chúng di chuyển so với trái đất như thế nào.
Dữ liệu từ nhóm nhỏ này cho phép ông vẽ ra
một phương trình dự đoán vận tốc hồi quy
được gọi là tốc độ suy thoái cho khoảng cách
của nó. Nhưng kết quả của Hubble có phản
ánh được mối liên hệ giữa hàng triệu thiên
hà trong vũ trụ nếu chúng được đo lường?
Trong những tình huống này và nhiều
tình huống khác, các nhà nghiên cứu sử
dụng các mẫu nhỏ đơn giản do chi phí hạn
hẹp và khó khăn khi thu thập dữ liệu. Các
phương pháp cổ điển, thường được giảng

Một giả định tương tự cũng được thực

dạy và sử dụng, cố gắng giải quyết những

hiện khi nghiên cứu các mối liên hệ. Ví dụ,

vấn đề này bằng cách đưa ra hai giả thuyết

hãy xem xét một nghiên cứu kiểm tra mối

chính.


liên hệ giữa độ tuổi và mức độ trầm cảm.

Thứ nhất, các nhà khoa học cho rằng
có một phương trình cụ thể cho từng tình
huống riêng lẻ sẽ mô hình chính xác các xác
suất liên quan đến các kết quả có thể xảy ra.
Phương trình phổ biến nhất được sử dụng
tương ứng với cái gọi là phân phối chuẩn.

Trong số hàng triệu người ở độ tuổi 20, sẽ có
sự khác biệt về tỷ lệ trầm cảm. Điều này
cũng đúng ở tuổi 30, 80 hoặc ở bất kỳ độ
tuổi nào. Các phương pháp cổ điển cho rằng
số lượng thay đổi là giống nhau đối với bất
kỳ hai lứa tuổi mà chúng ta có thể chọn.

Các biểu đồ kết quả của dữ liệu có hình

Tất cả những giả định này cho phép

chuông và đối xứng xung quanh một số giá

các nhà nghiên cứu sử dụng các phương

trị trung tâm.

pháp lý thuyết và tính toán thuận tiện. Thật

Thứ hai, các nhà nghiên cứu giả định

số lượng biến thể là như nhau đối với cả hai

không may, họ có thể không mang lại kết
quả chính xác hợp lý.

nhóm họ đang so sánh. Ví dụ, trong nghiên

Trong khi viết cuốn sách “Giới thiệu về

cứu về thuốc, mức cholesterol sẽ thay đổi

Ước lượng chính xác và Kiểm định giả

26



thuyết”, tôi đã phân tích hàng trăm bài báo

Các phương pháp thông thường cung

và nhận thấy rằng những phương pháp này

cấp các giải pháp chính xác khi tất cả các giả

có thể không đáng tin cậy. Thật vậy, mối

định đã đề cập trước đó được đáp ứng.

quan tâm về các kết quả lý thuyết và thực


Nhưng ngay cả những vi phạm nhỏ của những

nghiệm xảy ra trong hai thế kỷ qua.

giả định này có thể là hủy hoại kết quả.

Khi các nhóm mà các nhà nghiên cứu

Mặt khác, các phương pháp mạnh mẽ

đang so sánh không khác nhau dưới bất kỳ

mới cung cấp các giải pháp gần đúng khi

hình thức nào, hoặc không có mối liên hệ,

những giả định này là đúng, làm cho chúng

các phương pháp cổ điển sẽ thực hiện tốt.

gần như chính xác như các phương pháp

Nhưng nếu các nhóm khác nhau hoặc có mối

thông thường. Nhưng khi tình hình thay đổi

liên hệ - điều đó chắc chắn không phải là

và các giả định không đúng thì các phương


hiếm - các phương pháp cổ điển có thể chùn

pháp mạnh mẽ mới sẽ tỏa sáng: Chúng tiếp

bước. Sự khác biệt và các mối liên hệ quan

tục cung cấp các giải pháp hợp lý chính xác

trọng có thể bị bỏ sót và kết luận có thể gây

cho một phạm vi rộng các tình huống mà

ra sai lệch rất lớn.

theo phương pháp truyền thống sẽ không

Ngay cả khi nhận ra những vấn đề này

cho kết quả chính xác.

có thể làm cho mọi thứ tồi tệ hơn, nếu các

Một mối quan tâm cụ thể là tình huống

nhà nghiên cứu cố gắng làm việc xung quanh

thường xảy ra khi các mô hình dữ liệu không

những hạn chế của các phương pháp thống


đối xứng. Ví dụ, trong một nghiên cứu về

kê cổ điển bằng cách sử dụng phương pháp

trầm cảm ở người lớn tuổi, một mô hình của

không hiệu quả hoặc kỹ thuật không hợp lệ.

dữ liệu không đối xứng - vì hầu hết người lớn

Chuyển đổi dữ liệu hoặc loại trừ các điểm

không bị trầm cảm quá mức.

ngoại lai - bất kỳ điểm dữ liệu cực đoan nào
khác xa các giá trị dữ liệu khác - những chiến

Hình 2: Mô hình trầm cảm ở người lớn tuổi

lược này không nhất thiết phải cố định ở các
vấn đề cơ bản.
Phƣơng pháp mới
Những tiến bộ đáng kể gần đây trong
thống kê cung cấp các phương pháp tốt hơn
để đối phó với những thiếu sót này. Trong 30
năm qua, các nhà thống kê đã tạo ra nền
tảng toán học cho những phương pháp mới
này. Chúng tôi gọi những kết quả kỹ thuật
này là mạnh mẽ, bởi vì chúng tiếp tục hoạt


Giá trị ngoại lai là một thách thức phổ

động tốt trong các tình huống mà các

biến. Các phương pháp thông thường giả

phương pháp thông thường không đáp ứng.

định rằng các giá trị ngoại lai không có tầm

27



quan trọng thực tiễn. Nhưng tất nhiên điều

rằng những cách thức cũ vẫn hoạt động tốt

đó không phải lúc nào cũng đúng, do đó, các

ngay cả khi các giả định cơ bản là sai - mặc

giá trị ngoại lai có thể là tai hại khi sử dụng

dù điều đó không phải vậy. Và hầu hết các

các phương pháp thông thường. Các phương

nhà nghiên cứu ngoài lĩnh vực thống kê


pháp mạnh mẽ mang lại cảnh báo kỹ thuật -

không cập nhật các tài liệu thống kê mới

mặc dù không rõ ràng, dựa trên cách đào tạo

nhất.

tiêu chuẩn - để giải quyết vấn đề này, sẽ
cung cấp một cách diễn giải dữ liệu chính xác
hơn nhiều.
Một bước tiến quan trọng khác là tạo
ra các phương pháp Bootstrap, những kỹ
thuật suy luận linh hoạt hơn. Kết hợp phương
pháp Bootstrap và phương pháp mạnh mẽ đã
mang lại một loạt các kỹ thuật mới và cải tiến
để hiểu dữ liệu hơn.

Có một trở ngại cuối cùng cần phải
được giải quyết nếu công nghệ hiện đại có
ảnh hưởng lớn đến dữ liệu hiểu biết của
chúng ta đó là đào tạo cơ bản.
Hầu hết sách giáo khoa giới thiệu
thống kê không thảo luận nhiều về tiến bộ và
hiểu biết đã xảy ra trong vài thập kỷ qua.
Điều này làm cho quan điểm sai lầm về các
nguyên tắc cơ bản đã không có sự tiến bộ

Những kỹ thuật hiện đại này không chỉ


quan trọng nào kể từ năm 1955. Tuy các

tăng khả năng phát hiện sự khác biệt quan

sách hướng dẫn nhằm khắc phục vấn đề này

trọng và mối quan hệ mà còn cung cấp

có sẵn và bao gồm các minh họa về cách áp

những quan điểm mới có thể làm cho chúng

dụng các phương pháp hiện đại với các phần

ta hiểu biết sâu sắc hơn về những gì dữ liệu

mềm hiện có.

đang cố gắng nói cho chúng ta biết. Không
có quan điểm duy nhất mà luôn luôn cung
cấp một bản tóm tắt chính xác của dữ liệu.
Nhiều quan điểm có thể là rất quan trọng.

Với hàng triệu đô la và khoảng thời
gian dành cho việc thu thập dữ liệu, việc
hiện đại hóa đào tạo cơ bản là hoàn toàn
cần thiết - đặc biệt đối với các nhà khoa học

Trong một số trường hợp, các phương pháp


không chuyên về thống kê. Nếu không,

hiện đại cung cấp ít hoặc không cải tiến

khám phá quan trọng sẽ bị mất và trong

nhiều kỹ thuật cổ điển. Nhưng có rất nhiều

nhiều trường hợp, sẽ không thể hiểu biết

bằng chứng cho thấy rằng chúng có thể làm

sâu sắc về dữ liệu.

thay đổi đáng kể sự hiểu biết của chúng ta
về dữ liệu.
Thiếu sót của giáo dục

Anh Tuấn (dịch)
Nguồn:
/>
Vậy tại sao những phương pháp hiện

methods-would-let-researchers-deal-with-

đại này lại không thay thế các phương pháp

data-in-better-more-robust-ways-67981


cổ điển? Sự khôn ngoan thông thường cho

28



×