Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (313.62 KB, 63 trang )
<span class='text_page_counter'>(1)</span>PHƯƠNG PHÁP PHÂN TÍCH DỮ LIEÄU Xuất phát từ cách nhìn của một nhà nghiên cứu muốn xác định caùc phöông phaùp phaân tích ñöa vaøo ứng dụng cho dữ liệu, chứ không phải từ cách nhìn của một kỹ thuật viên thống kê (có thể thấu hiểu đầy đủ hơn bản chất các phương pháp thoáng keâ),.
<span class='text_page_counter'>(2)</span> 3.1 Bản chất và chức năng của phân tích thống kê Phân tích thống kê có thể được hiểu là các phương pháp chắt lọc dữ liệu để rút ra các suy luaän logic. Các giai đoạn chủ yếu của phân tích thống kê goàm coù: Sắp xếp dữ liệu thô vào các thứ bậc đã được đo lường. Tóm tắt dữ liệu. Áp dụng các phương pháp phân tích để làm rõ caùc moái quan heä töông hoã vaø caùc yù nghóa ñònh lượng giữa các dữ liệu..
<span class='text_page_counter'>(3)</span> 3.2 Quá trình phân tích dữ liệu Xếp dữ liệu theo thứ tự (lập dãy, lập bảng, xếp loại, tính %)Tóm tắt dữ liệu thống kêChọn phương pháp phân tích thích hợp (chọn các tiêu chuẩn)Phân tích các sai biệtNghiên cứu các mối liên hệPhân tích dữ liệu thực nghieäm .
<span class='text_page_counter'>(4)</span> a/ Xếp dữ liệu theo thứ tự Dữ liệu thô được thu thập từ thực địa và mã hóa vẫn chưa đủ điều kiện để cho phép phân tích, diễn giải. Chúng cần được trải qua giai đoạn sắp xếp theo thứ tự và bước thống kê (lập bảng). Phân làm 3 loại như sau:.
<span class='text_page_counter'>(5)</span> b/ Laäp daõy (array) Đây là hình thức đơn giản nhất để sắp xếp dữ liệu. Cách này sẽ xếp dữ liệu thành chuỗi số theo hướng tăng dần, hoặc giảm dần. Phương pháp này chỉ thích hợp với những dãy dữ liệu nhỏ, nó cho thấy sự phân bố của dãy số, giá trị max và min của dãy số, sự tập trung của dãy số đó.
<span class='text_page_counter'>(6)</span> c/ Lập bảng đơn giản (một chiều hoặc một bieán) Ta đếm tần suất xuất hiện của dữ liệu trong chuỗi dữ liệu và lập thành bảng phaân phoái taàn suaát (frequency distribution) nhö sau.
<span class='text_page_counter'>(7)</span> Baûng phaân boá tuoåi cuûa caùc thí sinh Tuoåi. Taàn soá tuyeät đối. Tần số tương đối (%). 17. 1. 6.3. 6.3. 18. 3. 18.8. 25.0. 19. 2. 12.5. 37.5. 20. 5. 31.5. 68.8. 21. 2. 12.5. 81.3. 22. 3. 18.8. 100.0. Toång coäng. 16. 100.0. Taàn soá tích luõy (%).
<span class='text_page_counter'>(8)</span> Daïng baûng naøy theå hieän khaù roõ raøng veà phaân boá dãy dữ liệu theo các mức dữ liệu khác nhau Tần số quan sát tuyệt đối ứng với từng mức dữ lieäu khaùc nhau. Tần số quan sát tương đối tính theo tỷ lệ % của từng mức dữ liệu so với toàn bộ mẫu quan sát. Taàn soá tích luõy chæ roõ tyû leä % cuûa taát caû quan saùt có giá trị nhỏ hơn hay bằng giá trị mức dữ liệu ñang xem xeùt. Các giá trị dữ liệu bất thường (quá lớn hay quá nhỏ) để kiểm chứng lại vì những giá trị dữ liệu sau coù theå laøm leäch keát quaû phaân tích thoáng keâ, hoặc những giá trị đúng nhưng bất thường đôi khi cần một cách xử lý đặc biệt khác. Các giá trị mã hóa bất thường sẽ chỉ ra sai sót do vieäc nhaäp lieäu hay maõ hoùa..
<span class='text_page_counter'>(9)</span> d/ Lập bảng so sánh toàn diện (Cross-tabulation) . Nhiều vấn đề nghiên cứu có thể được giải quyết bằng việc lập những bảng đơn giản. Tuy nhiên, bảng đơn giản chỉ cho biết sự phân bố của một biến số tại một thời điểm nào đó, và có thể không đem lại đầy đủ thông tin cho dữ liệu. Hầu hết các dữ liệu đều có thể được tổ chức ở hình thức cao hơn để cho ra những thông tin phụ thêm. Bảng so sách toàn diện chính là hình thức mở rộng của bảng một chiều để nhà nghiên cứu có thể nghiên cứu mối liên hệ giữa hai hay nhiều biến bằng cách đồng thời đếm tần số xuất hiện ở từng bảng một chieàu..
<span class='text_page_counter'>(10)</span> Ví dụ: Liên hệ giữa mức lợi tức và trình độ giáo dục Giaùo duïc treân moãi đầu người. Giaùo duïc phoå thoâng trở xuống Có từ 1-3 naêm trung hoïc Toát nghieäp trung hoïc. Mức lợi tức (dollar) Dưới 5000. 50007999. 800 0999 9. 1250 0 1499 9 40. 1500 0 1999 9 46. 20000 24999. Treân 25000. Toå ng soá. 61. 1000 0 1249 9 48. 232. 136. 16. 13. 592. 145. 99. 46. 80. 51. 61. 26. 33. 541. 196. 217. 137. 187. 217. 220. 164. 139. 147 7.
<span class='text_page_counter'>(11)</span> 4- Đo lường khuynh hướng hội tụ của dữ liệu . Ba cách đơn giản nhất để đo lường khuynh hướng hội tụ của dãy dữ liệu là tính các giaù trò mode, giaù trò trung vò (median) vaø giaù trò trung bình (mean)..
<span class='text_page_counter'>(12)</span> Giaù trò mode Giá trị mode là giá trị dữ liệu có tần số quan sát lớn nhất, hoặc thuộc lớp có tần suất xuất hiện lớn nhất. Giaù trò trung vò Giaù trò trung vò cuûa moät daõy phaân phoái laø giaù trò maø 50% giá trị quan sát được của dãy nhỏ hơn nó và 50% giá trị còn lại của dãy lớn hơn nó. Trước khi tính giá trị trung vị, ta phải sắp xếp dữ liệu theo thứ tự. Giaù trò trung bình Giá trị trung bình được hiểu là trung bình số học, được tính bằng tổng các giá trị của các quan sát chia cho soá laàn quan saùt. .
<span class='text_page_counter'>(13)</span> 5- Đo lường độ phân tán của dữ lieäu . Hai daõy phaân phoái coù theå coù cuøng giaù trò về đo lường khuynh hướng hội tụ, nhưng raát khaùc nhau veà tính chaát phaân boá cuûa các quan sát, gọi là độ phân tán của dữ liệu. Các giá trị đo lường độ phân tán này raát caàn thieát, chuùng boå sung cho caùc giaù trò đo lường độ hội tụ để làm rõ đặc trưng của dãy dữ liệu đang được nghiên cứu..
<span class='text_page_counter'>(14)</span> . . . Khoảng biến thiên (range) Khoảng biến thiên là sai biệt giữa giá trị lớn nhất và nhỏ nhất trong dãy phân phối. Giá trị này chỉ nêu bật các cực trị của dữ liệu mà không so sánh với giá trị trung bình neân coù theå laøm leäch hình aûnh daõy phaân phoái. Heä soá bieán thieân (Coefficient of Variation) Nếu cần so sánh độ phân tán của hai hay nhieàu daõy phaân phoái coù giaù trò trung bình khaùc nhau hay coù caùc ñôn.
<span class='text_page_counter'>(15)</span> 6- Lựa chọn phương pháp phân tích dữ liệu thích hợp Khi cân nhắc lựa chọn phương pháp phân tích dữ liệu thích hợp, chúng ta phải dựa trên những cơ sở sau đây: 6.1 Kỹ thuật phân tích muốn chứng minh ñieàu gì ? Nhà nghiên cứu thường phải trả lời các câu hỏi: “Những kết quả có ý nghĩa gì về mặt thống kê ?”, hoặc “Liệu các kết quả coù xuaát hieän moät caùch ngaãu nhieân do vieäc chỉ sử dụng một mẫu duy nhất không ?”..
<span class='text_page_counter'>(16)</span> . . Dữ liệu tham số và dữ liệu phi tham số Dữ liệu gọi là thuộc loại tham số (parametric) khi chúng được phân phối xung quanh giá trị trung bình hoặc giá trị trung tâm của chúng một cách đối xứng tương tự đường cong xác suất chuẩn tắc. Khi đó, chúng ta có thể dùng những kiểm định xác suất để xác định ý nghĩa thống kê đối với bất kỳ mẫu nghiên cứu nào lấy ra từ tổng thể. Dữ liệu phi tham số (non parametric) không được phân phối theo đường cong xác suất chuaån taéc neân yù nghóa thoáng keâ hoïc cuûa chuùng phải được xem xét bằng những kiểm định khác với loại kiểm định căn cứ trên xác suất..
<span class='text_page_counter'>(17)</span> . . . Phöông phaùp ñôn bieán : chæ phaân tích 1 bieán soá duy nhaát. Phương pháp hai biến : phân tích sự liên hệ giữa 2 biến số. Phương pháp đa biến : phân tích sự liên hệ giữa 3 hay nhiều biến số với nhau..
<span class='text_page_counter'>(18)</span> . . . Tính phuï thuoäc vaø phuï thuoäc laãn nhau Phương pháp phân tích sự liên hệ giữa các biến số được chia làm 2 nhóm: Một biến số phụ thuộc được kiểm định về tính phụ thuộc của nó với những biến số độc lập khaùc. Tất cả các biến số được nghiên cứu về mối lieân heä laãn nhau, tính phuï thuoäc laãn nhau giữa chúng..
<span class='text_page_counter'>(19)</span> . . . . . Số lượng mẫu nghiên cứu cần đến Các kiểm định thống kê được dùng tùy theo mục ñích: Kiểm tra những sai biệt đáng kể giữa một mẫu đơn thuần với tổng thể đặc biệt nào đó. Kiểm tra những sai biệt đáng kể giữa hai mẫu độc lập hay có liên quan với nhau. Kiểm định ý nghĩa của những sai biệt giữa ba hay nhiều mẫu độc lập hay có liên quan với nhau. Sự đo lường mối tương quan và những kết quả kieåm ñònh veà yù nghóa cuûa chuùng..
<span class='text_page_counter'>(20)</span> 7- Kiểm định thống kê để đánh giá caùc giaû thuyeát Nguyeân taéc kieåm ñònh giaû thuyeát Trong mục III, ta đã dùng kết quả của mẫu để ước lượng một số trị số thực còn chưa biết của tổng thể và dựa vào đó làm cơ sở mô tả tổng thể. Ngoài ra, để nhận biết các tham số của thị trường (tổng thể) một cách đầy đủ và chi tiết hôn, ta coù theå ñöa ra moät soá giaû thuyeát veà caùc thông số đó và sử dụng các thông tin thu thập trên mẫu để chứng minh. Công cụ chủ yếu cho quá trình đó là các kiểm định thống kê..
<span class='text_page_counter'>(21)</span> Các bước tổng quát cần thực hiện khi kieåm ñònh giaû thuyeát Phaùt bieåu giaû thuyeát “khoâng” vaø giaû. theá. thuyeát thay. Chọn mức ý muoán. 11. Ruùt ra keát luaän thoáng keâ veà giaû thuyeát “khoâng” 66. nghóa mong. Choïn kieåm ñònh thoáng keâ thích hợp. 22. 33. Tính trò soá thoáng keâ cuûa kieåm ñònh thích hợp cho 55 phaân phoá i laáy. Xaùc ñònh vuøng baùc boû hay caùc vùng tới hạn. maãu. 44.
<span class='text_page_counter'>(22)</span> . Bước 1: Giả thuyết về một giá trị tổng thể nào đó cần phải được kiểm định gọi là giả thuyết “không” (null hypothesis), kyù hieäu laø. Moät keát luaän khaùc maø vieäc chaáp nhaän noù phuï thuoäc vaøo vieäc baùc bỏ giả thuyết “không” thì được gọi là giả thuyết thay theá (alternative hypothesis), kyù hieäu laø . Vieäc thieát laäp tuøy thuoäc vaøo baûn chaát vaø tính định hướng sai biệt của tình huống. Nếu tình huống không có định hướng sai biệt, giả thuyết sẽ được kiểm định 2 đuôi (two-tailed test). Nếu tình huống có định hướng sai biệt, sẽ được kiểm định 1 đuôi (one-tailed test). Tính định hướng của giả thiết sẽ ảnh hưởng đến kiểm định thống kê được thực hiện và việc ra quyết định..
<span class='text_page_counter'>(23)</span> . Bước 2: Vì ảnh hưởng của sai số lấy mẫu nên thật khó đánh giá việc quyết định chấp nhận hay bác bỏ một giả thuyết là đúng. Khi một giả thuyết “không” bị bác bỏ mà lẽ ra nó phải được chấp nhận thì sẽ dẫn đến sai lầm loại I. Khả năng phạm sai lầm như vậy được gọi là mức ý nghĩa và ký hiệu là . Thường dùng = 0.1, = 0.05 và = 0.01. Mức càng nhỏ thì rủi ro bác bỏ lý thuyết “không” khi nó đúng sẽ giảm xuống. Nhưng ngược lại, rủi ro chấp nhận giả thuyết “không” khi nó sai lại tăng lên, dẫn đến sai lầm loại II, và ký hiệu là . Trong thực tế khó đạt được sự cân bằng giữa 2 loại sai số naøy..
<span class='text_page_counter'>(24)</span> . . . Bước 3: Việc chọn kiểm định thống kê thích hợp phuï thuoäc vaøo : Bản chất vấn đề: phân tích sai biệt, hoặc nghiên cứu các mối liên hệ. Cấp độ đo lường. Soá maãu : 1, 2 hay nhieàu hôn. Các mẫu độc lập hay có liên hệ với nhau. Và nhà nghiên cứu phải biết phân phối xác suất mà số thống kê của kiểm định được tính toán sẽ có liên quan đến..
<span class='text_page_counter'>(25)</span> . Bước 4: Khi đã chọn kiểm định thống kê và mức thích hợp, ta sẽ xác định được các trị số tới hạn tương ứng từ phân phối lấy mẫu của một kiểm định thống kê đó. Phân phối lấy maãu cuûa moät kieåm ñònh thoáng keâ bao goàm moïi giaù trò coù theå coù maø moät soá thoáng keâ cuûa kieåm ñònh coù theå laáy theo giaû thuyeát “không”. Trị số tới hạn là ranh giới của caùc vuøng chaáp nhaän vaø vuøng baùc boû giaû thuyeát “khoâng”..
<span class='text_page_counter'>(26)</span> . . Bước 5: Phân tích các số liệu thật sự bằng công thức thích hợp để tính ra trị số thống kê cuûa kieåm ñònh. Bước 6: Nếu trị số thống kê của kiểm định được tính ở bước 5 vượt quá trị số tới hạn ở bước 4, ta bác bỏ giả thuyết “không”. Ngược lại, sẽ không có các bằng chứng thống kê để bác bỏ giả thuyết này..
<span class='text_page_counter'>(27)</span> 8- Phaân tích ñôn bieán (univariable data analysis) . . . . Phân tích đơn biến liên quan tới việc nghiên cứu một số biến số mà ta đã đo lường trên một mẫu phần tử. Có hai vấn đề cần xem xét trong phân tích đơn biến : Mô tả dữ liệu: được thể hiện dưới 2 góc độ xu hướng hội tụ và xu hướng phân tán của dữ liệu cũng như dạng phân phoái caùc quan saùt. Diễn giải: bao gồm việc so sánh các giá trị quan sát với một hoặc nhiều giá trị đã định tương ứng với mục tiêu mong muốn hoặc một kết quả nghiên cứu trước đó. Các phương pháp phân tích được sử dụng tùy thuộc vào loại của biến số: định danh, thứ tự, hay metric (khoảng caùch vaø tyû leä)..
<span class='text_page_counter'>(28)</span> 8.1 Phaân tích moät bieán ñònh danh Biến định danh chứa đựng các giá trị toán học ít nhất trong các biến. Ta có thể tính số lượng quan sát tương ứng với mỗi hạng (category) hay mỗi dạng thức (modality) của biến, nghĩa là lập các bảng diễn giải đơn giản hoặc so sánh toàn diện. Xu hướng hội tụ thể hiện thông qua giá trị mode phản ánh sự tập trung nhiều nhất của các quan sát vào một dạng thức nào đó. Độ phân tán biểu hiện ở tần suất, nghĩa là tỷ lệ % số các quan sát xuất hiện tương ứng ở mỗi dạng thức. Thống kê diễn giải tương ứng với biến định danh là kiểm định Chi-bình phương dùng để so sánh phân phối quan sát trong mẫu với một phân phối đã định trước. Ngoài ra, trường hợp biến định danh có dạng lưỡng phân, ta có thể sử dụng kiểm định nhị thức để kiểm tra giả thuyết. Kiểm định Chi-bình phương sẽ được trình bày chi tiết hơn ở phần sau. Kiểm định nhị thức có thể tóm tắt như sau:.
<span class='text_page_counter'>(29)</span> . . KIỂM ĐỊNH NHỊ THỨC Giả sử ta có một mẫu n phần tử lấy ra từ tổng thể nào đó bao gồm 2 hạng (category). Phân phối nhị thức là phân phối của các tỷ lệ của 2 hạng đó trong mẫu. Vì vậy, giả thuyết H0 là không có sự khác nhau giữa các tỷ lệ trong mẫu và trong tổng thể mà nó đại diện.Kiểm định nhị thức bao gồm việc tính toán các xác suất Ptt nhận được các giá trị quan sát trong mẫu. So sánh các xác suất này với giá trị ngưỡng của độ tin cậy đã xác định ta có thể : Baùc boû giaû thuyeát H0 khi Ptt < ε . Chaáp nhaän giaû thuyeát H0 khi Ptt => ε ..
<span class='text_page_counter'>(30)</span> . . . Ví dụ : Nghiên cứu sự hiểu biết của một tập hợp khách haøng trong moät toång theå xaùc ñònh veà caùc saûn phaåm không có nhãn hiệu, giả thuyết H0 là trong số đối tượng nghiên cứu, tỷ lệ những người biết các sản phẩm này là 50% (không có sự khác nhau giữa số người biết và không biết các sản phẩm). Xác suất nhận được k đối tượng trong 1 hạng (“có biết các sản phẩm không nhãn”) và ( n-k ) đối tượng trong haïng kia (“khoâng bieát caùc saûn phaåm khoâng nhaõn”) được trình bày như sau : Với Pk = n! Pk qn-k k!(n-k) ) Với P(k) = xác suất nhận được k đối tượng P = tỷ lệ đối tượng trong 1 hạng của tổng thể Q = tỷ lệ đối tượng trong hạng kia của tổng thể Xác suất nhận được k đối tượng hay ít hơn sẽ là tổng số các xác suất nhận được 0 đối tượng, 1 đối tượng, ....
<span class='text_page_counter'>(31)</span> . Giả sử mẫu nghiên cứu có 16 phần tử. Giaû thuyeát H0 seõ laø: p = q = ½ Trong mẫu chỉ có 2 phần tử không biết các sản phaåm khoâng nhaõn ( k = 2).. Nhö vaäy :Ptt ( k <= 2) =P(0)+P(1)+p(2)=0.002 . So sánh P(k <= 2)=0,002 với giá trị ngưỡng ε = 0,05 vaø ε = 0,01 ta thaáy P(k <= 2) <. = ε = 0,01. Do đó, có thể bác bỏ giả thuyeát taïi H0 taïi P <= 0,01 ..
<span class='text_page_counter'>(32)</span> . . . Phân tích một biến thứ tự Đây là biến chất lượng trong đó các giá trị được sắp xếp theo thứ tự. Xu hướng hội tụ được thể hiện thông qua giá trò trung vò, laø giaù trò phaân chia toång theå nghieân cứu ra làm hai phần đều nhau. Độ phân tán được biểu diễn bởi các phân nhaùnh (fractiles) phaân chia toång theå ra laøm caùc phần đều nhau theo thứ hạng. Thường sử dụng nhaát laø phaân nhaùnh 4 (quartile chia toång theå ra làm 4 hạng bằng nhau), sau đó người ta so sánh giá trị đầu tiên với giá trị cuối cùng của caùc phaân nhaùnh..
<span class='text_page_counter'>(33)</span> . . Kiểm định sử dụng để chứng minh giả thuyết đối với 1 biến thứ tự là kiểm định KolmogorovSmirnov. KIEÅM ÑÒNH KOLMOGOROV-SMIRNOV Đây là 1 kiểm định phi tham số nhằm so sánh sự phân chia các quan sát trong mẫu với một phân chia chuẩn đã xác định.Ví dụ : Giả thuyết rằng một mẫu có 100 người tiêu dùng đã cho ý kiến về một loại mỹ phẩm mới theo thang đo có 4 thứ hạng từ “rất đậm” đến “rất nhạt”. Mục tiêu của kiểm định là so sánh sự phân phối các câu trả lời với sự phân phối lý thuyết tương ứng với giả thuyết H0 (không có sự khác nhau giữa tỷ lệ các câu trả lời ở các thứ hạng). Nếu quy mô mẫu n>35 giải thuyết H0 bị bác bỏ khi mức sai số ε =0.01.
<span class='text_page_counter'>(34)</span> . . . Phaân tích moät bieán metric Trong trường hợp một biến metric (gồm biến khoảng cách và biến tỷ lệ), xu hướng hội tụ là giá trị trung bình. Độ phân tán được thể hiện thông qua giá trị phương sai và độ lệch chuẩn. Hai chỉ tiêu này được dùng để so sánh phân phối quan sát được với phân phối chuẩn là hệ số đối xứng (hay “skewness”) và hệ soá taäp trung (hay “kurtosis”). Kiểm định sử dụng là kiểm định trung bình: So sánh phân phối quan sát với phân phối chuẩn. Hai chỉ tiêu đánh giá độ phân tán được sử dụng để so sánh phân phối quan sát với phân phối chuẩn (hay gọi là đường cong Gauss hoặc đường cong hình chuông) là hệ số đối xứng (symmetric coefficient) và hệ số tập trung (concentrated coefficient)..
<span class='text_page_counter'>(35)</span> . . . . Phân tích hai biến thứ tự – thứ tự Đo lường tương quan giữa 2 biến thứ tự được thực hiện chủ yếu thông qua 2 hen số tương quan theo thứ bậc Spearman (rho ) và Kendal (tau ). Hai hệ số này dao động từ –1 đến +1. p = +1 tương ứng với một tương quan thuận chiều hoàn toàn (2 sự xếp hạng đồng nhất). P =-1 tương ứng với một tương quan ngược chiều hoàn toàn (2 sự xếp hạng trái ngược nhau). P =0 không có quan hệ gì giữa 2 sự xếp hạng..
<span class='text_page_counter'>(36)</span> . . Phaân tích hai bieán ñònh danh - ñònh danh Trường hợp này rất thường gặp trong nghiên cứu. Nội dung phaân tích chuû yeáu bao goàm: Laäp caùc baûng ngaãu nhieân. AÙp duïng kieåm ñònh Chi – bình phöông Đo lường các tương quan. Laäp caùc baûng ngaãu nhieân Caùc baûng ngaãu nhieân (baûng cheùo) nhaèm so saùnh caùc câu trả lòi của 1 câu hỏi theo câu trả lời cho trước của 1 câu hỏi khác. Ví dụ ta so sánh câu trả lời có-không (câu hỏi về tiêu thụ sản phẩm P với câu hỏi về giới tính của đối tượng nghiên cứu: nam –nữ). Ma trận thông tin trong trường hợp này bao gồm 2 cột 2 hàng với 4 khả năng kết hợp có thể xảy ra (nam+có, nam+không, nữ+có, nữ+không)..
<span class='text_page_counter'>(37)</span> . . Phaân tích hoài quy Phöông phaùp phaân tích hoài quy laø phương pháp lập một hàm quan hệ giữa các biến khi biết được giá trị tương ứng cuûa chuùng..
<span class='text_page_counter'>(38)</span> . . . Hồi quy tuyến tính: Khi quan hệ giữa các bieán laø tuyeán tính. Hồi quy phi tuyến: Khi quan hệ giữa các bieán laø phi tuyeán. Phaân tích hoài quy phi tuyến phức tạp hơn nhiều so với hồi quy tuyến tính nên ít được dùng. Hoài quy ñôn giaûn: Khi ta xem xeùt quan heä chæ cuûa 2 bieán..
<span class='text_page_counter'>(39)</span> Chöông 5 THOÁNG KEÂ MOÂ TAÛ. . Thống kê mô tả là bước cơ bản và cũng là bước khởi đầu của nhiều công trình toán thống kê. Các thuật toán và đồ thị dùng trong thoáng keâ moâ taû khaù phong phuù vaø tùy thuộc vào mẫu nghiên cứu (định lượng, định tính hay bán định lượng)..
<span class='text_page_counter'>(40)</span> I-Thoáng keâ moâ taû. . Baûng phaân phoái taàn soá . Thực hiện mô tả phân phối tần số treân SPSS: (taäp Diem_thi.sav).
<span class='text_page_counter'>(41)</span>
<span class='text_page_counter'>(42)</span> Hộp thoại phân phối tần số: Chọn loại biểu đồ cần veõ. Choïn bieán laäp baûng phaân phoái taàn soá. Tính các đại lượng thống kê moâ taû.
<span class='text_page_counter'>(43)</span> Baûng phaân phoái taàn soá: Số quan sát hợp lệ. Statistics. Thoán g keâ ngôn ngữ học. Số quan sát bị thiếu dữ liệu N. Valid Missing. Xaõ hoäi ngoân ngữ học. 23. 23. 0. 0. Thống kê ngôn ngữ học Frequency Valid. Percent. Valid Percent. Cumulative Percent. 1.0. 2. 8.7. 8.7. 8.7. 2.5. 5. 21.7. 21.7. 30.4. 3.0. 1. 4.3. 4.3. 34.8. 4.0. 5. 21.7. 21.7. 56.5. 4.5. 3. 13.0. 13.0. 69.6. 5.0. 1. 4.3. 4.3. 73.9. 5.5. 3. 13.0. 13.0. 87.0. 6.0. 1. 4.3. 4.3. 91.3. 6.5. 1. 4.3. 4.3. 95.7. 7.0. 1. 4.3. 4.3. 100.0. 23. 100.0. 100.0. Total. Xã hội ngôn ngữ học Frequency Valid. Percent. Valid Percent. Cumulative Percent. .0. 1. 4.3. 4.3. 4.3. 1.5. 2. 8.7. 8.7. 13.0. 2.5. 1. 4.3. 4.3. 17.4. 3.0. 1. 4.3. 4.3. 21.7. 3.5. 6. 26.1. 26.1. 47.8. 4.0. 3. 13.0. 13.0. 60.9. 4.5. 2. 8.7. 8.7. 69.6. 5.0. 2. 8.7. 8.7. 78.3. 5.5. 1. 4.3. 4.3. 82.6. 6.5. 1. 4.3. 4.3. 87.0. 7.0. 2. 8.7. 8.7. 95.7. 8.0. 1. 4.3. 4.3. 100.0. 23. 100.0. 100.0. Total. 30.
<span class='text_page_counter'>(44)</span> Giải thích từ ngữ dùng trong thống kê mô tả . . Sum: Tổng Cộng, Maximum: Giá trị lớn nhất, Minimun: Giá trị nhỏ nhất, Mode: Giá trị xuất hiện nhiều nhất, Mean: Giá trị trung bình, Median: Giá trị trung vị, Frequencies: Tân xuất, Std. deviation: Độ lệnh chuẩn, S.E.Mean: Sai số chuẩn khi ước lượng trị trung bình, Std. Error: Sai số chuẩn khi dùng tị trung bình của mẫu để ước lượng trị trung bình của tổng thể, Range: Khoảng biến thiên..
<span class='text_page_counter'>(45)</span> . Các đại lượng thống kê mô tả Chỉ tính trên các biến định lượng, ngược lại sẽ không có ý nghĩa.. . Thực hiện trên SPSS:.
<span class='text_page_counter'>(46)</span> Thực hiện trên SPSS:.
<span class='text_page_counter'>(47)</span> . Lập bảng tổng hợp nhiều biến Baûng hai bieán ñònh tính Coù theå duøng Basic Tables vaø General Tables.(taäp Ho_gia_dinh.sav). . Thực hiện lập bảng Basic Tables trên SPSS:.
<span class='text_page_counter'>(48)</span> Thực hiện lập bảng Basic Tables treân SPSS:.
<span class='text_page_counter'>(49)</span> Caùc laäp baûng thoáng keâ. Saép xeáp soá lieäu trong baûng. Hieän toång doøng vaø coät. Choïn haøm thoáng keâ. Chænh daïng soá lieäu. Thay đổi nhãn thống kê.
<span class='text_page_counter'>(50)</span> Sắp xếp các đại lượng tính toán trong bảng soá lieäu: * Ô Across: Chứa biến cột, tạo lên cột của bản, phù hợp khi chọn hàm Col%. * Ô Down: Chứa biến dòng, tạo lên dòng của bảng, phù hợp khi chọn hàm Row%. * In separate tables: các đại lượng thống kê được sắp xếp theo các bảng riêng, mỗi baûng hieån thò keát quaû tính theo moät haøm thống kê. Kiểu sắp xếp này phù hợp khi bảng tính có quy mô lớn, nhiều dòng .
<span class='text_page_counter'>(51)</span> . . Nuùt Statistics: choïn haøm thoáng keâ caàn thieát, sau khi Click vaøo haøm ta choïn nuùt Add để đưa hàm vào phân tích. Ô Summaries: để chứa biến định lượng.
<span class='text_page_counter'>(52)</span> Ta có các bảng tổng hợp sau: 1- Baûng 2 bieán ñònh tính 2- Baûng 3 bieán ñònh tính 3- Baûng 1 bieán ñònh tính vaø moät bieán ñònh lượng 4- Baûng 2 bieán ñònh tính, moät bieán ñònh lượng.
<span class='text_page_counter'>(53)</span> Xử lý biến nhiều lựa chọn . . Có 2 cách để xử lý: Duøng: Analyze -> Custom Tables -> Multiple Repose Tables. Duøng: Analyze -> Custom Tables -> General Tables..
<span class='text_page_counter'>(54)</span> -> Multiple Repose Tables.. Choïn caùc bieán lieân quan. Löu laïi. Tên và nhãn tập đa đáp ứng.
<span class='text_page_counter'>(55)</span> . . Choïn Define Set … baûng taïo bieán aûo xuaát hieän: Taïi Variables in set: Ñöa caùc bieán nhoû trong biến nhiều lựa chọn vào ô: Layes, sau đó. Taïi OÂ Name: ñaët teân bieán Taïi OÂ label: ñaët nhaõn bieán Chọn: Categories: Biến có nhiều trả lời. Chọn: Dichotomies: Biến có 2 trả lời Sau đó nhấn nút Add đưa biến vào phân tích và Save löu laïi ( choïn Statics baûng phaân phoái taàn suất hoặc Generral Tables tùy cách thực hiện )..
<span class='text_page_counter'>(56)</span> Bieán phuï thuoäc. Biến độc lập. 1 4. 2. 3.
<span class='text_page_counter'>(57)</span> Trình bày kết quả bằng đồ thị . . . Đồ thị là công cụ phân tích thống kê hữu ích, trực quan giúp cho ta có thể biểu diễn dữ liệu một cách sinh động, trực quan và dễ hình dung nhằm bổ sung những hạn chế trong việc trình bày dữ liệu bằng bảng biểu. Tuy nhiên: Đồ thị trên SPSS có nhiều tính năng mạnh, nhưng nó không có khả năng liên kết với các file Word, Powerpoint hoặc Excel bằng lệnh ( Paste Special). Chúng ta có thể chuyển thông tin từ SPSS sang Excel để vẽ đồ thị hoặc trực tiếp trên SPSS..
<span class='text_page_counter'>(58)</span> I. . . . . . Trình bày số liệu bằng biểu đồ Trình bày số liệu của biểu đồ, phải theo nguyên tắc sau: Biểu đồ phải rõ ràng, không rườm rà, bỏ qua chi tiết khoâng caàn thieát. Những chỉ dẫn trên biểu đồ phải được hiểu dễ dàng. Chú ý đơn vị của biểu đồ, cách phân biệt các thành phần khác nhau của biểu đồ bằng màu sắc, bằng các ký tự … Có hai loại biểu diễn bằng dạng biểu đồ: Biểu đồ: biểu diễn số liệu biến thiên một cách rời rạc, có thể là biểu đồ tần suất hay biểu đồ khối. Đồ thị: số liệu biến thiên liên tục, theo một hàm nào đó..
<span class='text_page_counter'>(59)</span>
<span class='text_page_counter'>(60)</span> 2- Mối quan hệ giữa các biến định lượng . Mô tả mối quan hệ giữa hai biến định lượng Biểu đồ phân tán (scatter) rất hữu ích trong việc mô tả mối quan hệ giữa hai biến định lượng. Theo quy ước, có thể đặt biến phụ thuộc trên trục tung và biến độc lập trên trục hoành. Không giống quy ước cho các bảng, thường bị bỏ qua, quy ước này được dùng rất rộng rãi trong các ngaønh khoa hoïc xaõ hoäi. (Xem phaàn hoài quy tuyeán tính).
<span class='text_page_counter'>(61)</span> 1- Dùng dồ thị biểu diễn tập tin dữ liệu 1 biến: . . . Từ Menu Graphs -> Chọn loại đồ thị (Bar) -> Simple -> Summaries for groups of cases -> Define. Đưa biến định cán biểu diễn đồ thị vào Category Axis, chọn N of cases Nhấn vào Titles để đặt tên đồ thị ( dùng tiếng việt với bảng mã TCVN3)..
<span class='text_page_counter'>(62)</span> 2- Dùng đồ thị biểu diễn tập tin dữ liệu 1 biến được phân tách theo biến khác: . . . Từ Menu Graphs -> Chọn loại đồ thị (Bar) -> Clustered -> Summaries for groups of cases -> Define. Đưa biến vào Category Axis và Define Clusters by. Nhấn vào Titles để đặt tên đồ thị ( dùng tiếng việt với bảng mã TCVN3). Nếu ta chọn Other summary function thì đưa biến địnnh lương vào Variable. Mặc nhiên là tính trụ trung bình, muốn thay đổi khác nhấn Change Summary..
<span class='text_page_counter'>(63)</span> 3- Hiệu chỉnh đồ thị . Double vào đồ thị hiện cửa sổ Chart Editor ta tiến hành hiệu chỉnh..
<span class='text_page_counter'>(64)</span>