Tải bản đầy đủ (.pdf) (80 trang)

tiểu luận giới thiệu về cơ sở dữ liệu phân loại dữ liệu mã hóa vànhập liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (8.49 MB, 80 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b> Môn học:</b> Phân Tích DL Trong KD<b> Bộ mơn :</b> CƠ SỞ<b> Giảng viên :</b> Th.S Nguyễn Vũ Vân Anh<b>Thành Phố Hồ Chí Minh</b>MỤC LỤC<b>CHƯƠNG 1...2</b>

<b>GIỚI THIỆU VỀ CƠ SỞ DỮ LIỆU, PHÂN LOẠI DỮ LIỆU, MÃ HÓA VÀ NHẬP LIỆU...2</b>

<b>CHƯƠNG 2...14</b>

<b>LÀM SẠCH DỮ LIỆU...14</b>

<b>CHƯƠNG 3...16</b>

<b>TĨM TẮT VÀ TRÌNH BÀY DỮ LIỆU...16</b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>CHƯƠNG 1</b>

<b>GIỚI THIỆU VỀ CƠ SỞ DỮ LIỆU, PHÂN LOẠI DỮ LIỆU, MÃ HÓA VÀNHẬP LIỆU</b>

<b>1.1 Phân loại dữ liệu</b>

Dữ liệu nghiên cứu có thể phân thành hai loại chính là dữ liệu định tính và dữ liệu đinhlượng. Các dữ liệu này được thu thập bằng 4 thang đo cơ bản theo sơ đồ sau:

Khác nhau cơ bản giữa dữ liệu định tính và dữ liệu định lượng:

Dữ liệu định tính: phản ánh tính chất, sự hơn kém, khơng tính được trị trungbình.

Dữ liệu định lượng: phản ánh mức độ, mức độ hơn kém, tính được trị trungbình.

<b>1.2 Các loại thang đo</b>

1.2.1 Thang đo danh nghĩa (thang đo phân loại) - Nominal scale:

Các con số chỉ dùng để phân loại các đối tượng, chúng khơng mang ý nghĩa nào khác.Ví dụ:

Anh/chị/ơng/bà thường đọc báo ở đâu? (chỉ chọn 1 trả lời)1. Nhà

2. Cơ quan, văn phòng, nơi làm việc3. Nơi bán hàng

4. Nơi khác (ghi cụ thể)………<small>Dữ Liệu</small>

<small>Dữ liệuĐịnh tính</small>

<small>Dữ liệuĐịnh lượng</small>

<small>Thang đoDanh nghĩa</small>

<small>Thang đoThứ bậc </small>

<small>Thang đoKhoảng cách </small>

<small>Thang đoTỉ lệ </small>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

1.2.2 Thang đo thứ bậc - Ordinal scale:

Các con số được dùng để ghi thứ bậc (sự hơn kém)Ví dụ:

Hãy xếp hạng các chủ đề sau đây trên flyer tùy theo mưc độ quan tâm củaAnh/chị/ông/bà đối với từng loại chủ đề? (chủ đề nào quan tâm nhất thì ghi số 1, quantâm thứ nhì thì ghi số 2, quan tâm thứ ba thì ghi số 3)

· Phim ảnh__________· Mua sắm __________· Ăn uống __________1.2.3 Thang đo khoảng - Interval scale:

Là thang đo thứ bậc và cho biết được khoảng cách giữa các thứ bậc. Thơng thườngthang đo khoảng cách có dạng là một dãy các chữ số liên tục và đều đặn từ 1 đến 5, từ1 đến 7 hay từ 1 đến 10. Dãy số này có 2 cực ở hai đầu thể hiện 2 trạng thái đối nghịchnhau. Ví dụ: như 1 là rất ghét, 5 là rất thích, 1 là không đồng ý, 5 là rất đồng ý, 1 là rấtkhơng hài lịng, 5 là rất hài lịng…

1.2.4 Thang đo tỉ lệ - Ratio scale:

Thang đo khoảng cách cho phép tính tỉ lệ để so ánh, thang đo tỉ lệ thu thập dữ liệu làsố thực, như trọng lượng, chiều cao, cân nặng, doanh thu, chi phí…

Ví dụ:

Nếu gia đình Anh/chị/ơng/bà có thường đi xem phim tai cụm rạp Mega Start, thì sốlượng người thơng thường đi xem phim trong gia đình trung bình là bao nhiêu người(kể cả Anh/chị/ơng/bà)? Trong đó số người thường xun xem phim là bao nhiêungười?

Số người đọc:_________, số người thường xem xuyên xem phim: _________

<b>Too long to read onyour phone? Save</b>

to read later onyour computer

Save to a Studylist

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>1.3 Quy trình thực hiện nghiên cứu</b>

Hình: Quy trình thực hiện nghiên cứu· Nghiên cứu sơ bộ (Nghiên cứu định tính)

· Nghiên cứu chính thức (Nghiên cứu định lượng)· Thống kê mơ tả

· Cronbach’s Alpha · Cronbach’s Alpha · Phân tích hồi quy

· Đề xuất, các giải pháp và kiến nghị

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b>1.4 Cửa sổ làm việc của SPSS</b>

Từ <b>Start Menu</b> chọn -><b>Programs</b> rồi chọn -> SPSS for Windows 21.0, màn hình dữliệu SPSS sẽ hiện ra như sau:

<b>1.5 Tạo khuôn nhập liệu</b>

1.5.1 Thay đổi một số mặc định của chương trình

Mở chương trình SPSS, từ file tập tin trắng chưa nhập liệu, vào <b>Menu</b> chọn: <b>Edit/Options,</b> hộp thoại <b>Options</b> xuất hiện:

· Tại tab <b>General </b>chọn như hình sau:

<b>Display names: Hiện nhãn biến hay hiện tên biến.</b>

<b>Unicode (universal character set): Bảng mã Unicode gõ tiếng việtFile: chọn thứ tự xuất hiện của các biến trong hộp thoại lệnh xử lý.Measurement System: Thay đổi đơn vị đo lường để điều chỉnh định</b>

<b>Title bar: Thanh tiêu đề, thể hiện tên màn hình và tên tập</b>

tin đang làm việc.

<b>Menu: Chứa lệnh xử lý và các lệnh phân tích.Tool bar: Thanh công cụ, gồm các biểu tượng thể hiện </b>

các lệnh thường dùng nhất.

<b>Cột: Mỗi cột trong bảng chứa một loại dữ liệu (Ví dụ: giới tính)Dịng: Mỗi dịng trong bảng chứa các dữ liệu của một đối tượng khảo sátVariable View: Cửa sổ khai báo biến.</b>

<b>Data View: Cửa sổ nhập liệu.</b>

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

· Tab <b>Data</b>, chọn như hình sau:

· Tab <b>Pivot Tables </b>chọn như hình sau:

<b>Boxed: Chọn kiểu bảng hiển thị kết quả trong cửa sổ Output.</b>

<small>Chỉnh số lượng ký số tối đa của biến</small>

<small>Số lượng số lẻ của biến</small>

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

Các điều chỉnh này sẽ ảnh hưởng đến thuộc tính của tất cả các biến được tạo ra sau khichỉnh xong <b>Options</b>.

Sau đó nhấn nút <b>Apply</b>, rồi nhấn nút <b>OK</b>.

Khi nhấn nút <b>Apply</b>, chương trình có thể đưa ra một số lưu ý nói rằng các hiệu chỉnhnày chỉ có hiệu lực sau khi mở lại file hay khởi động lại chương trình SPSS.

1.5.2 Tạo biến mới

Để tạo biến mới phải làm bên cửa sổ <b>Variable View</b>, có màn hình như sau:

<b>Name: gõ tên biến cần đặt (khơng có ký tự khoảng trắng, khơng có ký tự đặc biệt, phải</b>

bắt đầu bằng một ký tự không được bắt đầu bằng một ký số).

Sau khi đặt tên biến, ta phải khai báo các thuộc tính cơ bản, muốn khai báo thuộc tínhnào của biến, hãy nhấn chuột vào nút … của thuộc tính đó. Sau khi khai báo xong mộtthuộc tính bấm nút OK.

<b>Type: Khai báo kiểu dữ liệu của biến</b>

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

Khai báo loại biến kiểu số (Numeric) hay kiễu chuỗi (String), số lượng ký số/ ký tự tốiđa (<b>Width</b>) có thể nhập vào, số lượng số thập phân (Decimal Places)

Hai biến thường dùng ở hình trên là:

<b>Numeric: biến kiểu số</b>

<b>String: biến kiểu chuỗi (chỉ dùng trong trường hợp cần nhập họ tên, địa</b>

chỉ người trả lời và các thông tin dưới dạng ký tự khác)

<b>Label: Khai báo ý nghĩa của biến hay ý chính của câu hỏi.Value: Khai báo giá trị của biến các nhãn giá trị cần thiết (nếu có), </b>

Hộp thoại khai báo nhãn biến <b>Value label</b>:

<b>Value: Mã nhập các thang đo định tính, phải bằng số.Label: Nhãn giải thích của mã nhập.</b>

<b>Add: Khai báo xong một mã giá trị.Change: Thay đổi mã giá trịRemove: Xóa mã giá trị.</b>

<b>Missing: Khai báo các giá trị khuyết (nếu cần). Trong SPSS cho phép khai báo</b>

được 3 giá trị khuyết trong hộp thoại <b>Missing Values</b>.

Sau đây là hộp thoại khai báo giá trị khuyết, giúp phân loại thiếu số liệu cho từng loạingun nhân.

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<b>Ví dụ: Ta gặp tình huống với câu hỏi về trình độ học vấn có những người được điều</b>

tra vì lý do tế nhị nào đó đã từ chối trả lời thì trong <b>Value Label</b>: ta quy ước giá trị 99có nhãn là “Khơng trả lời”, sau đó sang <b>Missing Value</b>: ta phải khai báo 99 là giá trịkhuyết để sau đó khi tính tốn các lệnh thống kê ví như tính tần số thì máy sẽ loại giátrị khuyết này ra khi tính phần trăn hợp lệ.

Hình trên cho biết, trong file Data thực hành các biến <b>c29a1 </b>đến c29c có khai báo Missing Value là 8 hoặc 9 là số người không trả lời (không ý kiến)

<b>Columns: Khai báo độ rộng của cột biến khi ta nhập liệu trong cửa sổ Data,</b>

thường chọn là 8.

<b>Align: Vị trí dữ liệu được nhập trong cột trong cửa sổ Data, thường chọn làRight.</b>

<b>Measure:</b> Chọn loại thanh đo thể hiện dữ liệu: <b>Ordinal</b> (thang đo thứ bậc),

<b>Norminal</b> (thang đo danh nghĩa) và <b>Scale</b> (gồm cả thanh đo khoảng cách vàthanh đo tỉ lệ)

Lưu ý:

Chúng ta vẫn có thể sử dụng lệnh <b>Copy</b> và <b>Paste</b> trong quá trình tạo biến mới. Ví dụnhư Tyle (kiểu biến) hay Value (Mã hố). Bấm tổ hợp phím <b>Ctrl + C.</b> rồi dùng trỏchuột chọn vùng muốn Copy thuộc tính tương ứng đến và nhấn tổ hợp phím <b>Ctrl + V</b>.1.5.3 Lưu tập tin dữ liệu

Để lưu lại tập tin dữ liệu chúng ta phải có khai báo biến trước thì chương trình mới cholưu, trong màn hình <b>Data</b>, từ <b>Menu</b> chọn <b>File/ Save</b>, hộp thoại sau sẽ xuất hiện:

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

Trong hộp thoại này, chọn ổ đĩa, thư mục, đặt tên tập tin (tên nên đặt không dấu) vànhấn nút <b>Save</b>. Phần mở rộng tên tập tin dữ liệu SPSS là <b>sav</b>.

1.5.4 Nhập liệu trong SPSS1.5.4.1 Cách nhập trực tiếp vào SPSS

Sao khi khai báo tên biến trong cửa sổ Variable View để nhập dữ liệu nghiên cứu vàoSPSS, click chuột vào biểu tượng Data View nằm phía dưới màn hình của chươngtrình SPSS, chương trình sẽ hiện ra cửa sổ để nhập dữ liệu trực tiếp vào chương trìnhnhư trong hình sau:

Mỗi dịng nhập liệu trong cửa sổ Data View là một quan sát (hay là một phiếu trả lờikhảo sát của một người), mỗi cột trong của sổ Data View là một biến (hay còn gọi làmột câu hỏi).

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

Dữ liệu nhập vào cho từng biến chủ yếu là kiểu số (Numeric), vẫn có thể nhập vào dữliệu kiểu chuỗi nếu trong cửa sổ khai báo biến (Variable View) bạn có khai báo kiểudữ liệu nhập vào trong cột Tyle là String.

Trong một biến quan sát nào đó nếu người khảo sát khơng trả lời thì phải nhập giá trịMissing mà bạn đã khai báo ở cửa sổ khai báo biến (Variable View). Ngoài ra, đối vớicâu hỏi nhiều trả lời thì khơng cần nhập giá trị Missing, chỉ nhập những giá trị màngười sát đã chọn cịn các giá trị khơng chọn ta để trống.

Để hiển thị nhãn của giá trị mà bạn nhập liệu vào trong cửa sổ Data View, click nút

<b>Value Labels trên Menu như trong hình sau:</b>

1.5.4.2 Cách Insert dữ liệu từ Excel

Trong chương trình SPSS có chức năng Insert dữ liệu từ những dữ liệu đã có trongmột file Excel, cách làm như sau:

Bước 1: Mở SPSS lên rồi vào Menu File -> Open -> Data…như trong hình sau:

Bước 2: Hộp thoại "Open Data" hiện lên các bạn chọn đến thư mục chứa file Excel.Lưu ý là mặc định SPSS sẽ chỉ hiện các file của SPSS (*.sav), muốn hiện file Excel thìcác bạn chọn Files of type là <b>Excel (*.xls, *xlsx...)</b> chọn đúng file excel cần import đểload vào SPSS (như hình minh họa)

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

Chỉ với 1 thao tác đơn giản như trên nhưng sẽ giúp ích được cho các bạn rất nhiều vấnđề trở ngại về nhập liệu với kích cỡ mẫu nhiều.

- Mã hóa và nhập liệu trên Excel sẽ đơn giản hơn trong SPSS rất nhiều.

- Bạn nên mã hóa và nhập vào excel chỉ bao gồm các con số, vd: nữ: 1; nam: 2, cũngnhư các thang đo Likert 5: 1,2,3,4,5.... thì khi import vào SPSS sẽ tự khai báo biến chobạn, tiết kiệm thời gian và công sức cho bạn rất nhiều

- Sau cùng bạn sẽ không phải lo gặp các vấn đề về font chữ, lỗi khai báo biến or sốlượng biến nhiều.

Bước 3: Một hộp thoại hiện ra yêu cầu bạn muốn lấy tiêu đề của các cột trong Excellàm tên biến trong SPSS, rồi nhấn OK. Hình minh họa như sau:

Bước 4: Dữ liệu đã được Insert vào SPSS, tiếp tục mã hóa và khai báo cho một vàibiến định tính cần sử dụng. Hình minh họa như sau:

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<b>Câu hỏi ôn tập chương 1</b>

Hãy thu thập dữ liệu dựa trên mơ hình nghiên cứu của từng cá nhân

- - - -

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

-Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

· Nhập liệu: sai, sĩt, thừa…

<b>2.2 Các biện pháp ngăn ngừa</b>

· Thiết kế bảng câu hỏi rõ ràng, dễ hiểu, dễ trả lời

· Chọn lọc và huấn luyện phỏng vấn viên kỹ lưỡng, điều tra phỏng vấn thử trướckhi phỏng vấn thật để thống nhất tránh sai sĩt.

· Các bảng câu hỏi sau khi phỏng vấn phải được đọc sốt kiểm lỗi, chỉnh sửatrước khi nhập.

<b>2.3 Các phương pháp làm sạch dữ liệu</b>

2.3.1 Dùng bảng tần số

Lập bảng tần số (<b>Frequencies</b>) cho tất cả các biến, đọc sốt để tìm các giá trị lạ tại cácbiến. Sau đĩ tại các biến cĩ lỗi dùng lệnh <b>Find</b> để tìm ra lỗi ở từng trường hợp cụ thể,rồi chỉnh sửa.

· Ưu điểm : đơn giản , dễ thực hiện

· Nhược điểm : thủ cơng, phát hiện ít lỗi, chỉ phù hợp với các bảng câu hỏiđơn giản

2.3.2 Dùng bảng phối hợp hai biến hay ba biến

Lập bảng 2 biến (<b>Crosstabs</b> hay <b>Custom Tables</b>) dựa vào các quan hệ hợp lý(logic) để phát hiện ra lỗi. Ví du: nhu lập bảng kết hợp biến tuổi và nghềnghiệp, phát hiện thấy cĩ trường hợp tuổi chỉ cĩ 13 mà nghề nghiệp ghi là giáoviên.

15

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

Dùng lệnh <b>Data</b>-> <b>Select case</b> để lọc ra các trường hợp cĩ lỗi. Tiếp theo ví dụtrên, ta lọc ra trường hợp thoả điều kiện tuổi =13 và nghề = giáo viên (ví dụ mãnghề giáo viên là =2).

Lập bảng tần số vối biến STT (số thứ tự của phiếu nhập) để tìm ra các trườnghợp bị lỗi tuổi là 13 mà cĩ nghề là giáo viên.

· Ưu điểm : phát hiện được nhiều lỗi hơn, phù hợp với các bảng câu hỏiphức tạp.

· Nhược điểm : phức tạp, cần nhiều thời gian, người thực hiện cần nhiềukinh nghiệm.

<b>Câu hỏi ơn tập chương 2</b>

Hãy nhập liệu từ dữ liệu thu thập được của mỗi cá nhân để tạo thành database choriêng mình

- - - -

-16

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

Sau khi mở file <b>Data thuc hanh</b>, vào <b>Menu Analyze Descriptive Statistics</b> > >

<b>Frequencies</b>… Hộp thoại <b>Frequencies</b> xuất hiện:

17

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

Chọn biến muốn lập bảng tần số (nhấp chuột vào tên biến). Ví dụ ta chọn lần lượt haibiến (thành phố) và <b>tptngd</b> (thu nhập gia đình) rồi bấm phím mũi tên qua phải để đưabiến đang chọn vào ơ <b>Variable(s)</b> sau đĩ nhấn nút OK, ta được 2 bảng tần số kết quảcho hai biến đã chọn như sau:

TN hộ TBtháng

· Dịng <b>Valid</b> cho biết số quan sát hợp lệ (số người cĩ trả lời)

· Dịng <b>Missing</b> cho biết số quan sát bị thiếu dữ liệu (số người khơng trảlời)

Trong 2 bảng tần số bên dưới, mỗi bảng cĩ 4 cột số liệu:· Cột <b>Frequency</b>: tần số

· Cột <b>Percent</b>: tần suất phần trăm

· Cột <b>Vali Percent</b>: phần trăm hợp lệ, tính trên số quan sát cĩ thơng tin

<b>trả lời. Sử dụng khi cĩ Missing Value</b>

· Cột <b>Cumulative Percent</b>: phần trăm tích luỹ, cộng dồn các phần trămhợp lệ.

<b>Thành phố</b>

Percent ValidPercent

Percent ValidPercent

ValidDưới 2

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

<b>3.3 Các đại lượng thống kê mơ tả</b>

Các đại lượng thống kê mơ tả chỉ được tính đối với các biến định lượng. Nếu ta tínhcác đại lượng này đối với các biến định tính thì các kết quả sẽ khơng cĩ ý nghĩaVào <b>Menu Analyze > Descriptive Statistics > Descriptives</b>…, hộp thoại sau sẽ xuấthiện:

Chọn một (hay nhiều biến định lượng) trong danh sách biến ở phía bên trái hợpthoại bằng cách nhập chuột vào biến đĩ (ví dụ chọn biến ), sau đĩ nhấp vào<b>c3mũi tên qua phải để đưa các biến này vào ơ Variable(s)</b>

Bấm vào nút <b>Options</b>… và hợp thoại kế tiếp xuất hiện:

19

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

Hợp thoại này cho phép chọn các đại lượng thống kê cần tính để mơ tả các biến đãchọn ở phần trước bằng cách nhấp chuột vào các ơ vuơng cần thiết. Các đại lượngthống kê mơ tả thường dùng là:

<b>· Mean: Trung bình cộng</b>

<b>· Sum: Tổng cộng (sử dụng khi điều tra tồn bộ)· Std.Deviation: Độ lệch chuẩn</b>

<b>· Minimum: Giá trị nhỏ nhất· Maximum: Giá trị lớn nhất</b>

<b>· SE mean: Sai số chuẩn khi ước lượng TB tổng thể</b>

Trong trường hợp tính tốn cho nhiều biến cùng lúc, cĩ thể chọn 1 trong 4 cách sắpxếp thứ tự kết quả tính tốn của các biến này. Thơng thường là dùng trật tự tăng dần

<b>(Acending means</b>) hay giảm dần (<b>Descending means</b>)

Sau đĩ bấm vào nút <b>Continue</b> để trở lại hợp thoại trước, rồi nhấn nút OK. Bảng kếtquả sau sẽ xuất hiện:

<b>Descriptive Statistics</b>

DeviationSố lượng người đọc

Valid N (listwise) 868

<b>3.4 Lập bảng tần số đồng thời tính tốn các đại lượng thống kê mơ tả</b>

Váo <b>Menu Analyze > Descriptive Statistics > Frequencies</b>… lần này chọn biến <b>c3</b>

để lập bảng tần số và tính các đại lượng thống kê mơ tả.

20

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

Trong hộp thoại <b>Chart</b> này, nhấp chuột vào các ơ đề chọn loại biểu đồ cấn vẽ. Cĩ thểchọn 1 trong 3 loại biểu đồ sau:

<b>1. Bar: biểu đồ dạng thanh (dùng cho biến cĩ giá trị rời rạc)2. Pie: biểu đồ hình trịn (dùng cho biến rời rạc cĩ ít giá trị)</b>

<b>3. Histograms: biểu đồ phân phối tần số (dùng cho biến cĩ các giá trị liên tục)</b>

Sau khi chọn loại biểu đồ, nhấp chuột vào nút <b>Continue</b> để trở về hộp thoại

<b>Frequencies</b>, và nhấn nút <b>OK</b>. Kết quả hiện ra như sau:

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

Percent ValidPercent

CumulativePercent

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

<b>3.5 Mã hố lại biến</b>

Trong ví dụ này tuổi biến thiên từ 18-60, ta cĩ thể chia thành 4 nhĩm là:18-25, 26-35, 36-45, 46-60 như sau:

Vào <b>Menu Transform > Recode Into Different Variables</b>, hộp thoại sau xuất hiện:

1. Trong hộp thoại <b>Recode</b> này, chọn biến cần mã hố lại (tuổi) trong danh sáchbiến bên tay trái đưa vào ơ giữa.

23

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

2. Gõ tên của biến mới (ví dụ là tuoi4nh) muốn tạo ra trong ơ Output Variable

<b>Name rồi nhấn nút Change</b>

3. Nhấn vào nút <b>Old and New Values</b>,…để xác định các giá trị cũ và chỉ định mãmới tương ứng, hộp thoại sau xuất hiện:

Frequency Percent Valid

Percent <sup>Cumulative</sup>Percent

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

<b>· Scale: dữ liệu từ thang đo khoảng cách và thang đo tỉ lệ.</b>

Chọn <b>Analyze\ Tables \ Custom Tables </b>hộp thoại Custom Tables hiện ra:

26

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

Trong ví dụ này, chúng ta muốn xem thử cĩ bao nhiêu người trong mẫu khảo sát ở Hà Nội và cĩ bao nhiều người trong mẫu khảo sát ở TPHCM. Biến cần dùng là biến .<b>tp</b>

Trong dạng bảng này chỉ mới cĩ hàm mặc định đối với biến định danh là <b>Count</b> (đếmtần số).

<b>Để tính thêm những cột số liệu tĩm tắt khác thì hãy click vào nút N% SummaryStatistics. Lệnh này mở ra hộp thoại cấp hai là Summary Statistics.</b>

27

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

Trong hộp thoại trên, nhấp chọn mục <b>Total</b> trong khung Show ở cuối hộp thoại, rồinhấp nút <b>Apply</b> trở về hộp thoại ban đầu như hình dưới. Trong hình này dịng Total đãxuất hiện trong khung dạng bảng mẫu.

28

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

Nhấp nút <b>OK</b> lệnh thực hiện và bảng kết quả sau xuất hiện:

Count Column N%

Thành phố

<b>Ý nghĩa của từng giá trị trung bình đối với thang đo khoảng (Interval Scale)</b>

Giá trị khoảng cách = (Maximum - Minimum) / n= (5 -1) / 5

= 0.8Giá trị trung bình Ý nghĩa

1.00 -> 1.80 Rất khơng đồng ý/Rất khơng hài lịng/Rất khơng quan trọng1.81 -> 2.60 Khơng đồng ý/Khơng hài lịng/ Khơng quan trọng2.61 -> 3.40 Khơng ý kiến/trung bình

3.41 -> 4.20 Đồng ý/ Hài lịng/ Quan trọng4.21 -> 5.00 Rất đồng ý/ Rất hài lịng/ Rất quan trọng

29

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

3.6.4 Xử lý câu hỏi chọn nhiều trả lời3.6.4.1 Sử dụng bảng Custom Tables

Đối với câu hỏi cĩ thể chọn nhiều trả lời, do người trả lời chọn nhiều ý nên khi nhậpvào sẽ cĩ nhiều biến. Nếu tĩm tắt các biến này bằng những lệnh thơng thường nhưbảng tần số (Analyze > Descriptive Statistics > Frequencies) hay bảng tùy biến(Analyze > Tables > Custom Tables) thì ứng với 1 câu hỏi loại này, cĩ nhiều biến thìsẽ ra nhiều bảng tần số rời rạc, ít cĩ ý nghĩa nếu khơng cộng các bảng này lại với nhau.Để cĩ bảng tĩm tắt hồn chỉnh, chúng ta cần kết hợp các biến này lại. Đi kèm vớiCustom Tables, SPSS cung cấp lệnh kết hợp biến này.

<b>Từ menu chọn Analyze > Tables > Multiple Response Sets</b>

3.6.4.2 Sử dụng lệnh chạy bảng Multiple Response

Đầu tiên chúng ta phải kết hợp các biến của cùng một câu hỏi, rồi sau đĩ chạy bảng.Từ Menu chọn <b>Analyze > Multiple Response</b>

Ví dụ: ta cần lập bảng thống kê về thu nhập hộ gia đình (<b>tngd</b>) phân tích cho từngthành phố ( ) được điều tra. Đưa lần lượt biến tp vào ơ Columns (ơ cột ) và biến tngd<b>tp</b>

vào ơ Row (ơ dịng). Hình minh họa như sau:

<b>Chọn hàm thống kê</b>

Nhấp nút <b>Summary Statistics…</b> trên hộp thoại này để chọn hàm thống kê tínhtốn các chỉ tiêu cần thiết trong bảng này. Rồi lần lượt nhấp các nút khác trong hộpthoại để điều chỉnh các thuộc tính khác của bảng.

Trong hộp thoại <b>Summary Statistics</b> chọn các hàm thống kê trong ơ <b>Statistics</b> bêntay trái. Đối với biến định tính, các hàm thường dùng là: <b>Count </b>(tần số), <b>Row</b>%(phần trăm theo dịng), <b>Col% </b>(phần trăm theo cột).

Trong ví dụ này, ta lần lượt chọn hàm <b>Count</b> và Hàm <b>Column N %</b> rồi nhấp vàonút mũi tên để đưa hàm đang chọn vào ơ <b>Display</b> bên tay phải, nhấp <b>Apply toselection. Hình minh họa như sau:</b>

30

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

<b>3.7 Trình bày kết quả bằng đồ thị</b>

SPSS cung cấp cho chúng ta nhiều dạng đồ thị khác nhau tương ứng với từng loại biếnđịnh tính hay định lượng. Cách được dùng nhiều nhất trong SPSS là sử dụng cơng cụ

<b>Chart Builder…Chart Builder cho phép bạn xây dựng các biểu đồ từ nhiểu kiểu đồ</b>

thị khác nhau cho từng thang đo (ví dụ, hình trịn và đồ thị dạng thanh bar). Bạn xâydựng một biểu đồ bằng cách kéo và thả các biến trong danh sách qua hộp thoạiBuilder. Tương ứng với các mẫu đồ thị đã được chọn và xem hình dạng của đồ thịđược vẽ trong hộp thoại Builder.

Để vẽ đồ thị trong SPSS chúng ta cần phải hiểu rõ 4 bước để thực hiện.

<b>Bước 1 : xác định dạng đồ thị thích hợp.</b>

<b>Bước 2: xác định vùng dữ liệu và cấu trúc dữ liệu (theo hàng hay theo</b>

<b>Bước 3 : các chi tiết của đồ thị: tên đồ thị, tên trục đồ thị, đường lưới toa</b>

độ, vị trí phần chú thích của đồ thị, hiện nhãn giá trị…

<b>Bước 4 : chỉnh sửa đồ thị phù hợp với mục đích nghiên cứu.Câu hỏi ơn tập chương 3</b>

1) Sử dụng dữ liệu data cá nhân tiến hành thực hiện các bảng thống kê và đồ thịtương ứng với mỗi loại thang đo sau:

Thang đo định danh (Nominal Scale); Thang đo thứ bậc (Ordinal Scale); Thang đo khoảng cách (Interval Scale); Thang đo tỉ lệ (Ratio Scale)2) Sử dụng dữ liệu data cá nhân tiến hành thực hiện các bảng thống kê kết hợp và

đồ thị tương ứng với mỗi loại dữ liệu sau:

Biến định tính kết hợp với biến định tính; Biến định lượng kết hợp vớibiến định tính; Biến định lượng kết hợp với biến định lượng

31

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

<b>- - - - - - </b>

32

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

<b>CHƯƠNG 4</b>

<b>PHÂN TÍCH DỮ LIỆU ĐỊNH TÍNH</b>

<b>4.1. Kiểm định Chi - Square</b>

· Kiểm định Chi-Square: được sử dụng để kiểm định xem cĩ tồn tại mối quan hệgiữa hai yếu tố đang nghiên cứu trong tổng thể. Kiểm định này cịn gọi lá kiểmđịnh tính độc lập. Kiểm định này phù hợp khi hai yếu tố này biến định.· Cơ sở lí thuyết :

Giả thuyết khơng: H<small>0</small><sub>: hai biến độc lập với nhau</sub>

Giả thuyết đối: H<small>1</small><sub>: hai biến cĩ liên hệ với nhau</sub>

<b>Đại lượng dùng để kiểm định là:</b>

Trong đĩ:

<sup>x</sup><sup>2</sup>: đại lượng Chi-Square dùng để kiểm định. O : tần số quan sát thực tế trong các ơ của bảng chéo.<small>ij</small> E : tần số quan sát lý thuyết trong các ơ của bảng chéo.<small>ij</small> : số cột của bảng.<b>c</b>

<b> r: số dịng của bảng.</b>

E được tính theo cơng thức sau: nCxR

Tiêu chuẩn quyết định là:

- Bác bỏ H<small>0</small><sub> nếu : </sub>

x

<small>2</small><sub>>= </sub>

x

<small>rc2</small>

<small>(</small> ; sig <= 0.05

- Chấp nhận H<small>0</small><sub> nếu: </sub>

x

<small>2</small><sub>< </sub>

x

<small>rc2</small>

<small>(</small> ; sig > 0.05

33

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

Ví dụ: nghiên cứu mối liên hệ giữa trình độ học vấn và cách đọc các tờ báo của ngườiđọc. Ta lập bảng chéo để tìm hiểu mối quan hệ này.

Từ Menu, chọn <b>Analyze -> Descriptive Statistics -> Crosstabs</b>… như sau:

Lệnh này mở ra hộp thoại <b>Crosstabs</b> như hình sau:

Trong hộp thoại này, đưa biến <b>c6.1</b> (cách đọc các tờ báo) ơ dịng, biến <b>nhomhv</b> (nhĩmhọc vấn) vào ơ cột và nhấn nút <b>OK</b>, ta được bảng kết quả sau:

<b>Cách đọc các tờ báo nĩi chung * Học vấn Crosstabulation</b>

Count

Cấp 2

1-Cấp THCN

3-CĐ - SVĐH

Tốt nghiệpĐHCách

đọc các tờ báo nĩi chung

Đọc theo thứ tự từ trang đầu đến trang cuối

Xem lướt qua các đề mục, đọc các mục ưa thích trước

34

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

Chỉ đọc các trang mục ưa thích, ít đọc các trang khác

Xem các tin đáng chúý trên trang 1 và tìm đọc trước

Trong bảng kết quả này, cĩ vẻ như học vấn càng cao thì càng đọc báo theo kiểu “xemlướt các đề mục, đọc các mục ưa thích trước”. Để kiểm định giả thuyết này, ta đặt giảthuyết

H<small>0</small><sub> học vấn </sub><b><sub>khơng</sub></b><sub> cĩ liên hệ tới cách đọc báo</sub>

(cách đọc báo khơng chịu ảnh hưởng của học vấn).

Mở lại hộp thoại Crosstabs, từ trong hộp thoại Crosstabs, ta nhấn nút <b>Statistics</b>, hộpthoại Crosstab: Statistics sau xuất hiện:

Trong hộp thoại này ta đánh dấu chọn đại lượng <b>Chi-Square</b>, nhấn nút <b>Continue</b> đểtrở về hộp thoại trước. Trong hộp thoại này nhấn tiếp nút <b>Cells</b> để xác định các đạilượng thể hiện trong từng ơ rồi nhấn nút <b>Continue</b>, OK. Kết quả sẽ hiện ra như trongtrang sau:

35

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

Thay vì phải tra bảng <b>Chi-Square</b> tìm giá trị giới hạn ở bậc tự do 9 và mức ý nghĩa0,05 (ứng với độ tin cậy 95%); rồi so sánh giá trị Chi-Square 22,098 với giá trị giớihạn này. Chương trình SPSS đã tính ngược lại mức ý nghĩa quan sát với giá trị Chi -Square 22,098. Mức ý nghĩa quan sát này thường được gọi là P-Value hay Sig.(Observed Significance Level), hay vắn tắt là . Với tốc độ tin cậy 95%, nguyên tắcquyết định là:

· Bác bỏ H<small>0</small><sub> nếu : </sub>

x

<sup>2</sup><sub>>= </sub>

x

<small>rc2</small>

<small>(</small> <b> sig</b>. <= 0.05

· Chấp nhận H<small>0</small><sub> nếu : </sub>

x

<small>2</small><sub>< </sub>

x

<small>rc2</small>

<small>(</small> sig. > 0.05.

Trong ví dụ này, sig = 0.009 < = 0.05, ta bác bỏ giả thuyết H<small>0</small><sub>. Ta kết luận rằng đã</sub>

cĩ đủ bằng chứng để nĩi rằng trình độ học vấn cĩ liên hệ tới cách đọc báo. Chúng tacĩ thể dựa vào các tỉ lệ % theo cột trong bảng chéo để mơ tả sự liên hệ hay sự khácbiệt về cách đọc báo giữa các nhĩm học vấn.

<b>Case Processing Summary</b>

Cách đọc các tờ báo

36

</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

<b>Cách đọc các tờ báo nĩi chung * Học vấn Crosstabulation</b>

Cấp 2

1-Cấp THCN

3-CĐ - SVĐH

Cách đọc các tờ báo nĩi chung

Đọc theo thứ tự từ trang đầu đến trang cuối

% within Học vấn

32.5% 37.4% 22.6% 28.2% 31.9%

Xem lướt qua các đề mục, đọc các mục ưa thíchtrước

% within Học vấn

39.5% 41.2% 54.7% 52.5% 46.1%

Chỉ đọc các trang mục ưa thích, ít đọc các trang khác

% within Học vấn

12.3% 10.2% 13.2% 7.4% 10.4%

Xem các tin đáng chú ý trên trang 1 và tìm đọc trước

% within Học vấn

15.8% 11.2% 9.4% 11.9% 11.6%

% within Học vấn

% <sup>100.0% 100.0% 100.0%</sup>100.0

<b>Chi-Square Tests</b>

Value df Asymp. Sig.(2-sided)Pearson Chi-Square 22.098<small>a</small> 9 .009

</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

<b>4.2. Kiểm định trong trường hợp dữ liệu thứ tự</b>

Trong trường hợp hai yếu tố nghiên cứu là hai biến thu thập từ thang đo thứ bậc, thay

<b>vì dùng đại lượng Chi-Square, chúng ta cĩ thể dùng một trong các đại lượng sau: Tau</b>

của <b>Kendall d</b>, của <b>Somer Gamma</b>, của <b>Goodman</b> và <b>Kruskal</b>. Các đại lượng nàygiúp phát hiện ra mối liên hệ tốt hơn <b>Chi - Square</b>.

Giả sử chúng ta cần nghiên cứu nối liên hệ giữa học vấn với múc độ quan tâm đối vớichủ đề gia đình trên báo Sài Gịn Tiếp Thị. Vì cả hai yếu tố này đều là dữ liệu cấp bậc:· Học vấn : cấp 1-2, cấp 3- trung học chuyên nghiệp, tốt nghiệp CĐ- học

ĐH, tốt nghiệp ĐH .

· Mức độ quan tâm đến chủ đề gia đình: quan tâm nhất, quan tân thứ nhì,quan tâm thứ ba.

Giả thuyết H<small>0</small><sub>: học vấn khơng cĩ liên hệ tới mức độ quan tâm đến chủ đề gia đình trên</sub>

báo SGTT (hay mức độ quan tâm đến chủ đề gia đình khơng khác nhau giữa cácnhĩm học vấn).

Để kiểm định giả thiết này, mở lại hộp thoại <b>Crosstab</b>. Trong hộp thoại này đưa biến

<b>c19.3</b> (mức độ quan tâm đến chủ đề gia đình) vào ơ Row và biến <b>nhomhv</b> (nhĩm họcvấn) vào ơ Column. Rồi chọn <b>Statistics</b>.

Trong hộp thoại <b>Statistics</b>, ta chọn các đại lượng kiểm định như trong hình dưới. Sauđĩ nhấp Continue trở về hộp thoại Crosstab và nhấp OK.

38

</div><span class="text_page_counter">Trang 39</span><div class="page_container" data-page="39">

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

Kết quả kiểm định xuất hiện. Trong bảng kết quả sau, chúng ta thấy nếu sử dụng Chi Square, chúng ta chưa thể bác bỏ giả thuyết H<small>0</small><sub> để kết luận rằng học vấn cĩ liên hệ tới</sub>

-mức độ quan tâm đến chủ đề gia đình (sig 0.287 lớn hơn 0.05). Nếu ta dùng d, Tau hayGamma thì với mức ý nghĩa 0.039 < 0.05 nên bác bỏ giả thuyết H ở độ tin cậy 95%.<small>0</small>Do đĩ, cĩ thể kết luận rằng cĩ bằng chứng thống kê cho thấy học vấn cĩ liên quan đếnmức độ quan tâm đến chủ đề gia đình. Như vậy học vấn càng cao thì người đọc càngquan tâm nhiều về chủ đề gia đình. Chúng ta cĩ thể dựa vào các tỉ lệ % theo cột trongbảng chéo ở dịng quan tâm nhất theo từng nhĩm học vấn để mơ tả sự liên hệ hay sựkhác biệt về cách đọc báo giữa các nhĩm học vấn.

<b>Case Processing Summary</b>

1-Cấp THCN

3-CĐ - SVĐH

Tốt nghiệpĐH

Gia đình

Quan tâm nhất

% within Học vấn

39

</div><span class="text_page_counter">Trang 40</span><div class="page_container" data-page="40">

Khoa Quản Trị Kinh Doanh Phân tích dữ liệu trong kinh doanh

Quan tâm nhì

% within Học vấn

Quan tâm ba

% within Học vấn

% within Học vấn

Asymp. Std.Error<small>a</small>

Ordinal by Ordinal

Somers' d

a. Not assuming the null hypothesis.

b. Using the asymptotic standard error assuming the null hypothesis.

<b>Symmetric Measures</b>

Value Asymp. Std.Error<small>a</small>

Approx.Sig.Ordinal by

Kendall's b

40

</div>

×