Tải bản đầy đủ (.pdf) (285 trang)

Nghiên cứu lý thuyết và phương pháp luận xây dựng CSDL theo mô hình Data Ware House và Metadata

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.34 MB, 285 trang )


BỘ CÔNG THƯƠNG
TRUNG TÂM THÔNG TIN CÔNG NGHIỆP VÀ THƯƠNG MẠI







BÁO CÁO TỔNG HỢP ĐỀ TÀI NGHIÊN CỨU


NGHIÊN CỨU LÝ THUYẾT VÀ PHƯƠNG PHÁP LUẬN
XÂY DỰNG CSDL THEO MÔ HÌNH DATA WARE HOUSE
VÀ METADATA


CNĐT : ĐỖ VĂN CHIẾN













9558

HÀ NỘI – 2012


Nghiên cứu lý thuyết và phương pháp luận xây dựng CSDL theo mô hình Data Ware House và Metadata

1
MỤC LỤC

A. MỤC TIÊU ĐỀ TÀI 7
B. TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC 7
C. PHƯƠNG PHÁP NGHIÊN CỨU 8
D. NỘI DUNG NGHIÊN CỨU 8
CHƯƠNG I. Nghiên cứu lý thuyết và phương pháp luận của công tác khảo
sát, nội dung và nhiệm vụ của khảo sát 8

I.1. Nghiên cứu cơ sở lý thuyết về Khảo sát dữ liệu nguồn 8
1.Kháiniệmdữliệunguồn.Tạisaocầnkhảosátdữliệunguồn 8
2.Xácđịnhmụcđíchkhảosát 11
3.Xácđịnhcácyêucầucầnđạtđượcc ủakếtquảkhảosát 11
4.Xácđịnhphươngphápkhảosát 11
5.Xácđịnhquimôvàđốitượngkhảosát 13
6.Xâydựngquitrìnhvàkếhoạchkhảosát 13
7.Thiếtkếmẫuphiếukhảosát 13
8.Báocáokhảosát 20
I.2. Nghiên cứu cơ sở lý thuyết về Khảo sát nhu cầu thông tin của người sử
dụng 21

1.Thôngtinvànhucầuthôngtin 21

2.Mụcđíchcủakhảosátnhucầusửdụngthôngtin 24
3.Phươngphápkhảosát 24
4.Xửlývàphântíchkếtquảđiềutra 26
I.3. Nghiên cứu cơ sở lý thuyết khảo sát yêu cầu và phương thức cung cấp
thông tin 26

1.Nhucầuthôngtinvàcácđốitượngdùngtin 26
2.Cácphươngthứctruyềnvàcungcấpthôngtin 27
3.Phươngphápvàmụctiêukhảosát 28
I.4. Nghiên cứu cơ sở lý thuyết của tổng hợp và viết tài liệu khảo sát 29
1.Cấutrúccủabáocáonghiêncứu,khảosát 29
2.Xâydựngcácnguyêntắcphânloạivàbiêntậpthôngtinkhảosát 30
3.Xâydựngcáctiêuchítrongkếtquảkhảosát.Lậpbáocáokhảosát 35
CHƯƠNG II. Nghiên cứu cơ sở lý thuyết và công nghệ về thiết kế hệ
thống kho dữ liệu và ứng dụng BI 36

II.1. Nghiên cứu cơ sở lý thuyết và công nghệ về thiết kế kho dữ liệu nguồn36
1.Giớithiệu. 36
Nghiên cứu lý thuyết và phương pháp luận xây dựng CSDL theo mô hình Data Ware House và Metadata

2
2.Địnhnghĩakhod ữliệunguồn. 36
3.Cấutrúccủamộtkhodữliệunguồn. 37
II.2. Nghiên cứu cơ sở lý thuyết và công nghệ về thiết kế kho dữ liệu và
datamart 39

1.ĐịnhnghĩakhodữliệuvàDatamart 39
2.TạisaocầnthiếtkếDataMart 42
II.3. Nghiên cứu cơ sở lý thuyết và công nghệ về thiết kế ETL - Extract -
Transformation - Load 42


1.KháiniệmETL 42
2.CáckiểukiếntrúcETL 44
II.4. Nghiên cứu cơ sở lý thuyết và công nghệ về thiết kế tầng dữ liệu đa chiều
cho người dùng ( End - User) 46

1.Kháiniệmdữliệuđachiều 46
2.NgônngữMDX 47
3.Côngnghệthiếtkếtầngdữliệuđachiều 49
4.GiớithiệusảnphẩmMS.SQLServer–AnalysisServices 49
II.5. Nghiên cứu cơ sở lý thuyết và công nghệ về thiết kế khai thác và phân
tích thông tin. 58

1.Khaithácvàphântíchthôngtinlàgì. 58
2.Hướngtiếpcậntrongdataming 59
3.Ứngdụngcủakhaiphádữliệu. 60
4.Cácbướckhaithácvàphântíchthôngtin. 61
5.Hạtầngcôngnghệ 63
II.6. Nghiên cứu cơ sở lý thuyết và công nghệ về thiết kế giải pháp tập trung
và tích hợp số liệu 63

1.Kháiniệmtậptrungdữliệu 63
2.Tíchhợpdữliệulàgì 64
3.Kiếntrúclogictíchhợpdữliệu. 65
4.Cơchếtíchhợpdữliệu 65
5.Cácbướctriểnkhaitậptrungvàtíchhợpdữliệu. 66
6.GiớithiệubộcôngcụOracleWarehouseBuilder. 66
II.7. Nghiên cứu cơ sở lý thuyết và công nghệ về thiết kế giải pháp làm sạch,
chuẩn hóa và cung cấp số liệu 68


1.Kháiniệmchuẩnhóadữliệu 68
2.Cácdạngchuẩnhóadữliệu 68
3.Làmsạchdữliệu 70
Nghiên cứu lý thuyết và phương pháp luận xây dựng CSDL theo mô hình Data Ware House và Metadata

3
II.8. Nghiên cứu cơ sở lý thuyết và công nghệ về thiết kế Giải pháp xây dựng
cơ sở dữ liệu đa chiều với OLAP 72

1.OLAPlàgì? 72
2.Môhìnhdữliệuđachiềulàgì 73
3.GiớithiệudịchvụOLAP(OLAPServices)củaMicrosoftSQLServer 74
4.SosánhOLAPvớiOLTP 75
5.CácmôhìnhlưutrữhỗtrợOLAP 76
6.Kiếntrúckhối(cube)củaOLAP 79
7MôhìnhkiếntrúcdịchvụOLAP 80
II.9. Nghiên cứu cơ sở lý thuyết và công nghệ về thiết kế Giải pháp cung cấp
thông tin đến từng đối tượng sử dụng 83

1.Cácđốitượngngườisửdụng 83
2.Cácgiảiphápcungcấpthôngtin 84
II.10. Nghiên cứu cơ sở lý thuyết và công nghệ về thiết kế Giải pháp để người
sử dụng tự truy cập, khai thác, tìm kiếm và phân tích và dự báo thông tin. 89

1.Nhucầukhaithác,tìmkiếm,phântíchvàdựbáothôngtin 89
2.Cácgiảiphápcôngnghệchungphụcvụpháthiệntrithứcvàkhaiphádữliệu 91
3.Mộtsốnguyêntắcchungtrongthiếtkếgiảiphápkhaithácthôngtinthuậntiệncho
ngườisửdụng 104

4.Giảiphápcủamộtsốhãngphầnmềmlớn 107

CHƯƠNG III. Nghiên cứu cơ sở lý thuyết và công nghệ về thiết kế kho dữ
liệu và tập trung dữ liệu 108

III.1. Nghiên cứu cơ sở lý thuyết và công nghệ về xây dựng các kịch bản tạo
CSDL trung chuyển 108

1Nguồndữliệu 109
2.Khuv ựcxửlý 109
III.2. Nghiên cứu cơ sở lý thuyết và công nghệ về xây dựng kịch bản tạo
CSDL chứa các chủ đề 112

III.3. Nghiên cứu cơ sở lý thuyết và công nghệ về xây dựng kịch bản tạo các
module để load dữ liệu từ DSA về kho tập trung và từ kho tập trung về Data
Mart 113

1.Cáckháiniệmchung 113
2.XâydựngkịchbảnchokhuvựcDSA 116
3.XâydựngkịchbảnchocácDataMart 118
4.ThựcthiDMtrongSQL2008 124
III.4. Nghiên cứu cơ sở lý thuyết và công nghệ về xây dựng kịch bản tạo các
JOB để chạy các module trên theo lịch đặt sẵn 125

1.Lýdo,mụcđíchnghiêncứu. 125
Nghiên cứu lý thuyết và phương pháp luận xây dựng CSDL theo mô hình Data Ware House và Metadata

4
2.Phươngphápnghiêncứu 126
3.Tìmhiểuchungvềxâydựngkịchbảnchạycácmoduletheolịchsẵn 129
4.SựcầnthiếtcủaJOBtronghệthốngthôngtin 130
5.Cơsởcôngnghệvềcàiđặt. 131

6.Biệnpháptriểnkhai,ápdụngvàothựctiễn 133
III.5. Nghiên cứu cơ sở lý thuyết và công nghệ về xây dựng các module để
làm sạch và tích hợp dữ liệu 137

1.Tìmhiểuchungvềmoduleđểlàmsạchvàtíchhợpdữliệu 137
2.Sựcầnthiếtcủalàmsạchdữliệuvàtíchhợpdữliệutronghệthốngthôngtin 139
3.Cơsởcôngnghệ. 140
CHƯƠNG IV. Nghiên cứu cơ sở lý thuyết và công nghệ về xây dựng
CSDL đa chiều với OLAP 147

IV.1. Nghiên cứu cơ sở lý thuyết và công nghệ về xác định các chiều dữ liệu
từ thiết kế thi công 147

1.Kháiniệmchung 147
2.Phântíchđachiều 148
3.Địnhhướngcôngnghệ 150
4.Cáchxácđịnhchiều 151
IV.2. Nghiên cứu cơ sở lý thuyết và công nghệ về xác định các thông tin số
liệu từ thiết kế thi công 151

1.TriểnkhaiOLAPtrongSQLSERVER 152
IV.3. Nghiên cứu cơ sở lý thuyết và công nghệ về xác định các nấc phân cấp
thông tin trên cơ sở thiết kế thi công 162

1.Xácđịnhkhối 162
2.Xửlýcáckhối 163
3.Khốiảo 163
4.Xácđịnhcácchiều 163
5.Chiềucóphâncấp 164
6.Facttable(Fact) 164

7.Slice 164
HìnhIV.23.Khốidữliệuvàcáclátcắt 165
8.Cácphânhoạch(Partitions) 165
IV.4. Nghiên cứu cơ sở lý thuyết và công nghệ về tạo các hierachy 166
1.Kháiniệmvềhierachy 166
2.ĐịnhnghĩavàtạocácphâncấptrongOracle11g 169
IV.5. Nghiên cứu cơ sở lý thuyết và công nghệ về Dùng OLAP API để tạo
CSDL đa chiều 170

Nghiên cứu lý thuyết và phương pháp luận xây dựng CSDL theo mô hình Data Ware House và Metadata

5
1.KháiniệmCSDLđachiều 170
2.SửdụngdịchvụSSASđểxâydựngcáccơsởdữliệunhiềuchiều 171
CHƯƠNG V. Nghiên cứu cơ sở lý thuyết và công nghệ về xây dựng tầng
ứng dụng để tìm và khai phá thông tin 174

V.1. Nghiên cứu cơ sở công nghệ về Cài đặt ứng dụng Web 174
1.Kháiniệmứngdụngweb 174
2.ĐặcđiểmcủaDịchvụWeb 175
3.KiếntrúccủaDịchvụWeb 175
4.CácthànhphầncủaDịchvụWeb 177
5.AntoànchodịchvụWeb 180
6.XâydựngmộtdịchvụWeb 181
7.TíchhợpdịchvụWebtheochuẩn 181
V.2. Nghiên cứu cơ sở công nghệ về Cài đặt LDAP 182
1.KháiniệmvềLDAP 182
2.SựcầnthiếtcủaLDAPtronghệthốngthôngtin 183
3.CơsởcôngnghệvềcàiđặtLDAP 183
4.Triểnkhai,ápdụngvàothựctiễn 186

V.3. Nghiên cứu cơ sở công nghệ về cách dùng BI để Lập báo cáo tổng hợp.
187

1.BusinessIntelligence(BI)làgì 187
2.CáchoạtđộngchínhcủaBI 188
3.BIdànhchoai 190
4.MộtsốbướccơbảnđểtạolậpbáocáotừhệthốngBI 190
5.TạolậpbáocáotrongmộtsốhệthốngBI 192
V.4. Nghiên cứu cơ sở công nghệ về cách dùng BI để lập báo cáo phân tích
194

1.Kháiniệmbáocáophântích 194
2.Kỹthuậtphântíchdữliệu 196
3.Truyvấnvàbáocáo 198
4.Côngnghệphântíchnhiềuchiều 198
5.MôhìnhhóacácchiềuvớiInfoSphereDataArchitectcủaIBM‐Kỹthuậtxuôichiều
trongInfoSphereDataArchitect 199

V.5. Nghiên cứu cơ sở công nghệ về cách dùng BI để dự báo thông tin 205
1.BIvàdựbáothôngtin 205
2.Phântíchdựđoán 207
Nghiên cứu lý thuyết và phương pháp luận xây dựng CSDL theo mô hình Data Ware House và Metadata

6
3.Phântíchdựđoán(PredictiveAnalysis)vàdựbáokinhdoanhthôngminh(Business
Forecasting) 209

4.Dựbáovàkhaikhoángdữliệu 212
5.Thamkhảomộtsốthuậttoán 215
V.6. Nghiên cứu cơ sở công nghệ về phương pháp nhúng các ứng dụng BI

vào bộ Live Office 222

1.KháiniệmLiveOffice 222
2.LàmviệcvớinộidungCrystalReportstrongLiveOffice 223
3.LàmviệcvớinộidungWebIntelligencetrongLiveOffice 226
4.LàmviệcvớicáctruyvấntrongLiveOffice 228
5.ThựchiệncáctácnghiệpchungđốivớiđốitượngLiveOfice 230
6.Thựchiệncáctácnghiệpnângcao 232
V.7. Nghiên cứu cơ sở công nghệ về truy vấn và khai thác thông tin dựa trên
các thông tin có sẵn. 232

1.Kháiniệmchung 232
2.Cácbướckhaiphádữliệutừcácthôngtincósẵndướidạngvănbản 234
3.CácbộmáytracứutìmtintrênInternet 248
V.8. Nghiên cứu cơ sở công nghệ về truy vấn và khai thác thông tin theo các
báo cáo theo nhu cầu 249

1.Tìmhiểuchungvềtruyvấnvàkhaithácthôngtintheobáocáo. 249
2.Sựcầnthiếtc ủaxâydựngbáocáotừtruyvấnvàkhaithácthôngtintheonhucầu. . 251
3.Thiếtkếbáocáo 252
4.Kếtquả,đánhgiá 253
V.9. Nghiên cứu cơ sở công nghệ về truy vấn và khai thác thông tin để chia sẻ
thông tin với người khác 256

1.Tìmhiểuchungvềviệcchiasẻthôngtin. 256
2.Sựcầnthiếttrongviệcvềtruyvấnvàkhaithácthôngtinđểchiasẻthôngtinvớingười
khác. 259

Kết luận và kiến nghị 259
Tài liệu tham khảo 261


Nghiên cứu lý thuyết và phương pháp luận xây dựng CSDL theo mô hình Data Ware House và Metadata

7
A. MỤC TIÊU ĐỀ TÀI
Với mục đích tạo lập một hệ thống thông tin chính thống, nền tảng, đầy đủ,
chuyên ngành - là hệ thống những thông tin, chỉ tiêu, thông số cơ bản và
chuyên sâu, đặc thù về thực trạng các loại sản phẩm, nguồn lực, hoạt động,
tiềm lực phát triển và các yếu tố liên quan trực tiếp của ngành cơ khí Việt
nam, phục vụ xây dựng chiến lược, hoạch định chính sách,
điều hành, quản lý
Nhà nước và phát triển kinh tế công nghiệp, thương mại Việt nam, phục vụ
chuyển dịch cơ cấu kinh tế và công nghiệp hoá, hiện đại hoá đất nước, Trung
tâm thông tin Công nghiệp và Thương mại được giao thực hiện nhiệm vụ
“Xây dựng cơ sở dữ liệu ngành cơ khí Việt Nam”.
Có thể nói, cơ khí là một ngành có mối liên quan với hầu hết tất cả các ngành
trong nền kinh tế
. Chính vì vậy, để có thể thu thập, xử lý dữ liệu ngành cơ khí,
dữ liệu sẽ đến từ rất nhiều nguồn, với rất nhiều chủng loại thông số. Hơn nữa,
để đánh giá đúng, đủ về ngành cơ khí, cần có các công cụ cho phép khai thác
thông tin đa chiều, đa tầng và nhanh chóng.
Để đáp ứng các yêu cầu xử lý hệ thống thông tin như trên, nhóm thực hiện đề
xuất nghiên cứ
u công nghệ nhà kho dữ liệu (Data Ware House) với các mô
hình BI (Business Intelligence), OLAP (Online Analytical Processing) và đặt
ra mục tiêu nghiên cứu các vấn đề lý thuyết và công nghệ liên quan trực tiếp
đến các mô hình này.

B. TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC
Trên thế giới, đặc biệt là ở các nước có trình độ công nghệ phát triển, việc

ứng dụng mô hình Data Ware House và tổ chức và khai thác các hệ thống
thông tin lớn với mục đích khai phá dữ liệu, khám phá tri thức, hỗ trợ ra
quyết định là việc không còn xa lạ. Để hỗ trợ, rất nhiều hãng phần mềm như
Oracle, Microsoft, SAP, …liên tục phát triển và hoàn thiện các sản phẩm để
đáp ứng nhu cầu cũng như để
sử dụng hết công suất các sản phẩm phần cứng
cũng liên tục được nâng cấp.
Tại Việt Nam, về lý thuyết, trong những năm gần đây, Data Ware House cũng
được nhắc đến nhiều nhưng để triển khai trong thực tế, có thể nói là chưa ghi
nhận được một thành công cụ thể nào. Lý do thì có rất nhiều nhưng chủ yếu vì
nguồn dữ liệu của các hệ thống thông tin th
ường rất khó thu thập, khó qui
chuẩn. Điều này vẫn đúng ngay cả đối với một số doanh nghiệp lớn, đã áp
dụng các hệ thống quản lý toàn công ty như ERP, CRM … Đây cũng chính là
một trong những khó khăn mà nhiệm vụ “Xây dựng CSDL ngành cơ khí Việt
Nam” cần khắc phục. Trên thực tế, việc xây dựng các hệ thống thông tin lớn
có một vai trò rất quan trọng trong quản lý nhà nước và cần có những bước đi
quyết liệt để nâng cao năng lực quản lý của tất cả các cấp.
Data Ware House là một mô hình tổ chức dữ liệu dùng để xử lý dữ liệu có
những đặc tính như sau:
Nghiên cứu lý thuyết và phương pháp luận xây dựng CSDL theo mô hình Data Ware House và Metadata

8
- Nguồn dữ liệu đa dạng, phong phú, cần qui chuẩn, làm sạch, tích hợp
- Dữ liệu cần phải tính toán, xử lý để phục vụ quá trình khai thác nhanh,
nhiều đối tượng, với các nhu cầu khác nhau, với các góc nhìn khác
nhau và nhiều tiêu chí.
Đây cũng chính là đặc điểm của dữ liệu ngành cơ khí Việt Nam và cũng
chính là lý do nhóm thực hiện lựa chọn Data Ware House để tổ chức
CSDL ngành cơ khí Việt Nam.


C. PHƯƠNG PHÁP NGHIÊN CỨU
Đây là đề tài có nội dung thuần túy về các vấn đề lý thuyết nên phương pháp
nghiên cứu được sử dụng sẽ là tham khảo các tài liệu về các vấn đề liên quan
để từ đó rút ra các nội dung chính là:
+ Khái niệm của vấn đề nghiên cứu
+ Ứng dụng của vấn đề trong thực tế
+ Đề xuất về việc áp dụng vấn đề trong thực hiện nhiệm vụ xây dựng CSDL
ngành cơ khí Vi
ệt Nam

D. NỘI DUNG NGHIÊN CỨU
CHƯƠNG I. Nghiên cứu lý thuyết và phương pháp luận của
công tác khảo sát, nội dung và nhiệm vụ của khảo sát

I.1. Nghiên cứu cơ sở lý thuyết về Khảo sát dữ liệu nguồn


1. Khái niệm dữ liệu nguồn. Tại sao cần khảo sát dữ liệu nguồn

Dữ liệu đóng vai trò không thể thiếu được trong các cuộc điều tra nghiên cứu,
khảo sát. Từ các dữ liệu thu thập được, qua quá trình xử lý, có thể rút ra được
các kết quả quan trọng của cuộc khảo sát. Để phục vụ điều tra, khảo sát,
người ta chia các loại dữ liệu thành hai loại: dữ
liệu thứ cấp và dữ liệu sơ cấp.

a. Dữ liệu thứ cấp
Dữ liệu thứ cấp là dữ liệu do người khác thu thập, sử dụng cho các mục đích
có thể là khác với mục đích nghiên cứu của chúng ta. Dữ liệu thứ cấp có thể
là dữ liệu chưa xử lý (còn gọi là dữ liệu thô) hoặc dữ liệu đã xử lý. Như vậ

y,
dữ liệu thứ cấp không phải do người nghiên cứu trực tiếp thu thập.
Các dữ liệu thứ cấp có thể là:
+ Các báo cáo của chính phủ, bộ ngành, số liệu của các cơ quan thống kê về
tình hình kinh tế xã hội, ngân sách quốc gia, xuất nhập khẩu, đầu tư nước
ngoài, dữ liệu của các công ty về báo cáo kết quả tình hình hoạt động kinh
doanh, nghiên cứu thị trường.
Nghiên cứu lý thuyết và phương pháp luận xây dựng CSDL theo mô hình Data Ware House và Metadata

9
+ Các báo cáo nghiên cứu của cơ quan, viện, trường đại học
+ Các bài viết đăng trên báo hoặc các tạp chí khoa học chuyên ngành và tạp
chí mang tính hàn lâm có liên quan
+ Tài liệu giáo trình hoặc các xuất bản khoa học liên quan đến vấn đề nghiên
cứu
+ Các bài báo cáo hay luận văn của sinh viên các trường đại học trong ngoài
nước, các luận văn thạc sĩ, tiến sĩ các ngành khoa học liên quan.
Vì là nguồn dữ liệu đã được xử lý, ưu điểm củ
a việc sử dụng dữ liệu thứ cấp
là tiết kiệm tiền bạc, thời gian. Tuy nhiên, việc sử dụng các dữ liệu thứ cấp
cũng có một số nhược điểm là:
+ Số liệu thứ cấp này đã được thu thập cho các nghiên cứu với các mục đích
khác và có thể hoàn toàn không hợp với vấn đề của chúng ta; khó phân loại
dữ liệu; các biến số, đơ
n vị đo lường có thể khác nhau
+ Dữ liệu thứ cấp thường đã qua xử lý nên khó đánh giá được mức độ chính
xác, mức độ tin cậy của nguồn dữ liệu.
Do vậy, khi sử dụng các dữ liệu thứ cấp, để đảm bảo tính chính xác của dữ
liệu, phải kiểm tra xem các kết quả nghiên cứu của người khác là dựa vào dữ
liệu thứ cấp hay sơ

cấp và nếu có điều kiện, nên kiểm tra dữ liệu gốc.

b. Các nguồn dữ liệu thứ cấp
Là những tường trình không trực tiếp đối với một sự kiện. Nguồn thứ cấp có
thể dựa trên nội dung nguồn chính hoặc các nguồn thứ cấp khác nhằm tạo ra
một cái nhìn tổng quan, hoặc để đưa ra các khẳng định có tính phân tích hoặc
tổng hợp. Các nguồn th
ứ cấp có thể là:
+ Danh mục và thư mục: Trên cơ sở bộ danh mục và thư mục của các thư
viện, chúng ta có thể tìm kiếm dữ liệu cần thiết theo tác giả, chủ đề, thời gian

+ Tự điển: Dùng để xác định nghĩa của các từ chuyên môn trong nghề. Ngoài
ra, có thể dùng để xác định các sự liện trong ngành, tên tuổi các nhân vật cũng
như các tổ chức có tầm ảnh hưở
ng trong lĩnh vực quan tâm
+ Bách khoa toàn thư: Dùng để tìm hiểu các thông tin cơ sở hay lịch sử cũng
như tìm hiểu các thời điểm quan trọng, những sự kiện có ý nghĩa đối với
chuyên ngành quan tâm
+ Cẩm nang: Dùng để tìm hiểu các sự kiện cũng như các cá nhân liên quan,
có tầm ảnh hưởng đến vấn đề đang quan tâm
+ Danh bạ: Dùng để xác định các tổ chức và các nhân vật liên quan, qua đó
xác định các thông tin cơ bản như
địa chỉ, email để liên lạc
+ Internet: các trang web
+ Các nguồn của chính phủ: các tổ chức chính phủ, các văn bản luật, qui định
và từ các cục, tổng cục thống kê

c. Đánh giá các nguồn dữ liệu thứ cấp
Nghiên cứu lý thuyết và phương pháp luận xây dựng CSDL theo mô hình Data Ware House và Metadata


10
Để đánh giá các nguồn dữ liệu thứ cấp, người ta thường sử dụng một số tiêu
chí sau:
+ Mục đích: Tìm hiểu xem tác giá đang cố gắng thực hiện điều gì, điều này có
phù hợp với mục đích của ta hay không
+ Phạm vi: Tìm hiểu ngày, tháng, niên đại cũng như các đối tượng được nêu
trong dữ liệu
+ Căn cứ tin cậy: Xác định chuyên môn của tác giả cũ
ng như mức độ học
thuật của nội dung tài liệu
+ Định dạng: Tìm hiểu thứ tự của nội dung cũng như tính đa dụng của tài liệu
qua các thông tin về tài liệu như: có sử dụng chỉ số hay không, có thể truy
tìm, có thể tải về từ Internet hay không

d. Dữ liệu sơ cấp
Khi dữ liệu thứ cấp không có sẵn hoặc không thể giúp trả lời các câu hỏ
i
nghiên cứu của chúng ta, chúng ta phải tự mình thu thập dữ liệu cho phù hợp
với vấn đề nghiên cứu đặt ra. Các dữ liệu tự thu thập này được gọi là dữ liệu
sơ cấp. Hay nói cách khác, dữ liệu sơ cấp là dữ liệu do chính người nghiên
cứu thu thập.

e. Nguồn dữ liệu sơ cấp
Là những nguồn rất gần với căn nguyên của vấn đề đ
ang tìm hiểu. Ví dụ về
nguồn sơ cấp bao gồm: các di tích khảo cổ học; hình ảnh; tư liệu lịch sử như
là nhật ký, kết quả điều tra dân số, phim hay biên bản của việc giám sát, điều
trần công khai, xử án, hay phỏng vấn; bảng kết quả của các cuộc điều tra,
thăm dò ý kiến; các kết quả được ghi lại hoặc thu lại của các thực nghi
ệm

trong phòng thí nghiệm hoặc ngoài thực địa, các thí nghiệm hoặc quan sát,
các kết quả thí nghiệm đã được công bố bởi những người thực sự tham gia
nghiên cứu; hồi ký tự truyện, tác phẩm triết học gốc, kinh sách của các tôn
giáo, văn bản của cơ quan quản lý, các tác phẩm nghệ thuật và giả tưởng như
thơ, kịch bản, kịch bản phim, tiểu thuyết, phim, video, và chương trình truyền
hình.
Các thông tin thu đượ
c từ các cuộc điều tra, căn cứ vào phạm vi điều tra có
thể được chia thành hai loại: điều tra toàn bộ và điều tra chọn mẫu.
+ Điều tra toàn bộ: Là tiến hành thu thập thông tin trên tất cả các đơn vị thuộc
tổng thể nghiên cứu.
Ưu điểm của điều tra toàn bộ là thu thập được thông tin về tất cả các đơn vị
tổng thể. Tuy nhiên lo
ại điều tra này có một số nhược điểm sau:
- Số lượng đơn vị thuộc tổng thể chung thường rất lớn nên quá trình điều
tra thường mất nhiều thời gian và tốn kém.
- Trong một số trường hợp do thời gian kéo dài dẫn đến số liệu kém
chính xác do hiện tượng tự biến động theo thời gian
Nghiên cứu lý thuyết và phương pháp luận xây dựng CSDL theo mô hình Data Ware House và Metadata

11
- Trong một số trường hợp, điều tra toàn bộ sẽ không thực hiện được ví
dụ như kiểm tra chất lượng sản phẩm phải phá hủy các đơn vị thuộc đối tượng
nghiên cứu
+ Điều tra chọn mẫu: Để nghiên cứu tổng thể, ta chỉ cần lấy ra một số phần
tử đại diện để nghiên cứu và từ
đó suy ra kết quả cho tổng thể bằng các
phương pháp thống kê.
Điều tra chọn mẫu thường được sử dụng vì các lý do sau:
- Tiết kiệm chi phí

- Cung cấp thông tin kịp thời cho quá trình nghiên cứu
- Đáng tin cậy. Đây là yếu tố rất quan trọng, nó làm cho điều tra chọn
mẫu trở nên có hiệu quả và được chấp nhận. Tuy nhiên, để có sự tin cậy
này, chúng ta phải có phương pháp khoa học
để đảm bảo tính chính xác
để chi cần chọn ra một số quan sát mà có thể suy luận ra cả tổng thể
rộng lớn

f. Tại sao cần khảo sát dữ liệu nguồn.
Như vậy, để nghiên cứu, khảo sát một vấn đề, dữ liệu đầu vào là vô cùng
quan trọng. Để thu thập được dữ liệu, việc trước tiên là xác định được các
nguồn cung cấp dữ liệu, loại nguồ
n, loại dữ liệu để xác định rõ khả năng
cung cấp cho từng loại dữ liệu. Chỉ khi xác định được rõ các thông tin về
nguồn dữ liệu, mới có thể xác định được phương pháp thu thập dữ liệu.

2. Xác định mục đích khảo sát
+ Đánh giá các nguồn cung cấp dữ liệu
+ Kết luận về khả năng cung cấp dữ liệu
+ Kết luận về
chất lượng cung cấp dữ liệu
+ Điều chỉnh các thông tin trong mẫu phiếu khảo sát cung cấp thông tin
+ Xác định các khó khăn trong việc cung cấp thông tin
3. Xác định các yêu cầu cần đạt được của kết quả khảo sát
+ Xác định rõ các nguồn cung cấp từng loại thông tin
+ Hoàn thiện mẫu phiếu điều tra thông tin
+ Xác định tần xuất cung cấp thông tin
+ Xác định loại thông tin thu thập từ các nguồn
+ Xác định hình thức cung c
ấp thông tin

+ Hình thành cơ sở xây dựng các chuẩn dữ liệu
+ Xác định phương pháp thu thập dữ liệu
4. Xác định phương pháp khảo sát
Như đã phân tích ở các phần trên, nguồn dữ liệu bao gồm hai loại: nguồn dữ
liệu thứ cấp và nguồn dữ liệu sơ cấp. Đối với từng loại nguồn dữ liêu, chúng
ta cần có những phương pháp khảo sát khác nhau.

a. Đối với các nguồ
n dữ liệu thứ cấp.
Nghiên cứu lý thuyết và phương pháp luận xây dựng CSDL theo mô hình Data Ware House và Metadata

12
+ Xác định thông tin nào có thể thu thập được từ các nguồn thứ cấp. Trong
nhiệm vụ xây dựng CSDL ngành cơ khí, một số thông tin có thể cung cấp
từ nguồn dữ liệu thứ cấp như: tổng sản lượng các sản phẩm ngành cơ khí
hàng năm, tổng kim ngạch xuất/nhập khẩu các sản phẩm ngành cơ khí,
tổng số lao động làm việc trong ngành cơ khí … Các số liệu này đều có
thể
lấy từ các báo cáo thông kê hàng năm của tổng cục thống kê.
+ Đánh giá chất lượng các nguồn dữ liệu thứ cấp theo các tiêu chí
+ Xây dựng chuẩn cho dữ liệu từ các nguồn thứ cấp
+ Xây dựng qui trình cung cấp dữ liệu từ các nguồn thứ cấp
Đối với các nguồn dữ liệu thứ cấp, nhóm nghiên cứu sử dụng phương pháp
đánh giá trực tiếp đối với từng nguồ
n dữ liệu.

b. Đối với các nguồn dữ liệu sơ cấp
+ Xác định các nguồn dữ liệu sơ cấp.
+ Xây dựng kế hoạch khảo sát, đánh giá chất lượng các nguồn dữ liệu sơ
cấp.

+ Xây dựng chuẩn dữ liệu cho dữ liệu từ nguồn sơ cấp
+ Xây dựng qui trình cung cấp dữ liệu từ các nguồn sơ cấp
Để phụ
c vụ cho cơ sở dữ liệu ngành cơ khí Việt Nam, nhóm nghiên cứu xác
định nguồn dữ liệu sơ cấp chủ yếu là các sở sông thương và các viện nghiên
cứu, các hiệp hội ngành nghê. Vì số lượng các đơn vị có hạn (khoảng 100 đơn
vị) nên nhóm nghiên cứu quyết định sử dụng phương pháp “điều tra toàn bộ”
đối với các nguồn dữ liệu sơ cấp.
Các phương pháp điề
u tra khảo sát áp dụng trong trường hợp này có thể là:

b.1. Phỏng vấn trực tiếp (cá nhân hoặc nhóm)
Đây là phương pháp thu nhập dữ liệu mà người phỏng vấn và người được
phỏng vấn gặp nhau trực tiếp để hỏi và trả lời. Địa điểm phỏng vấn có thể tại
trụ sở làm việc của đối tác hoặc trụ sở làm việc của nhóm nghiên cứu. Mức
độ chính xác của số liệu thu thập phụ thuộc vào kỹ năng đặt câu hỏi mộ
t cách
khéo léo, sự tinh tế trong việc nêu câu hỏi nhằm theo dõi và kiểm tra đối
tượng phỏng vấn.
Yêu cầu đối với người hỏi là:
- Không được thiên kiến hay xen quan điểm cá nhân vào câu hỏi, hoặc hướng
đối tượng phỏng vấn vào cách trả lời.
- Phải trung thực, không bịa ra câu trả lời, bớt câu hỏi, tự điền câu trả lời
- Có kỹ năng giao tiếp, giọng nói, ngữ điệu, y ph
ục phù hợp với hoàn cảnh và
đối tượng phỏng vấn.
Ưu điểm của phương pháp phỏng vấn trực tiếp
- Người phỏng vấn trực tiếp gặp đối tượng nên có thể thuyết phục đối tượng
trả lời.
- Có điều kiện giải thích rõ về các câu hỏi cũng như cách thức thực hiện các

câu trả lời.
Nghiên cứu lý thuyết và phương pháp luận xây dựng CSDL theo mô hình Data Ware House và Metadata

13
Nhược điểm của phương pháp này là:
- Phí tổn cao, di chuyển nhiều, mất nhiều thời gian để đến được đối tượng
phỏng vấn.
- Người được phỏng vấn có thể không bố trí được nhiều thời gian để trả lời.
- Sự có mặt của người phỏng vấn, thái độ cứng nhắc của người hỏi có thể làm
người trả lời né tránh câu hỏ
i hoặc trả lời không thật.
5. Xác định qui mô và đối tượng khảo sát
a. Đối với các nguồn dữ liệu thứ cấp
+ Xây dựng form mẫu cho khảo sát nguồn dữ liệu thứ cấp
+ Khảo sát các nguồn dữ liệu từ các website của các cơ quan chính phủ
trên Internet
+ Khảo sát các nguồn dữ liệu từ các kho tư liệu của các cơ quan chức năng
như: thư viện khoa học kỹ
thuật, thư viện quốc gia, cục thông tin khoa học
và công nghệ quốc gia, tổng cục tiêu chuẩn đo lường chất lượng, các vụ
chức năng thuộc Bộ Công Thương, Trung tâm thông tin …
+ Khảo sát nguồn dữ liệu từ các tạp chí, ấn phẩm chuyên ngành
+ Phỏng vấn trực tiếp một số chuyên gia trong ngành

b. Đối với các nguồn dữ liệu sơ cấp
+ Xây dựng bảng hỏi cho khảo sát nguồ
n dữ liệu sơ cấp
+ Gửi phiếu điều tra cho tất cả các sở công thương các tỉnh/thành trên cả
nước
+ Gửi phiếu điều tra cho các viện nghiên cứu, hiệp hội ngành nghề liên

quan
+ Gửi phiếu điều tra cho các vụ chức năng thuộc các bộ ngành quản lý liên
quan
6. Xây dựng qui trình và kế hoạch khảo sát
+ Xây dựng mẫu phiếu điều tra
+ Điều tra mẫ
u từ 2 – 5 sở công thương bằng phương pháp phỏng vấn trực
tiếp
+ Điều chỉnh lại mẫu phiếu điều tra
+ Tiến hành khảo sát đại trà cho tất cả các đối tượng theo kế hoạch
+ Xử lý kết quả khảo sát và đưa ra kết luận về các nguồn dữ liệu chính
thức
+ Xây dựng các chuẩn dữ liệu
+ Xây dựng qui trình thu thập dữ liệu từ
tất cả các nguồn, đối với tất cả các
loại hình dữ liệu
7. Thiết kế mẫu phiếu khảo sát
Phiếu khảo sát là một trong những kỹ thuật để thu thập dữ liệu, nó bao hàm
một tập hợp các câu hỏi và các câu trả lời một cách logic nhất định.
a. Những thuộc tính của một phiếu khảo sát tốt
Phiếu khảo sát tốt phải giúp quá trình điều khi
ển bảng câu hỏi và giúp ghi
chép rõ ràng, chính xác. Phiếu khảo sát có nhiệm vụ:
Nghiên cứu lý thuyết và phương pháp luận xây dựng CSDL theo mô hình Data Ware House và Metadata

14
- Chuyển tải thông tin muốn hỏi (hay thông tin yêu cầu đạt được) vào
trong các câu hỏi; sau quá trình phỏng vấn, đòi hỏi người nghiên cứu phải có
thông tin theo mục tiêu nghiên cứu.
- Giúp người được phỏng vấn hiểu rõ ràng các câu hỏi.

- Khuyến khích người được phỏng vấn hợp tác.
- Hướng dẫn rõ ràng những điều người được hỏi muốn biết và cách trả
lời.

- Xác định những nhu cầu cần biết để phân loại và kiểm tra lại cuộc
phỏng vấn.
Để thực hiện được các nhiệm vụ trên, phiếu khảo sát phải được lập sao cho
người đi phỏng vấn dễ thực hiện, đồng thời, đáp ứng những yêu cầu để việc
xử lý thông tin được hiệu quả.
b. Các bước thiết kế một phi
ếu khảo sát
Do sự chính xác và thích hợp của các dữ liệu thu thập được phụ thuộc chủ yếu
vào phiếu khảo sát, việc thiết kế một bảng câu hỏi tốt sẽ có tác dụng rất lớn
đến thành công của dự án nghiên cứu.
Người ta đã tổng kết được 8 bước cơ bản về trình tự thiết kế một bảng câu hỏi


























Hình I.1 Các bước trong thiết kế một bảng câu hỏi

Xác định các dữ liệu riêng biệt cần tìm
Xác định phương pháp phỏng vấn
Đánh giá nội dung bảng câu hỏi
Quyết định các dạng câu hỏi và câu trả
Xác định từ ngữ trong bảng câu hỏi
Xác định cấu trúc bảng câu hỏi
Xác định các đặc tính vật lí của bảng câu hỏi
Kiểm tra, sửa chữa
Nghiên cứu lý thuyết và phương pháp luận xây dựng CSDL theo mô hình Data Ware House và Metadata

15
Bước 1 Xác định các dữ liệu riêng biệt cần tìm
Điểm đầu tiên khi bắt tay vào thiết kế phiếu khảo sát là xem xét mục tiêu
nghiên cứu để xác định chính xác cái gì cần được đo lường.
- Liệt kê những gì cần đo lường
- Dự tính xem những biến số được đo lường sẽ được sử dụng như thế
nào, nên dùng loại kỹ thuật phân tích nào để mang lại ý ngh
ĩa cho dữ liệu.


Bước 2: Xác định phương pháp phỏng vấn
Trong bước này, người nghiên cứu cần quyết định dùng phương pháp nào để
tiếp xúc với người được phỏng vấn (phỏng vấn trực tiếp, gọi điện thoại, gửi
thư hay internet…). Các phương pháp khác nhau sẽ yêu cầu nội dung, hay cấu
trúc bảng câu hỏi là khác nhau.
- Phỏng vấn bằng thư tín là hình thức gửi phiếu khảo sát qua b
ưu điện cho
người trả lời theo hình thức truyền thống. Trong trường hợp này, những câu
hỏi trong phiếu khảo sát phải thật đơn giản và những câu hướng dẫn cho
người trả lời phải hết sức chi tiết, rõ ràng.
- Phỏng vấn qua điện thoại là hình thức phỏng vấn giao tiếp bằng lời và người
trả lời trả lời các câu hỏi của người ph
ỏng vấn thông qua điện thoại mà không
thấy người hỏi và phiếu khảo sát. Hình thức này cho phép các phỏng vấn viên
giải thích các câu hỏi phức tạp cho người trả lời nhằm đáp ứng nội dung
phỏng vấn. tuy nhiên không thể trình bày chi tiết, dẫn đến việc kéo dài thời
gian.
- Phỏng vấn trực tiếp là hình thức phỏng vấn hoàn thiện nhất trong việc trao
đổi trực tiếp giữa người trả lờ
i và phỏng vấn viên. Phỏng vấn viên có thể giải
thích một cách chi tiết các câu hỏi. Do vậy, những câu hỏi dài và phức tạp
cũng có thể được sử dụng. Ngoài ra, hình thức này còn tạo được mối quan hệ
trong chừng mực nhất định giữa phỏng vấn viên và người trả lời để kích thích
người trả lời sẵn lòng trả lời trong quá trình phỏng vấn. Tuy nhiên để thực
hiên hình thức này cần phả
i tốn một khoản chi phí khá cao vì nhân viên phỏng
vấn phải di chuyển nhiều.
- Một hình thức mà hiện nay trên thế giới thường dùng là phỏng vấn bằng thư
điện tử (email). Trong trường hợp này những câu hỏi phức tạp có thể dễ dàng

được khắc phục. Cũng như phương pháp phỏng vấn qua thư, người nghiên
cứu có thể hỏi những câu hỏi có cấu trúc phức tạp, tuy nhiên, tỉ lệ
trả lời
không cao.

Bước 3 : Đánh giá nội dung câu hỏi
Mục tiêu và nội dung của vấn đề nghiên cứu quyết định các câu hỏi trong
bảng câu hỏi. Khi xây dựng các câu hỏi, cần cân nhắc các tiêu chí sau:
* Các câu hỏi đặt ra có cần thiết không?
Trên thực tế, trong một phiếu khảo sát cũng có một số câu hỏi tuy không thực
sự liên quan đến mục tiêu nghiên cứu nhưng nó có thể dẫn dắt, định hướng và
Nghiên cứu lý thuyết và phương pháp luận xây dựng CSDL theo mô hình Data Ware House và Metadata

16
giúp cho người phỏng vấn thu được những thông tin liên quan đến câu trả lời
và có thể trả lời chính xác những thông tin đó.
* Người trả lời có thể hiểu được câu hỏi đó không?
Người trả lời không hiểu các câu hỏi có thể do nhiều nguyên nhân, thông
thường là do người nghiên cứu dùng các thuật ngữ không quen thuộc với
người được hỏi; thiếu định nghĩa rõ ràng về các thuật ngữ sử dụng; ho
ặc đặt
câu hỏi mơ hồ, bỏ qua những khác biệt về văn phong, thói quen giao tiếp giữa
những người có sắc tộc hoặc văn hóa khác nhau…
Để gia tăng sự hiểu biết của người được hỏi, nên dùng ngôn ngữ quen thuộc.
Các câu hỏi nên được xây dựng đúng cú pháp, văn phạm, tránh dùng câu
phức tạp, tránh dùng tiếng lóng hay thuật ngữ chuyên môn…
* Người trả lời có được những thông tin cần thiết để
trả lời câu hỏi đó
không?
Người được hỏi không trả lời được hoặc trả lời không đúng có thể do một số

nguyên nhân:
Thiếu kiến thức về vấn đề được hỏi.
Người trả lời không muốn cung cấp các thông tin
Để khắc phục, cần gửi phiếu khảo sát đúng đối tượng và chuẩn bị các câu hỏi
đúng mục đích

Bước 4 Xác
định dạng câu hỏi và câu trả lời
Có hai dạng câu hỏi chính sau:
Câu hỏi mở:
Đây là dạng câu hỏi trong đó câu hỏi được cấu trúc còn câu trả lời thì không.
Người trả lời có thể trả lời với bất kỳ thông tin nào và bất cứ câu nào được coi
là thích hợp. Người phỏng vấn sẽ có nhiệm vụ viết lại chính xác những gì có
thể thu thập được. Có ba loại câu hỏi mở.
(1) Câu hỏ
i tự do trả lời
Theo câu hỏi này, người trả lời có thể tự do trả lời câu hỏi theo ý mình tùy
theo phạm vi tự do trong nội dung câu hỏi đặt ra cho họ. Những thuận lợi của
câu hỏi tự do trả lời:
- Cho phép người nghiên cứu thu được những câu trả lời bất ngờ, không
dự liệu trước.
- Người trả lời có thể bộc lộ rõ ràng hơn những quan
điểm của mình về
một vấn đề nào đó, mà không bị gò bó bởi nội dung câu hỏi
- Giảm bớt sự thất vọng của người trả lời so với câu hỏi đóng là không
có cơ hội phát biểu ý kiến, chỉ lựa chọn trong tình huống có sẵn.
- Có tác dụng tốt lúc mở đầu cuộc phỏng vấn, tạo mối quan hệ với người
được hỏ
i.
Những khó khăn khi sử dụng câu hỏi tự do trả lời:

- Có thể khó khăn để hiểu người trả lời khi họ diễn đạt kém.
- Khó mã hóa và phân tích.
Nghiên cứu lý thuyết và phương pháp luận xây dựng CSDL theo mô hình Data Ware House và Metadata

17
- Phụ thuộc vào ghi chép của người phỏng vấn, nên có thể bỏ qua những
chi tiết quan trọng không ghi chép lại vì cho rằng không cần thiết.
- Dạng câu hỏi này ít được dùng trong trường hợp phỏng vấn bằng thư
tín vì tâm lý người được hỏi thường ngại viết hơn là nói.
- Đôi khi mất thời gian vì người trả lời nói lan man.
(2) Câu hỏi thăm dò
Sau khi đã dùng một vài câu hỏi mở
để tìm hiểu một chủ đề nào đó, người
phỏng vấn có thể bất đầu những câu hỏi thăm dò để đưa vấn đề đi xa hơn.
Nhược điểm của câu hỏi thăm dò cũng giống như câu hỏi tự do trả lời, còn ưu
điểm là: (1) gợi thêm ý cho câu hỏi nguyên thủy và gợi ý cho người trả lời nói
đến khi họ không còn gì cần nói thêm, (2) tạo được câu tr
ả lời đầy đủ và hoàn
chỉnh hơn so với yêu cầu câu hỏi nguyên thủy.
(3)Câu hỏi thuộc dạng kỹ thuật hiện hình
Nội dung của phương pháp này là mô tả các tập hợp dữ liệu bằng việc trình
bày một cách đầy đủ, rõ ràng những vấn đề còn chưa rõ nghĩa, chẳng hạn như
từ ngữ hoặc hình ảnh mà người trả lời phải mường tượng ra, trên cơ s
ở đó,
người trả lời phải nói bằng lời những gì họ hình dung trong đầu về vấn đề
đang bàn luận. Kỹ thuật này có ban dạng chính sau:
- Dạng kỹ thuật liên kết: theo kỹ thuật này, người hỏi sẽ đưa ra một
chuỗi các từ hoặc hình ảnh (nghĩa đen, nghĩa bóng) và yêu cầu người được
hỏi trả lời những vấn đề đó theo suy nghĩ
của họ.

- Dạng kỹ thuật dựng hình: Theo kỹ thuật này, người được hỏi được cho
xem một số tình huống gợi mở nào đó, sau đó đề nghị họ viết lại câu chuyện
hay phát họa diễn tả vấn đề cần nghiên cứu.
- Dạng kỹ thuật hoàn tất: Đây là dạng được dùng nhiều nhất, ở đây,
người trả lờ
i sẽ “hoàn tất” những câu hỏi còn “dở dang” (chưa hoàn chỉnh) và
họ sẽ điền thêm vào bất kỳ nội dung gì mà họ chọn.
Ví dụ: Chúng tôi có nhu cầu sử dụng thông tin chuyên sâu này:……………
Câu hỏi thuộc dạng “kỹ thuật hiện hình” có những ưu thế: (1) có thể thu thập
được các thông tin mà có thể sẽ không thể thu thập được nếu phỏng vấn trực
tiếp bằng các phương pháp khác, (2) có thể tìm được những ý tưởng n
ội tại,
sâu xa của người trả lời. Tuy nhiên, cũng có những nhược điểm sau: (1) đòi
hỏi người phỏng vấn phải được huấn luyện kỹ lưỡng trước khi phỏng vấn, (2)
đòi hỏi phân tích viên phải được đào tạo cận thận để diễn dịch các kết quả.

Câu hỏi đóng:
Câu hỏi đóng là dạng câu hỏi mà cả câu hỏi lẫn câu trả
lời đều được cấu trúc.
Dựa trên cấu trúc câu trả lời người ta chia ra câu hỏi đóng sau:
(1) Câu hỏi phân đôi:
Là dạng câu hỏi mà người được hỏi chỉ có thể chọn một trong hai câu trả lời
như “có hoặc không”, “đồng ý hoặc không đồng ý”.
Ưu điểm:
Nghiên cứu lý thuyết và phương pháp luận xây dựng CSDL theo mô hình Data Ware House và Metadata

18
- Thiết kế nhanh chóng và dễ dàng, rất tiện lợi trong những câu hỏi có
nhiều chi tiết.
- Dễ dàng cho người trả lời.

- Người phỏng vấn ít có thành kiến khi gặp các câu hỏi đặc biệt.
- Thuận tiện trong xử lý, tính toán và phân tích.
Nhược điểm:
- Cung cấp không đủ thông tin chi tiết.
- Phải đặt câu hỏi và sử dụng từ ngữ chính xác.
- B
ắt buộc người trả lời lựa chọn cho dù họ có thể chưa chắc chắn lắm
khi chọn câu trả lời.
(2) Câu hỏi xếp hạng thứ tự:
Là loại câu hỏi mà câu trả lời được thiết kế bằng nhiều khoản mục để người
trả lời có thể so sánh, lựa chọn và xếp hạng chúng theo thứ tự.
Ví dụ: Hãy xếp thứ tự các ch
ỉ tiêu đánh giá ngành cơ khí từ quan trọng nhất
(1) đến ít quan trọng nhất (3)
Trình độ công nghệ
Năng suất lao động bình quân
Kim ngạch xuất khẩu
Câu hỏi này có các ưu, nhược điểm sau:
Ưu điểm:
- Cho thông tin nhanh chóng.
- Hỏi và lập thành bảng, cột tương đối dễ dàng; thuận tiện khi xử lý,
phân tích.
- Dễ giải thích cho người trả lời.
Nhược điểm:
- Không chỉ ra sự cách biệt giữa các lựa chọn.
- Câu trả lời bị giới hạn không quá 5 hoặc 6 đề mục (nhiều hơ
n sẽ khó
khăn cho người trả lời khi lựa chọn, so sánh)
- Người trả lời phải có kiến thức về tất cả các đề mục
- Khó bao quát đầy đủ các tình huống.

(3) Câu hỏi đánh dấu tình huống theo danh sách
Về cấu trúc, nó tương tự như câu hỏi xếp hạng thứ tự, tuy nhiên khác biệt là
người được hỏi sẽ đánh dấu một hay nhiều lo
ại trả lời được liệt kê.








(4) Câu hỏi bậc thang:
•Ví dụ: Đơn vị có thể cung cấp được những thông tin doanh nghiệp nào:
 Tên doanh nghiệp
 Sản phẩm doanh nghiệp
 Kim ngạch xuất khẩu hàng năm
 Kim ngạch nhập khẩu hàng năm

đ
ịnh vấn đề
Nghiên cứu lý thuyết và phương pháp luận xây dựng CSDL theo mô hình Data Ware House và Metadata

19
Thực chất loại câu hỏi này là áp dụng loại câu hỏi đánh giá theo khoản mục,
thể hiện mức độ ưa thích hoặc không ưa thích, đồng ý hoặc không đông ý của
người trả lời. Loại câu hỏi này cho phép biến đổi những thông tin định tính
thành thông tin định lượng.

Ví dụ: Mức độ cần thiết phải thực hiện chỉ tiêu “Phát triển bền vững” để đánh

giá ngành c
ơ khí. Xin mời đánh dấu ( ) vào ô trống :
Rất cần Tương đối cần thiết Không cần thiết
  


Bước 5: Xác định từ ngữ trong phiếu khảo sát
Phiếu khảo sát là phương tiện giao tiếp giữa người phỏng vấn và người trả lời.
Do vậy, để có thể thu được các dữ liệu và các số liệu có ý nghĩa, cần phải hiểu
được những hiệu ứng tiềm ẩn do việc sử dụng từ ngữ.
Sau đây là một số chỉ dẫn được rút ra từ kinh nghi
ệm của các chuyên gia giúp
xác định từ ngữ khi thiết kế phiếu khảo sát:
- Dùng từ ngữ quen thuộc, tránh dùng tiếng lóng và từ chuyên môn.
- Dùng từ ngữ đơn giản để mọi người có thể hiểu ở bất kỳ trình độ học
vấn nào.
- Tránh sử dụng các câu hỏi dài bởi vì sẽ làm nản lòng người trả lời, hoặc
không theo dõi được.
- Từ ngữ trong câu hỏi càng rõ ràng, chính xác càng t
ốt; những từ ngữ
khó diễn đạt, hoặc khó hiểu “thường xuyên”, “thông thường”…cần ghi chú
mức độ rõ ràng.

Bước 6: Xác định cấu trúc phiếu khảo sát
Ở bước này, người nghiên cứu sẽ phải sắp xếp các câu hỏi theo một trình tự
nhất định, thuận tiện cho người đi phỏng vấn. Một cách tổng quát, người ta có
thể chia các câu hỏi thành 5 loại và tạo thành 5 phần chính trong bảng câu hỏi
theo ch
ức năng của chúng đóng góp vào sự thành công của cuộc phỏng vấn.
(1) Phần mở đầu hoặc câu hỏi hướng dẫn

Có tác dụng mở đầu cuộc phỏng vấn thuận tiện, khởi đầu cho chuỗi
những câu trả lời và gây thiện cảm với người được phỏng vấn.
(2) Câu hỏi định tính:
Có tác dụng chỉ rõ đối tượng cần được phỏng vấn, tránh ph
ỏng vấn
những người không có kiến thức về vấn đề đang điều tra.
(3) Câu hỏi hâm nóng:
Có tác dụng gợi nhớ thông tin và tập trung vào chủ đề nghiên cứu, tránh các
cảm xúc đột ngột khi đi vào chủ đề quá nhanh, người trả lời có thể chưa tạo
được hứng thú và hồi tưởng thông tin kịp.
(3) Các câu hỏi đặc thù:
Nghiên cứu lý thuyết và phương pháp luận xây dựng CSDL theo mô hình Data Ware House và Metadata

20
Là những câu hỏi đi vào chủ đề nghiên cứu
(4) Các câu hỏi phụ:
Được sử dụng để thu nhận thêm các thông tin về đặc điểm nhân khẩu của
người trả lời (giới tính, tuổi tác, nghề nghiệp…)
Ngoài những phần chính trên, bảng câu hỏi cần có những chỉ dẫn rõ ràng,
phần này mô tả những thủ tục mà người phỏng vấn cần phải theo để thu thập
thông tin được dễ dàng nhanh chóng. Một bảng mẫu câu hỏi điển hình cần
phải có những khoản trống thích hợp để:
- Ghi tên, họ, địa chỉ, số điện thoại của người trả lời, ngày phỏng vấn.
- Thời gian bắt đầu và kết thúc phỏng vấn.
- Chữ ký của người phỏng vấn.
- Chữ ký của các cá nhân có liên quan.
- Ngày, giờ cu
ộc phỏng vấn có hiệu lực.

Bước 7: Xác định các đặc tính vật lý của bảng câu hỏi

- Xem xét hình dạng của bảng câu hỏi, chất lượng giấy, chất lượng in
ấn…để tạo thiện cảm và lôi cuốn người trả lời tham gia vào cuộc phỏng vấn,
và một số trường hợp, nếu chúng ta in bảng câu hỏi trên giấy màu thì cũng có
thể gia tăng tỷ lệ trả l
ời
- Trình bày bảng câu hỏi sao cho nó có vẻ ngắn gọn và rõ ràng.
- Nếu dùng câu hỏi mở thì nên chừa khoản trống đủ để người được hỏi
ghi câu trả lời và diễn đạt ý kiến của mình.
- Khi nhảy quãng câu hỏi trên bảng câu hỏi thì phải chú thích rõ ràng.
Ví dụ : Nếu bạn trả lời có  (xin chuyển đến trả lời câu 12)
Nếu bạn trả lời không 
(trả lời tiếp câu 6)

Bước 8 Kiểm tra sửa chữa
Dù cẩn thận mấy chăng nữa, các phiếu khảo sát sau khi thiết kế cũng khó
tránh khỏi lỗi và do đó, sẽ gây khó khăn khi thu thập dữ liệu. Vì vậy, trước
khi thực hiện phỏng vấn chính thức nên tiến hành kiểm tra trước. Việc kiểm
tra này có thể thực hiện bằng cách thử trên một mẫu nhỏ, sau đó xem xét:
-
Người phỏng vấn có hiểu và trả lời được bảng câu hỏi không?
- Người phỏng vấn có thực hiện tốt không?
- Thông tin có ghi nhận tốt không?
- Thời gian cần thiết để tiến hành phỏng vấn?
Sau khi kiểm tra sẽ thực hiện sữa chữa, điều chỉnh lần cuối trước khi thực
hiện phỏng vấn đại trà

8. Báo cáo khảo sát
Kế
t quả cuộc khảo sát được thể hiện, đánh giá qua báo cáo khảo sát. Nội
dung báo cáo cần xác định được những thông tin như sau:

+ Tổng số đối tượng được điều tra
+ Các nhóm đối tượng được điều tra
Nghiên cứu lý thuyết và phương pháp luận xây dựng CSDL theo mô hình Data Ware House và Metadata

21
+ Các nhóm thông tin dự định cung cấp
+ Các nhóm thông tin dữ liệu nguồn
+ Tần xuất cung cấp thông tin
+ Đánh giá chất lượng các nguồn thông tin
+ Đề xuất giải pháp xây dựng nguồn dữ liệu ổn định, phù hợp với mục tiêu
của dự án

I.2. Nghiên cứu cơ sở lý thuyết về Khảo sát nhu cầu thông tin của người
sử dụng

1. Thông tin và nhu cầu thông tin
1. Khái niệm thông tin

Mỗi khoa học đều quan niệm về thông tin theo cách lý giải phù hợp nhất cho
các sự kiện và hiện tượng xảy ra trong quá trình nghiên cứu của mình. Bởi
vậy, có rất nhiều định nghĩa khác nhau về thông tin. Thông thường trong cuộc
sống, thông tin được coi là tập hợp tin tức về các sự vật, hiện tượng hay quá
trình mà gây được sự quan tâm và được xử lý hoặc là tin tức được ai đó thông
báo hay thu nhận được qua nghiên cứu, phân tích, học tập,…Trong sách báo
khoa học, thông tin là “ý nghĩa mà con người gán cho dữ liệu trên cơ sở
những quy tắc đã biết để thể hiện các sự kiện, ý tưởng, thông báo trong các dữ
liệu đó”. Ý nghĩa thể chất của thông tin là kết quả tương tác của các vật thể
được truyền tải theo một kênh vật chất. Thông tin là cái có trước trong mối
quan hệ với hiểu biết, thông tin mang trong nó mọi cái cần thiết cho hiểu biết.
Trong khoa học v

ề truyền thông, thông tin (Information) được hiểu là một
khái niệm trừu tượng tồn tại dưới nhiều dạng khác nhau (tín hiệu điện, ánh
sáng ) đem lại một nhận thức chủ quan cho đối tượng nhận tin. Dữ liệu
(Data): Là tập hợp của thông tin được tổ chức và thể hiện theo một hình thức
nào đó tùy thuộc vào thỏa thuận giữa các bên tham gia vào việc tạo và sử
dụng dữ liệu. Truy
ền thông dữ liệu (thông tin): là việc trao đổi dữ liệu giữa
hai thiết bị thông qua một số môi trường truyền thông như sợi cáp, không khí
… Trong truyền thông, “thông tin“ và “dữ liệu“ là hai khái niệm đồng nghĩa;
Theo cách nhìn nhận phổ thông, thông tin là những tính chất xác định của vật
chất mà con người (hoặc hệ thống kỹ thuật) nhận được từ thế giới vật chất bên
ngoài hoặc từ những quá trình xảy ra trong bản thân nó.
Theo quan điểm triết học, thông tin là một quảng tính của thế giới vật chất
(tương tự như năng lượng, khối lượng). Thông tin không được tạo ra mà chỉ
được sử dụng bởi hệ thụ cảm. Thông tin tồn tại một cách khách quan, không
phụ thuộc vào hệ thụ cảm. Trong nghĩa khái quát nhất, thông tin là sự đa
dạng. Sự đa dạng ở đây có thể hiểu theo nhiề
u nghĩa khác nhau: tính ngẫu
nhiên và trình độ tổ chức …
Thuật ngữ “Thông tin” (gốc Latinh là Informatio - có nghĩa là diễn giải, thông
báo, lý giải) là thuật ngữ thông dụng nhất, được sử dụng rộng rãi trong mọi
Nghiên cứu lý thuyết và phương pháp luận xây dựng CSDL theo mô hình Data Ware House và Metadata

22
lĩnh vực của đời sống xã hội. Trong đời sống hàng ngày, thông tin được hiểu
là tin tức về các sự kiện diễn ra trong thế giới xung quanh. Trong các lĩnh vực
khoa học khác như triết học, toán học, vật lý học, điều khiển học, di truyền
học khái niệm thông tin được sử dụng nhưng có nội dung rất khác nhau,
không giống như cách hiểu trong đời sống hàng ngày.
Theo quan điểm đ

iều khiển học: Thông tin là tính trật tự của các đối tượng vật
chất có những mối liên hệ biện chứng. Theo quan điểm hệ thống : Thông tin
là sự hạn chế tính đa dạng của mỗi hệ thống sự vật đối với môi trường. Theo
quan điểm triết học: Thông tin là một phạm trù triết học phản ánh sự vận động
và tương tác của các hiện t
ượng, sự vật của thế giới tự nhiên, xã hội và tư duy.
Theo tiêu chuẩn Việt Nam 5453 - 1991: Thông tin là các dữ liệu, tin tức được
xem xét trong quá trình tồn tại và vận động trong không gian và thời gian.
Như vậy, khái niệm thông tin được hiểu là các tin tức, dữ liệu phản ánh các
hiện tượng, sự vật của thế giới tự nhiên, xã hội và tư duy được xem xét trong
quá trình tồn tại và vận động của chúng trong không gian và thời gian, là tập
h
ợp các dữ kiện, số liệu, vận động trong không gian, theo thời gian, có khả
năng truyền và nhận giữa các đối tượng.

2. Phân loại thông tin


Có rất nhiều cách phân loại thông tin
2.1. Theo giá trị và qui mô sử dụng
+ Thông tin chiến lược (dành cho các nhà quản lý)
+ Thông tin tác nghiệp (dành cho cán bộ chuyên sâu)
+ Thông tin thường thức (dành cho quảng đại quần chúng)
2.2. Theo nội dung thông tin
+ Thông tin pháp luật
+ Thông tin kinh tế
+ Thông tin khoa học kỹ thuật
+ Thông tin văn hóa xã hội
+ Thông tin thể thao
2.3. Theo đối tượng sử dụng

+ Thông tin đại chúng (Dành cho quảng đại quần chúng)
+ Thông tin khoa học (Dành cho các nhà khoa học)
+ Thông tin kinh doanh (Dành cho các nhà kinh doanh)
+ Thông tin chính trị (Dành cho các nhà chính trị)

3.
Các phương thức truyền thông tin
+ Tiếng nói
+ Chữ viết (sách, báo)
+ Công nghệ thông tin hiện đại
+ Truyền thanh
+ Truyền hình
Nghiên cứu lý thuyết và phương pháp luận xây dựng CSDL theo mô hình Data Ware House và Metadata

23
+ Mạng máy tính

4. Các đối tượng sử dụng thông tin


Các đối tượng sử dụng thông tin là yếu tố cơ bản của hệ thống thông tin. Nhu
cầu thông tin của họ giúp các đơn vị cung cấp thông tin định hướng chính xác
cho các hoạt động của mình.
Trên cơ sở hoạt động của các đối tượng sử dụng thông tin, người ta chia họ
thành các nhóm chính như sau:
+ Các nhà nghiên cứu khoa học
+ Các cán bộ chuyên môn và những người trực tiếp sản xuất
+ Các nhà quản lý, hoạch đị
nh chính sách
Ngoài ra, còn một nhóm đối tượng đặc biệt nữa là những người không sử

dụng thông tin. Tuy nhiên, những người không dùng tin lại chính là những
người dùng tin tiềm năng. Do những nguyên nhân khách quan hoặc chủ quan
mà hiện tại những người không dùng tin không cảm thấy sự cần thiết của
thông tin và không tin vào những lợi ích mà thông tin mang lại.
Như vậy, để xây dựng chính sách, hoạch định chiến lược cho các hoạt động
của mình, các đơn vị cung cấ
p thông tin cần trả lời ít nhất các câu hỏi sau:
+ Đối tượng sử dụng thông tin của mình là ai
+ Họ cần sử dụng loại thông tin nào
+ Sử dụng phương pháp cung cấp thông tin nào là phù hợp

5. Nhu cầu thông tin

Theo quan điểm của các nhà tâm lý học, nhu cầu là sự đòi hỏi tất yếu mà con
người thấy cần được thỏa mãn để tồn tại và phát triển. Theo quan điểm của
các nhà thông tin học hiện đại, nhu cầu tin là loại nhu cầu tinh thần đặc biệt,
đòi hỏi khách quan của con người (cá nhân, nhóm xã hội, cộng đồng xã hội
) đối với sự tiếp nhận và sử dụng thông tin nhằm duy trì hoạt
động sống của
con người.
Như vậy, nhu cầu tin là nhu cầu về sự hiểu biết thế giới khách quan (tự nhiên,
xã hội, con người) để con người có thể tồn tại và phát triển với tư cách là một
con người thực sự và để làm tròn chức năng, nhiệm vụ do xã hội phân công
và giao cho.
Nhu cầu thông tin thay đổi theo công việc và nhiệm vụ mà người dùng tin
phải thực hiện.
Các loại nhu cầu thông tin tổ
ng quát nhất đã được nhà thông tin học người
Mỹ xác định trong những năm 60 của thế kỷ XX bằng cách đặt câu hỏi cho
các nhà khoa học thuộc lĩnh vực hóa lý và sinh học. Ông xác định rằng họ sử

dụng thông tin trong những trường hợp sau:
+ Theo dõi, cập nhật các thanh tựu trong lĩnh vực chuyên môn hẹp và các lĩnh
vực liên quan
+ Trong công việc hàng ngày
Nghiên cứu lý thuyết và phương pháp luận xây dựng CSDL theo mô hình Data Ware House và Metadata

24
+ Khi bắt đầu nghiên cứu một vấn đề mới hoặc một đề án, họ cần thông tin
hồi cố bao gồm tài liệu công bố và không công bố về các vấn đề liên quan.
Để có thể xác định rõ nhu cầu thông tin của người sử dụng, đơn vị cung cấp
thông tin cần nắm được:
+ Lĩnh vực quan tâm
+ Nội dung thông tin quan tâm
+ Mục đích sử dụng thông tin
+ Đối tượng sử dụng thông tin
+ Loại tài liệu thích hợp nhất
+ Phương pháp tiếp cận thông tin phù hợp nhất
+ Mức độ xử lý thông tin phù hợp nhất
+ Thời hạn đáp ứng yêu cầu thông tin
+ Mức độ cấp bách của nhu cầu thông tin

2. Mục đích của khảo sát nhu cầu sử dụng thông tin
Việc xác định nhu cầu thông tin là hoạt động cần thiết nhằm hướng tới việc
đảm bảo cho các dịch vụ cung cấ
p thông tin thương mại của tổ chức cung cấp
thông tin đáp ứng ngày càng tốt hơn nhu cầu của người sử dụng cuối cùng.
Đối với các tổ chức cung cấp thông tin: Việc xác định nhu cầu thông tin, kết
hợp với đánh giá dịch vụ cung cấp thông tin hiện có, sẽ giúp các tổ chức
cung cấp thông tin điều chỉnh tốt hơn các kế hoạch, chương trình thông tin do
họ xây dựng nhằm

đem lại lợi ích thiết thực cho cả hai đối tượng. Các chương
trình này có thể được xây dựng cụ thể cho từng nhóm người sử dụng, từng địa
phương hay khu vực, hoặc trong một lĩnh vực thông tin cụ thể
Đối với các tổ chức cung cấp thông tin nói chung, việc đánh giá, xác định nhu
cầu thông tin nhằm phát hiện nhu cầu tiềm năng đối với các dịch vụ thông tin
hiện chưa thự
c hiện hoặc triển khai chưa sâu rộng. Qua đó, các nhà cung cấp
thông tin sẽ khám phá được các cơ hội thị trường mới cho hoạt động thu phí
dịch vụ thông tin.
Đối với người sử dụng cuối cùng: Hoạt động xác định nhu cầu thông tin do
các tổ chức cung cấp thông tin tiến hành sẽ tạo điều kiện cho những người sử
dụng có cơ hội thể hiện những yêu cầ
u, mong muốn về thông tin và góp ý về
các dịch vụ cung cấp thông tin. Việc đánh giá nhu cầu thông tin cũng có thể
coi là điểm khởi đầu cho những bước hợp tác tiếp theo của các tổ chức cung
cấp thông tin đối với người sử dụng cuối cùng, do vậy những yêu cầu về
thông tin của người sử dụng cuối cùng được chú trọng hơn.

3.Phương pháp khảo sát
Việc sử dụng mộ
t mẫu bảng câu hỏi thống nhất chung rất cần thiết để có thể
thu thập và xử lý dữ liệu một cách hệ thống về nhu cầu thông tin của các
doanh nghiệp. Điều đó cũng tạo thuận lợi cho việc phân loại thông tin và tạo
cơ sở cho việc trao đổi về thông tin đối với những cá nhân không quen với
những khái niệm thông tin này.

×