Tải bản đầy đủ (.doc) (19 trang)

Đánh giá những nguy cơ trong việc sử dụng các nguồn dữ liệu lớn để sản xuất số liệu thống kê chính thức Kết quả điều tra của các bên liên quan

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (173.04 KB, 19 trang )

Đánh giá những nguy cơ trong việc sử dụng các nguồn dữ
liệu lớn để sản xuất số liệu thống kê chính thức - Kết quả
điều tra của các bên liên quan
Tóm tắt nội dung
Ngày càng có nhiều cơ quan thống kê đang tìm hiểu việc sử dụng các
nguồn dữ liệu lớn để sản xuất số liệu thống kê chính thức. Trong thời điểm hiện
nay, chỉ có một vài ví dụ mà các nguồn dữ liệu này đã được tích hợp đầy đủ vào
thực tế sản xuất số liệu thống kê (Thống kê Hà Lan, năm 2015). Do đó, tồn bộ
các hệ lụy liên quan vấn đề này vẫn chưa được biết hết.
Một nỗ lực đầu tiên để xác định nguy cơ và những vấn đề xung quanh
nguy cơ liên quan đến việc sử dụng các nguồn dữ liệu lớn trong các giai đoạn
khảo sát và sản xuất số liệu thống kê chính thức đã được đưa ra trong bài báo
"Xác định cấu hình các nguy cơ và giải pháp trong việc sử dụng các nguồn dữ
liệu lớn để tạo ra số liệu thống kê chính thức - Phân tích dựa trên những nguy cơ
và khung chất lượng do Wirthmann và cộng sự đã đưa ra năm 2015. Kết luận
chính rút ra từ bài báo này là không thể chứng minh được khả năng xảy ra hay
ảnh hưởng một cách riêng lẻ đối với "nguy cơ dữ liệu lớn", cả hai đều phụ thuộc
rất nhiều vào nguồn dữ liệu lớn là gì cũng như loại sản phẩm thống kê. Để có
được cái nhìn sâu sắc hơn, các bên liên quan đã có một cuộc điều tra cụ thể về
nguồn gốc của các nguy cơ. Những người trả lời được hỏi về định lượng khả
năng xảy ra và ảnh hưởng của nguy cơ đối với một nguồn dữ liệu lớn do họ lựa
chọn (danh sách gồm tám nguồn dữ liệu lớn đã được đưa sẵn) để cung cấp cơ sở
cho các đánh giá của họ và đề xuất các biện pháp phòng ngừa và giảm thiểu các
nguy cơ đó. Để hồn thiện hơn, những người trả lời cũng được mời đưa ra các
nguy cơ bổ sung trong khi khảo sát và sử dụng các nguồn dữ liệu lớn cho số liệu
thống kê chính thức.

Impact

Báo cáo phân tích và những trình bày các kết quả của cuộc điều tra của
các bên liên quan, tương phản các kết quả nghiên cứu với phân tích của


Wirthmann và cộng sự năm 2015 (Karlberg, M; Kovachev B; Reis F;
Di Consiglio L).
1. Giới thiệu


1.1. Những phương pháp khảo sát và dữ liệu
Đây là một cuộc điều tra trực tuyến về nguy cơ dữ liệu lớn đã được đưa
ra
trên
cổng
thông
tin
điện
tử
CROS
( Để
bớt gánh nặng cho người trả lời, cuộc điều tra đã được xây dựng sao cho người
trả lời chỉ phải chỉ ra các phản hồi về khả năng xảy ra nguy cơ, ảnh hưởng của
nguy cơ, cách phòng ngừa và giảm thiểu ảnh hưởng của nguy cơ đối với một
nguồn dữ liệu lớn; có thể hoàn thành điều tra nhiều lần (một lần cho mỗi nguồn
dữ liệu lớn).
Các lời mời trả lời cuộc điều tra đã được gửi đến các bên liên quan khác
nhau, bao gồm những người tham gia các sự kiện ESS mới tổ chức gần đây liên
quan đến dữ liệu lớn. Cuộc điều tra được xem như một cuộc khảo sát/tự đại diện,
vì khơng có tổng thể mục tiêu cụ thể nào để có thể được ngoại suy kết quả. Trong
giai đoạn từ tháng 5 đến tháng 7 năm 2015, đã có tổng cộng 62 phiếu trả lời hợp
lệ. Vì hiếm có lựa chọn thực hiện nhiều lần, và vì cuộc điều tra khơng dựa trên
mẫu xác suất, nhóm tác giả tiến hành phân tích mức độ phản ứng thay vì mức độ
người trả lời.
Thơng tin định lượng (tính tốn khả năng xảy ra và ảnh hưởng của nguy

cơ) được trình bày trong Hình 1 cho tất cả các nguồn dữ liệu lớn. Trong phân tích
về thơng tin định lượng này, chỉ phân tích 8 nguồn dữ liệu lớn: Nguồn dữ liệu
điện thoại di động; Nguỗn dữ liệu từ phương tiện truyền thông xã hội; dữ liệu
web và dữ liệu máy quét giá.
Hình 1: Trung bình cộng ước lượng nguy cơ được cung cấp trong điều tra
cho các nguồn dữ liệu khác nhau

Khả năng xảy ra

Ảnh
hưởng


Nguy cơ 1 - Thiếu truy
cập dữ liệu (giai đoạn
xây dựng)

Nguy cơ 4 - Những thay
đổi bất lợi trong môi
trường pháp lý (giai đoạn
sản xuất)

Nguy cơ 2 - Mất truy
cập dữ liệu
(giai đoạn sản
xuất)

Nguy cơ 5 - Vi phạm
tính bảo mật dữ liệu
(giai đoạn sản xuất)


Nguy cơ 3 - Không tuân
thủ các quy định liên
quan pháp luật (giai
đoạn xây dựng)

Nguy cơ 6 - Vi phạm bảo
mật dữ liệu (giai đoạn
sản xuất)


Nguy cơ 7 - Thao tác
nguồn dữ liệu
(giai đoạn sản xuất)

Nguy cơ 10 - Thiếu
chuyên gia (giai đoạn
xây dựng)

Nguy cơ 8 - Ngược với
nhận thức chung của sử
dụng dữ liệu lớn theo
thống kê chính
thức(giai đoạn sản
xuất)

Nguy cơ 9- Mất uy tín khơng cịn dựa trên quan
sát nữa (giai đoạn sản
xuất)


Nguy cơ 11 - Mất
chuyên gia cho các tổ
chức khác (giai đoạn
sản xuất)

Ở đây, n là số câu trả lời.
(Điều này hơi vượt quá số
lượng người trả lời, vì cuộc
khảo sát cho phép người
trả lời hoàn thành bảng câu


hỏi cho nhiều nguồn dữ
liệu.)


2. Nguy cơ liên quan đến truy cập dữ liệu
2.1. Thiếu quyền truy cập vào dữ liệu
Nguy cơ này được tính cùng với việc xây dựng một sản phẩm thống kê chính
thức dựa trên dữ liệu lớn (BOSP) khơng nhận được quyền truy cập vào nguồn dữ
liệu lớn (BDS) cần thiết
Như có thể thấy trong Hình 1, những người trả lời khảo sát đánh giá khả năng
xảy ra nguy cơ này là có thể xảy ra (4) đối với dữ liệu điện thoại di động. Một người
trả lời cho biết “những hệ thống pháp luật khác nhau ở các quốc gia khác nhau, ở
một số nước, dữ liệu điện thoại di động có thể truy cập dễ dàng, trong khi những
nước khác gần như là không thể truy cập”. Khả năng này được đánh giá thấp hơn
một chút (trong khoảng 3.2-3.4, có nghĩa là khơng thường xun) cho nguồn dữ liệu
truyền thông xã hội, dữ liệu web- scrapable và dữ liệu quét giá. Điều này có thể
được lý giải là một số phương tiện truyền thông xã hội và dữ liệu web-scrapable có
thể lưu trữ cơng khai và đối với dữ liệu máy quét, người trả lời cho rằng Cơ quan

thống kê quốc gia(NSO) đã thiết lập quan hệ đối tác với nhà cung cấp dữ liệu này.
Dữ liệu hiện có trong NSO ”.
Ảnh hưởng của nguy cơ này được đánh giá là rất quan trọng (khoảng 3.7 đến
3.9) đối với dữ liệu điện thoại di động và máy quét giá, và phần nào thấp hơn một
chút (trong phạm vi 3, khoảng 3.3) cho dữ liệu truyền thông xã hội và dữ liệu trên
web – scraped (trong trường hợp thống kê giá, người ta có thể xây dựng BOSP chỉ
dựa trên dữ liệu máy quét, làm cho nhu cầu dữ liệu web– scraped ít cấp bách hơn).
Về vấn đề phịng ngừa, các đề xuất phổ biến nhất từ người trả lời liên quan đến
pháp luật (ví dụ: “EU hoặc luật quốc gia buộc các nhà cung cấp chia sẻ dữ liệu với
NSI. Việc truy cập hoặc thủ tục phải được thiết kế sao cho dữ liệu cá nhân chỉ được
sử dụng cho mục đích thống kê”), tiếp theo là giải pháp thắng - thắng (win-win)
("Làm cho họ được hưởng lợi, ví dụ như chia sẻ kết quả phân tích dữ liệu của họ")
("Thỏa thuận chi tiết quyền và nghĩa vụ của mỗi bên, bao gồm cả quyền truy cập liên
tục và bảo vệ quyền riêng tư của cá nhân"). Liên quan đến hoạt động giảm thiểu
nguy cơ, một người trả lời lưu ý rằng họ "thay đổi tùy thuộc vào loại thay đổi, họ có
thể điều chỉnh trong các tham số phần mềm để thay đổi hoàn toàn nguồn dữ liệu
lớn".
Nếu khơng có cách nào để sản xuất số liệu thống kê dựa trên dữ liệu lớn mà lại
khơng có dữ liệu lớn, và nếu không thể khắc phục được sự thiếu truy cập, nỗ lực


phải được chấm dứt, và số liệu thống kê dựa trên dữ liệu lớn mới sẽ không được biết
đến.

2.2. Mất quyền truy cập vào dữ liệu

This risk consists of a statistical office losing a BDS underlying a BOSP.
Nguy cơ này là mất một nguồn dữ liệu lớn khi sản xuất số liệu thống kê bằng
dữ liệu lớn.
Những người trả lời đánh giá khả năng xảy ra nguy cơ này là thỉnh thoảng

hơn so với nguy cơ thiếu truy cập dữ liệu (trong khoảng 2.7-3.1 đối với tất cả các
nguồn dữ liệu; xem Hình 1). Một ví dụ (nguồn dữ liệu điện thoại di động) về lý do
đánh giá khả năng thấp hơn này là “Khi truy cập vào dữ liệu MNO (Nhà khai thác
mạng di động) được bảo mật, xác suất nó sẽ bị mất thấp”. Tuy nhiên, những người
trả lời khác lưu ý khả năng “Thay đổi quyền sở hữu hoặc mơ hình kinh doanh” của
các MNO và cảnh báo rằng “quyền truy cập hợp pháp vào tài nguyên của cơng ty tư
nhân có thể bị thay đổi nếu khơng được luật điều chỉnh”.
Đáng ngạc nhiên, ước tính ảnh hưởng từ những người trả lời lại không
cao hơn nguy cơ thiếu truy cập dữ liệu; điều này ngược với sự đánh giá của
Wirthmann et al. (2015) rằng "ở hiện tại BOSP có thể khơng thể sản xuất, ảnh
hưởng rất cao thường sẽ là một trường hợp".

Đặc điểm của các hoạt động phịng ngừa là lập pháp/hợp đồng (ví dụ
“tham gia và thực hiện các mối quan hệ hợp đồng lâu dài hoặc điều chỉnh”),
quản lý tốt quan hệ đối tác (ví dụ: “chăm sóc tốt và tích cực các mối quan hệ
với nhà cung cấp dữ liệu”) và đa dạng hóa (“Đó là điều quan trọng nhất là phải
giữ một vài việc trong cùng một lúc. Nói cách khác, các Cơ quan Thống kê
không nên dựa vào một nguồn duy nhất mà ln có ít nhất hai lựa chọn thay
thế”. Các hoạt động giảm thiểu được đề xuất bao gồm sự nhanh nhẹn công
nghệ (“ theo dõi và di chuyển kịp thời vừa mới nhưng nền tảng hoặc ứng dụng
tương đương”) cũng như các nỗ lực đăng bài đa dạng hóa (“ Sử dụng các nguồn
thơng tin thay thế. Xác định các trang web thay thế -> cập nhật danh sách
thường xuyên ”) và quan hệ đối tác (“ thương lượng với chủ sở hữu dữ liệu ”).


3. Nguy cơ liên quan đến môi trường pháp lý
3.1. Khơng tn thủ pháp luật có liên quan
Nguy cơ liên quan đến giai đoạn xây dựng của một sản phẩm thống kê dựa
trên các nguồn dữ liệu lớn. Nó liên quan đến một dự án mà không đưa ra các quy
định pháp luật có liên quan để xem xét, do đó làm cho BOSP khơng tn thủ pháp

luật liên quan. Điều này có thể liên quan đến bất kỳ nội dung nào của pháp luật liên
quan đến việc sử dụng dữ liệu lớn cho các thống kê chính thức, ví dụ: luật bảo vệ dữ
liệu, các quy định liên quan đến xử lý dữ liệu từ các nguồn dữ liệu lớn cụ thể, v.v.
Các câu trả lời từ khảo sát chun gia cho tính tốn về khả năng xảy ra nguy
cơ này từ 2.4 (cách xa) đến 3.4 (thỉnh thoảng) và từ 2.8 (lớn) đến 3.6 (quan trọng)
cho ảnh hưởng có thể có của nguy cơ. Lý do để tính toán khả năng xảy ra, người
trả lời đưa ra rằng các Cơ quan Thống kê có đánh giá về tính pháp lý của các sản
phẩm thống kê mới nên ngăn chặn xảy ra nguy cơ này. Ngồi ra, nó được đề cập
rằng các Cơ quan Thống kê rất ý thức về nguy cơ này và do đó họ rất cẩn thận trong
việc xác minh pháp luật có liên quan. Tuy nhiên, nó cũng nói rằng pháp luật hiện tại
có thể không rõ ràng và phải diễn giải.
Một người trả lời khác dựa vào thực tế là các nhà cung cấp dữ liệu đã xác
minh cẩn thận sự tuân thủ pháp lý của các sản phẩm của họ trước khi cung cấp dữ
liệu cho các Cơ quan Thống kê. Ngoài ra, có hoa hồng để bảo mật và các cơ quan
khác sẽ là các tổ chức mạnh mẽ xem xét cẩn thận các sáng kiến có liên quan và thực
hiện các hành động phù hợp trong trường hợp không tuân thủ. Liên quan đến dữ
liệu từ truyền thông xã hội, một tình huống có thể xảy ra khi mục đích sử dụng dữ
liệu sẽ không tuân thủ các điều khoản và điều kiện cụ thể của nhà cung cấp dữ liệu.
Liên quan đến ảnh hưởng, một sự cố không tuân thủ sẽ có những hậu quả
tiêu cực đến danh tiếng của Cơ quan thống kê nói chung. Các kết quả thường xuyên
nhất được tuyên bố sẽ là biện pháp để ngăn chặn các dự án ngay sau khi vi phạm
được phát hiện.
Để giảm thiểu nguy cơ này, người trả lời nên xem xét cẩn thận pháp luật hiện
hành, liên quan đến các cơ quan bảo vệ dữ liệu và luật sư từ khi bắt đầu dự án,
chuẩn bị chiến lược truyền thông tốt để hạn chế sử dụng dữ liệu cho thông tin công
cộng. Một số người trả lời cũng đề cập thêm nhu cầu hài hòa ở cấp độ siêu quốc gia
và vai trị có thể có của các tổ chức quốc tế cho phép truy cập vào nguồn dữ liệu, ví
dụ: từ truyền thơng xã hội.



3.2. Những thay đổi không thuận lợi trong môi trường pháp lý
Nguy cơ này liên quan đến những thay đổi của mơi trường pháp lý khi quy
trình sản xuất đã được áp dụng. Luật mới có thể khơng thuận lợi và trong trường
hợp xấu nhất, có thể ngăn chặn việc truy cập hoặc sử dụng các nguồn dữ liệu cụ thể
để tiếp tục sản xuất các sản phẩm thống kê từ các nguồn dữ liệu lớn.
Những người trả lời xem xét khả năng xảy ra nguy cơ này sẽ xảy ra ở mức
trung bình từ 1.6 (cách xa) cho dữ liệu máy quét giá và 3.2 (thỉnh thoảng) cho dữ
liệu truyền thông xã hội. Ảnh hưởng của nguy cơ này được đánh giá giữa 2.8 (lớn)
cho việc tìm kiếm trên web và 3.6 (quan trọng) đối với dữ liệu truyền thông xã hội.
Những động cơ đánh giá khả năng xảy ra nguy cơ này thấp là trong quá trình
xây dựng một hành vi pháp lý mới, thẩm quyền hiện tại sẽ được sàng lọc và đánh
giá các hậu quả có thể xảy ra. Một người trả lời khác giả định rằng việc sản xuất
thống kê hiện tại từ các nguồn dữ liệu lớn sẽ được kích hoạt thơng qua một hành
động pháp lý sẽ đảm bảo tuân thủ pháp lý. Mặt khác, người trả lời cho rằng nơi rất
năng động địi hỏi phải thích ứng với các hành vi pháp lý. Việc thực hiện các cải
tiến có thể thay đổi thái độ của cơng dân, ví dụ: liên quan đến quyền riêng tư, điều
đó có thể kích hoạt các thay đổi pháp lý. Một số người được hỏi cho rằng luật mới
có thể được giới thiệu đặc biệt cho dữ liệu truyền thông xã hội để cân bằng lại việc
sử dụng dữ liệu với bảo vệ dữ liệu. Người trả lời xem xét một sự thay đổi của tình
hình pháp lý liên quan đến web-scraping như khơng.
Các hậu quả có thể xảy ra (ảnh hưởng) trong trường hợp thay đổi pháp lý
không thuận lợi sẽ là những thay đổi trong hệ thống sản xuất, tác động đến phương
pháp loại trừ nguồn dữ liệu tương ứng khỏi quá trình sản xuất. Ảnh hưởng chung
được tính tốn là thấp hơn so với tác giả dự kiến. Liên quan đến giảm thiểu nguy cơ
này, người trả lời đề nghị một cách tiếp cận chủ động theo dõi các sáng kiến pháp lý
và cố gắng ảnh hưởng đến các sáng kiến pháp lý nhấn mạnh lợi ích cơng cộng của
việc sử dụng cụ thể nguồn dữ liệu lớn hiện tại cho thống kê chính thức.

4. Nguy cơ liên quan đến bảo mật và an toàn dữ liệu


4.1. Vi phạm an toàn dự liệu


Đây là nguy cơ liên quan đến việc truy cập trái phép vào dữ liệu do các Cơ
quan thống kê nắm giữ. Các bên thứ ba có thể có được dữ liệu được theo văn bản
quy định nào đó, ví dụ:lịch phổ biến. Đây có thể là ví dụ về dữ liệu được các nhà
đầu tư thị trường chứng khoán kỳ vọng cao.
Đối với hầu hết các nguồn dữ liệu, người trả lời dường như không nghĩ rằng
nguy cơ này đặc biệt có khả năng xảy ra. Lý do cho việc này có vẻ là sự tin tưởng
vào các thủ tục và kinh nghiệm bảo mật được thiết lập trong việc xử lý dữ liệu bí
mật.
Có thể hiểu được ảnh hưởng được đánh giá cao hơn cho dữ liệu không được
thu thập từ các nguồn có sẵn cơng khai ngay cả khi vẫn còn một số cách dưới mức
đánh giá của Wirthmann et al. (2015). Liên quan đến ảnh hưởng, thiệt hại danh
tiếng và mất lòng tin dường như là mối quan tâm chính.
Về hoạt động giảm thiểu, người trả lời ủng hộ các biện pháp và thủ tục an
ninh CNTT phù hợp, nhận thức của nhân viên và đào tạo và đánh giá nguy cơ.
Ngồi ra cịn có một đề xuất để hạn chế phân tích dữ liệu tổng hợp và ẩn danh.
Khi các biện pháp giảm thiểu được đề xuất, chúng tôi chủ yếu thấy các đề
xuất để xử lý thơng tin một cách chính xác và cải thiện các biện pháp kỹ thuật bảo
hộ phần lớn trùng với các biện pháp được các tác giả đưa ra.

4.2. Vi phạm bảo mật dự liệu
Đây là nguy cơ mà thơng tin bí mật của một hoặc nhiều cá nhân từ tổng thể
thống kê được tiết lộ, hoặc do cuộc tấn công vào cơ sở hạ tầng CNTT hoặc do áp
lực từ các cơ quan chính phủ khác hoặc do các biện pháp kiểm sốt bảo mật thống
kê khơng đầy đủ.
Nói chung với các biện pháp phịng ngừa hợp lý, khả năng xảy ra có thể
được giữ ở mức hợp lý, và đánh giá khả năng xảy ra nguy cơ này là trung bình từ 2
đến 2.6 (từ cách xa đến thỉnh thoảng), với sự khác biệt giữa các nguồn dữ liệu. Ví

dụ: nguy cơ thấp là trung bình đối với dữ liệu web-scraped và ảnh hưởng mức thấp,
vì dữ liệu có thể thu được theo các cách khác khá dễ dàng. Nguy cơ cao nhất được
tính tốn cho nguồn dữ liệu phương tiện truyền thông xã hội, liên quan đến bản
chất của nguồn dữ liệu này.
Các Cơ quan Thống kê đã có biện pháp ngăn chặn đối với nguồn dữ liệu của


họ từ các cuộc tấn cơng bên ngồi để giữ bí mật dữ liệu trong mơi trường an tồn
và trong hầu hết các trường hợp để bảo vệ sự độc lập của họ khỏi các cơ quan
chính phủ khác
Ảnh hưởng của vi phạm bảo mật đã được nhìn thấy cao hơn cho nguồn dữ
liệu di động và phương tiện truyền thông xã hội, về độ tin cậy của Cơ quan Thống
kê và về tác động đến thỏa thuận với các nhà khai thác tư nhân.
Mặt khác, cải thiện các hệ thống CNTT, tăng cường các phương pháp đảm
bảo giảm nguy cơ tiết lộ, kiểm tra nguy cơ tiết lộ các nguồn dữ liệu khác nhau và
cuối cùng đảm bảo tính độc lập của các Cơ quan Thống kê nằm trong danh sách
các biện pháp giảm thiểu nguy cơ này.
4.3. Thao tác nguồn dữ liệu
Đây là nguy cơ đối với dữ liệu được cung cấp từ bên thứ ba, ví dụ như dữ liệu
mạng xã hội hoặc dữ liệu tự nguyện đóng góp đang được xử lý. Điều này có thể
được thực hiện bởi chính nhà cung cấp dữ liệu hoặc bởi bên thứ ba. Ví dụ, nhiều
thơng điệp truyền thơng xã hội giả mạo có thể được tạo ra để đẩy một chỉ số thống
kê bắt nguồn từ những dữ liệu này theo một cách khác.
Đối với hầu hết các nguồn dữ liệu, đánh giá khả năng xảy ra trung bình của
người trả lời thay đổi giữa mức cách xa và thỉnh thoảng. Đối với nguồn phương tiện
truyền thông xã hội cao hơn một chút. Nói chung, khơng chắc rằng các cá nhân sẽ
có thể thao tác trên bất kỳ nguồn dữ liệu nào. Ngoại trừ điều này, nó đã được chỉ ra
rằng các trào lưu xã hội cố gắng thao túng, mặc dù kỳ vọng là những trường hợp
như vậy sẽ trở nên nổi tiếng giúp Cơ quan Thống kê đối phó với tình hình. Nguy cơ
cho bất kỳ ai tham gia vào một thao tác như vậy được xem là lý do chính cho điểm

số trung bình cùng với kỳ vọng rằng chỉ có các số liệu thống kê thị trường nhạy cảm
mới có nguy cơ này.
Tính tốn ảnh hưởng trung bình cao hơn rõ rệt so với khả năng xảy ra ở dữ
liệu điện thoại di động và đặc biệt là dữ liệu máy quét giá. Lý do chính cho điều này
là sự tin tưởng của cơng chúng. Thực tế là một thao tác như vậy sẽ khó phát hiện và
có khả năng tiếp tục trong thời gian dài hơn cũng được chỉ ra. Trong Wirthmann et
al. (2015) các tính tốn về ảnh hưởng của nguy cơ này là hơi thấp hơn - nguy cơ
danh tiếng được thừa nhận tuy nhiên sự tin tưởng hơn được đặt trong các tác động
của truyền thông đầy đủ.
So sánh, nếu có thể, dữ liệu từ các nhà cung cấp khác nhau đã được chỉ ra


như một cách để bảo vệ Cơ quan Thống kê chống lại nguy cơ này.
4.4 Nhận thức đi ngược lại việc sử dụng dữ liệu lớn cho thống kê chính thức
Nguy cơ này đề cập đến một tình huống có nhận thức tiêu cực về việc sử
dụng dữ liệu lớn cho thống kê chính thức, có thể dẫn đến hạn chế bổ sung hoặc
thậm chí cản trở việc sử dụng các nguồn dữ liệu lớn nhất định. Khả năng xảy ra
nguy cơ như vậy được đánh giá trung bình giữa 2 (cách xa) cho dữ liệu máy quét
giá và 3.7 (có thể xảy ra) cho dữ liệu truyền thơng xã hội. Đối với dữ liệu điện
thoại di động, khả năng xảy ra nguy cơ được coi là không thường xuyên (3.1). Ảnh
hưởng của nguy cơ dao động trung bình từ 2.6 (nhỏ - lớn) cho dữ liệu quét web scraped và máy quét giá tới 3.4 (lớn- quan trọng) đối với dữ liệu truyền thông xã
hội.
Động lực để gán khả năng xảy ra cao hơn của nguy cơ này là sự không tin
tưởng của công chúng trong các tổ chức chính phủ và rằng cơng chúng khơng phân
biệt giữa các tác nhân (doanh nghiệp hoặc cơ quan chính phủ) trong trường hợp bị
ảnh hưởng tiêu cực. Nguy cơ sẽ thấp hơn nếu công chúng được thông báo rộng rãi
về mục đích, sản phẩm thống kê cuối cùng và các biện pháp bảo vệ để ngăn chặn
việc lạm dụng dữ liệu.
Ảnh hưởng sẽ là một mất mát chung về uy tín của Cơ quan Thống kê có thể
ảnh hưởng xấu đến thái độ chung của những người cộng tác với các Cơ quan Thống

kê. Một ý kiến tiêu cực của công chúng có thể ức chế việc sử dụng các nguồn dữ
liệu lớn cụ thể cho các thống kê chính thức. Lý do ảnh hưởng thấp là thực tế rằng
các thỏa thuận về việc sử dụng các nguồn dữ liệu lớn được ký kết giữa các nhà cung
cấp dữ liệu và các Cơ quan Thống kê mà khơng có sự tham gia của cơng chúng.
Để phịng ngừa nguy cơ này, các cơ quan Thống kê cần chuẩn bị một chiến
lược truyền thông phù hợp trước khi đi vào sản xuất. Truyền thơng nên nhấn mạnh
lợi ích của việc sử dụng dữ liệu lớn cho cơng dân, ví dụ: giảm gánh nặng cho người
trả lời và cải thiện dữ liệu thống kê trong khi đảm bảo an toàn và bảo mật dữ liệu.
Chiến dịch truyền thông nên liên quan đến các bên liên quan có liên quan với mục
đích nâng cao nhận thức và thơng báo cho cơng chúng về mục đích sử dụng dữ liệu
lớn cho thống kê. Trong bối cảnh này, người trả lời xem xét tính minh bạch là yếu tố
quan trọng của chiến lược truyền thông.
4.5. Mất uy tín - khơng cịn dựa trên quan sát nữa
Người dùng số liệu thống kê chính thức tin cậy cao về tính chính xác và hợp


lệ của dữ liệu thống kê. Điều này được dựa trên thực tế là sản xuất dữ liệu thống kê
được đặt trong một khung phương pháp luận có cơ sở và cơng khai có sẵn cũng như
tài liệu về chất lượng của một sản phẩm thống kê. Ngoài ra, hầu hết các dữ liệu
thống kê đều dựa trên quan sát, tức là có nguồn gốc từ các cuộc điều tra hoặc cuộc
tổng điều tra, tạo nên mối quan hệ dễ hiểu giữa dữ liệu thống kê và quan sát.
Trung bình, khả năng xảy ra nguy cơ này được đánh giá là cách xa (khoảng 2)
đối với các nguồn như dữ liệu điện thoại di động và dữ liệu máy quét giá, và thỉnh
thoảng (gần 3) đối với các nguồn như web- scraping và phương tiện truyền thông xã
hội.
Ảnh hưởng của sự xuất hiện của nguy cơ là tương quan với khả năng xảy ra
nguy cơ một cách tương ứng. Các hoạt động phòng ngừa được đề xuất là bổ sung
cho các nguồn dữ liệu lớn các cuộc điều tra và so sánh kết quả với các kết quả từ
các nguồn truyền thống. Nhưng một số nguồn cũng được coi là cơng cụ đo lường
chính xác hơn so với khảo sát (ví dụ: đồng hồ thơng minh). Trước khi tham gia vào

sản xuất thống kê, BOSP có thể được cơng bố là thử nghiệm và các bên liên quan có
thể được khuyến khích tham gia BOSP để xác nhận hoặc tăng cường BOSP
Ngoài ra, các Cơ quan Thống kê nên đầu tư vào truyền thông, xây dựng
chiến lược và công bố phương pháp luận khoa học được công nhận bởi cộng đồng
khoa học.
Làm giàu dữ liệu với siêu dữ liệu về chất lượng, đảm bảo tính nhất quán của
BOSP với BOSP khơng có thể bảo tồn niềm tin của cơng chúng.

5. Những nguy cơ liên quan đến các kĩ năng
5.1. Thiếu những chuyên gia
Nguy cơ thiếu chuyên gia bao gồm khi nhận dữ liệu từ một trong những
nguồn dữ liệu lớn mới này, Cơ quan Thống kê khơng có khả năng xử lý và phân tích
nó đúng cách, do nhân viên của họ khơng có kỹ năng cần thiết. Việc sử dụng dữ liệu
lớn đòi hỏi các kỹ năng dựa trên mơ hình suy luận và học máy, kỹ năng xử lý ngơn
ngữ tự nhiên, xử lý tín hiệu âm thanh và xử lý hình ảnh và hiểu biết tốt về các
phương pháp tính tốn phân bổ.
Khả năng xảy ra nguy cơ do người trả lời khảo sát, thỉnh thoảng (2.6) đến
mức có thể xảy ra (3.7) thấp hơn so với những gì các tác giả đưa ra trước đây ở mức


có thể xảy ra (4) đến thường xuyên (5). Khả năng thấp nhất được gán cho dữ liệu máy
quét giá. Tuy nhiên, rõ ràng từ các câu trả lời định tính cho thấy một số người trả lời
đã được thừa nhận có ảnh hưởng của các biện pháp phịng ngừa như đào tạo và hợp
tác. Các yếu tố mới chỉ ra là những hạn chế do thiếu hụt nguồn lực và Cơ quan Thống
kê khơng có khả năng huy động nguồn nhân lực nội bộ hiện có. Những người được
khảo sát xem xét ảnh hưởng của nguy cơ này, từ lớn (2.9) đến mức quan trọng (3.5),
thấp hơn một chút so với đánh giá ban đầu của tác giả, đánh giá rất quan trọng (4) và
được coi là ảnh hưởng của nguy cơ thấp hơn đối với dữ liệu máy quét giá cho các
nguồn khác.
Bên cạnh ý kiến của tác giả đưa ra, biện pháp phòng ngừa ban đầu là đào tạo

và tuyển dụng nhân viên, người trả lời khảo sát bổ sung thêm một số biện pháp khác.
Hợp tác với các học viện và các Cơ quan Thống kê khác, được đề xuất bởi các tác giả
như một biện pháp giảm thiểu, cũng được chỉ ra như một biện pháp phịng ngừa, nơi
mà kiến thức có thể được chuyển giao cho các nhân viên hiện có trước khi thiếu kỹ
năng trở thành một vấn đề. Các biện pháp tài chính, ví dụ như hướng đến mức lương
hấp dẫn hơn, cũng được đề xuất và liên quan đến điều này, nâng cao nhận thức của
các nhà hoạch định chính sách về tầm quan trọng của việc sử dụng các nguồn dữ liệu
mới này. Về các biện pháp giảm thiểu, những người được khảo sát đã đồng thuận
những đề xuất của tác giả, hợp đồng phụ và hợp tác, và bổ sung sự tổng hợp thơng
minh các nguồn lực hiện có, bằng cách tích hợp một số nhân viên với các kỹ năng
cần thiết trong các nhóm làm việc, nguồn trong một số lĩnh vực thống kê.
5.2. Mất chuyên gia cho các tổ chức khác
Những người trả lời khảo sát đồng ý với đánh giá ban đầu của tác giả về khả
năng xảy ra nguy cơ này là thỉnh thoảng (3.1-3.3), mặc dù được coi là thấp hơn một
chút so với những kỹ năng liên quan đến dữ liệu máy quét giá (2.5). Một yếu tố bổ
sung được xác định bởi những người trả lời làm tăng khả năng xảy ra này là loại sản
phẩm dữ liệu được xây dựng bởi các tổ chức khác với Cơ quan thống kê, điều này
hấp dẫn hơn. Tuy nhiên, những người được hỏi đã xác định nguồn cung cấp ngày
càng tăng của các nhà khoa học dữ liệu và sự hấp dẫn của dữ liệu lớn cho các nhân
viên hiện có như các yếu tố giảm thiểu. Mặc dù các tác giả xem xét ảnh hưởng của
nguy cơ này giống như đối với việc thiếu kỹ năng, những người được hỏi cho rằng
nó thấp hơn. Ngay cả khi các yếu tố ảnh hưởng mới được chỉ ra, cụ thể là phải liên
tục huấn luyện nhân viên mới và sự gián đoạn mà thu nhập của nhân viên gây ra,
hai lý do cho ảnh hưởng mất kỹ năng thấp hơn là khơng bắt đầu, đó là do dữ liệu


lớn chuyển sang sản xuất, Cơ quan thống kê đã phát triển nhiều khả năng hơn và
các hệ thống sản xuất được thiết lập địi hỏi ít chun mơn hơn để duy trì hơn là xây
dựng.
Bên cạnh các biện pháp phòng ngừa được các tác giả xác định trước đây, cụ

thể là cung cấp cơ hội học tập, mở rộng cho các dự án và ý tưởng mới và thừa nhận
nhân viên có khả năng và sẵn sàng làm việc trên dữ liệu lớn, người trả lời bổ sung
thêm tiền lương tốt hơn và vận động để nhấn mạnh giá trị (xã hội tốt) làm việc trong
số liệu thống kê chính thức. Ngồi các hợp đồng phụ và hợp tác, chỉ ra trước đây là
biện pháp giảm thiểu, người trả lời xác định được cải tiến và thủ tục tuyển dụng
nhanh hơn và đào tạo liên tục về dữ liệu lớn.
6. Các nguy cơ khác do người trả lời đề xuất
Tổng cộng có thêm 13 nguy cơ được đề xuất bởi những người được hỏi, các
đề xuất này có thể được nhóm lại thành bốn nhóm. Đầu tiên, có những nguy cơ liên
quan đến sự biến động của nguồn dữ liệu. Trong khi đó, khn khổ của Wirthmann
et al. (2015) đã bao gồm nguy cơ “Thao tác nguồn dữ liệu”, những thay đổi về
nguồn dữ liệu thường diễn ra vì lý do hoạt động mà khơng có các thống kê. Để
trích dẫn một người trả lời, “Vào tháng 9 năm 2014, chúng tôi đã quan sát thấy
25% (thay đổi) về số lượng tweet được định vị địa lý. Đây là một lập luận hấp dẫn
cho việc thêm một "biến động không chủ ý" vào các nguy cơ hoặc mở rộng "Thao
tác nguồn dữ liệu" bằng cách xóa giới hạn mục đích độc hại.
Thứ hai, cũng có một vài gợi ý về cơ sở hạ tầng CNTT (“Thiếu thiết bị CNTT
phù hợp để xử lý dữ liệu đầy đủ”). Cũng như đối với các kỹ năng khác, khung có lẽ
nên được mở rộng để bao gồm một nguy cơ “thiếu nguồn lực CNTT”. Xem xét
những nguy cơ đó là những sự kiện không lường trước được, cần thảo luận thêm
nếu thiếu cơ sở hạ tầng CNTT đầy đủ cấu thành một nguy cơ hoặc một vấn đề.
Một người trả lời đề xuất một nguy cơ liên quan đến cạnh tranh (“Cạnh tranh,
bên cạnh Cơ quan Thống kê có các nhà thu thập dữ liệu khác (các ngân hàng, khác)
đang xử lý dữ liệu lớn trên cùng một mặt hàng (ví dụ, giá cả)”. Thống kê thực sự là
mối đe dọa đối với thống kê chính thức nói chung, trong trường hợp các thống kê
này được trình bày một cách hấp dẫn, nhưng chất lượng kém - nhưng khơng nhất
thiết phải có nguy cơ trong bối cảnh sản xuất thống kê chính thức dựa trên dữ liệu
lớn.
Cuối cùng, có những đề xuất liên quan đến sự non nớt của phương pháp luận



(“cách đo độ chính xác của dữ liệu”, “tính nhất quán và độ tin cậy”, “lỗi liên kết
EAN / PLU với COICOP”, “thay đổi chất lượng sản phẩm”). Điều này cũng có thể
được coi là hiện tại, đã được thực hiện, thách thức để được giải quyết; nó khơng
phải là ngay lập tức hiển nhiên những gì nguy cơ (nếu có) này cho phép tăng lên.
7. Phần cuối
Trong khi các câu trả lời khảo sát cho thấy rằng việc lựa chọn các nguy cơ
trong Wirthmann et al. (2015) là có liên quan, người trả lời cũng đề xuất thêm nguy
cơ, cần được xem xét cho dữ liệu lớn dựa trên số liệu thống kê chính thức, sản phẩm
trong tương lai. Con số cao nhất về khả năng xảy ra và ảnh hưởng được gán cho
nguy cơ "truy cập dữ liệu" và "thiếu kỹ năng". Theo quan điểm của chúng tôi, cộng
đồng thống kê cần chú trọng vào các biện pháp phòng ngừa và giảm nhẹ cho những
nguy cơ này.
Các nguồn dữ liệu mà hầu hết người trả lời chọn tự thể hiện là dữ liệu điện
thoại di động, phương tiện truyền thơng xã hội, dữ liệu tìm kiếm trên web và dữ
liệu máy quét giá. Theo nhận xét nhận được, đây dường như là nguồn dữ liệu
thường xuyên nhất đang được nghiên cứu trong các dự án dữ liệu lớn hiện tại; điều
này phù hợp với những phát hiện của Consiglio et al. (2016).
Nhìn chung, khả năng xảy ra và ảnh hưởng của nguy cơ được đánh giá thấp
hơn bởi những người được hỏi khảo sát so với Wirthmann và cộng sự đã đưa ra
(2015).
Việc đánh giá khả năng xảy ra và ảnh hưởng của nguy cơ phụ thuộc vào
nguồn dữ liệu. Cả hai tính tốn dường như thấp hơn cho các nguồn dữ liệu đã được
sử dụng bởi các Cơ quan thống kê như dữ liệu máy quét so với các nguồn có ít kinh
nghiệm hơn.
Ý kiến của người trả lời cho rằng các Cơ quan Thống kê Quốc gia đã bắt đầu
xác định và thực hiện các biện pháp giảm thiểu và phòng ngừa để quản lý nguy cơ
liên quan đến các nguồn dữ liệu này tốt hơn.



8. References

Daas, P., M. Puts, B. Buelens and P. van den Hurk. 2015. “Big Data as a Source for
Official Statistics”. Journal of Official Statistics Volume 31, Issue 2, Pages 249-262,
ISSN (Online) 2001-7367, DOI: 10.1515/jos-2015-0016
Di Consiglio, L, M. Karlberg, M. Skaliotis and I. Xirouchakis (2016; forthcoming),
paper for
the invited overview lecture "Overview of big data research in European statistical
agencies" to be delivered at ICES V
Eurostat (2014), "Accreditation procedure for statistical data from non-official
sources" in
Analysis of Methodologies for using the Internet for the collection of information so
ciety and other statistics, />Reimsbach-Kounatze, C. (2015), “The Proliferation of “Big Data” and Implications
for
Official Statistics and Statistical Agencies: A Preliminary Analysis”, OECD Digital
Economy Papers, No. 245, OECD Publishing. />vg8-en

Reis, F., Ferreira, P., Perduca, V. (2014) "The use of web activity evidence to increas
e the
timeliness of official statistics indicators", paper presented at IAOS 2014 conferenc,
/>
Statistics Netherlands (2015), "A first for Statistics Netherlands: launching statistics
based on Big Data", />

8A0A753C017165F2/0/afirstforlaunchingstatisticsbasedonbigdata.pdf

UNECE (2014), "How big is Big Data? Exploring the role of Big Data in Official
Statistics",
/>l%20Sprint%
20Big%20Data%20paper.docx?

version=1&modificationDate=1395217470975&api=v2


Wirthmann A, Karlberg, M., Kovachev B., Reis F., (2015), "Structuring risks and
solutions
in the use of big data sources for producing official statistics – Analysis based on
a risk and quality framework",
/>WP18Wirthmann_AD.pdf .



×