Tải bản đầy đủ (.pdf) (8 trang)

33 CÂU HỎI THƯỜNG GẶP KHI PHỎNG VẤN DATA ANALYST

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (302.65 KB, 8 trang )

NHỮNG CÂU HỎI THƯỜNG GẶP KHI PHỎNG VẤN DATA ANALYST

Trong bài viết, Morning Japan đã chia sẻ về yêu cầu ngành Data analytics cũng như cơ hội
việc làm và chế độ đãi ngộ. Vậy, khi phỏng vấn các nhà tuyển dụng thường sẽ hỏi những câu
hỏi chuyên môn như thế nào? Dưới đây Morning Japan xin chia sẻ 33 câu hỏi thường gặp
nhất khi phỏng vấn Data analyst của các nhà tuyển dụng trong ngành nói chung và nhà tuyển
dụng Nhật Bản nói riêng.
1. Trách nhiệm của Data Analyst là gì?
Trách nhiệm của một Data Analyst bao gồm
-

Hỗ trợ cung cấp tất cả dữ liệu phân tích và phối hợp làm việc với khách hàng và nhân
viên
Giải quyết các vấn đề liên quan tới kinh doanh cho khách hàng và thực hiện kiểm tra dữ
liệu
Phân tích kết quả và giải thích số liệu qua việc sử dụng các kỹ thuật thống kê và cung cấp
báo cáo liên tục
Ưu tiên các nhu cầu trong kinh doanh và làm việc cẩn thận với các nhu cầu quản lý và
thông tin
Xác định quy trình hoặc các lĩnh vực mới để có cơ hội cải thiện
Phân tích, xác định và giải thích các xu hướng hoặc các mẫu trong các bộ dữ liệu phức
tạp
Thu được thông tin từ nguồn thông tin sơ cấp hoặc thứ cấp và duy trì cơ sở dữ liệu/ hệ
thống dữ liệu
Lọc và “dọn” dữ diêu, đánh giá báo cáo
Xác định các chỉ số hoạt động để tìm và sửa các vấn đề về code
Bảo mật cơ sở dữ liệu bằng cách phát triển hệ thống truy cập thông qua xác dịnh mức
truy cập của người dùng

2. Yêu cầu để trở thành Data Analyst là gì?
Để trở thành một Data Analyst, bạn cần


-

Kiến thức chắc về các gói báo cáo ( lĩnh vực kinh doanh), ngôn ngữ lập trình (XML,
Javascrip, or ETL frameworks), cơ sở dữ liệu (SQL, SQLite, etc..)
Khả năng phân tích, tổ chức, thu thập và phổ biến các dữ liệu lớn với độ chính xác cao
Kiến thức về kĩ thuật như thiết kế cơ sở dữ liệu, mô hình dữ liệu, khai thác dữ liệu và các
kỹ năng phân đoạn.
Kiến thức về thông kế để phân tích các tập dữ liệu lớn (SAS, Excel, SPSS, etc…)


Các bước khác nhau trong một dự án phân tích là gì?

3.

Các bước trong một dự án phân tích bao gồm
- Định nghĩa vấn đề
- Thăm dò dữ liệu
- Chuẩn bị dữ liệu
- Mô phỏng
- Xác nhận dữ liệu
- Thực hiện và theo dõi
4. Làm sạch dữ liệu là gì?
Dọn dẹp dữ liệu cũng được gọi là làm sạch dữ liệu, đề cập đến việc xác định và loại bỏ các
lỗi và sự không nhất quán từ dữ liệu nhằm nâng cao chất lượng dữ liệu.
5. Liệt kê ra một số phương pháp hay nhất để làm sạch dữ liệu?
Một số phương pháp hay nhất để làm sạch dữ liệu bao gồm,
-

-


Sắp xếp dữ liệu theo các thuộc tính khác nhau
Đối với các tập dữ liệu lớn, hãy làm sạch từng bước và cải thiện dữ liệu với từng bước
cho đến khi bạn đạt được chất lượng dữ liệu tốt
Đối với các tập dữ liệu lớn, chia chúng thành dữ liệu nhỏ. Làm việc với ít dữ liệu sẽ
tăng tốc độ của bạn
Để xử lý công việc làm sạch thông thường, tạo một tập hợp các chức năng tiện ích /
công cụ / tập lệnh. Nó có thể bao gồm, sửa đổi các giá trị dựa trên tệp tin CSV hoặc
cơ sở dữ liệu SQL hoặc, tìm kiếm và thay thế regex, tẩy hết các giá trị không khớp
với regex
Nếu bạn có vấn đề về sự sạch sẽ dữ liệu, hãy sắp xếp chúng theo tần số ước tính và
bắt đầu với những vấn đề phổ biến nhất
Phân tích số liệu thống kê tóm tắt cho mỗi cột (độ lệch chuẩn, trung bình, số lượng
các giá trị bị thiếu
Theo dõi mọi hoạt động làm sạch mỗi ngày, từ đó bạn có thể sửa lại các thay đổi hoặc
loại bỏ hoạt động nếu cần

6. Giải thích hồi quy logistic.
Hồi quy logistic là một phương pháp thống kê để kiểm tra một tập dữ liệu trong đó có một
hoặc nhiều biến độc lập xác định kết quả.
7. Danh sách một số công cụ tốt nhất có thể hữu ích cho việc phân tích dữ liệu?
- Tableau


-

RapidMiner
OpenRefine
KNIME
Toán tử Tìm kiếm của Google
Solver

NodeXL
Io
Wolfram Alpha
Bảng Google Fusion

8. Sự khác nhau giữa khai thách dữ liệu và lập hồ sơ dữ liệu
Lập hồ sơ dữ liệu: tập trung vào việc phân tích các thuộc tính cá nhân. Nó cung cấp thông tin
về các thuộc tính khác nhau như phạm vi giá trị, giá trị rời rạc và tần số của chúng, sự xuất
hiện của giá trị null, loại dữ liệu, chiều dài, vv
Khai thác dữ liệu: Nó tập trung vào phân tích cụm, phát hiện các bản ghi bất thường, phụ
thuộc, chuỗi phát hiện, quan hệ duy trì giữa các thuộc tính, v.v.
9. Liệt kê ra một số vấn đề thường gặp của nhà phân tích dữ liệu?
Một số vấn đề thường gặp của nhà phân tích dữ liệu là
-

Lỗi chính tả phổ biến
Mục trùng lặp
Giá trị bị mất
Giá trị bất hợp pháp
Thay đổi giá trị đại diện
Xác định dữ liệu chồng chéo

10. Tên của khuôn khổ được phát triển bởi Apache để xử lý bộ dữ liệu lớn cho một ứng
dụng trong một môi trường điện toán phân tán?
Hadoop và MapReduce là khuôn khổ lập trình được phát triển bởi Apache để xử lý bộ dữ
liệu lớn cho một ứng dụng trong một môi trường điện toán phân tán.
11. Những mô hình bị thiếu thường thấy là gì?
Các mô hình bị thiếu thường được thấy là
-


Thiếu hoàn toàn ngẫu nhiên
Thiếu ngẫu nhiên
Thiếu phụ thuộc vào giá trị còn thiếu của chúng


-

Thiếu phụ thuộc vào biến đầu vào không quan sát được

12. Giải thích phương pháp tính KNN là gì?
Trong tính KNN, các giá trị thuộc tính bị thiếu được tính bằng cách sử dụng các giá trị thuộc
tính tương tự nhất với thuộc tính có các giá trị bị thiếu. Bằng cách sử dụng một hàm khoảng
cách, sự tương tự của hai thuộc tính được xác định.
13. Các phương pháp xác nhận dữ liệu được sử dụng bởi nhà phân tích dữ liệu là gì?
Thông thường, các phương pháp được sử dụng bởi nhà phân tích dữ liệu để xác nhận dữ liệu

Kiểm tra dữ liệu
- Xác minh dữ liệu
14. Những gì nên làm với dữ liệu nghi ngờ hoặc mất tích?
-

-

-

Chuẩn bị một báo cáo cung cấp thông tin của tất cả các dữ liệu nghi ngờ. Nó sẽ cung
cấp thông tin như các tiêu chuẩn xác nhận nó không thành công, ngày và thời gian
xảy ra
Nhân viên có kinh nghiệm nên kiểm tra dữ liệu đáng ngờ để xác định tính chấp nhận
của chúng

Dữ liệu không hợp lệ phải được chuyển nhượng và thay thế bằng các code hợp lệ
Để làm việc với dữ liệu bị thiếu, hãy sử dụng chiến lược phân tích tốt nhất như
phương pháp xóa, phương pháp tính đơn, phương pháp dựa trên mô hình, v.v ...

15. Làm thế nào để giải quyết các vấn đề đa nguồn?
Để giải quyết các vấn đề đa nguồn, ta cần
-

Tái cơ cấu các lược đồ để hoàn thành một lược đồ tích hợp
Xác định các bản ghi tương tự và hợp nhất chúng vào một bản ghi duy nhất chứa tất
cả các thuộc tính có liên quan mà không có sự thừa

16. Giải thích một Outlier là gì?
Outlier là một thuật ngữ được sử dụng phổ biến bởi các nhà phân tích đề cập đến một giá trị
xuất hiện xa và tách rời khỏi một mẫu tổng thể trong một mẫu. Có hai loại Outliers
-

Đơn giản
Đa biến


17. Giải thích thuật Clustering Phân cấp bậc là gì?
Thuật toán phân cụm theo bậc (Hierarchical clustering algorithm) kết hợp và phân chia các
nhóm hiện có, tạo ra một cấu trúc phân cấp thể hiện thứ tự mà các nhóm được chia hoặc hợp
nhất.
18. Giải thích Thuật toán K-mean là gì?
K-mean là một phương pháp phân chia nổi tiếng. Các đối tượng được phân loại thuộc một
trong các nhóm K, k đã được chọn trước.
Trong thuật toán K-mean,
-


Các cụm đang có hình cầu: các điểm dữ liệu trong một cụm được tập trung quanh
cụm đó
Sự khác biệt / sự lan rộng của các cụm giống nhau: Mỗi điểm dữ liệu thuộc về cụm
gần nhất

19. Các kỹ năng chính cần thiết cho Nhà phân tích dữ liệu là gì?
Nhà khoa học dữ liệu phải có các kỹ năng sau
Kiến thức cơ sở dữ liệu
- Quản lý cơ sở dữ liệu
- Trộn dữ liệu
- Truy vấn
- Thao tác dữ liệu
Tiên đoán phân tích
- Thống kê mô tả cơ bản
- Mô phỏng dự đoán
- Phân tích nâng cao
Kiến thức về dữ liệu
- Phân tích dữ liệu lớn
- Phân tích dữ liệu phi cấu trúc
- Học máy
Kỹ năng trình bày
- Hình dung dữ liệu
- Bài thuyết trình Insight
- Thiết kế báo cáo


20. Giải thích về lọc cộng tác là gì?
Lọc cộng tác là một thuật toán đơn giản để tạo ra một hệ thống khuyến nghị dựa trên dữ liệu
hành vi người dùng. Các thành phần quan trọng nhất của bộ lọc cộng tác là người dùngchuyên mục-sở thích .

Ví dụ về lọc cộng tác là khi bạn thấy một dòng như "được đề xuất cho bạn" trên các trang
web mua sắm trực tuyến xuất hiện dựa trên lịch sử duyệt web của bạn.
21. Giải thích những công cụ được sử dụng trong dữ liệu lớn là gì?
Công cụ được sử dụng trong dữ liệu lớn bao gồm
-

Hadoop
Hive
Pig
Flume
Mahout
Sqoop

22. Giải thích KPI, thiết kế thí nghiệm và quy tắc 80/20 là gì?
KPI : Là viết tắt của Chỉ số Hoạt động chính, đó là chỉ số bao gồm sự kết hợp của bảng tính,
báo cáo hoặc biểu đồ về quy trình kinh doanh
Thiết kế các thí nghiệm : Đây là quá trình ban đầu được sử dụng để chia dữ liệu của bạn,
lấy mẫu và thiết lập một dữ liệu để phân tích thống kê
Quy tắc 80/20 : Có nghĩa là 80% thu nhập của bạn đến từ 20% khách hàng của bạn
23. Giải thích về Map reduce là gì?
Map-reduce là một khuôn khổ để xử lý bộ dữ liệu lớn, tách chúng thành các tập con, xử lý
mỗi tập hợp con trên một máy chủ khác nhau và sau đó kết hợp các kết quả thu được
24. Giải thích Clustering là gì? Các thuộc tính cho các thuật toán phân cụm là gì?
Clustering là một phương pháp phân loại được áp dụng cho dữ liệu. Thuật toán phân cụm
chia một tập dữ liệu thành các nhóm tự nhiên hoặc các nhóm tự nhiên.
Thuộc tính cho thuật toán phân cụm là
-

Phân cấp hoặc bằng phẳng
Lặp lại

Cứng và mềm
Phân biệt


25. Một số phương pháp thống kê hữu ích cho các nhà phân tích dữ liệu là gì?
Các phương pháp thống kê hữu ích cho các nhà khoa học dữ liệu là
-

Phương pháp Bayesian
Chu trình Markov
Các quy trình không gian và cụm
Thống kê xếp hạng, phần trăm, phát hiện bên ngoài
Kỹ thuật phỏng vấn ...
Thuật toán đơn giản
Tối ưu hóa toán học

26. Phân tích chuỗi thời gian là gì?
Phân tích chuỗi thời gian có thể được thực hiện trong hai lĩnh vực, miền tần số và miền thời
gian. Trong phân tích chuỗi thời gian, đầu ra của một quá trình cụ thể có thể được dự báo
bằng cách phân tích các dữ liệu trước đó với sự trợ giúp của các phương pháp khác nhau như
làm mờ mũ, phương pháp hồi quy tuyến tính, vv
27. Giải thích về phân tích correlogram là gì?
Một phân tích correlogram là một dạng phổ biến của phân tích không gian địa lý. Nó bao
gồm một loạt các hệ số tự tương quan tính toán được tính cho một mối quan hệ không gian
khác nhau. Nó có thể được sử dụng để xây dựng một correlogram cho dữ liệu dựa trên
khoảng cách, khi dữ liệu thô được biểu diễn bằng khoảng cách chứ không phải là giá trị tại
các điểm riêng lẻ.
28. Bảng băm là gì?
Trong tính toán, một bảng băm là một bản đồ của các phím giá trị. Nó là một cấu trúc dữ liệu
được sử dụng để thực hiện một mảng kết hợp. Nó sử dụng một hàm băm để tính một chỉ mục

vào các khe, từ đó có thể lấy giá trị mong muốn.
29. Va chạm bảng băm là gì? Làm thế nào là nó tránh được?
Một vụ va chạm bảng băm sẽ xảy ra khi hai phím khác nhau băm với cùng một giá trị. Hai
dữ liệu không thể được lưu trữ trong cùng một khe trong mảng.
Để tránh va chạm bảng băm có rất nhiều kỹ thuật, ở đây chúng tôi liệt kê ra hai cách
-

Tách riêng : Nó sử dụng cấu trúc dữ liệu để lưu nhiều mục băm cho cùng một khe.
Mở địa chỉ : Nó tìm kiếm các khe khác sử dụng chức năng thứ hai và lưu trữ mục
trong khe rỗng đầu tiên được tìm thấy


30. Giải thích điều gì là sự thay thế? Liệt kê ra các loại kỹ thuật thay thế khác nhau?
Trong quá trình thay thế, chúng tôi thay thế dữ liệu bị thiếu bằng các giá trị được thay
thế. Các loại kỹ thuật gắn kết bao gồm


Thay thế đơn
- Thay thế Hot-deck: Một giá trị bị thiếu được tính từ một bản ghi ngẫu nhiên được lựa
chọn ngẫu nhiên bằng sự trợ giúp của thẻ punch
- Thay thế cold deck: Hoạt động giống như thay thế Hot deck, nhưng nó nâng cao hơn
và chọn các donors từ bộ dữ liệu khác
- Thay thế trung bình: Nó liên quan đến việc thay thế giá trị còn thiếu bằng giá trị trung
bình của biến đó cho tất cả các trường hợp khác
- Thay thế hồi quy: Nó bao gồm việc thay thế giá trị còn thiếu bằng các giá trị dự đoán
của một biến dựa trên các biến khác
- Stochastic hồi quy: Nó cũng giống như thay thế hồi quy, nhưng nó cho biết thêm sự
chênh lệch hồi quy trung bình với thay thế hồi quy

Thay thế lặp

Không giống như thay thế đơn, thay thế lặp ước tính các giá trị nhiều lần


31. Phương pháp thay thê nào thuận lợi hơn?
Mặc dù thay thế đơn được sử dụng rộng rãi, nó không phản ánh sự không chắc chắn được tạo
ra bởi dữ liệu bị mất một cách ngẫu nhiên. Vì vậy, thay thế lặp là thuận lợi hơn thay thế đơn
trong trường hợp dữ liệu bị mất tại ngẫu nhiên.
32. Giải thích N-gram là gì?
N-gram:
Một n-gram là một dãy liên tiếp của n mục từ một chuỗi văn bản hay một bài phát biểu nhất
định. Nó là một kiểu mô hình ngôn ngữ xác suất để dự đoán mục tiếp theo theo thứ tự như
dưới dạng (n-1).
33. Các tiêu chí cho một mô hình dữ liệu tốt là gì?
Các tiêu chí cho một mô hình dữ liệu tốt bao gồm
-

Có thể dễ dàng tiêu thụ
Thay đổi dữ liệu lớn trong một mô hình tốt nên được mở rộng
Cung cấp hiệu suất dự đoán được
Một mô hình tốt có thể thích ứng với những thay đổi trong yêu cầu.



×