Tải bản đầy đủ (.docx) (4 trang)

Khai phá dữ liệu Data mining

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (116.35 KB, 4 trang )

Khai phá dữ liệu
1. Khái niệm:
Khai phá dữ liệu (data mining) là q trình tính tốn để tìm ra các mẫu trong các bộ dữ
liệu lớn liên quan đến các phương pháp tại giao điểm của máy học, thống kê và các hệ
thống cơ sở dữ liệu. Đây là một lĩnh vực liên ngành của khoa học máy tính
2. Các phương pháp khai thác dữ liệu
- Phân loại (Classification): Là phương pháp dự báo, cho phép phân loại một đối tượng
vào một hoặc một số lớp cho trước.
- Hồi qui (Regression): Khám phá chức năng học dự đoán, ánh xạ một mục dữ liệu thành
biến dự đoán giá trị thực.
- Phân nhóm (Clustering): Một nhiệm vụ mơ tả phổ biến trong đó người ta tìm cách xác
định một tập hợp hữu hạn các cụm để mô tả dữ liệu.
- Tổng hợp (Summarization): Một nhiệm vụ mô tả bổ sung liên quan đến phương pháp
cho việc tìm kiếm một mơ tả nhỏ gọn cho một bộ (hoặc tập hợp con) của dữ liệu.
- Mơ hình ràng buộc (Dependency modeling): Tìm mơ hình cục bộ mơ tả các phụ thuộc
đáng kể giữa các biến hoặc giữa các giá trị của một tính năng trong tập dữ liệu hoặc trong
một phần của tập dữ liệu.
- Dị tìm biến đổi và độ lệch (Change and Deviation Detection): Khám phá những thay
đổi quan trọng nhất trong bộ dữ liệu.
3. Các lĩnh vực ứng dụng
- Thương mại điện tử
- Phát hiện lừa đảo
- Quảng cáo
- Marketing
- Quản lý quan hệ khách hàng
- Chăm sóc sức khỏe
VD 1: Những ứng dụng đáng chú ý của khai thác dữ liệu
Khai thác dữ liệu được xem là phương pháp mà đơn vị Able Danger của Quân đội Mỹ đã dùng
để xác định kẻ đứng đầu cuộc tấn công ngày 11 tháng 9, Mohamed Atta, và ba kẻ tấn công ngày
11 tháng 9 khác là các thành viên bị nghi ngờ thuộc lực lượng al Qaeda hoạt động ở Mỹ hơn một
năm trước cuộc tấn công.


VD 2: Khai phá dữ liệu trong lĩnh vực giáo dục có nhiều ứng dụng quan trọng nhằm cải
thiện chất lượng giảng dạy, tối ưu hóa học tập và nâng cao hiệu suất học tập. Dưới đây là
một số ví dụ cụ thể:
Phân tích học tập cá nhân: Trường học có thể sử dụng dữ liệu điểm số, chuyên cần, và dự án
học tập của học sinh để tạo hồ sơ học tập cá nhân. Điều này giúp giáo viên đưa ra đề xuất cụ thể
về cách học tốt hơn và giải quyết nhu cầu học tập đặc biệt của từng học sinh.
Dự đoán rủi ro bỏ học: Bằng cách sử dụng dữ liệu về chun cần, điểm số và thơng tin xã hội,
trường có thể dự đốn những học sinh có nguy cơ bỏ học. Điều này giúp trường áp dụng các biện
pháp can thiệp kịp thời để giúp học sinh ổn định tâm lý học tập.


Tạo chương trình đào tạo cá nhân hóa: Dữ liệu học tập có thể sử dụng để tạo ra các khóa học
đào tạo cá nhân hóa, cung cấp cho học sinh tài liệu và bài giảng phù hợp với nhu cầu học tập của
họ.
Đánh giá hiệu suất giảng dạy: Các trường học có thể sử dụng dữ liệu học tập để đánh giá hiệu
suất của giáo viên. Điều này giúp xác định những giáo viên có hiệu suất cao và những người cần
thêm hỗ trợ hoặc đào tạo.
Quản lý tài nguyên trường học: Dữ liệu về số lượng học sinh, lớp học và nguồn tài trợ có thể
giúp trường học quản lý tài nguyên hiệu quả hơn, đảm bảo rằng có đủ lớp học và giáo viên cho
tất cả học sinh.
Dự đoán xu hướng giảng dạy: Dữ liệu học tập có thể được sử dụng để dự đốn xu hướng giảng
dạy và cung cấp hướng dẫn cho việc phát triển chương trình học tập trong tương lai.
Những ứng dụng này giúp cải thiện hiệu suất học tập, tạo ra môi trường học tập tốt hơn và đảm
bảo rằng giáo dục đáp ứng tốt nhu cầu của từng học sinh.

Analytics and business inteligence
1. Nghiệp vụ thông minh (BI)
Khái niệm:
Nghiệp vụ thông minh (BI) bao gồm một loạt các ứng dụng, thực tiễn và cơng nghệ để trích xuất,
chuyển đổi, tích hợp, trực quan hóa, phân tích, giải thích và trình bày dữ liệu để hỗ trợ việc ra

quyết định được cải thiện.
Mục tiêu:
- Để có được giá trị cao nhất từ thơng tin và trình bày kết quả phân tích theo cách dễ hiểu
mà mọi người có thể hiểu được.
- Giúp tổ chức học hỏi từ những sai lầm trong quá khứ, xây dựng dựa trên những thành
công trong quá khứ. Kiến thức này sau đó có thể được đưa vào q trình lập kế... sau đó
có thể được đưa vào quá trình lập kế hoạch sáng kiến, bắt chước những gì hiệu quả và
thay đổi những gì khơng hiệu quả.
2. Analytics (Phân tích)
Khái niệm:
Analytics (Phân tích) được hiểu là việc sử dụng rộng rãi dữ liệu và phân tích định lượng để hỗ
trợ việc ra quyết định dựa trên thực tế trong các tổ chức.
Mục tiêu:
- Analytics sử dụng thuật toán để xác định mối quan hệ giữa các dữ liệu nhằm đưa ra dự
đốn về những gì sẽ xảy ra trong tương lai
- cho phép tổ chức dự đoán những phát triển mới và thực hiện những thay đổi ngay bây giờ
để cải thiện kết quả trong tương lai.
Ví dụ:
Phân tích tình hình kinh doanh trong một doanh nghiệp để hiểu rõ hơn về hiệu quả kinh doanh
hiện tại, tiết lộ các mơ hình và mối quan hệ kinh doanh mới, giải thích lý do tại sao một số kết
quả nhất định xảy ra, tối ưu hóa hoạt động hiện tại và dự báo kết quả kinh doanh trong tương lai.
3. Lợi ích đạt được từ BI và Analytics
- Phát hiện gian lận
VD: MetLife đã triển khai phần mềm phân tích để giúp đơn vị điều tra đặc biệt (SIU) xác định
gian lận của nhà cung cấp dịch vụ y tế, luật sư và cửa hàng sửa chữa. Mặc dù một khiếu nại về
tai nạn có thể khơng có đủ dữ liệu để bị gắn cờ là đáng ngờ khi nó được gửi lần đầu tiên, nhưng


khi có nhiều dữ liệu khiếu nại hơn được thêm vào, phần mềm sẽ liên tục ghi lại khiếu nại đó. Sau
sáu tháng đầu tiên sử dụng phần mềm, số lượng khiếu nại được SIU điều tra đã tăng 16%.

- Cải thiện khả năng dự báo
VD: Kroger phục vụ khách hàng tại 2.422 siêu thị và 1.950 hiệu thuốc tại cửa hàng. Cơng ty
nhận thấy rằng bằng cách dự đốn tốt hơn nhu cầu của khách hàng hiệu thuốc, công ty có thể
giảm số lượng đơn thuốc mà họ khơng thể đáp ứng vì thuốc hết hàng. Để làm như vậy, Kroger
đã phát triển một hệ thống quản lý hàng tồn kho tinh vi có thể cung cấp cho nhân viên hình ảnh
trực quan về mức tồn kho, thích ứng với phản hồi của người dùng và hỗ trợ phân tích "điều gì
xảy ra nếu". Các đơn thuốc hết hàng đã giảm 1,5 triệu đơn thuốc mỗi năm, dẫn đến doanh thu
tăng 80 triệu USD mỗi năm. Ngoài ra, bằng cách vận chuyển đúng loại thuốc với số lượng phù
hợp, Kroger đã có thể giảm tổng chi phí tồn kho 120 triệu USD mỗi năm.15
- Tăng doanh số bán hàng
VD: DaimlerChrysler và nhiều nhà sản xuất ô tô khác đặt ra giá bán lẻ và bán buôn đề xuất trong
năm, sau đó điều chỉnh giá thơng qua các ưu đãi theo mùa dựa trên tác động của cung và cầu.
DaimlerChrysler đã triển khai mơ hình co giãn theo giá để tối ưu hóa các quyết định về giá của
cơng ty. Hệ thống này cho phép các nhà quản lý đánh giá nhiều ưu đãi tiềm năng cho từng sự kết
hợp của mẫu xe (ví dụ: Jeep Grand Cherokee), phương thức mua lại (tiền mặt, tài chính hoặc cho
thuê) và chương trình khuyến khích (hồn tiền, APR khuyến mại và kết hợp hồn lại tiền và
APR khuyến mại). Cơng ty ước tính rằng việc sử dụng hệ thống đã tạo ra doanh thu bổ sung
hàng năm là 500 triệu USD.16
- Tối ưu hóa hoạt động
VD: Chevron là một trong những cơng ty năng lượng tích hợp hàng đầu thế giới. Các nhà máy
lọc dầu của nó hoạt động với dầu thơ được sử dụng để sản xuất nhiều loại sản phẩm dầu, bao
gồm xăng, nhiên liệu máy bay phản lực, nhiên liệu diesel, chất bôi trơn và các sản phẩm đặc biệt
như phụ gia. Với giá thị trường của dầu thô và các sản phẩm khác nhau của nó liên tục thay đổi,
việc xác định sản phẩm nào cần tinh chế tại một thời điểm nhất định là khá phức tạp. Chevron sử
dụng hệ thống phân tích có tên Petro để hỗ trợ các nhà phân tích trong việc tư vấn cho các nhà
máy lọc dầu và nhà kinh doanh dầu về cách kết hợp các sản phẩm để sản xuất, mua và bán nhằm
tối đa hóa lợi nhuận."
- Giảm chi phí.
VD: Coca-Cola Enterprises là nhà đóng chai và phân phối các sản phẩm Coca Cola lớn nhất thế
giới. Đội xe giao hàng gồm 54.000 xe tải của họ có quy mô đứng thứ hai chỉ sau Bưu điện Hoa

Kỳ. Bằng cách sử dụng phần mềm phân tích, cơng ty đã triển khai hệ thống tối ưu hóa lộ trình
phương tiện, giúp tiết kiệm 45 triệu USD mỗi năm nhờ giảm mức tiêu thụ xăng và giảm số lượng
tài xế cần thiết.
4. Vai trò của một nhà khoa học dữ liệu
- Là cá nhân có sự nhạy bén, khả năng phân tích và một trong những hạn chế trong việc
đưa ra quyết định
- Hiểu biết sâu sắc về phân tích và đánh giá đúng đắn về những hạn chế của dữ liệu, công
cụ và kỹ thuật để mang lại những cải tiến thực sự trong việc ra quyết định
- Thu thập và báo cáo dữ liệu, xem xét một tình huống từ nhiều góc độ
- Xác định dữ liệu và cơng cụ nào có thể giúp hiểu rõ hơn về tình huống đó, sau đó áp
dụng dữ liệu và cơng cụ thích hợp.
5. Các u cầu về trình độ để trở thành một nhà khoa học dữ liệu
- Đòi hỏi phải thơng thạo các số liệu thống kê, tốn và lập trình máy tính.


-

Yêu cầu bằng cấp cao, chẳng hạn như bằng thạc sĩ hoặc tiến sĩ, có bằng đại học chuyên
ngành phân tích.
Có kỹ năng lập trình máy tính và quen thuộc với các ngôn ngữ và công cụ được sử dụng
để xử lý dữ liệu lớn, chẳng hạn như Hadoop, Hive, SQL, Python, R và Java.

6. Các thành phần cần thiết cho BI và phân tích hiệu quả
 Đầu tiên và quan trọng nhất là một chương trình quản lý dữ liệu vững chắc, bao gồm cả
quản trị dữ liệu.
Quản lý dữ liệu là một tập hợp các chức năng tích hợp xác định các quy trình thu thập dữ liệu,
chứng nhận phù hợp để sử dụng, lưu trữ, bảo mật và xử lý theo cách đảm bảo rằng độ tin cậy về
khả năng truy cập và tính kịp thời của dữ liệu. đáp ứng nhu cầu của người sử dụng dữ liệu trong
một tổ chức.
Quản trị dữ liệu là thành phần cốt lõi của quản lý dữ liệu; nó xác định vai trị, trách nhiệm và quy

trình để đảm bảo rằng dữ liệu có thể được tồn bộ tổ chức tin cậy và sử dụng, với những người
được xác định và có trách nhiệm sửa chữa và ngăn chặn các vấn đề với dữ liệu.
 Các nhà khoa học dữ liệu sáng tạo
Những người hiểu rõ về hoạt động kinh doanh cũng như cơng nghệ phân tích kinh doanh, đồng
thời nhận ra những hạn chế của dữ liệu, công cụ và kỹ thuật của họ
 Cuối cùng là việc quản lý - nhóm cố vấn trong một tổ chức
Phải có cam kết mạnh mẽ về dữ liệu-việc ra quyết định có định hướng. Các tổ chức có thể đặt
các thành phần cần thiết tại chỗ có thể hành động nhanh chóng để đưa ra quyết định tốt hơn
trong điều kiện không chắc chắn và thay đổi môi trường để đạt được lợi thế cạnh tranh mạnh mẽ



×