CÔNG NGHỆ THÔNG TIN Đề tài: CÁC THUẬT TOÁN HỌC MÁY PHỔ BIẾN VÀ ỨNG DỤNG.TS.Đặng minh Tuấn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (199.01 KB, 8 trang )

HỒ SƠ CƠNG NGHỆ
Đề tài: Xây dựng bản đồ cơng nghệ và lộ trình đổi mới cơng nghệ trong việc phát triển và ứng dụng IoT tại Việt Nam
Mã số: ĐM.40.DA/19
Thời gian thực hiện: 01/2019 - 12/2020
Cơ quan thực hiện: Cơng ty Cổ phần Tập đồn Cơng nghệ CMC
Chủ nhiệm đề tài: TS. Đặng Minh Tuấn
Tên công nghệ
Lớp công nghệ

Các thuật toán học máy phổ biến và ứng dụng
3

1. Phạm vi ứng dụng:
Các dịch vụ tài chính
Ngân hàng và những doanh nghiệp hoạt động trong lĩnh vực tài chính sử dụng cơng nghệ Machine Learning với 2 mục đích chính:
xác định insights trong dữ liệu và ngăn chặn lừa đảo. Insights sẽ biết được các cơ hội đầu tư hoặc thông báo đến nhà đầu tư thời
điểm giao dịch hợp lý. Data mining cũng có thể tìm được những khách hàng đang có hồ sơ rủi ro cao hoặc sử dụng giám sát mạng
để chỉ rõ những tín hiệu lừa đảo.
Chính phủ
Các tổ chức chính phủ hoạt động về an ninh cộng đồng hoặc tiện ích xã hội sở hữu rất nhiều nguồn dữ liệu có thể khai thác insights.
Ví dụ, khi phân tích dữ liệu cảm biến, chính phủ sẽ tăng mức độ hiệu quả của dịch vụ và tiết kiệm chi phí. Machine learning cịn hỗ
trợ phát hiện gian lận và giảm thiểu khả năng trộm cắp danh tính.
Chăm sóc sức khỏe
Machine learning là 1 xu hướng phát triển nhanh chóng trong ngành chăm sóc sức khỏe, nhờ vào sự ra đời của các thiết bị và máy
cảm ứng đeo được sử dụng dữ liệu để đánh giá tình hình sức khỏe của bệnh nhân trong thời gian thực (real-time). Cơng nghệ
Machine Learning cịn giúp các chun gia y tế xác định những xu hướng hoặc tín hiệu để cải thiện khả năng điều trị, chẩn đoán

bệnh.
Marketing và sales
Dựa trên hành vi mua hàng trước đây, các trang web sử dụng Machine Learning phân tích lịch sử mua hàng, từ đó giới thiệu những

vật dụng mà bạn có thể sẽ quan tâm và u thích. Khả năng tiếp nhận dữ liệu, phân tích và sử dụng những dữ liệu đó để cá nhân hóa
trải nghiệm mua sắm (hoặc thực hiện chiến dịch Marketing) chính là tương tai của ngành bán lẻ.
Dầu khí
Tìm kiếm những nguồn ngun liệu mới. Phân tích các mỏ dầu dưới đất. Dự đốn tình trạng thất bại của bộ cảm biến lọc dầu. Sắp
xếp các kênh phân phối để đạt hiệu quả và tiết kiệm chi phí. Có thể nói, số lượng các trường hợp sử dụng Machine Learning trong
ngành công nghiệp này cực kì lớn và vẫn ngày càng mở rộng.
Vận tải
Phân tích dữ liệu để xác định patterns & các xu hướng là trọng tâm trong ngành vận tải vì đây là ngành phụ thuộc vào khả năng tận
dụng hiệu quả trên mỗi tuyến đường và dự đoán các vấn đề tiềm tàng để gia tăng lợi nhuận. Các chức năng phân tích dữ liệu và
modeling của Machine learning đóng vai trò quan trọng với các doanh nghiệp vận chuyện, vận tải công cộng và các tổ chức vận
chuyển khác.
2. Mô tả công nghệ:
2.1. Định nghĩa
Học máy (machine learning) là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho phép
các hệ thống "học" tự động từ dữ liệu để giải quyết những vấn đề cụ thể.
Một số hệ thống học máy nỗ lực loại bỏ nhu cầu trực giác của con người trong việc phân tích dữ liệu, trong khi các hệ thống khác
hướng đến việc tăng sự cộng tác giữa người và máy. Không thể loại bỏ hồn tồn tác động của con người vì các nhà thiết kế hệ
thống phải chỉ định cách biểu diễn của dữ liệu và những cơ chế nào sẽ được dùng để tìm kiếm các đặc tính của dữ liệu. Học máy có
thể được xem là một nỗ lực để tự động hóa một số phần của phương pháp khoa học. Một số nhà nghiên cứu học máy tạo ra các
phương pháp bên trong các khuôn khổ của thống kê Bayes
2.2. Nguyên lý
Các thuật toán học máy được phân loại theo kết quả mong muốn của thuật toán. Các loại thuật tốn thường dùng bao gồm:
- Học có giám sát: là một kĩ thuật của ngành học máy để xây dựng một hàm (function) từ dữ liệu huấn luyện. Dữ liệu huấn luyện
bao gồm các cặp gồm đối tượng đầu vào (thường dạng vec-tơ), và đầu ra mong muốn. Đầu ra của một hàm có thể là một giá trị

liên tục (gọi là hồi qui), hay có thể là dự đoán một nhãn phân loại cho một đối tượng đầu vào (gọi là phân loại). Nhiệm vụ của
chương trình học có giám sát là dự đốn giá trị của hàm cho một đối tượng bất kì là đầu vào hợp lệ, sau khi đã xem xét một số ví
dụ huấn luyện (nghĩa là, các cặp đầu vào và đầu ra tương ứng). Để đạt được điều này, chương trình học phải tổng quát hóa từ các
dữ liệu sẵn có để dự đốn được những tình huống chưa gặp phải theo một cách hợp lý.

- Học không giám sát: là một phương pháp của ngành học máy nhằm tìm ra một mơ hình mà phù hợp với các quan sát. Nó khác
biệt với học có giám sát ở chỗ là đầu ra đúng tương ứng cho mỗi đầu vào là khơng biết trước. Trong học khơng có giám sát, một
tập dữ liệu đầu vào được thu thập. Học khơng có giám sát thường đối xử với các đối tượng đầu vào như là một tập các biến ngẫu
nhiên. Sau đó, một mơ hình mật độ kết hợp sẽ được xây dựng cho tập dữ liệu đó.
- Học nửa giám sát: sử dụng cả dữ liệu đã gán nhãn và chưa gán nhãn để huấn luyện - điển hình là một lượng nhỏ dữ liệu có gán
nhãn cùng với lượng lớn dữ liệu chưa gán nhãn. Học nửa giám sát đứng giữa học khơng giám sát (khơng có bất kì dữ liệu có
nhãn nào) và có giám sát (tồn bộ dữ liệu đều được gán nhãn). Nhiều nhà nghiên cứu nhận thấy dữ liệu không gán nhãn, khi
được sử dụng kết hợp với một chút dữ liệu có gán nhãn, có thể cải thiện đáng kể độ chính xác. Để gán nhãn dữ liệu cho một bài
tốn học máy thường địi hỏi một chuyên viên có kĩ năng để phân loại bằng tay các ví dụ huấn luyện. Chi phí cho quy trình này
khiến tập dữ liệu được gán nhãn hồn tồn trở nên khơng khả thi, trong khi dữ liệu khơng gán nhãn thường tương đối rẻ tiền.
Trong tình huống đó, học nửa giám sát có giá trị thực tiễn lớn lao.
- Học tăng cường: nghiên cứu cách thức một agent trong một môi trường nên chọn thực hiện các hành động nào để cực đại hóa
một khoản thưởng (reward) nào đó về lâu dài. Các thuật tốn học tăng cường cố gắng tìm một chiến lược ánh xạ các trạng thái
của thế giới tới các hành động mà agent nên chọn trong các trạng thái đó. Khác với học có giám sát, trong học tăng cường khơng
có các cặp dữ liệu vào/kết quả đúng, các hành động gần tối ưu cũng không được đánh giá đúng sai một cách tường minh
- Chuyển đổi: tương tự học có giám sát nhưng không xây dựng hàm một cách rõ ràng. Thay vì thế, cố gắng đốn kết quả mới dựa
vào các dữ liệu huấn luyện, kết quả huấn luyện, và dữ liệu thử nghiệm có sẵn trong q trình huấn luyện.
- Học cách học: trong đó thuật tốn học thiên kiến quy nạp của chính mình, dựa theo các kinh nghiệm đã gặp.
2.3. Vịng đời cơng nghệ/thế hệ cơng nghệ:
- 1952 - Arthur Samuel đã viết ra chương trình học máy (computer learning) đầu tiên. Chương trình này là trị chơi cờ đam, và
hãng máy tính IBM đã cải tiến trị chơi này để nó có thể tự học và tổ chức những nước đi để giành chiến thắng.
- 1990s – Học máy đã dịch chuyển từ cách tiếp cận hướng kiến thức (knowledge-driven) sang cách tiếp cận hướng dữ liệu (datadriven). Các nhà khoa học bắt đầu tạo ra các chương trình cho máy tính để phân tích một lượng lớn dữ liệu và rút ra các kết luận

-

- hay là học từ các kết quả đó.
2006 - Geoffrey Hinton đã đưa ra một thuật ngữ "deep learning" để giải thích các thuật tốn mới cho phép máy tính "nhìn thấy"
và phân biệt các đối tượng và văn bản trong các hình ảnh và video.
2012 - X Lab của Google phát triển một thuật tốn học máy có khả năng tự động duyệt qua các video trên YouTube để xác định

xem video nào có chứa những con mèo.
2014 - Facebook phát triển DeepFace, một phần mềm thuật toán có thể nhận dạng hoặc xác minh các cá nhân dựa vào hình ảnh
ở mức độ giống như con người có thể.
2015 - Microsoft tạo ra Distributed Machine Learning Toolkit, trong đó cho phép phân phối hiệu quả các vấn đề machine
learning trên nhiều máy tính.
2016 - Thuật tốn trí tuệ nhân tạo của Google đã đánh bại nhà vô địch trò chơi Cờ Vây, được cho là trò chơi phức tạp nhất thế
giới (khó hơn trị chơi cờ vua rất nhiều). Thuật toán AlphaGo được phát triển bởi Google DeepMind đã giành chiến thắng 4/5
trước nhà vô địch Cờ Vây

3. Hiện trạng công nghệ tại Việt Nam
3.1.
Năng lực nghiên cứu
Năng lực nghiên cứu của Việt Nam về các thuật toán phổ biến và ứng dụng khá phát triển, thị trường
Đánh giá chung
cũng khá sôi động, các cơ sở nghiên cứu lớn chủ yếu nằm ở các tập đồn cơng nghệ, viện nghiên cứu
và các trường đại học.
VinAI, Viettel, FPT, CIST, Đại học Bách Khoa Hà Nội, Đại học Công nghệ ĐHQG Hà Nội, Đại học
Đơn vị nghiên cứu
Bách Khoa Hồ Chí Minh ...
-

Cơng trình nghiên cứu

-

-

Duong, C.N., Truong, T.D., Luu, K., Quach, K.G., Bui, H. and Roy, K., 2020. Vec2Face: Unveil
Human Faces from their Blackbox Features in Face Recognition. In Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition (pp. 6132-6141).

Hung, P.D., Hanh, T.D. and Diep, V.T., 2018, December. Breast cancer prediction using spark
MLlib and ML packages. In Proceedings of the 2018 5th International Conference on
Bioinformatics Research and Applications (pp. 52-59).
Veyseh, A.P.B., Dernoncourt, F., Dou, D. and Nguyen, T.H., 2020, July. Exploiting the Syntax-

Model Consistency for Neural Relation Extraction. In Proceedings of the 58th Annual Meeting of
the Association for Computational Linguistics (pp. 8021-8032).
- Shu, R., Nguyen, T., Chow, Y., Pham, T., Than, K., Ghavamzadeh, M., Ermon, S. and Bui, H.H.,
2020. Predictive Coding for Locally-Linear Control. ICML 2020. arXiv preprint arXiv:2003.01086.
- Pham, K., Le, K., Ho, N., Pham, T. and Bui, H., 2020. On Unbalanced Optimal Transport: An
Analysis of Sinkhorn Algorithm. ICML 2020.
- Dong, Z., Seybold, B.A., Murphy, K.P. and Bui, H.H., 2020. Collapsed amortized variational
inference for switching nonlinear dynamical systems. ICML 2020.
- Nguyen, D.Q. and Nguyen, A.T., 2020. PhoBERT: Pre-trained language models for Vietnamese.
arXiv preprint arXiv:2003.00744.
- Nguyen, D.Q., Billingsley, R., Du, L. and Johnson, M., 2015. Improving topic models with latent
feature word representations. Transactions of the Association for Computational Linguistics, 3,
pp.299-313.
- Nguyen, D.Q., Nguyen, T.D., Nguyen, D.Q. and Phung, D., 2017. A novel embedding model for
knowledge base completion based on convolutional neural network. arXiv preprint
arXiv:1712.02121.
Đánh giá so với thế giới
Việt nam
Thế giới
Các thuật toán phổ biến ở Việt Nam
được chú trọng nghiên cứu và phát triển Có nhiều nghiên cứu từ các thuật toán học máy cơ bản đến
Nghiên cứu, phát triển các tập trung vào các lĩnh vực như xử lý các mạng nơ-ron sâu. Các nghiên cứu thuật toán học máy
thuật tốn học máy phổ ảnh, xử lý ngơn ngữ tự nhiên, âm thanh trên thế giới đạt được nhiều thành tự trong mọi lĩnh vực từ
biến và ứng dụng

và các định dạng media, dữ liệu chuỗi xử lý ảnh, xử lý ngôn ngữ tự nhiên đến dữ liệu dạng chuỗi
thời gian. Tuy đi sau thế giới nhưng vẫn và không đồng dạng về mặt dữ liệu.
đạt được các thành tựu đáng kể.
Nghiên cứu về các lĩnh vực Nghiên cứu ứng dụng thực tế của các Nghiên cứu trên thế giới cũng đã tập trung vào hiệu năng
ứng dụng trong thực tế của thuật toán học máy tập trung vào cải của thuật toán trên tập dữ liệu lớn và tốc độ của thuật toán.
các thuật toán học máy phổ thiện hiệu suất các thuật toán, tối ưu tài Các thuật toán học máy phổ biến được áp dụng cho tất cả

nguyên và tốc độ chạy thuật toán đối với các lĩnh vực từ học thuật đến thực tế.
bài toán phức tạp và dữ liệu lớn trong
mọi lĩnh vực trong đời sống.

biến

3.2.

Năng lực sản xuất

Đánh giá chung
Đơn vị sản xuất
Đánh giá so với thế giới
Khả năng xây dựng các
thuật toán học máy phổ
biến và ứng dụng
3.3.

Một số ít đơn vị tại Việt Nam có xây dựng các thuật tốn học máy phổ biến và ứng dụng.
VinAI, Viettel, FPT, CIST, Đại học Bách Khoa Hà Nội, Đại học Công nghệ ĐHQG Hà Nội, Đại học
Bách Khoa Hồ Chí Minh ...
Việt nam

Thế giới
Nghiên cứu các thuật toán phổ biến tại
Trên thế giới cũng đã phát triển nghiên cứu các thuật toán
Việt Nam chủ yếu tối ưu hóa một khía
học máy phổ biến và đi đầu trong các ứng dụng trong
cạnh nào đó của thuật toán hơn là tạo ra
nghiên cứu và thực tế.
một thuật toán mới.

Khả năng ứng dụng

Đánh giá chung
Đơn vị phân phối / cung
cấp giải pháp
Đánh giá so với thế giới
Sự đa dạng các thuật tốn
học máy phổ biến
Độ hồn thiện của sản
phẩm trong thực tế

Về mảng ứng dụng các thuật tốn học máy cơ bản, Việt Nam đã có những ứng dụng và nghiên cứu với
quy mô vừa và nhỏ.
VinAI, Viettel, FPT, CIST, Đại học Bách Khoa Hà Nội, Đại học Công nghệ ĐHQG Hà Nội, Đại học
Bách Khoa Hồ Chí Minh ...
Việt nam
Thế giới
Các ứng dụng rất đa dạng các lĩnh vực như xử
Các ứng dụng đa dạng và ln có tiên phong trong các
lý ảnh, xử lý ngơn ngữ tự nhiên, âm thanh và
lĩnh vực đi đầu trong lĩnh vực.

các định dạng media, dữ liệu chuỗi thời gian
Các ứng dụng đã được đi vào thực tiễn cụ thể Các ứng dụng trên thế giới cực kỳ phổ biến và mạnh
như hệ thống chấm cơng áp dụng thuật tốn mẽ nhằm cải thiện hiệu năng của thuật toán được áp

3.4.
STT

nhận diện khuôn mặt, hệ thống nhận diện chữ dụng cho tất cả các lĩnh vực từ học thuật đến thực tế
viết tay, xử lý ngôn ngữ tiếng Việt.
Khảo sát phân nhóm và đánh giá cơng nghệ
Tiêu chí

Mơ tả

Kết quả
đánh giá

Nhóm 1. Cơng nghệ can thiệp, tối ưu hồn tồn. Nếu nghiên cứu phát triển, can

thiệp thay đổi hoàn toàn sẽ mang lại hiệu quả cao trong việc nâng cao chất
lượng sản phẩm, tính cạnh tranh trên thị trường
1

2
3
4
5
6
7

Phân nhóm công nghệ

Mức độ phổ biến trên thế giới
(Thang điểm 10)
Tiềm năng phát triển (Thang
điểm 10)
Mức độ ứng dụng của Việt
Nam (Thang điểm 10)
Mức độ làm chủ công nghệ của
Việt Nam (Thang điểm 10)
Khả năng nghiên cứu của Việt
Nam (Thang điểm 10)
Khả năng sản xuất của Việt
Nam (Thang điểm 10)

Nhóm 2. Công nghệ can thiệp, tối ưu một phần. Nếu nghiên cứu phát triển, can thiệp
thay đổi một phần sẽ mang lại hiệu quả cao trong việc nâng cao chất lượng sản
phẩm, tính cạnh tranh trên thị trường
Nhóm 3. Cơng nghệ không can thiệp, chỉ sử dụng. Công nghệ đã chuẩn hóa, chỉ ứng
dụng. Nếu nghiên cứu phát triển thêm sẽ khơng mang lại hiệu quả và tốn kém chi
phí hoặc không đủ năng lực để nghiên cứu phát triển
Đánh giá mức độ phổ biến của công nghệ trong các sản phẩm, hệ thống, giải pháp
IoT trên thế giới
Đánh giá tiềm năng phát triển của cơng nghệ dựa trên lợi ích đem lại, xu hướng phát
triển, xu hướng ứng dụng trong hiện tại và tương lai

Không đánh
giá

Đánh giá số lượng ứng dụng công nghệ tại Việt Nam và mức độ khai thác công nghệ

7

Mức độ làm chủ công nghệ của Việt Nam so với thế giới
Đánh giá khả năng nghiên cứu công nghệ tại các đơn vị nghiên cứu, doanh nghiệp
của Việt Nam
Đánh giá khả năng sản xuất phần cứng hoặc xây dựng phần mềm, các bộ công
cụ/thư viện phần mềm của Việt Nam

Nhóm 3

7

Khơng đánh
giá
Khơng đánh
giá
5

4. Xu hướng phát triển trên thế giới
Trên thế giới cũng đã phát triển nghiên cứu về xử lý và phân tích các thuật tốn học máy phổ biến cho dữ liệu lớn và các dữ liệu
phức tạp để nâng cao hiệu năng xử lý, tối ưu hóa tài nguyên và đảm bảo tốc độ cho các ứng dụng thực tế.

CÔNG NGHỆ THÔNG TIN Đề tài: CÁC THUẬT TOÁN HỌC MÁY PHỔ BIẾN VÀ ỨNG DỤNG.TS.Đặng minh Tuấn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về