Tải bản đầy đủ (.docx) (57 trang)

XÂY DỰNG ỨNG DỤNG REACT NATIVEVÀ ÁP DỤNG FIREBASE VÀO ỨNG DỤNG DI ĐỘNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.14 MB, 57 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA CÔNG NGHỆ PHẦN MỀM

--------------------

BÁO CÁO CUỐI KỲ ĐỒ ÁN 1
------------------ĐỀ TÀI: XÂY DỰNG ỨNG DỤNG REACT NATIVE
VÀ ÁP DỤNG FIREBASE VÀO ỨNG DỤNG DI ĐỘNG
Giảng viên hướng dẫn:
Ths. Thái Thụy Hàn Uyển
Sinh viên thực hiện:
Nguyễn Khánh Duy

17520295

Lê Thị Hà

17520417

Năm học 2007 - 2008


NHẬN XÉT
(Của giáo viên hướng dẫn)
-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------


LỜI CẢM ƠN
Lời đầu tiên, nhóm tác giả xin chân thành cảm ơn q thầy cơ khoa Cơng nghệ Phần
mềm, trường Đại Học Công Nghệ Thông Tin, ĐHQG TP.HCM, đã tận tình hướng dẫn


nhóm trong suốt thời gian qua. Những kiến thức mà thầy cô đã truyền đạt là nền tảng
quan trọng để nhóm có thể hồn thành đề tài này.
Nhóm tác giả xin gửi lời cảm ơn chân thành và lịng biết ơn sâu sắc đến cơ Thái Thụy
Hàn Uyển, cảm ơn cơ đã tận tình hướng dẫn và tạo điều kiện tốt nhất cho nhóm hồn
thành đề tài này. Những lời động viên, góp ý chân tình của cơ là động lực q báu để
nhóm vượt qua những khó khăn khi tìm hiểu và thực hiện đề tài. Trong thời gian thực
hiện đề tài, nhóm tác giả đã cố gắng vận dụng những kiến thức nền tảng đã học, kết hợp
học hỏi và tìm hiểu cơng nghệ mới để ứng dụng xây dựng đề tài môn học. Tuy nhiên
trong quá trình thực hiện, do kiến thức và kinh nghiệm cịn nhiều hạn chế, khó tránh khỏi
những thiếu sót. Chính vì vậy, nhóm tác giả rất mong nhận được sự góp ý từ q thầy cơ
để nhóm hồn thiện thêm những kiến thức mà nhóm đã học tập, làm hành trang q báu
cho nhóm trong cơng việc sau này.
Xin chân thành cảm ơn q thầy cơ !
Nhóm tác giả


MỤC LỤC


CHƯƠNG I: GIỚI THIỆU TỔNG QUAN
1.1Thơng tin, đánh giá nhóm
MSSV
16520295

Họ tên
Nguyễn Khánh Duy

17520417

Lê Thị Hà


MSSV
16520295
17520417

Họ tên
Nguyễn Khánh Duy
Lê Thị Hà

Email

n

n
Tỷ lệ % cơng
việc được giao
60%
40%

Vai trị
Trưởng nhóm
Thành viên

Tỷ lệ % cơng
việc hồn thành
tốt
100%
100%

Nhận xét


1.2Tổng quan đề tài
1.2.1.

Bài tốn

Trong thế giới, mà công nghệ ngày càng phát triển, khi sử dụng một ứng dụng ngồi hỗ
trợ đủ tính năng cần thiết,ta mong đợi các ứng dụng di động trở nên thông minh - thích nghi với
hoạt động của người dùng hoặc làm hài lịng chúng ta bằng những tính năng đáng kinh ngạc. Đó
là lí do tại sao việc áp dụng học máy đã trở thành một phần quan trọng trong việc phát triển ứng
dụng di động.
Các developer đang ngày càng dựa vào học máy để nâng cao trải nghiệm người dùng của
ứng dụng. Và chỉ với các mơ hình học máy tinh vi, họ mới có thể cung cấp những tính năng
mạnh mẽ để làm hài lịng người dùng của họ. Nhưng nếu chúng ta khơng có chun mơn về học
máy thì sao? Làm thế nào để bắt đầu?
Chính vì lí do đó, tại Google I/O 2018, Google đã ra mắt bộ cơng cụ phát triển phần mềm
(SDK) mới có tên ML Kit bản Beta được tích hợp vào Firebase. Nó cung cấp các cơng nghệ học
máy của google nhiều năm nghiên cứu cho các mobile developer, cho phép họ tích hợp một số
mơ hình học máy vào ứng dụng của mình một cách dễ dàng hơn.

Đồ án 1

5


1.2.2.

Phạm vi nghiên cứu

Trong đồ án lần này, nhóm chủ yếu tập trung vào nghiên cứ firebase ML kit google hổ trợ

cho các thiết bị mobile mà chỉ yếu là trên nền tảng Android. Với các phiên bản thử nghiệm trên
các thiết bị ảo (trong phạm vi nghiên cứu các thức lưu trữ trên thiết bị) và các thiết bị thật (trong
phạm vi nghiên cứu các thức truy xuất dữ liệu thông qua quét thông tin trên camera) đã đi đến
kết luận thành công trong việc ứng dụng firebase này vào mơi trường thực tế.
Bên cạnh đó, đề tài này cịn tập trung nghiên cứu vào cách thuật tốn xử lý thông tin truy
xuất được cũng như nghiên cứu sự liên kết giữa các thuật toán khác nhau trong các chức năng
khác nhau, qua đó dẫn đến một chức năng hồn chỉnh có thể sử dụng trong mơi trường thật tế.
Thông tin các thiết bị được thử nghiệm trong đề tài lần này: bao gồm các thiết bị:





Realmi C1
Sony XZ1
Samsung Galaxy J7
Pixel 3a XL API 27

1.2.3.

Nội dung nghiên cứu

Trong việc nghiên cứu các chức năng mà ML kit hổ trợ lần này, nhóm định hướng đến
các chức năng:



Text recognition (nhân dạng văn bản)
Barcode scanning (quét mã vạch)


1.2.4.

Kết quả hướng tới

Với đề tài này, nhóm chúng có 2 mục tiêu chính:
Đối với các lập trình viên: mang đến sự hứng thú trong ứng dụng machine learning lên
các thiết bị di động, khuyến khích cộng đồng phát triển các ứng dụng thơng minh hơn và
ít tốn chi phí hơn, qua đó thúc đẩy sự phát triển của cơng nghệ
• Đối với người dùng: mang đến sự tiện lợi trong việc trao đổi, lưu trữ các thông tin quan
trọng như: thông tin liên lạc, các tài liệu quan trọng một cách nhanh chóng và tự động,
thơng qua đó mang đến trải nghiệm thoải mái và chuyên nghiệp cho người dùng trong xã
hội công nghệ này.


Đồ án 1

6


CHƯƠNG II: TÌM HIỂU VỀ FIREBASE ML
1.Giới thiệu:
Firebase Machine Learning là một SDK di động mang đến kiến thức chuyên môn về máy
học của Google cho các ứng dụng Android và iOS trong một gói mạnh mẽ nhưng dễ sử dụng.
Cho dù bạn là người mới hoặc có kinh nghiệm về học máy, bạn có thể thực hiện chức năng bạn
cần chỉ trong một vài dịng mã. Khơng cần phải có kiến thức sâu về mạng lưới thần kinh hoặc
tối ưu hóa mơ hình để bắt đầu. Mặt khác, nếu bạn là nhà phát triển ML có kinh nghiệm, Firebase
ML cung cấp các API tiện lợi giúp bạn sử dụng các mơ hình TensorFlow Lite tùy chỉnh trong
các ứng dụng di động.

2.Các chức năng chính:

Host and deploy custom
models

Đồ án 1

Sử dụng các mơ hình TensorFlow Lite của riêng bạn để suy luận
trên thiết bị. Chỉ cần triển khai mơ hình của bạn lên Firebase và

7


(Lưu trữ và triển khai các chúng tôi sẽ chăm sóc việc lưu trữ và phục vụ nó cho ứng dụng
mơ hình tùy chỉnh)
của bạn. Firebase sẽ tự động phục vụ phiên bản mới nhất của
mơ hình cho người dùng của bạn, cho phép bạn thường xuyên
cập nhật chúng mà không phải đẩy phiên bản mới của ứng dụng
cho người dùng.

Automatically train
models
(Tự động đào tạo mơ
hình)

Production-ready for
common use cases
(Sẵn sàng sản xuất cho
các trường hợp sử dụng
phổ biến)

Đồ án 1


Khi bạn sử dụng Firebase ML với Remote Config , bạn có thể
phân phối các mơ hình khác nhau cho các phân khúc người
dùng khác nhau và với Thử nghiệm A / B , bạn có thể chạy thử
nghiệm để tìm mơ hình hoạt động tốt nhất (xem hướng dẫn iOS
và Android ).
Với Firebase ML và AutoML Vision Edge, bạn có thể dễ dàng
huấn luyện các mơ hình ghi nhãn hình ảnh TensorFlow Lite của
riêng mình, bạn có thể sử dụng trong ứng dụng của mình để
nhận ra các khái niệm trong ảnh. Tải lên dữ liệu đào tạo, các
hình ảnh và nhãn của riêng bạn và các nhãn hiệu của riêng bạn
và sử dụng chúng để đào tạo một mô hình tùy chỉnh trong đám
mây.
Firebase ML đi kèm với một bộ API sẵn sàng sử dụng cho các
trường hợp sử dụng di động phổ biến: nhận dạng văn bản, ghi
nhãn hình ảnh và xác định các mốc. Chỉ cần truyền dữ liệu đến
thư viện Firebase ML và nó cung cấp cho bạn thông tin bạn cần.
Các API này tận dụng sức mạnh của công nghệ máy học của
Google Cloud Platform để cung cấp cho bạn mức độ chính xác
cao nhất.

8


Firebase ML có các API hoạt động trong đám mây hoặc trên thiết bị. Khi mô tả API ML
là API đám mây hoặc API trên thiết bị, google căn cứ vào máy nào sử dụng mơ hình ML để
khám phá thông tin chi tiết về dữ liệu được cung cấp. Trong Firebase ML, điều này xảy ra hoặc
trên Google Cloud hoặc trên thiết bị di động của người dùng.
Các API nhận dạng văn bản, ghi nhãn hình ảnh và API nhận dạng mốc thực hiện suy luận
trong đám mây. Những mơ hình này có sức mạnh tính tốn và bộ nhớ khả dụng hơn so với mơ

hình trên thiết bị tương đương, và kết quả là, có thể thực hiện suy luận với độ chính xác và độ
chính xác cao hơn so với mơ hình trên thiết bị. Mặt khác, mọi yêu cầu đối với các API này đều
yêu cầu một chuyến đi khứ hồi mạng, điều này khiến chúng không phù hợp với các ứng dụng
thời gian thực và độ trễ thấp như xử lý video.
API mơ hình tùy chỉnh và AutoML Vision Edge đối phó với các mơ hình ML chạy trên
thiết bị. Các mơ hình được sử dụng và sản xuất bởi các tính năng này là các mơ hình
TensorFlow Lite , được tối ưu hóa để chạy trên thiết bị di động. Ưu điểm lớn nhất đối với các
mơ hình này là chúng khơng u cầu kết nối mạng và có thể chạy rất nhanh, đủ nhanh để xử lý
các khung hình video trong thời gian thực.
Firebase ML cung cấp hai khả năng chính xung quanh các mẫu tùy chỉnh trên thiết bị:
Custom model deployment: mô hình tùy chỉnh triển khai đến các thiết bị của người
dùng bằng cách tải chúng về từ trang của google. Ứng dụng hỗ trợ Firebase của bạn sẽ tải mơ
hình về thiết bị theo yêu cầu. Điều này cho phép bạn giữ kích thước cài đặt ban đầu của ứng
dụng của bạn nhỏ và bạn có thể trao đổi mơ hình ML mà khơng phải xuất bản lại ứng dụng của
mình.
AutoML Vision Edge: Dịch vụ này giúp bạn tạo các mơ hình phân loại hình ảnh tùy
chỉnh trên thiết bị của riêng bạn với giao diện web dễ sử dụng. Sau đó, bạn có thể lưu trữ liền
mạch các mơ hình bạn tạo với dịch vụ được đề cập ở trên.

3. Bộ ML kit sẵn có cho di động
Firebase ML Kit là một thư viện cho phép bạn sử dụng dễ dàng và với mã rút gọn, sử dụng
một loạt các mơ hình linh hoạt, chính xác cao trong các ứng dụng Android và IOS. Hầu hết các
models mà nó cung cấp đều có thể sử dụng ở cả local lẫn trên Google Cloud.
Đồ án 1

9


Hiện tại, các mơ hình trong Firebase ML Kit chỉ giới hạn cho các tác vụ liên quan đến tầm
nhìn-của máy tính, chẳng hạn như nhận dạng ký tự quang học, quét mã vạch và phát hiện đối

tượng.

Khả năng chính
Production-ready for
common use cases

On-device or in the
cloud

Deploy custom models

ML Kit đi kèm với một bộ API sẵn sàng sử dụng cho các trường
hợp sử dụng di động phổ biến: nhận dạng văn bản, phát hiện
khuôn mặt, xác định mốc, quét mã vạch, dán nhãn hình ảnh và
xác định ngơn ngữ của văn bản. Chỉ cần truyền dữ liệu đến thư
viện ML Kit và nó cung cấp cho bạn thơng tin bạn cần.
Lựa chọn API của ML Kit chạy trên thiết bị hoặc trên đám
mây. API trên thiết bị của chúng tôi có thể xử lý dữ liệu của bạn
một cách nhanh chóng và hoạt động ngay cả khi khơng có kết nối
mạng. Mặt khác, các API dựa trên đám mây của chúng tôi, tận
dụng sức mạnh của công nghệ máy học của Google Cloud
Platform để cung cấp cho bạn mức độ chính xác cao hơn nữa.
Nếu API của ML Kit khơng bao gồm các trường hợp sử dụng của
bạn, bạn luôn có thể mang các mơ hình TensorFlow Lite của
riêng bạn. Chỉ cần tải mơ hình của bạn lên Firebase và chúng tơi
sẽ chăm sóc việc lưu trữ và phục vụ nó cho ứng dụng của
bạn. ML Kit hoạt động như một lớp API cho mơ hình tùy chỉnh
của bạn, giúp cho việc chạy và sử dụng đơn giản hơn.

ML Kit giúp dễ dàng áp dụng các kỹ thuật ML trong ứng dụng của bạn bằng cách mang các

công nghệ ML của Google, chẳng hạn như API Google Cloud Vision , TensorFlow Lite và API
Mạng thần kinh Android cùng nhau trong một SDK. Cho dù bạn cần sức mạnh của xử lý dựa
trên đám mây, khả năng thời gian thực của các mơ hình trên thiết bị được tối ưu hóa cho thiết bị
di động hay tính linh hoạt của các mơ hình TensorFlow Lite tùy chỉnh, ML Kit đều có thể thực
hiện được chỉ với một vài dịng mã.
Các tính năng hiện ML kit đang hổ trợ:

Đồ án 1

10


Con đường thực hiện
Tích hợp SDK
Chuẩn bị dữ liệu đầu vào
Áp dụng mơ hình ML cho dữ
liệu

Nhanh chóng bao gồm SDK bằng Gradle hoặc CocoaPods.
Ví dụ: nếu bạn đang sử dụng tính năng thị giác, hãy chụp
ảnh từ máy ảnh và tạo siêu dữ liệu cần thiết như xoay hình
ảnh hoặc nhắc người dùng chọn ảnh từ thư viện của họ
Bằng cách áp dụng mơ hình ML cho dữ liệu của bạn, bạn
tạo ra những hiểu biết như trạng thái cảm xúc của khuôn
mặt được phát hiện hoặc các đối tượng và khái niệm được
nhận dạng trong hình ảnh, tùy thuộc vào tính năng bạn sử
dụng. Sử dụng những hiểu biết này để tăng sức mạnh cho
các tính năng trong ứng dụng của bạn như chỉnh sửa ảnh,
tạo siêu dữ liệu tự động hoặc bất cứ điều gì khác mà bạn
có thể tưởng tượng.


3.1 Text recognition
Với API nhận dạng văn bản của ML Kit, bạn có thể nhận dạng văn bản bằng bất kỳ ngôn
ngữ gốc Latinh nào ( và hơn thế nữa, với nhận dạng văn bản dựa trên Đám mây ).
Nhận dạng văn bản có thể tự động nhập dữ liệu tẻ nhạt cho thẻ tín dụng, biên lai và danh
thiếp. Với API dựa trên đám mây, bạn cũng có thể trích xuất văn bản từ hình ảnh của tài liệu mà

Đồ án 1

11


bạn có thể sử dụng để tăng khả năng truy cập hoặc dịch tài liệu. Các ứng dụng thậm chí có thể
theo dõi các đối tượng trong thế giới thực, chẳng hạn như bằng cách đọc các số trên tàu.

Trình nhận dạng văn bản của ML Kit phân đoạn văn bản thành các khối, dòng và thành
phần.
Khối là một tập hợp các dòng văn bản liền kề nhau, chẳng hạn như một đoạn hoặc cột.

Dòng là một tập hợp các từ liền kề trên cùng một trục dọc.

Đồ án 1

12


Phần tử là một tập hợp các ký tự chữ và số trên cùng một trục dọc.

3.2 Face detection
Với API nhận diện khn mặt của ML Kit, bạn có thể phát hiện khuôn mặt trong ảnh, xác

định các đặc điểm chính của khn mặt và lấy các đường nét của khn mặt được phát hiện.
Với tính năng nhận diện khn mặt, bạn có thể nhận được thơng tin bạn cần để thực hiện
các tác vụ như chỉnh sửa ảnh tự sướng và chân dung hoặc tạo hình đại diện từ ảnh của người
dùng. Vì ML Kit có thể thực hiện nhận diện khn mặt trong thời gian thực, bạn có thể sử dụng
nó trong các ứng dụng như trị chuyện video hoặc trò chơi phản ứng với biểu cảm của người
chơi.

Đồ án 1

13


Khả năng chính
Nhận biết và định vị các đặc
điểm trên khuôn mặt
Lấy các đường nét của các
đặc điểm trên khuôn mặt
Nhận dạng nét mặt
Theo dõi khn mặt trên các
khung hình video
Xử lý các khung hình video
trong thời gian thực

Nhận tọa độ của mắt, tai, má, mũi và miệng của mọi khuôn
mặt được phát hiện.
Lấy các đường nét của khuôn mặt được phát hiện và mắt,
lông mày, môi và mũi của họ.
Xác định xem một người đang cười hay nhắm mắt lại.
Nhận một định danh cho khuôn mặt của mỗi cá nhân được
phát hiện. Mã định danh này nhất quán trên các u cầu, ví

dụ, do đó bạn có thể thực hiện thao tác hình ảnh trên một
người cụ thể trong luồng video.
Nhận diện khuôn mặt được thực hiện trên thiết bị và đủ
nhanh để được sử dụng trong các ứng dụng thời gian thực,
chẳng hạn như thao tác video.

Ví dụ 1:

Đồ án 1

14


Ví dụ 2 (phát hiện đường viền mặt)
Khi bạn đã bật tính năng phát hiện đường viền khn mặt, bạn cũng sẽ nhận được danh sách các
điểm cho từng đặc điểm khuôn mặt được phát hiện. Những điểm này đại diện cho hình dạng của
tính năng. Hình ảnh sau đây minh họa cách các điểm này ánh xạ tới một khn mặt (nhấp vào
hình ảnh để phóng to):

Đồ án 1

15


Đồ án 1

16


3.3 Barcode Scanning

Với API quét mã vạch của ML Kit, bạn có thể đọc dữ liệu được mã hóa bằng hầu hết các
định dạng mã vạch tiêu chuẩn. Quét mã vạch xảy ra trên thiết bị và không yêu cầu kết nối mạng.
Mã vạch là một cách thuận tiện để truyền thông tin từ thế giới thực vào ứng dụng của
bạn. Đặc biệt, khi sử dụng các định dạng 2D như mã QR, bạn có thể mã hóa dữ liệu có cấu trúc
như thơng tin liên hệ hoặc thơng tin mạng WiFi. Vì ML Kit có thể tự động nhận dạng và phân
tích dữ liệu này, ứng dụng của bạn có thể phản hồi thơng minh khi người dùng qt mã vạch.

Khả năng chính
Đọc các định dạng chuẩn nhất

Tự động phát hiện định dạng

Trích xuất dữ liệu có cấu trúc

Đồ án 1

Các định dạng tuyến tính: Codabar, Mã 39, Mã 93, Mã
128, EAN-8, EAN-13, ITF, UPC-A, UPC-E
Các định dạng 2D: Aztec, Ma trận dữ liệu, PDF417,
Mã QR
Quét tất cả các định dạng mã vạch được hỗ trợ cùng
một lúc mà khơng phải chỉ định định dạng bạn đang
tìm kiếm. Hoặc, tăng tốc độ quét bằng cách giới hạn
máy dò chỉ các định dạng bạn quan tâm.
Dữ liệu có cấu trúc được lưu trữ bằng một trong các
định dạng 2D được hỗ trợ sẽ được phân tích tự động.
Các loại thơng tin được hỗ trợ bao gồm URL, thông
tin liên lạc, sự kiện lịch, địa chỉ email, số điện thoại,
lời nhắc tin nhắn SMS, ISBN, thơng tin kết nối WiFi,
vị trí địa lý và thơng tin trình điều khiển tiêu chuẩn


17


Hoạt động với mọi định hướng
Chạy trên thiết bị

Đồ án 1

AAMVA.
Mã vạch được nhận dạng và quét bất kể định hướng
của chúng: mặt phải, lộn ngược hoặc nằm nghiêng.
Quét mã vạch được thực hiện hồn tồn trên thiết bị và
khơng yêu cầu kết nối mạng.

18


3.4 Image Labeling
Với API ghi nhãn hình ảnh của ML Kit, có thể nhận ra các thực thể trong hình ảnh mà
không phải cung cấp bất kỳ siêu dữ liệu theo ngữ cảnh bổ sung nào, sử dụng API trên thiết bị
hoặc API dựa trên đám mây.
Ghi nhãn hình ảnh cung cấp một cái nhìn sâu sắc về nội dung của hình ảnh. Khi bạn sử
dụng API, ngươi dùng sẽ nhận được một danh sách các thực thể được công nhận: người, vật, địa
điểm, hoạt động, v.v. Mỗi nhãn được tìm thấy đi kèm với một điểm cho thấy sự tự tin của mơ
hình ML có liên quan. Với thơng tin này, ngươi dung có thể thực hiện các tác vụ như tạo siêu dữ
liệu tự động và kiểm duyệt nội dung.

Đồ án 1


19


Khả năng chính
Trình phân loại cơ sở cho mục
đích chung mạnh mẽ
Điều chỉnh trường hợp sử dụng
của bạn với các mơ hình tùy chỉnh
API cấp cao dễ sử dụng

Nhận ra hơn 400 danh mục mô tả các đối tượng
thường thấy nhất trong ảnh.
Sử dụng các mơ hình được đào tạo trước khác từ
TensorFlow Hub hoặc mơ hình tùy chỉnh của riêng bạn
được đào tạo với nhà sản xuất TensorFlow, AutoML
Vision Edge hoặc TensorFlow Lite Model.
Không cần phải xử lý đầu vào / đầu ra mơ hình cấp
thấp, tiền xử lý hình ảnh và hậu xử lý hoặc xây dựng
một đường ống xử lý. ML Kit trích xuất các nhãn từ
mơ hình TensorFlow Lite và cung cấp chúng dưới
dạng mơ tả văn bản.

Các mơ hình phân loại hình ảnh được hổ trợ:
Mơ hình cơ sở
Các mơ hình tùy chỉnh
TensorFlow Lite

Các mơ hình Auto
Edge Vision Edge tùy
chỉnh


Theo mặc định, API sử dụng mơ hình ghi nhãn hình ảnh đa
năng mạnh mẽ, nhận ra hơn 400 thực thể bao gồm các khái
niệm thường thấy nhất trong ảnh.
Để nhắm mục tiêu các khái niệm dành riêng cho ứng dụng, API
chấp nhận các mơ hình phân loại hình ảnh tùy chỉnh từ nhiều
nguồn khác nhau. Đây có thể là các mơ hình được đào tạo trước
được tải xuống từ TensorFlow Hub hoặc các mơ hình của riêng bạn
được đào tạo với Công cụ tạo mô hình TensorFlow Lite hoặc chính
TensorFlow. Các mơ hình tùy chỉnh phải được đóng gói với ứng
dụng của bạn.
API hỗ trợ các mơ hình phân loại hình ảnh được đào tạo với
AutoML Vision Edge. Các mơ hình có thể được đóng gói với ứng
dụng của bạn hoặc được lưu trữ với Firebase Machine Learning và
được tải xuống trong thời gian chạy.

Sử dụng mơ hình cơ sở
Mơ hình cơ sở của ML Kit trả về một danh sách các thực thể xác định người, vật, địa
điểm, hoạt động, v.v. Mỗi thực thể đi kèm với một điểm cho thấy sự tự tin mà mơ hình ML có
liên quan. Với thơng tin này, người dùng có thể thực hiện các tác vụ như tạo siêu dữ liệu tự động
và kiểm duyệt nội dung. Mơ hình mặc định được cung cấp với ML Kit nhận ra hơn 400 thực thể
khác nhau.
thể loại
Mọi người

Đồ án 1

Nhãn ví dụ
Crowd
Selfie

Smile

20


Hoạt động
Nhiều thứ
Động vật
Cây
Nơi

Dancing
Eating
Surfing
Car
Piano
Receipt
Bird
Cat
Dog
Flower
Fruit
Vegetable
Beach
Lake
Mountain

Dưới đây là một ví dụ về các thực thể đã được phân loại trong ảnh đi kèm:

Nhãn 0


Đồ án 1

21


Tên
Độ tin cậy
Nhãn 1

sân vận động
0,9205354

Tên
Độ tin cậy
Nhãn 2

Các môn thể thao
0,7531109

Tên
Độ tin cậy
Nhãn 3

Biến cố
0,66905296

Tên
Độ tin cậy
Nhãn 4


Giải trí
0,59904146

Tên
Độ tin cậy
Nhãn 5

Bóng đá
0,56384534

Tên
Độ tin cậy
Nhãn 6

Mạng lưới
0,54679185

Tên
Độ tin cậy

Cây
0,524364

Sử dụng mơ hình TensorFlow Lite tùy chỉnh
Mơ hình ghi nhãn cơ sở của ML Kit được xây dựng để sử dụng cho mục đích chung. Nó
được đào tạo để nhận ra 400 danh mục mô tả các đối tượng thường thấy nhất trong ảnh. Ứng
dụng của bạn có thể cần một mơ hình phân loại hình ảnh chun biệt để nhận biết số lượng danh
mục hẹp hơn một cách chi tiết hơn, chẳng hạn như một mơ hình phân biệt giữa các lồi hoa hoặc
loại thực phẩm.

Tính năng Ghi nhãn hình ảnh của ML Kit hỗ trợ các mơ hình phân loại hình ảnh tùy
chỉnh từ nhiều nguồn khác nhau. Người dùng có thể sử dụng các mơ hình được đào tạo trước từ

Đồ án 1

22


TensorFlow Hub, hoặc đào tạo mơ hình của riêng bạn với nhà sản xuất Mơ hình TensorFlow
Lite hoặc TensorFlow.
Sử dụng mơ hình AutoML Vision Edge tùy chỉnh
Tính năng Ghi nhãn hình ảnh của ML Kit hỗ trợ các mơ hình được đào tạo bằng AutoML
Vision Edge. Nó hỗ trợ gói mơ hình với ứng dụng của bạn hoặc tải xuống từ trên đám mây bằng
dịch vụ triển khai Mơ hình của Firebase Machine Learning.

3.5 Object Detection and Tracking
Với API theo dõi và phát hiện đối tượng trên thiết bị của ML Kit, người sử dụng có thể
phát hiện và theo dõi các đối tượng trong một hình ảnh hoặc nguồn cấp dữ liệu camera trực tiếp.
Theo tùy chọn, người dùng có thể phân loại các đối tượng được phát hiện, bằng cách sử
dụng trình phân loại thơ được tích hợp trong API hoặc sử dụng mơ hình phân loại hình ảnh tùy
chỉnh của họ.
Bởi vì phát hiện và theo dõi đối tượng xảy ra trên thiết bị, nó hoạt động tốt như mặt trước
của đường ống tìm kiếm trực quan. Sau khi người dùng phát hiện và lọc các đối tượng, họ có thể
chuyển chúng vào một phụ trợ đám mây
Khả năng chính
Phát hiện và theo dõi đối Phát hiện các đối tượng và nhận vị trí của chúng trong ảnh. Theo
tượng nhanh
dõi các đối tượng trên các khung hình liên tiếp.
Mơ hình trên thiết bị
được tối ưu hóa Mơ hình theo dõi và phát hiện đối tượng được tối

ưu hóa cho thiết bị di động và được sử dụng trong các ứng dụng
thời gian thực, ngay cả trên các thiết bị cấp thấp hơn.
Phát hiện đối tượng nổi Tự động xác định đối tượng nổi bật nhất trong ảnh.
bật
Phân loại thô
Phân loại các đối tượng thành các danh mục rộng mà bạn có thể
sử dụng để lọc ra các đối tượng bạn không quan tâm. Các danh
mục sau được hỗ trợ: hàng gia dụng, hàng thời trang, thực phẩm,
thực vật và địa điểm.
Phân loại với một mô
Sử dụng mô hình phân loại hình ảnh tùy chỉnh của riêng bạn để
hình tùy chỉnh
xác định hoặc lọc các danh mục đối tượng cụ thể. Làm cho mơ
hình tùy chỉnh của bạn hoạt động tốt hơn bằng cách bỏ nền của
hình ảnh.

Đồ án 1

23


Ví dụ dưới đây cho thấy dữ liệu theo dõi từ ba khung liên tiếp với trình phân loại thơ mặc
định được cung cấp bởi ML Kit.

3.6 Language Identification
Với API nhận dạng ngôn ngữ trên thiết bị của ML Kit, bạn có thể xác định ngơn ngữ của
một chuỗi văn bản.
Nhận dạng ngơn ngữ có thể hữu ích khi làm việc với văn bản do người dùng cung cấp,
thường không đi kèm với bất kỳ thông tin ngôn ngữ nào.
Khả năng chính

Đồ án 1

24


Hỗ trợ ngôn ngữ rộng
Hỗ trợ văn bản La Mã

Xác định hơn một trăm ngôn ngữ khác nhau
Xác định văn bản tiếng Ả Rập, tiếng
Bulgaria, tiếng Hy Lạp, tiếng Hindi, tiếng
Nhật, tiếng Nga và tiếng Trung trong cả chữ
viết gốc và tiếng La Mã.

Sau đây là một ví dụ về sự nhận dạng ngôn ngữ mà ML kit đã sử lý

3.7 Translation
Với API dịch trên thiết bị của ML Kit, bạn có thể dịch động văn bản giữa hơn 50 ngơn
ngữ.
Khả năng chính
Hỗ trợ ngơn ngữ rộng
Các mơ hình dịch đã được chứng minh
Được cung cấp
Quản lý mơ hình động
Chạy trên thiết bị

Dịch giữa hơn 50 ngôn ngữ khác nhau.
bởi các mơ hình tương tự được sử dụng bởi
chế độ ngoại tuyến của ứng dụng Google
Dịch.

Giữ các yêu cầu lưu trữ trên thiết bị ở mức
thấp bằng cách tự động tải xuống và quản lý
các gói ngơn ngữ.
Các bản dịch được thực hiện nhanh chóng và
khơng u cầu bạn gửi văn bản của người
dùng đến máy chủ từ xa.

Hạn chế

Đồ án 1

25


×