Tải bản đầy đủ (.pdf) (85 trang)

Trí tuệ nhân tạo trong chuyển đổi số ứng dụng hỗ trợ thu thập chỉ số đường huyết của thai phụ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.91 MB, 85 trang )

BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH

NGUYỄN PHẠM THANH TÂM

TRÍ TUỆ NHÂN TẠO TRONG CHUYỂN ĐỔI
SỐ: ỨNG DỤNG HỖ TRỢ THU THẬP CHỈ SỐ
ĐƯỜNG HUYẾT CỦA THAI PHỤ

Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã chuyên ngành: 60.48.01.01

LUẬN VĂN THẠC SĨ

THÀNH PHỐ HỒ CHÍ MINH, NĂM 2020


Cơng trình được hồn thành tại Trường Đại học Cơng nghiệp TP. Hồ Chí Minh.
Người hướng dẫn khoa học: PGS.TS Huỳnh Trung Hiếu.

Người phản biện 1: TS Huỳnh Khả Tú.

Người phản biện 2: TS Lê Nhật Duy.

Luận văn thạc sĩ được bảo vệ tại Hội đồng chấm bảo vệ Luận văn thạc sĩ Trường
Đại học Công nghiệp thành phố Hồ Chí Minh ngày 30 tháng 05 năm 2020.
Thành phần Hợi đồng đánh giá luận văn thạc sĩ gồm:
1. PGS.TS Huỳnh Tường Nguyên ..................... - Chủ tịch Hội đồng
2. TS Huỳnh Khả Tú ......................................... - Phản biện 1
3. TS Lê Nhật Duy ............................................ - Phản biện 2
4. TS Đặng Thị Phúc ......................................... - Ủy viên


5. TS Phạm Thị Thuyết...................................... - Thư ký
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA
CÔNG NGHỆ THÔNG TIN

HUỲNH TƯỜNG NGUYÊN

HUỲNH TRUNG HIẾU


BỘ CƠNG THƯƠNG
TRƯỜNG ĐẠI HỌC CƠNG NGHIỆP
THÀNH PHỐ HỒ CHÍ MINH

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Nguyễn Phạm Thanh Tâm

MSHV: 17112881

Ngày, tháng, năm sinh: 28/02/1986

Nơi sinh: Đồng Tháp

Chuyên ngành: Khoa học máy tính


Mã chuyên ngành: 60480101

I. TÊN ĐỀ TÀI:
Trí tuệ nhân tạo trong chuyển đổi số: Ứng dụng hỗ trợ thu thập chỉ số đường huyết
của thai phụ.
NHIỆM VỤ VÀ NỘI DUNG:
- Nghiên cứu giải pháp số hóa dữ liệu (digitalization).
- Tiền xử lý dữ liệu dựa trên yêu cầu ứng dụng AI và hiện thực prototype giải pháp
AI.
- Ứng dụng xử lý thu thập dữ liệu từ Phiếu theo dõi chỉ số đường huyết của thai
phụ.
- Phân tích kết quả và đưa ra hướng phát triển.
II. NGÀY GIAO NHIỆM VỤ: 06/09/2019
III. NGÀY HOÀN THÀNH NHIỆM VỤ: 06/03/2020
IV. NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. Huỳnh Trung Hiếu
Tp. Hồ Chí Minh, ngày … tháng 06 năm 2020
NGƯỜI HƯỚNG DẪN

CHỦ NHIỆM BỘ MÔN ĐÀO TẠO

TRƯỞNG KHOA CÔNG NGHỆ THÔNG TIN


LỜI CẢM ƠN
Để hoàn thành được bài luận văn thạc sĩ này, tơi xin bày tỏ sự cảm kích đặc biệt tới
cố vấn của tơi, Phó giáo sư Tiến sĩ Huỳnh Trung Hiếu - Người đã định hướng, trực
tiếp dẫn dắt và cố vấn cho tôi trong suốt thời gian thực hiện đề tài nghiên cứu khoa
học. Tôi xin gửi lời cảm ơn đến thầy bằng tất cả tấm lòng và sự biết ơn của mình.
Đề tài được hỗ trợ một phần bởi Sở Khoa học và Công nghệ Thành phố Hồ Chí

Minh theo Quyết định số 1131/QĐ-SKHCN và Hợp đồng số 06/2018/HĐ-QKHCN.
Tôi cũng xin gửi lời cảm ơn chân thành đến thầy Lê Nhật Duy – Phó khoa Cơng
nghệ thông tin đã hướng dẫn và giúp đỡ các biểu mẫu và quy trình hồn thành đề tài
luận văn từ khi bắt đầu đăng ký đề cương đến khi bảo vệ luận văn.
Tơi xin trân trọng cảm ơn Phịng quản lý Sau đại học đã giúp đở tôi về các thủ tục
cần thiết để hồn thành luận văn.
Sau cùng, tơi xin tỏ lịng biết ơn đến Trung tâm Cơng nghệ thông tin và Truyền
thông Đồng Tháp – Cơ quan nới tôi công tác, đã tạo điều kiện về thời gian, cơng
việc để tơi có thể hồn thành luận văn thạc sĩ.
Xin chân thành cảm ơn tất cả mọi người và quý cơ quan!

i


TĨM TẮT LUẬN VĂN THẠC SĨ
Sự phát triển của cơng nghệ số đã mang lại những lợi ích đáng kể trong nhiều lĩnh
vực khác nhau của đời sống xã hội. Mợt trong các cơng nghệ đóng vai trị hết sức
quan trọng trong hoàn thiện chuyển đổi số là OCR (Optical Character Recognition).
Nó cho phép chuyển đổi các hình ảnh, text dạng đánh máy hoặc viết tay, cũng như
các tài liệu scan vào dạng text mà máy tính có thể đọc được và soạn thảo được.
Trong lĩnh vực y tế, các chuyên gia cần quản lý lượng lớn dữ liệu bệnh nhân và tăng
liên tục. Sẽ rất hữu ích khi thơng tin được lưu trữ trong cơ sở dữ liệu. Với cơng cụ
xử lý OCR, chúng ta có thể trích x́t dữ liệu từ các cấu trúc và lưu trữ vào cơ sở dữ
liệu, từ đó giúp cho việc truy xuất, tìm kiếm, phân tích được dễ dàng hơn về sau.
Trong luận văn này, chúng tôi kết hợp các tiếp cận AI hiện đại để hỗ trợ việc trích
x́t thơng tin, chuyển đổi dữ liệu từ dạng phi cấu trúc sang dạng cấu trúc, lưu trữ
vào cơ sở dữ liệu để phục vụ cho các bước xử lý tiếp theo. Mục tiêu của nghiên cứu
này là phát triển giải pháp tích hợp trí tuệ nhân tạo trong việc rút trích thơng tin từ
form, nhằm tăng tính tự đợng và đợ chính xác trong quá trình chuyển đổi số. Nâng
cao hiệu quả q trình số hóa dữ liệu được thu thập trong lĩnh vực y tế.

Sản phẩm đề tài khi hoàn thành sẽ giúp các chuyên gia thực hiện các dự án nghiên
cứu có u cầu thu thập, phân tích và theo dõi diễn tiến thay đổi của các chỉ số sức
khỏe mợt cách nhanh chóng, tiết kiệm thời gian nhập liệu thủ cơng. Ngồi việc triển
khai thu thập dữ liệu cho việc giám sát bệnh đái tháo đường thai kỳ, hệ thống có thể
hỗ trợ việc thu thập và trực quan hóa dữ liệu các bệnh khác cũng như mợt số bài
tốn khác. Hỗ trợ việc tích hợp dữ liệu từ nhiều nguồn khác nhau.

ii


LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của bản thân tôi. Các kết quả nghiên
cứu và các kết luận trong luận văn là trung thực, không sao chép từ bất kỳ một
nguồn nào và dưới bất kỳ hình thức nào. Việc tham khảo các nguồn tài liệu (nếu có)
đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định.
Học viên
(Chữ ký)

Nguyễn Phạm Thanh Tâm

iii


MỤC LỤC
MỤC LỤC ............................................................................................................. iv
DANH MỤC HÌNH ẢNH ...................................................................................... vi
DANH MỤC BẢNG BIỂU .................................................................................. viii
DANH MỤC TỪ VIẾT TẮT ................................................................................. ix
MỞ ĐẦU ................................................................................................................ 1
1. Đặt vấn đề ........................................................................................................... 1

2. Mục tiêu nghiên cứu ............................................................................................ 2
3. Đối tượng và phạm vi nghiên cứu ........................................................................ 3
4. Cách tiếp cận và phương pháp nghiên cứu ........................................................... 3
5. Ý nghĩa thực tiễn của đề tài ................................................................................. 4
CHƯƠNG 1

TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU ............................ 5

CHƯƠNG 2

CƠ SỞ LÝ THUYẾT .................................................................... 9

2.1

Tổng quan về Tesseract-ocr: ....................................................................... 9

2.1.1

Lịch sử: ....................................................................................................... 9

2.1.2

Kiến trúc hoạt động: ................................................................................. 11

2.1.3

Huấn luyện dữ liệu trên Tesseract: ............................................................ 12

2.1.4


Quá trình huấn luyện ngơn ngữ và font mới: ............................................. 14

2.1.5

Tiến trình nhận dạng sử dụng Tesseract OCR: .......................................... 17

2.2

Định vị ký tự bằng CTPN (Connectionist Text Proposal Network): .......... 19

2.2.1

Giới thiệu về CTPN: ................................................................................. 19

2.2.2

Kiến trúc của CTPN:................................................................................. 20

2.2.3

So sánh kết quả với các mơ hình khác: ...................................................... 21

2.3

Nhận dạng chữ viết tay bằng OCR: .......................................................... 22

2.4

Thư viện OpenCV: ................................................................................... 23


2.4.1

Giới thiệu về thư viện OpenCV:................................................................ 23

2.4.2

Phiên bản opencv 1 và opencv 2: .............................................................. 23

2.4.3

Hough Line Transform: ............................................................................ 27

iv


2.5

Tập dữ liệu chữ số viết tay MNIST: ......................................................... 31

2.6

Thư viện TensorFlow: .............................................................................. 32

2.7
Giới thiệu các cơng cụ lập trình và môi trường vận hành Ứng dụng hỗ trợ
thu thập chỉ số đường huyệt của thai phụ: .............................................................. 33
2.7.1

Anaconda và Jupiter: ................................................................................ 33


2.7.2

Visual studio và Xamarin: ......................................................................... 34

2.7.3

Môi trường cài đặt vận hành: .................................................................... 35

CHƯƠNG 3

PHƯƠNG PHÁP NGHIÊN CỨU ............................................... 36

3.1

Mơ hình kiến trúc hệ thống: ...................................................................... 37

3.2

Phân tích thiết kế hệ thống thu thập chỉ số đường huyết của thai phụ: ...... 39

3.2.1

Sơ đồ Usecase:.......................................................................................... 41

3.2.2

Sơ đồ Hoạt động: ...................................................................................... 42

3.2.3


Sơ đồ Tuần tự: .......................................................................................... 44

3.2.4

Sơ đồ Class: .............................................................................................. 46

3.3
Lược đồ quá trình xử lý form nhập liệu ảnh phiếu theo dõi chỉ số đường
huyết thông qua phần mềm di động: ...................................................................... 47
CHƯƠNG 4

THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ............................ 53

4.1

Thực nghiệm: ........................................................................................... 53

4.1.1

Tiền xử lý dữ liệu: .................................................................................... 53

4.1.2

Nhận dạng thông tin cá nhân bệnh nhân từ ảnh chụp:................................ 54

4.1.3

Nhận dạng thông tin chỉ số đường huyết từ ảnh chụp: ............................... 60

4.1.4


Lưu trữ thông tin thu thập vào cơ sở dữ liệu và trích x́t thơng tin: ......... 62

4.2

Đánh giá kết quả:...................................................................................... 63

KẾT LUẬN VÀ KIẾN NGHỊ ............................................................................... 66
TÀI LIỆU THAM KHẢO ..................................................................................... 67
PHỤ LỤC.............................................................................................................. 71
LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN ....................................................... 73

v


DANH MỤC HÌNH ẢNH
Hình 2.1 Ví dụ về mợt đường cơ sở dạng cong ...................................................... 17
Hình 2.2 Ví dụ về việc cắt các ký tự bị dính .......................................................... 18
Hình 2.3 Quá trình nhận dạng từ............................................................................ 18
Hình 2.4 Kiến trúc của Connectionist Text Proposal Network (CTPN) .................. 20
Hình 2.5 Left: RPN proposals. Right: Fine-scale text proposals............................. 21
Hình 2.6 CTPN cho kết quả chính xác với các hình ảnh bao gồm đa kích thước text
và đa ngơn ngữ ....................................................................................... 22
Hình 2.8 Kết quả của Canny edge detection đối với 2 ảnh khác nhau khi ngưỡng cao
và thấp được set là 150 và 100 ................................................................ 27
Hình 2.9 Mợt điểm (x0, y0) trong mặt phẳng hình ảnh (bảng a) ngụ ý nhiều dịng
mỗi đường thẳng được tham số hóa bởi mợt ρ và θ khác nhau (bảng b);
những đường này mỗi điểm ngụ ý trong mặt phẳng (ρ, θ), được ghép với
nhau tạo thành mợt đường cong có hình dạng đặc trưng (bảng c) ............ 29
Hình 2.10 Phép biến đổi Hough tìm thấy nhiều dịng trong mỗi hình ảnh. Có những

dịng như mong muốn tìm thấy nhưng cũng có những dịng khơng như
mong muốn ............................................................................................. 29
Hình 2.11 Những hình ảnh mẫu từ tập dữ liệu test MNIST .................................... 31
Hình 2.12 Giao diện Anaconda .............................................................................. 33
Hình 2.13 Giao diện Jupiter Notebook ................................................................... 34
Hình 2.14 Cơng nghệ mobile Xamarin .................................................................. 35
Hình 3.1 Mơ hình kiến trúc hệ thống thu thập dữ liệu đường huyết ....................... 37
Hình 3.2 Phần thông tin cá nhân của bệnh nhân trên phiếu theo dõi....................... 37
Hình 3.3 Bảng dữ liệu viết tay chỉ số đường huyết bệnh nhân đo hàng ngày .......... 38
Hình 3.4 Sơ đồ Usecase hệ thống thu thập dữ liệu đường huyết ............................. 41
Hình 3.5 Sơ đồ hoạt đợng nhận dạng text đánh máy .............................................. 42
Hình 3.6 Sơ đồ hoạt đợng nhận dạng chữ số viết tay.............................................. 43
Hình 3.7 Sơ đồ trình tự gửi ảnh ............................................................................. 44
Hình 3.8 Sơ đồ trình tự nhận dạng text và chữ số viết tay của chỉ số đường huyết . 45
Hình 3.9 Sơ đồ lớp hệ thống tiếp nhận dữ liệu đường huyết................................... 46
Hình 3.10 Icon của ứng dụng sau khi được cài đặt trên điện thoại ......................... 48
Hình 3.11 Màn hình splashscreen ứng dụng .......................................................... 49
Hình 3.12 Giao diện chức năng lấy ảnh phiếu theo dõi .......................................... 50
Hình 3.13 Load và gửi ảnh phiếu theo dõi ............................................................. 51
Hình 3.14 Thơng báo hồn thành việc gửi phiếu theo dõi ...................................... 52
Hình 4.1 Lọc nhiễu làm mượt hình ảnh.................................................................. 53

vi


Hình 4.1 Kết quả định vị text bằng CTPN ............................................................. 57
Hình 4.2 Tọa đợ các vùng chứa text trong ảnh sau khi được định vị bởi CTPN ..... 58
Hình 4.3 Các ảnh vùng chứa text sau khi được cắt ra từ ảnh phiếu theo dõi gốc .... 59
Hình 4.4 Kết quả nhận dạng chữ đánh máy bằng Tesseract OCR........................... 59
Hình 4.5 Chuyển đổi hình ảnh chử số viết tay và tính tốn Contour ....................... 60

Hình 4.6 Xác định dịng và cợt của bảng trong phiếu theo dõi ............................... 61
Hình 4.7 Kết quả nhận dạng ký tự số viết tay bằng thư viện TensorFlow ............... 62
Hình 4.8 Web service phục vụ truy xuất dữ liệu chỉ số đường huyết được số hóa .. 63

vii


DANH MỤC BẢNG BIỂU
Bảng 2.1 So sánh kết quả chính xác OCR của FineReader 10 và Tesseract 3.0.1 ... 10
Bảng 2.2 So sánh phần mềm thương mại và Tesseract ........................................... 11
Bảng 2.3 Bảng so sánh kết quả định vị text giữa các mơ hình tại ICDAR 2011, 2013
và 2015 ................................................................................................... 21
Bảng 3.1 Các chức năng chính của hệ thống .......................................................... 39
Bảng 4.1 Bảng tổng hợp kết quả nhận dạng trên tập dữ liệu 30 mẫu ...................... 63

viii


DANH MỤC TỪ VIẾT TẮT
AI

Artificial Intelligence

CTPN

Connectionist Text Proposal Network

OCR

Optical Character Recognition


DPI

Dot Per Inch

LSTM

Long Short Term Memory

OpenCV

Open Source Computer Vision

API

Application Programming Interface

ĐTĐTK

Đái tháo đường thai kỳ

ix


MỞ ĐẦU
1. Đặt vấn đề
Sự phát triển của công nghệ số đã mang lại những lợi ích đáng kể trong nhiều lĩnh
vực khác nhau của đời sống xã hội [1, 2], nó tác đợng đến các hoạt đợng, tổ chức,
thiết lập quan hệ khách hàng, v.v. của các doanh nghiệp [3]. Nhiều doanh nghiệp
công nghệ số đã trở thành các gã khổng lồ với những công nghệ và kỹ thuật hiện

đại, tuy nhiên vấn đề chuyển đổi số cũng đang gặp nhiều cơ hội và thách thức [4].
Nhiều tổ chức, doanh nghiệp cũng khơng thể thích ứng với các mơ hình doanh
nghiệp mới [5]. Kết quả nghiên cứu từ [6] cũng chỉ ra rằng, các nhà quản lý nên tận
dụng các cơng nghệ mới trong các mơ hình doanh nghiệp của họ, trong khi các nhà
nghiên cứu nên tiếp tục nghiên cứu đưa ra những tiếp cận cho cơ hội và thách thức
của chuyển đổi số.
Một trong các công nghệ đóng vai trị hết sức quan trọng trong hồn thiện chuyển
đổi số là OCR (Optical Character Recognition). Nó cho phép chuyển đổi các hình
ảnh, text dạng đánh máy hoặc viết tay, cũng như các tài liệu scan vào dạng text mà
máy tính có thể đọc được và soạn thảo được. Đây là một trong những mảng nghiên
cứu được đầu tư bới nhiều nhóm khác nhau trên thế giới, nhiều tiếp cận cũng đã
được đề xuất. Một loạt ứng dụng của OCR đã được đề xuất bao gồm nhận dạng chữ
viết tay, legal industry [7], nhận dạng biển số xe, receipt imaging, healthcare, ngân
hàng, v.v. Trong lĩnh vực y tế, các chuyên gia cần quản lý lượng lớn dữ liệu bệnh
nhân và tăng liên tục. Sẽ rất hữu ích khi thơng tin được lưu trữ trong cơ sở dữ liệu.
Với công cụ xử lý OCR, chúng ta có thể trích x́t dữ liệu từ các cấu trúc và lưu trữ
vào cơ sở dữ liệu, từ đó giúp cho việc truy xuất, tìm kiếm, phân tích được dễ dàng
hơn về sau. Trong lĩnh vực tài chính, ngân hàng, OCR giúp giảm thiểu các thao tác
con người trong các xử lý cheques, invoice, bill, v.v. từ đó giúp đơn giản hóa qui
trình, tăng tính tự đợng trong các nghiệp vụ xử lý.
Mợt loạt các tiếp cận máy học đã được đề xuất cho OCR, bao gồm SVM (Support
vector machine) [8], thuật toán lan truyền ngược cải tiến [9], và các kỹ thuật trích

1


xuất đặc trưng khác nhau [10], etc. Mặc dù độ chính xác của các tiếp cận đã được
cải tiến đáng kể, tuy nhiên nó cũng cịn tồn tại nhiều thách thức [11, 12].
Trong nhiều ứng dụng trích x́t thơng tin, OCR có thể được xem là mợt trong các
bước khởi đầu số hóa dữ liệu. Kết quả của bước này sẽ đóng vai trị quan trọng ở

các bước tiếp theo, bao gồm làm sạch dữ liệu, phân tích ngữ nghĩa, phân lớp, tối ưu,
v.v.
Trong luận văn này, chúng tôi kết hợp các tiếp cận AI hiện đại để hỗ trợ việc trích
x́t thơng tin, chuyển đổi dữ liệu từ dạng phi cấu trúc sang dạng cấu trúc, lưu trữ
vào cơ sở dữ liệu để phục vụ cho các bước xử lý tiếp theo. Kết quả nghiên cứu này
được hứa hẹn sẽ mạng lại hiệu quả ứng dụng trong nhiều lĩnh vực khác nhau bao
gồm lĩnh vực tài chính và y tế. Nghiên cứu sẽ được thực hiện để nâng cao hiệu quả
trong việc chuyển đổi số các phiếu thu thập thông tin chỉ số sức khỏe của bệnh nhân
[13, 14].
2. Mục tiêu nghiên cứu
2.1

Mục tiêu nghiên cứu tổng quát

Mục tiêu của nghiên cứu này là phát triển giải pháp tích hợp trí tuệ nhân tạo trong
việc rút trích thơng tin từ form, nhằm tăng tính tự đợng và đợ chính xác trong quá
trình chuyển đổi số.
Nâng cao hiệu quả quá trình số hóa dữ liệu được thu thập trong lĩnh vực y tế.
2.2

Mục tiêu nghiên cứu cụ thể

Nghiên cứu giải pháp số hóa dữ liệu (digitalization).
Tiền xử lý dữ liệu dựa trên yêu cầu ứng dụng AI và hiện thực prototype giải pháp
AI.
Tối ưu mơ hình AI và tập các thơng số của nó, cũng như sự lựa chọn phù hợp của
tập dữ liệu huấn luyện và kiểm thử trên dữ liệu phiếu theo dõi chỉ số sức khỏe.

2



3. Đối tượng và phạm vi nghiên cứu
3.1
Đối tượng nghiên cứu
Nghiên cứu được tiến hành trên phiếu khảo sát trong y tế cộng đồng, bao gồm theo
dõi đường huyết của thai phụ.
3.2

Phạm vi nghiên cứu

Tìm hiểu giải pháp số hóa dữ liệu bao gồm cả OCR (Optical Character
Recognition). Sử dụng AI trích xuất dữ liệu từ phi cấu trúc sang có cấu trúc và ghi
vào cơ sở dữ liệu.
Khơng gian: Cài đặt và hiện thực phương pháp trên máy tính.
4. Cách tiếp cận và phương pháp nghiên cứu
4.1
Cách tiếp cận:
Tìm hiểu tổng quan về các cơng trình nghiên cứu có liên quan và các thành tựu, hạn
chế đã được hoàn thành trước đây.
Nghiên cứu về phương pháp nhận dạng chuỗi ký tự (bao gồm OCR).
Nghiên cứu về ứng dụng AI để chuyển đổi dữ liệu từ phi cấu trúc sang dữ liệu có
cấu trúc để ghi vào cơ sở dữ liệu.
Hiện thực và đánh giá so sánh kết quả trên dữ liệu y tế mà cụ thể là phiếu theo dõi
chỉ số đường huyết của thai phụ đái tháo đường thai kỳ.
4.2

Phương pháp nghiên cứu:

Phương pháp nghiên cứu dựa trên lý thuyết: Thu thập, phân tích, xử lý thơng tin dựa
trên các tài liệu như sách, báo, tạp chí,…đã in ấn hoặc công bố trên internet liên

quan đến phân lớp với tập mở đa lớp.
Phương pháp nghiên cứu dựa trên thực nghiệm: Thông qua việc hiện thực giải pháp
và vận hành thử nghiệm trên các tập dữ liệu đầu vào đủ lớn và có đợ tin cậy.

3


5. Ý nghĩa thực tiễn của đề tài
Hiện tại có một số sản phẩm hỗ trợ việc thu thập dữ liệu, tuy nhiên với nhu cầu số
hóa dữ liệu, thu thập và phân tích dữ liệu trong các mơi trường, ứng dụng khác
nhau, các hệ thống hiện tại vẫn còn những hạn chế nhất định.
Sản phẩm đề tài khi hoàn thành sẽ giúp các chuyên gia thực hiện các dự án nghiên
cứu có u cầu thu thập, phân tích và theo dõi diễn tiến thay đổi của các chỉ số sức
khỏe mợt cách nhanh chóng, tiết kiệm thời gian nhập liệu thủ cơng.
Ngồi việc triển khai thu thập dữ liệu cho việc giám sát bệnh đái tháo đường thai
kỳ, hệ thống có thể hỗ trợ việc thu thập và trực quan hóa dữ liệu các bệnh khác cũng
như mợt số bài tốn khác. Hỗ trợ việc tích hợp dữ liệu từ nhiều nguồn khác nhau.

4


CHƯƠNG 1

TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU

Thành phố thông minh đang là một trong những định hướng được quan tâm đầu tư
bởi lãnh đạo, cơ quan, đơn vị, cũng như các tổ chức khác nhau. Với thành phố
thông minh, người dân có thể hưởng thụ nhiều tiện ích khác nhau bao gồm năng
lượng với chi phí thấp, giao thơng với chất lượng cao, thực phẩm an toàn, an ninh
trật tự được đảm bảo, các dịch vụ công thuận lợi, v.v. Đặc biệt trong y tế, nó sẽ giúp

cho việc lưu trữ, chia sẻ thông tin được dễ dàng hơn, nâng cao hiệu quả chuẩn đoán
và điều trị.
Mặc dù y học ngày nay đã có những thành tựu nổi bật, tuy nhiên với mật độ dân số
đông và yêu cầu chăm sóc sức khỏe ngày càng cao, việc phát triển các hệ thống
chăm sóc y tế với các cơng nghệ hiện đại cũng đóng vai trị rất quan trọng, đặc biệt
là đối với các thành phố thông minh. Nhiều giải pháp đã được đề xuất [15-18],
Ghulam M và các cộng sự [15] đã đề xuất tiếp cận nhận dạng khuôn mặt để suy
đốn tình trạng sức khỏe của bệnh nhân. M.S. Hossain [16] phát triển hệ thống nhận
tín hiệu giọng nói và video sau đó xử lý trên đám mây để nhận dạng tình trạng bệnh
nhân bao gồm đau, căng thẳng, hay bình thường. Tuy vậy, nhiều thách thức đối với
các hệ thống y tế thông minh đã được đưa ra [19-21], bao gồm số mắc bệnh mãn
tính ngày càng tăng [19], yêu cầu kết nối nhiều thiết bị khác nhau, đo nhiều thông
số khác nhau, v.v.
Một trong các điểm cốt lõi đối với các hệ thống thông tin y tế là thu thập và phân
tích dữ liệu. Đối với việc thu thập dữ liệu, nhiều nhóm đã phát triển các giải pháp
bao gồm IoT (Internet of Things) và mạng cảm biến (sensor) [17-18]. Hệ thống
giám sát tình trạng bệnh nhân sử dụng smartphone để thu thập tín hiệu giọng nói và
electroencephalogram được đề xuất bởi Hossian [17]. Lee và Chung [22] đã thiết kế
áo mặc kết hợp với mạng BAS (Body Area Sensor) cho mục đích giám sát tình
trạng sức khỏe. Virone và cộng sự [23] đề xuất giải pháp sử dụng mạng cảm biến cơ
thể (Body Sensor Network) để theo dõi các dấu hiệu sinh tồn của bệnh nhân và sử
dụng WSN (Wireless Sensor Network) để giám sát điều kiện môi trường. Kiến trúc

5


hệ thống dựa trên WSN giúp theo dõi tình trạng sức khỏe từ xa được đề xuất bởi
Otto và cộng sự [24]. Nhiều cơ hội và thách thức của các hệ thống giám sát tình
trạng sức khỏe dựa trên WSN cũng đã được nghiên cứu [25-27]. Bên cạnh việc phát
triển các thiết bị đầu cuối (bao gồm các thiết bị IoT) để thu nhận và số hóa tín hiệu,

việc phát triển các hệ thống hỗ trợ việc thu thập, lưu trữ và phân tích dữ liệu y tế
vẫn cịn nhiều trở ngại do sự không đồng nhất về mặt cấu trúc và nhiều nguồn khác
nhau. Cơng trình nghiên cứu của Rachel L. Richesson [28] cũng chỉ ra rằng việc thu
thập cũng như chia sẻ dữ liệu giữa môi trường nghiên cứu và điều trị vẫn cịn nhiều
hạn chế. Ngồi ra, việc phát triển các hệ thống cũng như các công cụ hỗ trợ các bác
sĩ cũng như các chuyên gia y tế không ngừng được quan tâm với yêu cầu ngày càng
cao, bao gồm (1) đòi hỏi khả năng cấu hình linh đợng trong thu thập, (2) quản lý và
phân tích dữ liệu phục vụ cho điều trị người bệnh cũng như các hoạt động nghiên
cứu, (3) đáp ứng yêu cầu hạn chế về mặt thời gian và kinh phí. Đây cũng đang là
một trong những thách thức đối với ngành công nghệ thông tin.
Trong nghiên cứu này, tác giả phát triển một hệ thống hỗ trợ việc thu thập thơng tin
sức khỏe. Hệ thống thu thập dữ liệu hình ảnh về số liệu y tế của bệnh nhân bằng
ứng dụng di đợng và ứng dụng AI để số hóa thu thập dữ liệu. Nghiên cứu cũng
được hiện thực với việc theo dõi thai phụ đái tháo đường thai kỳ.
Đái tháo đường là mợt trong các bệnh mãn tính ngày càng được quan tâm bởi cợng
đồng vì tốc đợ gia tăng nhanh chóng của nó. Số liệu cho thấy số ca mắc bệnh đái
tháo đường dự đoán sẽ tăng từ 425 triệu vào năm 2017 lên 629 triệu vào năm 2045.
Đái tháo đường thai kỳ (ĐTĐTK) là tình trạng rối loạn dung nạp glucose được
chuẩn đoán và phát hiện lần đầu tiên trong thai kỳ, nó có khuynh hướng tăng trong
thời gian gần đây [23-24]. Ghi nhận tại một số bệnh viện tại TP.HCM, tỉ lệ mắc
bệnh đái tháo đường thai kỳ từ khoảng 2-3% ở 20 năm trước, thì nay đã lên đến 1422%. Riêng năm 2017, bệnh viện Hùng Vương đã phát hiện hơn 2.800 trường hợp,
chiếm tỉ lệ khoảng 20% số thai phụ được tầm sốt. Mợt nghiên cứu khác cũng chỉ ra
rằng tỉ lệ thai phụ mắc bệnh đái tháo đường thai kỳ là 20,3% theo tiêu chuẩn
IADGSG .

6


Đái tháo đường thai kỳ (ĐTĐTK) có thể dẫn đến những hậu quả nghiêm trọng
không những cho bà mẹ (như đa ối; tăng nguy cơ sảy thai, sanh non; tăng nguy cơ

cao huyết áp, tiền sản giật, sản giật; chuyển dạ kéo dài, sanh khó; rối loạn đường
huyết nặng có thể dẫn đến hơn mê) mà cịn thai nhi (như tăng tỉ lệ dị tật thai; rối
loạn tăng trưởng; sinh khó/sang chấn lúc sinh; thai nhi có thể chết lưu đột ngột; bé
sơ sinh dễ bị suy hô hấp, hạ đường huyết, hạ calci, và da và có thể hơn mê, v.v.)
[29]. Ngồi ra, có khoảng 20% ĐTĐTK sẽ bị đái tháo đường (ĐTĐ) típ 2 sau 10
năm và diễn tiến suốt phần đời cịn lại. Đây là mợt trong những bệnh gây ra nhiều
biến chứng khác nhau như làm tổn thương võng mạc có thể gây mất thị lực; tổn
thương ở thận gây suy thận; tổn thương mạch máu gây bệnh mạch vành, v.v.
Do đó, việc tầm sốt và quản lý ĐTĐTK cho các phụ nữ có thai thực sự là cần thiết,
không chỉ nhằm đảm bảo sức khỏe cho bà mẹ mà còn làm giảm hoặc loại bỏ các
biến chứng chu sinh, sơ sinh, hoặc các biến chứng lâu dài ở con cái của họ. Để có
thể quản lý tốt tình trạng đái tháo đường trong thai kỳ, người bệnh cần được theo
dõi tốt, cập nhật thông tin đến bác sĩ, giúp bác sĩ có cái nhìn rõ ràng và cụ thể hơn
với việc can thiệp. Theo Hawkins, việc theo dõi đường huyết mỗi ngày của thai phụ
cũng đem lại nhiều lợi ích về việc tăng trọng cũng như cân nặng thai nhi so với việc
chỉ theo dõi đường huyết tại lần khám thai [30]. Bên cạnh đó, giúp tuân thủ điều trị
với lịch theo dõi đường huyết, tiết chế hoặc dùng thuốc không đơn giản, tùy theo
những biến thiên đường huyết trong ngày và qua các ngày theo dõi.
Về thời điểm tầm soát ĐTĐTK, tất cả thai phụ nên thực hiện phương pháp kiểm tra
dung nạp đường huyết (OGTT-Oral glucose tolerance test) trong khoảng từ 24 đến
28 tuần của thai kỳ. Việc kiểm tra có thể được thực hiện sớm hơn đối với thai phụ
có yếu tố nguy cơ cao. Quản lý thai phụ có kết quả OGTT ở mức bất thường sẽ đi từ
can thiệp ít xâm lấn như theo dõi ngoại trú và thử lại đường huyết sau khi điều
chỉnh chế độ ăn và vận đợng. Nếu đường huyết vẫn chưa được kiểm sốt tốt với
điều trị ngoại trú, thai phụ cần được theo dõi sát hơn trong bệnh viện.

7


Để tăng hiệu quả trong chuẩn đoán và điều trị, thai phụ cần được theo dõi giá trị

đường huyết nhiều lần ở nhiều thời điểm khác nhau bất kể là được điều trị nội hoặc
ngoại trú. Các thay đổi của chỉ số đường huyết rất quan trọng trong quá trình quản
lý, theo dõi và điều trị. Nếu không xử lý kịp thời có thể dẫn đến tình trạng thai chết
đợt ngợt mà khơng hề có dấu hiệu báo trước. Hiện tại thai phụ vẫn phải ghi lại vào
giấy các chỉ số đường huyết trong ngày được bác sĩ yêu cầu đo, tuy nhiên những
con số này phải được bác sĩ tham chiếu khi thăm khám và thường là sau một thời
gian. Người bệnh ghi chép các số đo đường huyết theo thời gian và trình bác sĩ để
điều chỉnh chế đợ điều trị. Với bác sĩ, nếu có thể biểu diễn biến thiên đường huyết
theo dạng đồ thị sẽ dễ phát hiện bất thường hơn chỉ nhìn vào những con số. Ngoài
ra, trong điều kiện thực tế tại Việt Nam, nhu cầu được tư vấn về đái tháo đường thai
kỳ của thai phụ chưa được đáp ứng như mong đợi [31]. Với hệ thống lưu trữ thông
tin hiện tại, việc thu thập và khai thác dữ liệu trong chuẩn đoán và theo dõi bệnh
nhân vẫn còn nhiều hạn chế. Từ đó dẫn đến việc chưa tận dụng được dữ liệu đã có
để đánh giá hiệu quả quản lý. Ngồi ra, do cịn thiếu cơng cụ hỗ trợ việc lưu trữ lịch
trình dùng thuốc, các hoạt đợng hàng ngày, thời điểm đo đường huyết và thời điểm
ăn, nên việc theo dõi bệnh nhân từ xa còn nhiều hạn chế khi người bác sĩ không
nắm bắt được thời điểm dùng thuốc và đường huyết một cách khách quan, gần với
thời gian thực nhất.
Trong nghiên cứu này, tác giả đưa ra giải pháp ứng dụng công nghệ thông tin để
tăng hiệu quả thu thập dữ liệu ĐTĐTK, đồng thời hướng đến hỗ trợ tốt cho việc
chuẩn đốn và điều trị. Ngồi ra, dữ liệu thu thập được còn phục vụ cho các nghiên
cứu ở nhiều lĩnh vực khác nhau liên quan đến bệnh tiểu đường thai kỳ và khai phá
dữ liệu.

8


CHƯƠNG 2

CƠ SỞ LÝ THUYẾT


2.1 Tổng quan về Tesseract-ocr:
Nhận dạng ký tự quang học (tên tiếng anh là Optical Character Recognition – OCR)
là kỹ thuật được sử dụng để chuyển đổi ảnh văn bản sang dạng văn bản có thể chỉnh
sửa trong máy tính. Đầu vào của q trình này là tập tin hình ảnh và đầu ra sẽ là các
tập tin văn bản chứa nội dung là các chữ viết, ký hiệu có trong hình ảnh đó.
2.1.1 Lịch sử:
Tesseract là một phần mềm mã nguồn mở và ban đầu nó được nghiên cứu và phát
triển tại hãng Hewlett Packet (HP) trong khoảng từ năm 1984 đến 1994. Vào năm
1995, Tesseract nằm trong nhóm ba bợ nhận dạng OCR đứng đầu về đợ chính xác
khi tham gia trong hợi nghị thường niên của tổ chức UNLV (University of Nevada,
Las Vegas).
Lúc mới khởi đợng thì Tesseract là mợt dự án nghiên cứu tiến sĩ tại phịng thí
nghiệm HP ở Bristol và đã được tích hợp vào trong các dịng máy qt dạng phẳng
của hãng dưới dạng các add-on phần cứng hoặc phần mềm. Nhưng thực tế dự án
này đã thất bại ngay từ trong trứng nước vì nó chỉ làm việc hiệu quả trên các tài liệu
in có chất lượng tốt.
Sau đó, dự án này cùng với sự cợng tác của bộ phận máy quét HP ở bang Colorado
đã đạt được một bước tiến quan trọng về độ chuẩn xác khi nhận dạng và vượt lên
nhiều bộ nhận dạng OCR thời đó nhưng dự án đã khơng thể trở thành sản phẩm
hồn chỉnh vì đợ cồng kềnh và phức tạp. Sau đó, dự án được đưa về phịng thí
nghiệm của HP để nghiên cứu về cách thức nén và tối ưu mã nguồn. Dự án tập
trung cải thiện hiệu năng làm việc của Tesseract dựa trên đợ chính xác đã có. Dự án
này được hoàn tất vào cuối năm 1994 và sau đó vào năm 1995 bợ Tesseract được
gửi đi tham dự hợi nghị UNLV thường niên về đợ chính xác của OCR, vượt trội
hơn hẳn so với các phần mềm OCR lúc bấy giờ.

9



Bảng 2.1 So sánh kết quả chính xác OCR của FineReader 10 và Tesseract 3.0.1

Văn

Loại

Kiểu

bản

văn bản

trang

Số

Mức độ chinh xác nhận

Mức độ chính xác nhận

trang

dạng ký tự

dạng từ

được
huấn

FineReader


Tesseract

FineReader

Tesseract

luyện
test-na

antiqua

cleaned

28

86,97139

84,81774

65,43104

54,99568

test-na

antiqua

original


28

83,08036

69,38797

60,420418

42,524837

test-oe

antiqua

cleaned

5

89,68817

86,52127

69,91817

70,27824

test-oe

antiqua


original

5

69,399185

75,21368

55,82787

61,185528

test-zr

antiqua

cleaned

7

90,89958

78,31711

78,05078

60,667484

test-zr


antiqua

original

7

80,146996

39,377434

77,30597

52,722473

test-14

gothic

cleaned

4

84,95764

85,94833

58,21762

59,782887


test-14

gothic

original

4

82,3733

70,61988

54,54097

49,876606

test-16

gothic

cleaned

5

81,85919

87,26151

51,738323


60,224297

test-16

gothic

original

5

73,24994

66,64795

40,109287

42,185795

test-19

gothic

cleaned

4

73,9826

80,645386


36,985195

45,625843

test-19

gothic

original

4

52,791237

70,99617

20,743692

41,16866

test-21

gothic

cleaned

4

83,78464


91,71215

49,986412

65,99619

test-21

gothic

original

4

80,47636

83,9082

44,417477

59,00755

test-22

gothic

cleaned

9


82,50946

86,93861

62,151653

63,23807

test-22

gothic

original

9

79,22829

60,16857

56,864452

39,0144

test - 3

gothic

cleaned


6

85,106636

86,12579

57,17473

57,535183

test - 3

gothic

original

6

84,005486

77,30411

54,95192

50,24464

10


Tuy nhiên, Tesseract đã không thể trở thành một sản phẩm thương mại hoàn chỉnh

được và vào năm 2005, HP đã chuyển Tesseract sang mã nguồn mở và được hãng
Google tài trợ. Tesseract cho đến nay vẫn được nhiều nhà phát triển cợng tác và tiếp
tục hồn thiện. Phiên bản mới nhất của bộ nhận dạng Tesseract là phiên bản 5.0.0
(alpha) [32-33].
Bảng 2.2 So sánh phần mềm thương mại và Tesseract
Phần mềm thương mại Abbyy-FineReader

Bộ nhận dạng Tesseract

Hỗ trợ hơn 100 ngôn ngữ

Hỗ trợ trên 100 ngôn ngữ
Không hỗ trợ giao diện đồ họa (dùng

Có giao diện đồ họa

Command Line để gõ lệnh)

Hỗ trợ trên Windows, Linux, MacOS

Hỗ trợ trên Windows, Linux, Mac OS

Release phiên bản đầu tiên từ năm 1993

Đợ chính xác cao từ năm 1995

Chi phí khá cao

Hồn tồn miễn phí (mã nguồn mở)


2.1.2 Kiến trúc hoạt động:
Đầu tiên, bộ nhận diện Tesseract sẽ nhận đầu vào là ảnh màu hoặc ảnh mức xám.
Ảnh này sẽ được chuyển đến bợ phận phân tích ngưỡng thích ứng (adaptive
thresholding) để cho ra ảnh nhị phân. Vì trước kia HP cũng đã phát triển bợ phận
phân tích bố cục trang nên Tesseract khơng cần phải có thành phần đó và được thừa
hưởng từ HP. Vì thế mà Tesseract nhận đầu vào là một ảnh nhị phân với các vùng
đa giác tùy chọn đã được xác định.
Ban đầu, Tesseract được thiết kế làm việc trên ảnh nhị phân sau đó chuong trình
được cải tiến để có thể nhận dạng cả ảnh màu và ảnh mức xám. Chính vì thế mà cần
bợ phận phân tích ngưỡng thích ứng để chuyển đổi ảnh màu / ảnh mức xám sang
ảnh nhị phân.
Sau đó q trình nhận dạng sẽ được thực hiện tuần tự theo từng bước.

11


• Bước đầu tiên là phân tích các thành phần liên thông. Kết quả của bước này sẽ là
tạo ra các đường bao quanh các ký tự.
• Bước thứ hai là tìm hàng và tìm từ, kết quả của bước này cũng giống như bước
trên sẽ tạo ra các vùng bao quanh các hàng chữ và ký tự chứa trong vùng văn bản.
• Bước tiếp theo sẽ là nhận dạng từ. Công đoạn nhận dạng từ sẽ được xử lý qua 2
giai đoạn. Giai đoạn đầu sẽ là nhận dạng các từ theo lượt. Các từ thỏa yêu cầu trong
giai đoạn này sẽ được chuyển sang bợ phân loại thích ứng (adaptive classifier) để
làm dữ liệu huấn luyện. Chính nhờ đó mà bợ phân loại thích ứng sẽ có khả năng
nhận diện được chính xác hơn ở phần sau của trang. Sau khi bợ phân loại thích ứng
đã học được các thơng tin có ích từ giai đoạn đầu khi nhận dạng phần trên của trang
thì giai đoạn thứ 2 của việc nhận dạng sẽ được thực hiện. Giai đoạn này sẽ qt hết
tồn bợ trang, các từ khơng được nhận diện chính xác ở giai đoạn đầu sẽ được nhận
diện lại lần nữa. Cuối cùng bộ nhận diện sẽ tổng hợp lại các thông tin ở trên và cho
ra kết quả nhận diện hoàn chỉnh [33].

2.1.3 Huấn luyện dữ liệu trên Tesseract:
Tesseract ban đầu được thiết kế để nhận dạng các từ tiếng Anh trên ngôn ngữ hệ
Latinh. Sau này, nhờ sự cố gắng của nhiều nhà phát triển mà các phiên bản của
Tesseract đã có thể nhận diện các ngơn ngữ khác ngồi hệ Latinh như tiếng Trung,
tiếng Nhật và tương thích với các ký tự trong bảng mã UTF-8. Việc nhận dạng các
ngôn ngữ mới trên Tesseract có thể thực hiện được nhờ vào việc huấn luyện dữ liệu.
Từ phiên bản 3.0 trở đi, Tesseract đã có thể hỗ trợ thêm nhiều dạng ngôn ngữ mới
và mở rợng thêm việc h́n luyện theo font chữ. Bởi vì ban đầu, bộ Tesseract được
huấn luyện để nhận diện từ chính xác nhất trên mợt số loại font mặc định, nếu sử
dụng các font chữ khác để nhận diện thì có thể kết quả sẽ khơng có đợ chính xác
cao khi làm việc với các loại font được cài đặt sẵn trong dữ liệu huấn luyện. Để
thực hiện quá trình h́n luyện thì ta phải sử dụng cơng cụ có sẵn của Tesseract.
Mặc định trong luận văn này, sử dụng công cụ Tesseract 5.0 cho việc thực hiện
huấn luyện ngôn ngữ và font mới.

12


Để huấn luyện dữ liệu trên Tesseract (hoặc ngôn ngữ mới) thì ta cần mợt tập các tập
tin dữ liệu chứa trong thư mục tessdata, sau đó kết hợp các tập tin này thành tập tin
duy nhất. Các tập tin có trong thư mục tessdata có quy tắc đặt tên theo dạng:
tên_ngơn_ngữ.tên_tập tin. Ví dụ các tập tin cần thiết khi thực hiện việc huấn
luyện tiếng Anh:
• tessdata/eng.config.
• tessdata/eng.unicharset: Tập ký tự của ngơn ngữ h́n luyện.
• tessdata/eng.unicharambigs.
• tessdata/eng.inttemp: Danh mục cho tập hợp các ký tự.
• tessdata/eng.pffmtable: Tập tin dạng hộp – sử dụng để xác định ký tự có trong tập
tin h́n luyện.
• tessdata/eng.normproto: Như tập tin pffmtable.

• tessdata/eng.punc-dawg.
• tessdata/eng.number-dawg.
• tessdata/eng.freq-dawg: Danh sách các từ tổng quát.
• tessdata/eng.word-dawg: Danh sách các từ thơng thường.
• tessdata/eng.user-word: Danh sách từ của người dùng (tùy chọn có thể có hoặc
khơng).
Bước cuối cùng sẽ tổng hợp dữ liệu từ bước trên và phát sinh ra tập tin dữ liệu duy
nhất có dạng:
• tessdata/eng.traineddata.
Các tập tin cần thiết cho việc huấn luyện dữ liệu sẽ được phát sinh khi ta sử dụng
công cụ có sẵn để qua q trình h́n luyện.

13


×