Mụclục
LỜIMỞĐẦU
Chương1:Kháiquátvềxửlýảnhvàxửlýảnhytế
1.1. Xửlýảnh
1.1.1. Xửlýảnhlàgì?
1.1.2. Mộtsốvấnđềtrongxửlýảnh
1.1.2.1. Mộtsốkháiniệm
a. Ảnhvàđiểmảnh
b. Mứcxámmàuvàhistogram
1.1.2.2. Nắnchỉnhbiếndạnghìnhhọc
1.1.2.3. Khửnhiễu
1.1.2.4. Chỉnhmứcxám
1.1.2.5. Tríchchọnđặcđiểm
1.1.2.6. Nhậndạng
1.1.2.7. Nénảnh
1.2. Xửlýảnhtrongytế
1.2.1. Giớithiệumộtsốchuẩnápdụngtronghệthốngthôngtinytế
1.2.1.1. ChuẩndữliệuvănbảnHL7
1.2.1.2. ChuẩnIHE
1.2.2. ChuẩnảnhytếDICOM
1.2.2.1. Kháiniệm
1.2.2.2. Lịchsửpháttriển
1.2.2.3. Cấutrúc
1.2.2.4. Tínhthíchnghi
1.2.2.5. GiaothứcDICOM
1.2.2.6. ThôngđiệpDICOM–DICOMMessage
1.2.2.7. MộtsốkháiniệmtrongDICOM
1.3. MộtsốvấnđềtrongxửlýảnhytếDICOM
1.3.1. KháiniệmvàcấutrúcảnhytếDICOM
1.3.2. Tómlượchìnhảnh
1.3.3. Mãhóavàđónggóiphầntửdữliệuđiểmảnh
1.3.4. Lưutrữhìnhảnh
1.3.5. Tổchứcluồngdữliệuđiểmảnh
Chương2:THUẬTTOÁNPHÂNTRONGXỬLÝẢNHYTẾ
2.1. Giớithiệumộtsốthuậttoánphâncụmdữliệu
2.1.1. Kháiniệmphâncụmdữliệu
2.1.2. Phânloạicácthuậttoánphâncụmdữliệu
2.1.3. ThuậttoánKmeans
2.1.3.1. Lịchsử
2.1.3.2. Thuậttoán
2.2. ThuậttoánKmeansứngdụngtrongphânlớpảnhytế
2.2.1. Mộtsốnhậnxét
2.2.2. ThuậttoánKmeansứngdụngtrongphânlớpảnhytế.
2.2.2.1. Đọc,chuẩnhóaảnh,lựachọnsốnhóm.
2.2.2.2. Gomnhóm,phânloạivùng
2.2.2.3. Phânloạixươngvàmạchmáu
2.2.2.4. Xuấtảnhkếtquả
2.2.3. KhókhănkhiápdụngthuậttoánKmeans
2.2.3.1. Đốivớicácbàitoánnóichung
2.2.3.2. Đốivớibàitoánphânlớpảnhytế
Chương3:Chươngtrìnhthửnghiệm
3.1. Bàitoán
3.2. Phântíchbàitoán
3.3. Mộtsốkếtquảchươngtrình
Phụlục:MộtsốkháiniệmtrongphầnthôngtinảnhDICOM
1. Cáckháiniệmcơbản
trongthôngtinảnhDICOM
1.1. Mãđầuvào
1.2. Têntàiliệu
2. Cácnguyêntắcmãhóacơbản
2.1. Phươngphápmãhóa
2.2. CácgiátrịthểhiệnVR
3. Cáckiểugiátrị
3.1. KiểuCONTAINER
3.2. KiểuTEXT
3.3. KiểuCODE
3.4. KiểuNUM
3.5. KiểuPNAME
3.6. KiểuDATE,TIME,vàDATETIME
3.7. KiểuUIDREF
3.8. KiểuCOMPOSITE
3.9. KiểuIMAGE
3.10. KiểuWAVEFORM
3.11. KiểuSCOORD
3.12. KiểuTCOORD
3.13. Cáckiểudữliệukhác.
PHẦNKẾTLUẬN
TÀILIỆUTHAMKHẢO
LỜIMỞĐẦU
Bước vào thế kỉ XXI, Công nghệ thông tin bùng nổ vô cùng mạnh mẽ. Khoa
học công nghệ cao đóng vai trò quan trọng không chỉ trong phát triển kinh tế mà
còn trong việc cải thiện nâng cao chất lượng cuộc sống của người dân. Cùng với sự
gia tăng dân số lên đến 8 tỉ người trên toàn thế giới, các dịch vụ y tế cũng yêu cầu
phải được cải thiện và nâng cao. Trong đó, việc áp dụng khoa học công nghệ vào
lĩnh vực y tế là lựa chọn tốt nhất cho mọi quốc gia, mọi nền kinh tế. Áp dụng khoa
học công nghệ vào lĩnh vực y tế trước hết sẽ nâng cao chất lượng phục vụ cũng
như cải thiện khả năng điều trị cho bệnh nhân. Điều này rút ngắn các thủ tục
hành chính và thời gian cho bệnh nhân. Từ đây mà tiết kiệm được chi phí,
giảiquyếtbàitoánkinhtếlớn.(chủngữ,vịngữ)
Do đó, mục đích nghiên cứu của đề tài này là tìm cách đưa ra các chẩn đoán
nhanh nhất thông qua việc phân lớp ảnh y tế tích hợp chuẩn DICOM. Ở đây, ta sẽ
tìm hiểu những điều cơ bản về chuẩn DICOM, tổ chức thông tin đính kèm về ảnh
và thuật toán Kmeans phân lớp ảnh. Các thông tin về chuẩn DICOM sẽ cho ta
hình dung cơ bản nhất về lịch sử, các qui định được định nghĩa trong tiêu chuẩn và
tính thích nghi của nó. Ta cũng sẽ tìm hiểu một số vấn đề khi thao tác với ảnh
DICOM. Các thông tin được đính kèm ảnh trong định dạng tệp tin DICOM, cách
tổ chức, kiểu dữ liệu, phương pháp mã hóa, cũng sẽ được đề cập đến. Ở đây,
thuật toán Kmeans sẽ được áp dụng để phân lớp ảnh y tế. Tại sao lại lựa chọn
thuật toán Kmeans, áp dụng như thế nào, ưu nhược điểm khi áp dụng thuật toán
Kmeans cũng sẽ được làm rõ. Dựa trên cơ sở lý thuyết ở trên để đưa ra được
chươngtrìnhứngdụngđọcảnhytếDICOMvàphânlớpảnhnày.
Cấutrúccủakhóaluậngồm3chươngvàmộtphầnphụlục:
Chương1:Kháiquátvềxửlýảnhvàxửlýảnhytế.
Chương này đưa ra khái niệm những vấn đề chung nhất trong xử lý ảnh
và đề cập đến các thông tin cơ bản về chuẩn DICOM. Từ đó chỉ ra các vấn
đềgặpphảitrongviệcthaotácvớiảnhytế.
Chương2:Thuậttoánphâncụmtrongxửlýảnhytế.
Chương này giới thiệu một số thuật toán phân cụm dữ liệu và làm rõ
phầnápdụngthuậttoánK–meansvàobàitoánphânlớpảnhytế.
Chương3:Chươngtrìnhthửnghiệm.
Chương này nêu ra bài toán, phân tích và xây dựng chương trình ứng
dụng. Chương trình ứng dụng nhằm giải quyết hai yêu cầu của bài toán là
đọcảnhDICOMvàphânlớpảnhđọcđược.
Phụlục:MộtsốkháiniệmtrongphầnthôngtinảnhDICOM.
Phần này đề cập đến một số khái niệm, phương thức mã hóa và các
kiểugiátrịtrongphầnthôngtinảnhDICOM(phầntiêuđềảnh).
Lờicảmơn
Trong suốt quá trình thực hiện đề tài này, em đã nhận được dự giúp đỡ rất
nhiềutừthầycôvàbạnbè.
Em xin được gửi tới thầy PGS. TS Đỗ Năng Toàn lời cảm ơn chân thành
và sâu sắc nhất. Em cảm ơn thầy đã luôn tận tình chỉ dạy, hướng dẫn và định
hướngchoem.
Em xin gửi lời cảm ơn đến gia đình em đã luôn tạo điều kiện tốt nhất cho em
họctậpvànghiêncứu.
Em xin gửi lời cảm ơn đến bạn bè em đã giúp đỡ và chia sẻ những khó khăn
trongsuốtquatrìnhthựchiệnđềtài.
Chương1:Kháiquátvềxửlýảnhvàxửlýảnhytế
1. Xửlýảnh
1. Xửlýảnhlàgì?
1
Xử lý ảnh là một lĩnh vực trong CNTT nhằm thao tác ảnh đầu vào và
đưarakếtquảmàtamongmuốn.
Ảnh là một thể hiện của một đối tượng lên máy tính càng giống tật
càng tốt. Ảnh có nhiều dạng thể hiện khác nhau như đen trắng, màu, video,
hình ảnh 3D, Mỗi điểm ảnh biểu diễn cường độ sáng hay một dấu hiệu nào
đó tại một vị trí xác định nào đó của đối tượng trong không gian. Ta có thể
hiểu,ảnhtrongxửlýảnhlàảnhn–chiều.
Xử lý ảnh là vô cùng quan trọng bởi hơn 80% thông tin chúng ta cần
xử lý là hình ảnh. Sự phát triển của xử lý ảnh gắn liền với nhu cầu xử lý thông
tincủaconngườivàsựpháttriểncủaphầncứngmáytính.
Vậy,mộthệxửlýảnhsẽnhưthếnào?Tasẽxemxétsơđồsau:
1
.PGS.TSĐỗNăngToàn,PhạmViệtBình(2007),GiáotrìnhmônXửlýảnh,Đại
họcTháiNguyên.
● Thunhận:thôngquacácthiếtbịnhưcamera,scanner,sensar,
● Tiềnxửlý:thựchiệnviệcnắnchỉnh,xóanhiễu,
● Hậuxửlý:rútgọn,chínhxáchóa,
2. Mộtsốvấnđềtrongxửlýảnh
1. Mộtsốkháiniệm
a. Ảnhvàđiểmảnh
● Điểm ảnh biểu diễn cường độ sáng hay một dấu hiệu nào đó tại một vị trí
xácđịnhnàođócủađốitượngtrongkhônggian
● Ảnhlàtâphợpcácđiểmảnh.
Hai mô hình biểu diễn ảnh cơ bản là RASTER và VECTOR, ngoài ra
còncómôhìnhkếthợp3D.RASTERtốnkémbộnhớhơnVECTOR.
b. Mứcxámmàuvàhistogram
● Với ba màu cơ bản là RED(R), GREEN(G), BLUE(B) (0 ≤ R, G, B ≤
255) nếu R = G = B thì màu này được gọi là màu xám. Mức xám của một
ảnhIlàsốgiátrịcóthểcócủađiểmảnhtrongảnhI.
● Histogram ( biểu đồ tần suất) của mức xám g trong ảnh I là số điểm ảnh
cócủaIcógiátrịg,kíhiệulàh(g).
2. Nắnchỉnhbiếndạnghìnhhọc
Ảnh thu được sau quá trình thu nhận ảnh thường không tránh được sự
biến dạng bởi các thiết bị quang hoặc điện tử, đôi khi là do bản thân đối
tượng. Để biến đổi ảnh thu nhận về ảnh mong muốn, cách thông thường là sử
dụngcácphépchiếuđượcxâydưngtrêntậpcácđiểmđiềukhiển.
Tacầntìmhàmf:P
i
f(P
i
)saocho:
Giả sử ảnh bị biến đổi chỉ bao gồm bị tịnh tiến, tỉ lệ, xoay, biến dạng, bậc
nhất.Khiđóhàmfcódạng:
Tacó:
Giải phương trình ta tìm được a
1
, b
1
, c
2
. Tương tự ta tìm được a
2
, b
2
, c
2.
Xác
địnhđượchàmf.
3. Khửnhiễu
Ảnh thu được sau quá trình thu nhận ảnh không tránh được nhiễu bởi
các thiết bị quang học hay điện tử. Có hai loại nhiễu cơ bản là nhiễu hệ thống
vànhiễungẫunhiên.
● Nhiễu hệ thống là những nhiễu sinh ra có tính qui luật do thiết bị hoặc ảnh
củanguồnsángngoạilai.Loạinhiễunàydễkhửbằngcácphépbiếnđổi.
● Nhiễu ngẫu nhiên là các vết “bẩn” không rõ nguyên nhân. Nhiễu này khó
khử do nó không có tính qui luật nào. Tùy từng loại ảnh mà ta chọn
phươngphápkhửphùhợp,phươngphápchunglàsửdụngphéplặp.
4. Chỉnhmứcxám
Chỉnh mức xám nhằm khắc phục tính không đồng đều của hệ thống
gây ra. Việc chỉnh mức xám bao gồm việc tăng hay giảm mức xám của ảnh
cho phù hợp với nhu cầu sử dụng. Việc giảm mức xám được thực hiện để
phụcvụchoviệcinấn,tăngmứcxámsửdụngchokỹthuậtnộisuy.
5. Tríchchọnđặcđiểm
Các đặc điểm của đối tượng được trích chọn tùy thuộc vào yêu nhu
cầu sử dụng, mục đích nhận dạng trong xử lý ảnh. Ảnh có một số đặc điểm
sauđây:
● Đặc điểm không gian: phân bố mức xám, phân bố xác suất, biên độ, điểm
uốn,
● Đặc điểm biến đổi: Các đặc điểm loại này được trích chọn bằng việc thực
hiện lọc vùng (zonal filtering). Các bộ vùng được gọi là “mặt nạ đặc
điểm” (feature mask) thường là các khe hẹp với hình dạng khác nhau (chữ
nhật,tamgiác,cungtrònv.v )
● Đặc điểm biên và đường biên: (chủ ngữ)Đặc trưng cho đường biên của
đối tượng và do vậy rất hữu ích trong việc trích trọn các thuộc tính bất
biến được dùng khi nhận dạng đối tượng. Các đặc điểm này có thể được
trích chọn nhờ toán tử gradient, toán tử la bàn, toán tử Laplace, toán tử
“chéokhông”(zerocrossing)v.v
Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các
đối tượng ảnh chính xác, với tốc độ tính toán cao và dung lượng nhớ lưu trữ
giảmxuống.(câunàyrấtcụt)
6. Nhậndạng
Gồm3pha:
● Pha1:Biểudiễnđốitượng
● Pha2:Tríchchọnđặcđiểm
● Pha3:Đốisánhvàkếtluận
Bốncáchtiếpcậnkhácnhautronglýthuyếtnhậndạnglà:
● Đốisánhmẫudựatrêncácđặctrưngđượctríchchọn
● Phânloạithốngkê
● Đốisánhcấutrúc
● Phânloạidựatrênmạngnơronnhântạo
Rõ ràng là không thể sử dụng một phương pháp để đưa ra phân loại
tối ưu, do đó trên thực tế, ta cần đồng thời áp dụng nhiều phương pháp và
cáchtiếpcận.
7. Nénảnh
Nén ảnh trong máy tính nhằm tiết kiệm bộ nhớ và giảm thời gian xử lý.
Có thể nén ảnh bảo toàn hoặc không bảo toàn. Nén ảnh bảo toàn thì ảnh sau
khi nén giống hệt ảnh ban đầu, còn đối với nén ảnh không bảo toàn thì ảnh
sau khi nén và trước khi nén có sự sai khác trong mức cho phép. Có bốn
cáchtiếpcậncơbảntrongnénảnh:
● Nénảnhkhônggian
● Nénảnhthốngkê
● Nénảnhsửdụngphépbiếnđổi
● NénảnhFractal
2. Xửlýảnhtrongytế
1. Giớithiệumộtsốchuẩnápdụngtronghệthốngthôngtinytế
1. ChuẩndữliệuvănbảnHL7
HL7 là một chuẩn dữ liệu văn bản. Thuật ngữ Health Level Seven được
phát triển vào năm 1987, được dùng riêng cho việc trao đổi thông tin y tế,
giúp cho việc truyền thông tin trong y tế được thuận lợi và đơn giản hơn.
Chuẩn HL7 được sử dụng rộng rãi ở nhiều quốc gia như Úc, Phần Lan, Đức,
Hà Lan, Nhật Bản, New Zealand, Áo, Mỹ,… Tháng 6/1994, HL7 được ANSI
xemxétvàđượccôngnhận,chấpnhậnsửdụngnhưmộtchuẩnchínhthức.
HL7cónhiềuphiênbản:
● Phiên bản 2.2 được đưa ra vào tháng 12/1994, được ANSI chấp nhận vào
8/2/1996.
● Phiên bản 2.3 được đưa ra vào tháng 4/1997, được ANSI chấp nhận vào
13/5/1997. Chuẩn HL7 version 2.3 hỗ trợ ADT, văn bản quản trị bênh
nhân PAD, các yêu cầu, báo cáo kết quả, theo dõi y tê, quản lý báo cáo y
tế MRM, sao chép, lập kế hoạch, báo cáo trắc nghiệm y tế CTR, báo cáo
sự kiện có hại AER, tình hình tài chính, các dịch vụ chăm sóc bệnh
nhân…
● Phiên bản 3.0 được công bố năm 2001. Phiên bản này khắc phục được
một số nhược điểm của những phiên bản 2.x như tiến trình tích hợp dữ
liệu phức tạp, có sự xung đột giữa các đặc tính kĩ thuật, khó khăn trong
việc đánh giá tiến trình thực hiện, việc mở rộng là một tùy chọn, thiếu
chức năng hỗ trợ cho việc bảo mật, thiếu các chức năng hỗ trợ cho công
nghệmớinhưWEB,XML.
HL7 cung cấp các phương thức để trao đổi, quản lý và tích hợp dữ
liệu y tế điện tử thuộc chẩn đoán hoặc quản lý cho dữ liệu không phải hình
ảnh. HL7 tạo ra “khả năng tương thích giữa các hệ thống quản lý bệnh nhân
điện tử, hệ thống quản lý phòng khám, hệ thống thông tin phòng xét nghiệm,
nhà ăn, nhà thuốc, phòng kế toán cũng như hệ thống bản ghi sức khỏe điện
tử và hệ thống bản ghi y tế điện tử. HL7 có thể cung cấp miễn phí nhưng bản
quyềnkhánghiêmngặt.
2. ChuẩnIHE
Trên thực tế, các hệ thông tin trong bệnh viện vô cùng phức tạp. Khi
áp dụng các hệ thống tiêu chuẩn sẽ gây ra sự không đồng nhất, thậm chí
xung đột. IHE – Intergrating the Healthcare Enterprise là một giải pháp được
đưa ra để lấp đi khoảng cách giữa thực tế và lý thuyết trong hệ thống thông
tin ở bệnh viện. IHE giải quyết tình trạng “đa dạng không đồng nhất” của hệ
thống thông tin bằng cách làm giảm sự khác biệt, phối hợp các tiêu chuẩn
hiệncó.
IHE được phát triển bởi RSNA và HIMSS. Bản thân IHE không phải
là một tiêu chuẩn mà nó chỉ đưa ra những qui trình thực hiện và cách thức
giao dịch. IHE tích hợp các qui trình giả quyết trong một tổ chức y tế, sử
dụngtiêuchuẩnDICOMvàHL7.
IHE đưa ra các “proffile” tích hợp hướng dẫn các thông tin qui trình
làm việc dựa vào các tiêu chuẩn có sẵn như DICOM và HL7. Profile sẽ giúp
việcứngdụngcáctiêuchuẩnhiệuquảnhất.
2. ChuẩnảnhytếDICOM
1. Kháiniệm
DICOM được viết tắt từ Digital Imaging and Communications in
Medicine Standars (tiêu chuẩn ảnh số và truyền thông trong y tế) là một hệ
thống tiêu chuẩn công nghiệp được phát triển nhằm đáp ứng nhu cầu của của
các nhà sản xuất cũng như người sử dụng trong việc kết nối, lưu trữ, trao đổi,
in ấn ảnh y tế mà không phụ thuộc vào nhà sản xuất. DICOM định nghĩa ra
các qui tắc định dạng và trao đổi hình ảnh y tế cũng như các thông tin liên
quan. Nó tạo ra một ngôn ngữ chung cho phép giao tiếp giữa hình ảnh và các
thôngtinytếliênquangiữacácthiếtbịvàhệthốngmạngthôngtinytế.
DICOM không phải là một định dạng ảnh hay một định dạng tập tin.
Nó bao gồm tất cả các qui tắc truyền dẫn, lưu trữ, hiển thị dữ liệu được xây
dựngvàthiếtkếđểphùhợpvớimọithiếtbịthôngtinytế.
2. Lịchsửpháttriển
Vào những năm 70 của thế kỷ XX, cùng với sự ra đời của máy tạo ảnh
chẩn đoán và sự phát triển mạnh mẽ của công nghệ thông tin và khoa học
máy tính, ảnh số trong y tế với nhiều định dạng khác nhau đã yêu cầu cần
phải có một chuẩn định dạng chung nhằm đảm bảo tốt nhất việc tuyền tải
thông tin và giao tiếp giữa các thông tin này. Đứng trước yêu cầu đó,
American College of Radiology – ACR và The National Elictrical
Manufactures Association – NEMA đã thành lập một ủy ban chung vào năm
1983 nhằm đưa ra và phát triển một chuẩn ứng dụng trong hệ thống thông tin
ytếgọilàACR–NEMA.
Chuẩn ACRNEMA ra đời nhằm tạo điều kiện cho các thiết bị tạo ảnh
của các nhà sản xuất khác nhau có thể trao đổi và chia sẻ thông tin trong môi
trường thông tin ảnh y tế, đặc biệt là môi trường PACS. Chuẩn này tập trung
vào kết nối, truyền thông và trao đổi giữa các hệ thống y tế. Phiên bản đầu
tiên ra đời năm 1985. Phiên bản đầu tiên này đã xác định việc truyền bản tin
điểm – điểm, định dạng dữ liệu và một số lệnh. Phiên bản thứ hai ra đời năm
1988 định nghĩa phần cứng và giao thức phần mềm cũng như từ điển dữ liệu
chuẩn. Nhưng vấn đề kết nối mạng vẫn chưa rõ ràng, đến phiên bản thứ ba
cótênlàDICOMđãkhắcphụcđượcđiềunày.
Để đảm bảo tính thích ứng giữa các tiêu chuẩn, người ta tập hợp các
mô đun phần mềm tạo nên thư viện mã hóa. Một thư viện mã hóa ưu việt thì
cầncócácđặctínhsau:
● Sửdụngchungchocácthiếtbịtạoảnhcủacácnhàsảnxuấtkhácnhau
● Thíchứngvớicácnềnphầncứngkhácnhau
● Kiếntrúcphầnmềmdựctheohướngtiệpcậntopdown
● Ngônngữlậptrìnhchuẩn.
3. Cấutrúc
2
Cấu trúc của DICOM, theo phiên bản được cập nhật năm 2011 gồm
cácthànhphầnsau:
● Comformance:Quichuẩn.
● InformationObjectDefinitions:Địnhnghĩađốitượngthôngtin.
● ServiceClassSpecifications:Cácđặctảvềlớpdịchvụ.
● DataStructuresandEncoding:Cấutrúcdữliệuvàmãhóa.
● DataDictionary:Từđiểndữliệu.
● MessageExchange:Traođổithôngđiệp.
2
.www.medical.nema.org/dicom.
● Network Communication Support for Message Exchange: Hỗ trợ giao tiếp
thôngđiệpthôngquamạng.
● Media Storage and File Format for Media Interchange: Thiết bị lưu trữ và
địnhdạngtệptincho
● MediaStorageApplicationProfiles:Bộứngdụnglưutrữtruyềnthông.
● Media Formats and Physical Media for Media Interchange: Định dạng môi
trườngvàtruyềnthôngvậtlýchotraođổitruyềnthông.
● GrayscaleStandardDisplayFunction:Hàmhiểnthịchuẩnmứcxám.
● Security and System Management Profiles: Bộ các chuẩn bảo mật và tham
chiếuđốitượng
● ContentMappingResource:Nguồnthamchiếuđốitượng
● ExplanotaryInformation:Thôngtinchúgiải.
● Web Acesss to DICOM Persistent Objects: Truy cập web đối với đối tượng
DICOMnhấtquán
● ApplicationHosting:Ứngdụnglưutrữ.
4. Tínhthíchnghi
Một thành phần quan trọng của bất cứ một chuẩn nào là phải định
nghĩa tính thích nghi với nó, hay nói cách khác là tính tuân thủ những điều
mà chuẩn đề ra. Trong nhiều trường hợp khác như chuẩn DICOM chẳng hạn,
sự thích nghi là hoàn toàn tự nguyện. Ủy ban của chuẩn DICOM không tạo
ra bất cứ sự áp đặt nào. Mặc dù vậy, DICOM vẫn có một phần dành riêng
đểquyđịnhsựthíchnghi.
Mọi nhà sản xuất có thể kiểm tra hay chứng minh thiết bị phần mềm
của mình thích nghi với tiêu chuẩn DIOCM bằng một báo cáo thích nghi đơn
giản do DICOM đề ra. Người sử dụng và nhà sản xuất muốn kiểm tra xem
hai thiết bị hay phần mềm có ăn khớp với nhau trong chuẩn DICOM hay
không thì cần đối chiếu hai bản báo cáo thích nghi. Những người làm
DICOM có thể xác định chính xác khả năng hoạt động đồng thời của hai ứng
dụng.
CácnộidungcơbảntrongbáocáothíchnghiDICOMgồm:
● Mô hình thực thi ứng dụng: Mô hình thực thi (Implementation Model) của
ứng dụng là một lược đồ đơn giản thể hiện cách mà một ứng dụng liên kết với
phạm vi cục bộ trong một thiết bị được đưa ra và từ xa thông qua giao diện
DICOM. Ví dụ, hoạt đông cục bộ có thể tao ra một đối tượng thông tin ảnh
DICOM,cònhoạtđộngtừxalàhiểnthịđốitượngđó.
● Ngữ cảnh thể hiện được sử dụng: Bao gồm cú pháp trừu tượng và cú pháp
chuyển đổi tương ứng. Thuật ngữ cú pháp trừu tượng được sử dụng trong
phần này vì nó được định nghĩa trong một chuẩn quốc tế khác mà DICOM
tham chiếu đến. Một bản báo cáo thích nghi DICOM sẽ liệt kê cả ngữ cảnh
cả ngữ cảnh thể hiện mà ứng dụng đưa ra trong thỏa thuận cũng như khi đã
đượcchấpthuận.
● Cách liên kết thực hiện: Bản báo cáo thích nghi phải miêu tả sử thực hiện liên
kết (ví dụ như là khi nào tạo các liên kết và chấp nhận nhiều liên kết) cho
từng hoạt động trong mô hình. Một số thiết bị như thiết bị lưu trữ trong hệ
thốngPACSphảiđượchổtrợnhiềuliênkếtnếuchúngđượcchấpnhận.
5. GiaothứcDICOM
3
● Các ứng dụng DICOM giao tiếp thông tin với nhau qua các dịch vụ DICOM
và sử dụng giao thức DICOM để truyền tải thông tin. Giao thức DICOM dựa
trênTCP/IPđểtruyềntảidữliệu.
● KiếntrúccủagiaothứcDICOM:
● DịchvụDICOM:
4
3
.NationalElectricalManufacturersAssociation(2011),PS3.72011,Digital
ImagingandCommunicationsinMedicine(DICOM),Part7–Message
Exchange,pp.7.
4
.NationalElectricalManufacturersAssociation(2011),PS3.72011,Digital
ImagingandCommunicationsinMedicine(DICOM),Part7–Message
Exchange,pp.9.
● Đểcácứngdụngcóthểgiaotiếp,traođổithôngtinvớinhauthìcần
thôngquacácdịchvụDICOM.Mỗimộtdịchvụsẽphụcvụchomột
côngviệccụthể,phânbiệt.
● MỗimộtứngdụngDICOMkhitraođổithôngtinquamạngcầnsử
dụngmộtdịchvụdụngtươngứng,dịchvụnàyđượcgọilàService
Provider.ỨngdụngDICOMtraođổidữliệuvớiServiceProviderđể
lấythôngtinhayyêucầuthựchiệnmộtcôngviệccụthể.Service
ProvidercóthểtựthựchiệnyêucầuhoặcchuyểnyêucầuđếnService
Providerkhác,khiđó,ServiceProvidernàyđóngvaitrònhưmộtứng
dụngDICOM.
● HailớpdịchvụcủaDICOM
● DịchvụDIMSEvàAssociation:lànơiứngdụngDICOMtrao
đổidữliệutrựctiếp.
● DịchvụUpperLayer:Chịutráchnhiệmchuyểnthôngtinthành
cácchuỗibyteđểtruyềnquamạngvànhậnchuốibytetừmạng
sauđóđóngthànhthôngtinđểchuyểnđếnAssociationvà
DIMSE.
6. ThôngđiệpDICOM–DICOMMessage
5
Thông tin có trong thông điệp DICOM sẽ được truyền đi qua giao thức
mạngDICOM.MộtthôngđiệpDICOMcócấutrúcnhưsau:
7. MộtsốkháiniệmtrongDICOM
6
● Data Set: là thành phần cấu trúc cơ bản của một tệp tin DICOM, mỗi một
DataSetchứanhiềuDataElement.
● Data Element: là một đơn vị thông tin trong DICOM, chứa một thông tin đầy
đủ. Các field trong Data Element có nhiệm vụ đặc tả đầy đủ một thông tin
baogồm:ýnghĩa,giátrịđộdài,địnhdạngdữliệu.
● Tag : là một cặp số nguyên không dấu, mỗi số có độ dài 16 bit. Cặp số
nguyên này xác định ý nghĩa của Data Element như tên bệnh nhân, chiều cao
5
.NationalElectricalManufacturersAssociation(2011),PS3.72011,Digital
ImagingandCommunicationsinMedicine(DICOM),Part7–Message
Exchange,pp.10.
6
.NationalElectricalManufacturersAssociation(2011),PS3.52011,Digital
ImagingandCommunicationsinMedicine(DICOM),Part5–DataStructures
andEmcoding,pp.1315.
ảnh, số bit màu Một số xác định Group Number, số còn lại xác định
Element Number. Các thông tin Data Element cùng liên quan đến một nhóm
ngữnghĩasẽcóchungsốGroupNumber.
● VR – Value Representation: đây là một field tùy chọn, tùy vòa giá trị Tranfer
Syntax mà VR có mặt trong Data Element hay không. VR cho biết kiểu dữ
liệuvàđịnhdạnggiátrịcủaDataElement.
● VM – Value Multiplicity: Cho biết số lượng Value của Value Field nếu Value
Field có nhiều giá trị. Nếu số lượng Value không xác định thì VM sẽ có dạng
“ab” với a là số giá trị Value nhỏ nhất, b là số giá trị Value lớn nhất có thể có
của Data Element. Nếu Value Field có nhiều giá trị thì đối với xâu kí tự “\”
làm phân cách (chấm phẩy thêm vào), đối với giá trị nhị phân thì không có kí
tựphâncách.
● VL – Value Length: Là một số nguyên không dấu, có độ dài 16 hay 32 bit.
Giá trị VL cho biết độ lớn của Value Field. Nếu chiều dài không xác định thì
ValueLengthlàFFFFFFFh.
● Value Field: là nội dung của Data Element. Kiểu dữ liệu của field này do VR
quiđịnhvàđộlớntínhtheobytenằmtrongVL.
● Tranfer Syntax: là bộ qui ước định dạng dữ liệu. Giá trị của Tranfer Syntax
cho biết cách dữ liệu được định dạng và mã hóa trong DICOM đồng thời
cònchobiếtVRcótồntạitrongDataElementhaykhông.
● IOD – Information Object Definition: IOD đại diện cho một đối tượng chứa
thôngtinvàđốitượngnàycótồntạitrongthếgiớithực.Có2loạiIOD:
● Composite IOD là đại diện cho những phần khác nhau của các đói
tượngkhácnhautrongthếgiớithực.
● NormalizeIOD:IODchođốitượngduynhấttrongthếgiớithực.
● SOP – Service Object Pair Class: lớp SOP được tạo ra khi ghép một IOD
vớiDIMSEServicedànhchoIODđó.CóhailoạiSOP:
● NomarlizedSOP=NormalizedIOD+DIMSEN
● CompositeSOP=CompositeIOD+DIMSEC
● Little Endidan: Thứ tự sắp xếp các byte trong file.(cái này là 1 câu à? hay là
giải nghĩa cho cái j? Nếu là 1 câu thì k có nghĩa.Nếu là giải thích cho cụm từ
đằng trước thì k ai viết như m) Đối với chuỗi nhị phân gồm nhiều byte thì
byte có trọng số thấp nhất sẽ nằm trước, những byte còn lại có trọng số tăng
dần nằm tiếp dau đó. Đối với chuỗi kí tự thì các kí tự sẽ xuất hiện theo thứ
tựtừtráisangphải.
● Big Endian: Thứ tự sắp xếp các byte trong file. Đối với dãy nhị phân gồm
nhiều byte thì các byte được sắp xếp theo thứ tự giảm dần của trọng số, byte
có trọng số lớn nhất sẽ đứng đầu tiên. Đối với chuỗi kí tự, các kí tự sẽ xuất
hiệnlầnlượttheothứtựtừtráisangphải.
3. MộtsốvấnđềtrongxửlýảnhytếDICOM
1. KháiniệmvàcấutrúcảnhytếDICOM
● Khái niệm: Một bức ảnh y tế định dạng DICOM không chỉ chứa các
thông tin về màu, pixel ảnh như các bức ảnh thông thường mà nó còn
chứa đầy đủ các thông tin nơi chụp, tên bệnh nhân, thiết bị chụp, bộ phận
đượcchụp,chẩnđoáncủabácsĩ
● Cấutrúc:
DICOMHeader
DICOMData
MộtđịnhdạngảnhDICOMcócácthànhphầnsau:
● Phần tiêu đề chứa toàn bộ các thông tin về bệnh nhân, về thiết bị tạo ra bức
ảnh và các thông tin quy định các mã hóa dữ liệu. Cấu trúc tiêu đề: Đầu tiên
là 128 byte File Preamble (offset), các chương trình đọc file DICOM sẽ bỏ
qua nội dung chứa trong 128 byte đầu tiên này. Tiếp theo là 4 byte chứa
chuỗi ‘DICM’. Tiếp theo là các thông tin về file (Data Set File Meta
Information). Các thông tin này được tổ chức thành các nhóm, trong mỗi
nhóm lại gồm nhiều phần tử. Phương pháp mã hóa, giải mã và các thông tin
liênquanảnhcũngđượcquyđịnhtrongphầntiêuđề
● Dữ liệu ảnh (DICOM Data Set): Phần này chứa các thông tin hình ảnh. Nó có
thểchứađựngthôngtintrongkhônggian3D.
PhầntiêuđềHeaderđượclưuthànhfile*.hdrriêngbiệtvớifileảnh*.img.
2. Tómlượchìnhảnh
7
● Trong phần mã nguồn chứa ảnh mã hóa DICOM, việc mã hóa là không thay
đổi. Các luồng dữ liệu được mã hóa chỉ đơn thuần là phân đoạn và đóng gói
cho phù hợp với giao thức truyền dữ liệu của DICOM. Sau khi giải nén bản
tin DICOM, các luồng dữ liệu được mã hóa có thể được khôi phục hoàn
7
.NationalElectricalManufacturersAssociation(2011),PS3.52011,Digital
ImagingandCommunicationsinMedicine(DICOM),Part5–DataStructures
andEmcoding,pp.8694
toànởnơinhận.
● Một đối tượng trong DICOM là luôn luôn xác định định dạng và các lựa
chọn khác mà việc thực hiện mã hóa một cách cụ thể có thể cung cấp. Hình
ảnh mã hóa phải phù hợp với định nghĩa đối tượng, hình ảnh mã hóa là một
thànhphầntrongđốitượngđó.Chẳnghạnnhư:
● Nếu đối tượng được định nghĩa để chứa dữ liệu điểm ảnh 10 bit thì nó
sẽ được giả định rằng một trong những tiến trình mã hóa sẽ chấp nhận
dữ liệu nhỏ nhất là 10bit. Do đó, không cần thiết có Tranfer Syntax.
Ví dụ như bất kỳ tiến trình mã hóa 12bit nào đều có thể hoạt động
trong 8bit nếu đối tượng đó được định nghĩa để chứa dữ liệu điểm
ảnh8bit.
● Nếu hình ảnh mã hóa được đặt xen kẽ thì quá trình mã hóa phải tạo ra
bộchèn.
● Thông số kĩ thuật trong phần đầu của tệp tin mã hóa phải phù hợp với tiêu đề
củabảntinDICOM
● Các đặc tả về thứ tự các byte của một tệp tin được mã hóa sẽ không bị thay
đổitrongquátrìnhđónggóinótrongbảntinDICOM.
3. Mãhóavàđónggóiphầntửdữliệuđiểmảnh
Trong PS 3.3 đã nói, mỗi dữ liệu điểm ảnh được lưu trữ trong giá trị trị
của thuộc tính Pixel Data Element (7FE0, 0010). Sự sắp xếp của mỗi pixel
ảnhtrongmộtảnhđượcmãhóatừtráisangphảivàtừtrênxuốngdưới.
Pixeli+2
Pixeli
Pixeli+1
Mỗi điểm ảnh cố định có thể gồm một hay nhiều mẫu giá trị điểm ảnh như
màu hoặc hình ảnh đa chiều. Giá trị mỗi mẫu điểm ảnh có thể được thể hiện dưới
dạng phần bù số nhị phân kiểu 2 hoặc dạng nhị phân của số nguyên không dấu tuân
theo qui định của phần tử dữ liệu điểm ảnh (0028, 0103). Số bit trong mỗi mẫu giá
trị điểm ảnh được xác định bởi bit lưu trữ (0028,0101). Bit đánh dấu phần bù số nhị
phânkiểu2làphầnquantrọngnhấttronggiátrịmẫuđiểmảnh.
Mỗi ô điểm ảnh là một phần chứa một giá trị mẫu điểm ảnh và bit tùy chọn
bổ sung. Các bit bổ sung có thể được sử dụng cho một mặt phẳng phủ hoặc để đặt
điểm ảnh trên ranh giới nhất định nào đó. Một ô điểm ảnh tồn tại trong mỗi giá trị
mẫu điểm ảnh riêng lẻ trong dữ liệu điểm ảnh. Kích thước của từng ô điểm ảnh
được xác định bởi các bit phân bổ (0028,0100) và lớn hơn hoặc bằng bit lưu
trữ(0028, 0101). Vị trí của các giá trị mẫu điểm ảnh trong ô điểm ảnh được xác định
bởicácbitcao(0028,01020).
Những hạn chế về đặc tính chứa trong ô điểm ảnh và giá trị mẫu điểm ảnh
được chỉ rõ trong Định nghĩa thông tin đối tượng chứa các phần tử dữ liệu điểm
ảnh. Các phần tử dữ liệu điểm ảnh có giá trị thể hiện VR là OW. Việc mã hóa hay
đóng gói các dữ liệu điểm ảnh tương tự như việc kết nối liên tục các bit quan trọng
nhất của ô điểm ảnh đầu tiên đến cuối cùng. Trong kết nối này, bit quan trọng nhất
của bất kỳ ô điểm ảnh được đặt sau các bit quan trọng của ô điểm ảnh tiếp theo.
Các dữ liệu điểm ảnh sau đó có thể chia thành một chuỗi 16bit, mỗi phần tử trong
đótùythuộcvàobyteđặtlệnhcủacâulệnhchuyển.
Những trường hợp khác trong câu lệnh chuyển DICOM chỉ rõ cách mã hóa
của VR. Ở những câu lệnh chuyển này, tất cả các dữ liệu điểm ảnh ở bit phân bổ
nhỏ hơn hoặc bằng 8 và được thể hiện bằng OB(hoặc là thêm vị ngữ hoặc là bỏ từ
và đi). Trong trường hợp OW, mỗi ô điểm ảnh được đóng gói cùng nhau, nhưng ở
đây,dữliệuđiểmảnhđượcchianhỏthànhcácchuỗivậtlý8bit.
Dưới đây là hình ảnh mã hóa (đóng gói) một điểm ảnh bất kỳ trong trường
hợpOW:
Taxétmộtsốvídụ:
Vídụ1:MãhóadữliệuđiểmảnhsủdụnggiátrịthểhiệnOW
● ĐốivớiảnhCT:
Bitphânbố:16Bitđánhdấu:12 Bitcao:11
● Đốivớiđốitượngthôngtinchung:
Bitphânbố:24Bitđánhdấu:18Bitcao:19
Ví dụ 2: Khái niệm của dữ liệu điểm ảnh trong mỗi ô điểm ảnh khi đóng gói
chúngvàoluồngdữliệu16bit
● ĐốivớiảnhCT
● Đốivớicácđốitượngthôngtinchung:
4. Lưutrữhìnhảnh
Sự sắp xếp các byte dữ liệu trở nên quan trọng khi chúng ta miêu tả các dữ
liệuđiểmảnhvậtlýtrongbộnhớ,mộttệptinhaytrênmạng.
5. Tổchứcluồngdữliệuđiểmảnh
Mỗi một dữ liệu điểm ảnh có giá trị thể hiện là OW và bao gồm các thuộc
tính8bitphânbố,8bitlưutrữvàmộtbitcao.
Chương2:THUẬTTOÁNPHÂNTRONGXỬLÝẢNHYTẾ
Trên thực tế, rất nhiều bài toán phân cụm( phân lớp) dữ liệu được đặt ra. Tùy
thuộc vào yêu cầu và cấu trúc kiểu dữ liệu mà người ta lựa chọn từng thuật toán
phân cụm dữ liệu cho phù hợp. Đến nay, có rất nhiều thuật toán đã được nghiên
cứu và kiểm tra tính đúng đắn của nó trong việc giải bài toán phân cụm dữ liệu.
Trongphầnnày,tasẽxemxétmộtvàithuậttoánđiểnhình.
1. Giớithiệumộtsốthuậttoánphâncụmdữliệu
1. Kháiniệmphâncụmdữliệu
Để hiểu được phân cụm dữ liệu là gì, chúng ta cần tìm hiểu thế nào là
khai phá dữ liệu. Khai phá dữ liệu (Datamining) là một lĩnh vực mới xuất hiện
nhằm khai thác thông tin, tri thức tiềm ẩn, có giá trị từ một cơ sở dữ liệu lớn
một cách tự động và hiệu quả nhất từ đó nâng cao hiệu suất sử dụng, nâng
cao năng lực sản xuất và cạnh tranh cho mỗi đơn vị, tổ chức. Khai phá dữ
liệu tuy mới ra đời nhưng nó đã óc ứng dụng rộng rãi trong nhiều lĩnh vực
như thương mại, y tế, tài chính, viễn thông, Kĩ thuật chính trong phân cụm
dữ liệu chủ yếu dựa trên các lĩnh vực trí tuệ nhân tạo, xác suất thống kê, cơ
sở dữ kiệu, lý thuyết thông tin, tính toán hiệu năng cao. Vì sự phát triển mạnh
mẽ cảu khai phá dữ liệu và ứng dụng rộng rãi của nó mà người ta đưa ra
nhiều khái niệm về khai phá dữ liệu. Nhưng khái quát nhất, ta định nghĩa “
Khai phá dữ liệu là một quá trình tìm kiếm, phát hiện các tri thức mới, tiềm
ẩn,hữudụngtrongcơsơdữliệulớn.”