Eine Zwei - Guangzhou CMM Co., Ltd

Scientific Reports Band 13, Artikelnummer: 12846 (2023) Diesen Artikel zitieren

258 Zugriffe

2 Altmetrisch

Details zu den Metriken

In dieser Arbeit wurde KidneyRegNet vorgeschlagen, eine neuartige Tiefenregistrierungspipeline für 3D-CT- und 2D-U/S-Nierenscans der freien Atmung, die ein Feature-Netzwerk und ein 3D-2D-CNN-basiertes Registrierungsnetzwerk umfasst. Das Feature-Netzwerk verfügt über handgefertigte Textur-Feature-Layer, um die semantische Lücke zu verringern. Das Registrierungsnetzwerk ist eine Encoder-Decoder-Struktur mit Verlust von Feature-Image-Motion (FIM), die eine hierarchische Regression auf Decoderebenen ermöglicht und eine mehrfache Netzwerkverkettung vermeidet. Es wurde zunächst mit einem retrospektiven Datensatz und einer Strategie zur Generierung von Trainingsdaten vorab trainiert und dann durch unbeaufsichtigtes Ein-Zyklus-Transferlernen in Vor-Ort-Anwendungen an spezifische Patientendaten angepasst. Das Experiment wurde an 132 U/S-Sequenzen, 39 Mehrphasen-CT- und 210 öffentlichen Einphasen-CT-Bildern sowie 25 Paaren von CT- und U/S-Sequenzen durchgeführt. Dies führte zu einem mittleren Konturabstand (MCD) von 0,94 mm zwischen den Nieren auf CT- und U/S-Bildern und einem MCD von 1,15 mm auf CT- und Referenz-CT-Bildern. Datensätze mit kleinen Transformationen führten zu MCDs von 0,82 bzw. 1,02 mm. Große Transformationen führten zu MCDs von 1,10 bzw. 1,28 mm. Diese Arbeit befasste sich mit Schwierigkeiten bei der 3DCT-2DUS-Nierenregistrierung während der freien Atmung mithilfe neuartiger Netzwerkstrukturen und Trainingsstrategien.

Bei der medizinischen Bildregistrierung handelt es sich um einen Prozess, bei dem ein Bild mit einem anderen Bild abgeglichen wird, das von derselben oder einer anderen Modalität stammt. Dieses ausgerichtete Bild enthält mehr räumlich-zeitliche Informationen, die für Anwendungen wie bildgesteuerte Chirurgie1, Krankheitsüberwachung2 und Risikovorhersage3 wichtig sind. Die Registrierung zwischen Bildern derselben Modalität ist eine monomodale Registrierung, und die Registrierung zwischen Bildern verschiedener Modalitäten ist eine multimodale Registrierung. Verschiedene bildgebende Verfahren reagieren empfindlich auf unterschiedliche Gewebe im Körper. Daher müssen Bilder unterschiedlicher Modalitäten miteinander registriert werden, um ergänzende Informationen bereitzustellen. Dies ist jedoch aufgrund des komplexen Zusammenhangs zwischen den Intensitäten der entsprechenden Strukturen in den beiden Bildern schwierig. Ultraschallbilder (U/S) stellen aufgrund ihrer großen Bewegung, ihres kleinen Sichtfelds und ihrer geringen Scanqualität eine besondere Herausforderung dar. Dennoch ist eine 3D-2D-Registrierung erforderlich. Das Potenzial des Deep Learning zu diesen Themen wurde noch nicht vollständig ausgeschöpft4. In dieser Arbeit haben wir eine zweistufige Deep-Learning-Methode vorgeschlagen, um die 3D-Computertomographie (CT) mit der 2D-Ultraschall-(3DCT-2DUS)-Nierenregistrierung zu verbinden.

Modernste Methoden (SOTA)5 können je nach Lernstrategie oder CNN-basierter (Convolutional Neural Network), Deep Adversarial Network-basierter und transformatorbasierter Bildregistrierung in überwachte, schwach überwachte und unüberwachte Registrierung eingeteilt werden. entsprechend der grundlegenden Netzwerkarchitektur. Die überwachte Registrierung 6 ist darauf trainiert, die Transformation mithilfe von Bildern und deren Ground-Truth-Transformationen vorherzusagen. Bei der schwach überwachten Registrierung7,8,9 werden überlappende Segmentierungen anatomischer Strukturen als Verlustfunktion verwendet, was die mit Ground-Truth-Daten verbundenen Einschränkungen verringert. Die unbeaufsichtigte Registrierung10,11,12,13,14,15 wird durch die Minimierung eines Unähnlichkeitsmaßes bei gegebenem Bildsatz trainiert und erfordert keine Ground-Truth-Transformationen. Die CNN-basierte Bildregistrierung16,17 trainiert eine entworfene CNN-Architektur und lernt die Zuordnung zwischen den Eingabebildern und den Verformungsfeldern. Die tiefe kontradiktorische Bildregistrierung18,19 besteht aus einem Generatornetzwerk und einem Diskriminatornetzwerk. Das Generatornetzwerk ist darauf trainiert, Transformationen zu generieren, und das Diskriminatornetzwerk lernt Ähnlichkeitsmetriken, um sicherzustellen, dass die generierten Transformationen realistisch sind oder die Eingabebilder gut registriert sind. Die auf Vision Transformer (ViT) basierende Registrierung20,21,22,23,24 lernt die inhärenten Beziehungen zwischen Daten durch den Aufmerksamkeitsmechanismus. Unsere Lösung ist die CNN-basierte unbeaufsichtigte Registrierung. Wir bezeichnen die Registrierung als unbeaufsichtigtes Lernen, da das Registrierungssubnetz einem unbeaufsichtigten Training unterliegt. Die Feature-Subnetze werden separat und nicht speziell für die Registrierungsaufgabe trainiert. Es handelt sich um unabhängige Feature-Extraktoren, und universelle Features sind auch auf unsere Lösung anwendbar.

Bei den meisten 3D-2D-Registrierungen handelt es sich um überwachte projektive Registrierungen. Das 2D-Bild ist die Projektion des 3D-Volumens. Miao6 schlug vor, die CNN-Regression zu verwenden, um 2D-Röntgenbilder mit 3D-DRR-Bildern (digital reconstructed radiograph) zu registrieren. Für ihre Anwendung standen Ground-Truth-Transformationen zur Verfügung. Foote25 schlug vor, Tumore mithilfe einer einzigen Durchleuchtungsprojektion mithilfe einer überwachten, lernbasierten Methode zu verfolgen. Die Methode erfasste die CT-Volumina dicht und berechnete DRR-Projektionen mit einer linearen Kombination von Bewegungskomponenten über DenseNet 26. Salehi 27 schätzte die Lage der 2D-MR-Ebene innerhalb des MR-Volumens mithilfe der überwachten Regression CNN. Liao28 und Krebs29 schlugen den Einsatz von Reinforcement Learning vor, um eine 2D/3D-Registrierung durch das Erlernen einer Reihe von Aktionen durchzuführen. Unsere Methode ist die geschnittene 3D-2D-Registrierung. Für das Training wird keine projektive Geometrie vorausgesetzt und es wird keine Ground-Truth-Transformation verwendet. Darüber hinaus steht es vor den Herausforderungen eines sehr großen potenziellen Suchraums. Wir gehen diese Schwierigkeiten mit der vorgeschlagenen neuartigen Lösung an. Guo30 schlug vor, den 2D-TRUS-Rahmen mit dem 3D-rekonstruierten TRUS-Volumen mithilfe eines tiefen Registrierungsnetzwerks auszurichten. Ihre Methode nutzte die CNN-Regression zur Schätzung von Transformationsparametern und verglich sie mit der Ground-Truth-Transformation für den mittleren quadratischen Fehlerverlust. Mithilfe einer geschätzten Transformation wurde ein 2D-Schnitt abgetastet und der Schnitt mit 2D-TRUS auf zusätzlichen Bildähnlichkeitsverlust verglichen. Der Autor stellte fest, dass unbeaufsichtigtes Lernen nicht zu einem stabilen Training führen kann. Daher wurde das Netzwerk auf monomodalen Bildern unter überwachtem Lernen mit dem kombinierten Verlust trainiert. Wei 31 schlug vor, Gefäßbeschriftungen auf 2D-U/S-Bildern mit Gefäßbeschriftungen auf 3DCT/MR-Leberbildern mithilfe einer Tiefenregistrierung zu registrieren, was einen monomodalen Ansatz darstellte. Sie beschrifteten das Bild manuell und analysierten nicht die komplexe Beziehung zwischen den Intensitäten entsprechender Strukturen in Multimodalitätsbildern. Das Registrierungsmodell wurde im Rahmen von überwachtem Lernen trainiert, gefolgt von einem herkömmlichen Flugzeuganpassungsprozess.

Die tiefe affine Registrierung verwendet eine Encoderstruktur14, eine siamesische Encoderstruktur32 oder eine ViT-basierte Struktur33. Es handelt sich um 3D-3D-Bildregistrierungen mit einer einzelnen Modalität und kann nicht die vollständige Lösung für die 3DCT-2DUS-Registrierung sein. Darüber hinaus werden für die Registrierung bei mehreren Maßstäben aufgrund von Kapazitätsbeschränkungen zwei oder drei Encoder übereinander gestapelt. Im Gegensatz dazu schlagen wir die Verwendung einer Encoder-Decoder-Struktur vor, die eine mehrstufige Registrierung durch hierarchische Regression von Transformationsparametern aus Decoderschichten ermöglicht. Es ermöglicht mehr Maßstäbe und bietet Vorteile für die Registrierung großer Transformationen und eine schnelle Modellkonvergenz.

Balakrishnan10 schlug VoxelMorph vor, eine unbeaufsichtigte Registrierung durchzuführen. Wir haben ihre Basisarchitektur übernommen und zu einer hierarchischen Architektur verbessert, um Transformationsparameter auf mehreren Skalen zu generieren. Hu8 schlug vor, Bildfunktionen als Leitfaden für die Registrierung zu verwenden. Unsere Arbeit ist ihrer Arbeit8 in mehreren Aspekten konzeptionell überlegen. Der erste befasst sich mit der Architektur. In ihrer Arbeit werden Originalbilder verwendet, um das Registrierungsnetzwerk zu trainieren, und die Ground-Truth-Bildsegmentierungsetiketten werden zur Berechnung der Verlustfunktion verwendet. Unsere Arbeit nutzt ein Netzwerk zur Darstellung von Bildern und gibt Bilddarstellungen in das Registrierungsnetzwerk ein. Sowohl Bildinhalte auf Voxelebene als auch High-Level-Funktionen tragen zur Registrierung bei. Die zweite ist die Verlustfunktion. Zur Messung der Bildähnlichkeit des CT-US-Paares wird ein modalitätsunabhängiger Nachbarschaftsdeskriptor (MIND)34 verwendet. Hier gehen wir davon aus, dass ein High-Level-Feature die Ausrichtung nahe an ihr Optimum bringen kann und dass der MIND-Verlust lokal kontinuierlich ist. Ein Gradientenverlust soll die Glätte der Atmungsbewegung bei U/S-Fensterscans regulieren. Drittens geht es um die 3DCT-3DTRUS-Prostataregistrierung. Wir behandeln die 3DCT-2DUS-Niere mithilfe einer tiefen, starren Registrierung. Wir trainieren ein Modell vor, indem wir ein Schema für unbeaufsichtigtes Lernen und Datengenerierung verwenden, und verfeinern das Modell durch Transferlernen in einem Zyklus. Heinrich35 schlug eine diskrete 3DCT-CT-Registrierung vor, die zwei Optimierungsschritte nutzte: unüberwachtes Lernen für die globale Suche und eine Korrelationsschicht für die lokale optimale Suche. Unsere Methode integriert Merkmale, Bilder und Bewegungsmetriken in die Verlustfunktion und führt eine einstufige Transformationsschätzung durch.

In dieser Arbeit haben wir eine neuartige Deep-Learning-Pipeline für die Registrierung geschnittener 3DCT-2DUS-Nieren beigesteuert. Es wurden zwei Hauptherausforderungen gemeistert: die Registrierung von Bildern unterschiedlicher Dimensionen und Bildgebungsmodalitäten. Um den Dimensionsunterschied auszugleichen, wurden die U/S-Bilder zunächst durch Nullauffüllen auf die gleiche CT-Dimension erweitert. Da es im Vergleich zur 3D-3D-Volumenregistrierung relativ wenige räumliche Einschränkungen zwischen CT-Volumen und 2D-U/S-Schnitten gab, war es notwendig, die 3D-CT effektiv zu verschieben. Wir schlugen die Verwendung eines starren Encoder-Decoder-Registrierungsnetzwerks und eine hierarchische Regression der Transformationen von jeder Decoderebene vor. Transformationen für Bilder von niedriger zu hoher Auflösung wurden durch gewichtete Translation und Rotation in der höchsten Auflösung kombiniert. Zusätzlich zur hierarchischen Regression haben wir einen kombinierten Verlust entwickelt, um die Ausrichtung der Bildsequenz über globale tiefe Nierenmerkmale und lokale modalitätsunabhängige Bildmerkmale genau und reibungslos über die Transformation aufeinanderfolgender Bilder zu steuern. Um die Registrierungsleistung weiter zu verbessern und die Effizienz bei klinischen Anwendungen sicherzustellen, haben wir außerdem ein unbeaufsichtigtes Training des Registrierungsnetzwerks in zwei Schritten vorgeschlagen: Vortraining des Modells unter Verwendung der allgemeinen Trainingsdatensätze und adaptives Training des Modells für zwei Epochen unter Verwendung spezifischer Patiententrainingsdatensätze durch ein- Zyklustransfer-Lernen. Die Generierung von Trainingsdaten wurde vorgeschlagen, um Bildpaare für das allgemeine Training zu generieren. Um die verschiedenen Bildgebungsmodalitäten zu berücksichtigen, haben wir vorgeschlagen, tiefe Nierenmerkmale auf CT- und U/S-Bildern für den Gesamtvergleich zu extrahieren und modalitätsunabhängige Bildmerkmale für den Vergleich mit lokalen Details zu extrahieren. Das Feature-Netzwerk wurde mit handgefertigten Texturebenen entworfen, um die semantische Lücke zu verringern. Darüber hinaus haben wir ein Zeitfenster auf die U/S-Sequenz angewendet, um die Nierenbeobachtung auf verrauschten Bildern durch Einbeziehung von Informationen zur Atembewegung zu verbessern. Im Allgemeinen befasste sich die Methodik mit allen Problemen bei der Nierenregistrierung während der freien Atmung. Nach unserem besten Wissen ist dies die erste Deep-Learning-Pipeline für die Registrierung geschnittener 3DCT-2DUS-Nieren.

Laut Ärzten verformt sich die menschliche Niere selten aufgrund von Haltungs- und Atmungsänderungen des Patienten. Daher haben wir bei der Nierenbildregistrierung eine starre Transformation verwendet. Die vorgeschlagene Lösung besteht aus 3DULBNet36 und einem hierarchischen 3D-2D-Registrierungsnetzwerk. 3DULBNet wurde separat offline auf CT- und gefensterte U/S-Bilder für binäre Segmentierungsaufgaben trainiert. Sie wurden mit dem Registrierungsnetzwerk verbunden, um die CT-Ebene vorherzusagen, die am besten zu den U/S-Bildern passt.

Das ULBNet ist ein 5-Ebenen-U-Net mit einem Restblock, der die ursprüngliche Faltungsschicht ersetzt (Anhang A). Eine lokale binäre Faltungsschicht (LBC)37 wurde hinzugefügt, um Verbindungen zu überspringen. Die Abbrecherquote wurde auf 0,2 festgelegt. Für CT-Bilder beträgt die Patchgröße 160 × 160 × 80 und die Stapelgröße war 1. Der Optimierer war Adam. Die Verlustfunktion war der negative Würfelkoeffizient. Die Ausgabeschicht war eine Faltungsschicht mit Sigmoidaktivierung und ihre Ausgabe war eine Nierenmerkmalskarte von CT-Bildern. Die Feature-Map war eine Wahrscheinlichkeitskarte eines Pixels/Voxels als Niere. Es beschrieb die allgemeine Form, die für die Niere charakteristisch ist. Einzelheiten zur Methode zur Verarbeitung von CT-Bildern finden Sie in ULBNet36.

U/S-Bilder sind verrauscht und es ist schwierig, Nieren auf einem einzelnen Bild abzugrenzen. Informationen zur Nierenbewegung sind nützlich. Da die U/S-Sequenz die Niere bei der Atmung scannt, kann die Nierenbewegung nicht in einem Bild, sondern in einigen aufeinanderfolgenden Bildern beobachtet werden. Die U/S-Bildsequenzen werden experimentell mit einer Größe von 5 gefenstert (Anhang E). Anstatt also Features aus dem 2D-U/S-Frame zu extrahieren, haben wir sie aus dem Volumen in 256 × 192 × 5 extrahiert. Im U/S-Feature-Netz betrug die Eingabegröße 256 × 192 × 5 und wurde um 2 herunter-/hochgesampelt auf jeder Ebene. Wir haben die Daten in der Zeitdimension nicht heruntergerechnet. Die Anzahl der Feature-Maps betrug 16, 32, 64, 128 und 256 im Encoder-Pfad und 256, 128, 64, 32 und 16 im Decoder-Pfad. Die Ausgabeschicht war eine Faltungsschicht mit Sigmoidaktivierung und der Ausgabe einer U/S-Nieren-Feature-Map. Nierenmerkmalskarten von CT- und U/S-Bildern hatten die gleiche Dimension wie die Eingabe. Die gefensterten Nierenmerkmalsbilder wurden zur Erstellung des CT-US-Bildpaares verwendet.

Wir stellen die Nierenregistrierung (Abb. 1) in fünf Aspekten vor: Bildpaarvorverarbeitung, Netzwerkstruktur, Verlustfunktion, Trainingsdatengenerierung und Lernstrategie.

Die 3D–2D-Registrierungsnetzwerkstruktur.

Alle CT-Bilder wurden in RAI-Ausrichtung konvertiert und isotopisch in 0,8 mm × 0,8 mm × 0,8 mm abgetastet. CT-Scans wurden automatisch auf 128 × 224 × 288 um den Schwerpunkt herum zugeschnitten. Das AU/S-Bild wird auf 0,8 mm × 0,8 mm neu abgetastet und auf 224 × 288 zugeschnitten. Gefensterte U/S-Bilder wurden in einem 128 × 224 × 288-Volumen ohne Auffüllung zentriert. Innerhalb eines US-Fensters war die Mitte das Registrierungsziel, und die anderen trugen zur Bewegungsregulierung bei. U/S-Bilder wurden entlang der Zeitachse gestapelt, genau wie die RL-Achse im Bildraum. Das CT-Volumen wurde an U/S angepasst, indem die Nierenschwerpunkte aus Feature-Maps abgeglichen wurden. Da das U/S-Scannen der Niere den Einschränkungen durch die Rippen und Wirbelsäulen der Patienten unterlag, kann die Variabilität der Ausgangsposition von 3DCT-2DUS-Paaren groß sein. Um die Variabilität zu verringern, haben wir die Niere im CT gleichmäßig auf der Unter-Ober-Achse ausgerichtet und dann die Niere im U/S mit dem Schwerpunkt ausgerichtet. Die Eingaben in das Registrierungsnetzwerk waren CT- und U/S-Fensterbilder von 128 × 224 × 288. CT war das bewegte Bild und U/S das feste Bild.

Die Architektur ist in Abb. 1 dargestellt. Die CT- und U/S-Volumes wurden verkettet, bevor sie zur Faltungsschicht gingen. Die Anzahl der Feature-Maps betrug 8, 16 und 16 im Encoder-Pfad und 16, 16, 16, 16, 8 und 8 im Decoder-Pfad. Das Upsampling wurde mit Upsampling3D und das Downsampling mit Schrittfaltung durchgeführt. Bei der Transformationsregression wurde der affine Block verwendet. Auf jeder Decoderebene erfolgte die Aktivierung der Ausgabeschicht (dichten Schicht) für Transformationsparameter. Die Schicht des räumlichen Transformatornetzwerks (STN)38 verarbeitete eine starre Transformation, da die Niere während der freien Atmung selten eine Verformung erfuhr. Der Optimierer war Adam. Die Lernrate betrug 3e−4. Da die Fenstergröße von U/S-Bildern Nw betrug, bestand die Ausgabetransformation aus einem Satz von 6 Nw starren Transformationsparametern, 3 Nw für Rotation und 3 Nw für Translation. Nw wurde in dieser Arbeit experimentell auf 5 eingestellt (Anhang G). Jede Schicht im Decoderpfad gibt einen Satz Transformationsparameter aus, und ihre gewichtete Summe bildet die endgültige Transformation. Bei der Rotation handelte es sich um einen Durchschnitt der Rotationsparameter. Für die Übersetzung war es eine gewichtete Summe der Übersetzungsparameter und die Gewichte waren {8, 4, 2, 1}/4 = {2, 1, 0,5, 0,25}. Die Rotation war skaleninvariant und durchschnittlich gewichtet. Die Übersetzung war umgekehrt proportional zur Bildauflösung und wurde proportional gewichtet. Die hierarchische Aktivierung verbesserte die Vorhersage und verkürzte die Trainingszeit. Die Anzahl der trainierbaren Parameter betrug etwa 282 M.

Die Feature-Map beschreibt die gesamte Niere und das MIND-Feature beschreibt Bilddetails. Sie können einander ergänzen, um die Ausrichtung genau zu messen. Da die Registrierung während der Atmung erfolgt, sollten sich die erhaltenen CT-Schnittebenen zu gleichmäßigen Zeitsequenzen zusammenfügen lassen. Gegeben sei \({I}_{fix}\) festes Bild, \({I}_{mov}\) bewegtes Bild, \({M}_{fix}\) feste Feature-Map, \({M}_ {mov}\) Moving Feature Map und \(\mathcal{D}\) Transformationsparameter, der Feature-Image-Motion (FIM)-Verlust wurde durch drei Maße auf der Feature-Map, dem Originalbild, definiert (Gleichung 1), und Transformation:

Der Merkmalsverlust war der negative Dice-Koeffizient der festen und verzerrten Nieren-Merkmalskarte (Gleichung 2), wobei \(DICE\left(x,y\right)= \frac{1}{m}\sum \left(\ frac{2x \odot y}{x \oplus y}\right)\), ⨀ und ⊕ sind elementweise Operationen: Multiplikation und Addition, und m ist die Anzahl der Elemente. DICE wurde zwischen der mittleren Schicht in der RL-Achse des verzerrten CT-Volumens und der entsprechenden Schicht im festen U/S-Volumen berechnet. Der Funktionsverlust betrug innerhalb der Zeitfenster einen durchschnittlichen DICE. Der Bildverlust war die MIND-Merkmalsdifferenz zwischen dem fixierten und dem verzerrten Originalbild (Gleichung 3)39. Ein MIND-Merkmal wurde durch eine Gaußsche Funktion der mittleren quadratischen Differenz zwischen einem zentralen Teil des Bildes und einem seiner sechs benachbarten Flecken berechnet. Die Nachbarschaft war in 3D und die Patchgröße betrug 3 × 3 × 3. MIND-Merkmale wurden aus dem CT-Volumen und aus dem U/S-Volumen extrahiert, um lokale 3D-Bildinformationen zu erfassen, während sich die Niere bewegte. Das U/S-Volumen hatte 5 Bilder, und das Merkmal seines mittleren Bildes war gültig und wurde zur Berechnung des Bildverlusts verwendet. Der Bildverlust war die mittlere absolute Differenz zwischen den MIND-Merkmalen der mittleren Schicht in der RL-Achse im verzerrten CT-Volumen und denen im festen U/S-Volumen zum Vergleich zweier Bilder mit lokalen Details. N war die Menge der Verschiebungsvektoren. Hier müssen die CT-Bilder vor der Berechnung von MIND maskiert werden, da CT-Bilder zusätzlich zur Niere zusätzliche anatomische Strukturen zeigen. Der Transformationsverlust (Gleichung 4) war eine gewichtete Summe der L2-Norm dividiert durch die Anzahl der Parameter und die durchschnittliche Transformationsdifferenz (Gleichung 4). \({\lambda }_{1} , {\lambda }_{2}\) wurden empirisch auf 0,01 und 0,001 festgelegt. Hier haben wir angenommen, dass MIND lokal kontinuierlich ist. \({\lambda }_{1}\) wurde auf 0,01 gesetzt, um sicherzustellen, dass der Merkmalsverlust zunächst die Gewichtsaktualisierungen dominiert. Bei Annäherung an das globale Optimum wurde der Bildverlust wirksam, um die Gewichte fein abzustimmen. Der Transformationsverlust regulierte die Bewegungstransformation, um das CT in seine optimale Position zu bewegen, ausgerichtet auf U/S-Bilder. Grundsätzlich wurde der Merkmalsverlust \({\mathcal{L}}_{f}\) auf Nieren-Feature-Maps berechnet. Der Bildverlust \({\mathcal{L}}_{i}\) wurde zwischen U/S-Bildern und maskierten CT-Bildern berechnet, die durch elementweise Multiplikation der verzerrten CT-Bilder und der verzerrten CT-Nierenmerkmalskarte implementiert wurden. Der Verlust wurde für Nierenregionen berechnet, wodurch der Einfluss des Unterschieds zwischen dem Sichtfeld in CT- und U/S-Bildern eliminiert wurde.

Die Transformation erfolgte im 6-dimensionalen Raum, während die Datengröße relativ klein war. Das Netzwerktraining war anfällig für Überanpassung. Die Generierung von Trainingsdatensätzen war notwendig und wurde bei der projektiven 3D-2D-Bildregistrierung eingesetzt25,40. Üblicherweise wurde eine dichte Probenahme verwendet. Im Gegensatz zur projektiven Registrierung waren die Transformationsparameter oder ihre Verteilung für die 3D-2D-Registrierung in Scheiben nicht kontrollierbar und nicht verfügbar. Wir mussten es herausfinden. Zuerst überprüften wir Referenzebenen mit Ärzten (Anhang B). Die Transformationen, um diese verifizierten Ausrichtungen zu erhalten, wurden Parameter für Parameter in 2-Sigma-Gauß-Verteilungen modelliert, wobei wir Nt-Transformationen einzeln zufällig ausgewählt haben (Anhang C). Die Nt-Rücktransformationen transformieren die optimale Ausrichtung zurück in Nt-unterschiedliche anfängliche Nierenpositionen. Wir haben Nt-Trainings-CT-US-Paare generiert, indem wir Nt-Umkehrtransformationen auf ein Referenz-CT-Volumen angewendet haben (Anhang D). Unser Schema zur Generierung von Trainingsdaten hat dazu beigetragen, realistische Trainingsdatensätze zu erhalten, um eine Überanpassung zu vermeiden. Wenn in Zukunft ausreichend klinische Daten verfügbar sind, kann die Datengenerierung vernachlässigt werden.

Basierend auf den generierten Trainingsdatensätzen wurde unbeaufsichtigtes Lernen eingesetzt, um ein Registrierungsmodell vorab zu trainieren. Unsere Ziel-U/S-Bilder sind Atemsequenzen, einschließlich Bildern von periodischen Atemzyklen. Es war möglich, den patientenspezifischen Datensatz vor Ort zu nutzen, um die Modellleistung weiter zu verbessern. Wir schlugen eine Ein-Zyklus-Transfer-Lernstrategie vor, die das vorab trainierte Modell mithilfe der Daten des ersten Atemzyklus durch Transfer-Lernen mit zwei Epochen verfeinerte und die Transformationen anschließend ableitete. Ein patientenspezifisches Training vor Ort ohne vorab trainiertes Modell war nicht durchführbar, da die Konvergenzzeit zu lang war, um akzeptiert zu werden, und eine lange Operationsvorbereitungszeit in klinischen Anwendungen unpraktisch war. Wir haben vorgeschlagen, Transferlernen zu verwenden, um das Modell zu verfeinern, um Zeit zu sparen und die Leistung zu verbessern (Anhang F).

Der Hausdorff-Abstand (HD) und der mittlere Konturabstand (MCD) zwischen den Umrissen der Niere auf CT- und U/S-Bildern wurden verwendet, um zu beurteilen, ob das CT-US-Paar gut ausgerichtet war, und wurden wie folgt berechnet

\(d\left(u,c\right)\) ist der Absolutwert auf der Distanzkarte und c und u sind Konturpunkte auf den CT- bzw. U/S-Bildern. HD und MCD wurden in Millimetern angegeben. Der CT-U/S-Abstand (CT-US) wurde zwischen den Nierengrenzen auf CT- und U/S-Bildern berechnet. Der CT-zu-CT-Abstand (CT–CT) zwischen den Nierenkonturen auf der resultierenden CT-Ebene und der Referenz-CT-Ebene.

Die internen Datensätze wurden vom Fifth Affiliated Hospital der Guangzhou Medical University gesammelt und am 28. August 2020 vom Institutional Review Board mit der Protokollnummer L2020-24 genehmigt.

Die Datensätze bestanden aus öffentlichen KiTS1941-Datensätzen und internen Datensätzen. Öffentliche Datensätze bestanden aus 210 CT-Bildern der kortikomedullären Phase (CMP). Die internen Datensätze wurden vom Fifth Affiliated Hospital der Guangzhou Medical University gesammelt und am 28. August 2020 vom Institutional Review Board mit der Protokollnummer L2020-24 genehmigt. Die Datensätze wurden nacheinander von Januar bis Mai 2021 untersucht und bestanden aus 132 U/S-Bildsequenzen (mehr als 30.000 Bilder) von 31 Patienten, 39 Mehrphasen-CT-Bildern von 24 Patienten und 25 Paaren von CT-Volumina und U/S-Sequenzen von 25 Patienten. Alle Bilder wurden anonymisiert. Die CT-Scans wurden mit einem 64-Zeilen-Scanner (GE OPTIMA CT600 CT-Scanner) unter Verwendung eines standardmäßigen vierphasigen kontrastverstärkten Bildgebungsprotokolls mit einer Schichtdicke von 0,6–5,0 mm, einer Matrix von 512 × 512 Pixeln und einer Inplane aufgenommen Auflösung von 0,625–0,916 mm. Das CMP-Scannen wurde mit 180 HE im interessierenden Bereich innerhalb der Bauchaorta durchgeführt. Die nephrographische Phase (NP) wurde 28 Sekunden nach dem Kontrastmittel durchgeführt, und die Ausscheidungsphase (EP) wurde 10–30 Minuten nach dem Kontrastmittel durchgeführt. Die US-Datensätze wurden mit einem GE Versana Active™-Ultraschallsystem mit einer Matrix von 1132 × 852 Pixeln und einer Inplane-Auflösung von 0,22–0,29 mm erfasst. Die U/S-Sequenzen wurden mit 17–22 Bildern pro Sekunde gescannt und hatten 58 ± 14 U/S-Bilder pro Atemzyklus.

Für jedes U/S-Bild wurde eine manuell ausgewählte Referenz-CT-Schnittebene mit der Überlappung der Nierengrenzen nebeneinander für vier erfahrene Kliniker angezeigt, um einstimmig zu überprüfen, ob es sich um dieselbe Schnittebene der Niere handelte. Die verifizierten Flugzeuge bildeten unseren grundlegenden Referenzsatz, aus dem wir den Trainingssatz erweiterten. Bei 22 von 25 Paaren von CT-Volumen- und U/S-Sequenzen wurde von Ärzten bestätigt, dass ihre 3D-Schnittebene in den CTs mit der in den U/S-Bildern übereinstimmte.

Sechs Parameter in Transformationen, die zu den Referenz-CT-Ebenen aus den Anfangspositionen führten, wurden in 2-Sigma-Gauß-Verteilungen modelliert. Die klinischen Datensätze wurden im Verhältnis 7:1:2 für Trainings-, Validierungs- und Testsätze nach Patienten aufgeteilt. Sie wurden auf Pixel mit einem Mittelwert von Null und einem Varianzwert normiert. Um die Leistung des Modells zu bewerten, wurde eine fünffache Kreuzvalidierung verwendet. Die Patientendaten wurden in fünf Gruppen aufgeteilt. Eine Gruppe testete Datensätze und die übrigen Gruppen waren Trainings-/Validierungsdatensätze. Der Zug-/Validierungsdatensatz wurde zufällig aufgeteilt. Die Leistung des Modells wurde über fünf Durchläufe gemittelt. Nur Trainingsdatensätze wurden N-mal generiert.

Unser Netzwerk wurde auf TensorFlow implementiert und das Training wurde auf einer Workstation mit einer dualen Nvidia Quadro RTX 5000 von 16 GB und einem CPU-Speicher von 256 GB durchgeführt. Die Lernrate betrug 1 × 10–4. Das Modell wurde von bewertet

Das Modell ergab einen durchschnittlichen Dice-Koeffizienten von 96,88 % bei der Nierensegmentierung in den einfachen Phasen-CT-Bildern (Tabelle 1). Das Netzwerk ergab einen durchschnittlichen Dice-Koeffizienten von 96,39 % auf Bildern aus den USA und den USA.

Die generierten Datensätze wurden nur für das Training verwendet. Je mehr Datensätze generiert werden, desto kleiner wird die erreichte MCD. Hier haben wir etwa 12.000 Trainingsdatenpaare generiert, das Zehnfache von Klinikdatensätzen, um das Registrierungsnetzwerk vorab zu trainieren. Wir haben eine Ablationsstudie zu dieser Methode durchgeführt (Tabelle 2). Alle Netzwerkkomponenten trugen zur Leistungsverbesserung bei. Die hierarchische Transformationsregression auf Decoderebenen trug mehr bei als der MIND-Verlust. Den größten Beitrag leistete ein einstufiges Transferlernen. Die Unsicherheitsschätzung befand sich in Anhang H.

Da unsere Deep-Learning-basierte Pipeline die erste für die 3DCT-2DUS-Nierenregistrierung ist, können wir unsere Methode nur hinsichtlich des Registrierungsmoduls mit SOTAs 14,32,33 vergleichen (Tabelle 3). Wir haben unser hierarchisches Encoder-Decoder-Registrierungssubnetz durch die Encoderstrukturen oder das transformatorbasierte Registrierungsmodul ersetzt. Das heißt, die Eingabe für SOTA waren CT-US-Merkmalspaare nach globaler Ausrichtung. VoxelMorph, ConvNet-affine14, VTN-affine32 und C2FViT33 wurden auf den allgemeinen Trainingsdatensätzen trainiert, um zu konvergieren. VoxelMorph verwendet denselben affinen Block wie in unserem Registrierungsnetzwerk, um starre Transformationsparameter zu erhalten. ConvNet-affine und VTN-affine wurden basierend auf ihren Arbeiten implementiert, während eine starre Transformation angewendet wurde.

Unser zweistufiges Training war allen SOTAs überlegen, gemessen anhand von HD und MCD (Tabelle 3). Die 2D-CT-US-Abstände waren kleiner als die 3D-CT-CT-Abstände, da der Abstand in einer Dimension übersehen wurde. Mit einer einstufigen Trainingsstrategie schnitt unser vorab trainiertes Modell mit einem kleineren 3D-CT-CT-Abstand und einem größeren 2D-CT-US-Abstand besser ab als VoxelMorph. Dieses Ergebnis zeigte, dass hierarchische Strukturen die Konvergenz zu einem lokalen Optimum verhinderten. Darüber hinaus wurde festgestellt, dass unser vorab trainiertes Modell mit hierarchischen Strukturen während des Trainings bei etwa 20–50 Epochen konvergierte, viel schneller als VoxelMorph, das bei etwa 200–300 Epochen konvergierte. Darüber hinaus schnitt die transformatorbasierte Methode C2FViT mit einer einstufigen Trainingsstrategie besser ab als CNN-basierte Methoden.

Wir haben unsere Methode mit SOTAs verglichen, die eine zweistufige Trainingsstrategie verwendeten, alle mit einer einzyklischen Transfer-Lernstrategie (Tabelle 3). Unsere haben am meisten durch Transferlernen gelernt, um die Leistung zu verbessern. ConvNet, eine siamesische Encoderstruktur, war nach unserer die zweitgrößte. C2FViT hat am wenigsten gelernt. Die CNN-basierte Methode schnitt besser ab als die transformatorbasierte Methode mit Transferlernen in einem Zyklus für zwei Epochen. Unsere Methode hat am besten abgeschnitten. Beispielergebnisse finden Sie in Anhang I.

Wir haben die CT-US-Bildpaare in zwei Gruppen unterteilt, sortiert nach Transformationen. Gruppe A umfasste Datensätze kleiner Transformationen, Rotationen von 10,37° ± 2,24° und Translation von 3,69 ± 0,95 mm. Gruppe B umfasste Datensätze großer Transformationen, Rotationen von 24,72° ± 2,28° und Translation von 5,04 ± 1,20 mm. Rotation und Translation wurden separat als L2-Norm der Komponenten in x-, y- und z-Richtung berechnet. Alle auf Deep Learning basierenden Methoden verwendeten eine zweistufige Lernstrategie. Die Leistung der beiden Gruppen wurde gemessen (Tabelle 4). Unsere Methode schnitt sowohl in den Gruppen A als auch in den Gruppen B am besten ab. Sie war robust gegenüber großen Transformationen.

Beispielhafte Testsequenzen von CT- und U/S-Bildern wurden in RAI-Ausrichtung angezeigt (Abb. 2). U/S-Bilder und resultierende CT-Ebenen in sagittaler Ansicht wurden entlang der R-L-Ausrichtung gestapelt. Die axialen und koronalen Ansichten lieferten dynamische Informationen und die R-L-Achse stellte die Zeit dar. Die koronale Ansicht zeigte die Auf- und Abbewegung der Niere während der Atmung, und die axiale Ansicht zeigte die Hin- und Herbewegung der Niere.

Beispielhafte Registrierungsergebnisse, von links nach rechts, die Bilder sind axiale CT-Ansicht, sagittale CT-Ansicht, koronale CT-Ansicht, axiale U/S-Ansicht, sagittale U/S-Ansicht, koronale U/S-Ansicht. Die Zeilen 1 und 3 visualisierten die innere Ausrichtung des Nierensteins (Fadenkreuz in der sagittalen Ansicht). Die Zeilen 2 und 4 visualisierten die Schichtausrichtung bei Inspiration und Exspiration (Fadenkreuz in der koronalen Ansicht).

Es war schwierig, entsprechende Orientierungspunkte zwischen CT und U/S zu finden. Wir haben einen Sonderfall identifiziert, bei dem sowohl auf den U/S-Bildern als auch auf den CT-Bildern während der Atmung eine kleine Läsion sichtbar war (Abb. 3). Die Läsion hatte an der linken Niere einen Durchmesser von etwa 7 mm. Für diesen Sonderfall war es interessant, den Tumorabstand nach der Registrierung zu kennen. Wenn wir annehmen, dass das Zentrum der im US-Scan beobachteten Läsion auch ihr Schwerpunkt im CT-Volumen ist, betrug der Tumorzentrumsabstand nach der Registrierung 3,39 mm. 4,38 mm, 6,04 mm, 4,16 mm und 3,91 mm resultierten aus VoxelMorph, C2FViT, VTN-affin bzw. ConvNet-affin. Der Abstand war groß, da sich der Tumor nahe der Nierenoberfläche befand.

Beispielbildpaar zur Visualisierung des Zielregistrierungsfehlers (TRE) auf (a) einer kleinen Läsion im registrierten CT-Bild und U/S-Bild, (b) der Bewegung einer kleinen Läsion in der Atmung.

Nachdem unbeaufsichtigte affine Registrierungen verglichen wurden, stellten wir in diesem Abschnitt die Leistungen bestehender 2D/3D-Registrierungsmethoden in Tabelle 5 vor. SOTA-Methoden befassten sich mit der tiefen 2D/3D-Registrierung mithilfe überwachter CNN-Regression6,25,27,30 und überwachtem Verstärkungslernen28,29 oder überwachte CNN-Segmentierung mit konventioneller Ebenenregression31. Sie lernten alle unter Aufsicht. Unsere Methode nutzte ein unbeaufsichtigtes End-to-End-Faltungs-Neuronales Netzwerk, das sowohl Transformationsparameter als auch die resultierende Schnittebene ausgab, wurde ohne die Ground-Truth-Transformationen trainiert und erzielte eine mit den überwachten Methoden vergleichbare Leistung.

Es ist eine Herausforderung, eine perfekte räumliche Übereinstimmung für CT- und U/S-Bilder zu erreichen. Wir haben den Abstand an den Referenz-CT-US-Paaren gemessen; Die durchschnittliche HD betrug 3,57 ± 1,11 mm und die MCD 0,79 ± 0,22 mm, was etwa einem Pixel entspricht. Der Abstand ungleich Null kann auf eine unvollständige Konturextraktion, einen Rippenverschluss oder eine unterschiedliche Körperhaltung des Patienten zurückzuführen sein.

Das vorab trainierte Modell profitiert von der Generierung von Trainingsdaten, da sich die Transformationsparameter im hochdimensionalen Raum befinden und die Datengröße klein ist. Allerdings macht es die alleinige Vergrößerung der generierten Datensätze schwierig, die Modellleistung weiter zu verbessern. Wir haben vorgeschlagen, Transferlernen zu nutzen, um dieses Ziel zu erreichen.

Transferlernen erfordert möglicherweise zusätzliche Vorbereitungs-/Schulungszeit vor der Anwendung. Mit einem vortrainierten Modell kann die Vorbereitung deutlich verkürzt werden. Wenn das Registrierungsmodell beispielsweise von Grund auf mithilfe von Ein-Zyklus-Lernen trainiert wurde, dauerte die Konvergenz etwa 46 Minuten, während nur 2–3 Minuten erforderlich waren, wenn das Modell mithilfe von Transferlernen trainiert wurde. Daher war ein gutes vorab trainiertes Modell für praktische Anwendungen unerlässlich.

Obwohl mit Klinikern verifizierte optimale Ausrichtungen verfügbar waren, haben wir unser unbeaufsichtigtes Lernen nicht auf überwachtes Lernen umgestellt. Erstens war die Datenmenge recht gering und es war viel Aufwand erforderlich, um mehr Daten zu erhalten. Es war nicht wünschenswert, unser Modell daran zu hindern, vielseitige Paarungsdaten zu verarbeiten, sofern verfügbar. Die erhöhten Trainingsdaten erzeugten einen Regularisierungseffekt, der der Kostenfunktionsoptimierung zugute kam und Überanpassung und Modellverallgemeinerung reduzierte. Wir glauben, dass es in Zukunft möglich sein wird, mehr gepaarte Datensätze zu sammeln, um eine Überanpassung aufgrund der Beschränkung des Datensatzes zu überwinden.

Es gab eine von Wein42 vorgeschlagene konventionelle Methode für die 3DCT-3DUS-Nierenregistrierung. Die U/S-Bilder wurden mit einer nachgeführten Sonde bei angehaltenem Atem beim Einatmen aufgenommen. Die Optimierung wurde durch eine umfassende Suche im Übersetzungsraum durchgeführt. In dieser Arbeit zielten wir auf eine Deep-Learning-basierte 3DCT-2DUS-Nierenregistrierung während der Atmung ab, die eine tiefe Modellinferenz durchführte.

Nach unserem besten Wissen stellte dieses Papier die erste Deep-Learning-Pipeline für die Registrierung geschnittener 3DCT-2DUS-Nieren vor. Alle Schwierigkeiten bei der Nierenregistrierung während der freien Atmung wurden durch neuartige Netzwerkstrukturen und Trainingsstrategien angegangen. Umfassende Experimente zeigten, dass unsere vorgeschlagene Methodik gut funktionierte (Ergänzende Informationen: Anhang).

https://kits19.grand-challenge.org/.

Alam, F., Rahman, SU, Ullah, S. & Gulati, K. Medizinische Bildregistrierung in der bildgeführten Chirurgie: Probleme, Herausforderungen und Forschungsmöglichkeiten. Biocybern. Biomed. Ing. 38, 71–89 (2018).

Artikel Google Scholar

Gorbunova, V. et al. Gewichtserhaltende Bildregistrierung zur Überwachung des Krankheitsverlaufs im Lungen-CT. in medizinischer Bildverarbeitung und computergestützter Intervention. 863–870 (Springer, 2008).

Brandt, SS, Karemore, G., Karssemeijer, N. & Nielsen, M. Ein anatomisch orientiertes Brustkoordinatensystem für die Mammographieanalyse. IEEE Trans. Med. Bildgebung 30, 1841–1851 (2011).

Artikel PubMed Google Scholar

Nazib, A., Fookes, C. & Perrin, D. Eine vergleichende Analyse von Registrierungstools: Traditioneller vs. Deep-Learning-Ansatz für hochauflösende, aus Gewebe gelöschte Daten. arXiv-Vorabdruck arXiv:1810.08315 (2018).

Haskins, G., Kruger, U. & Yan, P. Deep Learning in der medizinischen Bildregistrierung: Eine Umfrage. Mach. Vis. Appl. 31, 1–18 (2020).

Artikel Google Scholar

Miao, S., Wang, ZJ & Liao, R. Ein CNN-Regressionsansatz für die Echtzeit-2D/3D-Registrierung. IEEE Trans. Med. Bildgebung 35, 1352–1363 (2016).

Artikel Google Scholar

Heinrich, MP Schließung der Lücke zwischen tiefer und konventioneller Bildregistrierung mithilfe probabilistischer dichter Verschiebungsnetzwerke. in der Internationalen Konferenz über medizinische Bildverarbeitung und computergestützte Intervention. 50–58 (Springer, 2019).

Hu, Y. et al. Schwach überwachte Faltungs-Neuronale Netze für die multimodale Bildregistrierung. Med. Bild Anal. 49, 1–13 (2018).

Artikel ADS PubMed PubMed Central Google Scholar

Lee, MC, Oktay, O., Schuh, A., Schaap, M. & Glocker, B. Bild- und räumliche Transformatornetzwerke für die strukturgeführte Bildregistrierung. in der Internationalen Konferenz über medizinische Bildverarbeitung und computergestützte Intervention. 337–345 (Springer, 2019).

Balakrishnan, G., Zhao, A., Sabuncu, MR, Guttag, J. & Dalca, AV Voxelmorph: Ein Lernrahmen für die Registrierung verformbarer medizinischer Bilder. IEEE Trans. Med. Bildgebung 38, 1788–1800 (2019).

Artikel Google Scholar

Dalca, AV, Balakrishnan, G., Guttag, J. & Sabuncu, MR Unüberwachtes Lernen für schnelle probabilistische diffeomorphe Registrierung. in der Internationalen Konferenz über medizinische Bildverarbeitung und computergestützte Intervention. 729–738 (Springer, 2018).

Kori, A. & Krishnamurthi, G. Zero-Shot-Lernen für die multimodale Echtzeit-Bildregistrierung. arXiv-Vorabdruck arXiv:1908.06213 (2019).

Krebs, J., Mansi, T., Mailhé, B., Ayache, N. & Delingette, H. Unbeaufsichtigte probabilistische Deformationsmodellierung für eine robuste diffeomorphe Registrierung. in Deep Learning in der medizinischen Bildanalyse und multimodalem Lernen zur klinischen Entscheidungsunterstützung. 101–109 (Springer, 2018).

de Vos, BD et al. Ein Deep-Learning-Framework für die unbeaufsichtigte affine und verformbare Bildregistrierung. Med. Bild Anal. 52, 128–143 (2019).

Artikel PubMed Google Scholar

Yoo, I., Hildebrand, DG, Tobin, WF, Lee, W.-CA & Jeong, W.-K. ssemnet: Elektronenmikroskopische Bildregistrierung im seriellen Schnitt unter Verwendung eines räumlichen Transformatornetzwerks mit erlernten Funktionen. in Deep Learning in der medizinischen Bildanalyse und multimodalem Lernen zur klinischen Entscheidungsunterstützung. 249–257 (Springer, 2017).

Cao, X. et al. Verformbare Bildregistrierung basierend auf ähnlichkeitsgesteuerter CNN-Regression. in der Internationalen Konferenz über medizinische Bildverarbeitung und computergestützte Intervention. 300–308 (Springer, 2017).

Wu, G., Kim, M., Wang, Q., Munsell, BC & Shen, D. Skalierbares Hochleistungs-Bildregistrierungs-Framework durch unbeaufsichtigtes Lernen tiefer Merkmalsdarstellungen. IEEE Trans. Biomed. Ing. 63, 1505–1516 (2015).

Artikel PubMed PubMed Central Google Scholar

Fan, J., Cao, X., Wang, Q., Yap, P.-T. & Shen, D. Adversarial Learning für die mono- oder multimodale Registrierung. Med. Bild Anal. 58, 101545 (2019).

Artikel PubMed PubMed Central Google Scholar

Hu, Y. et al. Kontradiktorische Deformationsregularisierung zum Trainieren neuronaler Bildregistrierungsnetze. in der Internationalen Konferenz über medizinische Bildverarbeitung und computergestützte Intervention. 774–782 (Springer, 2018).

Baum, Z., Hu, Y. & Barratt, DC Multimodale biomedizinische Bildregistrierung unter Verwendung freier Punkttransformatornetzwerke. in medizinischem Ultraschall sowie Frühgeborenen-, Perinatal- und Pädiatrie-Bildanalyse. 116–125 (Springer, 2020).

Chen, J. et al. TransMorph: Transformer für die unbeaufsichtigte medizinische Bildregistrierung. arXiv-Vorabdruck arXiv:2111.10480 (2021).

Chen, J., He, Y., Frey, EC, Li, Y. & Du, Y. ViT-V-Net: Vision Transformer für die unbeaufsichtigte volumetrische medizinische Bildregistrierung. arXiv-Vorabdruck arXiv:2104.06468 (2021).

Liu, Z. et al. Swin-Transformator: Hierarchischer Vision-Transformator mit verschobenen Fenstern. in Proceedings of the IEEE/CVF International Conference on Computer Vision. 10012–10022 (2021).

Wang, Z. & Delingette, H. Aufmerksamkeit für die Bildregistrierung (AiR): Ein unbeaufsichtigter Transformatoransatz. arXiv-Vorabdruck arXiv:2105.02282 (2021).

Foote, MD, Zimmerman, BE, Sawant, A. & Joshi, SC Echtzeit-2D-3D-verformbare Registrierung mit Deep Learning und Anwendung auf die gezielte Lungenstrahlentherapie. in der Internationalen Konferenz zur Informationsverarbeitung in der medizinischen Bildgebung. 265–276 (Springer, 2019).

Huang, G., Liu, Z., van der Maaten, L. & Weinberger, KQ Densely Connected Convolutional Networks. 4700–4708 (2017).

Salehi, SSM, Khan, S., Erdogmus, D. & Gholipour, A. Tiefenpositionsschätzung in Echtzeit mit geodätischem Verlust für die starre Bild-zu-Vorlage-Registrierung. IEEE Trans. Med. Bildgebung 38, 470–481 (2018).

Artikel PubMed Central Google Scholar

Liao, R. et al. Ein künstliches Mittel für eine robuste Bildregistrierung. in Proceedings of the AAAI Conference on Artificial Intelligence. Bd. 31 (2017).

Krebs, J. et al. Robuste, nicht starre Registrierung durch agentenbasiertes Aktionslernen. in der Internationalen Konferenz über medizinische Bildverarbeitung und computergestützte Intervention. 344–352 (Springer, 2017).

Guo, H., Xu, X., Xu, S., Wood, BJ & Yan, P. End-to-End-Ultraschallrahmen-zu-Volumen-Registrierung. in medizinischer Bildverarbeitung und computergestützter Intervention. 56–65 (Springer, 2021).

Wei, WEI, Haishan, X., Alpers, J., Rak, M. & Hansen, C. Ein Deep-Learning-Ansatz für 2D-Ultraschall und 3D-CT/MR-Bildregistrierung bei der Lebertumorablation. Berechnen. Methodenprogramme Biomed. 206, 106117 (2021).

Artikel PubMed Google Scholar

Zhao, S. et al. Unüberwachte 3D-End-to-End-Registrierung medizinischer Bilder mit Volumen-Tweening-Netzwerk. IEEE J. Biomed. Gesundheitsinformationen. 24, 1394–1404 (2019).

Artikel PubMed Google Scholar

Mok, TC & Chung, A. Affine medizinische Bildregistrierung mit Grob-zu-Fein-Sichttransformator. in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 20835–20844 (2022).

Heinrich, MP et al. MIND: Modalitätsunabhängiger Nachbarschaftsdeskriptor für die multimodale deformierbare Registrierung. Med. Bild Anal. 16, 1423–1435 (2012).

Artikel PubMed Google Scholar

Heinrich, MP & Hansen, L. Hochpräzise und speichereffiziente, unüberwachte, lernbasierte, diskrete CT-Registrierung mit 2,5-dpt-Verschiebungssuche. in der Internationalen Konferenz über medizinische Bildverarbeitung und computergestützte Intervention. 190–200 (Springer, 2020).

Chi, Y. et al. Segmentierung der Niere auf Mehrphasen-CT-Bildern mit ULBNet. im Jahr 2020 25. Internationale Konferenz zur Mustererkennung (ICPR). 8554–8561 (IEEE, 2021).

Pietikäinen, M., Hadid, A., Zhao, G. & Ahonen, T. Computer Vision unter Verwendung lokaler binärer Muster. Bd. 40 (Springer, 2011).

Jaderberg, M., Simonyan, K. & Zisserman, A. Räumliche Transformatornetzwerke. Adv. Neuronal. Inf. Verfahren. Syst. 28, 2017–2025 (2015).

Google Scholar

Heinrich, MP, Jenkinson, M., Papież, BW, Brady, SM & Schnabel, JA Auf dem Weg zur multimodalen Echtzeitfusion für bildgesteuerte Interventionen unter Verwendung von Selbstähnlichkeiten. in der Internationalen Konferenz über medizinische Bildverarbeitung und computergestützte Intervention. 187–194 (Springer, 2013).

Schaffert, R., Wang, J., Fischer, P., Borsdorf, A. & Maier, A. Erlernen eines Aufmerksamkeitsmodells für eine robuste 2D/3D-Registrierung unter Verwendung von Punkt-zu-Ebene-Korrespondenzen. IEEE Trans. Med. Bildgebung 39, 3159–3174 (2020).

Artikel PubMed Google Scholar

Heller, N. et al. Die Kits19-Challenge-Daten: 300 Nierentumorfälle mit klinischem Kontext, semantischen CT-Segmentierungen und chirurgischen Ergebnissen. arXiv-Vorabdruck arXiv:1904.00445 (2019).

Wein, W., Brunke, S., Khamene, A., Callstrom, MR & Navab, N. Automatische CT-Ultraschallregistrierung für diagnostische Bildgebung und bildgeführte Intervention. Med. Bild Anal. 12, 577–585 (2008).

Artikel PubMed Google Scholar

Referenzen herunterladen

Diese Arbeit wird von ACCL/19-GAP035-R20H unterstützt.

Diese Autoren haben gleichermaßen beigetragen: Chi Yanling und Xu Yuyu.

Institute for Infocomm Research (I2R), Agency for Science, Technology and Research (A*STAR), 1 Fusionopolis Way #21-01 Connexis South, Singapur, 138632, Republik Singapur

Yanling Chi, Huiying Liu und Weimin Huang

Schlüssellabor für biologische Targeting-Diagnose, Therapie und Rehabilitation von Hochschulinstituten in Guangdong, Fünftes angegliedertes Krankenhaus der Medizinischen Universität Guangzhou, Guangzhou, 510700, Volksrepublik China

Yuyu Xu, Xiaoxiang Wu, Zhiqiang Liu und Guibin Xu

Creative Medtech Solutions Pte Ltd, Singapur, Republik Singapur

Jiawei Mao

Sie können diesen Autor auch in PubMed Google Scholar suchen

YC trug zur Methode, den Experimenten und dem Verfassen von Manuskripten bei. YX trug zum Entwurf klinischer Datenprotokolle für CT- und U/S-Bilder sowie zur Überarbeitung des Manuskripts bei. HL hat zu den Experimenten beigetragen. XW trug zum Design der U/S-Datenerfassungspipeline, zur U/S-Datenerfassung und zur Identifizierung von Referenzebenen sowie zur Überarbeitung des Manuskripts bei. ZL trug zur Identifizierung und Verifizierung der Referenzebene bei. JM trug zum Pipeline-Design und den Experimenten bei. GX trug zum Entwurf des klinischen Datenprotokolls, zur Datenerklärung auf CT- und U/S-Bildern sowie zur Identifizierung und Überprüfung der Referenzebene bei. WH trug zum Pipeline-Design und den Experimenten bei.

Korrespondenz mit Yanling Chi, Guibin Xu oder Weimin Huang.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative-Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Chi, Y., Xu, Y., Liu, H. et al. Eine zweistufige Deep-Learning-Methode zur 3DCT-2DUS-Nierenregistrierung während der Atmung. Sci Rep 13, 12846 (2023). https://doi.org/10.1038/s41598-023-40133-5

Zitat herunterladen

Eingegangen: 4. April 2023

Angenommen: 04. August 2023

Veröffentlicht: 08. August 2023

DOI: https://doi.org/10.1038/s41598-023-40133-5

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.