3D-Mauspose von Single
HeimHeim > Blog > 3D-Mauspose von Single

3D-Mauspose von Single

May 30, 2023

Scientific Reports Band 13, Artikelnummer: 13554 (2023) Diesen Artikel zitieren

303 Zugriffe

1 Altmetrisch

Details zu den Metriken

Wir stellen eine Methode vor, um aus monokularen Videos die 3D-Pose von Mäusen, einschließlich der Gliedmaßen und Füße, abzuleiten. Viele menschliche klinische Zustände und die entsprechenden Tiermodelle führen zu abnormalen Bewegungen, und die genaue Messung der 3D-Bewegung im großen Maßstab bietet Einblicke in die Gesundheit. Die 3D-Posen verbessern die Klassifizierung gesundheitsbezogener Attribute gegenüber 2D-Darstellungen. Die abgeleiteten Posen sind genau genug, um die Schrittlänge abzuschätzen, selbst wenn die Füße größtenteils okkludiert sind. Diese Methode könnte als Teil eines kontinuierlichen Überwachungssystems zur nicht-invasiven Messung der Tiergesundheit eingesetzt werden, wie ihre Verwendung bei der erfolgreichen Klassifizierung von Tieren anhand von Alter und Genotyp zeigt. Wir stellen den Mouse Pose Analysis Dataset vor, den ersten groß angelegten Videodatensatz von Labormäusen in ihrem Heimkäfig mit Ground-Truth-Keypoint- und Verhaltensbezeichnungen. Der Datensatz enthält auch hochauflösende Maus-CT-Scans, die wir zur Erstellung der Formmodelle für die 3D-Posenrekonstruktion verwenden.

Viele klinische Zustände beim Menschen und die entsprechenden Tiermodelle führen zu abnormalen Bewegungen1. Die Messung der Bewegung ist ein notwendiger Schritt bei der Untersuchung der Gesundheit dieser Probanden. Bei Tieren führen Forscher die Messungen typischerweise manuell durch, was mit hohen Kosten, begrenzter Auflösung und hohem Stress für die Tiere verbunden ist. In dieser Arbeit präsentieren wir einen kostengünstigen, nicht-invasiven, auf Computer-Vision basierenden Ansatz zur kontinuierlichen Messung der Bewegung als 3D-Pose von Labormäusen.

Um Tiermodelle von Bewegungsstörungen wie der Parkinson-Krankheit oder dem Tremor zu untersuchen oder auch ganz allgemein das Verhalten zu messen, greifen Forscher auf manuelle Werkzeuge wie den Rotarod, den statischen Reck, Freilandtests oder die Bewertung am Menschen zurück2,3. Es werden immer komplexere automatisierte Tools zur Untersuchung von Gang und Fortbewegung entwickelt4,5. Computer Vision und maschinelles Lernen schaffen neue Messmöglichkeiten in häuslichen Käfigumgebungen für die 2D-Verfolgung oder das Verhalten6,7,8,9,10,11,12. Während offene Felder Arenen ohne Besonderheiten sind, ist ein Heimkäfig ein Gehege, das mit vertrauter Einstreu, Futter und Wasser sowie Beschäftigungsgegenständen ausgestattet ist, die es den Tieren ermöglichen, ein breites Spektrum an Bewegungen und Verhaltensweisen zu zeigen. Bisher messen nur wenige Studien überhaupt 3D-Bewegungen in Heimkäfigen, und zwar nur mit grober Auflösung oder Anzahl der Gelenke oder wenn mehrere Kameras erforderlich sind13,14,15,16,17. Dennoch bieten diese neuen Messinstrumente überzeugende Möglichkeiten für neue Analysen13,17,18,19.

Parallel dazu führen Computer Vision und maschinelles Lernen zu großen Verbesserungen bei der Bestimmung der menschlichen 3D-Pose aus Bildern. Modelle zur Optimierung eines kinematischen Modells zur Anpassung an Bilddaten20 werden mit Verbesserungen bei der Schätzung von 2D-Posen21,22,23 gepaart. Durch die Kombination dieser Methoden mit Bibliotheken menschlicher Formen24 und menschlicher Posen können 3D-Schätzungen menschlicher Posen auf realen kinematischen Modellen und realistischen Bewegungen basieren25,26,27. Laufende Forschung verbessert die räumliche und zeitliche Kohärenz28,29,30.

Diese Arbeit adaptiert diese Techniken, die ursprünglich entwickelt wurden, um die menschliche 3D-Pose auf Mäuse abzuleiten. Wir sagen 2D-Schlüsselpunkte für Mäuse voraus und optimieren sie dann für die 3D-Pose, abhängig von Priors, die wir aus Daten gelernt haben. Um menschliche Posen abzuleiten, sind Datenbanken mit menschlichen Formen, Posen, 2D-Schlüsselpunkten und 3D-Schlüsselpunkten leicht verfügbar, aber keine davon ist für Mäuse verfügbar. Der Mangel an Daten stellte besondere Herausforderungen für die genaue Ableitung von 3D-Posen dar. Wir meistern diese Herausforderungen, indem wir neue Daten sammeln und bei Bedarf anpassen. Wir entwerfen unsere Algorithmen und sammeln Daten, um zwei Ziele zu erreichen.

Skalierbarkeit. Die Algorithmen sind in der Lage, Mäuse in ihrem Heimkäfig kontinuierlich und über einen längeren Zeitraum zu überwachen, und zwar über eine große Anzahl von Käfigen gleichzeitig. Obwohl der Freilandtest einer der am häufigsten verwendeten Tests in der Forschung ist, führt er zu Stress für das Tier und zu Abweichungen vom Studienergebnis. Heimkäfige bieten den Probanden die natürlichsten Umgebungen und ermöglichen unvoreingenommene physiologische und Verhaltensstudien31. Messungen von Aktivitäten in einer Vielzahl von Heimkäfigen stellen neue Herausforderungen dar15 und erfordern robuste Algorithmen.

Robustheit. Die Okklusion, sowohl durch das Tier selbst als auch durch die Objekte im Käfig, ist das Haupthindernis für die genaue Rekonstruktion der Pose. Wir gehen das Problem an, indem wir einen vollständigen Satz anatomisch bedeutsamer Schlüsselpunkte verwenden (Abb. 1). Wir haben beobachtet, dass das mit mehr Schlüsselpunkten trainierte Modell bei verschlossenen Körperteilen generalisiert. Im Vergleich zu den 20 Schlüsselpunkten, die wir in unseren Daten verwenden, bieten andere große Datensätze weniger Schlüsselpunkte. Beispielsweise verfügt der CalMS21-Datensatz32 über 7 Schlüsselpunkte, der MARS-Datensatz33 über 9 und der PAIR-R24M-Datensatz34 über 12. Der Rat 7M-Datensatz35 erfasst zwar 20 Marker, weist jedoch weniger als 16 Schlüsselpunkte am Tierkörper auf.

Um die Reproduzierbarkeit zu unterstützen und zukünftige Forschung zu fördern, machen wir unsere kommentierten Trainings- und Bewertungsdaten sowie die Posenrekonstruktionsmodelle und den Code öffentlich zugänglich. Der hier veröffentlichte Datensatz zur Maushaltungsanalyse verfügt über die folgenden Funktionen: 3D-hochauflösende CT-Scans von Mäusen mit breiter Gewichtsverteilung und beiderlei Geschlechts; über 400 Videoclips von Mäuseaktivitäten in ihrem Heimkäfig, sowohl im Hell- als auch im Dunkelzyklus; 20 Schlüsselpunktbeschriftungen auf jeder Maus und 7 Verhaltensbeschriftungen; 3D-Ground-Truth-Schlüsselpunktbeschriftungen von einem 3D-Erfassungsgerät mit mehreren Kameras und einem Kinect-Gerät.

Wir validieren unsere Methode, indem wir die metrische Genauigkeit der abgeleiteten 3D-Posen, die Vorhersagegenauigkeit gesundheitsbezogener Attribute und die Korrelation mit direkten Gangmessungen demonstrieren. In jedem Fall handelt es sich bei den abgeleiteten 3D-Posen um nützliche, detaillierte Messungen.

Die Studie wird gemäß den ARRIVE-Richtlinien (https://arriveguidelines.org) berichtet.

Die Entwicklung der Deep-Learning-basierten Tierhaltungsschätzung wird stark von menschlichen Haltungsalgorithmen beeinflusst (aktuelle Umfragen finden Sie unter 36, 37, 38, 39). DeepLabCut40 nutzt Transferlernen und erreicht menschliche Genauigkeit mit einer kleinen Anzahl markierter Proben und hat viele weitere Entwicklungen vorangetrieben. LEAP41 beschleunigt den Annotationsprozess noch weiter, indem es das Modell iterativ verfeinert und erste Vermutungen zu neuen Trainingsbeispielen liefert. DeepPoseKit42 eliminiert den Vorverarbeitungsschritt in LEAP und soll die Robustheit gegenüber Faktoren wie Rotation und Beleuchtungsänderungen erhöhen. Alle drei Methoden funktionieren in Freilandumgebungen; Es ist jedoch nicht klar, wie sie mit Heimkäfigbildern abschneiden. Eine weitere Verbesserungsmöglichkeit besteht darin, die räumlich-zeitliche Konsistenz zwischen benachbarten Videobildern zu nutzen. OptiFlex43 berechnet optische Flussinformationen aus den aus einem Basismodell generierten Schlüsselpunkt-Heatmaps und zeigt eine Verbesserung der Genauigkeit und Robustheit. OpenPifPaf44 verwendet zusammengesetzte Felder, einschließlich Intensitäts-, Assoziations- und zeitlicher Assoziationsfelder, um Schlüsselpunkte zu erkennen und zu verfolgen. Anstatt diese zusammengesetzten Felder am Ende des Netzwerks hinzuzufügen, kodiert DeepGraphPose45 die räumlich-zeitliche Struktur in einem grafischen Modell. Der Vorteil eines solchen Modells ist die Möglichkeit, auf verdeckte Schlüsselpunkte zu schließen.

Während die 2D-Pose für viele biologische Fragestellungen ausreicht, sind 3D-Bewegung und -Kinematik für das Verständnis der Zusammenhänge zwischen neuronalen und motorischen Systemen unverzichtbar.

Eine 3D-Pose kann durch Triangulation von 2D-Schlüsselpunkten mit mehreren Kameras46,47,48 und/oder durch Verwendung von Tiefensensoren49,50,51,52 erhalten werden. Wir konstruieren ein Multi-View-3D-Erfassungsgerät, das ein Kinect-Gerät enthält (ausführlich im Abschnitt „Multiview-3D-Posenrekonstruktion“), um unseren Single-View-3D-Rekonstruktionsalgorithmus zu bewerten. Die zusätzliche Komplexität schränkt die Skalierbarkeit solcher Systeme ein, sodass es nicht möglich ist, zusätzliche Geräte zur Überwachung von mehr als einem Dutzend Käfigen zu installieren. Jüngste Fortschritte im maschinellen Lernen haben Methoden hervorgebracht, die 3D-Posen aus einzelnen Kameraansichten rekonstruieren. LiftPose3D53 schätzt die 3D-Gelenkposition aus Einzelansichten, indem es ein Netzwerk (die Lift-Funktion) auf 3D-Ground-Truth-Daten trainiert. Die Trainingsdaten werden durch unterschiedliche Kamerawinkel und Knochenlängen ergänzt, was es dem Netzwerk ermöglicht, Kameraparameter implizit zu lösen und mit Variationen in der Tiergröße umzugehen. Im Vergleich dazu schätzen wir Kameraparameter und erstellen die Formverteilung explizit. Dunn et al.13 regressieren eine volumetrische Darstellung des Tieres, aus der die 3D-Pose berechnet wird.

Im Gegensatz zu diesen End-to-End-Lernalgorithmen stellen wir die 3D-Posenschätzung als Optimierungsproblem mit einem Mausskelettmodell dar54. Durch die explizite Codierung der 3D-Gelenkwinkel sind die Modellergebnisse leicht interpretierbar. Noch wichtiger ist, dass das 3D-Skelettmodell einen starken Prior auferlegt (siehe Abschnitt „Kinematische Kette und 3D-Posenvorhersage“), der sowohl fehlende Beobachtungen aus Okklusionen überwindet als auch als Regularisierung für den überparametrisierten Gelenkraum dient.

Der Maushaltungsanalysedatensatz umfasst 455 Videoclips von C57BL/6N- und Diversity Outbred-Mäusen sowie CT-Bilder von 80 C57BL/6N-Mäusen. Ziel ist es, vielfältige Forschungsprobleme in der Physiologie und im Verhalten von Tieren zu unterstützen, indem ein Datensatz bereitgestellt wird, der Labormäuse typischer Genotypen, Geschlechter, Gewichte und Aktivitäten in ihren Heimkäfigen abdeckt.

Alle CT-Studien wurden in Übereinstimmung mit dem Institutional Animal Care and Use Committee von AbbVie und den Richtlinien des National Institute of Health Guide for Care and Use of Laboratory Animals in einer von der Association for the Assessment and Accreditation of Laboratory Animal Care akkreditierten Einrichtung durchgeführt.

Die gesamte Videoaufnahme-bezogene Forschung wurde im Rahmen des AAALAC-akkreditierten Tierpflege- und -nutzungsprogramms von Calico Life Sciences LLC durchgeführt. Die gesamte Forschung und Tierverwendung in dieser Studie wurde vom Calico Institutional Animal Care and Use Committee (IACUC) genehmigt.

Männliche und weibliche Wildtyp-C57BL/6N-Mäuse wurden von Charles Rivers Labs (Wilmington, MA) erhalten. Die Tiere wurden vor Beginn der Experimente etwa eine Woche lang an die Tierhaltung gewöhnt. Die Tiere wurden in der Lichtphase eines 12-Stunden-Licht-/12-Stunden-Dunkel-Zeitplans getestet. Die Anästhesie wurde mit Isofluran eingeleitet. Der Isofluranspiegel wurde in Sauerstoff zwischen 1 und 2,5 Vol.-% gehalten. Die Daten wurden mit einem Siemens Inveon microPET/CT (Knoxville, TN) erfasst. Die Tiere wurden CT-Scans mit den folgenden Einstellungen unterzogen: Gesamtrotation von \(220^\circ \) mit \(1^\circ \) Schritten nach 20 Dunkel-/Hellkalibrierungen. Das transaxiale und axiale Sichtfeld betrugen 58,44 bzw. 92,04 mm. Die Belichtungszeit betrug 800 ms mit einem Binning-Faktor von 2, die effektive Pixelgröße betrug 45,65 \(\upmu \)m. Die Spannungs- und Stromeinstellungen betrugen 80 kV bzw. 500 \(\upmu \)A. Die Gesamtscanzeit pro Tier wurde auf 1010 s geschätzt. Für CT-Bilder wurde die übliche Kegelstrahl-Rekonstruktionsmethode verwendet, einschließlich Houndsfield-Einheitskalibrierung, bilinearer Interpolation und eines Hamming-Rekonstruktionsfilters. Rekonstruierte CT-Bilder wurden mit der VivoQuant-Software (InVicro, ein Unternehmen von Konica Minolta) in DICOM konvertiert.

Diversity Outbred (J:DO)-Mäuse wurden von The Jackson Laboratory (Stamm Nr. 009376; Bar Harbor, ME) erhalten. C57BL/6N wurden von Charles Rivers Labs (Wilmington, MA) erhalten.

Um eine visuelle Pipeline für allgemeine Zwecke aufzubauen, haben wir ein Video eines Diversity Outbred-Mausstamms aufgenommen, der verschiedene Gewichte (ca. 20–60 g), Geschlechter (weiblich oder männlich), Alter (1–3 Jahre) und Fellfarben aufweist (Albino, Schwarz, Agouti). Die Mäuse wurden in Überwachungskäfige gesetzt, die jeweils mit einer einzelnen Kamera (Vium) ausgestattet waren. Während dieser Zeit wurden die Mäuse einzeln gehalten und mit Laufrädern und Nistmöglichkeiten (Baumwollnestchen) ausgestattet. Jedes Video wurde mit 24 Bildern pro Sekunde aufgenommen. Während des Dunkelzyklus wurde Infrarotbeleuchtung verwendet. Aus dieser vielfältigen Videosammlung haben wir manuell 455 Videoclips ausgewählt, in denen die Tiere eines der folgenden Verhaltensweisen zeigen: Stehen, Trinken, Fressen, Fellpflege, Schlafen, Gehen oder Laufen am Rad. Da die meisten Aktivitäten in den Dunkelzyklen stattfinden, sind die meisten (96 %) der Clips Infrarotbilder. Jeder Clip ist 0,5 s lang und wird mit 24 Hz gesampelt. Die Aktivitäten wurden von den Forschern manuell gekennzeichnet, indem sie sich den Clip und den umgebenden Kontext ansahen. Eine weitere Untergruppe von 310 Clips wurde von den Forschern manuell für verschiedene Posen ausgewählt. Die 2D-Pose der Maus in jedem der 12 Bilder aus jedem Clip wurde von geschulten Tiertechnikern mit Anmerkungen versehen, was 3720 mit Anmerkungen versehene Bilder ergab. Die Pose-Annotation-Pipeline wird im Abschnitt „Schlüsselpunkte und Verhaltensannotation“ beschrieben. Da wir hoffen, dass diese Datensätze für die Community nützlich sind, um ähnliche Systeme zu trainieren und zu bewerten, veröffentlichen wir die Posen- und Verhaltensanmerkungen zusammen mit den entsprechenden Frames.

Wir haben drei weitere Sätze experimenteller Videodaten gesammelt, die nur zur Auswertung verwendet wurden: Continuous, Multiview und Gait. Die kontinuierlichen Videodaten umfassen 14 Tage aus 32 Käfigen. Acht Tiere sind 1 Jahr alte, homozygote Eif2b5R191H/R191H-Knockout-Mäuse auf einem C57BL/6N-Hintergrund55; acht sind 1 Jahr alte, heterozygote Knockout-Kontrollen; acht sind 1 Jahr alte C57BL/6N-Mäuse; und acht sind 2 Monate alte C57BL/6N-Mäuse. Die Knockout-Mäuse haben eine Deletion, die motorische Defizite verursacht55,56,57. Die Knockout-Mäuse und heterozygoten Kontrollen sind Wurfgeschwister mit einem C57BL/6N-Hintergrund, wurden jedoch über mehrere Generationen hinweg durch Inzucht gezüchtet. Jede Maus hat drei Attribute: Alter (entweder 12 oder 3 Monate alt), Knockout (entweder vollständiger Knockout oder nicht) und Hintergrund (entweder ein Wurfgeschwister mit Knockout oder ein C57BL/6N). Bei den Multiview-Videodaten handelt es sich um 35 aufeinanderfolgende Multiview-Frames einer einzelnen C57BL/6N-Maus in einem benutzerdefinierten Aufnahmegerät (unten beschrieben). Beachten Sie, dass die Tiefeninformationen des Kinect-Sensors zu verrauscht sind, um sie allein als Grundwahrheit zu verwenden. Stattdessen verwenden wir nur die RGB-Werte im Mehrfachansicht-Setup. Die Gait-Videodaten stammen von einer einzelnen C57BL/6N-Maus, die auf einem Laufband läuft, mit unten installierten Kameras mit entsprechenden kommerziellen Analysetools (DigiGait) und einer darüber montierten zusätzlichen Kamera (GoPro), die wir für die Analyse verwenden. Die Multiview- und Gait-Videodaten wurden mit 30 Bildern pro Sekunde erfasst. Diese experimentellen Videosets dienen nur zur Demonstration der Nützlichkeit unserer Methode und werden nicht veröffentlicht. Alle Experimente werden von einem Institutional Animal Care and Use Committee genehmigt.

Es ist erwähnenswert, dass es eine umfangreiche Literatur zur Geschwindigkeit und Häufigkeit der Fortbewegung von Mäusen gibt. Obwohl Schrittlänge und -frequenz von der Geschwindigkeit abhängen, wurde in mehreren Studien beobachtet, dass die Schrittfrequenz zwischen 3 und 10 Hz liegt58,59,60, was bedeutet, dass die Nyquist-Rate typischer Mausbewegungen unter 24 Hz liegt. Eine 24-Hz-Kamera reicht daher aus, um viele Verhaltensweisen, einschließlich der Fortbewegung, aufzuzeichnen. Für einige schnellere Bewegungen, die über den Rahmen dieser Studie hinausgehen (z. B. Whisker-Dynamik), könnte jedoch eine schnellere Kamera verwendet werden. Die Algorithmen sind nicht von der Bildrate der Kamera abhängig.

Links: Die 2D-Schlüsselpunktnamen und die entsprechenden farbcodierten Markierungen, die in der Beschriftungsoberfläche angezeigt werden. Mitte: Ein beschriftetes Bild einer Maus mit den Schlüsselpunktlegenden auf der linken Seite. Rechts: Der hochauflösende CT-Scan, segmentiert für Knochen in hellen Farben und segmentiert für die Haut in dunkleren Farben, mit den entsprechenden Schlüsselpunktpositionen in neutraler Haltung.

Zehn Wissenschaftler und Techniker beteiligten sich an der Keypoint- und Verhaltensannotation. Sie wurden gebeten, die Videoclips anzusehen und die Clips mit den sieben Verhaltensetiketten zu versehen (Liste siehe Tabelle 1). Sie wurden angewiesen, einen Begrenzungsrahmen um das Tier zu zeichnen und Schlüsselpunkte zu beschriften, die den 3D-Skelettgelenken entsprechen (Abb. 1). Nicht-gemeinsame Schlüsselpunkte werden wie folgt definiert. Der untere Wirbelsäulenpunkt liegt in der Mitte zwischen den beiden Hüftgelenken und auf der Wirbelsäule. Die obere Wirbelsäule wird in ähnlicher Weise zwischen den beiden Schultergelenken definiert. Die mittlere Wirbelsäule liegt auf halbem Weg zwischen den oberen und unteren Wirbelsäulenpunkten der Wirbelsäule. Die Annotatoren wurden gebeten, ihre beste Vermutung zu markieren, wenn Schlüsselpunkte verdeckt sind. Das Ziel bestand darin, möglicherweise laute Etiketten von Experten zu erhalten, anstatt überhaupt keine Etiketten zu erhalten.

Die CT-Bilder umfassen Mäuse unterschiedlichen Alters und Gewichts. Die Mäuse wurden nach Gewicht und Geschlecht in Gruppen eingeteilt, jeweils 10 Mäuse pro Gruppe. Die Weibchen der Gruppe 1 wogen 15,7 0,74 g und die Männchen 18,4 0,98 g. Die Weibchen der Gruppe 2 wogen 24,9 1,8 g und die Männchen 23,2 1,36 g. Die Weibchen der Gruppe 3 wogen (28,0 \pm 2,52) g und die Männchen 27,3 ± 0,97 g. Die Weibchen der Gruppe 4 wogen 35,3 6,11 g und die Männchen 38,7 3,00 g.

Die Videobilder bestehen zu 39 % aus C57BL/6N-Probanden und der Rest ist Diversity Outbred. Tabelle 1 zeigt die Verteilung der Verhaltensbezeichnungen auf die Videobilder. Abbildung 2 zeigt die aggregierten Standorte der Mäuse. Aufgrund der nachtaktiven Natur von Mäusen stammen die meisten Videobilder (96 %) aus dem Nachtzyklus. Da wir den Schwerpunkt auf die Posenanalyse während der Mausbewegung legen, handelt es sich bei über der Hälfte der Anmerkungen um Mausbewegungen auf Rädern.

Eine Heatmap aller kommentierten Mauspunkte, die im Home-Käfig angezeigt werden. Jeder Punkt repräsentiert einen Schlüsselpunkt. Die meisten Aktivitäten finden auf dem Rad und in der Nähe des Futterautomaten statt.

Die für das Training und die Auswertung der 2D- und 3D-Posenschätzung verwendeten Daten werden im Rahmen dieser Veröffentlichung veröffentlicht. Die Daten zum Nachweis des Nutzens für einige biologisch relevante Aufgaben werden nicht veröffentlicht, da sie spezifisch für dieses Papier sind und größer sind als das, was leicht geteilt werden kann. Wir glauben nicht, dass dies die Fähigkeit einschränkt, unsere Methode zu reproduzieren oder die Leistung für die 2D- und 3D-Posenschätzung zu bewerten. Konkret veröffentlichen wir die 5460 kommentierten Bilder aus 455 Videos, die zum Training und zur Bewertung der 2D-Pose kommentiert wurden, sowie die 80 CT-Scans, die zuvor zur Konstruktion der Form verwendet wurden. Den Zugriff auf die Daten können Sie über diesen Link anfordern: https://google.github.io/mouse-pose-analysis-dataset/.

Es sind einige Datensätze von Mäusen und Ratten vergleichbarer Größe öffentlich verfügbar. Der MIT Mouse Behavior Dataset61 enthält 10,6 Stunden kontinuierlich beschriftetes Seitenansichtsvideo (8 Tagesvideos und 4 Nachtvideos) für die acht interessierenden Verhaltensweisen: Trinken, Essen, Pflegen, Hängen, Mikrobewegung, Rückwärtsgehen, Ausruhen, Gehen. Die Mäuse werden einzeln in ihrem Heimkäfig gehalten. Es gibt keine Schlüsselpunktbeschriftungen.

Der Caltech Mouse Social Interactions (CalMS21)-Datensatz32 besteht aus 6 Millionen Frames unbeschrifteter, verfolgter Posen interagierender Mäuse in Heimkäfigen sowie über 1 Million Frames mit verfolgten Posen und entsprechenden Verhaltensanmerkungen auf Frame-Ebene. Sieben Schlüsselpunkte (Nase, Ohren, Halsansatz, Hüften und Schwanz) sind beschriftet.

Der Rat 7M-Datensatz35 enthält 10,8 Stunden Videos von 6 verschiedenen Ratten und 30 Kameraansichten, insgesamt etwa 7 Millionen Bilder, über ein breites Spektrum an Rattenposen. Die Bilder werden von 20 Markierungen erfasst, die mit einer Reihe von Kameras an den Tieren angebracht sind.

Der PAIR-R24M-Datensatz34 enthält 24,3 Millionen Bilder RGB-Video und 3D-Ground-Truth-Bewegungserfassung von dyadischen Interaktionen bei Laborratten aus 18 verschiedenen Rattenpaaren und 24 verschiedenen Standpunkten. Jeder Frame liefert die 3D-Positionen von 12 Körpermarkierungen und ist einer von 11 Verhaltenskategorien und 3 Kategorien der Interaktion zwischen Tieren zugeordnet.

Die ersten beiden Datensätze enthalten nur wenige oder keine beschrifteten Schlüsselpunkte. Während die beiden letztgenannten über mehr beschriftete Schlüsselpunkte verfügen, enthalten sie eher Freilandbilder als Heimkäfigbilder. Der Mouse Pose Analysis Dataset ist der erste groß angelegte Datensatz von Labormäusen in ihrem Heimkäfig mit vollständigem Satz an Schlüsselpunkt- und Verhaltensanmerkungen.

Unsere Feature-Extraktionspipeline (dargestellt in Abb. 3) umfasst drei Phasen: Begrenzungsrahmenerkennung, 2D-Pose-Vorhersage und 3D-Pose-Optimierung. Es hat sich gezeigt, dass diese Stufen für die Schätzung der menschlichen 3D-Position wirksam sind25,62,63. Wir veröffentlichen die Modelle für maschinelles Lernen und den Code der Pipeline unter https://github.com/google/mouse-pose-analysis.

Oben: Pipeline-Diagramm. Rechteckige Boxen sind Algorithmen und Prozesse. Ellipsen sind Zwischen- und Endergebnisse der Pipeline. Unten: Bildliche Darstellung der Pipeline. Es funktioniert über Frames eines Videos (linkes Feld). Für jeden Frame führen wir einen 2D-Objektdetektor aus, der darauf trainiert ist, Mäuse zu erkennen (zweites Feld, Kästchen zeigt eine Erkennung an). Wir wenden ein 2D-Posenmodell an, um Maus-Keypoints an der erkannten Position zu erkennen (dritte Tafel, farbige Heatmap, die Gelenkpositionen mit willkürlichen Farben anzeigt). Schließlich optimieren wir die 3D-Pose der Maus (rechtes Feld, blaue Punkte sind Spitzen der Schlüsselpunkt-Heatmaps in der vorherigen Stufe, rote Punkte sind projizierte 3D-Schlüsselpunkte aus der optimierten Pose, graues 3D-Netz überlagert das Bild).

Wir passen einen Single-Shot-Detektor64 an, um die Maus zu erkennen, und ein Stacked Hourglass Network22, um auf die 2D-Pose der Maus zu schließen, ähnlich wie bei anderen Arbeiten, bei denen wir menschliche Posenmodelle an Labortiere anpassen9,11.

Sowohl das Erkennungs- als auch das Posenmodell erfordern Trainingsdaten, die wir durch die Beschriftung von 20 Gelenkpositionen entlang des Körpers generieren und den minimalen Rahmen, der alle Punkte umfasst, als Begrenzungsrahmen verwenden. Modelle werden auf COCO65 vorab trainiert und die Vorhersageköpfe für menschliche Schlüsselpunkte werden durch solche für Maus-Schlüsselpunkte ersetzt. Für die kontinuierlichen Videodaten beschriften wir 3670 Bilder für den Trainingssatz und 628 für den Testsatz. Für die Gait-Videodaten optimieren wir das kontinuierliche Videomodell anhand eines zusätzlichen Trainingssatzes mit 329 beschrifteten Bildern und testen es anhand von 106 Bildern. Frames werden manuell ausgewählt und dann mit Anmerkungen versehen, um die Vielfalt der Eingabebilder über Käfige und Zeiten hinweg abzudecken.

Wir bewerten unser Posenmodell mit dem für COCO65 verwendeten Object Keypoint Similarity (OKS)-Score: \(\sum _{i}\exp (-\textbf{d}_i^2 / (2\textbf{k}_i^2\ textbf{s}^2)) / 20\), wobei \(\textbf{d}_i\) der euklidische Abstand zwischen der Vorhersage und der Grundwahrheit ist, \(\textbf{s}\) der Objektmaßstab als Quadratwurzel des Begrenzungsrahmenbereichs und der Falloff pro Schlüsselpunkt, \(k_i\), wird für alle Schlüsselpunkte auf den menschlichen Median von 0,08 gesetzt (siehe http://cocodataset.org/#keypoints-evalforfurtherOKSdetails). Diese Einstellung entspricht der Messung des Anteils der vorhergesagten Schlüsselpunkte mit einem bestimmten Radius des Ground-Truth-Punkts proportional zur Größe des Begrenzungsrahmens. Bei höheren OKS-Schwellenwerten und kleineren Begrenzungsrahmengrößen nimmt der Radius ab, was genauere Vorhersagen erfordert. Die Genauigkeit wird als Prozentsatz der vorhergesagten Schlüsselpunkte berechnet, die größer als ein OKS-Schwellenwert/Pixelradius in Tabelle 2 sind.

Wir adaptieren die Optimierungsstrategie für menschliche 3D-Posen von20 auf Mäuse, da ähnliche Optimierungsstrategien mit abgeleiteten 2D-Posen und relativ wenigen 3D-Ground-Truth-Daten erfolgreich sind25.

Die 3D-Pose ist auf einer kinematischen Kette definiert, die aus 18 der 20 Gelenke in Abb. 1 besteht (die Ohren sind ausgenommen). Alle Gelenke sind sphärisch modelliert, was zu einer Gesamtzahl von 54 Gelenkwinkeln führt.

Da die Kamera und das Objektiv an jedem Käfig befestigt sind, kalibrieren wir die intrinsischen und extrinsischen Parameter vorab, die auf der Datensatz-Website verfügbar sind. Wir aktualisieren iterativ die 3D-Gelenkwinkel \(\textbf{a}\) und Knochenlängen \(\textbf{l}\) auf der kinematischen Kette, dargestellt durch \(T(\textbf{a}, \textbf{l} )\), um den Abstand zwischen den eingegebenen 2D-Schlüsselpunktpositionen und den projizierten 3D-Verbindungspositionen zu minimieren (Gleichung 1).

Wir verbessern die Stabilität und Konvergenz der 3D-Pose-Optimierung durch die Verwendung der Formpriorität \(p_s\) und der Posepriorität \(p_p\). Die Priors sind ähnlich dem SMPL-Modell25 aufgebaut. Wir erstellen die Pose vorab aus einer Rekonstruktion der 3D-Pose aus mehreren Ansichten (siehe unten), ergänzt durch handgestellte Modelle, deren Gelenkwinkel in einer 3D-Modellierungssoftware so eingestellt sind, dass sie der scheinbaren Mauspose in einem Satz abdeckender Bilder entsprechen Posen, die möglicherweise nicht in den Videos mit mehreren Ansichten vorkommen. Ausgehend von diesen 3D-Posen richten und skalieren wir die Posen so, dass der Vektor vom Halsansatz bis zur Mitte der Wirbelsäule als x-Achse und Einheitslänge definiert ist, und passen dann ein Gaußsches Mischungsmodell mit 5 Komponenten an die Daten. \(\lambda _p\) wurde auf einen kleinen Wert eingestellt, sodass die vorherige Pose einen schwachen Effekt hatte, ähnlich dem Halten der Füße in Richtung Boden, die wiederhergestellten Posen jedoch nicht auf die kleine Mischungsverteilung beschränkten.

Um die Form vorher zu erstellen, sammeln wir alle Knochenlängen aus den CT-Scans im Datensatz, der Mäuse unterschiedlichen Geschlechts, Alters und Gewichts umfasst. Wir passen ein 7-Komponenten-Gaußsches Mischungsmodell an die Längen an, um die vorherige Form zu bilden.

Die Optimierung ist überparametrisiert, wenn die Gesamtgröße und der Abstand zur Kamera miteinander verwechselt werden, was zu einem willkürlichen Maßstab und physikalisch unplausiblen Drehungen führen kann. Wir lösen die Komplikation, indem wir das Tier auf einen festen Abstand zur Kamera beschränken. Ähnliche Szenenbeschränkungen sind ein gängiger Ansatz zur Rekonstruktion physikalisch bedeutsamer 3D-Posen28,30.

Um Ground-Truth-3D-Posendaten für die vorherige Validierung und Konstruktion einer Pose zu generieren, bauen wir ein benutzerdefiniertes 3D-Erfassungsgerät mit mehreren Ansichten. Eine von oben nach unten gerichtete RGB+Tiefenkamera (Kinect) und zwei seitliche RGB-Kameras mit synchronisiertem Timing werden mit überlappenden Sichtfeldern eines Mauskäfigs kalibriert. Wir beschriften die 2D-Gelenkpositionen in synchronisierten Bildern aus jedem Sichtfeld und triangulieren die 3D-Position jeder Gelenkposition, um die Neuprojektionsfehler zu minimieren. Die Multiview-Rekonstruktionen werden verwendet, um die Qualität der Single-View-Rekonstruktion zu bewerten. Ein separater und größerer Satz wird verwendet, um die Pose vorher zu konstruieren.

Das in der Studie verwendete Knock-in-Mutanten-Mausmodell Eif2b5R191H/R191H wird im Hintergrundstamm C57BL/6J55 generiert. Es ist bekannt, dass Eif2b-Mutanten motorische Defekte aufweisen, wie z. B. vermehrtes Schlupf auf einem Schwebebalken, verkürzte Zeit zum Aufhängen des umgekehrten Gitters, verkürzte Rotarod-Dauer und einen anderen Schritt55,56,57. In dieser Studie haben wir homozygote Mutanten (KO) von R191H mit ihren heterozygoten Geschwistern (HET) verglichen, um zu zeigen, dass wir Bewegungsdefizite in einem bekannten Mausmodell im Vergleich zu ihren genetisch ähnlichen Geschwistern erkennen können. Mäuse wurden im Alter von 3 Monaten und 12 Monaten gemessen. Wir haben auch eine Reihe von C57BL/6J-Mäusen (WT) gemessen und mit der HET-Gruppe im gleichen Alter verglichen. HET-Mäuse wurden nicht ausreichend oft rückgekreuzt, um die genetische Drift zu kontrollieren. Daher können Vergleiche zwischen der HET- und der WT-Gruppe keine Unterschiede zwischen drift- und mutationsbedingten Phänotypen unterscheiden, alle beobachteten Unterschiede weisen jedoch auf die Empfindlichkeit unserer Methode hin.

Um zu beurteilen, welche Darstellungen Informationen über die Bewegungsdynamik bewahren, trainieren wir ein Black-Box-Modell eines künstlichen neuronalen Netzwerks, um biologische Attribute in den kontinuierlichen Videodaten vorherzusagen. Da wir den Gang und nicht andere Faktoren untersuchen wollen, beschränken wir die Analyse auf Sequenzen, in denen sich das Tier während des Nachtzyklus, wenn die Mäuse aktiver sind, auf oder in der Nähe des Rades befindet. Wir trainieren und prognostizieren Etiketten für 10-s-Intervalle, bewerten aber die Leistung anhand der aggregierten Vorhersagewerte für jedes Tier, um die Zeitspanne auf dem Rad zu normalisieren. Die Daten werden in Trainingssätze (63.057 Segmente) und Testsätze (32.163 Segmente) mit jeweils disjunkten Mäusesätzen aufgeteilt. Für jede Datendarstellung, die wir testen, trainieren wir ein Faltungs-Neuronales Netzwerk mit der Kernelgröße 24, um jede Bezeichnung unabhängig vorherzusagen. Wir haben die Modelle mit dem Adam-Optimierer66 mit einer Summe binärer Kreuzentropieverluste pro Attribut für 5 Epochen trainiert. Wir führen einen Hyperparameter-Sweep über die Anzahl der Schichten im Netzwerk [2, 3 oder 4], die Anzahl der verborgenen Einheiten in jeder Schicht [32, 64, 128, 256] und die Lernrate [0,0001, 0,00001, 0,000001] durch ] unter Verwendung der Hälfte des Trainingssatzes zur Validierung. Wir geben die beste Genauigkeit für jede Darstellung im Testsatz an.

Direkte Messungen der Gangparameter werden über ein kommerzielles System (DigiGait) durchgeführt. Wir verwenden die aggregierte Schrittlänge aus dem Posture Plot-Bericht sowie die einzelnen Schrittlängenmessungen aus dem kommerziellen System. Wir berechnen ähnliche Messungen mit unserer Methode, indem wir die Dauer der Schritte aus der rekonstruierten Pose berechnen und sie mit der bekannten Laufbandgeschwindigkeit multiplizieren, um die Schrittlänge zu berechnen. Die Gesamtdauer des Schrittes wird als Wellenlänge der Spitzengröße des Fourier-Spektrums berechnet und die einzelnen Schrittdauern werden als Spitze-zu-Spitze-Zeiten berechnet.

Vergleich von Multi-View- und Single-View-Rekonstruktionen. Die Fehlerbalken sind \(\pm 1\) SE. Die oberen drei Felder zeigen drei Ansichten der Maus zum gleichen Zeitpunkt. Rote Punkte sind Rekonstruktionen aus der Triangulation und cyanfarbene Punkte aus unserer Einzelansichtsrekonstruktion. Als Beispiele sind vier von 20 Gelenken dargestellt (0: Schwanz, 1: Geräusch, 2: linke Pfote und 3: rechte Pfote).

Wir bewerten die Qualität unserer 3D-Posen quantitativ anhand des Multiview-Videodatensatzes. Nachdem wir die Ground-Truth-3D-Pose aus mehreren Ansichten ermittelt haben (siehe Abschnitt „Methoden“), berechnen wir, wie gut wir die Pose allein aus der Draufsicht rekonstruieren. Die abgeleitete 3D-Pose wird mit der Ground-Truth-Pose registriert und wir quantifizieren den Fehler in der abgeleiteten 3D-Pose in Millimetern in Abb. 4, die den RMSE von 35 Messungen pro Gelenk zeigt. Die Fehlerbalken entsprechen 1 Standardfehler. Die Fehler an Schwanz, Schulter und Kopf sind kleiner als die an Knöchel, Hüfte und Handgelenk, deren 2D-Posen aufgrund der Okklusion stärker verrauscht sind. Der durchschnittliche Fehler für jede Verbindung beträgt weniger als 10 mm. Da die durchschnittliche Körperlänge von Mäusen etwa 10 cm beträgt, entspricht dies einem relativen Fehler von weniger als 10 %. Wir können keine andere monokulare 3D-Posenreferenz finden, die Zahlen zum Vergleich auflistet. Obwohl diese Zahlen Raum für Verbesserungen bieten, zeigen wir weitere Ergebnisse, dass diese Genauigkeit ausreicht, um Gesundheitsvorhersagen und die Extraktion von Gangparametern zu ermöglichen.

Nachdem wir die 3D-Posen abgeleitet haben, zeigen wir, dass die extrahierten Darstellungen ausreichen, um auf subtile Unterschiede im Alter, im genetischen Hintergrund und bei heterozygoten bzw. homozygoten Knockouts zu schließen. Wir verwenden kontinuierliche Videodatenattribute, um zu beurteilen, wie einfach Modelle biologische Attribute aus verschiedenen Merkmalen vorhersagen können: dem 2D-Begrenzungsrahmen, den 2D-Schlüsselpunkten, den 3D-Schlüsselpunkten und den 3D-Gelenkwinkeln. Wir trainieren eine Reihe künstlicher neuronaler Netze für jede Darstellung und präsentieren in Tabelle 3 die besten Ergebnisse für jedes Merkmal an einer Reihe von 16 Tieren. Von diesen übertreffen die 3D-Gelenkwinkel die anderen, da sie jedes Tier perfekt klassifizieren können der Testsatz, während die anderen bei den 16 Testsatztieren ein bis drei Fehler machen.

Um unsere Methode weiter zu validieren, vergleichen wir die Schrittmessungen unseres Systems mit den Messungen eines DigiGait-Systems, das die Füße direkt von unten abbildet. Mit unserer Methode leiten wir die 3D-Posen von oben ab, schätzen die Schritte und vergleichen die Ausgabe mit den direkten Schrittmessungen des DigiGait-Systems in Abb. 5. Wir stellen fest, dass wir mehrere direkte Messungen rekapitulieren können.

Oben links: Eine beispielhafte Zeitreihe der Fußposition in willkürlichen Einheiten. Deutlich erkennbar ist die periodische Gangstruktur. Rote Punkte zeigen Spitzenwerte an, die bei der Berechnung der Schrittlänge verwendet werden. Oben rechts: Die Spitzenfrequenz bei der Fußpositionsrekonstruktion \(\times \), Bandgeschwindigkeit (blau, durchgezogen) und DigiGait-Haltungsplot-Schrittlänge (orange, gestrichelt). Unten links: Die Verteilung der Schrittlängen aus der Posenrekonstruktion (dunkelblau) und DigiGait (hellorange). Gestrichelte, schwarze, vertikale Linien zeigen Ausreißerschwellenwerte für die statistische Modellierung an. Unten rechts: Schrittlängen nach Laufbandgeschwindigkeit für rekonstruierte Pose (blau, durchgezogen) und DigiGait (orange, gestrichelt). Fehlerbalken zeigen ±1 SEM an.

Die aus der Größe des Fourier-Spektrums der Fußposition über mehrere Sekunden geschätzte Schrittlänge stimmt sehr gut mit der aggregierten Schrittlänge des Posture Plots überein. Da sich die Spektrumanalyse im Laufe der Zeit aggregiert, sollte sie genauer sein als Einzelschrittanalysen und vermeidet Sampling-Rauschen aufgrund der von uns verwendeten begrenzten Bildrate (24 fps). Allerdings können wir keine Statistiken aus einer aggregierten Zahl berechnen, daher haben wir auch verrauschtere individuelle Schrittschätzungen verglichen.

Wir messen die Peak-to-Peak-Zeiten, um die einzelnen Schrittlängen abzuschätzen und vergleichen die Verteilung mit den direkten Messungen. Unter Ausschluss von 13 asymmetrischen Ausreißern über 2,3 \(\sigma \) vom Mittelwert unterschieden sich die Messungen unseres Systems nicht signifikant von den direkten Messungen (2-Wege-ANOVA, Haupteffekt des Messsystems: df = 289, t\(=- \) 0,8, \(p=0,424\)). Obwohl Statistiken nicht beweisen können, dass die Verteilungen identisch sind, können wir behaupten, dass unsere Messungen dem kommerziellen System ähneln, mit der Ausnahme, dass DigiGait-Ausreißer kurze Schritte sind, während unsere Messungen lange Schritte sind.

Wir lernen und bewerten das Verhalten von Mäusen anhand eines manuell beschrifteten Satzes von 1254 Trainingsvideos, 400 Validierungsvideos und 400 Testvideos. Wir verwenden absichtlich einen kleinen Datensatz, um den allgemeinen Bedarf in der biologischen Forschung nachzuahmen, Komponenten wiederzuverwenden, um neue Aufgaben zu lösen, obwohl nur begrenzte markierte Daten verfügbar sind. Da Verhalten häufig aus einem einzelnen Frame abgeleitet werden kann, vergleichen wir zusätzlich zu niedrigdimensionalen extrahierten Merkmalen auch mit einem Faltungs-Neuronalen Netzwerk. Wir extrahieren ResNet-Einbettungen für 12 aufeinanderfolgende Frames, mitteln die Merkmale über die Zeit und sagen das Verhalten mit einem zweischichtigen MLP voraus. Wir haben Faltungsnetzwerke verwendet, wie im Abschnitt „Vorhersage biologischer Attribute“ beschrieben, um aus den niedrigdimensionalen extrahierten Merkmalen auf das Verhalten zu schließen. Wir haben 25 Epochen lang mit dem Adam-Optimierer trainiert. In Tabelle 4 stellen wir fest, dass die Bounding-Box-Ausgaben unserer Pose-Pipeline das Verhalten besser ableiten können als die Anpassung eines tiefen Faltungs-Neuronalen Netzwerks. Auch die 2D- und 3D-Schlüsselpunktdarstellungen schneiden nahezu genauso gut ab. Am häufigsten verwechseln die Modelle Klassen mit ähnlichen Posen, aber unterschiedlichem Bewegungsumfang, z. B. indem sie „Gehen/Laufen durch den Käfig“ als „Stehen/Hintergrund“ oder „Schlafen“ als „Kratzen/Pflege“ klassifizieren, wie in Abb. 6 dargestellt. Eine Hypothese besagt, dass die Beschränkung der Eingabe nur auf die Positionen der Begrenzungsrahmen dem Modell hilft, eine Überanpassung irrelevanter Details zu vermeiden und kleine Positionsänderungen besser zu erkennen. Ein Vorteil der Verwendung unserer Methode besteht darin, dass verschiedene Stufen der Pipeline unterschiedliche Granularitätsebenen bieten und den Rechenaufwand für den Betrieb mehrerer Faltungs- oder anderer teurer neuronaler Netze allein über Pixel vermeiden. Einige Aufgaben können mit detaillierten Gelenkwinkeldarstellungen besser abschneiden, während diese kleine Verhaltensklassifizierungsaufgabe die Position und Bewegung des Begrenzungsrahmens für die Klassifizierung in weniger Dimensionen verwenden kann.

Repräsentative Verwirrungsmatrix zur Verhaltensklassifizierung. Jede Zeile stellt die vorhergesagte Klassifizierung für eine bestimmte echte positive Bezeichnung dar. Jede Spalte ist eine andere Ausgabevorhersage. Diese spezielle Verwirrungsmatrix gilt für das Bildermodell, aber das Muster ist bei allen Eingabetypen konsistent.

Hier stellen wir eine Methode vor, die aus Einzelansichtsvideos die 3D-Pose von Mäusen ableitet, und beschreiben jede Komponente unserer Analysepipeline und ihre Gesamtleistung. Wir haben die Leistung unserer Methode im Hinblick auf die Genauigkeit der primären Ausgabe bewertet: Schlüsselpunkte (z. B. Tabelle 2). Allerdings sind 3D-Schlüsselpunkte für sich genommen keine aussagekräftigen Phänotypen, daher haben wir die Fähigkeit dieser Ausgaben bewertet, biologisch relevante Änderungen im Mausverhalten zu erfassen. Für zwei biologische Störungen, von denen bekannt ist, dass sie den Gang beeinflussen (Alter und Mutation von Eif2B), konnten die Ergebnisse aus mehreren Stufen unserer Methode (Begrenzungsrahmen, 2D-Schlüsselpunkte, 3D-Schlüsselpunkte und 3D-Gelenkwinkel) den biologischen Status vorhersagen (Tabelle 3). ). Wichtig ist, dass die Konvertierung von 2D-Schlüsselpunkten in 3D-Schlüsselpunkte kaum Vorteile brachte, die Konvertierung von 3D-Schlüsselpunkten in 3D-Gelenkwinkel jedoch erhebliche Vorteile brachte. Dieses Ergebnis demonstrierte nicht nur die Wirksamkeit unserer speziellen Methode, sondern lieferte auch Erkenntnisse darüber, welcher Aspekt von Posendaten die Biologie am besten erfassen kann. Wir zeigen, dass die 3D-Gelenkwinkel eine einfachere Vorhersage gesundheitsbezogener Merkmale von Mäusen ermöglichen als andere Merkmale.

Unsere Methode bietet überzeugende Möglichkeiten für eine kontinuierliche, nicht-invasive Überwachung. Neben der Nützlichkeit von Posenschätzungen als konsolidierte Eingaben für die Black-Box-Klassifizierung biologischer Merkmale bietet unser System auch eine alternative Lösung zu kundenspezifischer Hardware zur Bestimmung von Gangparametern wie der Schrittlänge (Abb. 5). Zukünftige Arbeiten umfassen die Verbesserung der Genauigkeit der 3D-Pose und die Ausweitung dieser Methode auf soziale Interaktionen mit Tieren.

Die ML-Modelle in unserer Pipeline wurden anhand von Videos von Mäusen in einer begrenzten Vielfalt visueller Kontexte trainiert und bewertet. Obwohl diese Modelle möglicherweise in neuen Umgebungen robust sind, kann in manchen Fällen ein erneutes Training mit zusätzlichen Daten erforderlich sein, die an neue visuelle Umgebungen angepasst sind. Um die Erweiterung unseres Ansatzes oder ähnlicher Ansätze zu ermöglichen, stellen wir Bilder einzelner Mäuse mit annotierten 2D-Schlüsselpunkten bereit; beschriftete Videos von Multi-Maus-Tracking; und anatomische CT-Scans, die zur Konstruktion unserer vorherigen Form verwendet wurden (Abschnitt „Datenverfügbarkeit“). Wir hoffen, dass dieser Datensatz zur Maushaltungsanalyse und die dazugehörigen Modelle und Codes als wertvolle Community-Ressource dienen werden, um neue Forschung zu ermöglichen.

Burn, D. Oxford Textbook of Movement Disorders (Oxford University Press, 2013).

Buchen Sie Google Scholar

Deacon, RM Messung der motorischen Koordination bei Mäusen. J. Visual. Exp. 29, e2609 (2013).

Google Scholar

Gould, TD, Dao, DT & Kovacsics, CE Der Freilandtest. In stimmungs- und angstbezogenen Phänotypen bei Mäusen 1–20 (Springer, 2009).

Kapitel Google Scholar

Dorman, CW, Krug, HE, Frizelle, SP, Funkenbusch, S. & Mahowald, ML Ein Vergleich der Bildgebungssysteme Digigait™ und Treadscan™: Beurteilung von Schmerzen mittels Ganganalyse bei muriner Monoarthritis. J. Schmerzres. 7, 25 (2014).

PubMed Google Scholar

Xu, Y. et al. Gangbeurteilung von Schmerzen und Analgetika: Vergleich der Gangbildgebungssysteme digigait™ und catwalk™. Neurosci. Stier. 35, 401–418 (2019).

Artikel PubMed PubMed Central Google Scholar

Bains, RS et al. Bewerten des Mausverhaltens während des Hell-Dunkel-Zyklus mithilfe automatisierter Analysetools im Käfig. J. Neurosci. Methoden 300, 37–47 (2018).

Artikel ADS PubMed PubMed Central Google Scholar

Jhuang, H. et al. Automatisierte Verhaltensphänotypisierung von Mäusen im Heimkäfig. Nat. Komm. 1, 1–10 (2010).

Artikel ADS Google Scholar

Kabra, M., Robie, AA, Rivera-Alba, M., Branson, S. & Branson, K. Jaaba: Interaktives maschinelles Lernen zur automatischen Annotation von Tierverhalten. Nat. Methoden 10, 64 (2013).

Artikel CAS PubMed Google Scholar

Mathis, A. et al. Deeplabcut: Markerlose Posenschätzung benutzerdefinierter Körperteile mit Deep Learning. Nat. Neurosci. 21, 1281 (2018).

Artikel CAS PubMed Google Scholar

Noldus, LP, Spink, AJ & Tegelenbosch, RA Ethovision: Ein vielseitiges Video-Tracking-System zur Automatisierung von Verhaltensexperimenten. Verhalten. Res. Methoden Instrument. Berechnen. 33, 398–414 (2001).

Artikel CAS PubMed Google Scholar

Pereira, TD et al. Schnelle Schätzung der Tierhaltung mithilfe tiefer neuronaler Netze. Nat. Methoden 16, 117–125 (2019).

Artikel CAS PubMed Google Scholar

Richardson, CA Die Leistungsfähigkeit automatisierter Verhaltenstechnologien in Heimkäfigen bei der Charakterisierung des Krankheitsverlaufs bei Labormäusen: Ein Überblick. Appl. Anim. Verhalten. Wissenschaft. 163, 19–27 (2015).

Artikel Google Scholar

Dunn, TW et al. Geometrisches Deep Learning ermöglicht die kinematische 3D-Profilierung über Arten und Umgebungen hinweg. Nat. Methoden 18, 564 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Hong, W. et al. Automatisierte Messung des sozialen Verhaltens von Mäusen mithilfe von Tiefenerkennung, Videoverfolgung und maschinellem Lernen. Proz. Natl. Acad. Wissenschaft. 112, E5351–E5360 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Salem, G., Krynitsky, J., Hayes, M., Pohida, T. & Burgos-Artizzu, X. Dreidimensionale Posenschätzung für Labormaus aus monokularen Bildern. IEEE Trans. Bildprozess. 28, 4273–4287 (2019).

Artikel ADS MathSciNet PubMed PubMed Central MATH Google Scholar

Sheets, AL, Lai, P.-L., Fisher, LC & Basso, DM Quantitative Bewertung des Verhaltens und der motorischen Funktion von 3D-Mäusen im freien Feld nach einer Rückenmarksverletzung mittels markerloser Bewegungsverfolgung. PloS One 8, e74536 (2013).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Wiltschko, AB et al. Abbildung der Subsekundenstruktur im Mausverhalten. Neuron 88, 1121–1135 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Johnson, MJ, Duvenaud, DK, Wiltschko, A., Adams, RP & Datta, SR Erstellen grafischer Modelle mit neuronalen Netzen für strukturierte Darstellungen und schnelle Schlussfolgerungen. In: Fortschritte in neuronalen Informationsverarbeitungssystemen, 2946–2954 (2016).

Liu, Z. et al. Auf dem Weg zu einer natürlichen und genauen zukünftigen Bewegungsvorhersage von Menschen und Tieren. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 10004–10012 (2019).

Bregler, C. & Malik, J. Menschen mit Wendungen und exponentiellen Karten verfolgen. Im Verfahren. 1998 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (Kat.-Nr. 98CB36231), 8–15 (IEEE, 1998).

Cao, Z., Hidalgo, G., Simon, T., Wei, S. -E. & Sheikh, Y. OpenPose: Echtzeit-2D-Posenschätzung für mehrere Personen mithilfe von Part Affinity Fields. In: arXiv-Vorabdruck arXiv:1812.08008 (2018).

Newell, A., Yang, K. & Deng, J. Gestapelte Sanduhrnetzwerke zur menschlichen Posenschätzung. In European Conference on Computer Vision, 483–499 (Springer, 2016).

Wei, S. -E., Ramakrishna, V., Kanade, T. & Sheikh, Y. Faltungsposemaschinen. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 4724–4732 (2016).

Loper, M., Mahmood, N., Romero, J., Pons-Moll, G. & Black, MJ Smpl: Ein lineares Mehrpersonenmodell mit Haut. ACM Trans. Graph. 34, 248 (2015).

Artikel Google Scholar

Bogo, F. et al. Halten Sie es einfach: Automatische Schätzung der menschlichen 3D-Pose und -Form aus einem einzigen Bild. In European Conference on Computer Vision, 561–578 (Springer, 2016).

Pavlakos, G., Zhu, L., Zhou, X. & Daniilidis, K. Lernen, die dreidimensionale menschliche Pose und Form anhand eines einzelnen Farbbilds abzuschätzen. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 459–468 (2018).

Tung, H. -Y., Tung, H. -W., Yumer, E. & Fragkiadaki, K. Selbstüberwachtes Lernen der Bewegungserfassung. In Advances in Neural Information Processing Systems, 5236–5246 (2017).

Arnab, A., Doersch, C. & Zisserman, A. Nutzung des zeitlichen Kontexts für die 3D-Posenschätzung eines Menschen in freier Wildbahn. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 3395–3404 (2019).

Kanazawa, A., Zhang, JY, Felsen, P. & Malik, J. Lernen der menschlichen 3D-Dynamik aus Videos. In Computer Vision und Mustererkennung (CVPR) (2019).

Zanfir, A., Marinoiu, E. & Sminchisescu, C. Monokulare 3D-Posen- und Formschätzung mehrerer Personen in natürlichen Szenen – die Bedeutung mehrerer Szenenbeschränkungen. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2148–2157 (2018).

Grieco, F. et al. Verhalten im Heimkäfig messen: Studiendesign, Anwendungen, Herausforderungen und Perspektiven. Vorderseite. Verhalten. Neurosci. 15, 735387. https://doi.org/10.3389/fnbeh.2021.735387 (2021).

Artikel PubMed PubMed Central Google Scholar

Sun, JJ et al. Der Multi-Agent-Verhaltensdatensatz: Dyadische soziale Interaktionen mit Mäusen. arXiv:2104.02710 [cs] (2021). ArXiv:2104.02710.

Segalin, C. et al. Die Software-Pipeline des Mouse Action Recognition System (MARS) zur automatisierten Analyse des sozialen Verhaltens bei Mäusen. eLife 10, e63720. https://doi.org/10.7554/eLife.63720 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Marshall, JD et al. Der PAIR-R24M-Datensatz für die 3D-Posenschätzung mehrerer Tiere. Technik. Rep., bioRxiv. https://doi.org/10.1101/2021.11.23.469743 (2021). Abschnitt: Neue Ergebnisse Typ: Artikel.

Dunn, TW et al. Geometrisches Deep Learning ermöglicht die kinematische 3D-Profilierung über Arten und Umgebungen hinweg. Nat. Methoden 18, 564–573. https://doi.org/10.1038/s41592-021-01106-6 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Munea, TL et al. Der Fortschritt der menschlichen Posenschätzung: Eine Übersicht und Taxonomie von Modellen, die bei der zweidimensionalen menschlichen Posenschätzung angewendet werden. IEEE Access 8, 133330–133348. https://doi.org/10.1109/ACCESS.2020.3010248 (2020).

Artikel Google Scholar

Ben Gamra, M. & Akhloufi, MA Ein Überblick über Deep-Learning-Techniken zur 2D- und 3D-Posenschätzung von Menschen. Bild Vis. Berechnen. 114, 104282. https://doi.org/10.1016/j.imavis.2021.104282 (2021).

Artikel Google Scholar

Liu, W., Bao, Q., Sun, Y. & Mei, T. Jüngste Fortschritte bei der monokularen 2D- und 3D-Posenschätzung des Menschen: Eine Deep-Learning-Perspektive. ACM-Computing. Überleben.https://doi.org/10.48550/arXiv.2104.11536 (2021).

Artikel Google Scholar

Tian, ​​Y., Zhang, H., Liu, Y. & Wang, L. Wiederherstellung eines menschlichen 3D-Netzes aus monokularen Bildern: Eine Umfrage. Arxivhttps://doi.org/10.48550/arXiv.2203.01923 (2022).

Mathis, A. et al. DeepLabCut: Markerlose Posenschätzung benutzerdefinierter Körperteile mit Deep Learning. Nat. Neurosci. 21, 1281–1289. https://doi.org/10.1038/s41593-018-0209-y (2018).

Artikel CAS PubMed Google Scholar

Pereira, TD et al. Schnelle Schätzung der Tierhaltung mithilfe tiefer neuronaler Netze. Nat. Methoden 16, 117–125. https://doi.org/10.1038/s41592-018-0234-5 (2019).

Artikel CAS PubMed Google Scholar

Graving, JM et al. DeepPoseKit, ein Software-Toolkit für die schnelle und robuste Schätzung der Tierhaltung mithilfe von Deep Learning. eLife 8, e47994. https://doi.org/10.7554/eLife.47994 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Liu, X. et al. OptiFlex: Videobasierte Schätzung der Tierhaltung mithilfe von Deep Learning, verstärkt durch optischen Fluss. Technik. Rep., bioRxiv (2020). https://doi.org/10.1101/2020.04.04.025494. Abschnitt: Neue Ergebnisse Typ: Artikel.

Kreiss, S., Bertoni, L. & Alahi, A. OpenPifPaf: Zusammengesetzte Felder für semantische Schlüsselpunkterkennung und räumlich-zeitliche Assoziation. IEEE Trans. Intel. Transp. Syst.https://doi.org/10.1109/TITS.2021.3124981 (2021).

Artikel Google Scholar

Wu, A. et al. Deep Graph Pose: Ein halbüberwachtes tiefes grafisches Modell zur verbesserten Tierhaltungsverfolgung. In Advances in Neural Information Processing Systems (Hrsg. Larochelle, H. et al.) 6040–6052 (Curran Associates Inc., 2020).

Google Scholar

Zimmermann, C., Schneider, A., Alyahyay, M., Brox, T. & Diester, I. FreiPose: Ein Deep-Learning-Framework für die präzise Erfassung von Tierbewegungen in 3D-Räumen. Technik. Rep., (2020). https://doi.org/10.1101/2020.02.27.967620. Abschnitt: Neue Ergebnisse Typ: Artikel.

Huang, R. et al. Maschinelles Lernen klassifiziert prädiktive kinematische Merkmale in einem Mausmodell der Neurodegeneration. Wissenschaft. Rep. 11, 3950. https://doi.org/10.1038/s41598-021-82694-3 (2021).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Karashchuk, P. et al. Anipose: Ein Toolkit für eine robuste markerlose 3D-Posenschätzung. Cell Rep. 36, 109730. https://doi.org/10.1016/j.celrep.2021.109730 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Hong, W. et al. Automatisierte Messung des sozialen Verhaltens von Mäusen mithilfe von Tiefenerkennung, Videoverfolgung und maschinellem Lernen. Proz. Natl. Acad. Wissenschaft. 112, E5351–E5360. https://doi.org/10.1073/pnas.1515982112 (2015).

Artikel CAS PubMed PubMed Central Google Scholar

Xu, C., Govindarajan, LN, Zhang, Y. & Cheng, L. Lie-X: Tiefenbildbasierte Posenschätzung, Verfolgung und Aktionserkennung von Gelenkobjekten in Lügengruppen. Int. J. Comput. Vision 123, 454–478. https://doi.org/10.1007/s11263-017-0998-6 (2017).

Artikel MathSciNet MATH Google Scholar

Ebbesen, CL & Froemke, RC Automatische Kartierung gemultiplexter sozialer Empfangsfelder durch Deep Learning und GPU-beschleunigte 3D-Videografie. Nat. Komm. 13, 593. https://doi.org/10.1038/s41467-022-28153-7 (2022).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Tsuruda, Y. et al. 3D-Körperteilverfolgung einer Maus basierend auf einem RGB-D-Video unter einem offenen Feld. In: 2021 43. Internationale Jahreskonferenz der IEEE Engineering in Medicine Biology Society (EMBC), 7252–7255, https://doi.org/10.1109/EMBC46164.2021.9630565 (2021). ISSN: 2694-0604.

Gosztolai, A. et al. LiftPose3D, ein Deep-Learning-basierter Ansatz zur Umwandlung zweidimensionaler in dreidimensionale Posen bei Labortieren. Nat. Methoden 18, 975–981. https://doi.org/10.1038/s41592-021-01226-z (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Bregler, C., Malik, J. & Pullen, K. Twist-basierte Erfassung und Verfolgung der Kinematik von Tieren und Menschen. Int. J. Comput. Vision 56, 179–194 (2004).

Artikel Google Scholar

Wong, YL et al. Der eif2b-Aktivator verhindert neurologische Defekte, die durch eine chronisch integrierte Stressreaktion verursacht werden. eLife 8, e42940. https://doi.org/10.7554/eLife.42940 (2019).

Artikel PubMed PubMed Central Google Scholar

Dooves, S. et al. Astrozyten spielen eine zentrale Rolle in den Pathomechanismen des Verschwindens der weißen Substanz. J. Clin. Investig. 126, 1512–1524 (2016).

Artikel PubMed PubMed Central Google Scholar

Geva, M. et al. Ein Mausmodell für die eukaryotische Translationsinitiationsfaktor-2b-Leukodystrophie zeigt eine abnormale Entwicklung der weißen Substanz des Gehirns. Gehirn 133, 2448–2461 (2010).

Artikel PubMed Google Scholar

Batka, RJ et al. Das Bedürfnis nach Geschwindigkeit bei der Fortbewegungsanalyse von Nagetieren. Ein Atom. Aufzeichnung 297, 1839–1864. https://doi.org/10.1002/ar.22955 (2014).

Artikel Google Scholar

Heglund, NC & Taylor, CR Geschwindigkeit, Schrittfrequenz und Energiekosten pro Schritt: Wie verändern sie sich mit der Körpergröße und dem Gang? J. Exp. Biol. 138, 301–318. https://doi.org/10.1242/jeb.138.1.301 (1988).

Artikel CAS PubMed Google Scholar

Herbin, M., Hackert, R., Gasc, J.-P. & Renous, S. Gangparameter des Laufbandes im Vergleich zur oberirdischen Fortbewegung bei Mäusen. Verhalten. Gehirn Res. 181, 173–9. https://doi.org/10.1016/j.bbr.2007.04.001 (2007).

Artikel PubMed Google Scholar

Jhuang, H. et al. Automatisierte Verhaltensphänotypisierung von Mäusen im Heimkäfig. Nat. Komm. 1, 68. https://doi.org/10.1038/ncomms1064 (2010).

Artikel ADS CAS PubMed Google Scholar

Lassner, C. et al. Vereint die Menschen: Den Kreis zwischen menschlichen 3D- und 2D-Darstellungen schließen. In: Tagungsband der IEEE-Konferenz zu Computer Vision und Mustererkennung, 6050–6059 (2017).

Varol, G. et al. Von synthetischen Menschen lernen. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 109–117 (2017).

Liu, W. et al. SSD: Single-Shot-Multibox-Detektor. In: European Conference on Computer Vision, 21–37 (Springer, 2016).

Lin, T. -Y. et al. Microsoft Coco: Gemeinsame Objekte im Kontext. In: European Conference on Computer Vision, 740–755 (Springer, 2014).

Kingma, DP & Ba, J. Adam: Eine Methode zur stochastischen Optimierung. arXiv preprintarXiv:1412.6980 (2014).

Referenzen herunterladen

Google, 1600 Amphitheatre Parkway, Mountain View, CA, 94043, USA

Bo Hu, Bryan Seybold, Shan Yang, Avneesh Sud und David A. Ross

Calico Life Sciences LLC, 1170 Veterans Blvd., South San Francisco, CA, 94080, USA

Yi Liu, Karla Barron, Paulyn Cha, Marcelo Cosino, Ellie Karlsson, Janessa Kite, Ganesh Kolumam, Joseph Precious, Joseph Zavala-Solorio, Chunlian Zhang und J. Graham Ruby

Translationale Bildgebung, Neuroscience Discovery, Abbvie, 1 N. Waukegan Rd., North Chicago, IL, 60064-1802, USA

Xiaomeng Zhang, Martin Voorbach und Ann E. Tovcimak

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

BH, BS und SY haben den Hauptmanuskripttext geschrieben. YL, KB, PC, MC, EK, JK, GK, JP, JZS und CZ sammelten die im Abschnitt Videobilder beschriebenen Daten. XZ, MV und AT sammelten die Daten und verfassten den Text des Abschnitts „CT-Scans“. DR und JR haben das Manuskript bearbeitet. Alle Autoren haben das Manuskript überprüft.

Korrespondenz mit Bo Hu.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative-Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht durch gesetzliche Vorschriften zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Hu, B., Seybold, B., Yang, S. et al. 3D-Mauspose aus Einzelansichtsvideo und einem neuen Datensatz. Sci Rep 13, 13554 (2023). https://doi.org/10.1038/s41598-023-40738-w

Zitat herunterladen

Eingegangen: 25. November 2022

Angenommen: 16. August 2023

Veröffentlicht: 21. August 2023

DOI: https://doi.org/10.1038/s41598-023-40738-w

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.