Gesundheitssystem
Natur (2023)Diesen Artikel zitieren
5636 Zugriffe
511 Altmetrisch
Details zu den Metriken
Ärzte treffen jeden Tag unter Zeitdruck wichtige Entscheidungen. Klinische Vorhersagemodelle können Ärzten und Administratoren bei der Entscheidungsfindung helfen, indem sie klinische und operative Ereignisse vorhersagen. Bestehende strukturierte, datenbasierte klinische Vorhersagemodelle haben aufgrund der Komplexität der Datenverarbeitung sowie der Modellentwicklung und -bereitstellung nur begrenzten Nutzen in der täglichen Praxis1,2,3. Hier zeigen wir, dass unstrukturierte klinische Notizen aus der elektronischen Gesundheitsakte das Training klinischer Sprachmodelle ermöglichen können, die als universelle klinische Vorhersagemaschinen mit geringem Entwicklungs- und Einsatzwiderstand verwendet werden können. Unser Ansatz nutzt die jüngsten Fortschritte in der Verarbeitung natürlicher Sprache4,5, um ein großes Sprachmodell für medizinische Sprache (NYUTron) zu trainieren und es anschließend für ein breites Spektrum klinischer und betrieblicher Vorhersageaufgaben zu verfeinern. Wir haben unseren Ansatz innerhalb unseres Gesundheitssystems für fünf solcher Aufgaben bewertet: 30-Tage-Vorhersage für eine Rückübernahme aus allen Gründen, Vorhersage der Krankenhaussterblichkeit, Vorhersage des Komorbiditätsindex, Vorhersage der Aufenthaltsdauer und Vorhersage der Versicherungsverweigerung. Wir zeigen, dass NYUTron eine Fläche unter der Kurve (AUC) von 78,7–94,9 % aufweist, mit einer Verbesserung der AUC um 5,36–14,7 % im Vergleich zu herkömmlichen Modellen. Darüber hinaus demonstrieren wir die Vorteile des Vortrainings mit klinischem Text, das Potenzial zur Verbesserung der Generalisierbarkeit auf verschiedene Standorte durch Feinabstimmung und den vollständigen Einsatz unseres Systems in einer prospektiven, einarmigen Studie. Diese Ergebnisse zeigen das Potenzial für den Einsatz klinischer Sprachmodelle in der Medizin, um gemeinsam mit Ärzten zu lesen und ihnen am Point of Care Orientierung zu geben.
Ärzte treffen jeden Tag schwierige Entscheidungen, die die Integration einer enormen Menge an Informationen erfordern. Die für diese medizinischen Entscheidungen erforderlichen Informationen sind über verschiedene Aufzeichnungen verteilt, beispielsweise die Krankengeschichte eines Patienten sowie Labor- und Bildgebungsberichte. Im Rahmen der ärztlichen Tätigkeit fließen jedoch letztlich alle diese Informationen in die von den Ärzten verfassten Notizen ein, um die Patientenversorgung zu dokumentieren und zusammenzufassen.
Klinische Vorhersagemodelle werden häufig aus Regeln abgeleitet, die seit Jahrzehnten existieren6,7,8,9, sowie aus Methoden des maschinellen Lernens10,11,12, wobei die meisten auf strukturierten Eingaben basieren, die aus der elektronischen Gesundheitsakte (EHR) oder direkt vom Arzt stammen Eingänge. Diese Abhängigkeit von strukturierten Eingaben führt zu einer Komplexität bei der Datenverarbeitung sowie bei der Modellentwicklung und -bereitstellung, die zum Teil dafür verantwortlich ist, dass die überwiegende Mehrheit der medizinischen Vorhersagealgorithmen trainiert, getestet und veröffentlicht wird, jedoch nie eingesetzt wird, um ihre Auswirkungen auf die Realität zu bewerten. weltweite klinische Versorgung. Dies wird häufig als „Problem der letzten Meile“ bezeichnet (Ref. 1,2,3).
Eine der aufregendsten jüngsten Entwicklungen in der modernen Forschung im Bereich der künstlichen Intelligenz (KI) sind große Sprachmodelle (LLMs). Es hat sich gezeigt, dass diese riesigen neuronalen Netze (mit Millionen oder sogar Milliarden von Parametern) wirkungsvolle Ergebnisse bei einer Vielzahl von Problemen erzielen, die auf dem Lesen und Interpretieren der menschlichen Sprache beruhen. In den letzten Jahren wurden verschiedene Arten von LLMs entwickelt, die im Großen und Ganzen von Encodermodellen (wie BERT4) bis zu Decodermodellen (wie GPT3; Ref. 5) reichen. Wir stellten die Theorie auf, dass LLMs möglicherweise das Problem der letzten Meile in der medizinischen Vorhersageanalyse lösen könnten, indem sie einfach die von Ärzten verfassten Notizen lesen und so sofort auf eine umfassende Beschreibung des Gesundheitszustands eines Patienten zugreifen, um am Behandlungsort Entscheidungsunterstützung für ein breites Spektrum an Patienten bereitzustellen klinische und operative Aufgaben.
Hier präsentieren wir unsere Ergebnisse aus der Entwicklung, Bewertung, Bereitstellung und prospektiven Bewertung von NYUTron, einem LLM-basierten System, das sich in Echtzeit in klinische Arbeitsabläufe integrieren lässt, bei denen es um das Schreiben von Notizen und die Erteilung elektronischer Bestellungen geht. Unser Ansatz basiert auf der Tatsache, dass alle klinisch nützlichen Daten und Entscheidungsprozesse von Medizinern als strukturierter oder unstrukturierter Text in der EHR zu finden sind (z. B. als Notizen, Laborergebnisse und Studienberichte). Unser Ansatz nutzt die jüngsten Fortschritte in der Verarbeitung natürlicher Sprache, die darauf hindeuten, dass ausreichend skalierte, selbstüberwachte LLMs stark überwachte Ansätze bei nichtmedizinischen Vorhersageaufgaben übertreffen können4,5,13. Wir untersuchen unsere Hypothese im NYU Langone Health System („NYU Langone“), einem großen, bezirksübergreifenden Krankenhaussystem mit einer vielfältigen Patientenpopulation in New York, mit 4 städtischen Krankenhäusern und 350 ambulanten Standorten. Wir bewerten NYUTron anhand einer Reihe von fünf Aufgaben, darunter drei klinische und zwei operative Aufgaben (Vorhersage der 30-Tage-Rückübernahme aus allen Gründen, Vorhersage der Mortalität im Krankenhaus, Vorhersage des Komorbiditätsindex, Vorhersage der Aufenthaltsdauer (LOS) und Vorhersage der Versicherungsverweigerung) und Bereitstellung einer detaillierten Analyse unserer 30-tägigen Rückübernahmeaufgabe, um Fragen zur Dateneffizienz, Generalisierbarkeit, Einsatzfähigkeit und möglichen klinischen Auswirkungen zu untersuchen. Indem wir die gesamte medizinische Vorhersageanalyse (siehe Abschnitt 1.1 mit ergänzenden Informationen für frühere Arbeiten) als ein Problem der Verarbeitung natürlicher Sprache überdenken, zeigen wir, dass es möglich ist, LLMs als universelle Vorhersagemaschinen für ein breites Spektrum medizinischer Vorhersageaufgaben zu verwenden.
Unser sprachmodellbasierter Ansatz besteht aus vier Schritten: Datenerfassung, Vortraining, Feinabstimmung und Bereitstellung. Im ersten Schritt (Abb. 1a) sammelten wir einen umfangreichen Satz unbeschrifteter klinischer Notizen und fünf aufgabenspezifisch gekennzeichnete klinische Notizen aus dem NYU Langone EHR. Im Gegensatz zu anderen Studien stammen unsere Datensätze aus dem gesamten Krankenhaussystem mit einer vielfältigen Patientenpopulation aus verschiedenen klinischen Abteilungen. Unser großer, unbeschrifteter Datensatz „NYU Notes“ umfasst 7,25 Millionen klinische Notizen (z. B. Röntgenaufnahmen, Anamnese und körperliche Untersuchungen) von 387.144 Patienten in vier Krankenhäusern, was zu einem Korpus mit 4,1 Milliarden Wörtern führt, der von Januar 2011 bis Mai 2020 kuratiert wurde Eines unserer beschrifteten Feinabstimmungssets enthält 1–10 Jahre klinische Notizen zu stationären Patienten (55.791–413.845 Patienten, 51–87 Millionen Wörter) mit aufgabenspezifischen Beschriftungen (2–4 Klassen). Datensatzstatistiken finden Sie in der erweiterten Datentabelle 1.
a: Wir haben die NYU Langone EHR nach zwei Arten von Datensätzen befragt. Der Vortrainingsdatensatz, NYU Notes, enthält 10 Jahre stationärer klinischer Notizen (387.144 Patienten, 4,1 Milliarden Wörter). Es gibt fünf Feinabstimmungsdatensätze. Jedes enthält 1–10 Jahre klinische Notizen zu stationären Patienten (55.791–413.845 Patienten, 51–87 Millionen Wörter) mit aufgabenspezifischen Bezeichnungen (2–4 Klassen). b: Wir haben ein BERT-ähnliches LLM mit 109 Millionen Parametern namens NYUTron auf der gesamten EHR vorab trainiert, indem wir eine MLM-Aufgabe verwendet haben, um ein vorab trainiertes Modell für die in der EHR enthaltene medizinische Sprache zu erstellen. c: Anschließend haben wir das vorab trainierte Modell für bestimmte Aufgaben verfeinert (z. B. 30-Tage-Wiederaufnahmevorhersage aus allen Gründen) und es anhand zurückgehaltener retrospektiver Daten validiert. d, Zuletzt wurde das fein abgestimmte Modell in ein beschleunigtes Format komprimiert und in eine Inferenzmaschine geladen, die mit dem NYU Langone EHR kommuniziert, um Entlassungsbescheinigungen zu lesen, wenn sie von behandelnden Ärzten unterzeichnet werden.
Im zweiten und dritten Schritt (Abb. 1b, c) haben wir ein LLM für jede nachgelagerte Aufgabe vorab trainiert und optimiert, indem wir ein bidirektionales Encodermodell namens BERT (Bidirektionale Encoderdarstellung mit Transformator) und ein Masked Language Modeling (MLM)-Ziel verwendet haben auf dem NYU Notes-Datensatz11, bis der Validierungsverlust ein Plateau erreichte. Das MLM-Ziel maskiert nach dem Zufallsprinzip Wörter oder Teilwörter in klinischen Notizen und trainiert das Sprachmodell, um das maskierte Wort korrekt einzufügen. Als Nächstes optimierten wir mithilfe des Feinabstimmungsdatensatzes das vorab trainierte Modell (genannt „NYUTron“), um die Aufgabenbezeichnung anhand der im Vortraining erlernten Beziehungen mit klinischen Notizen vorherzusagen.
Im vierten Schritt (Abb. 1d) haben wir unser bestes Modell auf einer leistungsstarken Inferenz-Engine, NYUTriton, bereitgestellt, die mit dem NYU Langone EHR verbunden ist. Der Einsatz ermöglichte eine LLM-gesteuerte Inferenz in Echtzeit am Point-of-Care. In einer einarmigen, nicht-interventionellen, prospektiven Studie haben wir die Leistung von NYUTron bei der 30-Tage-Wiederaufnahmevorhersage in einer realen Umgebung validiert und seine möglichen klinischen Auswirkungen bewertet.
Um den Umfang der Anwendbarkeit von NYUTron zu beurteilen, haben wir die Leistung von NYUTron bei fünf Aufgaben im Nachhinein bewertet. Wir haben mit dem vollständigen Datensatz trainiert und die Leistung mit zwei Testsätzen bewertet: (1) einem zufälligen Testsatz (klinische Notizen, die zur gleichen Zeit wie die Trainingsdaten entnommen wurden) und (2) einem zeitlichen Testsatz (klinische Notizen, die aus der Zukunft stammen). die Trainingsdaten). Der zeitliche Testsatz ähnelt eher dem Bereitstellungsszenario, bei dem Inferenzdaten aus der Zukunft der Trainingsdaten stammen. Unsere Aufgabenbatterie bestand aus drei klinischen Aufgaben und zwei operativen Aufgaben, wie in Abb. 2a dargestellt. Wir haben NYUTron mit strukturierten Basislinien verglichen, die strukturierte Merkmale, die von herkömmlichen klinischen Vorhersagemodellen verwendet werden, in ein Baummodell mit extremer Gradientenverstärkung14 weiterleiten.
a) Die fünf Aufgaben umfassen drei klinische Aufgaben und zwei operative Aufgaben. b: Bei der Vorhersage der Wiederaufnahme hatte NYUTron eine mittlere AUC von 79,9 % ± 0,168 % mit einer Verbesserung von 5,36 %. Bei der Vorhersage der Krankenhaussterblichkeit wies NYUTron eine mittlere AUC von 94,9 % ± 0,168 % mit einer Verbesserung um 7,43 % auf. Bei der Imputation des Komorbiditätsindex wies NYUTron eine mittlere OVR-AUC von 89,4 % ± 0,275 % auf. Rechts ist eine Verwirrungsmatrix dargestellt. c: Bei der gruppierten LOS-Vorhersage hatte NYUTron eine mittlere AUC von 78,7 % ± 0,179 % mit einer Verbesserung von 12,3 % gegenüber dem strukturierten Ausgangswert. Bei der Vorhersage der Versicherungsverweigerung hatte NYUTron eine mittlere AUC von 87,2 % ± 0,246 % mit einer Verbesserung von 14,7 %. Für b,c ist die Höhe des Fehlerbalkens der mittlere AUC und die Halbwertsbreite des Fehlerbalkens beträgt 1 sd. Die grauen Punkte sind einzelne Datenpunkte aus n = 5 Experimenten mit unterschiedlichen Zufallsstartwerten.
NYUTron kann auf mehrere klinische und betriebliche Aufgaben erweitert werden. Abbildung 2b und Abb. 2c zeigen, dass NYUTron bei Vorhersageaufgaben (Sterblichkeit im Krankenhaus, Rückübernahme, LOS und Versicherungsverweigerung) eine Fläche unter der Kurve (AUC) von 78,7–94,9 % aufwies, mit einer Verbesserung von 5,36–14,7 %. in AUC aus traditionellen klinischen Vorhersagemodellen. Bei der Komorbiditätsindex-Imputation hatte NYUTron eine mittlere AUC von 89,4 % ± 0,275 %. Wir präsentieren zunächst unsere Ergebnisse zu vier der Aufgaben und schließen mit einem fokussierten Blick auf die Vorhersage der Wiedereinweisung, der Fragen der Dateneffizienz, der Generalisierbarkeit des Modells und des Einsatzes in einer realen Umgebung behandelt.
NYUTron ist in der Lage, das Risiko einer Krankenhaussterblichkeit bei Aufnahme vorherzusagen und einen Komorbiditätsindex zu berechnen. Die Aufgabe der Vorhersage der Krankenhaussterblichkeit bestand darin, (bei der Aufnahme) die Wahrscheinlichkeit des Todes eines Patienten während der aktuellen stationären Begegnung abzuschätzen. Abbildung 2b zeigt, dass NYUTron für die Vorhersage der Krankenhaussterblichkeit eine mittlere AUC von 94,9 % ± 0,168 % aufwies, was einer Verbesserung von 7,43 % gegenüber dem strukturierten Ausgangswert entspricht, basierend auf dem Simplified Acute Physiology Score (SAPS2)15 und der Acute Physiology and Chronic Health Evaluation (APACHE2)16 Merkmale wie Alter und mittlere Herzfrequenz. Die Aufgabe der Komorbiditätsindex-Imputation bestand darin, (bei Aufnahme) den Charlson-Komorbiditätsindex (CCI)17 ohne verfügbare strukturierte Merkmale für chronische Krankheiten vorherzusagen. Wir haben dies als Datenimputationsproblem eingestuft, da 22 % unseres Datensatzes keine CCI-Werte aufwiesen und dies ein bekanntermaßen verbesserungswürdiger Bereich der Dokumentation war (weitere Informationen finden Sie in Abschnitt 2.3 mit ergänzenden Informationen). Wir haben den Index entsprechend den Schweregraden der Originalarbeit in vier Klassen diskretisiert (0, keine; 1–2, leicht; 3–4, mittel; ≥5, schwer). Abbildung 2b zeigt, dass NYUTron bei der Komorbiditätsunterstellung eine mittlere AUC von 89,4 % ± 0,275 % und eine Genauigkeit von 88 % bei der Identifizierung von Patienten mit einem CCI-Score von 0 aufwies.
NYUTron kann auch für betriebliche Endpunkte und zur Vorhersage der Aufenthaltsdauer stationärer Patienten und der Ablehnung von Versicherungsansprüchen bei der Aufnahme verwendet werden. Die Aufgabe der LOS-Vorhersage bestand darin, (bei der Aufnahme) die wahrscheinliche Anzahl an Tagen vorherzusagen, die ein Patient im Krankenhaus bleiben würde. Wir haben LOS in vier Klassen diskretisiert (0–25 % Quantil, 25–50 % Quantil, 50–75 % Quantil, >75 % Quantil). Abbildung 2c zeigt, dass NYUTron für die LOS-Vorhersage eine mittlere One-versus-Rest (OVR)-AUC von 78,7 % ± 0,179 % aufwies, was einer Verbesserung von 12,3 % gegenüber der strukturierten Basislinie entspricht, die eine verfügbare Teilmenge von „Lissabon Portugal“-Merkmalen verwendete18 . Die Aufgabe der Vorhersage der Ablehnung von Versicherungsansprüchen bestand darin, (bei der Zulassung) vorherzusagen, ob die für eine Begegnung eingereichten Versicherungsansprüche angenommen oder zunächst abgelehnt würden. Abbildung 2c zeigt, dass NYUTron für die Vorhersage der Versicherungsablehnung eine mittlere AUC von 87,2 % ± 0,246 % aufwies, was einer Verbesserung von 14,7 % gegenüber der strukturierten Basislinie entspricht, bei der eine verfügbare Teilmenge von „Anspruchsformular“-Funktionen19 wie Alter und Versicherungsanbieter verwendet wurde. NYUTron ist auch in der Lage, verschiedene Arten von Ablehnungen sowohl aus Zulassungsbescheinigungen als auch aus Entlassungsbescheinigungen mit ähnlicher Leistung vorherzusagen (Ergänzende Informationen, Abschnitt 2.2).
Um die Leistung von NYUTron besser zu verstehen, haben wir eine detaillierte Analyse der 30-Tage-Vorhersage zur Rückübernahme aus allen Gründen durchgeführt. Die Aufgabe der Rückübernahmevorhersage besteht darin, (bei der Entlassung) die Wahrscheinlichkeit vorherzusagen, dass ein Patient innerhalb von 30 Tagen wieder ins Krankenhaus kommt. Dies ist ein gut untersuchtes Problem in der medizinischen Informatikliteratur (weitere Einzelheiten zur Rückübernahmevorhersage finden Sie in Abschnitt 2.1 mit ergänzenden Informationen). Aufgabe). Abbildung 2b zeigt, dass NYUTron für die 30-Tage-Vorhersage einer Rückübernahme aus allen Gründen eine mittlere AUC von 79,87 % ± 0,168 % aufwies, was einer Verbesserung von 5,36 % gegenüber dem strukturierten Ausgangswert entspricht, der LACE20-Merkmale (eine Gedächtnisstütze für LOS, Aufnahmeschärfe) verwendete , Charlson-Komorbiditätsindex und Anzahl der Notaufnahmen in den letzten 6 Monaten). Wir haben sowohl retrospektiv als auch prospektiv fünf zusätzliche Auswertungen durchgeführt: (1) einen menschlichen Vergleich mit sechs behandelnden Ärzten zur Vorhersage der Wiederaufnahme von 20 Patientenfällen, die aus einer zufälligen Aufteilung ausgewählt wurden, (2) eine Studie über die Skalierungseigenschaften von NYUTron in Bezug auf Daten in wobei NYUTron und andere Modelle unter Verwendung einer unterschiedlichen Anzahl fein abgestimmter Datenpunkte verglichen wurden, (3) eine Bewertung der standortübergreifenden Generalisierbarkeit von NYUTron unter Verwendung von Vortrainings-, Feinabstimmungs- und Testdaten von verschiedenen Standorten, (4) eine prospektive, einzelne Arm, nicht-interventionelle Studie zur Bewertung der Einsatzfähigkeit von NYUTron und (5) eine qualitative Bewertung der voraussichtlichen Leistung von NYUTron durch ein Ärztegremium zur Bewertung der klinischen Auswirkungen.
Bei kleinen Stichproben konkurrierte NYUTron mit einer kleinen Gruppe von Ärzten bei der Vorhersage einer 30-tägigen Wiederaufnahme. Wir haben eine Gruppe von sechs Ärzten unterschiedlichen Dienstalters in einem direkten Vergleich mit NYUTron getestet, um eine Grundschwierigkeit für die Vorhersage einer 30-tägigen Wiederaufnahme aus allen Gründen zum Zeitpunkt der Entlassung zu ermitteln. Entlassungszusammenfassungen (n = 20, darunter 11 positive und 9 negative Fälle) wurden aus einer zufälligen Aufteilung ausgewählt und auf eine Online-Bewertungsplattform hochgeladen. Die durchschnittliche Leistung des Arztes war schlechter als die von NYUTron (Abb. 3a). Bei Ärzten und NYUTron betrug die mittlere Falsch-Positiv-Rate (FPR) 11,11 %, während die mittlere Richtig-Positiv-Rate (TPR) bei Ärzten 50 % betrug, verglichen mit 81,82 % bei NYUTron. Ärzte hatten einen mittleren F1-Score von 62,8 % und eine erhebliche Varianz von 22,2 % im Vergleich zu NYUTron, das einen mittleren F1-Score von 77,8 % aufwies.
a: An 20 zufällig ausgewählten Fällen haben wir die TPR und FPR von NYUTron mit denen von sechs Ärzten verglichen. NYUTron (orangefarbene Dreiecke) hatte im Vergleich zur durchschnittlichen Leistung des Arztes (grüne Kreise) eine höhere TPR und die gleiche FPR. Das Fehlerband für AUC reicht vom Minimum bis zum Maximum, und die orangefarbenen Kreuze zeigen TPR und FPR unter Verwendung aller möglichen Schwellenwerte an. Wir haben den Schwellenwert von NYUTron auf der Grundlage von Validierungsdaten ausgewählt. b, Vergleich der zeitlichen Test-AUCs verschiedener vorab trainierter LLMs mit einer zunehmenden Anzahl von Feinabstimmungsbeispielen. Der Einfachheit halber lassen wir die Varianz weg und zeichnen nur die mittlere Leistung von fünf Versuchen auf. Unterschiede in der mittleren Leistung bei 100 und 1.000 Beispielen sind weniger auffällig, da AUCs mit spärlichen Feinabstimmungsbeispielen eine hohe Varianz aufweisen (bei 100 Beispielen hatten wir eine Varianz von 4,26 % bis 9,56 %; bei 1.000 Beispielen hatten wir eine Varianz von 0,44 % bis 9,46 %). . Die AUC-Varianz nimmt mit zunehmender Feinabstimmung der Beispiele ab. Die horizontale gestrichelte Linie bei 0,75 entspricht der Leistungsschwelle. Siehe alternative Darstellungen in Extended Data Abb. 7. c,d, Zeitliche Testleistung von NYUTron unter Verwendung von Vortrainings-, Feinabstimmungs- und Testdaten von verschiedenen Standorten. Sowohl beim Manhattan- als auch beim Brooklyn-Test zeigt die Spalte, die der lokalen Feinabstimmung entspricht, eine bessere Leistung als die Spalte mit externer Feinabstimmung. Jeder Eintrag in c,d wird als Mittelwert ± 1 Standardabweichung für n = 5 Experimente mit unterschiedlichen Zufallsstartwerten dargestellt.
Die zufällige Aufteilung ähnelt nicht dem Bereitstellungsszenario, bei dem die Testdaten aus der Zukunft der Trainingsdaten stammen. Wir haben daher eine zeitliche Aufteilung erstellt, um den Einsatz zu simulieren, und einen bedeutsamen Unterschied in den Teststatistiken im Vergleich zur zufälligen Aufteilung beobachtet (die zufällige Test-AUC betrug 84,13 %, während die zeitliche Test-AUC 80,2 % betrug), was die Bedeutung dieser zweiten Testphase bestätigt ( weiterer Vergleich in Extended Data Abb. 1).
NYUTron ist mit traditionellen Modellen und anderen LLMs konkurrenzfähig. Wir haben die Wirksamkeit von NYUTron bewertet, indem wir seine Testleistung bei der zeitlichen Aufteilung mit der eines herkömmlichen Modells und vier verschiedenen Arten von LLMs verglichen haben. NYUTron hatte die höchste AUC bei der Feinabstimmung mit dem vollständigen Datensatz (Abb. 3b), mit einer mittleren AUC von 79,87 % ± 0,17 %, was der klinischen + Web-Wiki + Bio-AUC von 80,14 % ± 0,26 % ähnelte. Im Vergleich zu LLMs, die mit nichtklinischem Text (Web-Wiki+Bio und Web-Wiki) vorab trainiert wurden, war die mittlere AUC von NYUTron um 2,37 % bis 3,23 % höher. Im Vergleich zum traditionellen Modell, das strukturierte Funktionen (Lace+xgb) verwendet, hatte NYUTron eine um 5,36 % höhere AUC. Im Vergleich zu einem Modell mit traditioneller Einbettung der Verarbeitung natürlicher Sprache (NLP) (tf-idf+xgb) hatte NYUTron eine um 12,8 % höhere mittlere AUC (Extended Data, Abb. 2a).
Ein auf unstrukturierten klinischen Notizen trainierter LLM lässt sich besser mit Daten skalieren als herkömmliche strukturierte Modelle. Im Vergleich zu lace+xgb profitiert NYUTron von einer zunehmenden Anzahl beschrifteter Beispiele und erzielte bei Feinabstimmung mit dem gesamten Datensatz eine bessere AUC. Abbildung 3b zeigt, dass Lace+xgb (gestrichelte gelbe Linie) und NYUTron (durchgezogene grüne Linie) bei 100 und 1.000 Beispielen ähnliche AUCs aufwiesen. Allerdings verbesserte sich die AUC von NYUTron kontinuierlich mit mehr Beispielen, während die AUC von Lace+xgb zu stagnieren begann (von 100 auf 1.000 Beispiele stieg die AUC von NYUTron um 7,27 %, während die von Lace+xgb um 3,98 % zunahm; von 10.000 auf 392.336 Beispiele stieg die AUC von NYUTron um 2,15 %, während der von Lace+xgb um 0,63 % zunahm. Mit dem vollständigen Feinabstimmungsdatensatz hatte NYUTron eine um 7,04 % höhere AUC als Lace+xgb.
Das Vortraining mit einer großen Menge unbeschrifteter klinischer Notizen trägt zur Leistung bei. Im Vergleich zum zufällig initialisierten LLM (Random-Init) lernt NYUTron, aus weniger Beispielen besser zu verallgemeinern. Abbildung 3b zeigt, dass NYUTron 10.000 Beispiele benötigte, um eine AUC von etwa 75 % zu erreichen, während random-init 100.000 Beispiele benötigte. Einen ähnlichen Trend beobachteten wir auch bei einer anderen klinischen Vorhersageaufgabe: NYUTron schnitt bei der klinisch benannten Entität besser ab als das Random-Init-Modell (36,83 % höherer F1-Score) und die nicht klinisch vortrainierten Modelle (2,06 % bis 3,73 % höherer F1-Score). Erkennungsaufgabe (NER) aus der i2b2-Challenge 2012 (Extended Data Abb. 2b).
Es ist von Vorteil, die Domäne des Vortrainingskorpus und die Domäne des Feinabstimmungskorpus abzugleichen. Abbildung 3b zeigt drei Beweise: LLMs, die mit nichtklinischem Text (Web-Wiki und Web-Wiki+Bio) vorab trainiert wurden, hatten eine ähnliche Leistung wie Random-Init. Ein separates LLM, Web-Wiki+Bio+Klinik, hatte eine ähnliche Leistung wie NYUTron. Drittens lernten klinisch vortrainierte LLMs (NYUTron und Web-Wiki+Bio+Klinik) im Vergleich zu LLMs, die mit nichtklinischem Text (Web-Wiki und Web-Wiki+Bio) vorab trainiert wurden, aus weniger Beispielen besser zu verallgemeinern. Siehe „Erweiterte Daten“ in Abb. 3 zum Vergleich des Korpus vor dem Training.
Eine enge Domänenübereinstimmung während des Vortrainings ist besonders in der Umgebung mit wenig Daten während der Feinabstimmung von Vorteil. Wir haben zwei Sprachmodelle verglichen, die anhand klinischer Texte aus verschiedenen Krankenhaussystemen vorab trainiert wurden: NYUTron (NYU Langone Health) und web-wiki+bio+clinical (University of Florida). Abbildung 3b zeigt, dass NYUTron (das domäneninterne Modell) bei 1.000 Beispielen eine höhere AUC für die NYU-Langone-Rückübernahmevorhersage aufwies als web-wiki+bio+clinical (das domänenexterne Modell). Bemerkenswert ist, dass der Vorteil von NYUTron mit zunehmender Anzahl von Feinabstimmungsbeispielen verschwand, was darauf hindeutet, dass eine ausreichende domäneninterne Feinabstimmung Modelle anpassen kann, die außerhalb der Domäne vorab trainiert wurden.
Klinische Sprachmodelle zeigen durch lokale Feinabstimmung eine Generalisierbarkeit auf verschiedene Standorte. Um die Robustheit von NYUTron in klinischen Umgebungen zu untersuchen, haben wir zwei Krankenhäuser ausgewählt, die innerhalb des NYU Langone Health System geografisch getrennt sind. Der Kürze halber bezeichnen wir das Tisch Hospital in Manhattan als „Manhattan“, das NYU Langone Hospital–Brooklyn als „Brooklyn“ und alle vier Krankenhäuser innerhalb des NYU Langone Health System (Manhattan, Brooklyn, NYU Langone Orthopaedic Hospital und NYU Langone Hospital–Long Island). ) als „alle Websites“. Wir haben drei LLMs in Betracht gezogen, die an verschiedenen Standorten vorab trainiert wurden: Der erste wurde in Manhattan vorab trainiert, der zweite wurde in Brooklyn vorab trainiert und der dritte wurde an allen Standorten vorab trainiert. Für jedes der vorab trainierten LLMs haben wir das LLM mit einem Rückübernahmedatensatz aus Manhattan oder Brooklyn verfeinert. Schließlich baten wir das optimierte LLM, eine Wiederaufnahme auf der Grundlage von Entlassungsbescheinigungen aus Manhattan oder Brooklyn vorherzusagen. Abbildung 3c,d zeigt, dass das auf allen Standorten vorab trainierte LLM sowohl bei „Test Manhattan“ als auch bei „Test Brooklyn“ die beste Leistung erzielte. Bei allen LLMs führte die Feinabstimmung mit dem lokalen Datensatz („Fine-Tuning Manhattan/Brooklyn“) zu einer höheren Test-AUC am Teststandort („Test Manhattan/Brooklyn“) im Vergleich zur Feinabstimmung an einem anderen Standort („Test Manhattan/Brooklyn“). Feinabstimmung Brooklyn/Manhattan‘). Daher ist ein Vortraining mit Daten von allen Standorten und eine lokale Feinabstimmung der beste Weg, die Leistung zu optimieren. Wir führten zusätzliche Analysen durch, die zeigten, dass NYUTron in der Lage ist, durch lokale Feinabstimmung auf ein anderes Gesundheitssystem zu verallgemeinern (Ergänzende Informationen, Abschnitt 4.1 und Erweiterte Daten, Abb. 4) und verglichen die Robustheit von NYUTron und Lace+xgb in Bezug auf Trainingsstandorte ( Ergänzende Informationen Abschnitt 4.2). Wir haben außerdem herausgefunden, dass NYUTron empfindlich auf Notizen aus verschiedenen klinischen Abteilungen und Patienten mit unterschiedlichen demografischen Merkmalen reagiert und dass seine Leistung über Monate hinweg schwankt (Erweiterte Daten, Abb. 5 und 6). Die Ursachen der Diskrepanzen können sehr komplex sein (siehe Abschnitt 4.3 „Ergänzende Informationen“) und werden in zukünftigen Arbeiten untersucht.
Um die Leistung von NYUTron außerhalb der Entwicklungsumgebung zu bewerten, haben wir ein Modell auf der Grundlage der retrospektiven Testergebnisse ausgewählt und von Januar bis April 2022 einen prospektiven Test durchgeführt. Während dieses Zeitraums haben wir NYUTron in einem beschleunigten Format bereitgestellt und in eine Inferenz geladen Engine, die mit der EHR verbunden ist, um Entlassungsscheine so zu lesen, wie sie von behandelnden Ärzten unterzeichnet wurden. In diesem Zeitraum gab es 29.286 Entlassungen, wobei 3.271 Patienten (11,17 %) innerhalb von 30 Tagen zurückkehrten. NYUTron sagte 2.692 der 3.271 Wiederaufnahmen (82,30 % Rückruf) mit einer Genauigkeit von 20,58 % voraus. Abbildung 4a zeigt, dass NYUTron eine AUC von 78,70 % hatte.
a: NYUTron hatte in einer prospektiven, einarmigen, nicht-interventionellen Studie eine AUC von 78,70 % mit einem Recall von 82,3 % und einer Präzision von 20,6 %. b: Eine Gruppe von sechs Ärzten überprüfte die Ergebnisse von NYUTron auf mögliche klinische Auswirkungen. Von 100 Wiederaufnahmen, die von NYUTron erfolgreich identifiziert wurden, waren 61 % ungeplante Wiederaufnahmen, 50 % hätten nach den CMS-Richtlinien zu einer Strafe geführt und 27 % waren zum Zeitpunkt der Entlassung gemäß der Konsensmeinung des multidisziplinären Ärztegremiums vermeidbar der Fälle aus dem voraussichtlichen Prozess überprüfte. Eine Erörterung des Rückübernahmekennzeichens und der praktischen Bedeutung der beobachteten Leistung finden Sie im Abschnitt 2.1 „Zusätzliche Informationen“.
Um die möglichen klinischen Auswirkungen abzuschätzen, führte eine Gruppe von sechs Ärzten eine qualitative Bewertung von 100 zufällig ausgewählten wiedereingelieferten Fällen durch, die von NYUTron nach Abschluss der Studie erfasst wurden. Eine ärztliche Untersuchung ergab, dass es sich bei einigen wirklich positiven Vorhersagen von NYUTron um klinisch bedeutsame, vermeidbare Wiedereinweisungen handelt. Insgesamt war die Wahrscheinlichkeit, im Krankenhaus zu sterben und 2,93 Tage länger zu bleiben, bei wiedereingelieferten Patienten, bei denen eine Wiedereinweisung vorhergesagt wurde, 6,02-mal höher (P < 10–4). Wie in Abb. 4b dargestellt, waren 61 % der vorhergesagten Fälle ungeplant, und die mittlere vorhergesagte Wahrscheinlichkeit für diese ungeplanten Wiederaufnahmen war niedriger als die für geplante Wiederaufnahmen (31,9 % ± 31,1 % gegenüber 82,1 % ± 27,3 %; P < 10–4). ). Unter den ungeplanten Wiedereinweisungen erlitten 19,67 % der Patienten bei der Wiederaufnahme ein unerwünschtes Ereignis oder starben, wobei 50 % dieser Ereignisse vom Ärztegremium als vermeidbar angesehen wurden. Aus finanzieller Sicht würden 81,9 % der ungeplanten Wiedereinweisungen gemäß den Richtlinien des Centers for Medicare and Medicaid Services (CMS) bestraft. Von den strafbaren Fällen galten 54 % als vermeidbar. Bemerkenswert ist, dass drei der 27 vermeidbaren Wiederaufnahmen eine Clostridioides-difficile-Enterokolitis hatten, eine ansteckende, mit dem Gesundheitswesen in Zusammenhang stehende bakterielle Infektion, die dazu führt, dass einer von 11 Menschen über 65 Jahren innerhalb eines Monats stirbt21.
Wir präsentieren unsere Arbeit bei der Entwicklung, Schulung, Validierung und Bereitstellung von NYUTron, einem LLM im Gesundheitssystemmaßstab, das für den klinischen Einsatz entwickelt und validiert wurde. Wir demonstrieren die Leistung von NYUTron bei drei klinischen Aufgaben (Vorhersage der Sterblichkeit stationärer Patienten, Vorhersage des Komorbiditätsindex und Vorhersage der Rückübernahme) und zwei operativen Aufgaben (Vorhersage der Ablehnung von Versicherungsansprüchen und Vorhersage der stationären Aufenthaltsdauer). Aufgrund seiner klinischen und operativen Bedeutung und seiner gut dokumentierten Geschichte in der medizinischen Informatikliteratur haben wir auch eine detaillierte Analyse der Rückübernahmevorhersage durchgeführt. Wir betrachten die Flexibilität unseres Ansatzes bei der Verwendung einer Encoder-Architektur (BERT), die nur auf unstrukturierten Texteingaben basiert, um eine einzige Vorhersage zu generieren, als einen Vorteil, und wir gehen davon aus, dass viele zukünftige Aufgaben, die auf diesem grundlegenden Paradigma aufbauen, bei mehreren Aspekten helfen werden der Patientenversorgung und der Automatisierung des Krankenhausbetriebs.
Eine ethische Überlegung bei der Bereitstellung besteht darin, dass Ärzte und Administratoren sich aufgrund der nahtlosen Integration in bestehende medizinische Arbeitsabläufe zu sehr auf die Vorhersagen von NYUTron verlassen könnten, was zu unerwünschten Ergebnissen führen könnte. Weitere Forschung ist erforderlich, um die Interaktionen zwischen Mensch und KI zu optimieren sowie standardisierte Bewertungen für Quellen von Verzerrungen oder anderen unerwarteten Fehlerquellen zu entwickeln. Die laufende Arbeit unserer Gruppe zur Messung der Ähnlichkeit zwischen den Empfindlichkeitsmustern von Sprachmodellen und denen von Ärzten durch Störungen der klinischen Notizen auf Token-Ebene22 ist eine von vielen dieser Bemühungen.
Große, generative LLMs bieten auch eine einzigartige Möglichkeit zur Integration in medizinische Arbeitsabläufe; Sie sind jedoch stark von Benutzereingaben und -aufforderungen abhängig23 und lassen sich nicht so leicht für die Automatisierung grundlegender klinischer und betrieblicher Aufgaben anpassen. Die nahtlose Integration in bestehende medizinische Informatik-Workflows ist ein Vorzug unseres Ansatzes, und wir hoffen, dass sich diese Arbeit als flexible Lösung für das Problem der letzten Meile präsentiert – jeder strukturierte Datenalgorithmus kann innerhalb dieses Rahmens neu konzipiert und schnell als Prototyp entwickelt werden. Im Rahmen der Überwachung der Auswirkungen eines solchen Systems auf das Verhalten von Ärzten und Patienten sollte ein gewisses Maß an kontinuierlicher Überwachung erfolgen, um Mensch-Maschine-Interaktionen zu erfassen und das Risiko einer Modellabweichung im Laufe der Zeit zu verringern. Wir besprechen unsere Implementierung eines solchen Systems im Abschnitt 5 der Zusatzinformationen.
Unser Ansatz, ein kleineres (<1 Milliarde Parameter) Encoder-Sprachmodell zu verwenden, das auf hochgradig maßgeschneiderten Daten trainiert wird, stellt eine deutliche Abkehr vom aktuellen Trend in der Sprachmodellforschung dar, der sich auf massive (>1 Milliarde Parameter), generative Modelle konzentriert, die auf großen, nicht vorab trainierten Daten basieren -spezifische Datensätze. Dennoch erfordern selbst relativ kleine LLMs, wie sie in dieser Studie verwendet werden, eine beträchtliche Menge an Rechenzeit für das Vortraining. Bei unserem Vortraining wurden 3 Wochen lang 24 NVIDIA A100-GPUs mit 40 GB VRAM verwendet, und bei der Feinabstimmung wurden 8 A100-GPUs 6 Stunden pro Lauf verwendet. Dieser Rechenaufwand steht Forschungsgruppen im Allgemeinen nicht zur Verfügung, wir stellen jedoch fest, dass er geringer ist als der in ähnlichen LLM-Projekten, die routinemäßig von Industrieforschungsgruppen durchgeführt werden, und dass unsere Ergebnisse darauf hinweisen, dass möglicherweise kein umfangreiches Vortraining erforderlich ist, um hochleistungsfähige Modelle zu erhalten. Unsere Ergebnisse zeigen, dass qualitativ hochwertige Datensätze zur Feinabstimmung wertvoller sind als ein Vortraining, und auf der Grundlage unserer experimentellen Ergebnisse empfehlen wir Benutzern, ein extern vorab trainiertes Sprachmodell lokal zu verfeinern, wenn die Rechenfähigkeit begrenzt ist. Bezüglich der Wahl des extern vorab trainierten Modells empfehlen wir außerdem die Verwendung eines Modells, das mit einer großen Menge an domäneninternem klinischem Text vorab trainiert wurde, obwohl wir anmerken, dass große Modelle außerhalb der Domäne eine hohe Leistung erbringen können, insbesondere wenn sie mit in-domänenbasierten Modellen kombiniert werden. Domain-Feinabstimmung. Die Arbeit mit größeren, auf Decodern basierenden Architekturen hat auch Vorteile bei der Feinabstimmung medizinischer Daten oder der sofortigen Abstimmung mit Gedankenketten, Anweisungen und verwandten Techniken gezeigt24,25, was die Notwendigkeit der Berücksichtigung der Domänenverschiebung vom allgemeinen zum medizinischen Text weiter unterstreicht für LLM-Arbeiten in den medizinischen Wissenschaften. Obwohl wir diese Ansätze nicht direkt verglichen haben (was mehr medizinischen Text oder eine Fusion mit allgemeinem Text erfordern würde, um ein rechenoptimales Modell zu trainieren26), glauben wir, dass dies eine interessante zukünftige Richtung für die Forschung sein könnte und dass am Ende Ansätze, die diese verschiedenen Ansätze zur Sprachmodellierung kombinieren, können sich je nach Anwendungsfall als komplementär erweisen.
Die endgültige Validierung unseres Ansatzes muss aus randomisierten, kontrollierten Studien zu Interventionen erfolgen, die an individuelle Aufgabenvorhersagen gebunden sind, um deren klinische Auswirkungen zu bewerten, sowie aus dem Feedback der Benutzer, während wir NYUTron weiterhin in Gesundheitssysteme integrieren. Da wir dies innerhalb unseres eigenen Gesundheitssystems planen, empfehlen wir die Berücksichtigung verschiedener Interventionsebenen, abhängig vom prognostizierten Risiko der Patienten für jede Aufgabe. Beispielsweise könnten für einen Patienten mit geringem Risiko für eine 30-tägige Wiedereinweisung Folgebesuche geplant werden; Bei einem Hochrisikopatienten sollte darauf geachtet werden, eine vorzeitige Entlassung zu begrenzen. Alle Eingriffe sollten unter ärztlicher Aufsicht entschieden werden, obwohl viele der operativen Anwendungen wahrscheinlich vollständig automatisiert werden können.
Es ist ein langjähriger Traum von Ärzten, dass KI-Assistenten die Pflege gemeinsam mit ihnen beobachten und Vorhersagen und Ratschläge geben. Um dieser Zukunftsvision einen Schritt näher zu kommen, haben wir einen LLM, NYUTron, im gesamten EHR eines großen Gesundheitssystems geschult, um ärztliche Notizen zu lesen und mehrere dieser Vorhersagen für ein breites Spektrum klinischer und betrieblicher Aufgaben zu treffen. Wir haben NYUTron in einer Live-Gesundheitsumgebung eingesetzt und seine Wirksamkeit bei der Vorhersage einer 30-tägigen Wiederaufnahme bei gleichzeitiger nahtloser Integration in klinische Arbeitsabläufe demonstriert. Wir glauben, dass diese Arbeit die Tür öffnet, um die Fortschritte in der modernen Verarbeitung natürlicher Sprache und Deep Learning in eine Verbesserung der Qualität und Erschwinglichkeit der Gesundheitsversorgung umzusetzen, und wir sind gespannt, was als nächstes kommt.
Wir haben diesen Datensatz unbeschrifteter klinischer Notizen direkt aus der NYU Langone EHR erstellt. Der Datensatz enthält insgesamt 387.144 Patienten, 7.247.694 Notizen und 4.112.249.482 Wörter. Wir haben NYU Notes wie folgt erstellt: Wir haben SQL-Skripte (Structured Query Language) geschrieben, um die NYU Langone EHR abzufragen. Wir haben die Abfragen zunächst mit einem interaktiven webbasierten Editor (Cloudera Hue) prototypisiert und dann die Abfrageergebnisse als durch Kommas getrennte Dateien (CSVs) auf den Hochleistungs-Computing-Cluster der NYU Langone heruntergeladen. Wir haben von 2011 bis einschließlich 2020 unterzeichnete Notizen von medizinischen Fachkräften (Ärzte, Assistenzärzte, Arzthelferinnen, Krankenpfleger und Stipendiaten) des Tisch Hospital, des NYU Langone Hospital–Brooklyn, des NYU Langone Hospital–Long Island und des NYU Langone Orthopaedic Hospital beigefügt. Wir haben alle Notizen ausgeschlossen, die aus der Abrechnung stammen und als ungültig oder leer gekennzeichnet sind. Wir haben die Notizen in drei Sätze aufgeteilt: Trainings-, Validierungs- und Testsätze, mit einem Verhältnis von 949:50:1. Zuletzt haben wir Token mit einer Wahrscheinlichkeit von 15 % maskiert, um maskierten Text und Beschriftungen zu erstellen.
Wir haben diesen Datensatz unbeschrifteter klinischer Notizen als Teilmenge der NYU-Notizen erstellt, die im Tisch Hospital in Manhattan verfasst wurden. Der Datensatz enthält insgesamt 256.217 Patienten, 4.342.602 Notizen und 2.381.466.993 Wörter.
Wir haben diesen Datensatz unbeschrifteter klinischer Notizen als Teilmenge der NYU-Notizen erstellt, die in NYU Langone Health–Brooklyn verfasst wurden. Der Datensatz enthält insgesamt 104.521 Patienten, 1.337.352 Notizen und 1.102.078.012 Wörter.
Wir haben diesen Datensatz mit gekennzeichneten Entlassungsbescheinigungen (mit binären Etiketten für die Wiederaufnahme) aus dem NYU Langone EHR erstellt. Die meisten Notizen aus diesem Datensatz sind eine Teilmenge der NYU-Notizen, mit zusätzlichen Entlassungsnotizen aus dem Jahr 2021 für den zeitlichen Test. Der Datensatz enthält insgesamt 413.845 Patienten, 506.740 Notizen und 487.395.462 Wörter. Wir haben diesen Datensatz wie folgt erstellt: Für jede Begegnung, die zwischen Januar 2011 und November 2021 endete, haben wir den Entlassungsbescheid mit einer binären Bezeichnung für eine 30-tägige Wiederaufnahme aus allen Gründen hinzugefügt. Wir haben die Kennzeichnung „wieder aufgenommen“ vergeben, wenn der Patient innerhalb von 30 Tagen nach seiner Entlassung einen Aufnahmebescheid hatte. Um uns auf die Modellierung der Wiederaufnahme in die Akutversorgung zu konzentrieren, haben wir Entlassungsbescheinigungen aus den Abteilungen Rehabilitation, Dialyse und Palliativpflege ausgeschlossen, da es sich hierbei nicht um Einweisungen in die Akutversorgung handelte. Wir teilen den Datensatz in vier Sätze auf: Trainings-, Validierungs-, Test- und zeitliche Testsätze. Die ersten drei Sätze waren Banknoten von Januar 2011 bis Mai 2021 im Verhältnis 8:1:1. Der zeitliche Testsatz umfasste Notizen von Juni bis Dezember 2021. Eine Visualisierung der Vier-Wege-Aufteilung finden Sie in Abb. 8a der erweiterten Daten.
Wir haben diesen Datensatz unbeschrifteter klinischer Notizen als Teilmenge der Notizen im NYU-Rückübernahmedatensatz erstellt, die im Tisch Hospital in Manhattan verfasst wurden. Der Datensatz enthält 240.824 Patienten, 296.519 Notizen und 253.622.053 Wörter.
Wir haben diesen Datensatz unbeschrifteter klinischer Notizen als Teilmenge der klinischen Notizen aus dem NYU-Rückübernahmedatensatz erstellt, die in NYU Langone Health–Brooklyn verfasst wurden. Der Datensatz enthält 94.653 Patienten, 113.275 Notizen und 142.767.957 Wörter.
Wir haben diesen Datensatz mit Anamnese und körperlichen (H&P) Notizen mit binären Bezeichnungen für die Krankenhaussterblichkeit aus dem NYU Langone EHR erstellt. Die meisten Notizen aus diesem Datensatz sind eine Teilmenge der NYU-Notizen, mit zusätzlichen H&P-Notizen aus dem Jahr 2021 für den zeitlichen Test. Der Datensatz enthält insgesamt 371.922 Patienten, 469.162 Notizen und 484.467.141 Wörter. Wir haben diesen Datensatz wie folgt erstellt: Für jede Begegnung, die zwischen Januar 2011 und November 2021 endete, haben wir die H&P-Notiz mit einer binären Bezeichnung für die Krankenhaussterblichkeit versehen. Wir haben die positive Kennzeichnung vergeben, wenn die Entlassungsverfügung des Patienten „abgelaufen“ war. Wir teilen den Datensatz in vier Sätze auf: Trainings-, Validierungs-, Test- und zeitliche Testsätze. Die ersten drei Sätze waren Notizen von Januar 2011 bis Mai 2021 im Verhältnis 8:1:1, und der zeitliche Testsatz umfasste Notizen von Juni bis Dezember 2021.
Wir haben diesen Datensatz von H&P-Notizen mit fünf Klassenbezeichnungen für Krankenhaus-LOS aus dem NYU Langone EHR erstellt. Die meisten Notizen aus diesem Datensatz waren eine Teilmenge der NYU-Notizen, mit zusätzlichen H&P-Notizen aus dem Jahr 2021 für den zeitlichen Test. Der Datensatz enthält insgesamt 327.039 Patienten, 403.579 Notizen und 422.485.417 Wörter. Der Datensatz enthält weniger gekennzeichnete Begegnungen als die NYU-Mortalitäts- und NYU-Binned-LOS-Datensätze, da 22 % der Begegnungen keine ICD-Codes (International Classification of Diseases) zur Berechnung des CCI-Scores hatten. Dieses Fehlen motivierte unsere Aufgabe, den gruppierten CCI-Score aufgrund des Mangels an strukturierten ICD-Codes vorherzusagen. Wir haben diesen Datensatz wie folgt erstellt: Für jede Begegnung, die zwischen Januar 2011 und November 2021 endete, haben wir die H&P-Notiz mit einer Fünf-Klassen-Bezeichnung für den gruppierten CCI-Score hinzugefügt. Um die Etiketten zu generieren, haben wir zunächst den Komorbiditätsindex mithilfe der ICD-Codes und der Bewertungsfunktion in Referenz berechnet. 27. Anschließend haben wir die Scores in fünf Klassen diskretisiert: Wir haben die Bezeichnung 0 für einen Komorbiditätsindex unterhalb des 50 %-Quantils (0 Tage) vergeben, die Bezeichnung 1 für einen Komorbiditätsindex zwischen dem 50 %- und 75 %-Quantil (1–2 Tage). Label 2 für einen Komorbiditätsindex zwischen dem 75 %- und 90 %-Quantil (3–4 Tage), Label 3 für einen Komorbiditätsindex zwischen dem 90 %- und 99 %-Quantil (4–7 Tage) und Label 4 für einen Komorbiditätsindex über dem 99 % Quantil (>7 Tage). Wir teilen den Datensatz in vier Sätze auf: Trainings-, Validierungs-, Test- und zeitliche Testsätze. Die ersten drei Sätze waren Notizen von Januar 2011 bis Mai 2021 im Verhältnis 8:1:1, und der zeitliche Testsatz umfasste Notizen von Juni bis Dezember 2021.
Wir haben diesen Datensatz von H&P-Notizen mit Quantilbezeichnungen für Krankenhaus-LOS aus dem NYU Langone EHR erstellt. Die meisten Notizen aus diesem Datensatz waren eine Teilmenge der NYU-Notizen, mit zusätzlichen H&P-Notizen aus dem Jahr 2021 für den zeitlichen Test. Der Datensatz enthält insgesamt 371.922 Patienten, 469.162 Notizen und 484.467.141 Wörter. Wir haben diesen Datensatz wie folgt erstellt: Für jede Begegnung, die zwischen Januar 2011 und November 2021 endete, haben wir die H&P-Notiz mit einer binären Bezeichnung und einer Quantilbezeichnung für LOS hinzugefügt. Für die Quantilbezeichnung haben wir die Bezeichnung 0 für eine LOS unter dem 25 %-Quantil (0–2 Tage), die Bezeichnung 1 für eine LOS zwischen dem 25 %- und dem 50 %-Quantil (3 Tage) und die Bezeichnung 2 für eine LOS zwischen dem 50 %-Quantil zugewiesen % und 75 %-Quantil (4–5 Tage) und kennzeichnen Sie 3 für eine LOS über dem 75 %-Quantil (>5 Tage). Wir teilen den Datensatz in vier Sätze auf: Trainings-, Validierungs-, Test- und zeitliche Testsätze. Die ersten drei Sätze waren Notizen von Januar 2011 bis Mai 2021 im Verhältnis 8:1:1, und der zeitliche Testsatz umfasste Notizen von Juni bis Dezember 2021.
Wir haben diesen Datensatz von H&P-Notizen mit binären Bezeichnungen erstellt, die angeben, ob der Versicherungsanspruch des Patienten ursprünglich abgelehnt oder direkt genehmigt wurde. Der Datensatz enthält insgesamt 54.563 Patienten, 55.791 Notizen und 51.270.256 Wörter. Wir haben diesen Datensatz wie folgt erstellt: Für jede Begegnung, die zwischen dem 1. Mai 2021 und dem 30. April 2022 stattfand, haben wir die H&P-Notiz mit einer binären Bezeichnung für Versicherungsverweigerung versehen. Wir haben ein positives Label vergeben, wenn der Status des Versicherungsanspruchs des Patienten „endgültige, negative Entscheidung“ (Anspruch wurde von der Versicherung abgelehnt und nach Berufung erneut abgelehnt) oder „endgültige, positive Entscheidung“ (Anspruch wurde von der Versicherung abgelehnt und nach Berufung genehmigt) lautete. Wir teilen den Datensatz in vier Sätze auf: Trainings-, Validierungs-, Test- und zeitliche Testsätze. Die ersten drei Sätze waren Banknoten vom 1. Mai 2021 bis 30. Februar 2022 im Verhältnis 18:1:1. Der zeitliche Testsatz umfasste Notizen vom 1. März bis 30. April 2022.
Wir haben diesen Datensatz von Entlassungsbescheinigungen mit binären Bezeichnungen erstellt, die angeben, ob der Versicherungsanspruch des Patienten ursprünglich abgelehnt oder direkt genehmigt wurde. Der Datensatz enthält insgesamt 54.563 Patienten, 55.791 Notizen und 49.405.133 Wörter. Wir haben diesen Datensatz wie folgt erstellt: Für jede Begegnung, die zwischen dem 1. Mai 2021 und dem 30. April 2022 stattfand, haben wir den Entlassungsbescheid mit einer binären Bezeichnung für Versicherungsverweigerung versehen. Die Etikettenzuweisung und die Vier-Wege-Aufteilung waren die gleichen wie im NYU Insurance Denial-Datensatz.
Dieser Datensatz enthielt dieselben Notizen wie der NYU Insurance Denial-Datensatz, die Bezeichnungen waren jedoch unterschiedlich. Das binäre Etikett gab an, ob der Versicherungsanspruch des Patienten letztendlich abgelehnt wurde (auch nach einem Einspruch) oder schließlich genehmigt wurde (direkte Genehmigung oder Genehmigung nach einem Einspruch).
Dieser Datensatz enthielt dieselben Notizen wie der Datensatz „NYU Insurance Denial–Discharge Notes“, die Bezeichnungen waren jedoch unterschiedlich. Das binäre Etikett gab an, ob der Versicherungsanspruch des Patienten letztendlich abgelehnt wurde (auch nach einem Einspruch) oder schließlich genehmigt wurde (direkte Genehmigung oder Genehmigung nach einem Einspruch).
Hierbei handelt es sich um einen offenen Datensatz, der von der Harvard Medical School im Rahmen einer jährlichen klinischen NLP-Challenge veröffentlicht wurde28. Dieser Datensatz ist ein bekannter Maßstab in der klinischen NLP-Community. Die Aufgabe besteht darin, klinische Konzepte (z. B. Behandlungen), klinische Abteilungen (z. B. Chirurgie), Vorkommnisse von Ereignissen (z. B. Aufnahme) und Beweismittel (z. B. Beschwerde des Patienten) anhand anonymisierter klinischer Notizen zu identifizieren und zu klassifizieren vom Beth Israel Medical Center in Boston. Der Datensatz enthält nicht mehr als 310 Patienten, 310 Notizen und 636.000 Wörter. Wir haben den Datensatz als komprimierte tar.gz-Datei vom n2c2-Datenportal heruntergeladen, nachdem unser Nutzungsantrag genehmigt wurde.
Dies ist ein offener Datensatz für eine EHR einer Intensivstation (ICU), der vom MIT und dem Boston Beth Israel Medical Center29 veröffentlicht wurde. Wir sammelten einen Satz von 52.726 Entlassungsbescheinigungen und erstellten ein 30-Tage-Rückübernahmeetikett für alle Fälle, indem wir überprüften, ob es innerhalb von 30 Tagen zu weiteren Begegnungen kam. Die Wiederaufnahmequote betrug 6 %. Wir teilen die Daten im Verhältnis 8:1:1 in Trainings-, Validierungs- und Testsätze auf.
Dieser Datensatz besteht aus Entlassungsbescheinigungen mit binären Etiketten für die Wiederaufnahme aus unserer Bereitstellungsmaschine und der NYU Langone EHR. Von Januar bis April 2022 wurde jedes Mal, wenn ein Entlassungsbescheid von einem Arzt unterzeichnet wurde, der Bescheid zur Vorhersage von NYUTron an unsere benutzerdefinierte Inferenzmaschine gesendet. Der gepaarte Entlassungsbescheid und die Entlassungsvorhersage wurden in einer Datenbank aufgezeichnet. Die Datenbank enthielt am Ende des Untersuchungszeitraums 27.376 Patienten, 29.287 Notizen und 34.669.963 Wörter.
Wir haben diesen Datensatz strukturierter LACE30-Funktionen mit binären Bezeichnungen für die Wiederaufnahme zum Vergleich mit den unstrukturierten Modellen erstellt. Der Datensatz enthält strukturierte Merkmale für alle Begegnungen im NYU-Rückübernahmedatensatz. LACE ist eine traditionelle klinische Vorhersageregel für die Wiederaufnahme mit vier Merkmalen: LOS, Acuity der Wiederaufnahme, Charlson-Komorbiditätsindex und Anzahl der letzten Besuche in der Notaufnahme in den letzten 6 Monaten. Wir haben den Datensatz wie folgt erstellt: Für jede Begegnung im NYU-Remissionsdatensatz haben wir Daten zu den vier LACE-Merkmalen aus dem NYU Langone EHR gesammelt. LOS war die Differenz (in Tagen) zwischen dem Entlassungsdatum und dem Aufnahmedatum. Die Wiederaufnahmeschärfe war ein binäres Merkmal, das anzeigte, ob der Patient in die Notaufnahme eingeliefert wurde. Der Komorbiditätsindex wurde mit den ICD-9- oder ICD-10-Codes für chronische Krankheiten auf der Grundlage des Zuordnungsalgorithmus in Lit. berechnet. 31 und die Bewertungsfunktion in Lit. 27. Die Anzahl der Besuche in der Notaufnahme wurde anhand der Krankengeschichte des Patienten bis zu 6 Monate vor dem Aufnahmedatum berechnet.
Wir haben diesen Datensatz strukturierter LACE-Funktionen aus der Teilmenge der Notizen aus dem NYU Readmission-LACE-Datensatz erstellt, die im Tisch Hospital in Manhattan geschrieben wurden.
Wir haben diesen Datensatz strukturierter LACE-Funktionen aus der Teilmenge der Notizen aus dem NYU Readmission–LACE-Datensatz erstellt, die in NYU Langone Health–Brooklyn geschrieben wurden.
Wir haben diesen Datensatz strukturierter SAPS2 + APACHE2-Merkmale mit binären Bezeichnungen für die Krankenhaussterblichkeit erstellt, um sie mit den unstrukturierten Daten zu vergleichen. Der Datensatz enthält eine Teilmenge strukturierter SAPS2 + APACHE2-Merkmale für alle Begegnungen im NYU-Mortalitätsdatensatz. SAPS2 + APACHE2-Funktionen sind eine Teilmenge der Funktionen, die im SAPS2-Modell15 und im APACHE2-Modell16 für die Vorhersage der Sterblichkeit auf der Intensivstation verwendet werden. Wir haben die Teilmenge der Funktionen ausgewählt, die im NYU Langone EHR verfügbar waren. Wir haben die folgenden 12 Merkmale einbezogen: Alter (numerisch), mittlere Herzfrequenz (numerisch), systolischer Blutdruck (numerisch), Vorhoftemperatur (numerisch), Blut-Harnstoff-Stickstoffkonzentration (numerisch), Natriumkonzentration (numerisch), Kaliumkonzentration (numerisch). ), Bilirubinkonzentration (numerisch), Anzahl weißer Blutkörperchen (numerisch), pH-Wert (numerisch), Kreatinkonzentration (numerisch) und Hämatokrit (numerisch). Wir haben zusätzlich die Abteilungsspezialität (kategorisch) einbezogen. Wir haben die folgenden Merkmale aufgrund ihrer Nichtverfügbarkeit ausgeschlossen: PaO2/FiO2 (Verhältnis des arteriellen Sauerstoffpartialdrucks zum fraktionierten eingeatmeten Sauerstoff), unabhängig davon, ob der Patient mechanisch beatmet wurde oder sich ein kontinuierlicher positiver Atemwegsdruck (CPAP) befand, Bikarbonatkonzentration, Urinausstoß, Glasgow-Koma Skalenwert, Vorliegen von metastasiertem Krebs oder hämatologischem Malignom oder AIDS und ob die Aufnahme geplant war.
Wir haben diesen Datensatz strukturierter „Lissabon-Portugal“-Merkmale mit binären Bezeichnungen für die Krankenhaussterblichkeit erstellt, um sie mit dem unstrukturierten Datenmodell zu vergleichen. Der Datensatz enthält eine Teilmenge der Merkmale, die im Lissabon-Portugal-Datensatz18 (der in der LOS-Vorhersageliteratur weit verbreitet ist) für alle Begegnungen im NYU Binned LOS-Datensatz verwendet werden. Wir haben eine Teilmenge von 12 Merkmalen ausgewählt, die im NYU Langone EHR verfügbar waren: Geschlecht (kategorisch), Alter gemessen an der Differenz in Jahren zwischen dem Geburtsdatum und dem Zulassungsdatum (numerisch), höchster Bildungsabschluss (kategorisch), Land (kategorisch), Postleitzahl als Adresse (kategorisch), Familienstand (kategorisch), Zulassungsart (kategorisch), Zulassungsdienstart (kategorisch), Anbieter-ID (kategorisch), Abteilungsfach (kategorisch), Verfahrensname (kategorisch) und Nummer der bisherigen Zulassungen (numerisch). Wir haben die Diagnose weggelassen, da sie zum Zeitpunkt der Erstellung der H&P-Notizen nicht immer verfügbar ist. Wir haben die folgenden drei Merkmale ausgeschlossen, da sie im NYU Langone EHR nur schwer zu finden sind: homogener Gruppendiagnosecode, hervorragende Diagnosekategorie und Behandlung.
Wir haben diesen strukturierten Datensatz basierend auf dem NYU Insurance Denial-Datensatz zum Vergleich mit dem unstrukturierten Datenmodell erstellt. Der Datensatz enthält strukturierte Merkmale für alle Begegnungen im NYU-Versicherungsverweigerungsdatensatz und weist dieselben Aufteilungen auf wie der NYU-Versicherungsverweigerungsdatensatz. Die Auswahl der strukturierten Merkmale basierte auf den Merkmalen in Lit. 19, das ein Modell erstellt hat, das die Ablehnung von Versicherungsansprüchen anhand demografischer und pflegebezogener Merkmale im Antragsformular vorhersagt. Wir haben im NYU Langone EHR acht verfügbare Merkmale gefunden: Patientenname (kategorisch), Alter (numerisch), Geschlecht (kategorisch), Postleitzahl als Verallgemeinerung der Adresse (kategorisch), Versicherungsmarke (kategorisch), Name des ersten Versicherungsplans (kategorisch). ), Anbieter-ID (kategorisch) und Anbietertyp (kategorisch). Wir haben außerdem vier Funktionen hinzugefügt, die auf den Eingaben des Arztes basieren: zweiter Versicherungsplancode (kategorisch), ein binäres Flag für chirurgische Fälle (kategorisch), ein binäres Flag für Fälle in der Notaufnahme (kategorisch) und ein binäres Flag für Medicare-Gebühren für Leistungen Benutzer (kategorisch). Wir haben in Ref. sechs Funktionen ausgelassen. 19 aufgrund von Schwierigkeiten bei der Suche nach: Beziehung des Patienten zur versicherten Person, Art des Netzwerks, ob es sich bei dem Anspruch um eine Wiedereinreichung handelte, Diagnosehinweis, Leistungsentgelt und Vorautorisierungsnummer.
Mithilfe dieser Datensätze haben wir einen nicht umhüllten BERT-Wortstück-Tokenizer mit einer Vokabulargröße von 50.000 Token, einer maximalen Sequenzlänge von 512 Token und speziellen Token [SEP], [PAD], [UNK], [MASK] und [CLS] trainiert. Da die meisten klinischen Notizen mehr als 512 Token enthielten, teilten wir jede lange Notiz in nicht überlappende Abschnitte auf, die unter der maximalen Sequenzlänge lagen. Konkret haben wir jede Notiz mit dem Natural Language Toolkit (nltk)32 in Sätze aufgeteilt und jeden Satz tokenisiert. Bei Sätzen, die länger als 512 Token waren, haben wir sie gekürzt. Als nächstes haben wir alle tokenisierten Sätze in derselben Notiz in Gruppen verkettet, sodass jede Gruppe genau die maximale Sequenzlänge hatte. Wir haben alle verbleibenden Gruppen einer langen Note (mit einer Länge, die strikt unter dem Maximum liegt) verworfen.
Mithilfe des mit NYU Notes trainierten Tokenizers haben wir zunächst den Entlassungsbescheid tokenisiert. Wir haben Notizen abgeschnitten, die die maximale Sequenzlänge von 512 Token überschritten haben. Wir überlassen es der Zukunft, ein Sprachmodell zu entwerfen, das längere klinische Notizen effizient liest (siehe Extended Data Abb. 8b für den Einfluss der Notizlänge auf die Leistung des Sprachmodells).
Wir haben zunächst die tar.gz-Dateien in Ordner mit XML-Dateien dekomprimiert. Anschließend haben wir die XML-Dateien in das Brat-Format konvertiert. Als nächstes haben wir die Brat-Dateien in Bio-Dateien konvertiert. Schließlich haben wir einen benutzerdefinierten HuggingFace33-Datenlader geschrieben, um den Ordner mit den Biodateien in einen HuggingFace-Datensatz zu konvertieren. Unser Code zur Vorverarbeitung ist auf GitHub verfügbar.
Wir haben zunächst die Notizen bereinigt, indem wir HTML-Artefakte entfernt haben. Anschließend haben wir den Entlassungsbescheid mit dem Tokenizer von NYUTron tokenisiert. Wir haben Notizen abgeschnitten, die die maximale Sequenzlänge von 512 Token überschritten haben.
Wenn ein numerisches Merkmal fehlte (z. B. die durchschnittliche Herzfrequenz war NaN), haben wir das Merkmal als durchschnittliches Merkmal im gesamten Trainingssatz ausgefüllt. Für fehlende kategoriale Merkmale (z. B. war die aufnehmende Abteilung „nicht spezifiziert“) haben wir sie als Kategorie „keine“ belassen.
Wir haben ein BERT-Modell mit 109 Millionen Parametern unter Verwendung vorverarbeiteter NYU Notes und des MLM-Ziels drei Wochen lang (96 Epochen) auf 24 NVIDIA A100-GPUs, verteilt auf drei Rechenknoten, vorab trainiert, bis der Validierungsverlust ein Plateau zu erreichen begann. Das Modell verfügt über 12 versteckte Schichten mit der Dimension 768, mit 12 Aufmerksamkeitsköpfen pro Schicht. Wir haben eine Trainingsbatchgröße pro Gerät von 64 verwendet und alle 2.000 Schritte gespeichert. Wir haben den Zero Redundancy AdamW-Optimierer (eine Verbesserung gegenüber dem Adam-Optimierer) mit einer konstanten Lernrate von 5 × 10−5, gemischter FP16-Präzision und Parallelisierung der Stufe 2 verwendet34,35,36.
Wir haben den trainierten MLM-Klassifikator durch einen zufällig initialisierten linearen Klassifikator nach der letzten verborgenen Schicht des vorab trainierten BERT-Modells ersetzt. Wir haben das Modell Ende-zu-Ende mithilfe des Trainingssatzes des NYU-Remissionsdatensatzes für zehn Epochen verfeinert, die Validierungs-AUC jede halbe Epoche ausgewertet und mit einer Geduld von fünf frühzeitig angehalten. Wir haben die folgenden Hyperparameter aus der manuellen Optimierung basierend auf der Validierungs-AUC verwendet: eine Lernrate von 2 × 10−5, einen Gewichtsabfall von 0,01 und eine Chargengröße pro Gerät von 4. Wir haben den Kreuzentropieverlust mit dem AdamW-Optimierer optimiert . Während wir die Größe des Datensatzes variierten (N ∈ {102, 103, 104, 105, 3,92336 × 105}), optimierten wir das vorab trainierte Modell mithilfe von Teilstichproben des NYU-Remissionsdatensatzes und bewerteten deren AUC anhand des zeitlichen Testsatzes. Für jede Teilstichprobengröße führten wir fünf Experimente mit unterschiedlichen Zufallsstartwerten durch (0, 13, 24, 36, 42). Zum Vergleich haben wir uns die mittlere AUC und die Standardabweichung der fünf Experimente angesehen.
Wir haben den trainierten MLM-Klassifikator durch einen zufällig initialisierten linearen Klassifikator nach der letzten verborgenen Schicht des vorab trainierten BERT-Modells ersetzt. Wir haben das Modell durchgängig unter Verwendung des Trainingssatzes des NYU-Mortalitätsdatensatzes für zehn Epochen verfeinert, die Validierungs-AUC jede halbe Epoche ausgewertet und mit einer Geduld von 5 früh gestoppt. Wir haben die folgenden Hyperparameter aus der manuellen Optimierung basierend auf der Validierung verwendet AUC: eine Lernrate von 2 × 10−5, ein Gewichtsabfall von 0,01 und eine Chargengröße pro Gerät von 4. Wir haben den Kreuzentropieverlust mit dem AdamW-Optimierer optimiert. Unter Verwendung des vollständigen Datensatzes haben wir das vorab trainierte Modell mithilfe von Teilstichproben des NYU-Mortalitätsdatensatzes verfeinert und deren AUC anhand des zeitlichen Testsatzes ausgewertet. Für jede Teilstichprobengröße führten wir fünf Experimente mit unterschiedlichen Zufallsstartwerten durch (0, 13, 24, 36, 42). Zum Vergleich haben wir uns die mittlere AUC und die Standardabweichung der fünf Experimente angesehen.
Wir haben den trainierten MLM-Klassifikator durch einen zufällig initialisierten linearen Klassifikator nach der letzten verborgenen Schicht des vorab trainierten BERT-Modells ersetzt. Wir haben das Modell Ende-zu-Ende mithilfe des Trainingssatzes des NYU Binned Comorbidity-Datensatzes für zehn Epochen verfeinert, die Validierungs-OVR-AUC jede halbe Epoche ausgewertet und mit einer Geduld von 5 frühzeitig gestoppt. Wir haben die folgenden Hyperparameter aus der manuellen Optimierung basierend auf verwendet die Validierungs-OVR-AUC: eine Lernrate von 2 × 10−5, ein Gewichtsabfall von 0,01 und eine Chargengröße pro Gerät von 4. Wir haben den Kreuzentropieverlust mit dem AdamW-Optimierer optimiert. Unter Verwendung des vollständigen Datensatzes haben wir das vorab trainierte Modell mit Teilstichproben des NYU-Binned-Comorbidity-Datensatzes verfeinert und deren OVR-AUC anhand des zeitlichen Testsatzes ausgewertet. Für jede Teilstichprobengröße führten wir fünf Experimente mit unterschiedlichen Zufallsstartwerten durch (0, 13, 24, 36, 42). Zum Vergleich haben wir uns die mittlere OVR-AUC und die Standardabweichung der fünf Experimente angesehen.
Wir haben den trainierten MLM-Klassifikator durch einen zufällig initialisierten linearen Klassifikator nach der letzten verborgenen Schicht des vorab trainierten BERT-Modells ersetzt. Wir haben das Modell Ende-zu-Ende mithilfe des Trainingssatzes des NYU Binned LOS-Datensatzes für zehn Epochen verfeinert, die Validierungs-AUC jede halbe Epoche ausgewertet und mit einer Geduld von 5 früh gestoppt. Wir haben die folgenden Hyperparameter aus der manuellen Optimierung basierend auf verwendet Validierung OVR AUC: eine Lernrate von 2 × 10−5, ein Gewichtsabfall von 0,01 und eine Chargengröße pro Gerät von 4. Wir haben den Kreuzentropieverlust mit dem AdamW-Optimierer optimiert. Unter Verwendung des vollständigen Datensatzes haben wir das vorab trainierte Modell mit Teilstichproben des NYU Binned LOS-Datensatzes verfeinert und deren AUC anhand des zeitlichen Testsatzes ausgewertet. Für jede Teilstichprobengröße führten wir fünf Experimente mit unterschiedlichen Zufallsstartwerten durch (0, 13, 24, 36, 42). Zur Schlussfolgerung haben wir die letzten beiden Klassen, Label 3 (90–99 % Quantil) und Label 4 (>99 % Quantil), kombiniert, da Label 4 sehr spärlich war. Zum Vergleich haben wir uns die mittlere OVR-AUC und die Standardabweichung der fünf Experimente angesehen.
Wir haben den trainierten MLM-Klassifikator durch einen zufällig initialisierten linearen Klassifikator nach der letzten verborgenen Schicht des vorab trainierten BERT-Modells ersetzt. Wir haben das Modell Ende-zu-Ende mithilfe des Trainingssatzes des NYU Insurance Denial-Datensatzes für zehn Epochen verfeinert, die Validierungs-AUC jede halbe Epoche ausgewertet und mit einer Geduld von 5 früh gestoppt. Wir haben die folgenden Hyperparameter aus der manuellen Optimierung basierend auf verwendet Validierungs-AUC: eine Lernrate von 2 × 10−5, ein Gewichtsabfall von 0,01 und eine Chargengröße pro Gerät von 4. Wir haben den Kreuzentropieverlust mit dem AdamW-Optimierer optimiert. Unter Verwendung des vollständigen Datensatzes haben wir das vorab trainierte Modell anhand von Teilstichproben des NYU Insurance Denial-Datensatzes verfeinert und deren AUC anhand des zeitlichen Testsatzes ausgewertet. Für jede Teilstichprobengröße führten wir fünf Experimente mit unterschiedlichen Zufallsstartwerten durch (0, 13, 24, 36, 42). Zum Vergleich haben wir uns die mittlere AUC und die Standardabweichung der fünf Experimente angesehen.
Wir haben die Feinabstimmungsexperimente wie folgt durchgeführt. Für jedes LLM in der erweiterten Datentabelle 2 haben wir ein HuggingFace-Token-Klassifizierungsmodell mit dem LLM als vorab trainiertem Prüfpunkt initialisiert. Wir haben das Modell mithilfe von i2b2-2012 NER für zehn Epochen unter Verwendung des AdamW-Optimierers mit einer Lernrate von 2 × 10−5, einem Gewichtsabfall von 0,01 und einer Stapelgröße von 4 verfeinert, alle 50 Schritte ausgewertet und früh angehalten Basis der Fläche unter der Receiver Operating Characteristic (AUROC) mit einer Geduld von 1. Dies dauerte 20 bis 40 Minuten auf einem Knoten von vier NVIDIA 17-GB V100-GPUs. Wir führten fünf Mal eine Feinabstimmung mit den Zufallsstartwerten 0, 13, 24, 36 und 42 durch und zeichneten den Durchschnitt und die Standardabweichung des mikrogemittelten F1-Scores auf (ohne die Bezeichnung für Nicht-Entität, „O“).
Wir haben die Feinabstimmungsexperimente wie folgt durchgeführt: Sowohl für NYUTron als auch für BioClinicalBert haben wir ein HuggingFace-Token-Klassifizierungsmodell mit dem LLM als vorab trainiertem Prüfpunkt initialisiert. Wir haben das Modell mithilfe der MIMIC-III-Wiederaufnahme für zehn Epochen unter Verwendung des AdamW-Optimierers mit einer Lernrate von 2 × 10−5, einem Gewichtsabfall von 0,01 und einer Stapelgröße von 16 verfeinert und jede halbe Epoche ausgewertet. Wir haben die Feinabstimmung fünfmal mit den Zufallsstartwerten 0, 13, 24, 36 und 42 durchgeführt.
Das fein abgestimmte Modell wurde in ein Hochleistungsformat (Onnx oder TensorRT) konvertiert und in unsere Bereitstellungsplattform geladen, eine NVIDIA Triton-Inferenz-Engine, die über die HLA7 Fast Health Interoperability Resources (FHIR)37-Schnittstelle mit dem NYU Langone EHR verbunden ist. Unsere Überlegungen zu Leistung, Sicherheit, Zuverlässigkeit und Interpretierbarkeit finden Sie im Abschnitt 5 der Zusatzinformationen.
Unsere Bereitstellungsplattform bestand aus einer modifizierten Version des Triton Inference Servers von NVIDIA, den wir NYUTriton nannten (ausgesprochen „Ernährung“, weil es gut für das Gesundheitssystem ist). NVIDIA Triton unterstützt GPU-, x86- und ARM-CPU-basiertes Inferenzieren sowie mehrere wichtige Funktionen, darunter dynamisches Batching, gleichzeitige Ausführung, eine hochflexible Modellspezifikationsschnittstelle und die Fähigkeit, eine breite Palette von Deep-Learning-Frameworks und beschleunigten Modellformaten zu unterstützen maximaler Durchsatz. Wir haben NVIDIA Triton so modifiziert, dass es nahtlos mit HuggingFace-formatierten Sprachmodellen kommuniziert und so einen einheitlichen und hochflexiblen Übergangspunkt zwischen unseren Entwicklungs- und Produktionspipelines bietet. Trainierte Modelle wurden in einem Standardformat im HuggingFace-Stil gespeichert und in Onnx und dann TensorRT konvertiert, um Inferenzergebnisse im Submillisekundenbereich zu erhalten. NYUTriton wird auf einem dedizierten Inferenzserver gehostet, der aus einem AMD Threadripper 3960X (24 Kerne, 3,8 GHz), zwei RTX 3090-GPUs und 128 GB DDR5-Systemspeicher besteht, der von Lambda Labs erworben wurde.
Nach der Unterzeichnung der Entlassungszusammenfassungen in Epic stellt die HL7-FHIR-Schnittstelle eine Verbindung zu NYUTriton her und sendet eine JavaScript Object Notation (JSON)-Nutzlast, die aus der Entlassungszusammenfassung und Metadaten besteht, die das zugrunde liegende Rückübernahmemodell und den Absender angeben. NYUTriton verarbeitet den Text vor, führt einen Inferenzjob mit dem beschleunigten NYUTron-Rückübernahmemodell aus und gibt das Inferenzergebnis des Modells an einen sekundären Orchestrierungsserver zurück, der das Ergebnis in eine Datenbank schreibt und eine E-Mail an den unterzeichnenden Arzt generiert.
Die strukturierten Basislinien waren (1) SAPS2/APACHE2-Merkmale + XGBoost für die Vorhersage der Mortalität im Krankenhaus, (2) LACE-Merkmale + + XGBoost für die Vorhersage von Versicherungsverweigerungen.
Für alle strukturierten Basislinien haben wir die xgboost-Bibliothek verwendet, um einen Baumklassifikator mit extremer Gradientenverstärkung und einem binären logistischen Verlust (Mehrklassen-Softmax-Verlust für mehr als zwei Klassen) zu trainieren. Wir haben die randomisierte Suche von scikit-learn verwendet, um Hyperparameter unter Minimum_child_weight aus {1, 5, 10}, Gamma aus {0,5, 1, 1,5, 2, 5}, Subsample aus {0,6, 0,8, 1}, col_sample_bytree aus {0,6, 0,8, 1,0}, max_ Depth von {3, 4, 5}, learning_rates von {0,001, 0,01, 0,1, 0,5} und n_estimators von {10, 100, 1000} für 100 Iterationen basierend auf dem AUROC-Score (ovr-auroc-Score für mehrere). Klassen) aus dreifacher Kreuzvalidierung38. Wir haben jedes Experiment fünfmal mit unterschiedlichen Zufallsstartwerten (0, 13, 24, 36, 42) durchgeführt. Für Mortalität, gruppierte Komorbidität, gruppierte LOS und Versicherungsverweigerung führten wir das Experiment mit dem vollständigen Datensatz durch. Für die Rückübernahme haben wir das Modell mithilfe von Teilstichproben (N ∈ {102, 103, 104, 105, 3,92336 × 105}) des NYU-Rückübernahme-LACE-Datensatzes trainiert.
Wir bewerteten die fünf Aufgaben (Vorhersage der Mortalität im Krankenhaus, Vorhersage des gruppierten Komorbiditätsindex, Vorhersage der 30-Tage-Wiederaufnahme aus allen Gründen, vorhergesagte LOS-Vorhersage und Vorhersage der Versicherungsverweigerung) mit AUC für binäre Klassen und OVR AUROC für mehrere Klassen. AUROC ist die Fläche unter der zweidimensionalen Kurve, die aus Tupeln der Form (TPR, FPR) besteht, die sich aus unterschiedlichen Entscheidungsschwellenwerten ergeben.
Wir haben die Rückübernahmevorhersage zusätzlich anhand der folgenden Metriken bewertet: TPR, FPR, Präzision, Rückruf und F1-Score, die alle einen Bereich von [0, 1] haben. Wir haben NER anhand eines mikrogemittelten NER F1-Scores bewertet. Der NER-F1-Score ähnelt dem normalen F1-Score, außer dass die Nicht-Entitätsbezeichnung „O“ für die Berechnung ausgeschlossen wird.
Wir haben NYUTron mit Ärzten verglichen. Wir arbeiteten mit sechs Ärzten unterschiedlicher Dienstaltersstufen zusammen: drei Oberärzte und drei Assistenzärzte. Die Ärzte wurden gebeten, die Entlassungsberichte zu überprüfen und vorherzusagen, ob der beschriebene Patient innerhalb von 30 Tagen wieder ins Krankenhaus kommen würde.
Wir haben NYUTron mit vier anderen LLMs und zwei Modellen für maschinelles Lernen verglichen. „random-init“ ist ein BERT-basiertes, nicht umhülltes Modell mit zufällig initialisierten Parametern. „Web-Wiki“ ist ein BERT-basiertes Modell ohne Gehäuse, das mithilfe von Webtext (aus dem BookCorpus-Datensatz39) und Wikipedia-Artikeln (aus dem englischen Wikipedia-Datensatz40) vorab trainiert wird. „web-wiki+bio“ ist ein BERT-Modell, das unter Verwendung von Webtext, Wikipedia-Artikeln, PubMed-Abstracts41 und vollständigen PubMed Central (PMC)-Artikeln42 vorab trainiert wurde. „web-wiki+bio+clinical“ oder gatortron-og43 ist ein Megatron-BERT44-Modell, das unter Verwendung von Webtext, Wikipedia-Artikeln, PubMed-Abstracts, vollständigen PMC-Artikeln, MIMIC-III-Notizen und nicht identifizierten klinischen Notizen der University of Florida vorab trainiert wurde Gesundheit. „lace+xgb“ liest strukturierte LACE-Merkmale (aus einer traditionellen klinischen Vorhersageregel) mit einem extrem Gradienten-verstärkten Baummodell14. „tf-idf+xgb“ liest Bag-of-Words-Features auf Korpusebene mit einem Baummodell mit extremer Gradientenverstärkung. Ausführliche Statistiken und Beispiele der vorab trainierten Korpora finden Sie in der erweiterten Datentabelle 2 und in der erweiterten Datenabbildung 3.
Wir haben zufällig 20 Entlassungsbescheinigungen aus dem Zufallstestsatz ausgewählt und sechs Ärzte mit unterschiedlichem Dienstalter gebeten, vorherzusagen, ob der Patient innerhalb von 30 Tagen wiederkommen würde. Zu den sechs Ärzten gehörten drei behandelnde Neurochirurgen, zwei Assistenzärzte für Neurochirurgie und ein Assistenzarzt auf der Intensivstation.
Wir nutzten REDCap zur Durchführung der Umfrage und gaben den Ärzten unbegrenzte Zeit. Die Befragung war wie folgt aufgebaut: Für jeden Fall fragten wir: „Wird diese Person innerhalb von 30 Tagen aufgenommen?“, gefolgt von der Entlassungszusammenfassung. Der Arzt konnte mit „Ja“ oder „Nein“ antworten. Wenn der Patient innerhalb von 30 Tagen zurückkam, hatten wir drei Folgefragen, um die Merkmale der anschließenden Wiederaufnahme zu beurteilen. Zuerst fragten wir: „Hängt diese Wiederaufnahme mit der vorherigen Entlassung zusammen?“, gefolgt von der H&P-Notiz zur späteren Wiederaufnahme. Der Arzt könnte mit „Ja“, „Nein“, „teilweise“ oder „erfüllt nicht die Medicare-Kriterien für eine 30-tägige Wiederaufnahme“ antworten. Die zweite Folgefrage lautete „Ist diese Rückübernahme vermeidbar?“, die der Arzt mit „Ja“, „Nein“ oder „teilweise“ beantworten konnte. Die dritte Folgefrage „Irgendwelche Kommentare?“ enthielt eine Freitextantwort, in der der Arzt erklären konnte, warum die Wiedereinweisung teilweise mit der vorherigen Entlassung zusammenhing oder warum die Wiedereinweisung teilweise vermeidbar war.
Um die Vorhersagen von NYUTron zu sammeln, haben wir die Textklassifizierungspipeline von HuggingFace verwendet, um Rückschlüsse auf die 20 Entlassungsnotizen zu ziehen. Für jeden Entlassungsbescheid gibt die Pipeline eine vorhergesagte Wahrscheinlichkeit für eine Wiederaufnahme aus. Wir haben diese vorhergesagte Wahrscheinlichkeit in eine binäre Bezeichnung mit einem Schwellenwert von 0,07 umgewandelt (eine vorhergesagte Wahrscheinlichkeit von mindestens 0,07 wurde in eine positive Bezeichnung umgewandelt). Wir haben 0,07 als Entscheidungsgrenze gewählt, da dies der Mindestschwellenwert war, der uns einen Validierungsrückruf von über 80 % unter den Schwellenwerten {0,01 × n : n ∈ {1, ..., 90} ermöglichte (das 80 %-Kriterium wurde auf dieser Grundlage ausgewählt). der klinischen Anwendbarkeit). Siehe Erweiterte Daten Abb. 8c für die Kalibrierungskurve von NYUTron.
Der Datensatz, die Hyperparameter sowie die Auswertungs- und Softwarebibliotheken zur Feinabstimmung anderer LLMs waren die gleichen wie bei der Feinabstimmung von NYUTron. Die vorab trainierten LLMs wurden wie folgt konstruiert: Random-Init ist ein BERT-basiertes, nicht umhülltes Modell mit Reset-Parametern. Web-Wiki ist ein BERT-basiertes Modell ohne Gehäuse. web-wiki+bio ist ein dmis-lab/biobert-base-verkleidetes v1.2-Modell. web-wiki+bio+clinical wurde von NVIDIA NGC heruntergeladen und mit „Convert Megatron Bert Checkpoint“ in einen HuggingFace-Checkpoint konvertiert.
Der Datensatz, die Hyperparameter sowie die Auswertungs- und Softwarebibliotheken zur Feinabstimmung anderer LLMs waren dieselben wie für die Feinabstimmung von NYUTron. Die vorab trainierten LLMs waren die gleichen wie die Basis-LLMs zur Vorhersage der Wiederaufnahme anhand von Entlassungsbescheinigungen.
Unter Verwendung des NYU Readmission-LACE-Datensatzes haben wir die xgboost-Bibliothek verwendet, um einen Baumklassifikator mit extremer Gradientenverstärkung und binärem Logistikverlust mit Hyperparametersuche zu trainieren. Wir haben die randomisierte Suche von scikit-learn verwendet, um zwischen Minimum_Child_Weight von {1, 5, 10}, Gamma von {0,5, 1, 1,5, 2, 5}, Subsample von {0,6, 0,8, 1} und col_sample_bytree von {0,6, 0,8 zu suchen , 1,0}, max_ Depth von {3, 4, 5}, learning_rates von {0,001, 0,01, 0,1, 0,5} und n_estimators von {10, 100, 1000} für 100 Iterationen auf der Grundlage des AUROC-Scores im Validierungssatz37. Wir haben das Modell mithilfe von Teilstichproben (N ∈ {102, 103, 104, 105, 3,92336 × 105}) des NYU Readmission-LACE-Datensatzes trainiert und deren AUROC anhand des zeitlichen Testsatzes bewertet. Für jede Teilstichprobengröße führten wir fünf Experimente mit unterschiedlichen Zufallsstartwerten durch (0, 13, 24, 36, 42). Zum Vergleich haben wir uns den mittleren AUROC und die Standardabweichung der fünf Experimente angesehen.
Wir haben den Text aus dem NYU-Rückübernahmedatensatz in tf-idf-Einbettungen (Termfrequenz – inverse Dokumenthäufigkeit) umgewandelt und einen xgboost-Klassifikator mit binärem Logistikverlust verwendet, um die Rückübernahme vorherzusagen. Wir haben Raytune45 verwendet, um Hyperparameter zu durchsuchen, einschließlich max_tf-idf-Merkmale aus {512, 5000}, max_ Depth aus einer quantisierten Zufallszahl von 3 bis 16 mit einem Intervall von 4, learning_rate aus einer logarithmischen Gleichverteilung von 10−2 bis 10−1, Gamma aus einer quantisierten Gleichverteilung von 0 bis 12 mit einem Intervall von 4, Minimum_child_weight aus einer quantisierten Gleichverteilung von 0 bis 8 mit einem Intervall von 4, Reg Lambda aus einer quantisierten Gleichverteilung von 0 bis 10 mit einem Intervall von 2, colsample_bytree aus einer gleichmäßigen Verteilung von 0,7 bis 1, Skala pos-Gewicht aus einer quantisierten gleichmäßigen Verteilung von 0 bis 50 mit einem Intervall von 10 und n_estimator aus einer quantisierten ganzzahligen Verteilung von 50 bis 300 mit einem Intervall von 50. Wir haben das Modell mithilfe von Unterstichproben trainiert ( N ∈ {102, 103, 104, 105, 3,92336 × 105}) des NYU-Rückübernahmedatensatzes und bewerteten deren AUROC anhand des zeitlichen Testsatzes. Für jede Teilstichprobengröße führten wir fünf Experimente mit unterschiedlichen Zufallsstartwerten durch (0, 13, 24, 36, 42). Zum Vergleich haben wir uns den mittleren AUROC und die Standardabweichung der fünf Experimente angesehen.
Wir haben NYUTron mit seinen vier Varianten verglichen (vorab trainiert und anhand von Daten verschiedener Standorte verfeinert): (1) NYU Notes–Manhattan + NYU Readmission–Manhattan, (2) NYU Notes–Manhattan + NYU Readmission–Brooklyn, (3) NYU Notes–Brooklyn + NYU-Rückübernahme–Brooklyn und (4) NYU Notes–Brooklyn + NYU-Rückübernahme–Manhattan. Die Hyperparameter sowie die Auswertungs- und Softwarebibliotheken zur Feinabstimmung von NYUTron-Varianten waren die gleichen wie für die Feinabstimmung von NYUTron.
Auf der Grundlage der zeitlichen Testleistung in der retrospektiven Studie haben wir ein fein abgestimmtes Modell mit einer Entscheidungsschwelle von 0,07 für die Verwendung in der prospektiven Studie ausgewählt.
Um den Zustand der wiedereingelieferten Patienten zu beurteilen, die korrekt vorhergesagt wurden (n = 3.298), verglichen wir ihre Krankenhaussterblichkeitsrate und Dauer des Krankenhausaufenthalts mit denen von Patienten, die im gleichen Zeitraum aufgenommen wurden. Wir haben Daten zu Patienten gesammelt, die von Februar bis Mai 2022 aufgenommen wurden (n = 30.548), und ihre Krankenhaussterblichkeitsrate und LOS mit denen der wieder aufgenommenen Patienten verglichen, die von Januar bis April 2022 von NYUTron aufgenommen wurden. Wir haben zweiseitiges Welch-T verwendet Tests (mit der Nullhypothese, dass die beiden Gruppen den gleichen Durchschnitt hatten), um die statistische Signifikanz unseres Vergleichs zu beurteilen46.
Wir führten eine Post-hoc-Analyse der wieder aufgenommenen Patienten in der prospektiven Kohorte durch, um die Modellleistung in einer realen Umgebung besser zu verstehen und um gezielte Interventionen auf der Grundlage der Modellergebnisse zu entwickeln. Einhundert wieder aufgenommene Patienten wurden aus den fünf nach Patientenzahl größten Abteilungen der NYU Langone befragt: Innere Medizin, Pädiatrie, allgemeine Chirurgie, Geburtshilfe und Gynäkologie sowie Hämatologie und Onkologie. Jede Abteilung trug 20 Fälle bei, wobei 10 Fälle die höchsten vorhergesagten Wahrscheinlichkeiten in dieser Abteilung und 10 Fälle die niedrigsten vorhergesagten Wahrscheinlichkeiten aufwiesen. Bei allen Fällen wurden die Begegnungs-IDs für die Indexentlassung und Wiederaufnahme auf einer sicheren Online-Plattform protokolliert. Zur manuellen Überprüfung wurde ein standardisierter Fragebogen erstellt, in dem gefragt wurde, ob die Rückübernahme geplant war, ob die Rückübernahme die CMS-Kriterien für eine bestrafte 30-Tage-Rückübernahme erfüllte, ob die Rückübernahme vermeidbar war, ob bei der Rückübernahme ein unerwünschtes Ereignis auftrat, ob unerwünschte Ereignisse vermeidbar waren usw ob die begutachtenden Ärzte Anmerkungen zu dem Fall hatten. Einem Team aus zehn Ärzten aus der Inneren Medizin und der Neurochirurgie wurden nach dem Zufallsprinzip Fälle zugeteilt, die paarweise überprüft wurden. Unstimmigkeiten zwischen den Gutachtern wurden von einem dritten ärztlichen Gutachter entschieden. Um festzustellen, ob eine Rückübernahme vermeidbar war, schaute sich der Gutachter die Entlassungsnotiz der Rückübernahmebegegnung und die H&P-Notiz der Rückübernahmebegegnung an.
Unsere Forschung wurde vom NYU Langone Institutional Review Board als „s21-01189 NYUtron“ genehmigt und die Methoden wurden in Übereinstimmung mit den relevanten Richtlinien und Vorschriften des Institutional Review Board durchgeführt.
Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Portfolio Reporting Summary.
Die für das Vortraining, die Feinabstimmung, die Validierung und die Testsätze verwendeten klinischen Daten wurden aus dem NYU Langone Health System EHR gesammelt, das vom NYULH Datacore-Team verwaltet wird. Textdaten wurden von Rich-Text-Funktionen befreit und „wie sie sind“ direkt in den Datensatz eingefügt und an den angegebenen Stellen mit strukturierten Funktionen ergänzt. Diese Daten bestehen aus den medizinischen Unterlagen der NYU Langone und können nicht öffentlich zugänglich gemacht werden. Forscher können auf begründete Anfrage und vorbehaltlich lokaler und nationaler ethischer Genehmigungen einen begrenzten, nicht identifizierten Datensatz (oder eine Testteilmenge) vom NYU Langone Health System erhalten. Wir haben auch öffentlich verfügbares i2b2-2012 (https://portal.dbmi.hms.harvard.edu/projects/n2c2-nlp/) und MIMIC-III (https://physionet.org/content/mimiciii/1.4/) verwendet. Datensätze.
Wir haben SQL und Python 3.8.13 verwendet, um Daten aus dem NYU Langone EHR zu sammeln. Wir haben REDCap 12.4.31 verwendet, um Antworten von Ärzten zu sammeln. Diese Arbeit verwendete mehrere Open-Source-Bibliotheken, darunter HuggingFace Transformers 4.19.2, Datasets 2.2.2, Evaluate 0.1.1, Wandb 0.12.17, Matplotlib 3.5.2, Seaborn 0.12.2, Pandas 1.4.2, Ray 2.0.0 , sklearn 1.1.1, deepspeed 0.8.0+384f17b, NVIDIA Apex, XGBoost 1.6.1 und nltk 3.6.3. Unser experimenteller Rahmen umfasste die Verwendung dieser Bibliotheken und in einigen Fällen deren Modifikation. Wir werden zum Zeitpunkt der Veröffentlichung Code veröffentlichen, um das Vortraining, die Feinabstimmung und das Testen der in diesem Dokument beschriebenen Modelle zu replizieren (Code für Experimente verfügbar unter https://github.com/nyuolab/NYUTron, Vorverarbeitungscode für i2b2-2012). verfügbar unter https://github.com/nyuolab/i2b2_2012_preprocessing). Wir fügen detaillierte Methoden und Implementierungsschritte in die Methoden und Zusatzinformationen ein, um eine unabhängige Replikation zu ermöglichen.
Roberts, M. et al. Häufige Fallstricke und Empfehlungen für den Einsatz von maschinellem Lernen zur Erkennung und Prognose von COVID-19 mithilfe von Röntgenaufnahmen des Brustkorbs und CT-Scans. Nat. Mach. Intel. 3, 199–217 (2021).
Artikel Google Scholar
Kelly, CJ, Karthikesalingam, A., Suleyman, M., Corrado, G. & King, D. Schlüsselherausforderungen für die Erzielung klinischer Wirkung mit künstlicher Intelligenz. BMC Med. 17, 195 (2019).
Artikel PubMed PubMed Central Google Scholar
Gaube, S. et al. Machen Sie, was die KI sagt: Anfälligkeit beim Einsatz klinischer Entscheidungshilfen. NPJ-Ziffer. Med. 4, 31 (2021).
Artikel PubMed PubMed Central Google Scholar
Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. BERT: Vortraining tiefer bidirektionaler Transformatoren für das Sprachverständnis. in Proc. 2019 NAACL: Human Language Technologies (Hrsg. Burstein, J., Doran, C. & Solorio, T.) 4171–4186 (Association for Computational Linguistics, 2019).
Brown, TB et al. Sprachmodelle sind Wenig-Schuss-Lernende. in Proc. NeurIPS (Hrsg. Wallach, H. et al.) 1877–1901 (Neural Information Processing Systems, 2020).
Gage, BF et al. Auswahl von Patienten mit Vorhofflimmern zur Antikoagulation: Stratifizierung des Schlaganfallrisikos bei Patienten, die Aspirin einnehmen. Auflage 110, 2287–2292 (2004).
Artikel CAS PubMed Google Scholar
Kind, CG & Turcotte, JG Chirurgie und portale Hypertonie. Großes Problem. Klin. Surg. 1, 1–85 (1964).
CAS Google Scholar
Pugh, RNH, Murray-Lyon, IM, Dawson, JL, Pietroni, MC & Williams, R. Durchtrennung der Speiseröhre bei blutenden Ösophagusvarizen. Br. J. Surg. 60, 646–649 (2005).
Artikel Google Scholar
Wells, P. et al. Genauigkeit der klinischen Beurteilung einer tiefen Venenthrombose. Lancet 345, 1326–1330 (1995).
Artikel CAS PubMed Google Scholar
Tomašev, N. et al. Ein klinisch anwendbarer Ansatz zur kontinuierlichen Vorhersage zukünftiger akuter Nierenschäden. Natur 572, 116–119 (2019).
Artikel PubMed PubMed Central ADS Google Scholar
Wu, N. et al. Tiefe neuronale Netze verbessern die Leistung von Radiologen bei der Brustkrebsvorsorge. IEEE TMI 39, 1184–1194 (2020).
Google Scholar
Liang, H. et al. Bewertung und genaue Diagnose pädiatrischer Erkrankungen mithilfe künstlicher Intelligenz. Nat. Med. 25, 433–438 (2019).
Artikel CAS PubMed Google Scholar
Kaplan, J. et al. Skalierungsgesetze für neuronale Sprachmodelle. Vorabdruck unter https://doi.org/10.48550/arXiv.2001.08361 (2020).
Chen, T. & Guestrin, C. XGBoost: ein skalierbares Baum-Boosting-System. in Proc. 2016 SIGKDD 785–794 (Association for Computing Machinery, 2016).
Le Gall, J.-RA Neuer vereinfachter akuter Physiologie-Score (SAPS II), basierend auf einer europäischen/nordamerikanischen multizentrischen Studie. Marmelade. Med. Assoc. 270, 2957–2963 (1993).
Artikel Google Scholar
Knaus, WA, Draper, EA, Wagner, DP & Zimmerman, JE APACHE II: ein Klassifizierungssystem für den Schweregrad der Erkrankung. Krit. Pflege Med. 13, 818–829 (1985).
Artikel CAS PubMed Google Scholar
Charlson, ME, Pompei, P., Ales, KL & MacKenzie, CR Eine neue Methode zur Klassifizierung prognostischer Komorbidität in Längsschnittstudien: Entwicklung und Validierung. J. Chron. Dis. 40, 373–383 (1987).
Artikel CAS PubMed Google Scholar
Caetano, N., Laureano, RMS & Cortez, P. Ein datengesteuerter Ansatz zur Vorhersage der Krankenhausaufenthaltsdauer – eine portugiesische Fallstudie. in Proc. 2014 ICEIS (Hrsg. Hammoudi, S., Maciaszek, L. & Cordeiro, J.) 407–414 (SCITEPRESS Digital Library, 2014).
Johnson, M., Albizri, A. & Harfouche, A. Verantwortungsvolle künstliche Intelligenz im Gesundheitswesen: Vorhersage und Verhinderung von Ablehnungen von Versicherungsansprüchen für wirtschaftliches und soziales Wohlergehen. Inf. Syst. Vorderseite. https://doi.org/10.1007/s10796-021-10137-5 (2021).
van Walraven, C., Wong, J. & Forster, AJ LACE+-Index: Erweiterung eines validierten Index zur Vorhersage eines frühen Todes oder einer dringenden Wiederaufnahme nach Krankenhausentlassung anhand von Verwaltungsdaten. Offenes Med. 6, 80–90 (2012).
Google Scholar
Center for Disease Control. Was ist C. diff? https://www.cdc.gov/cdiff/what-is.html (2022).
Yang, G. et al. Der Sprachmodellklassifikator stimmt bei der Wiederaufnahmevorhersage besser mit der Wortempfindlichkeit des Arztes überein als XGBoost. Vorabdruck unter https://doi.org/10.48550/arXiv.2211.07047 (2022).
Perez, E., Kiela, D. & Cho, K. Echtes Lernen mit wenigen Schüssen mit Sprachmodellen. in Proc. NeurIPS (Hrsg. Ranzato, M. et al.) 11054–11070 (Neural Information Processing Systems, 2021).
Singhal, K. et al. Große Sprachmodelle kodieren klinisches Wissen. Vorabdruck unter https://doi.org/10.48550/arXiv.2212.13138 (2022).
Bolton, E. et al. PubMedGPT 2.7B. Technischer Bericht. Stanford University Center for Research on Foundation Models https://crfm.stanford.edu/2022/12/15/pubmedgpt.html (2022).
Hoffmann, J. et al. Eine empirische Analyse des rechenoptimalen Trainings großer Sprachmodelle. in Proc. NeurIPS (Hrsg. Koyejo, S. et al.) 30016–30030 (Neural Information Processing Systems, 2022).
Charlson, M. Charlson-Komorbiditätsindex (CCI). MD+CALC https://www.mdcalc.com/calc/3917/charlson-comorbidity-index-cci (2022).
Sun, W., Rumshisky, A. und Uzuner, O. Kommentieren zeitlicher Informationen in klinischen Erzählungen. J. Biomed. Informieren. 46, 5–12 (2013).
Artikel Google Scholar
Johnson, AEW et al. MIMIC-III, eine frei zugängliche Datenbank für die Intensivpflege. Wissenschaft. Daten 3, 160035 (2016).
Artikel CAS PubMed PubMed Central Google Scholar
van Walraven, C. et al. Ableitung und Validierung eines Index zur Vorhersage eines frühen Todes oder einer ungeplanten Rückübernahme nach der Entlassung aus dem Krankenhaus in die Gemeinschaft. Dürfen. Med. Assoc. J. 182, 551–557 (2010).
Artikel Google Scholar
Sundararajan, V. et al. Neue ICD-10-Version des Charlson-Komorbiditätsindex zur Prognose der Krankenhausmortalität. J. Clin. Epidemiol. 57, 1288–1294 (2004).
Artikel PubMed Google Scholar
Bird, S. & Loper, E. NLTK: Das Natural Language Toolkit. in Proc. 2004 ACL Interactive Poster and Demonstration Sessions 214–217 (Association for Computational Linguistics, 2004).
Wolf, T. et al. Transformers: Modernste Verarbeitung natürlicher Sprache. in Proc. 2020 EMNLP (Hrsg. Webber, B., Cohn, T., He, Y. & Liu, Y.) 38–45 (Association for Computational Linguistics, 2020).
Rajbhandari, S., Rasley, J., Ruwase, O. & He, Y. ZeRO: Speicheroptimierungen. Auf dem Weg zum Training von Billionen-Parametermodellen. in Proc. Int. Konf. Hochleistungsrechnen, Netzwerk, Speicherung und Analyse 1–16 (IEEE Press, 2020).
Loshchilov, I. & Hutter, F. Entkoppelte Regularisierung des Gewichtsabfalls. ICLR https://openreview.net/forum?id=Bkg6RiCqY7 (2019).
Kingma, DP & Ba, J. Adam: eine Methode zur stochastischen Optimierung. ICLR https://arxiv.org/abs/1412.6980 (2017).
Ayaz, M., Pasha, MF, Alzahrani, MY, Budiarto, R. & Stiawan, D. Der Fast Health Interoperability Resources (FHIR)-Standard: systematische Literaturrecherche zu Implementierungen, Anwendungen, Herausforderungen und Chancen. JMIR Med. Informieren. 9, 21929 (2021).
Artikel Google Scholar
Pedregosa, F. et al. Scikit-Learn: Maschinelles Lernen in Python. J. Mach. Lernen. Res. 12, 2825–2830 (2011).
MathSciNet MATH Google Scholar
Zhu, Y. et al. Ausrichtung von Büchern und Filmen: Hin zu geschichtenähnlichen visuellen Erklärungen durch Ansehen von Filmen und Lesen von Büchern. in Proc. 2015 ICCV (Hrsg. O'Conner, L.) 19–27 (IEEE, 2015).
Wikimedia-Stiftung. Wikimedia-Downloads. https://dumps.wikimedia.org/ (2021).
NCBI-Literaturressourcen. Laden Sie PubMed-Daten herunter. https://pubmed.ncbi.nlm.nih.gov/download/ (2022).
Nationalbibliothek für Medizin. PubMed Central: PMC-Artikeldatensätze. https://www.ncbi.nlm.nih.gov/pmc/tools/textmining/ (2022).
Yang, X. et al. Ein großes Sprachmodell für elektronische Gesundheitsakten. NPJ-Ziffer. Med. 5, 194 (2022).
Shoeybi, M. et al. Megatron-LM: Training von Sprachmodellen mit mehreren Milliarden Parametern mithilfe von Modellparallelität. Vorabdruck unter https://doi.org/10.48550/arXiv.1909.08053 (2020).
Liaw, R. et al. Tune: eine Forschungsplattform für verteilte Modellauswahl und -schulung. Vorabdruck unter https://doi.org/10.48550/arXiv.1807.05118 (2018).
Welch, BL Die Verallgemeinerung des Student-Problems, wenn mehrere unterschiedliche Populationsvarianzen beteiligt sind. Biometrie 34, 28–35 (1947).
MathSciNet CAS PubMed MATH Google Scholar
Referenzen herunterladen
EKO wird vom Early Surgeon Scientist Program des National Cancer Institute (3P30CA016087-41S1) und der WM Keck Foundation unterstützt. Wir möchten J. Golfinos danken, dessen Vision und Unterstützung dieses Projekt ermöglicht haben. Wir möchten auch unseren Mitarbeitern M. Costantino und K. Yie vom NYU Langone High-Performance Computing (HPC)-Team danken; Ohne ihre unermüdliche Unterstützung beim Aufbau und der Wartung unseres GPU-Clusters wäre diese Forschung nicht möglich gewesen. Wir möchten uns auch bei D. Bar-Sagi und N. Mherabi bedanken, deren Unterstützung für diese Forschung alles möglich gemacht hat. Wir möchten B. Guzman von der NYU Langone Predictive Analytics Unit und VJ Major von der NYU Grossman School of Medicine für ihre Hilfe beim Erlernen der im Rahmen dieser Arbeit verwendeten SQL-Datenstrukturen danken. Wir möchten Y.(R.) Pang für die Durchsicht und Bearbeitung des ersten Manuskripts danken. Wir möchten X. Yang von der University of Florida für seine Hilfe bei der Vorverarbeitung und Auswertung des i2b2-Datensatzes danken. Wir danken S. Ciprut für die Unterstützung bei der REDCap-Umfrage und der Forschungsverwaltung für unser Team. Wir danken C. Fernandez-Granda, J. Kempe, V. Dhar, N. Wu, M. Barot, A. Chen, K. Link und F. Kwon für ihre wertvollen Diskussionen.
Abteilung für Neurochirurgie, NYU Langone Health, New York, NY, USA
Lavender Yao Jiang, Xujin Chris Liu, Mustafa Nasir-Moin, Howard Antony Riina, Ilya Laufer, Nora C. Kim, Cordelia Orillac, Zane Schnurman, Christopher Livia, Hannah Weiss, David Kurland, Sean Neifert, Yosef Dastagirzada, Douglas Kondziolka, Alexander TM Cheung, Grace Yang, Ming Cao und Eric Karl Oermann
Zentrum für Datenwissenschaft, New York University
Lavender Yao Jiang, Grace Yang, Ming Cao, Kyunghyun Cho und Eric Karl Oermann
Elektrotechnik und Informationstechnik, Tandon School of Engineering, New York, NY, USA
Xujin Chris Liu
NVIDIA, Santa Clara, Kalifornien, USA
Klicken Sie auf „Herunterladen“, um „Nima Pour Nejatian – Anas Abidin“ im MP3-Format auf YouTube zu speichern
Predictive Analytics Unit, NYU Langone Health, New York, NY, USA
Duo Wang & Yindalon Aphinyanaphongs
Abteilung für Innere Medizin, NYU Langone Health, New York, NY, USA
Kevin Eaton, Paawan Punjabi und Madeline Miceli
Ministerium für Bevölkerungsgesundheit, NYU Langone Health, New York, NY, USA
Yindalon Aphinyanaphongs
Prescient Design, Genentech, New York, NY, USA
Kyunghyun Cho
Courant Institute of Mathematical Sciences, New York University, New York, NY, USA
Kyunghyun Cho
Kanadisches Institut für fortgeschrittene Forschung, Toronto, Ontario, Kanada
Kyunghyun Cho
Abteilung für Radiologie, NYU Langone Health, New York, NY, USA
Eric Karl Oermann
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
EKO konzipierte und betreute das Projekt. LYJ sammelte Daten (mit Ausnahme der Datensätze NYU Insurance Denial und MIMIC-III Readmission) und führte Experimente durch. LYJ und XCL haben die Zahlen erstellt. XCL, NPN, MN-M. und KC debuggte und testete das Modell sowie die Vortrainings- und Feinabstimmungssoftware. EKO entwarf die NYUTriton-Bereitstellungsplattform, und EKO, AA und DW bauten das System und integrierten es in die EHR. KE, EKO, DW und YA haben den NYU-Versicherungsverweigerungsdatensatz gesammelt und verarbeitet. HAR, IL, PP, KE, MM, NCK, CO, ZS, CL, HW, DK, SN, YD, DK und ATMC nahmen an den menschlichen Experimenten, der Überprüfung von Fällen und der Bereitstellung von Benutzerfeedback und Tests teil. GY und MC stellten die Skripte für tf-idf+xgb zur Verfügung und erstellten den MIMIC-III-Rückübernahmedatensatz. MF, ABC, YA und KC gaben während des gesamten Projekts Anleitung und Feedback. LYJ, KC und EKO haben den ersten Entwurf geschrieben. LYJ, EKO, KC, MN-M., GY und MC haben die endgültige Einreichung formatiert. Alle Autoren haben das Manuskript redigiert und überarbeitet.
Korrespondenz mit Eric Karl Oermann.
EKO meldet Beratungen mit Sofinnova und Google, Einnahmen von Merck & Co. und Mirati Therapeutics sowie Beteiligungen an Artisight. NPN, MF und ABC werden von NVIDIA eingesetzt. DK berichtet über eine Beratung mit Elekta. KC ist bei Prescient Design beschäftigt, einem Genentech-Beschleuniger, einer Tochtergesellschaft von Roche. Es bestehen keine weiteren potenziellen Interessenkonflikte. Die hier vorgestellte Arbeit wurde ausschließlich im Rahmen des NYU Langone Health System durchgeführt.
Nature dankt Ziad Obermeyer und den anderen, anonymen Gutachtern für ihren Beitrag zum Peer-Review dieser Arbeit.
Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.
a: Die AUC-Kurve für den Zufallstest zeigt eine bessere Leistung als der zeitliche Test. Die Zufallstest-AUC beträgt 84,13 %, verglichen mit der zeitlichen Test-AUC von 80,2 %. Der Unterschied unterstreicht, wie wichtig es ist, einen Testsatz zu erstellen, der den Problemaufbau widerspiegelt. Bei der Wiederaufnahmevorhersage stammt der Bereitstellungssatz immer aus der Zukunft des Trainingssatzes. Daher verwenden wir für die Modellauswahl den zeitlichen Test AUC. b: Ein Vergleich der Zufallstest-AUC und der zeitlichen Test-AUC mit zunehmender Anzahl von Trainingsbeispielen zeigt, dass zeitliche Tests wichtig sind, um die Bereitstellungsleistung abzuschätzen. Hier zeigen wir, dass die Stichprobe eines zeitlich aufgeteilten Datensatzes „schwieriger“ zu sein scheint als die eines zufällig ausgewählten Testdatensatzes, da alle getesteten LLMs und Lace+XGB beim zeitlichen Test (Notizen aus der Zukunft) schlechter abschneiden als beim Zufallstest (Notizen aus derselben Zeit). wie die Trainingsdaten). Die farbigen Linien auf der linken Seite (zufällige Test-AUCs) sind im Allgemeinen höher als die farbigen Linien auf der rechten Seite (zeitliche Test-AUCs). Wir kommen zu dem Schluss, dass dies ein wichtiger Unterschied ist, da zeitlich abgetastete, ausgehaltene Testsätze eine realistischere Schätzung der Modellleistung liefern. Interessanterweise scheinen die Sprachmodelle empfindlicher auf dieses Phänomen zu reagieren als das Lace+xgb-Modell.
Wir beobachten einen ähnlichen Trend wie die Rückübernahmevorhersage: (a) zeigt, dass NYUTron unter verschiedenen Datenverfügbarkeitseinstellungen eine bessere Leistung als tf-idf aufweist, und (b) zeigt, dass klinisch vorab trainierte Sprachmodelle eine bessere Leistung aufweisen als nicht klinisch vorab trainierte Sprachmodelle. Dies bestätigt unsere Erkenntnisse, dass Sprachmodelle im Gesundheitssystemmaßstab allgemeine klinische Vorhersage-Engines sind und dass eine Domänenübereinstimmung zwischen Vortraining und Feinabstimmungskorpus zur Aufgabenleistung beiträgt. a, Vergleich der zeitlichen Test-AUCs zwischen NYUTron und einem traditionellen NLP-Modell (tf-idf+xgb). NYUTron hat für alle getesteten Feinabstimmungsbeispiele eine höhere mittlere AUC als tf-idf+xgb. Die schwarze vertikale Linie zeigt die Standardabweichung über 5 Versuche mit verschiedenen Zufallssamen an (0, 13, 24, 36, 42). b, Vergleich der Feinabstimmungsleistungen von LLMs bei der NER-Aufgabe. Bei der i2b2-2012-Aufgabe zur Extraktion klinischer Konzepte haben die LLMs, die mit klinischen Korpora vorab trainiert wurden (NYUTron, Web-Wiki+Bio+Klinik), einen höheren durchschnittlichen f1-Score als LLMs, die nicht mit klinischen Korpora vorab trainiert wurden (Web-Wiki+Bio). , Web-Wiki, Random-Init). Insbesondere schneiden NYUTron und web-wiki+bio+clinical besser ab als das zufällig initialisierte Modell (36,64 % höherer mittlerer seqeval f1-Score) und nicht klinisch vortrainierte Modelle (2,01 %–3,48 % höherer medianer seqeval f1-Score). Beachten Sie, dass die Höhe jedes Balkens die durchschnittliche f1-Bewertung darstellt und die halbe Länge jeder schwarzen vertikalen Linie die Standardabweichung über 5 Versuche mit verschiedenen zufälligen Samen angibt (0, 13, 24, 36, 42).
Wir fügen hier einige Beispiele aus den verwendeten Vorschulungskorpora ein, um unsere Arbeit in den Kontext zu bringen. Beispiele aus drei Arten von Pretrain-Korpus: (1) Web-Wiki (Online-Bücher aus dem Bookcorpus und Enzyklopädieartikel aus der englischen Wikipedia), (2) Bio (Zusammenfassungen wissenschaftlicher Arbeiten aus Pubmed Abstracts und vollständige Artikel aus Pubmed Central) und (3 ) klinisch (NYU-Notizen, NYU-Rückübernahme von Langone EHR und klinische Notizen von der University of Florida Health).
Um zu testen, wie viel Feinabstimmung NYUTron benötigt, um es auf ein anderes Gesundheitssystem zu verallgemeinern, optimieren wir NYUTron und BioClinicalBERT (das über die gleiche Anzahl von Parametern und Architektur wie NYUTron verfügt, aber vorab auf MIMIC-Notizen, Bookcorpus, Pubmed- und Wikipedia-Artikel trainiert ist) unter Verwendung verschiedener Unterproben von MIMIC -III Rückübernahmedatensatz. Der Datensatz enthält 52.726 nicht identifizierte Entlassungsberichte aus der Intensivstation des Boston Beth Israel Hospital mit einer 8:1:1-Train-Val-Test-Aufteilung. Bei 100 Proben ist die AUC ähnlich. Bei 1000 Proben weist NYUTron eine um 3,58 % höhere mittlere AUC auf als BioClinicalBERT (57,22 % gegenüber 53,64 %). Bei 10.000 Proben weist NYUTron eine um 6,42 % höhere mittlere AUC auf als BioClinicalBERT (65,56 % gegenüber 59,14 %). Unter Verwendung des vollständigen Datensatzes (42.180 Proben) weist NYUTron eine um 3,8 % höhere mittlere AUC auf als BioClinicalBERT (67,04 % gegenüber 63,24 %). Angesichts der Tatsache, dass NYUTron anhand identifizierter abteilungsübergreifender Notizen von NYU Langone vorab trainiert und anhand nicht identifizierter intensivstationsspezifischer Notizen von Beth-Israel verfeinert wurde, zeigt dieses Ergebnis, dass NYUTron in der Lage ist, durch lokale Feinabstimmung auf eine ganz andere Gesundheitsumgebung zu verallgemeinern. Die Höhe des Balkens gibt die mittlere Leistung von 5 Experimenten mit unterschiedlichen Zufallsstartwerten (0, 13, 24, 36, 42) an und der Fehlerbalken gibt den Min-Max-Bereich an.
a: Eine geschichtete Analyse der zeitlichen Testleistung von NYUTron nach klinischer Abteilung und onkologischem Fachgebiet. NYUTron schneidet in der Abteilung für Neurologie am besten ab (AUC 90,12 %) und schneidet in der Abteilung für Innere Medizin am schlechtesten ab (AUC 67,95 % für nicht-onkologische Fachgebiete und AUC 63,77 % für onkologische Fachgebiete), mit einem Unterschied von etwa 20 % AUC. Diese erheblichen Unterschiede zwischen den klinischen Abteilungen legen nahe, dass eine detailliertere Analyse zu Leistungsvorteilen führen kann. Wir notieren die Anzahl der Beispiele (N) und die Wiederaufnahmerate (p) für jede Abteilung. b: Die Leistung von NYUTron weist über Monate hinweg geringfügige Schwankungen auf. Wir zeichnen die durchschnittliche monatliche Test-AUC von NYUTron von Januar 2013 bis Dezember 2021 auf, um nach zugrunde liegenden monatlichen Trends oder Zyklen zu suchen und die Hypothese zu testen, dass die Leistung im Juli am schlechtesten wäre, wenn neue Ärzte ihre Ausbildung mit einem anderen Schreibstil beginnen als bereits in der Ausbildung befindliche Ärzte Praxis (gestrichelte rote Linie zeigt die monatliche AUC im Juli an). Die Höhe des Balkens gibt die durchschnittliche monatliche Leistung über die 9 Jahre an und der vertikale Balken gibt die Standardabweichung an. Wir kommentieren die Anzahl der Beispiele (N) und die Wiederaufnahmerate (p) für jeden Monat. Wir stellen fest, dass der Juli die zweitniedrigste monatliche AUC und die höchste Varianz aufweist. Wir spekulieren (und benötigen mehr Jahre an Daten zur Überprüfung), dass von neuen Ärzten verfasste klinische Notizen mit der zeitlichen Verschiebung über die Monate und dem Leistungsabfall im Juli zusammenhängen. Die durchschnittlichen AUCs der Quartale Januar bis März, April bis Juni und Juli bis September steigen, was möglicherweise mit dem Rotationsplan der Bewohner in verschiedenen klinischen Abteilungen zusammenfällt. Wir überlassen die weitere Untersuchung dieser zyklischen Leistung zukünftigen Arbeiten.
Im Rahmen einer Analyse der Modellleistung nach zwei möglichen Bias-Quellen, Alter und Rasse, führen wir geschichtete Analysen der Leistung von NYUTron durch. Wir geben für jede Bewertung die Anzahl der Beispiele (N) und die Wiederaufnahmerate (p) an. a: Wir stratifizieren den Zeittest auf der Grundlage von neun Altersklassen (0 bis 90 Jahre mit Klassen von 10-Jahres-Intervallen). NYUTron schneidet bei Patienten im Alter von 10 bis 40 Jahren am besten ab und weist im Alter von 40 Jahren eine dezilweise abnehmende Leistung auf, wobei die Leistung in der Altersgruppe der 80–90-Jährigen am schlechtesten ist. Wir stellen fest, dass dies kein Effekt der Stichprobengröße ist; die größte Einzelstichprobe ist im Alter zwischen 80 und 90 Jahren, aber wahrscheinlich spiegelt dies die Komplexität und die Komorbiditätsbelastung wider, die mit zunehmendem Alter unverhältnismäßig höher ist. b: Um mögliche Abhängigkeiten und Verzerrungen nach Rasse zu testen, identifizieren wir zunächst die fünf häufigsten Rassen im Datensatz (Weiße, andere Rassen, Schwarze, Chinesen, Inder) und stratifizieren dann die Bewertungsergebnisse nach Rasse. NYUTron schneidet bei chinesischen Patienten am besten und bei schwarzen Patienten am schlechtesten ab, mit einer leichten Variation der AUC in beiden Gruppen.
a, Ein Boxplot mit einzelnen Datenpunkten. Für jedes Modell wurden 5 Experimente mit zufälligen Seeds 0, 13, 24, 36, 42 durchgeführt. Die Mittellinie des Boxplots zeigt den Median an. Die obere Zeile der Box gibt das erste Quantil an. Die untere Linie des Diagramms gibt das letzte Quantil an. Der Whisker reicht bis zum 1,5-fachen der Interquartillänge und die Rauten zeigen Ausreißer an. b, Ein Balkendiagramm, das den Mittelwert und die Standardabweichung zeigt. Die Höhe des Balkens gibt den Mittelwert über 5 Experimente an und die Länge der schwarzen vertikalen Linie gibt die Standardabweichung an.
a, Visualisierung der Aufteilungszeitpläne für Rückübernahmedaten. Wir visualisieren die zufällige Aufteilung, die zeitliche Aufteilung und die Bereitstellungsaufteilung auf einer Zeitleiste, um diese Entscheidung für die Modellbewertung anzuzeigen. Die zufällige Aufteilung beginnt im Januar 2013 und endet im Mai 2021 (einschließlich), die weiter in einen 80 %-Zugsatz, 10 % Validierungssatz und einen 10 %-Testsatz aufgeteilt wird. Die zeitliche Aufteilung (zeitlicher Test) beginnt im Juni 2021 und endet im Dezember 2021, einem Zeitraum, aus dem keine Trainingsproben entnommen wurden. Die Einsatzdaten stammen notwendigerweise aus der Zukunft, da sie prospektiv im Rahmen unserer einarmigen, nicht-interventionellen klinischen Studie erfasst werden. b: Die Leistung von NYUTron steigt mit vollständigeren Eingabenotizen. Um zu versuchen, die Leistung als Funktion der Sequenzlänge abzuschätzen, haben wir eine Teilmenge „langer Noten“ aus dem zeitlichen Testsatz abgetastet. Jede Notiz in dieser Teilmenge besteht aus nicht weniger als 400 Wörtern oder etwa 512 Token. Wir haben diese langen Notizen auf 100, 200, 300 und 400 Wörter gekürzt und dabei ihre Rückübernahmebezeichnungen beibehalten, um den inkrementellen Leistungsgewinn zu demonstrieren, da wir proportional mehr Informationen aus jeder dieser „langen Notizen“ erfassen. Die gestrichelte Linie ist die AUC aller Noten. Diese Abbildung zeigt, dass die Verarbeitung von mehr Wörtern aus der möglichen Eingabe zu einer besseren Bewertungsleistung führt und bestätigt, dass ein klares Potenzial zur Leistungsverbesserung durch Erhöhung der maximalen Sequenzlänge besteht. c,d NYUTrons Kalibrierungskurve für den zeitlichen Test (c, Anzahl der Bewertungsbeispiele beträgt N = 53.916) und den prospektiven Einsatz (d, Anzahl der Bewertungsbeispiele beträgt N = 29.286). Als Referenz ist die orangefarbene Linie die Kalibrierungskurve eines ideal kalibrierten Klassifikators. Die blaue Linie ist die Kalibrierungskurve von NYUTron. Derzeit führen wir keine zusätzliche Kalibrierung durch und wählen den Entscheidungsschwellenwert basierend auf der Präzision und dem Rückruf des zeitlichen Validierungssatzes. Die vorhergesagte Wahrscheinlichkeit wird mit der größten vorhergesagten Wahrscheinlichkeit normalisiert. Insgesamt ist das Modell gut auf die 30-Tage-Rückübernahmeaufgabe abgestimmt.
.
Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.
Nachdrucke und Genehmigungen
Jiang, LY, Liu, XC, Nejatian, NP et al. Sprachmodelle im Gesundheitssystemmaßstab sind Allzweck-Vorhersagemaschinen. Natur (2023). https://doi.org/10.1038/s41586-023-06160-y
Zitat herunterladen
Eingegangen: 14. Oktober 2022
Angenommen: 02. Mai 2023
Veröffentlicht: 07. Juni 2023
DOI: https://doi.org/10.1038/s41586-023-06160-y
Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:
Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.
Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt
Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.