LLMs und generative KI spielen für MLOps-Praktiken eine große Rolle

Artikel / Analyse

Einzigartige Anforderungen an die Entwicklung künstlicher Intelligenz (KI) führten zu MLOps-Praktiken, die auf die Erstellung und Bereitstellung von Modellen für maschinelles Lernen zugeschnitten sind. Da sich diese Praktiken ständig im Wandel befinden, stehen sie möglicherweise vor einer weiteren Umwälzung, da generative KI und Large Language Models (LLMs) neue Anwendungen vorantreiben.

Als in der Vergangenheit Durchbrüche bei Modellen des maschinellen Lernens (ML) erzielt wurden, blieb die Nachricht auf kleine Gemeinschaften von KI-Spezialisten beschränkt. Die Image Net-Objekterkennungsdatenbank im Jahr 2012 und die 2017 von Google beschriebene neuronale Architektur Transformer waren geringfügige Wellen im Technologiebewusstsein.

Nicht so bei ChatGPT. Als es zu Bing und dem Edge-Browser hinzugefügt wurde, sorgte es weltweit für Aufsehen. C-Level-Führungskräfte mussten aufmerksam werden, da generative KI, LLMs und Basismodelle auf bedeutende Innovationen hinzuweisen schienen. Generative KI steht für neue Formen der Chatbot-Interaktion, der Zusammenfassung und Generierung von Inhalten, der Generierung von Softwarecode und vielem mehr.

Das Beratungsunternehmen Deloitte sagt, dass generative KI eine Welle der Störung auslöst. Bis zu 55 % der Befragten einer Deloitte/Forbes-Umfrage aus dem Jahr 2023 unter 143 CEOs evaluieren oder experimentieren mit generativer KI.

Unterdessen stimmen 79 % der Befragten zu, dass generative KI die Effizienz steigern wird, und 52 % der Befragten glauben, dass sie die Wachstumschancen erhöhen wird. Laut Deloitte implementieren 37 % der Befragten bereits zu einem gewissen Grad generative KI.

Der Ansturm auf LLMs und der Bedarf an erstklassigen ML-Entwicklungstools haben Akquisitionen im ML-Ops-Bereich beschleunigt. Einige Zuschauer beginnen auch, „LLM Ops Space“ zu unterscheiden.

Viele betrachten diese Art von Käufen als eine Art Talentakquise, was die Kompetenzprobleme hervorhebt, die die Aussichten der generativen KI überschatten.

Die Teams arbeiten nun daran, die neue Technologie sowohl im Trainings- als auch im Inferenzmodus zu bändigen. Die LLMs, die das Herzstück der Innovationen der generativen KI bilden, erfordern groß angelegte Hardware- und Softwarearchitekturen, die verteiltes Rechnen unterstützen. Speicher- und Rechenressourcen müssen optimiert werden, um die Latenz bei der Mensch-Maschine-Interaktion zu reduzieren. All dies führt schnell zu Kosten, die einige hoffnungsvolle Projekte zunichte machen.

Darüber hinaus ernähren sich die LLMs von umfangreichen Trainingsdaten, die kuratiert und verwaltet werden müssen. Die LLM-Ausgabe kann unbeständig sein; Manchmal verlassen sich Entwickler auf iteratives Prompt Engineering, indem sie das Modell wiederholt abfragen und dann über die Zufälligkeit der eintreffenden Antworten nachdenken. Dennoch sehen unabhängige Entwickler und Anbieter aller Größen Wege zur Lösung der Probleme.

„Große Sprachmodelle eignen sich hervorragend für allgemeines Denken, sind aber äußerst fragil“, sagte Shreya Rajpal, die kürzlich auf dem Databricks Data and AI Summit 2023 sprach. „Es ist schwierig, korrekte Ergebnisse aus großen Sprachmodellen zu erhalten.“

„Wenn man es skaliert, gibt es keine Garantie dafür, dass es so funktioniert, wie man es erwartet“, sagte sie den Teilnehmern des Data and AI Summit.

Rajpal ist ein ehemaliger leitender Apple ML-Ingenieur und jetzt Gründer des Start-ups Guardrails AI, das Software entwickelt, um die Qualität von LLM-Ausgaben besser zu gewährleisten.

Da LLMs für Unternehmenszwecke eingesetzt werden, bei denen die Korrektheit von entscheidender Bedeutung ist, besteht laut Rajpal ein dringender Bedarf an der Validierung der Eingaben. Bei der Validierung geht es um Sprachstrukturen und -typen, Prüfungen auf Schimpfwörter oder die Länge von Antworten und vieles mehr. Bei Guardrails AI setzt Rajpal auf Verifizierungstools, um die Qualität der LLM-Ergebnisse besser zu gewährleisten.

Die Containertechnologie treibt weiterhin die automatisierte ML-Entwicklung voran. Sie fördern die wichtige Zusammenarbeit zwischen Datenwissenschaftlern und Betriebsabläufen. Laut Josh Poduska, Chefdatenwissenschaftler vor Ort bei Domino Data Lab, das seit seiner Gründung im Jahr 2013 seine Analysefähigkeiten für verschiedene Fortune-100-Kunden verfeinert hat, erfordern die einzigartigen Herausforderungen von LLMs ein verbessertes Containermanagement.

„Die heutige Datenwissenschaft basiert stark auf Containern. Auf Unternehmensebene spielen sie eine große Rolle beim Aufbau der Grundlage einer Data-Science-Plattform. LLMs erfordern eine andere Art von Containern als herkömmliches maschinelles Lernen und stellen neue Anforderungen an Container-Management-Frameworks, die eine bessere Zusammenarbeit und eine bessere Reproduzierbarkeit unterstützen“, erklärte er.

In seiner neuesten Version der Domino Enterprise MLOps-Plattform, so Poduska, enthält Domino vorab trainierte Basismodelle und Projektvorlagen, um die automatische Skalierung generativer KI-Projekte von Benutzern zu unterstützen. Die Software umfasst Unterstützung für die verteilten Computing-Frameworks Apache Spark, Dask und Ray, die mit LLMs verwendet werden, sowie einen neuen Model Sentry, der die Steuerung von Modellvalidierungs-, Überprüfungs- und Genehmigungsprozessen ermöglicht.

Eine vereinfachte LLM-Entwicklung ist ein Ziel von Nvidia, dem Hersteller der GPUs, die einen Großteil der heutigen KI-Arbeit vorantreiben und eine breite Akzeptanz wünschen. Nvidia hat sein containerisiertes NeMo-Framework – das bereits aus früheren Wellen von AI-Bild- und Sprachverarbeitungsinnovationen bekannt ist – für die LLM-Leistung verbessert.

Kari Briski, Vizepräsident für Produktmanagement für KI- und HPC-Software bei Nvidia, beschreibt NeMo als ein End-to-End-Framework, das Aufgaben von der Datenkuration über verteiltes Training bis hin zu KI-Inferenz abdeckt. NeMo ermöglicht jetzt eine erweiterte verteilte Verarbeitung für LLMs. Als Teil seiner Bemühungen veröffentlichte Nvidia im April NeMo Guardrails, um die Entwicklung von KI-Chatbots zu unterstützen, die „präzise, angemessen, themenbezogen und sicher“ sind.

Briski positioniert die neue Software als einen natürlichen Schritt in der Evolution, allerdings mit einigen Wendungen, die unter die Überschrift „LLM Ops“ fallen könnten.

„Der Code hat sich im Laufe der Jahre weiterentwickelt, auch Compiler, Testsuiten und Testfälle. ML Ops hat gerade die Entwicklung dessen durchlaufen, was wir in unserer Software benötigen“, sagte sie.

Wo gibt es Unterschiede? Der Ton der Antworten auf die Fragen der Benutzer ist gleich.

„Bewertungen sind in der Regel subjektiv. „Jedes Unternehmen, das an seinen personenbezogenen Daten arbeitet, wird subjektiv sein“, sagte Briski. Dies spiegelt sich auch im „Tonfall“ der Antworten auf die Fragen der Benutzer wider. Wie Antworten bewertet werden, hängt beispielsweise davon ab, wie sie der Definition der Marke durch ein Unternehmen entsprechen.

Die Bewertung der LLM-Leistung gehöre zu den schwierigeren Problemen, die Teams heutzutage lösen müssen, sagte Waleed Kadous, Chefwissenschaftler bei Anyscale und ehemaliger technischer Leiter bei Uber und Google.

„Die Evaluierung ist im Vergleich zu anderen ML-Operationen eines der schwierigsten und am wenigsten gelösten Probleme bei LLMs“, sagte er.

Wenn man herausfinden will, ob es sich bei etwas um eine Katze oder einen Hund handelt, sagt Kadous, sei es sehr einfach zu entscheiden, ob man gute Arbeit leistet. Aber wenn Sie den Leuten einen Textblock geben, der ihre Frage vielleicht beantwortet oder auch nicht, oder der beleidigend sein könnte, ist es viel schwieriger, den Erfolg zu messen.

Kadous sagte, die Fortschritte bei Retrieval Augmented Generation seien vielversprechend bei der Bewältigung des Problems. Diese Technik gleicht branchenspezifische Q&A-Modelle mit LLMs ab.

Unterdessen weist er die Herausforderungen bei der kosteneffizienten Berechnung generativer KI nicht zurück, die zu den Problemen gehören, die Anyscale anzugehen versucht. Das Unternehmen bietet die verteilte Programmierplattform Anyscale an, bei der es sich um eine verwaltete, automatisch skalierende Version des Open-Source-Frameworks Ray handelt. Dieser Rahmen ist ein wesentlicher Bestandteil seiner Mission, da die Gründungsprinzipien von AnyScale während seiner Studienzeit an der University of California, Berkeley, mit der Entwicklung begannen. Die Ray API hat kürzlich Streaming-Verbesserungen erhalten, um schnellere Antwortzeiten für LLM-Workloads zu unterstützen.

Im Mai startete Anyscale das Open-Source-Projekt Aviary, um Entwickler bei der Bewertung und Bereitstellung von LLMs zu unterstützen. Der cloudbasierte Dienst ermöglicht es Entwicklern, Testaufforderungen an eine Vielzahl von Open-Source-LLMs zu senden und verschiedene Optimierungstechniken auszuprobieren.

Laut Andy Thurai, Vizepräsident und Hauptanalyst bei Constellation Research, sollte die Neuheit von LLMs nicht viel darüber hinwegtäuschen, was im Grunde jedem bekannt ist, der sich mit maschinellem Lernen beschäftigt hat.

„LLM Ops ist das Äquivalent von MLOps, aber für LLMs“, sagte er in einem E-Mail-Interview. „Es geht im Wesentlichen darum, wie man die LLM-Modelle trainiert und sie auf die effizienteste Weise in die Produktion bringt.“

Es seien Probleme im Spiel, die bereits aus früheren MLOps-Arbeiten bekannt seien, fügt er hinzu. Dazu gehören Dinge wie Modellüberwachung, Modelldrift und Modellumschulung. Es gelte auch das zeitlose Gebot, Models mit guten Daten zu versorgen, stellt er fest.

„Wenn jemand ein LLM aufbauen möchte, gelten die normalen ML-Best Practices. Datenerfassung, Datenkuration/-vorbereitung, Datenbereinigung, Datenverwaltung, Feature-Engineering, Datenannotation, Datenschutz, Daten-Governance und Datenherkunftsverfolgung werden alle auf der datentechnischen Seite eine Rolle spielen“, sagte Thurai. „Auch die Beseitigung und Abschwächung von Vorurteilen spielt eine Rolle.“

Vieles an LLMs ist bekannt, aber es gibt auch viel Neues darüber. Der Grad des Erfolgs, den Entwicklungsteams mit neuen Tools, Frameworks und Bibliotheken erzielen, wird letztendlich darüber entscheiden, wie schnell KI-Innovationen zum Mainstream werden.