Apple gehört heute nicht zu den Top-Playern im KI-Bereich, aber das neue Open-Source-KI-Modell des Unternehmens für die Fotobearbeitung zeigt, welchen Beitrag es auf diesem Gebiet leisten kann. Das Modell heißt MLLM Guided Image Editing (MGIE) und nutzt multimodale Large Language Models (MLLMs), um textbasierte Befehle bei der Verarbeitung von Bildern zu interpretieren. Mit anderen Worten: Das Tool hat die Möglichkeit, Bilder basierend auf dem vom Benutzer eingegebenen Text zu bearbeiten. Obwohl es nicht das erste Tool ist, das dies kann, „sind menschliche Anweisungen manchmal zu kurz, als dass bestehende Methoden sie erfassen und befolgen könnten.“ Projektblatt (PDF) Lesen.
Das Unternehmen entwickelte MGIE gemeinsam mit Forschern der University of California, Santa Barbara. MLLMs haben die Möglichkeit, einfache oder mehrdeutige Textaufforderungen in detailliertere und klarere Anweisungen umzuwandeln, denen der Bildbearbeiter selbst folgen kann. Wenn ein Benutzer beispielsweise ein Bild einer Peperoni-Pizza bearbeiten möchte, um „sie gesünder zu machen“, könnten MLLMs dies als „Gemüsebelag hinzufügen“ interpretieren und das Bild als solches bearbeiten.
MGIE kann nicht nur erhebliche Änderungen an Bildern vornehmen, sondern auch Bilder zuschneiden, in der Größe ändern und drehen sowie Helligkeit, Kontrast und Farbbalance verbessern – alles über Texteingabeaufforderungen. Es kann auch bestimmte Bereiche des Bildes verändern und beispielsweise die Haare, Augen und Kleidung der abgebildeten Person verändern oder Objekte im Hintergrund entfernen.
wie Venturebeat Hinweise: Apple hat das Modell durch veröffentlicht Githubaber Interessierte können es auch mit einem versuchen Experimental- Welches derzeit auf Hugging Face Spaces gehostet wird. Apple hat noch nicht klargestellt, ob es plant, die Erkenntnisse aus diesem Projekt in einem Tool oder einer Funktion zu nutzen, die es in eines seiner Produkte integrieren könnte.
„Kaffeeliebhaber. Introvertiert. Stolzer Problemlöser. Entdecker. Freundlicher Musikfan. Zombie-Nerd.“
More Stories
Die Ankündigung der PlayStation 5 Pro ist für einige Wochen geplant
Kuo: Das RAM-Upgrade auf 12 GB im nächsten Jahr wird auf das iPhone 17 Pro Max beschränkt sein
Midjourney, ein Unternehmen für künstliche Intelligenz, stellt ein Hardwareprodukt in neuer Form vor