Foto, finden, genießen: CLIP-Power für Kaffeesuche
Eine europäische Kaffee-Community wünschte sich friktionsfreie Produktsuche. Das Team lieferte eine latenzarme Visual-Search-Pipeline, integrierte sie in Mobile-Apps und ergänzte Admin- sowie Röster-Portale für ein skalierbares Ökosystem.
8 Wochen
Latenzarm & kosteneffizient
Ohne Retraining neue SKUs
Bildbasierte Kaffee-Suche für eine Social-Brewing-Plattform
Executive Summary
Das Produkt- und AI-Engineering-Team unterstützte eine europäische Kaffee-Community dabei, Produkterkennung in ein Foto-und-finden-Erlebnis zu verwandeln. Statt Marken- und Röstnamen zu tippen, laden Nutzer:innen ein Bild des Beutels hoch und erhalten sofort exakte oder nahezu exakte Treffer – plus visuell bzw. semantisch ähnliche Röstungen für Inspiration. Die CLIP-gestützte Bildsuche wurde in eine Plattform für Shots, Rezepte und Reviews eingebettet; Admin- und Röster-Portale ermöglichen Katalogpflege und Engagement-Steuerung.
Problem
Tippen auf dem Smartphone ist langsam und fehleranfällig – besonders bei tausenden Röstungen, Herkunftsländern und Label-Designs. Eine rein textbasierte Suche ignoriert visuelle Merkmale, die Specialty Coffee prägen. Die Plattform benötigte eine Erlebnisschicht, die einen Beutel aus einem einzigen Foto erkennt, Ergebnisse in Echtzeit liefert und auf neue Produkte generalisiert – ohne schwergewichtiges Retraining – und sich nahtlos in iOS/Android sowie das Backend einfügt.
Lösung
Das AI-Team implementierte eine Kontrastiv-Embedding-Pipeline mit CLIP/Jina-CLIP. Produktbilder wurden bereinigt, dedupliziert und standardisiert; darauf basierende Embeddings flossen in einen Index für Approximate-Nearest-Neighbor-Suche. Über eine zustandslose Inferenz-API sendet der Client ein Foto, erzeugt ein Embedding, fragt den Vektorindex ab und erhält Top-k-Kandidaten mit Ähnlichkeitsscores und Metadaten. Zwei Modi entstehen: (1) „Exakt/nahezu exakt“ für Identifikation und (2) „Ähnliche Kaffees“ für Entdeckung nach visueller/semantischer Nähe (z. B. Hinweise auf Herkunft, Röstgrad, Prozess auf Etiketten/Descriptors). Mobile-Clients bekommen kompakte Payloads für schnelle Darstellung; Admin-/Röster-Portale bieten Werkzeuge, um Treffer zu prüfen, False Positives zu dämpfen und neue SKUs ohne Modell-Retraining hinzuzufügen. Tests mit Pytest decken Randfälle (Reflexion, Zuschnitt, Unschärfe) ab; CI/CD deployt zu Hugging Face Inference und Jina-Endpunkten für elastisches Skalieren.
Outcome
In acht Wochen ging eine funktionsfähige, latenzarme Bildsuche live, senkte Reibung bei der Produktsuche und steigerte Sitzungsdauer durch visuelle Entdeckung. Die Katalogerweiterung erfordert kein Retraining – neue Kaffees werden embedding-basiert aufgenommen – was Betriebskosten planbar hält. Heraus kommt ein unmittelbares Nutzererlebnis und ein Röster-Ökosystem, das mit dem Angebot mitwächst.
Was Sie von einer Zusammenarbeit mit Dreamloop Studio erwarten können
Die Produkt- und AI-Teams von Dreamloop Studio verwandeln moderne Embedding-Modelle in spürbare Features. Erwartbar sind pragmatische Pipelines, schnelle Mobile-Integrationen und produktionsreifes MLOps, das mit Ihrem Katalog skaliert. Ergebnis ist eine visuelle Entdeckungs-Schicht, der Nutzer:innen vertrauen, die Partner steuern können und die im Budget bleibt.
Planen Sie Ihren Visual-Search-Pilot
Book a conversation with Dreamloop Studio to explore how we can deliver similar ROI for your organisation.
Buchen Sie ein kostenfreies Erstgespräch
In einem kurzen Anruf beraten wir Sie zu unseren Leistungen.
