Google Shopping Feed-Tests gehören zu den wirkungsvollsten AktivitĂ€ten, die ein Performance-Team durchfĂŒhren kann – doch die meisten Marken behandeln sie nach dem Motto „Änderung pushen, eine Woche Dashboard beobachten und nach BauchgefĂŒhl den Gewinner auswĂ€hlen." Das ist kein Test, das ist Rauschen. Shopify-Plus-Teams mit Shopping-Budgets von 50.000+ $/Monat sind zu einer 3-Kohorten-Custom-Label-Methode ĂŒbergegangen, die Feed-Variablen mit ausreichender statistischer Power isoliert, um 8–15% CTR-Steigerungen pro Quartal auf spezifische Titel- und Attribut-Änderungen zurĂŒckzufĂŒhren – bevor der gesamte Katalog angepasst wird.

Warum Standard-PMax-„Experimente" Feed-Level-Variablen verfehlen

Performance-Max-Experimente auf Kampagnenebene – der Tab „Experiment" in Google Ads – teilen das Budget zwischen zwei Kampagnenkonfigurationen auf. Sie können jedoch eine Feed-Änderung nicht als unabhĂ€ngige Variable isolieren. Wenn du einen Produkttitel katalogweit verĂ€nderst und danach ein PMax-Experiment startest, hast du bereits beide Testgruppen kontaminiert: jede Impression bedient nun den neuen Titel, und die Kontrollgruppe existiert nicht mehr.

Googles eigene Merchant-Center-Dokumentation zu Experimenten bestĂ€tigt diese LĂŒcke implizit: Die unterstĂŒtzten Experimenttypen decken Gebote, Creative Assets und URL-Erweiterungen ab – nicht Feed-Attribute. Das bedeutet, dass eine Titel-Neugestaltung, eine Marken-PrĂ€fix-Änderung oder das Verschieben von Material-Attributen in Position 2 eines Titelstrings nicht nativ in der Ads-OberflĂ€che getestet werden können.

Die Folge ist echtes Geld, das auf dem Tisch liegenbleibt. In einem Katalog mit 2.400 SKUs fĂŒhrt eine auf BauchgefĂŒhl basierende Titel-Format-Änderung, die eine 6%-CTR-Verschlechterung zur Folge hat, zu einer BeeintrĂ€chtigung jeder Shopping-Impression in diesem Katalog – ohne Möglichkeit, den RĂŒckgang zurĂŒckzuverfolgen. Es kann 3–4 Wochen dauern, bis du es merkst – lange genug, dass ein Quartalsbericht ein falsches Bild zeichnet. Vor jeder katalogweiten Änderung lohnt sich ein Audit deines Feeds nach AttributlĂŒcken, die von Anfang an Störvariablen einfĂŒhren könnten.

Die drei Variablen, die PMax-Experimente tatsÀchlich steuern

PMax-Experimente handhaben: (1) Creative-Asset-Gruppen, (2) Smart-Bidding-Strategievarianten (tROAS vs. Konvertierungswert maximieren) und (3) URL-Erweiterungs-Toggles. Feed-Level-Signale – Titel, Beschreibungen, Produkttypen, GTINs, Custom Labels – liegen vor der Auktion. Sie bestimmen, in welche Anfragen deine Anzeigen eintreten dĂŒrfen, nicht nur, wie du in sie bietest. Tests auf der falschen Ebene zu fĂŒhren beantwortet die falsche Frage.

Die 3-Kohorten-Split-Methode: Segmentierung nach Custom Label

Die 3-Kohorten-Custom-Label-Methode ist der zuverlĂ€ssigste Ansatz zur Isolierung von Feed-Variablen in einer Live-Shopping-Umgebung. Sie nutzt drei Kohorten, definiert durch custom_label_0 (oder whichever Label-Slot in deinem Feed frei ist). Beschrifte deinen SKU-Pool als control, variant_a und holdout, bevor du Titel oder Attribute verĂ€nderst. Die Holdout-Gruppe – typischerweise 20% der SKUs – bleibt unverĂ€ndert und lĂ€uft durch dieselben Kampagnen ohne Änderung, was dir eine Baseline gibt, die externe Saisonverschiebungen berĂŒcksichtigt.

Hier ist die Kohorten-Zuordnungsformel, die wir ĂŒber mehrere Shopify-Plus-Konten hinweg validiert haben:

KohortLabel-WertSKU %Zweck
Kontrolletest_ctrl40%Original-Feed-Attribute, Business as usual
Variante Atest_var_a40%GeÀnderte Titel / getestete Attribute
Holdouttest_hold20%UnverÀndert; SaisonalitÀt / Marktkorrektur

Die Zuweisung von Custom Labels in großem Maßstab erfordert einen Zusatz-Feed statt der Bearbeitung deines Haupt-Feeds. Erstelle in deinem Merchant-Center-Konto einen Zusatz-Feed, der nur auf id + custom_label_0 abgebildet ist. Dies hĂ€lt deinen Haupt-Feed sauber und ermöglicht es dir, Label-Werte programmatisch ĂŒber die Content API zu wechseln, ohne einen kompletten Feed neu hochzuladen.

Sobald Labels zugewiesen sind, segmentiere deine Shopping- oder PMax-Kampagnen nach Label mit Kampagnen-Level-Produktfiltern. Kontrolle und Variante A erhalten identische Budgets, identische Gebots-Strategien und identische Asset-Gruppen. Die einzige Variable, die sich unterscheidet, ist das, was im Feed steht. Wenn du mehr als eine Shopping-Kampagne hast, musst du Kreuzkontamination handhaben – mehr dazu in einem spĂ€teren Abschnitt.

FĂŒr Teams, die die KI-Umschreib-Engine von MagicFeed Pro nutzen, kann der KI-Feed-Optimizer-Workflow Varianten-Titel fĂŒr deine Test-Kohort in Masse generieren, wĂ€hrend Kontroll-Titel unverĂ€ndert bleiben – ein Schritt, der frĂŒher einen vollen Tag Spreadsheet-Arbeit brauchte.

Festlegung statistischer Signifikanz-Schwellen (Sample-Size-Mathematik)

Einen Test 14 Tage lang zu fahren und einen Gewinner basierend auf einem 3%-CTR-Unterschied zu erklĂ€ren, ist wie Marken sich selbst tĂ€uschen. Bevor du einen Feed-Test startest, berechne die minimal erkennbare EffektgrĂ¶ĂŸe (MDE) und erforderliche Sample Size anhand deines Baseline-Click-Volumens. Dieser Schritt richtig zu machen unterscheidet ein verteidigbares Ergebnis von einem BauchgefĂŒhl-Aufruf, der sich in Daten kleidet.

Die Standard-Formel, abgeleitet von Evan Millers Sample-Size-Rechner-Methodologie, zielt auf:

  • Statistische Power: 80% (ÎČ = 0,20)
  • Signifikanzniveau: 95% (α = 0,05, zweiseitig)
  • MDE: der kleinste CTR-Anstieg, der handlungsfĂ€hig ist (typisch 5–8% relativ fĂŒr Feed-Tests)

FĂŒr eine Baseline-CTR von 1,2% und eine MDE von 6% relativ (bedeutet, du möchtest einen Anstieg auf 1,27% oder höher erkennen), brauchst du ungefĂ€hr 18.400 Impressionen pro Kohort. Bei einem typischen Shopping-Kampagnen-Impressions-Tempo von 1.500 Impressionen/Tag pro Kohort bei diesem Budget-Level sind das ein 12-Tage-Minimum – nicht 7 und nicht die „Lass uns Freitagnachmittag kurz schauen"-Gewohnheit, in die die meisten Teams verfallen.

Beende einen Feed-Test niemals am Wochenende oder verkĂŒrze ihn wĂ€hrend einer Aktionsperiode. Feiertagswochenenden, Flash Sales und sogar Konkurrenz-Promotions verschieben CTR-Baselines um 15–30%, invalidieren den Vergleich. WĂ€hle ein 14-Tage-Fenster, das zwei volle GeschĂ€ftswochen umfasst, ohne geplante Promotions auf beiden Seiten.

FĂŒr Teams mit kleineren Katalogen (unter 500 SKUs pro Kohort) oder niedrig-Traffic-Kategorien liefert die Mathematik oft erforderliche Fenster von 21–28 Tagen. Das ist unbequem, aber richtig. Einen Test am Tag 10 mit p = 0,08 zu beenden ist nicht „Tendenzen zeigen Signifikanz" – es ist ein unter-gepowerter Test mit einer MĂŒnzwurf-Schlussfolgerung.

Die primĂ€re Metrik fĂŒr Feed-Tests sollte CTR auf Impressions-Ebene (Klicks Ă· Impressionen) sein, nicht Konvertierungsrate. Konvertierungsrate fĂŒhrt stromabwĂ€rts gelegene Variablen ein – Landing-Page-Erlebnis, PreiskonkurrenzfĂ€higkeit, VerfĂŒgbarkeit – die außerhalb des Feed-Kontrolle liegen. Isoliere den Job des Feeds: den Klick holen.

Case Study: Titel-Format-Test ĂŒber 2.400 SKUs (14-Tage-Fenster)

Eine Shopify-Plus-Modemarke mit ungefĂ€hr 65.000 $/Monat Google Shopping Budget fĂŒhrte einen Titel-Format-Test in Q1 2026 mit der oben beschriebenen 3-Kohorten-Methode durch. Die Test-Variable war Titel-Struktur: Kontrolle nutzte den Standard-Shopify-Produkttitel (Marke + Produktname + Farbe), wĂ€hrend Variante A zu Marke + Geschlecht + Produktkategorie + SchlĂŒsselattribut + Farbe umstrukturiert – ein Format, das Such-Intent-Signale an den Anfang stellt. Diese Art von strukturierter Titel-Umgestaltung gehört zu den wirkungsvollsten Änderungen, die in der Produkttitel-Optimierung fĂŒr Google Shopping dokumentiert sind.

Ergebnisse nach 14 Tagen ĂŒber 2.400 SKUs (800 pro Kohort):

MetrikKontrolleVariante ASteigerung
Impressionen312.400308.900—
Klicks3.7484.271+13,9%
CTR1,20%1,38%+15,0%
Konv.-Rate2,14%2,19%+2,3% (ns)
p-value——0,003

Die CTR-Steigerung von 15% ĂŒberschritt die 95%-Konfidenz-Schwelle komfortabel (p = 0,003). Die Konvertierungsrate-Verbesserung war nicht statistisch signifikant – was erwartet wurde, da der Test nur den Feed Ă€nderte, nicht die Landing Page. Das Team rollte Varianten-A-Titel auf die restlichen 1.600 SKUs aus und sah die Steigerung in den folgenden 30 Tagen innerhalb von 2 Prozentpunkten halten.

Veröffentliche dein Test-Design – KohortengrĂ¶ĂŸe, MDE, Dauer – bevor du das Experiment startest. Teams, die ihre Erfolgskriterien vorab registrieren, haben eine deutlich geringere Wahrscheinlichkeit, sich auf „p-Hacking" einzulassen (den Test zu stoppen, wenn die Zahl gut aussieht). Ein geteiltes Google Sheet mit der Hypothese, Metriken und Schwelle, die vor Tag 1 gesperrt sind, dauert unter 20 Minuten und amortisiert sich jedes Mal, wenn das Ergebnis mehrdeutig ist.

Du kannst weitere Titel-Format-Auswirkungsbeispiele ĂŒber verschiedene Verticals hinweg in den MagicFeed Pro Optimierungs-Case-Studies erkunden, einschließlich einer Möbelmarke, die Attribut-Reihenfolge ĂŒber 5.400 SKUs testete und einen 19%-CTR-RĂŒckgang wiederherstellte, der durch eine frĂŒhere nicht-getestete Feed-Überholung verursacht wurde.

Vermeidung von Kreuzkontamination in gemeinsamen Shopping-Kampagnen

Kreuzkontamination ist der hÀufigste Grund, warum Feed-Tests stillschweigend fehlschlagen. Sie tritt auf, wenn Kontroll- und Varianten-SKUs in der gleichen Ad Group konkurrieren oder wenn Googles Smart-Bidding-Algorithmus das Budget zu der Kohort umverteilt, die wÀhrend des Tests besser zu performen scheint. Das Eliminieren dieser Vektoren vor dem Launch ist nicht verhandelbar.

Drei spezifische Kontaminationsvektoren, die vor dem Launch eliminiert werden mĂŒssen:

1. Gemeinsame Ad Groups. Wenn beide Kohorten in der gleichen Ad Group leben, wird Google die höher-CTR-Kohort automatisch priorisieren, wÀhrend der Test fortschreitet und die Impression-Share der Variante auf Kosten der Kontrolle aufblahen. Der Custom-Label-Filter auf Kampagnen-Ebene (nicht Ad-Group-Ebene) ist die strukturelle Lösung.

2. Smart-Bidding-Learning-Bleed. tROAS und Maximize-Conversion-Value-Strategien teilen einen Performance-Signal-Pool ĂŒber Kampagnen hinweg im gleichen Konto. Eine GebotsstrategieĂ€nderung, die durch Varianten-A-Performance ausgelöst wird, kann in 48–72 Stunden in Kontrollkampagnen-Gebots-Verhalten durchsickern. Nutze separate, unabhĂ€ngige Gebots-Strategien fĂŒr jede Kohort – auch wenn das identische tROAS-Ziele bedeutet, die ĂŒber zwei Kampagnen dupliziert werden.

3. Remarketing-List-Überlappung. Wenn deine Shopping-Kampagnen Audience-Signale nutzen, die Kohorten ĂŒberlappen (hĂ€ufig bei breiten First-Party-Listen), können Nutzer, die Kontroll-Anzeigen sahen, von Varianten-A-Impressionen retargetet werden und Exposures-Daten mischen. Segmentiere deine RLSA-Audiences nach KaufhĂ€ufigkeit und schließe die Top-HĂ€ufigkeits-Segmente von beiden Test-Kampagnen wĂ€hrend des Run-Fensters aus.

FĂŒr Konten mit komplexen Multi-Kampagnen-Strukturen deckt Shopifys Dokumentation zum Google Shopping Channel ab, wie Zusatz-Feed-Architekturen mit Kampagnen-Produktfiltern interagieren – nĂŒtzlicher Hintergrund bei der Gestaltung von Label-Hierarchien ĂŒber 10+ aktive Kampagnen hinweg.

Tooling: Google-Sheets-Vorlage + Merchant-Center-API-Workflow

Ein verlĂ€sslicher Feed-Test wird durch seine operative Grundlage bestimmt oder sabotiert. Manuelle Label-Zuweisung ĂŒber Tausende SKUs ist fehleranfĂ€llig; gleiches gilt fĂŒr die manuelle tĂ€gliche Signifikanz-PrĂŒfung. Hier ist der minimale Tooling-Stack, der ohne Data-Engineering-Team skaliert.

Kohorten-Zuweisung (Google Sheets + IMPORTDATA): Verwalte eine Master-SKU-Liste mit einer cohort-Spalte. Nutze =RANDBETWEEN(1,100) bei der initialen Zuweisung mit einem Cutoff (1–40 = Kontrolle, 41–80 = Variante, 81–100 = Holdout) – kritisch: Paste Werte sofort danach, um die Zufallszuweisung zu frieren. Kohorten, die bei jedem Sheet-Öffnen regeneriert werden, produzieren verschiedene Zuweisungen jeden Tag und verderben den Test.

Zusatz-Feed (Merchant Center Content API): Nutze die Merchant Center Content API, um custom_label_0-Updates von deiner Sheets-Zuweisung ĂŒber ein leichtes Apps Script oder Python-Skript zu pushen. Dies vermeidet die 24-Stunden-Verarbeitungsverzögerung, die mit manuellen Zusatz-Feed-Uploads verbunden ist, und gibt dir nahezu Echtzeit-Label-Kontrolle – kritisch, wenn du eine Kohort wegen einer Anomalie pausieren musst.

Signifikanz-Tracking (Apps Script + evanmiller.org-Formel): Repliziere die Zwei-Proportionen-z-Test-Formel direkt in Sheets. Pull tĂ€gliche Impressions- und Klick-Daten von der Google Ads API in eine laufende Tabelle. Die z-Test-Formel fĂŒr zwei Proportionen:

z = (p1 - p2) / sqrt(p_pool * (1 - p_pool) * (1/n1 + 1/n2))

wo p_pool = (x1 + x2) / (n1 + n2). Markiere die p-value-Spalte rot, wenn p > 0,05 und grĂŒn, wenn p ≀ 0,05 – eine Zwei-Sekunden-Sicht-PrĂŒfung ersetzt eine Stunde manuelle Analyse.

Bevor du einen Test fĂ€hrst, fĂŒhre deinen Feed durch das MagicFeed Pro Feed-Audit-Tool, um AttributlĂŒcken zu identifizieren, die Störvariablen einfĂŒhren könnten – ein fehlendes size_type auf 30% der Varianten-SKUs wĂŒrde beispielsweise diese SKUs fĂŒr grĂ¶ĂŸen-gefilterte Anfragen unterdrĂŒcken und Varianten-A-CTR falsch deprimieren.

Der komplette Workflow – Sheets-Vorlage, Apps Script fĂŒr API-Sync und Signifikanz-Tracker – kann in etwa 3 Stunden fĂŒr ein Team mit bereits konfiguriertem API-Zugriff eingerichtet werden. Das ist eine einmalige Investition, die jeden nachfolgenden Test schneller und verteidigbarer fĂŒr Stakeholder macht, die die Mathematik sehen wollen, bevor sie eine katalogweite Rollout genehmigen.


Wie lange sollte ein Google Shopping Feed A/B-Test laufen?
Die meisten Feed-Tests erfordern ein Minimum von 14 Tagen – zwei volle GeschĂ€ftswochen – um 80% statistische Power bei 95% Konfidenzlevel mit einer typischen CTR-Baseline von 1–2% zu erreichen. Kleinere Kataloge oder niedrig-Traffic-Kategorien brauchen möglicherweise 21–28 Tage. Beende einen Test niemals frĂŒh wĂ€hrend Aktionsperioden; Feiertagswochenenden allein können CTR-Baselines um 15–30% verschieben.
Kann ich PMax-Kampagnen-Experimente zum Testen von Produktfeed-Änderungen nutzen?
Nein. Googles Performance Max Experiment-Tool testet Gebots-Strategien, Asset-Gruppen und URL-Erweiterung – nicht Feed-Attribute. Änderungen an deinen Produkttiteln katalogweit durchzufĂŒhren und dann ein PMax-Experiment zu fahren kontaminiert beide Testgruppen, weil die Kontrollgruppe nicht mehr existiert. Feed-Level-Tests erfordern eine benutzerdefinierte Custom-Label-Kohorten-Methode außerhalb der nativen Ads-Experiment-OberflĂ€che.
Welche Sample Size brauche ich fĂŒr einen statistisch validen Feed-Split-Test?
FĂŒr eine Baseline-CTR von 1,2% und eine minimal erkennbare EffektgrĂ¶ĂŸe von 6% relativ brauchst du ungefĂ€hr 18.400 Impressionen pro Kohort, je nach Zwei-Proportionen-z-Test-Formel. Nutze Evan Millers Sample-Size-Rechner (evanmiller.org) mit 80% Power und α = 0,05 zweiseitig, um deine spezifische Anforderung vor Beginn zu berechnen.
Was ist die beste primÀre Metrik, um in einem Shopping Feed-Test zu messen?
CTR auf Impressions-Ebene (Klicks Ă· Impressionen) ist die korrekte primĂ€re Metrik fĂŒr Feed-Tests. Konvertierungsrate fĂŒhrt stromabwĂ€rts gelegene Variablen ein, die außerhalb des Feed-Kontrolle liegen – Landing-Page-Erlebnis, Preise, VerfĂŒgbarkeit – die verschleiern, ob die Feed-Änderung selbst den Unterschied antrieb. Isoliere den Job des Feeds: den qualifizierten Klick holen.
Wie vermeide ich, dass Smart Bidding meine Feed-Test-Kohorten kontaminiert?
Nutze separate, unabhĂ€ngige Gebots-Strategien fĂŒr jede Kohort-Kampagne – auch mit identischen tROAS-Zielen. Smart-Bidding-Strategien teilen Performance-Signale ĂŒber Kampagnen, die eine Strategie teilen, was dazu fĂŒhrt, dass der Algorithmus das Budget zur besser-performenden Kohort umverteilt und die Varianten-Ergebnisse aufblaht. Dupliziere die Strategie statt sie zu teilen.

MagicFeedPro Team

Feed Optimization Practitioners

We're a team of e-commerce and paid-search practitioners who have spent the last decade running Google Shopping campaigns at scale. We write about what actually moves the needle on product feed quality, CTR, and conversion.

Verwandte Artikel