Le test de flux Google Shopping est l'une des activitĂ©s Ă  fort effet de levier qu'une Ă©quipe de performance peut mener — pourtant la plupart des marques le traitent comme « dĂ©ployer un changement, regarder le tableau de bord pendant une semaine, et choisir le gagnant au feeling ». Ce n'est pas un test ; c'est du bruit. Les Ă©quipes Shopify Plus gĂ©rrant des budgets Shopping de 50 000 €+/mois ont adoptĂ© une mĂ©thode 3 cohortes avec label personnalisĂ© qui isole les variables de flux avec suffisamment de puissance statistique pour attribuer des gains CTR de 8–15% par trimestre Ă  des changements de titre et d'attribut spĂ©cifiques — avant de modifier le catalogue complet.

Pourquoi les « expériences » PMax standard manquent les variables au niveau du flux

Les expĂ©riences au niveau de la campagne Performance Max — l'onglet « ExpĂ©rience » dans Google Ads — partagent le budget entre deux configurations de campagne. Ce qu'elles ne peuvent pas faire, c'est isoler un changement de flux comme variable indĂ©pendante. Lorsque vous modifiez un titre de produit Ă  l'Ă©chelle du catalogue, puis lancez une expĂ©rience PMax, vous avez dĂ©jĂ  contaminĂ© les deux groupes : chaque impression diffuse maintenant le nouveau titre, et le groupe de contrĂŽle n'existe plus.

La propre documentation des expĂ©riences Merchant Center de Google reconnaĂźt implicitement cette lacune : les types d'expĂ©riences supportĂ©es couvrent l'enchĂ©rissement, les Ă©lĂ©ments crĂ©atifs et les expansions d'URL — pas les attributs de flux. Cela signifie qu'une réécriture de titre, un changement de prĂ©fixe de marque ou le dĂ©placement d'attributs matĂ©riels Ă  la position 2 d'une chaĂźne de titre ne peut pas ĂȘtre testĂ© nativement dans l'interface Ads.

La consĂ©quence est bien rĂ©elle : de l'argent laissĂ© sur la table. Dans un catalogue de 2 400 SKU, si vous dĂ©ployez un changement de format de titre basĂ© sur un raisonnement anecdotique et qu'il sous-performe de 6% CTR, vous avez dĂ©gradĂ© chaque impression Shopping sur ce catalogue sans aucune capacitĂ© Ă  inverser-attribuer la baisse. Vous pourriez ne pas le remarquer pendant 3–4 semaines — assez longtemps pour qu'un examen trimestriel peint une fausse image. Avant de s'engager Ă  tout changement Ă  l'Ă©chelle du catalogue, il vaut la peine d'auditer votre flux pour les lacunes d'attributs qui pourraient introduire des variables confondantes dĂšs le dĂ©part.

Les trois variables que les expériences PMax contrÎlent réellement

Les expĂ©riences PMax gĂšrent : (1) les groupes d'Ă©lĂ©ments crĂ©atifs, (2) les variantes de stratĂ©gie d'enchĂ©rissement intelligent (tROAS vs. Maximiser la valeur de conversion), et (3) les bascules d'expansion d'URL. Les signaux au niveau du flux — titres, descriptions, types de produits, codes-barres, labels personnalisĂ©s — sont en amont de l'enchĂšre. Ils dĂ©terminent pour quelles requĂȘtes vos annonces sont admissibles Ă  entrer, pas seulement comment vous enchĂ©rissez. Tester Ă  la mauvaise couche rĂ©pond Ă  la mauvaise question.

La méthode 3 cohortes : Segmentation par label personnalisé

La mĂ©thode 3 cohortes avec label personnalisĂ© est l'approche la plus fiable pour isoler les variables de flux dans un environnement Shopping actif. Elle utilise trois cohortes dĂ©finies par custom_label_0 (ou quel que soit le crĂ©neau d'Ă©tiquette libre dans votre flux). Étiquetez votre pool de SKU comme control, variant_a et holdout avant de toucher Ă  des titres ou attributs. Le groupe holdout — gĂ©nĂ©ralement 20% des SKU — reste intact et s'exĂ©cute via les mĂȘmes campagnes sans aucune modification, vous donnant une rĂ©fĂ©rence qui reprĂ©sente les changements de saisonnalitĂ© externes.

Voici la formule d'allocation de cohorte que nous avons validée sur plusieurs comptes Shopify Plus :

CohorteValeur du label% SKUObjectif
ContrĂŽletest_ctrl40%Attributs de flux originaux, fonctionnement normal
Variante Atest_var_a40%Titres/attributs modifiés en test
Holdouttest_hold20%Inchangé ; correction de saisonnalité/marché

L'assignation de labels personnalisés à grande échelle nécessite un flux supplémentaire plutÎt que d'éditer votre flux principal. Dans votre compte Merchant Center, créez un flux supplémentaire mappé à id + custom_label_0 uniquement. Cela garde votre flux principal propre et vous permet de permuter les valeurs de label par programmation via l'API Content sans rechargement complet du flux.

Une fois les labels assignĂ©s, segmentez vos campagnes Shopping ou PMax par label en utilisant les filtres de produits au niveau de la campagne. ContrĂŽle et Variante A reçoivent des budgets identiques, des stratĂ©gies d'enchĂ©rissement identiques et des groupes d'Ă©lĂ©ments identiques. La seule variable qui diffĂšre est ce qui se trouve dans le flux. Si vous avez plus d'une campagne Shopping, vous devez gĂ©rer la contamination croisĂ©e — plus Ă  ce sujet dans une section ultĂ©rieure.

Pour les Ă©quipes utilisant le moteur de réécriture IA de MagicFeed Pro, le workflow d'optimisation de flux IA peut gĂ©nĂ©rer des titres de variante pour votre cohorte de test en masse tout en laissant les titres de contrĂŽle inchangĂ©s — une Ă©tape qui prenait autrefois une journĂ©e complĂšte de travail sur feuille de calcul.

Définir les seuils de significativité statistique (Mathématiques de la taille d'échantillon)

ExĂ©cuter un test pendant 14 jours et dĂ©clarer un gagnant basĂ© sur une diffĂ©rence CTR de 3% est comment les marques se trompent elles-mĂȘmes. Avant de lancer un test de flux, calculez l'effet minimum dĂ©tectable (EMD) et la taille d'Ă©chantillon requise en utilisant votre volume de clic de rĂ©fĂ©rence. Faire correctement cette Ă©tape est ce qui sĂ©pare un rĂ©sultat dĂ©fendable d'un choix au feeling dĂ©guisĂ© en donnĂ©es.

La formule standard, dérivée de la méthodologie du calculateur de taille d'échantillon d'Evan Miller, cible :

  • Puissance statistique : 80% (ÎČ = 0,20)
  • Niveau de significativitĂ© : 95% (α = 0,05, bilatĂ©ral)
  • EMD : le plus petit gain CTR digne d'ĂȘtre actif (gĂ©nĂ©ralement 5–8% relatif pour les tests de flux)

Pour un CTR de rĂ©fĂ©rence de 1,2% et un EMD de 6% relatif (c'est-Ă -dire que vous voulez dĂ©tecter un gain jusqu'Ă  1,27% ou plus), vous avez besoin d'environ 18 400 impressions par cohorte. À un rythme typique d'impressions de campagne Shopping de 1 500 impressions/jour par cohorte Ă  ce niveau de budget, c'est un minimum de 12 jours — pas 7, et pas l'habitude « vĂ©rifions vendredi aprĂšs-midi » que la plupart des Ă©quipes suivent.

Ne terminez jamais un test de flux le week-end ou ne l'Ă©courter pendant une pĂ©riode promotionnelle. Les week-ends de vacances, les ventes Ă©clair et mĂȘme les promotions des concurrents changent les lignes de base CTR de 15–30%, invalidant la comparaison. Choisissez une fenĂȘtre de 14 jours qui s'Ă©tend sur deux semaines calendaires complĂštes sans promotions programmĂ©es de chaque cĂŽtĂ©.

Pour les Ă©quipes avec des catalogues plus petits (moins de 500 SKU par cohorte) ou des catĂ©gories Ă  faible trafic, les mathĂ©matiques produisent souvent des fenĂȘtres requises de 21–28 jours. C'est inconfortable mais correct. ArrĂȘter un test au jour 10 avec p = 0,08 n'est pas « tendant vers la significativitĂ© » — c'est un test sous-alimentĂ© avec une conclusion pile ou face.

La mĂ©trique principale pour les tests de flux doit ĂȘtre CTR au niveau des impressions (clics Ă· impressions), pas le taux de conversion. Le taux de conversion introduit des variables en aval — expĂ©rience de landing page, compĂ©titivitĂ© des prix, disponibilitĂ© du stock — qui sont hors du contrĂŽle du flux. Isolez le travail du flux : obtenir le clic.

Étude de cas : Test de format de titre sur 2 400 SKU (fenĂȘtre de 14 jours)

Une marque de vĂȘtements Shopify Plus gĂ©rrant environ 65 000 €/mois sur Google Shopping a menĂ© un test de format de titre au Q1 2026 en utilisant la mĂ©thode 3 cohortes dĂ©crite ci-dessus. La variable de test Ă©tait la structure de titre : ContrĂŽle utilisait le titre produit Shopify par dĂ©faut (Marque + Nom du produit + Couleur), tandis que Variante A restructurĂ©e en Marque + Genre + CatĂ©gorie de produit + Attribut clĂ© + Couleur — un format qui met en avant les signaux d'intention de recherche. Ce type de réécriture de titre structurĂ© est l'un des changements documentĂ©s les plus impactants en optimisation de titre de produit pour Google Shopping.

Résultats aprÚs 14 jours sur 2 400 SKU (800 par cohorte) :

MétriqueContrÎleVariante AGain
Impressions312 400308 900—
Clics3 7484 271+13,9%
CTR1,20%1,38%+15,0%
Taux de conv.2,14%2,19%+2,3% (ns)
Valeur p——0,003

Le gain CTR de 15% a dĂ©passĂ© le seuil de confiance Ă  95% confortablement (p = 0,003). L'amĂ©lioration du taux de conversion n'Ă©tait pas statistiquement significative — ce qui Ă©tait attendu, car le test a seulement changĂ© le flux, pas la landing page. L'Ă©quipe a dĂ©ployĂ© les titres de Variante A sur les 1 600 SKU restants et a vu le gain se maintenir Ă  moins de 2 points de pourcentage sur les 30 jours suivants.

Publiez votre conception de test — taille de cohorte, EMD, durĂ©e — avant de dĂ©marrer l'expĂ©rience. Les Ă©quipes qui prĂ©-enregistrent leurs critĂšres de rĂ©ussite sont beaucoup moins susceptibles de se livrer au « p-hacking » (arrĂȘter le test quand le nombre semble bon). Une feuille Google partagĂ©e avec l'hypothĂšse, les mĂ©triques et le seuil verrouillĂ© avant le jour 1 prend moins de 20 minutes et s'amortit Ă  chaque fois que le rĂ©sultat est ambigu.

Vous pouvez explorer des exemples supplémentaires d'impact de format de titre sur différents secteurs dans les études de cas d'optimisation de MagicFeed Pro, incluant une marque de meubles qui a testé l'ordre d'attributs sur 5 400 SKU et récupéré une chute CTR de 19% causée par un remaniement de flux antérieur non testé.

Éviter la contamination croisĂ©e dans les campagnes Shopping partagĂ©es

La contamination croisĂ©e est la raison la plus courante pour laquelle les tests de flux Ă©chouent silencieusement. Elle se produit lorsque les SKU de contrĂŽle et variante concourent dans le mĂȘme groupe d'annonces ou lorsque l'algorithme d'enchĂ©rissement intelligent de Google redistribue le budget vers la cohorte qui semble mieux performer au cours du test. L'Ă©limination de ces vecteurs avant le lancement est non nĂ©gociable.

Trois vecteurs spécifiques de contamination à éliminer avant le lancement :

1. Groupes d'annonces partagĂ©s. Si les deux cohortes se trouvent dans le mĂȘme groupe d'annonces, Google donnera automatiquement la prioritĂ© Ă  la cohorte Ă  CTR plus Ă©levĂ© au fur et Ă  mesure de la progression du test, gonflant la part d'impressions de la variante au dĂ©triment du contrĂŽle. Le filtre de label personnalisĂ© au niveau de la campagne (pas au niveau du groupe d'annonces) est la correction structurelle.

2. Fuite d'apprentissage de l'enchĂ©rissement intelligent. Les stratĂ©gies tROAS et Maximiser la valeur de conversion partagent un pool de signaux de performance sur les campagnes du mĂȘme compte. Un changement de stratĂ©gie d'enchĂ©rissement dĂ©clenchĂ© par la performance de Variante A peut se traduire par un comportement d'enchĂ©rissement de campagne ContrĂŽle dans les 48–72 heures. Utilisez des stratĂ©gies d'enchĂ©rissement sĂ©parĂ©es et indĂ©pendantes pour chaque cohorte — mĂȘme si cela signifie des cibles tROAS identiques dupliquĂ©es sur deux campagnes.

3. Chevauchement des listes de remarketing. Si vos campagnes Shopping utilisent des signaux d'audience qui chevauchent entre cohortes (courant avec des listes larges de premiĂšre partie), les utilisateurs qui ont vu des annonces ContrĂŽle peuvent ĂȘtre reciblĂ©s par des impressions Variante A, mĂ©langeant les donnĂ©es d'exposition. Segmentez vos audiences RLSA par rĂ©cence d'achat et excluez les segments Ă  plus haute rĂ©cence des deux campagnes de test pendant la fenĂȘtre d'exĂ©cution.

Pour les comptes avec des structures multi-campagnes complexes, la documentation du canal Google Shopping de Shopify couvre comment les architectures de flux supplĂ©mentaires interagissent avec les filtres de produits de campagne — des contextes utiles lors de la conception de hiĂ©rarchies de labels sur 10+ campagnes actives.

Outils : ModĂšle Google Sheets + Workflow API Merchant Center

Un test de flux fiable rĂ©ussit ou Ă©choue en fonction de son Ă©chafaudage opĂ©rationnel. L'assignation manuelle de labels sur des milliers de SKU est sujette Ă  erreur ; de mĂȘme, vĂ©rifier manuellement la significativitĂ© chaque matin. Voici l'empilement minimal d'outils qui s'Ă©chelonne sans Ă©quipe d'ingĂ©nierie des donnĂ©es.

Assignation de cohorte (Google Sheets + IMPORTDATA) : Maintenez une liste maĂźtre de SKU avec une colonne cohort. Utilisez =RANDBETWEEN(1,100) Ă  l'assignation initiale avec un seuil (1–40 = contrĂŽle, 41–80 = variante, 81–100 = holdout) — mais de maniĂšre critique, collez les valeurs immĂ©diatement aprĂšs la gĂ©nĂ©ration pour geler l'assignation alĂ©atoire. Les cohortes qui se rĂ©gĂ©nĂšrent Ă  chaque ouverture de feuille produisent des assignations diffĂ©rentes chaque jour, corrompant le test.

Flux supplĂ©mentaire (API Content Merchant Center) : Utilisez l'API Content Merchant Center pour pousser les mises Ă  jour custom_label_0 depuis votre assignation Sheets via un script Apps Script lĂ©ger ou un script Python. Cela Ă©vite le dĂ©calage de traitement de flux de 24 heures associĂ© aux chargements de flux supplĂ©mentaires manuels et vous donne un contrĂŽle de label quasi en temps rĂ©el — critique quand vous avez besoin de pause une cohorte en raison d'une anomalie.

Suivi de la significativité (Apps Script + formule evanmiller.org) : Répliquez la formule du test z à deux proportions directement dans Sheets. Récupérez les données d'impressions et de clics quotidiennes depuis l'API Google Ads dans un tableau en cours d'exécution. La formule du test z pour deux proportions :

z = (p1 - p2) / sqrt(p_pool * (1 - p_pool) * (1/n1 + 1/n2))

oĂč p_pool = (x1 + x2) / (n1 + n2). Signalez la colonne de valeur p en rouge quand p > 0,05 et en vert quand p ≀ 0,05 — une vĂ©rification visuelle de deux secondes remplace une matinĂ©e d'analyse manuelle.

Avant de lancer un test, exĂ©cutez votre flux via l'outil d'audit de flux MagicFeed Pro pour identifier les lacunes d'attributs qui pourraient introduire des variables confondantes — un size_type manquant sur 30% de SKU de variante, par exemple, supprimerait l'admissibilitĂ© de ces SKU pour les requĂȘtes filtrĂ©es par taille et fausserait Ă  la baisse le CTR de Variante A.

L'ensemble du workflow — modĂšle Sheets, Apps Script pour la synchronisation API et suivi de la significativitĂ© — peut ĂȘtre configurĂ© en environ 3 heures pour une Ă©quipe qui a dĂ©jĂ  l'accĂšs API configurĂ©. C'est un investissement unique qui rend chaque test ultĂ©rieur plus rapide et plus dĂ©fendable pour les parties prenantes qui veulent voir les mathĂ©matiques avant d'approuver un dĂ©ploiement Ă  l'Ă©chelle du catalogue.


Combien de temps un test A/B de flux Google Shopping doit-il durer ?
La plupart des tests de flux nĂ©cessitent un minimum de 14 jours — deux semaines calendaires complĂštes — pour atteindre 80% de puissance statistique Ă  un niveau de confiance de 95% avec une ligne de base CTR typique de 1–2%. Les catalogues plus petits ou les catĂ©gories Ă  faible trafic peuvent avoir besoin de 21–28 jours. Ne raccourcissez jamais un test pendant des pĂ©riodes promotionnelles ; les week-ends de vacances seuls peuvent changer les lignes de base CTR de 15–30%.
Puis-je utiliser les expériences de campagne PMax pour tester les changements de flux de produit ?
Non. L'outil d'expĂ©rience Performance Max de Google teste les stratĂ©gies d'enchĂ©rissement, les groupes d'Ă©lĂ©ments crĂ©atifs et l'expansion d'URL — pas les attributs de flux. Changer vos titres de produits Ă  l'Ă©chelle du catalogue puis exĂ©cuter une expĂ©rience PMax contamine les deux groupes car le groupe de contrĂŽle n'existe plus. Les tests au niveau du flux nĂ©cessitent une mĂ©thode de cohorte avec label personnalisĂ© en dehors de l'interface d'expĂ©rience Ads native.
De quelle taille d'échantillon ai-je besoin pour un test de split flux statistiquement valide ?
Pour un CTR de référence de 1,2% et un effet minimum détectable de 6% relatif, vous avez besoin d'environ 18 400 impressions par cohorte, selon la formule du test z à deux proportions. Utilisez le calculateur de taille d'échantillon d'Evan Miller (evanmiller.org) avec 80% de puissance et α = 0,05 bilatéral pour calculer votre exigence spécifique avant de démarrer.
Quelle est la meilleure métrique principale à mesurer dans un test de flux shopping ?
Le CTR au niveau des impressions (clics Ă· impressions) est la mĂ©trique principale correcte pour les tests de flux. Le taux de conversion introduit des variables en aval hors du contrĂŽle du flux — expĂ©rience de landing page, tarification, disponibilitĂ© du stock — qui obscurcissent si le changement de flux lui-mĂȘme a provoquĂ© la diffĂ©rence. Isolez le travail du flux : obtenir le clic qualifiĂ©.
Comment je peux prévenir l'enchérissement intelligent de contaminer mes cohortes de test de flux ?
Utilisez des stratĂ©gies d'enchĂ©rissement sĂ©parĂ©es et indĂ©pendantes pour chaque campagne de cohorte — mĂȘme avec des cibles tROAS identiques. Les stratĂ©gies d'enchĂ©rissement intelligent partagent les signaux de performance sur les campagnes qui partagent une stratĂ©gie, ce qui fait que l'algorithme redistribue le budget vers la cohorte la plus performante au cours du test et gonfle les rĂ©sultats de la variante. Dupliquez la stratĂ©gie plutĂŽt que de la partager.

MagicFeedPro Team

Feed Optimization Practitioners

We're a team of e-commerce and paid-search practitioners who have spent the last decade running Google Shopping campaigns at scale. We write about what actually moves the needle on product feed quality, CTR, and conversion.

Articles liés