Spec accb-v1 · 3 Modelle bewertet
Welches AI-Coding-Modell baut den besseren Online-Shop?
ACCB ist ein standardisierter One-Shot-Benchmark für eCommerce: Jedes Modell bekommtdenselben Prompt, einen Durchlauf, kein Nachfragen. Die Bewertung läuft vollautomatisch und agentisch — objektive Metriken (Lighthouse, axe-core, DOM-Probes) plus ein Vision-Judge. Ergebnisse sind in Sekunden visuell vergleichbar.
Der feste Benchmark-Prompt ansehen
Entwickle die Produktdetailseite eines Premium-Online-Shops für das Jahr 2030. Das Design soll hochwertig wirken, modernste UX bieten und bereits für Agentic Commerce optimiert sein. Implementiere mindestens: - Produktgalerie mit Bild-Zoom - Farbvarianten - Größenwahl - Live-Lagerbestand - Dynamischer Preis inklusive Rabatt - Sticky Buy Box - Produktbewertungen - Cross-Selling-Produkte - AI-Kaufberatung / Shopping-Assistent - Mobile First - Flüssige Micro-Animationen - Dark Mode - Vollständige Accessibility (WCAG AA) - Saubere SEO (Meta-Tags, semantisches HTML, strukturierte Daten) - Performance-orientiert (Ziel: Lighthouse > 95) OUTPUT-VERTRAG (verbindlich): - Liefere eine einzige, lauffähige, statische Web-App im aktuellen Arbeitsverzeichnis. - Einstiegspunkt ist eine Datei `index.html` im Wurzelverzeichnis. - Eigenes CSS und JavaScript (gerne in separate Dateien, aber relativ verlinkt). - KEINE externen Design-Bibliotheken, CSS-Frameworks oder CDN-Abhängigkeiten (kein Tailwind, Bootstrap, Shadcn, jQuery, Font-CDNs etc.). Alles muss offline laufen. - Kein Build-Schritt: Die App muss durch Ausliefern des Ordners über einen statischen Webserver funktionieren. - Du darfst eigenständig sinnvolle Features, Microcopy und Design-Details ergänzen. Es gibt keine Rückfragen und nur einen einzigen Durchlauf. Beginne sofort mit der Umsetzung.
Leaderboard
| # | Modell | Total | Agent | Functional | Perf | A11y | SEO | Features |
|---|---|---|---|---|---|---|---|---|
| 1 | GPT-5.5 | 101.9 | 74 | 17/20 | 98 | 100 | 91 | 16/20 |
| 2 | GLM 5.2 | 98.8 | 77 | 19/20 | 96 | 85 | 100 | 18/20 |
| 3 | Cursor Composer 2.5 | 90.5 | 74 | 17/20 | 95 | 89 | 100 | 17/20 |
Ergebnisse
#1GPT-5.5
101.9Herausragend durchdachte, eigenstaendige Agentic-Commerce-PDP mit starker Informationsarchitektur, Live-Variantenlogik und durchgaengigem Premium-Dark-Design; Abzuege fuer fehlende echte Produktfotos, kein Warenkorb/Search in der Navigation und eingeschraenkte Mobile-Nav.
#2GLM 5.2
98.8Sehr durchdachte Premium-PDP mit Gold/Dark-Design, vollständiger Buy-Box, KI-Assistent und starkem SEO/A11y-Fundament; Abzüge für SVG-Platzhalter statt Produktfotos, fehlende Mobile-Navigation und nicht funktionierende Suche.
#3Cursor Composer 2.5
90.5Solide, durchdachte PDP mit starkem UX-Grundgerüst (Sticky Buy Box, Varianten, Reviews, Dark Mode, KI-Assistent) und guter technischer Basis inkl. Schema.org und A11y-Patterns. Premium-Anspruch und Wow-Faktor scheitern vor allem an generischen SVG-Platzhalterbildern und fehlenden Standard-Features wie Suche, Mobile-Navigation und Wishlist.