Vilka andra KPI:er korrelerar bäst med xP förutom xG?

Under året har jag intresserat mig för modelleringen bakom förväntade poäng, xP. Detta efter att ha kodat en egen modell och gått på djupet för att förstå de bakomliggande parametrarna med förvärvade kunskaper från en kurs i sannolikhetsteori på matematikprogrammet. De flesta xP-modeller som finns därute utgår från xG och xGOT som parametrar eftersom det är naturligt att dessa är modeller för matchdominans i form av chansskapande. En sak jag var nyfiken på var om det finns andra parametrar som också ger en rimlig prediktion av förväntade poäng. Hur korrelerar andra nyckeltal (KPI:er) med förväntade poäng, enligt en xP-modell baserat på xG? Och hur jämförs detta med korrelationen faktiska poäng?

Metod

För att undersöka detta samlades data in från Premier League från säsongen 2022/23 (all data via FBRef och Twelve football), där 20 olika KPI:er valdes ut och korrelationsmätning utfördes med xP och poäng. Det finns naturligtvis fler mätvärden att studera, men de som valdes ut var de som ansågs ”intressanta” och där data fanns fritt tillgänglig. Undersökningen testar olika mätvärden inom possession, passningar, carries och avslut mot korrelationen mellan xG och förväntade poäng samt mål och faktiska poäng, i syfte att rangordna och jämföra dessa. Huvudfrågeställningen är: finns det någon parameter som över huvud taget kommer nära xG för xP, och motsvarande för mål och faktiska poäng?

Bakgrund och hypotes

Det är viktigt att förstå skillnaden mellan innebörden i xP och poäng. Poäng mäter resultat och utfall, och xP mäter förväntat resultat utifrån prestation. Poängfördelningen i en match styrs av bollar som faktiskt gick i mål och inte av matchdominans i form av spelövertag på något sätt. Att bollen faktiskt gick i mål eller inte beror till stor del på slumpen. Därmed är det naturligt att det kommer att finnas en skillnad när korrelationsmätningar utförs med parametrarna nedan, eftersom dessa mäter prestation och inte utfall. En grundhypotes är att korrelationen med xP bör vara större för i princip alla mätvärden. För att göra en korrekt hypotesprövning behövs dock mer data: ett stickprov från en säsong kan anses för litet för att en statistiskt säkerställd skillnad skulle upptäckas i data (variansen i data från en säsong är för stort för att stickprovsmedelvärdet från en enskild säsong ska anses representativt).

Resultat

Mätvärdena som studerades och korrelationerna listas i tabell 1, sorterat efter korrelation med xP, från störst till minst, och samma tabell, sorterad efter korrelation med poäng, syns i tabell 2. Korrelationen mäts i ett R2-värde.

KPIR^2 för xPR^2 för PDiff
xG0,92030,7660,1543
xAG0,89390,74540,1485
Box tilt0,84740,67720,1702
Touches i box0,84210,71770,1244
Shot creating actions0,83030,64850,1818
Mål0,81510,76930,0458
Goal creating actions0,81050,77970,0308
Skott0,7960,6120,184
Skott på mål0,79350,66540,1281
Key passes0,77650,59380,1827
Passningar till box0,77520,7210,0542
Progressiva passningar0,70570,55560,1501
Progressiva passes recieved0,70280,55030,1525
Carries till box0,6950,57610,1189
Field tilt0,69440,57250,1219
xT0,69260,56130,1313
Possession0,63160,53520,0964
Passningar till 3/30,58480,46460,1202
Progressiva carries0,54410,45290,0912
Carries till 3/30,51970,45070,069
Tabell 1. Korrelationer sorterade efter korrelation med xP från störst till minst.
KPIR^2 för xPR^2 för PDiff
Goal creating actions0,81050,77970,0308
Mål0,81510,76930,0458
xG0,92030,7660,1543
xAG0,89390,74540,1485
Passningar till box0,77520,7210,0542
Touches i box0,84210,71770,1244
Box tilt0,84740,67720,1702
Skott på mål0,79350,66540,1281
Shot creating actions0,83030,64850,1818
Skott0,7960,6120,184
Key passes0,77650,59380,1827
Carries till box0,6950,57610,1189
Field tilt0,69440,57250,1219
xT0,69260,56130,1313
Progressiva passningar0,70570,55560,1501
Progressiva passes recieved0,70280,55030,1525
Possession0,63160,53520,0964
Passningar till 3/30,58480,46460,1202
Progressiva carries0,54410,45290,0912
Carries till 3/30,51970,45070,069
Tabell 2. Korrelationer sorterade efter korrelation med poäng från störst till minst.

Figur 1 ger en översikt av hur korrelationerna med xP och poäng jämförs.

Figur 1. Stapeldiagram över korrelationerna för att göra skillnaden mer överskådlig.

Diskussion och slutsats

Med xG som referensvariabel för xP ser vi att xAG, expected assisted goals, ger störst korrelation. Detta är naturligt eftersom detta värde räknas fram via xG och direkt beror på xG som parameter, så denna kan bortses från precis som xG. I övrigt ser vi att det egenkomponerade mätvärdet ”box tilt” ger den starkaste korrelationen. Box tilt är ett mätvärde motsvarande field tilt, men räknat i straffområdet – istället för att räkna det ena lagets andel av alla bollberöringar i sista tredjedelen räknas dessa som andelen av alla bollberöringar i boxen. Detta för att även ta hänsyn till antalet touches emot i defensivt straffområde. Korrelationen blev dock mycket lik den som avser endast touches i offensivt straffområde. Detta trots att xP som modell tar hänsyn till både egna lagets och motståndarens xG under säsongen, vilka givetvis beror på kvaliteten på avslutslägen i både offensivt och defensivt straffområde. Att skillnaden i princip är försumbar (brus i data?) förvånande därmed möjligen något. Att det var just dessa som hamnade i topp förvånar dock inte – eftersom xG-värdet för ett avslut till stor del beror på avståndet till mål förvånar det inte att lag som har fler touches i boxen också skapar högre xG. Korrelationen mellan dessa och xP blev till och med starkare för dessa än med faktiska mål. Ingen stor skillnad, som möjligen kan bero på brus samt mängden data, men om denna skillnad faktiskt kan visa sig signifikant vid vidare studium skulle den kunna bero på just den varians och slumpmässighet som finns i faktiska mål som mätvärde.

En annan trend visar att avslutsmätvärden korrelerar bättre än passningsmätvärden. Det är också naturligt eftersom xG direkt beror på hur många avslut som tas, men vi vet inget om kvaliteten på avsluten. Vad vi dock ser bland passningsvärdena är att det är passningar som sätter spelare i farliga lägen som korrelerar bäst, vilket också är rimliga resultat. Nyckelpassningar och passningar till box är värden som beskriver hur ofta man slår passningar som sätter lagen i farliga lägen, som givetvis korresponderar med högre xG. Passningar och carries till sista tredjedelen hamnar lägre, och detta beror möjligen på att dessa inte direkt sätter spelare i farliga lägen, utan det sker ofta flera händelser innan sista aktionen innan avslutet. Dessutom kan bollen passas tillbaka från sista tredjedelen, speciellt av lag som är possessionorienterade.

Studerar vi tabellen över korrelation med faktiska poäng ser vi att alla korrelationer är svagare, det vill säga en positiv differens mellan korrelationen mellan mätvärdet i fråga och xP, jämfört med korrelationen med poäng. Det beror huvudsakligen på det som diskuterades i bakgrunden till undersökningen: poäng beror på utfall och xP beror på prestation (något förenklat). Mätvärdena som studerats mäter prestation, inte utfall (förutom faktiska mål, som användes som referensvariabel). Att skillnaden är som minst för mål och goal creating actions är föga förvånande. En sak som står ut är att passningar till box har en mycket låg differens och hamnar sexa i denna tabell jämfört med elva i den föregående. Vad detta kan bero på har jag inte svaret på, förutom sample-sizen och eventuella brus i data.

Till sist: ett nästa steg är att undersöka hur en xP-modell som består av fler parametrar än bara xG står sig jämfört med faktiska poäng. Bara för att vi, föga förvånande, inte hittade någon annan KPI som korrelerade bättre med faktiska poäng än mål och goal creating actions behöver det inte nödvändigtvis betyda att en sådan modell skulle vara sämre. En sådan modell skulle kunna tänkas ha ett användningsområde under inledande delar av en säsong eller under specifika mindre bitar. Detta då xG-värdena också innehåller stor slumpmässighet och när det då är av mer värde att studera mätvärden som förklarar matchbilden, snarare än xG och mål. Jag rekommenderar denna artikel av matematikprofessorn och fotbollsanalytikern David Sumpter som studerar precis under vilka delar av en säsong man kan tänkas studera xG och faktiska mål som indikatorer på prestation.

4 reaktioner till “Vilka andra KPI:er korrelerar bäst med xP förutom xG?

  1. Intressant, hur högt r2 är det mellan xP och P? Har du funderat på att testa model averaging för att hitta den modell som predicerar P bäst? Vissa av variablerna lär ju överlappa en del tänker jag.

    Gilla

    1. Kul att du läste! För detta datasetet blir R2 mellan xP och poäng 0,833, men det finns självklart varianser från säsong till säsong men siffran kommer ligga där någonstans. Bra tips med model averaging, du har helt rätt. Tack för tipset, det ska jag absolut kolla in!

      Gilla

      1. Intressant att det är lägre än för bara xG, men urvalet är väl rätt litet. Om du gör Bayesean model averaging så får du gärna lägga till det eller göra en ny post. Skulle vara sjukt intressant att se hur en sån analys skulle se ut.

        Gilla

Lämna en kommentar

Designa en webbplats som denna med WordPress.com
Kom igång