Data never lies

Torneo Sei Nazioni, un data scientist annoiato fresco di dottorato, la ventesima stagione sportiva già buttata nel cesso per una simpatica ernia e l’ennesimo San Valentino passato da single. Gli ingredienti perfetti che hanno scatenato la creatività del nostro Michelino Camioncino.

Ma scendiamo più nel dettaglio. In seguito alla prestazione degli Azzurri di sabato a Twickenham, pare ci sia stato un lieve tepore per quanto riguarda la prestazione dell’Italia. Spinti dallo spirito critico e dall’amore per la scienza (dei dati) ci siamo dunque ingegnati per analizzare da un profilo prettamente matematico quello che è accaduto sul campo d’altronde:

Data may disappoint, but it never lies.

Jay Samit, ex vice presidente Deloitte

Raccolta dei dati

Per prima cosa ci siamo dovuti procurare i dati in real-time delle performance dei giocatori durante il match. Il nostro ingegnere ha dunque tirato su una baracca che si collega a www.rugbypass.com, un sito che pubblica per ogni match le statistiche in tempo reale. Tale software raccoglie ogni minuto le performance dei giocatori. Ripetendo tale operazione per tutti gli 80 minuti si hanno le analisi cumulative sugli 80 minuti di gioco.

C’è da precisare che, essendo analisi cumulative, tutti i dati devono per forza presentare un andamento crescente, ma per qualche ragione la fonte dei dati talvolta potrebbe generare outliers che rompono l’andamento crescente. Per questo, in fase di post-raccolta, tali dati vengono cancellati aggiungendo dati fittizi che interpolano il buco dei dati dovuto agli errori della fonte. Ma questo è più che altro una doverosa precisazione scientifica, più che una nota necessaria a capire le analisi. Dunque non preoccupatevi: se non avete capito, passate oltre.

Validità dei dati

Per prima cosa cerchiamo di capire se i dati raccolti hanno senso. In figura 1 si può vedere l’andamento del punteggio. In particolare sull’asse orizzontale del grafico vi è il minuto di gioco, e sull’asse verticale il punteggio a quel minuto di gioco.

Figura 1

Come si può vedere la linea rossa (Inghilterra) e la linea blu (Italia) saturano a punteggio finale, confermando dunque che i dati potrebbero avere senso. Ovviamente chi ha scritto il software non è poi così bravo, ed ha fatto partire la raccolta dati solo al 25′, motivo per il quale i grafici non partono dal primo minuto.

Prestazioni collettive

Diamo ora uno sguardo a quelle che sono le performance collettive di squadra.

In figura 2 si analizzano i metri corsi palla in mano da entrambe le squadre. L’Inghilterra ha portato palloni due volte rispetto all’Italia. Per ogni metro in avanzamento italiano, gli inglesi ne hanno fatti due. Si noti come ci sia una ripida salite tra il 50′ e il 55′. Qui gli inglesi hanno premuto sull’acceleratore ed infatti, si è arrivati ad una marcatura poco prima del 60′.

Figura 2

Analizziamo ora la mole di gioco: il numero di passaggi effettuati dalle due nazioni rappresentati in figura 3. Di nuovo gli inglesi hanno mosso di più il pallone, specialmente tra il 25′ e il 40′ (quando sono arrivate altre due marcature). Sembra che il pallino della gara dunque l’abbiano sempre avuto loro.

Figura 3

Tale intuizione è confermata dai grafici sottostanti: gli italiani hanno placcato di più (figura 4a), quasi il doppio degli inglesi, ma il grafico in figura 4b successivo suggerisce come siamo stati imprecisi in difesa, ben 19 placcaggi sbagliati contro 4 inglesi. In particolare i bianchi hanno una probabilità d’errore del 6% in difesa, che sale a 9% per gli azzurri.

figura 4a
figura 4b

La cosa che fa storcere di più il naso sono stati i turnovers, cioè il cambio del possesso palla dovuto ad una infrazione di gioco. Bene guardando figura 5, gli inglesi ci hanno dato la palla 13 volte. E se si guarda il grafico, al minuto 50, ci avevano dato ben 11 palloni al contrario dei 4 che avevamo dato noi!

Figura 5

Dunque dove sono finiti tutti questi palloni? Calciati, come dimostra il grafico in figura 6 sottostante. Le due linee si vanno poi a congiungere verso la fine dal match: quando la partita non aveva più nulla da dire e non aveva più senso calciare.

Figura 6

Guardando le prestazioni collettive, dunque si può capire come gli inglesi siano stati più dominanti grazie a un maggior possesso palla, seppur viziato da diversi turnovers, comunque controbilanciati dalla ricezione di “troppi” calci tattici.

Prestazioni per giocatore

Analizziamo ora quelle che sono state le performance per giocatore. Vediamo i nostri primi 8: i grafici sottostanti mostrano come la nostra mischia non abbia portato palloni avanti (figura 7a), forse in seguito al troppo dispendio energetico dovuto all’ingente impegno richiesto in difesa come visto nel più grande numero di placcaggi in figura 7b. Anche se gli zero metri palla in mano di alcuni giocatori fanno un po’ storcere il naso.

Figura 7a
Figura 7b

Si può dunque asserire che il pack inglese sia stato più fresco rispetto a quello italiano. Questo si riflette anche sulla quantità di palloni giocabili arrivati al 9. In particolare il grafico sottostante sulla in figura 8a mostra come a Varney siano arrivati meno palloni (fase di conquista meno solida e in generale meno possesso). E quei pochi palloni che sono arrivati a Garbisi che fine hanno fatto? Di fatto calciati come il grafico in figura 8b dimostra: Garbisi ha calciato circa il doppio dei palloni di Ford, di fatto ridando palla agli inglesi.

Figura 8a
Figura 8b

Conclusioni

I dati dimostrano appunto come un’Inghilterra sprecona (12 turnovers contro 10, e ad inizio primo tempo sull’11-4) non sia stata sufficiente a far vincere l’Italia che ha passato la partita in difesa (il doppio dei placcaggi) e a ridare la palla agli avversari (Garbisi che fa il doppio dei calci di Ford).

Non abbiamo idea di cosa serva per aggiustare tutto ciò, anche se siamo puntigliosi pirati, ma possiamo offrire uno spunto di riflessioni scevro di sentimentalismi e tifo: Data never lies. Purtroppo.


3 thoughts on “Data never lies

  1. le statistiche sono come un bikini, fa vedere tanto ma non tutto !
    Gl avantii inglesi erano molto più fresco perché non hanno mai contestato una ruck !

    1. Esatto, come i dati fanno vedere gli inglesi hanno risparmiato energie placcando decisamente di meno 🙂

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *