UNIMIB - 2021/2022

Vogliamo film più brevi?

Un progetto di Fabrizio Cominetti (882737), Davide Abete (882299), Agazzi Ruben (844736)

Introduzione

Nella società odierna, i servizi e i prodotti, specialmente quelli digitali ma non solo, competono per ottenere l'attenzione degli utenti in misura sempre maggiore. I social media, ad esempio, hanno proprio l'obiettivo di far trascorrere il maggiore tempo possibile agli utenti sulle proprie piattaforme. In generale, vi è una sensazione condivisa di avere tempo sempre più limitato, a causa del bombardamento di informazioni a cui siamo sottoposti, la rapida crescita delle informazioni disponibili causa un depotenziamento dell'attenzione. Molti esperti sostengono che oggi il fattore limitante non è più l'informazione, ma proprio l'attenzione.[1]

La tendenza citata è rinvenibile anche nel mondo della musica, caratterizzato da canzoni sempre più brevi e costruite in modo da catturare nell'immediato l'attenzione del consumatore. Secondo un'analisi condotta dal data scientist Michael Tauberg, questo trend è osservabile da almeno due decadi, indipendentemente dal genere musicale. La mediana corrispondente alla durata delle canzoni nella famosa classifica Billboard Hot 100 è scesa da oltre quattro minuti nel 2000 ad una durata di circa tre minuti e mezzo nel 2018. Nell'ultimo periodo inoltre, il numero di canzoni nella stessa classifica di durata inferiore ai due minuti e trenta è aumentato dall'1% nel 2015 ad oltre il 6% nel 2018. Tra le cause principale possiamo trovare sicuramente l'avvento dello streaming, ma possiamo concludere che anche nel mondo della musica, gli artisti 'combattono' l'attention span attraverso la produzione di canzoni più brevi.[2]

Nel mondo cinematografico è invece indiscutibile la crescita esponenziale avvenuta nella produzione di serie tv negli ultimi anni. Basta prendere le serie tv presenti nel dataset selezionato, raggrupparle per anno di uscita e osservare come si passi dalle 3500 del 2003, alle oltre 10000 del 2020.

I video sono diventati uno dei campi di battaglia più battuti per catturare l'attenzione degli acquirenti, scatenando una vera e propria corsa agli investimenti tra le aziende di media e comunicazioni. Diverse aziende stanno effettuando enormi investimenti per costruire nuove piattaforme streaming di tipo D2C (direct-to-consumer), come ad esempio Disney di recente con Disney +. Ma la concorrenza per l'attenzione degli acquirenti si estende oltre il solito ambito dello streaming. Un'ampia gamma di concorrenti (detti “attention challengers”), tra cui compaiono i social media e le società di gaming, stanno catturando in misura sempre più ampia l'attenzione degli acquirenti.[1]

Dunque, in una realtà come quella odierna, in cui si producono sempre più contenuti digitali per un pubblico sempre più ampio che reagisce prestando sempre meno attenzione alle informazioni che riceve, e caratterizzata tra le altre cose dalla rapida diffusione delle serie TV in ambito cinematografico, è vero che le persone preferiscono anche film più brevi? Questa considerazione ci ha guidati nella realizzazione di questo progetto e ci ha permesso di determinare la seguente domanda di ricerca: i film più brevi ricevono generalmente voti migliori?

Obiettivo della visualizzazione

L'obiettivo della visualizzazione consiste dunque nell'indagare la correlazione esistente tra il rating dei film e la loro durata, dati entrambi ottenuti dal sito ufficiale di IMDb.

Esplorazione dati

La prima fase di esplorazione dati è stata realizzata per osservare la percentuale di film all'interno del dataset.

Di seguito focalizzeremo la nostra attenzione sulle due variabili di interesse per il nostro obiettivo presenti nel dataset.

Per prima cosa abbiamo preso in considerazione solo i film usciti durante l'anno 2021, e ne abbiamo ristretto il campo selezionando solo i film che hanno ottenuto un minimo di 15000 voti.

A questo punto, abbiamo realizzato due violin plot per analizzarne nel dettaglio la distribuzione. A sinistra osserviamo il violin plot relativo alla variabile 'runtimeMinutes', a destra invece il violin plot relativo alla variabile 'averageRating'.

Visualizzazione finale

La visualizzazione consiste in uno scatter plot avente sull'asse x la durata in minuti dei film e sull'asse y la media dei voti ottenuti su IMDb. Come si può notare dallo scatter plot è presenta una leggera correlazione positiva, il cui valore corrisponde a 0.4 La correlazione visualizzata sembra constrastare l'idea iniziale per cui all'aumentare dei minuti il rating medio dovesse calare. Nella visualizzazione sono identificabili alcuni punti di interesse, enfatizzati da frecce ed etichetta. Il film Zack Snyder's Justice League ad esempio, rappresenta un outlier in quanto ha una durata di 242 minuti.

L'area dei punti indica il numero di voti ottenuti su IMDb. Le dimensioni sono calcolate in base all'area e non in base al diametro. Le righe grigie rappresentano rispettivamente la media dei valori sui due assi, le fasce azzurre rappresentano la deviazione standard dei valori sui due assi, e la retta di colore rosso corrisponde alla retta di correlazione.

Il rating medio NON diminuisce all'aumentare dei minuti

L'area di ciascun punto è proporzionale al numero di voti ottenuti su IMDb.
Il colore diventa più chiaro all'aumentare del numero di voti ricevuti.
Conclusioni

In conclusione, inizialmente avevamo ipotizzato che ad una durata crescente sarebbe corrisposto un rating medio decrescente ma, come abbiamo potuto osservare dalla visualizzazione di cui sopra, la nostra idea iniziale è stata smentita e ribaltata. All'aumentare della durata del film infatti il rating medio tende a salire leggermente, con una correlazione pari a 0,4.

Note Metodologiche

Il processo di raccolta dati è avvenuto scaricando i dataset dal sito web ufficiale di IMDb.
I dati sono stati modellati ed analizzati tramite l'utilizzo delle librerie Pandas e Numpy.
Per quanto riguarda la pulizia dei dati, sono state rimosse dal dataset alcune colonne superflue e altre convertite nella corretta tipologia, per favorirne l'utilizzo. Sono stati rimossi dal dataset i film con durata in minuti pari a 0. Sono poi stati inclusi nel dataset finale solo i film usciti durante il 2021, con almeno 15000 voti ottenuti. A questo punto sono stati gestiti i valori mancanti nelle colonne d'interesse.
La prima visualizzazione consiste in una rappresentazione visiva della percentuale di film all'interno del dataset, la seconda rappresenta la distribuzione della durata in minuti dei film del 2021 e del rating medio, dopo averli filtrati, mentre l'ultima visualizzazione è uno scatter plot che mette in relazione la durata in minuti e il rating ottenuto dai film. Le righe grigie rappresentano la media del rating dei film e della durata dei film, le fasce azzurre rappresentano la deviazione standard del rating dei film e della durata dei film.


Valutazione qualità

La valutazione della qualità è stata effettuata coinvolgendo 3 individui per le considerazioni euristiche, 6 per il test utente e 12 per la compilazione del questionario psicometrico.


Euristiche considerate

In seguito alla fase di valutazione euristica, a cui sono state sottoposte 3 persone, sono emerse le seguenti considerazioni:

  • Le frecce erano inizialmente troppo piccole, sono state quindi rese più grandi.
  • Posizionandosi su un punto dello scatter plot l'informazione riguardante la media dei voti presenta troppe cifre decimali pari a zero.
  • Alcuni punti dello scatter plot sono sovrapposti quando la visualizzazione non è zoommata.


Test utente

Per il test utente sono state considerate le seguenti domande:

  • Qual è il valore massimo di rating dei film considerati? (tempo stimato: 11s)
  • Il film Zack Snyder's Justice league è un outlier? (tempo stimato: 4s)
  • Qual è la durata minima fra i film considerati? (tempo stimato: 6s)
  • Il film The cost of deception è nella fascia di normalità del rating? (tempo stimato: 8s)

Sono stati ottenuti i seguenti risultati:


Questionari psicometrici

Per la valutazione psicometrica della qualità è stato utilizzato il questionario Cabitza-Locoro. In questa fase di valutazione sono state coinvolte 12 persone. I risultati ottenuti sono i seguenti:

Dati utilizzati

Dataset IMDb

Strumenti utilizzati

Python

Bokeh

Plotly

PyWaffle

MatPlotLib

Pandas

Numpy