Modelli scientifici#
I modelli sono descrizioni semplificate di un dato sistema o processo che, per qualche motivo, ci interessa. Queste descrizioni sono deliberatamente progettate per catturare solo gli aspetti più rilevanti del sistema e non per spiegare ogni minimo dettaglio. Questo è uno dei motivi per cui un modello più complesso non è sempre migliore. Esistono molti tipi diversi di modelli; in questo corso, ci limiteremo ai modelli Bayesiani.
Il processo di modellazione Bayesiana può essere riassunto in tre passaggi:
Dati alcuni dati e alcune ipotesi su come questi dati potrebbero essere stati generati, progettiamo un modello combinando blocchi di costruzione noti come distribuzioni di probabilità. La maggior parte delle volte questi modelli sono approssimazioni grossolane, ma nella maggior parte dei casi è tutto ciò di cui abbiamo bisogno.
Utilizziamo il teorema di Bayes per aggiungere dati ai nostri modelli e derivare le conseguenze logiche della combinazione dei dati e delle nostre ipotesi. Diciamo che stiamo condizionando il modello sui nostri dati.
Valutiamo il modello e le sue previsioni, secondo diversi criteri, inclusi i dati, la nostra competenza sull’argomento e talvolta mediante il confronto con altri modelli.
In generale, ci troveremo a eseguire questi tre passaggi in modo iterativo e non lineare. Potremmo ritracciare i nostri passi in qualsiasi momento: forse abbiamo commesso un banale errore di codifica, o abbiamo trovato un modo per cambiare il modello e migliorarlo, o ci siamo resi conto che dobbiamo aggiungere più dati o raccogliere un tipo di dati diverso.
I modelli Bayesiani sono anche noti come modelli probabilistici perché sono costruiti utilizzando le probabilità. Perché le probabilità? Perché le probabilità sono uno strumento molto utile per modellare l’incertezza; abbiamo anche buoni argomenti per affermare che sono il concetto matematico corretto.
Nel contesto della data science e della statistica, dunque, un modello rappresenta un modo formalizzato per interpretare e prevedere fenomeni basati su dati osservati. Questi modelli sono fondamentali perché offrono una struttura per comprendere le complesse relazioni che esistono nella realtà, sebbene attraverso una necessaria semplificazione.