✏️ Esercizi

✏️ Esercizi#

Per questi esercizi, useremo i dati tratti da O’Connell, et al. (2021). Reduced social distancing during the COVID-19 pandemic is associated with antisocial behaviors in an online United States sample. PLoS ONE.

import numpy as np
import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt
import statsmodels.api as sm

import pymc as pm
import bambi as bmb
import arviz as az

Intel MKL WARNING: Support of Intel(R) Streaming SIMD Extensions 4.2 (Intel(R) SSE4.2) enabled only processors has been deprecated. Intel oneAPI Math Kernel Library 2025.0 will require Intel(R) Advanced Vector Extensions (Intel(R) AVX) instructions.
Intel MKL WARNING: Support of Intel(R) Streaming SIMD Extensions 4.2 (Intel(R) SSE4.2) enabled only processors has been deprecated. Intel oneAPI Math Kernel Library 2025.0 will require Intel(R) Advanced Vector Extensions (Intel(R) AVX) instructions.

%config InlineBackend.figure_format = 'retina'
%load_ext watermark

RANDOM_SEED = 123
rng = np.random.default_rng(RANDOM_SEED)

plt.style.use("https://raw.githubusercontent.com/NeuromatchAcademy/course-content/main/nma.mplstyle")

Questo studio ha valutato se i comportamenti di distanziamento sociale (all’inizio della pandemia di COVID-19) fossero associati a comportamenti antisociali auto-riferiti. Per misurare un indice del comportamento di distanziamento sociale, ai partecipanti è stata presentata un’immagine di una sagoma di adulto circondata da un bordo rettangolare. È stato chiesto loro di cliccare su un punto nell’immagine che rappresentasse a che distanza solitamente si trovavano dalle altre persone.

Qui è presente una heatmap che mostra a che distanza i partecipanti hanno riportato di stare dalle altre persone nell’ultima settimana, con un colore marrone scuro che indica una maggiore densità di risposte. La coordinata della risposta media, indicata con un +, rappresenta una distanza di circa 98 pollici (2.5 metri).

Figura 1

Leggiamo i dati riportati dagli autori.

df = pd.read_csv("../data/stab.csv")

VSCode tronca l’output stampato sullo schermo. Per elencare tutte le colonne uso la funzione to_string che però si applica solo ai DataFrame.

cols = df.columns

mydf = pd.DataFrame()
mydf["cols"] = cols
print(mydf["cols"].to_string()) 

                               subID
                        mturk_randID
                   suspect_itaysisso
                             Country
                              Region
                                 ISP
                              loc_US
                           loc_state
                         loc_zipcode
                          loc_County
                 loc_2010population
                     loc_Land_Sq_Mi
                loc_Density_Sq_Mile
       loc_Covid_Cases_april_1_2020
                              attn1
                              attn2
                              attn3
                          StartDate
                            EndDate
                           Duration
                         worry_self
                        likely_self
                        health_self
                    likely_lovedone
                    health_lovedone
                     worry_american
                    likely_american
                    health_american
                      highrisk_self
                  highrisk_lovedone
          highrisk_self_or_livewith
                     financial_self
                 financial_american
                 wash_perday_actual
                  wash_perday_ideal
                   socialdistancing
            socialdistancing_for_me
         socialdistancing_for_close
     socialdistancing_for_americans
        socialdistancing_experience
          times_left_house_pastweek
   distance_from_others_feet_lastwe
                  ppe_freq_lastweek
   times_left_house_for_vunerable_p
        think_about_pandemic_perday
         months_expect_gov_measures
                 household_n_people
                           symptoms
                      symptoms_text
                  silhouette_dist_X
                  silhouette_dist_Y
             silhouette_dist_region
                             STAB_1
                             STAB_2
                             STAB_3
                             STAB_4
                             STAB_5
                             STAB_6
                             STAB_7
                             STAB_8
                             STAB_9
                            STAB_10
                            STAB_11
                            STAB_12
                            STAB_13
                            STAB_14
                            STAB_15
                            STAB_16
                            STAB_17
                            STAB_18
                            STAB_19
                            STAB_20
                            STAB_21
                            STAB_22
                            STAB_23
                            STAB_24
                            STAB_25
                            STAB_26
                            STAB_27
                            STAB_28
                            STAB_29
                            STAB_30
                            STAB_31
                            STAB_32
                                sex
                             sex_1f
                                age
                               race
                           hispanic
                          education
                occupational_status
           occupational_status_text
        lefthouse_for_work_lastweek
               coded_lefthouse_work
                   household_income
                       num_children
            relatives_close_under65
             relatives_close_over65
               current_mentalhealth
          current_mentalhealth_text
                 past_mentalhealth
            past_mentalhealth_text
              neurologicaldisorder
         neurologicaldisorder_text
                    drugs_lastweek
               drugs_lastweek_text
                     STAB_physical
                       STAB_social
                 STAB_rulebreaking
                        STAB_total
                    ppe_freq_coded
            household_income_coded
                  income_over60000
                  ppe_freq_coded_2
                      age_centered
                   education_coded
                     education_4yr
               STAB_total_centered
                  STAB_total_min32
           silhouette_dist_X_min81
          silhouette_dist_X_inches
               violated_distancing
         STAB_rulebreak_rmECONOMIC
             STAB_total_rmECONOMIC
    STAB_total_rmECONOMIC_centered
   household_income_coded_centered

Esercizio 1#

a Trovare il numero di righe e di colonne del DataFrame.

df.shape

(131, 126)

(a) Selezionare le colonne “silhouette_dist_X_min81”, rinominandola come “distance”, “STAB_total”, rinominandola come “stab”, e “times_left_house_pastweek”, rinominandola come “times_left_house”. Calcolare il numero di elementi in ciascuno di questi vettori. (b) Utilizzando un ciclo for o una list comprehension, individuare gli indici delle righe in cui la variabile “distance” presenta un valore mancante. (c) Scrivere una funzione che accetti una lista come input e restituisca il conteggio di valori NaN presenti nella lista, fornendo commenti per ciascun passaggio del codice. Sfruttare la proprietà degli NaN secondo cui non sono uguali a se stessi.

value = np.nan
print(value)

nan

value == value

False

Testare la funzione sulle liste “distance”, “stab” e “times_left_house”. (d) Creare una lista di 10 elementi contenente 5 numeri, 2 stringhe e 3 valori NaN. Testare la funzione creata su questa lista. (e) Creare un DataFrame con le variabili “distance”, “stab” e “times_left_house”. Filtrare il DataFrame in modo da escludere dati mancanti. (f) Utilizzando Seaborn, creare un istogramma con KDE sovrapposto per le variabili “times_left_house” e “stab”. Interpretare i grafici. (g) Aggiungere al DataFrame la variabile “is_high_stab”, che assume valore 1 se “stab” è minore o uguale a 80 e 0 altrimenti. Generare due violin-plot, uno per ciascuna modalità di “is_high_stab”, per la variabile “times_left_house”. Commentare i risultati. (h) Calcolare la media, la moda, la deviazione standard e la Deviazione Assoluta dalla Media (MAD) per i due gruppi.

distance = df["silhouette_dist_X_min81"]
stab = df["STAB_total"]
times_left_house = df["times_left_house_pastweek"]

len(distance)

len(stab)

b

nan_indices = [i for i in range(len(distance)) if np.isnan(distance[i])]
print(f"Observations with NaN values: {nan_indices}")

Observations with NaN values: [17, 22, 24, 25, 39, 51, 60, 67, 71, 94]

c

def count_nans(data_list):
    """Count the number of NaNs in a list

    Args:
        data_list (list): A list that contains the observations
    
    Returns:
        int: The number of NaNs found in the list
    """
    nan_count = 0
    
    for value in data_list:
        if value != value:  
            nan_count += 1
        
    return nan_count

count_nans(distance)

count_nans(stab)

count_nans(times_left_house)

d

new_list = [1, np.nan, 2, 3, np.nan, 4, 5, np.nan, "qualcosa", "qualcosa d'altro"]
print(new_list)

[1, nan, 2, 3, nan, 4, 5, nan, 'qualcosa', "qualcosa d'altro"]

count_nans(new_list)

e

new_df = pd.DataFrame()
new_df["distance"] = distance
new_df["stab"] = stab
new_df["times_left_house"] = times_left_house
new_df["subID"] = df["subID"]

new_df.head()

	distance	stab	times_left_house	subID
0	441.0	51	3	1001
1	287.0	94	5	1002
2	313.0	95	4	1003
3	452.0	45	2	1004
4	297.0	37	0	1005

new_df.shape

(131, 4)

df_cleaned = new_df.dropna()
df_cleaned.shape

(121, 4)

f

plt.figure(figsize=(10, 6))
sns.histplot(data=df_cleaned, x='times_left_house', bins=20, kde=True);

../_images/3ae51f303e702a6b56ece336c32e628c2ca5b3d7c4cb6debbe441e3690223082.png

plt.figure(figsize=(10, 6))
sns.histplot(data=df_cleaned, x='stab', bins=20, kde=True);

../_images/6dac766997cc60d140c831d9b7d1e5ff697e69f1cd34af079cd56376660f4279.png

g

Gli autori stanno indagando la possibile associazione tra il numero di volte in cui le persone sono uscite di casa durante la fase iniziale della pandemia di COVID-19 e la loro propensione antisociale, valutata tramite il reattivo STAB (Antisocial Behavior Score). A tal fine, i partecipanti sono stati classificati in due categorie distinte: coloro che mostrano livelli antisociali elevati (con un punteggio STAB superiore a 80) e coloro che presentano livelli antisociali bassi (con un punteggio STAB inferiore o uguale a 80).

Per analizzare questa associazione, si produca una visualizzazione grafica dei dati per i due gruppi di partecipanti. Ad esempio, potrebbe essere utile un istogramma o un violin plot che mostri la distribuzione del numero di volte in cui i partecipanti sono usciti di casa, separando i dati in base ai livelli antisociali (alti o bassi). Si interpreti.

df_cleaned["is_high_stab"] = np.where(df_cleaned["stab"] > 80, 1, 0);

/var/folders/cl/wwjrsxdd5tz7y9jr82nd5hrw0000gn/T/ipykernel_14258/262644604.py:1: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_cleaned["is_high_stab"] = np.where(df_cleaned["stab"] > 80, 1, 0);

plt.figure(figsize=(10, 6))
sns.violinplot(x="is_high_stab", y="times_left_house", data=df_cleaned);

../_images/42d49a6bad668abb1db8c481fe619dbed9fb87ae230543e4603f9a0a64a8a26c.png

y1 = df_cleaned[df_cleaned["is_high_stab"] == 1]["times_left_house"]
y0 = df_cleaned[df_cleaned["is_high_stab"] == 0]["times_left_house"]

plt.figure(figsize=(10, 6))
# Plot the histogram for y1
plt.hist(y1, alpha=0.5, label='is_high_stab = 1', density=True, bins=10)
# Plot the histogram for y0
plt.hist(y0, alpha=0.5, label='is_high_stab = 0', density=True, bins=10)

plt.title('Histogram of Times Left House by Stab Level')
plt.xlabel('Times Left House')
plt.ylabel('Frequency')
plt.legend();

../_images/03d0ea422b2ed68f9f5ef5eb2e363333bbf74154a174438886cfc77f5ec7dbfb.png

h

Si calcolino le statistiche descrittive per i due gruppi di partecipanti e si interpreti.

grouped = df_cleaned.groupby("is_high_stab")["times_left_house"]
summary_stats = grouped.agg(median=np.median, mean=np.mean, mad=sm.robust.scale.mad, std=np.std)
print("Summary statistics per group:\n", summary_stats)

Summary statistics per group:
               median      mean       mad       std
is_high_stab                                      
0                1.0  2.047619  1.482602  2.547174
1                3.0  3.625000  2.223903  2.217356

i

Si replichino i risultati degli autori usando bambi. Si utilizzi la distribuzione negative binomial, come nell’articolo.

Una distribuzione binomiale negativa è una distribuzione di probabilità discreta che è un’estensione della distribuzione di Poisson. Mentre la distribuzione di Poisson è utile per modellare il numero di eventi che accadono in un intervallo di tempo o spazio fisso, la distribuzione binomiale negativa permette una maggiore flessibilità, in particolare quando i dati presentano una varianza maggiore rispetto alla media (fenomeno chiamato sovradispersione).

La distribuzione binomiale negativa è descritta da due parametri, \( r \) e \( p \), e può essere pensata come il numero di fallimenti necessari per raggiungere \( r \) successi in una sequenza di prove di Bernoulli indipendenti, dove ogni prova ha probabilità di successo \( p \). La funzione di massa di probabilità (PMF) per la distribuzione binomiale negativa è data da:

\[P(X = k) = \binom{k + r - 1}{k} p^r (1-p)^k\]

dove

\( k \) è il numero di fallimenti,
\( r \) è il numero fisso di successi (chiamato anche numero di successi target),
\( p \) è la probabilità di successo in ogni prova.

La media e la varianza della distribuzione binomiale negativa sono date rispettivamente da:

\[ \mu = \frac{r(1-p)}{p} \]

\[ \sigma^2 = \frac{r(1-p)}{p^2} \]

La distribuzione binomiale negativa è spesso utilizzata nella modellazione di dati di conteggio in cui si osserva una sovradispersione, come ad esempio il numero di incidenti in un determinato periodo, o il numero di volte che una particolare malattia si verifica in una popolazione.

Nel contesto dei modelli lineari generalizzati (GLM), la distribuzione binomiale negativa può essere usata come distribuzione di risposta con una funzione di collegamento logaritmica per modellare i dati di conteggio sovradispersi. Questo può aiutare a ottenere stime più accurate e un miglior adattamento del modello rispetto all’utilizzo di una distribuzione di Poisson, che assume uguaglianza tra media e varianza.

model = bmb.Model(
    "times_left_house ~ is_high_stab", df_cleaned, family="negativebinomial"
)

fitted = model.fit(
    draws=2000,
    idata_kwargs={"log_likelihood": True},
)

Auto-assigning NUTS sampler...

Initializing NUTS using jitter+adapt_diag...

Multiprocess sampling (4 chains in 4 jobs)

NUTS: [times_left_house_alpha, Intercept, is_high_stab]

Intel MKL WARNING: Support of Intel(R) Streaming SIMD Extensions 4.2 (Intel(R) SSE4.2) enabled only processors has been deprecated. Intel oneAPI Math Kernel Library 2025.0 will require Intel(R) Advanced Vector Extensions (Intel(R) AVX) instructions.
Intel MKL WARNING: Support of Intel(R) Streaming SIMD Extensions 4.2 (Intel(R) SSE4.2) enabled only processors has been deprecated. Intel oneAPI Math Kernel Library 2025.0 will require Intel(R) Advanced Vector Extensions (Intel(R) AVX) instructions.

Intel MKL WARNING: Support of Intel(R) Streaming SIMD Extensions 4.2 (Intel(R) SSE4.2) enabled only processors has been deprecated. Intel oneAPI Math Kernel Library 2025.0 will require Intel(R) Advanced Vector Extensions (Intel(R) AVX) instructions.
Intel MKL WARNING: Support of Intel(R) Streaming SIMD Extensions 4.2 (Intel(R) SSE4.2) enabled only processors has been deprecated. Intel oneAPI Math Kernel Library 2025.0 will require Intel(R) Advanced Vector Extensions (Intel(R) AVX) instructions.

Intel MKL WARNING: Support of Intel(R) Streaming SIMD Extensions 4.2 (Intel(R) SSE4.2) enabled only processors has been deprecated. Intel oneAPI Math Kernel Library 2025.0 will require Intel(R) Advanced Vector Extensions (Intel(R) AVX) instructions.
Intel MKL WARNING: Support of Intel(R) Streaming SIMD Extensions 4.2 (Intel(R) SSE4.2) enabled only processors has been deprecated. Intel oneAPI Math Kernel Library 2025.0 will require Intel(R) Advanced Vector Extensions (Intel(R) AVX) instructions.

Intel MKL WARNING: Support of Intel(R) Streaming SIMD Extensions 4.2 (Intel(R) SSE4.2) enabled only processors has been deprecated. Intel oneAPI Math Kernel Library 2025.0 will require Intel(R) Advanced Vector Extensions (Intel(R) AVX) instructions.
Intel MKL WARNING: Support of Intel(R) Streaming SIMD Extensions 4.2 (Intel(R) SSE4.2) enabled only processors has been deprecated. Intel oneAPI Math Kernel Library 2025.0 will require Intel(R) Advanced Vector Extensions (Intel(R) AVX) instructions.

100.00% [12000/12000 00:02<00:00 Sampling 4 chains, 0 divergences]

Sampling 4 chains for 1_000 tune and 2_000 draw iterations (4_000 + 8_000 draws total) took 14 seconds.

az.plot_trace(fitted, combined=True);

../_images/3dc7a947ca2d71f0c9fc088716592ce9b5aaf2bc4e6d7d80910561bef973a226.png

az.summary(fitted)

	mean	sd	hdi_3%	hdi_97%	mcse_mean	mcse_sd	ess_bulk	ess_tail	r_hat
Intercept	0.717	0.100	0.526	0.899	0.001	0.001	12276.0	6063.0	1.0
is_high_stab	0.577	0.253	0.085	1.043	0.002	0.002	11015.0	6052.0	1.0
times_left_house_alpha	1.940	0.477	1.147	2.816	0.005	0.004	10896.0	6034.0	1.0

L’intercetta denota il logaritmo naturale del tasso di eventi (intensità) previsto quando tutte le variabili esplicative sono poste a zero. Per comprenderne l’effetto sulla scala naturale, è necessario eseguire l’esponenziazione del valore stimato dell’intercetta. Nel contesto attuale, questo valore corrisponde al numero stimato di occasioni in cui l’individuo ha lasciato la propria abitazione nella settimana precedente, qualora appartenga al gruppo caratterizzato da valori bassi di STAB (Antisocial Behavior Score).

np.exp(0.715)

2.0441866822585566

Nel contesto di un modello negative binomial, i coefficienti stimati per le variabili esplicative rappresentano la variazione percentuale prevista nel tasso di eventi in risposta a un aumento unitario nella variabile indipendente, mantenendo costanti le altre variabili. Questi coefficienti vengono interpretati sulla scala logaritmica. Per comprendere l’effetto delle variabili esplicative sulla scala naturale, è essenziale calcolare l’esponenziale del coefficiente stesso. Nel caso dei dati in esame, la pendenza indica la differenza nel valore medio di Y (la variabile di risposta) tra i due gruppi: in altre parole, essa rappresenta di quante volte in più (considerando il segno positivo) il gruppo con valori elevati di STAB lascia la propria abitazione nella settimana precedente rispetto al gruppo con valori bassi di STAB.

np.exp(0.715 + 0.580)

3.6509959741412716

Poiché l’intervallo di credibilità del parametro “is_high_stab” non include lo 0, possiamo affermare con un livello di confidenza soggettiva del 94% che gli individui con valori STAB alti hanno lasciato la propria abitazione un numero di volte superiore nella settimana precedente rispetto agli individui con valori STAB bassi.

Esaminiamo la distribuzione predittiva a posteriori.

az.plot_ppc(fitted);

../_images/94e93ebdd015fc40b3bf590e00fff67cfdfb8e5b20b334fbf6c161806651ae3b.png

Il PP-Check indica che il modello è adeguato per i dati presenti.

✏️ Esercizi

Contents

✏️ Esercizi#

Esercizio 1#