✏️ Esercizi

✏️ Esercizi#

Exercise 58

Si importi il file penguins.csv e si verifichi la presenza di dati mancanti. Se ci sono dei dati mancanti li si escluda. Si trovi la proporzione di osservazioni che sono state raccolte sull’isola Dream.

Exercise 59

Per i dati dell’esercizio Exercise 58, si trovino la media e la deviazione standard, quale statistica descrittiva, della variabile body_mass_g. Si verifichi il risultato applicando la formula della deviazione standard.

Exercise 60

Si ripeta l’esercizio Exercise 59 usando solo i dati dell’isola Biscoe.

Exercise 61

Per i dati dell’esercizio Exercise 60, si costruisca un istogramma per verificare il tipo di distribuzione dei dati. Si verifichi se, per questi dati, è plausibile la regola \(s ≈ 1.4281 MAD\).

Exercise 62

Per dati che si distribuiscono in maniera approssimativamente Normale, ci possiamo aspettare che il 95% dei dati sia compreso nell’intervallo \(\bar{y} \pm 2 s\). Si verifichi questa affermazione usando i dati dei pinguini maschi che sono stati osservati sull’isola Dream prima del 2009.

Exercise 63

Si considerino le osservazioni relative all’isola Biscoe e alla specie Adelie. Esaminiamo la variabile flipper_length_mm. Per questa variabile, si trovino gli eventuali valori outlier costruendo un boxplot. Dopo avere eliminato gli outlier, si calcoli la media.

Exercise 64

Per i dati dell’esercizio Exercise 58, dopo avere eliminato i dati mancanti, si costruisca un violin plot che include uno strip plot della variabile flipper_length_mm in funzione di species.

Exercise 65

Per i dati dell’esercizio Exercise 58, dopo avere eliminato i dati mancanti, si consideriano solo i dati dei pinguini femmina che non si trovano sull’isola Biscoe. Si trovi la deviazione standard, quale statistica inferenziale, per le variabili bill_length_mm e bill_depth_mm, separatamente per ciascuna specie.

Exercise 66

Per i dati dell’esercizio Exercise 58, dopo avere eliminato i dati mancanti, si consideriano solo le osservazioni raccolte nel 2009. Si trovi il numero di osservazioni e la media per le variabili “bill_length_mm” e “bill_depth_mm”, separatamente per ciascuna specie e ciascun genere.

Exercise 67

Si consideri la variabile x = 28, 16, 40, 21, 33, 15, 42, 13, 11, 14, 96. Si calcoli il valore soglia che, in un boxplot, separa i valori anomali dal massimo numero possibile che può essere assunto dal valore adiacente superiore.

Exercise 68

Si consideri la variabile x = 28, 16, 40, 21, 33, 15, 42, 13, 11, 14, 96. Si calcoli il valore soglia che, in un boxplot, separa i valori anomali dal massimo numero possibile che può essere assunto dal valore adiacente superiore.

Exercise 69

Si scelga l’affermazione più appropriata per descrivere la correlazione.

a. Il coefficiente di correlazione r di Pearson quantifica la relazione tra due variabili.

b. Il coefficiente di correlazione r di Pearson quantifica la relazione tra due variabili ordinali.

c. Il coefficiente di correlazione r di Pearson quantifica la relazione lineare tra due variabili.

d. Il coefficiente di correlazione r di Pearson ci dice se esiste un’associazione tra due variabili oppure se non esiste.

e. Il coefficiente di correlazione r di Pearson non può essere calcolato se la relazione tra due variabili è curvilinea.

Exercise 70

Si scelga l’affermazione più appropriata per descrivere la correlazione.

a. Tanto più il coefficiente di correlazione 𝑟 di Pearson si avvicina a -1 tanto più forte è l’associazione lineare tra 𝑋 e 𝑌.

b. Tanto più il coefficiente di correlazione 𝑟 di Pearson si avvicina a -1 o a +1 tanto più forte è l’associazione lineare tra 𝑋 e 𝑌.

c. Tanto più il coefficiente di correlazione 𝑟 di Pearson si avvicina a 0.5 tanto più forte è l’associazione lineare tra 𝑋 e 𝑌.

d. Tanto più il coefficiente di correlazione 𝑟 di Pearson si avvicina a +1 tanto più forte è l’associazione lineare tra 𝑋 e 𝑌.

e. Tanto più il coefficiente di correlazione 𝑟 di Pearson si avvicina a 0 tanto più forte è l’associazione lineare tra 𝑋 e 𝑌.

Exercise 71

Si scelga l’affermazione corretta.

a. Se il coefficiente di correlazione 𝑟 di Pearson è 0 allora non vi è associazione tra 𝑋 e 𝑌 .

b. Se il coefficiente di correlazione 𝑟 di Pearson è 0 allora 𝑋 e 𝑌 sono perfettamente associate.

c. Se il coefficiente di correlazione 𝑟 di Pearson è 0 allora 𝑋 e 𝑌 sono due grandezze incommensurabili.

d. Se il coefficiente di correlazione 𝑟 di Pearson è 0 allora non c’è associazione lineare tra 𝑋 e 𝑌 .

e. Se il coefficiente di correlazione 𝑟 di Pearson è 0 allora c’è un’associazione curvilinea tra 𝑋 e 𝑌 .

Exercise 72

Si scelga l’affermazione corretta.

a. Il valore del coefficiente di correlazione 𝑟 di Pearson cambia se viene cambiata l’unità di misura delle variabili 𝑋 e 𝑌 .

b. Il valore del coefficiente di correlazione 𝑟 di Pearson non cambia se prendiamo il logaritmo di una delle due variabili.

c. Il valore del coefficiente di correlazione 𝑟 di Pearson non cambia se prendiamo il logaritmo di entrambe le variabili.

d. Il valore del coefficiente di correlazione 𝑟 di Pearson non cambia se viene cambiata l’unità di misura delle variabili 𝑋 e 𝑌.

e. Il valore del coefficiente di correlazione 𝑟 di Pearson non cambia se moltiplichiamo per 0 una delle due variabili.

Exercise 73

Consideriamo due variabili continue, 𝑋 e 𝑌 . Sappiamo che la covarianza tra 𝑋 e 𝑌 è 23.9768 e che la correlazione tra 𝑋 e 𝑌 è 0.6911 . Sapendo che le medie di 𝑋 e 𝑌 sono, rispettivamente, uguali a 123.4547 e 253.8992, e sapendo che la deviazione standard di 𝑋 è 4.182 , si trovi la deviazione standard di 𝑌 .

Exercise 74

Sia 𝑋 = {39, 46, 3, 25, 2, 13, 40, 44, 12, 42, 20, 32, 37, 43, 48}. Si trovi la distribuzione di frequenze assolute per la partizione di 𝑋 in 5 classi di eguale ampiezza (0-10, 10-20, …, 40-50). Si utilizzino intervalli chiusi a destra e aperti a sinistra. Nelle alternative di risposta, i numeri sono ordinati in modo tale che il primo corrisponde alla frequenza assoluta della classe inferiore, il secondo alla frequenza assoluta della classe successiva a quella più bassa, ecc.

Exercise 75

Si importi il file parenthood.csv fornito su Moodle nella cartella Risorse > data. Il significato delle variabili è il seguente:

dan.sleep: ore di sonno della psicologa che ha fornito i dati (Danielle Navarro);

dan.grump: irritabilità della psicologa il giorno dopo, misurata su una scala da 0 a 100;

baby.sleep: ore di sonno del figlio (o figlia) di Danielle;

day: giorno della misurazione delle variabili;

X: indice da 1 a 100 (si può ignorare).

Si calcoli la media delle ore di sonno di Danielle.

Exercise 76

Si legga in R il file parenthood.csv fornito su Moodle nella cartella Risorse > data. Il significato delle variabili è il seguente:

dan.sleep: ore di sonno della psicologa che ha fornito i dati (Danielle Navarro);

dan.grump: irritabilità della psicologa il giorno dopo, misurata su una scala da 0 a 100;

baby.sleep: ore di sonno del figlio (o figlia) di Danielle;

day: giorno della misurazione delle variabili;

X: indice da 1 a 100 (si può ignorare).

Si calcoli la correlazione tra le ore di sonno di Danielle e l’irritabilità di Danielle il giorno dopo. Si calcoli nuovamente questa correlazione dopo avere cambiato l’unità di misura della durata del sonno: da ore in minuti. Si interpretino i risultati ottenuti.

Exercise 77

Si legga in R il file parenthood.csv fornito su Moodle nella cartella Risorse > data. Il significato delle variabili è il seguente:

dan.sleep: ore di sonno della psicologa che ha fornito i dati (Danielle Navarro);

dan.grump: irritabilità della psicologa il giorno dopo, misurata su una scala da 0 a 100;

baby.sleep: ore di sonno del figlio (o figlia) di Danielle;

day: giorno della misurazione delle variabili;

X: indice da 1 a 100 (si può ignorare).

Si calcoli e si interpreti il terzo quantile delle ore di sonno di Danielle.