Concetti chiave#
In questo capitolo, esploreremo i concetti fondamentali dell’analisi dei dati. Inizieremo con la definizione di popolazione e campione, e distingueremo tra variabili indipendenti e dipendenti. Introdurremo la matrice dei dati e considereremo l’effetto delle variabili all’interno dell’analisi statistica. Successivamente, affronteremo i concetti di stima e inferenza. Infine, discuteremo il concetto di modello psicologico, fondamentale per comprendere i processi mentali e comportamentali degli individui.
Preparazione del Notebook#
import numpy as np
import pandas as pd
Popolazioni e campioni#
Per iniziare l’analisi dei dati, è fondamentale individuare le unità che contengono le informazioni rilevanti per il fenomeno di interesse. Questo insieme di unità costituisce la popolazione o universo \((\Omega)\), che rappresenta l’insieme completo di entità capaci di fornire informazioni per l’indagine statistica in questione. Possiamo rappresentare la popolazione come \(\Omega = \{\omega_i\}_{i=1, \dots, n}= \{\omega_1, \omega_2, \dots, \omega_n\}\) oppure \(\Omega = \{\omega_1, \omega_2, \dots\}\) nel caso di popolazioni finite o infinite, rispettivamente. Le singole unità \(\omega_i\) dell’insieme \(\Omega\) sono chiamate unità statistiche.
Nella ricerca psicologica, sia nelle ricerche sperimentali che in quelle osservazionali, l’obiettivo principale è studiare i fenomeni psicologici all’interno di una specifica popolazione. Pertanto, è essenziale definire con chiarezza la popolazione di interesse, ovvero l’insieme di individui ai quali verranno applicati i risultati della ricerca. Tale popolazione può essere reale, come ad esempio tutte le persone sopravvissute per un anno dopo il bombardamento atomico di Hiroshima, o ipotetica, come ad esempio tutte le persone depresse che potrebbero beneficiare di un intervento psicologico. Il ricercatore deve sempre essere in grado di identificare se un individuo specifico appartiene o meno alla popolazione in questione.
Una sotto-popolazione è un sottoinsieme di individui che possiedono proprietà specifiche ben definite. Ad esempio, potremmo essere interessati alla sotto-popolazione degli uomini di età inferiore ai 30 anni o alla sotto-popolazione dei pazienti depressi che hanno ricevuto uno specifico intervento psicologico. Molte questioni scientifiche cercano di descrivere le differenze tra sotto-popolazioni, come ad esempio il confronto tra un gruppo di pazienti sottoposti a psicoterapia e un gruppo di controllo per valutare l’efficacia di un trattamento.
Il campione è un sottoinsieme della popolazione composto da un insieme di elementi \(\omega_i\), ognuno dei quali rappresenta un’unità statistica (abbreviata con u.s.) portatrice delle informazioni che verranno rilevate tramite un’operazione di misurazione. Il campione viene utilizzato per ottenere informazioni sulla popolazione di riferimento.
Il campionamento può avvenire in diversi modi. Il campionamento casuale consente al ricercatore di trarre conclusioni sulla popolazione e di quantificare l’incertezza dei risultati. Un esempio di campione casuale è quello utilizzato in un sondaggio. Tuttavia, esistono anche altre forme di campionamento, come il campione di convenienza, in cui si seleziona una coorte di studenti da un unico istituto, o il campionamento stratificato, dove la popolazione viene divisa in gruppi o strati, e vengono selezionati campioni proporzionali da ciascuno strato.
Il ricercatore, indipendentemente dal metodo di acquisizione dei dati, deve sempre considerare la questione della rappresentatività statistica del campione, ovvero se il campione scelto è in grado di riflettere in modo accurato e privo di distorsioni le caratteristiche di interesse della popolazione. Selezionare le unità statistiche in modo casuale rappresenta il metodo più semplice per garantire la rappresentatività del campione. Tuttavia, in molti casi, soprattutto in psicologia, i ricercatori possono non avere a disposizione le risorse necessarie, inclusi i fondi, per utilizzare la tecnica del campionamento casuale nelle loro ricerche. In tali situazioni, possono ricorrere ad altri metodi di campionamento, come il campionamento di convenienza, a seconda delle esigenze e delle risorse disponibili.
Variabili e costanti#
Nell’ambito dell’analisi statistica, le variabili rappresentano concetti centrali, denotando le caratteristiche o gli attributi che possono assumere una varietà di valori, numerici o categoriali. Essi incarnano gli elementi quantificabili o osservabili ai quali le unità statistiche danno riscontro. Ad esempio, ponendo la domanda «Qual è l’età di questo partecipante?» e ottenendo come risposta «19 anni», si identifica «età» come la variabile, e «19» come il valore corrispondente.
In pratica, nel contesto della ricerca empirica, una variabile rappresenta un insieme di osservazioni relative alla stessa misurazione, come ad esempio il punteggio di «nevrosismo» ottenuto da interviste condotte su 744 bambini. Descrivere una variabile significa essere in grado di prendere tali osservazioni e comunicare chiaramente il loro significato, senza obbligare chi legge a dover esaminare ciascuno dei 744 punteggi di nevrosismo separatamente. Questo compito non è affatto semplice.
Possiamo distinguere varie classi di variabili.
Variabili continue: Le variabili continue sono caratterizzate dalla capacità di assumere valori in un intervallo potenzialmente infinito.
Variabili di conteggio: Le variabili di conteggio rappresentano la frequenza con cui si verificano eventi o la quantità di oggetti in una categoria specifica.
Variabili ordinali: Le variabili ordinali sono caratterizzate da un ordine intrinseco tra i loro valori, ma non esiste una scala standard per quantificare la differenza tra essi.
Variabili categoriche: Le variabili categoriche sono utilizzate per assegnare categorie o classi a un’osservazione, indicando a quale categoria appartiene.
Variabili binarie: Le variabili binarie rappresentano una sottocategoria di variabili categoriche che possono assumere solo due valori distinti.
Le modalità descrivono le diverse forme che una variabile statistica può assumere. L’insieme delle modalità di una variabile è rappresentato dall’insieme \(M\), che include tutte le possibili manifestazioni della variabile. Le modalità presenti nel campione vengono etichettate come dati.
In statistica, la nozione di «variabile» si distingue da quella di «costante», che rimane immutabile attraverso tutte le unità statistiche.
Esempio 1: In uno studio relativo all’intelligenza degli adulti italiani, la variabile di interesse è il punteggio nel test WAIS-IV, con modalità quali 112, 92, 121 ecc. Questa variabile è classificata come quantitativa discreta.
Esempio 2: Nell’analisi del compito Stroop, focalizzata su bambini di età 6-8 anni, la variabile in esame è l’inverso dei tempi di reazione, misurati in secondi, con modalità come 1.93, 2.35, 1.32 ecc. Questa variabile è classificata come quantitativa continua.
Esempio 3: In uno studio del disturbo di personalità condotto tra i detenuti nelle carceri italiane, la variabile scrutinata è l’assessment del disturbo di personalità, valutato attraverso interviste cliniche strutturate. Le modalità sono i Cluster A, Cluster B, Cluster C, secondo la classificazione del DSM-V, e questa variabile è classificata come qualitativa.
La distribuzione delle variabili#
Una volta compreso il tipo di variabile con cui lavoriamo, è fondamentale esaminare la distribuzione di tale variabile.
La distribuzione di una variabile rappresenta la frequenza con cui si verificano i diversi valori. Nel caso delle variabili discrete, la distribuzione è semplicemente un elenco delle modalità (valori distinti) e delle relative frequenze. Ad esempio, se consideriamo la variabile «genere» all’interno di un campione di studenti, possiamo affermare che l’82% sono donne e il 18% sono uomini.
In genere, le distribuzioni delle variabili sono descritte in termini di probabilità. Le frequenze relative possono essere interpretate come «probabilità empiriche». Nell’esempio precedente, la probabilità di «essere una donna» nel campione specifico è 0.82, mentre la probabilità di «essere un uomo» è 0.18. La probabilità che una variabile \(X\) (come il genere) assuma un valore specifico \(x\) (ad esempio, «donna») viene indicata come \(P(X = x)\), o più semplicemente \(P(x)\).
Le distribuzioni delle variabili continue sono più complesse da descrivere. Per le variabili continue, non descriviamo la probabilità che la variabile assuma un valore specifico, ma la probabilità che essa cada in un intervallo vicino a quel valore specifico. In futuro, esploreremo come rappresentare graficamente la distribuzione di una variabile continua utilizzando un istogramma o un grafico della densità di probabilità chiamato «Kernel Density Plot».
La matrice dei dati#
Nell’ambito dell’analisi statistica, la matrice dei dati svolge un ruolo fondamentale nell’organizzazione delle informazioni relative alle variabili. Si tratta di una tabella strutturata con righe e colonne, dove ogni riga individua un’unità statistica specifica e ogni colonna rappresenta una diversa variabile statistica in esame.
Va enfatizzato che, all’interno della matrice dei dati, le unità statistiche non seguono generalmente un ordine progressivo o gerarchico. L’indice attribuito a ciascuna unità statistica indica semplicemente la posizione che essa occupa all’interno della tabella, senza implicare un valore intrinseco o una relazione ordinale. Tale strutturazione metodica offre un mezzo efficace per raccogliere, visualizzare e analizzare le informazioni ottenute durante lo studio statistico, permettendo una gestione chiara e sistematica dei dati raccolti.
Capire i dati#
A scopo illustrativo, prendiamo in considerazione il dataset contenuto nel file STAR.csv
. Questi dati sono parte integrante del progetto STAR (Student-Teacher Achievement Ratio), un esperimento pedagogico sviluppato negli Stati Uniti nel periodo tra il 1985 e il 1990. La finalità centrale di questo studio era indagare l’impatto delle dimensioni delle classi sulle performance accademiche degli studenti. In questo contesto, gli studenti venivano distribuiti casualmente in classi di dimensioni ridotte (13-17 studenti) o più ampie (22-25 studenti).
Dopo aver preparato l’ambiente di lavoro caricando i pacchetti necessari, è possibile procedere all’importazione dei dati in Python. Si può fare ciò utilizzando il seguente codice, prestando attenzione al fatto che l’argomento di read_csv()
deve specificare il percorso relativo del file rispetto alla directory in cui è situato lo script .ipynb
:
df_star = pd.read_csv("../data/STAR.csv")
Questo codice importa i dati dal file STAR.csv
e li memorizza in un DataFrame di pandas. Questo passo è fondamentale per consentire un’analisi e una manipolazione efficiente delle informazioni relative all’esperimento STAR. In Python, il DataFrame rappresenta la struttura dati principale per la gestione e l’elaborazione dei dati. Il DataFrame attualizza il concetto di «matrice di dati» che abbiamo introdotto in precedenza.
df_star.shape
(1274, 4)
Dato che il DataFrame è troppo grande (1274 righe e 4 colonne), stampiamo sullo schermo le prime 5 righe.
df_star.head()
classtype | reading | math | graduated | |
---|---|---|---|---|
0 | small | 578 | 610 | 1 |
1 | regular | 612 | 612 | 1 |
2 | regular | 583 | 606 | 1 |
3 | small | 661 | 648 | 1 |
4 | small | 614 | 636 | 1 |
Nella terminologia statistica, l’osservazione è l’informazione raccolta da un individuo o un’entità specifica che partecipa allo studio. Considerando il dataset STAR, l’unità di osservazione è costituita dagli studenti. Pertanto, nel DataFrame denominato df_star
, ogni riga simboleggia uno studente distinto coinvolto nell’indagine.
Le variabili, d’altro canto, sono espressioni delle diverse caratteristiche degli individui o delle entità analizzate. Nel contesto del progetto STAR, questo concetto si traduce in:
Ogni colonna di
df_star
rappresenta una variabile che incarna una particolare proprietà condivisa da tutti gli studenti partecipanti.Le variabili sono identificate attraverso etichette collegate alle colonne, come
classtype
(il tipo di classe assegnata, con modalitàsmall
eregular
),reading
(il punteggio nel test di lettura standardizzato),math
(il punteggio nel test di matematica standardizzato) egraduated
(indicazione se lo studente ha conseguito o meno il diploma di scuola superiore, con «1» o «0» rispettivamente).
Per rappresentare un’osservazione singola della variabile generica \(X\), si utilizza la notazione \(X_i\), dove \(i\) rappresenta l’indice dell’osservazione. Questo indice significa che abbiamo un valore differente di \(X\) per ogni valore distinto di \(i\). Ad esempio, nel caso di 1274 osservazioni, \(i\) può variare da 1 a 1274. Pertanto, per simboleggiare la seconda osservazione (quella con \(i=2\)), useremo la notazione \(X_2\). È fondamentale tener presente che, mentre in Python gli indici iniziano da 0, nella notazione matematica tradizionale, come quella rappresentata da \(X_i\), l’indice ha inizio da 1. Questa differenza tra le convenzioni di indicizzazione può essere un aspetto cruciale da considerare durante l’analisi dei dati.
df_star["reading"][1]
612
Una delle prime cose da fare, quando esaminiamo un dataset, è capire che tipo di variabili sono incluse.
df_star.dtypes
classtype object
reading int64
math int64
graduated int64
dtype: object
Nel caso specifico, notiamo che la variabile classtype
è di tipo object
, quindi è una variabile qualitativa, mentre le altre variabili sono numeriche, rappresentate come numeri interi (int64
). Se elenchiamo le modalità presenti in classtype
utilizzando il metodo unique()
, scopriamo che corrispondono a «small» e «regular».
df_star["classtype"].unique()
array(['small', 'regular'], dtype=object)
Con l’istruzione seguente verifichiamo che la variabile graduated
sia una variabile binaria.
df_star["graduated"].unique()
array([1, 0])
Variabili indipendenti e variabili dipendenti#
Nell’ambito della ricerca statistica, è fondamentale distinguere tra variabili indipendenti e dipendenti. Questa distinzione si basa sulla domanda di ricerca e sulla comprensione del fenomeno che si sta studiando.
Le variabili indipendenti, a volte chiamate variabili predittive, rappresentano i fattori che si ipotizza influenzino l’esito di interesse. Esse sono spesso manipolate o controllate dal ricercatore.
Le variabili dipendenti, d’altra parte, rappresentano l’esito o il risultato che si sta cercando di spiegare o prevedere. Esse sono ciò che il ricercatore sta cercando di capire e sono influenzate dalle variabili indipendenti.
In molti studi, è abbastanza chiaro quali sono le variabili indipendenti e dipendenti. Tuttavia, in alcuni casi, la relazione può essere più sfumata o complessa. Ad esempio, nell’analizzare la correlazione tra l’esercizio fisico e l’insonnia, può non essere immediatamente evidente quale sia la causa e quale l’effetto. In tali circostanze, una comprensione delle relazioni casusali inerenti il fenomeno considerato è necessaria per una corretta distinzioni tra variabili indipendeni (cause) e dipendenti (effetti).
La precisa definizione delle variabili è cruciale per garantire la validità e l’accuratezza delle previsioni e delle inferenze fatte sul fenomeno in studio.
Esempio 5: Prendiamo in considerazione un esperimento in cui uno psicologo ha chiamato 120 studenti universitari per un test di memoria. Prima di iniziare, metà dei partecipanti è stata informata che il compito era particolarmente difficile, mentre all’altra metà non è stata fornita alcuna indicazione sulla difficoltà. Successivamente, è stato misurato il punteggio ottenuto nella prova di memoria da ciascun partecipante.
In questo esperimento:
La variabile indipendente è l’informazione sulla difficoltà del compito, che è stata manipolata dallo sperimentatore attraverso l’assegnazione casuale dei soggetti alle due diverse condizioni («informazione fornita» e «informazione non fornita»).
La variabile dipendente è il punteggio ottenuto nella prova di memoria, ovvero l’outcome che lo sperimentatore sta cercando di capire e che potrebbe essere influenzato dalla variabile indipendente.
Effetto#
Il concetto di «effetto» è fondamentale nell’analisi dei dati e nella statistica, poiché rappresenta una misura del cambiamento o dell’influenza tra le variabili. Ad esempio, consideriamo uno studio sulla memoria che indaga l’effetto delle mnemotecniche sul miglioramento della memoria. In questo studio, un gruppo riceve un intervento relativo al rilassamento, mentre un altro partecipa a un workshop di riorganizzazione mnemonica. Alla fine, i partecipanti vengono sottoposti a test di memoria e l’effetto delle mnemotecniche è determinato dalla differenza tra i punteggi medi dei due gruppi. Se il gruppo che ha seguito il workshop mostra un punteggio medio superiore, si può affermare che le mnemotecniche hanno un effetto positivo sulla memoria.
L’effetto viene misurato attraverso diverse statistiche, come la differenza di medie, il rapporto di probabilità, ecc. Quando si analizzano i dati con metodi statistici, l’obiettivo è determinare se l’effetto osservato è credibile, ovvero se ci sono evidenze che l’effetto sia generalizzabile alla popolazione nel suo insieme. Questo aiuta a valutare l’importanza dell’effetto e a trarre conclusioni sulle relazioni tra le variabili nello studio.
Variabili casuali#
Il concetto di variabile nella statistica trova un corrispondente nella teoria delle probabilità, dove è chiamato variabile casuale. Quando ci occupiamo di studi come quelli sugli interventi psicologici, le variabili casuali vengono utilizzate per rappresentare e misurare i risultati di tali interventi. In sostanza, una variabile casuale descrive una caratteristica specifica degli individui all’interno di una popolazione, e i suoi valori possono variare tra gli individui. Teoricamente, una variabile casuale può assumere una gamma di valori possibili, ma in pratica si osserva un valore specifico per ogni individuo.
Utilizziamo notazioni particolari per riferirci alle variabili casuali e ai loro valori specifici. Ad esempio, le lettere maiuscole come \(X\) e \(Y\) denotano le variabili casuali, mentre le lettere minuscole come \(x\) e \(y\) si riferiscono ai valori che queste variabili possono assumere in circostanze specifiche.
Ma come si distinguono una variabile casuale da una variabile statistica? La chiave per comprendere la differenza tra questi due concetti risiede nell’incertezza epistemica che il ricercatore affronta.
Immaginiamo un esperimento casuale, come il lancio di un dado. Supponiamo che la variabile di interesse \(X\) rappresenti l’esito del lancio. Prima del lancio, \(X\) è una variabile casuale, poiché conosciamo i possibili valori che può assumere (da 1 a 6), ma non sappiamo quale valore specifico si manifesterà. In questo stadio, \(X\) rappresenta una quantità incognita, suscettibile di variazione casuale.
Dopo il lancio, supponiamo che l’esito sia 5. A questo punto, la variabile \(X\) diventa una variabile statistica, poiché rappresenta un dato osservato e concreto all’interno del campione di osservazioni. L’incertezza è risolta, e il valore di \(X\) è ora noto e fisso.
In sintesi, una variabile casuale rappresenta una quantità che può assumere diversi valori con una certa probabilità, mentre una variabile statistica è una realizzazione specifica di quella quantità incognita. La transizione da una variabile casuale a una variabile statistica avviene attraverso l’osservazione e la misurazione, che trasformano un’incertezza teorica in una certezza empirica.
Stima e inferenza#
La stima è un concetto centrale in statistica che si riferisce al processo attraverso il quale si ottengono informazioni sulle caratteristiche di una popolazione intera basandosi sui dati di un campione estratto da essa. Ad esempio, calcolando la media o la mediana dei dati all’interno del campione, possiamo derivare stime per la media o la mediana della popolazione complessiva. Le caratteristiche che vogliamo conoscere della popolazione sono spesso chiamate «parametri», e la stima può riguardare sia questi parametri sia la distribuzione di una variabile casuale nella popolazione.
Dopo aver ottenuto queste stime, si passa al passaggio successivo: l’inferenza statistica. Questo processo va oltre la semplice stima e ci permette di trarre conclusioni più ampie sulla popolazione. L’inferenza statistica riguarda la valutazione di specifiche ipotesi o risposte a domande di ricerca relative alla popolazione, utilizzando le stime ottenute dal campione.
Ad esempio, se abbiamo stimato la media dei redditi in un campione di famiglie, possiamo utilizzare l’inferenza statistica per testare se c’è una differenza significativa nei redditi tra diverse regioni o gruppi demografici all’interno della popolazione. In questo modo, l’inferenza statistica ci fornisce gli strumenti per fare previsioni e trarre conclusioni riguardanti la popolazione intera.
Esistono vari approcci e metodologie per condurre l’inferenza statistica, tra cui due dei più comuni sono l’inferenza bayesiana e l’approccio frequentista. L’inferenza bayesiana si basa sull’uso di probabilità priori e posteriori, mentre l’approccio frequentista si basa su tecniche come i test d’ipotesi e gli intervalli di confidenza.
In sintesi, la stima e l’inferenza statistica sono due fasi cruciali nell’analisi statistica. La stima ci permette di utilizzare i dati del campione per ottenere informazioni su specifiche caratteristiche della popolazione, mentre l’inferenza statistica ci consente di utilizzare quelle stime per fare affermazioni più generali e valutare ipotesi sulla popolazione nel suo insieme. Entrambi questi processi sono fondamentali per comprendere e interpretare i fenomeni che stiamo studiando.
Modelli psicologici#
In ambito statistico e nel campo della data science, un «modello» rappresenta una formulazione matematica semplificata di un fenomeno reale che si desidera studiare. Si tratta di un insieme di equazioni e ipotesi che delineano la struttura probabilistica e le relazioni tra le variabili, cercando di catturare gli aspetti essenziali del fenomeno senza rappresentarlo in ogni dettaglio. La scelta del modello specifico può dipendere dai dati disponibili, dalla domanda di ricerca e dall’obiettivo dell’analisi. Poiché spesso esistono diversi modelli che possono essere applicati allo stesso problema, la data science si pone il problema dell’identificazione del modello che meglio si adatta ai dati e che soddisfa certi criteri di validità e bontà.
Nel contesto della psicologia, la modellazione assume un ruolo particolare, in quanto i modelli sono utilizzati per descrivere e prevedere il comportamento umano o il funzionamento mentale. Un modello psicologico efficace deve soddisfare diverse caratteristiche: deve fornire una descrizione coerente del fenomeno studiato, essere in grado di formulare predizioni sulle manifestazioni future di tale fenomeno, essere supportato da prove empiriche e, crucialmente, deve essere falsificabile, cioè soggetto a verifica o confutazione attraverso l’osservazione e l’esperimento.
L’analisi dei dati, attraverso l’applicazione di tecniche statistiche, è il mezzo attraverso il quale un modello psicologico viene valutato. Oltre a determinare se il modello è in grado di spiegare i dati osservati, l’analisi può anche verificare la capacità del modello di fare previsioni accurate su dati non ancora osservati. In questo modo, la modellazione diventa uno strumento potente non solo per comprendere i fenomeni psicologici ma anche per prevedere e, in alcuni casi, influenzare il comportamento e le dinamiche mentali.
In sintesi, un modello, sia in statistica che in psicologia, è un costrutto teorico che cerca di rappresentare un fenomeno complesso in una forma semplificata ma informativa, guidando la comprensione, la previsione e, in ultima analisi, l’intervento efficace su quel fenomeno. La scelta e la valutazione del modello giusto sono fondamentali per garantire che le conclusioni derivanti dall’analisi siano valide e utili nel contesto specifico.
Statistica#
Il termine «statistica» può assumere diversi significati, a seconda del contesto in cui viene utilizzato.
La disciplina statistica: Nel primo senso, la statistica è una scienza e una disciplina che si occupa dello studio e dell’applicazione di metodi e tecniche per la raccolta, l’organizzazione, l’analisi, l’interpretazione e la presentazione di dati. Include una vasta gamma di approcci e strumenti utilizzati per comprendere le tendenze e i modelli nei dati, permettendo di trarre conclusioni informate e fare previsioni su una popolazione a partire da un campione.
Una statistica come misura: Nel secondo senso, il termine «statistica» si riferisce a una singola misura o un valore numerico che è stato calcolato a partire da un campione di dati. Questo tipo di statistica rappresenta una caratteristica specifica del campione, come la tendenza centrale, la dispersione o la relazione tra le variabili. Esempi comuni di statistiche in questo senso includono la media campionaria, la deviazione standard campionaria o il coefficiente di correlazione campionario. Queste statistiche sono utilizzate per sintetizzare le informazioni contenute nel campione e fornire una rappresentazione semplificata di aspetti particolari dei dati.
In sintesi, il termine «statistica» può riferirsi sia alla disciplina nel suo complesso che riguarda l’analisi dei dati, sia a una specifica misura calcolata da un insieme di dati. Entrambi gli aspetti sono fondamentali nell’ambito della ricerca, dell’analisi dei dati e della presa di decisioni basata su prove empiriche.
::::{important} Durante l’esame, sarete chiamati a dimostrare la vostra capacità di:
Discriminare tra variabili dipendenti e indipendenti.
Applicare il concetto di effetto statistico.
Importare correttamente un file .csv in ambiente Python.
Estrarre una specifica colonna da un Data Frame.
Identificare le modalità di una variabile quantitativa all’interno di un Data Frame. ::::
%load_ext watermark
%watermark -n -u -v -iv -w -m
Last updated: Sun Jun 16 2024
Python implementation: CPython
Python version : 3.12.3
IPython version : 8.25.0
Compiler : Clang 16.0.6
OS : Darwin
Release : 23.4.0
Machine : arm64
Processor : arm
CPU cores : 8
Architecture: 64bit
pandas: 2.2.2
numpy : 1.26.4
Watermark: 2.4.3