Specificare il modello statistico, statistica inferenziale
Buonasera, vorrei discutere con voi riguardo questo esercizio da svolgere in R.
La seguente tabella illustra i risultati di uno studio condotto su n = 10 esemplari di anguille per investigare sulla relazione fra peso ed et`a (espressa in anni).
$ || ( Età , peso ),( 2 , 6.2),( 3.5 , 4.8 ),( 2.3 , 6.2 ),( 2 , 5.9 ),( 1.8 , 6 ),( 3.4 , 5.4 ), ( 4.4 , 2.6 ),(1.2,4.4),(3.6,4),(0.1,0.5) || $
a) Si specifichi il modello statistico da utilizzare
b) Si tenti di quantificare l’accrescimento medio annuo dei suddetti animali fornendo una stima puntuale ed intervallare al livello α = 0.05.
c) Si commenti il risultato ottenuto in termini di affidabilità e limiti della metodologia impiegata. Esiste qualche possibile rimedio per aumentare l’accuratezza e precisione della stima ottenuta?
Comincio col dire che non ho seguito le lezioni e ho studiato da testi online, da un libro ("introduzione alla statistica" di McGraw-Hill) e dalle dispense di alcuni ragazzi e che non riesco a capire a pieno la consegna del punto a.
Non riesco a capire che cosa si intende con lo specificare il modello statistico, nei vari esercizi scritti che ho fatto, le prime cose che facevo era calcolare la media e la varianza per entrambe le distribuzioni, successivamente verificavo se ci fosse indipendenza o meno attraverso il seguente sistema d'ipotesi :
$ { ( Ho: (sussiste-dipendenza) ),( H1: (Ho -falsa) ):} $ .
Trovavo le frequenze attese e successivamente effettuavo la statistica test chi-quadro.
Infine, questo valore, sotto l'ipotesi nulla, si distribuisce come un chi quadro con gradi di libertà: n-1=9
Allora, attraverso R cercavo la corrispettiva probabilità con questa funzione: 1-pchisq(statisticatest, gradi) e commentavo il risultavo (negli esercizi svolti che ho fatto, accettavo l'ipotesi nulla (Ho) quando 1-pchisq(statisticatest, gradi)>0.2 dicendo che era sufficientemente grande per non rifutare Ho(anche se comunque è una probabilità parecchio bassa per il p-value)) .
Oppure verificavo se il valore della statistica test fosse al di sotto degli intervalli "standard", ovvero quelli per alpha=0.1; alpha=0.05; alpha=0.01(anche se questo metodo non mi fa impazzire perché non si ha un valore preciso per il p-value).
Il procedimento da me svolto è quello che il punto a richiede?
Poi gli altri due punti sono molto semplici, il secondo si fa attraverso due banali intervalli di confidenza per alpha, col terzo invece commentiamo i risultati di entrambi e sicuramente diremo che per migliorare l'accuratezza della stima dovremmo considerare una numerosità più grande( dato che n=10 è molto piccolo)
La seguente tabella illustra i risultati di uno studio condotto su n = 10 esemplari di anguille per investigare sulla relazione fra peso ed et`a (espressa in anni).
$ || ( Età , peso ),( 2 , 6.2),( 3.5 , 4.8 ),( 2.3 , 6.2 ),( 2 , 5.9 ),( 1.8 , 6 ),( 3.4 , 5.4 ), ( 4.4 , 2.6 ),(1.2,4.4),(3.6,4),(0.1,0.5) || $
a) Si specifichi il modello statistico da utilizzare
b) Si tenti di quantificare l’accrescimento medio annuo dei suddetti animali fornendo una stima puntuale ed intervallare al livello α = 0.05.
c) Si commenti il risultato ottenuto in termini di affidabilità e limiti della metodologia impiegata. Esiste qualche possibile rimedio per aumentare l’accuratezza e precisione della stima ottenuta?
Comincio col dire che non ho seguito le lezioni e ho studiato da testi online, da un libro ("introduzione alla statistica" di McGraw-Hill) e dalle dispense di alcuni ragazzi e che non riesco a capire a pieno la consegna del punto a.
Non riesco a capire che cosa si intende con lo specificare il modello statistico, nei vari esercizi scritti che ho fatto, le prime cose che facevo era calcolare la media e la varianza per entrambe le distribuzioni, successivamente verificavo se ci fosse indipendenza o meno attraverso il seguente sistema d'ipotesi :
$ { ( Ho: (sussiste-dipendenza) ),( H1: (Ho -falsa) ):} $ .
Trovavo le frequenze attese e successivamente effettuavo la statistica test chi-quadro.
Infine, questo valore, sotto l'ipotesi nulla, si distribuisce come un chi quadro con gradi di libertà: n-1=9
Allora, attraverso R cercavo la corrispettiva probabilità con questa funzione: 1-pchisq(statisticatest, gradi) e commentavo il risultavo (negli esercizi svolti che ho fatto, accettavo l'ipotesi nulla (Ho) quando 1-pchisq(statisticatest, gradi)>0.2 dicendo che era sufficientemente grande per non rifutare Ho(anche se comunque è una probabilità parecchio bassa per il p-value)) .
Oppure verificavo se il valore della statistica test fosse al di sotto degli intervalli "standard", ovvero quelli per alpha=0.1; alpha=0.05; alpha=0.01(anche se questo metodo non mi fa impazzire perché non si ha un valore preciso per il p-value).
Il procedimento da me svolto è quello che il punto a richiede?
Poi gli altri due punti sono molto semplici, il secondo si fa attraverso due banali intervalli di confidenza per alpha, col terzo invece commentiamo i risultati di entrambi e sicuramente diremo che per migliorare l'accuratezza della stima dovremmo considerare una numerosità più grande( dato che n=10 è molto piccolo)
Risposte
"Drago98":
...non riesco a capire a pieno la consegna del punto a.
Non riesco a capire che cosa si intende con lo specificare il modello statistico
Sì è vero, questa parte introduttiva sul libro (ottimo, che mi ricordo di averti consigliato) non è ben chiara. E' una parte molto introduttiva teorica che però viene sempre spiegata bene più avanti, in Teoria della Misura; semplicemente ti chiede quale modello statistico intendi utlizzare in seguito per i tuoi calcoli.
Cercherò di essere sintetico:
Se effettuiamo un esperimento $epsilon$, in una data situazione, ovviamente possiamo ottenere diversi risultati sperimentali e quindi i dati ottenuti costituiscono solo un punto di uno spazio possibile di risultati. Di conseguenza è naturale pensare di impostare l'analisi su tale spazio dei risultati $Omega$.
Per effettuare un'analisi statistica su $Omega$ occorre dotarlo di una struttura matematica. Lo spazio $Omega$ viene reso misurabile tramite l'associazione ad esso di una appropriata $sigma-"algebra"$ $mathcal(F)$
In questo contesto, un Modello Statistico probabilistico associato all'esperimento $epsilon$ è formalmente definito da una terna $(Omega, mathcal(F), mathcal(P))$, dove $mathcal(P)$ è una famiglia di misure di probabilità sullo spazio misurabile $(Omega, mathcal(F))$.
Per farla breve, in tutti i corsi che farai di Statistica, avrai sempre la certezza che le misure di probabilità sono dominate da una misura $sigma"-finita"$ e quindi possono essere descritte mediante una funzione di densità $f(x|theta)$ rispetto a questa misura.
Di conseguenza, se $A$ è un qualunque evento della $sigma"-algebra"$ $mathcal(F)$ avrai
$P(A|theta)=int_(A)f(omega|theta)dmu(x)$ con $theta in Theta$
In questo caso, il modello statistico può essere presentato in una forma semplificata (che è ciò che ti serve)
$(Omega,f(omega|theta),theta in Theta)$
e per ogni scelta di $theta in Theta$ (che sono i tuoi parametri ignoti della distribuzione) selezioni una funzione di densità che regola il meccanismo aleatorio dei risultati sperimentali
Vediamo ora come costruire un modello statistico:
In generale, il modello statistico viene costruito mediante due fasi
1) definizione del modello di base
2) ripetizione tramite campionamento bernulliano (con ripetizione)
Il modello di base è dato da una variabile aleatoria $X$ che possiede una funzione di densità indicizzata da un parametro (che può essere anche un vettore) $theta in Theta$
$(X, f(x|theta), theta in Theta)$
La regola di campionamento bernulliano comporta la ripetizione di $n$ copie del modello di base, con la corrispondente moltiplicazione delle probabilità. Pertanto il modello statistico indotto dalla regola di campionamento bernulliano è
$(mathcal(X)^(n), Pi_(i=1)^nf(x_i|theta), theta in Theta)$
Ad esempio, nel tuo esercizio, se scegli di usare una gaussiana, il tuo modello sarà
$(RR^10,(1/(sigmasqrt(2pi)))^10exp{-1/(2sigma^2)sum_(i=1)^(10)(x_i-mu)^2},-oo0)$
Ciò che ho scritto finora è però solo una breve premessa; infatti come ho sottolineato, ciò funziona se intendi usare un modello gaussiano, ma ciò non è così scontato perché il testo non dice nulla in proposito alla distribuzione sorgente ed inoltre hai un $n$ relativamente piccolo.
Quindi (ma questo lo devi decidere tu, anche in base a ciò che è contenuto nel tuo corso di statistica) potrebbe essere il caso di usare prioritariamente un Modello Statistico Non Parametrico e quindi non prendendo una specifica distribuzione di legge nota (con solo i parametri ignoti) ma ad esempio la classe $mathcal(F)$ di tutte le funzioni di ripartizione su $RR$
Quindi il tuo modello di base diventa
$(RR,F(x),F in mathcal(F))$
e, considerando come sempre il campionamento bernulliano:
$(RR^n,Pi_(i=1)^(n)F(x_i),F in mathcal(F))$
Per cui dovresti prima di tutto effettuare un test non parametrico di accostamento (goodness of fit test), ovvero trovare una distribuzione che si adatti al modello....dopodiché procedere come ho descritto all'inizio, ovvero definendo un modello statistico parametrico.
Spero di essere stato chiaro
Sul resto dell'esercizio (che non ho guardato con attenzione) mi pare ci sia parecchia confusione ...
"Drago98":
Poi gli altri due punti sono molto semplici, il secondo si fa attraverso due banali intervalli di confidenza per alpha, col terzo invece commentiamo i risultati di entrambi e sicuramente diremo che per migliorare l'accuratezza della stima dovremmo considerare una numerosità più grande( dato che n=10 è molto piccolo)
beh banali se intendi applicare a macchinetta la formula dell'intervallo di confidenza per la media di un Modello Gaussiano....ma se il modello non fosse gaussiano? O se $n$, come nel caso in esame, non è così grande da poter tranquillamente approssimare la densità del modello ad una Gaussiana? Dovresti aver letto sul libro che ti ho consigliato (cap VIII par 4: Methods of Finding Confidence Intervals) che il problema non è così banale; prova ad esempio, estraendo un campione casuale di ampiezza n, a calcolare un intervallo di confidenza per il parametro $theta$ di una uniforme $U(0,theta)$ ...
Oltretutto non capisco cosa tu riesca a dimostrare calcolando un intervallo di confidenza per entrambe le variabili; riesci a rispondere alla domanda: quanto è stato l'aumento medio annuo del peso delle anguille con una confidenza del 95%?
In altri termini
1) non vedo alcun ragionamento sulla variabile obiettivo: incremento di peso annuo....
2) un test chi quadro per l'indipendenza boh...non riesco molto a vederlo (ci sono parecchi altri test di indipendenza, $tau$ di Kendall, $rho$ di Spearman, $G$ di Gini ecc ecc) ma non mi pare che sia nemmeno richiesto un test di questo tipo. Inoltre cosa speri di provare? Che età e peso non sono indipendenti? mi pare abbastanza ovvio.
Io, per non saper né leggere né scrivere, supponendo che il peso alla nascità sia irrilevante[nota]il ciclo vitale di un'anguilla inizia dal mar dei Sargassi, dove vengono deposte le uova. Una femmina può deporre da 1 a 6 milioni di uova pelagiche, del diametro di 1–3 mm, che schiudono solo a temperature superiori ai 20 °C portando alla “luce” le larve, chiamate leptocefali. Il leptocefalo alla nascita è trasparente, misura 4–5 mm ed è nastriforme...(Ref Wikipedia)[/nota] farei la divisione fra peso ed età trovando di quanto sono aumentate le mie 10 anguille....dopodiché farei un goodness of fit test[nota]ad esempio il test di Kolmogorov Smirnov (il $chi^2$ con così pochi dati non si può fare)[/nota] con una gaussiana (che io ho già fatto e fortunatamente risulta non significativo) e poi procederei come sai, calcolando stima puntuale (media campionaria) ed intervallo di confidenza. Ciò ovviamente presuppone che l'aumento annuo sia costante nel tempo...e questo è chiaramente poco verosimile.....
"Drago98":
c) Esiste qualche possibile rimedio per aumentare l’accuratezza e precisione della stima ottenuta?
Ci si potrebbe scrivere un libro....anche e soprattutto proponendo tecniche aldilà dell'inferenza classica.
Ad ogni modo, già plottando i dati grezzi vediamo una cosa interessante

ovvero che si ha un incremento di peso annuo da zero a 3 anni, mentre dopo il peso decresce....quindi in prima battuta si potrebbe dividere il campione in due parti, le anguille con età minore di 3 anni da quelle più vecchie....ed analizzare i dati separatamente
Infatti, analizzando separatamente solo le anguille con età minore di 3 anni otteniamo...

...un ottimo fitting anche con la Regressione Lineare...ora sì che è verosimile un incremento costante di peso annuo....
Per ora mi pare di averti dato sufficienti spunti di riflessione....buon lavoro
Intanto di ringrazio sempre come al solito, sei sempre disponibile per aiutarmi ogni singola volta.
Ho parlato con due miei colleghi che hanno frequentato le lezioni e mi ha detto che il professore non ha trattato il modello statistico non parametrico.
Comunque penso di aver capito tutto quanto molto bene, i primi di gennaio dovrei avere un esercitazione in classe dove intendo partecipare, in modo da vedere anche a quali argomenti il professore tiene particolarmente e soprattutto capire bene come svolge gli esercizi.
Il primo punto, come pensavo, non avevo completamente capito come si facesse ahah.
Per quanto riguarda la dipendenza (anche se non era un punto dell'esercizio) hai ovviamente ragione, sono stato parecchio distratto perché ho ignorato che avevamo due quantitative e per vedere se sussiste o meno dipendenza conviene usare altri metodi, come il coefficiente di determinazione(un metodo davvero semplice da applicare col programma che usiamo).
Per il resto avrei dovuto riflettere un po' di più come hai detto anche tu, sono stato molto veloce nella risoluzione e sfortunatamente non ho riflettuto neanche tanto sulla consegna.
Detto questo, ancora grazie e buone feste!
Ho parlato con due miei colleghi che hanno frequentato le lezioni e mi ha detto che il professore non ha trattato il modello statistico non parametrico.
Comunque penso di aver capito tutto quanto molto bene, i primi di gennaio dovrei avere un esercitazione in classe dove intendo partecipare, in modo da vedere anche a quali argomenti il professore tiene particolarmente e soprattutto capire bene come svolge gli esercizi.
Il primo punto, come pensavo, non avevo completamente capito come si facesse ahah.
Per quanto riguarda la dipendenza (anche se non era un punto dell'esercizio) hai ovviamente ragione, sono stato parecchio distratto perché ho ignorato che avevamo due quantitative e per vedere se sussiste o meno dipendenza conviene usare altri metodi, come il coefficiente di determinazione(un metodo davvero semplice da applicare col programma che usiamo).
Per il resto avrei dovuto riflettere un po' di più come hai detto anche tu, sono stato molto veloce nella risoluzione e sfortunatamente non ho riflettuto neanche tanto sulla consegna.
Detto questo, ancora grazie e buone feste!