Relazione Statistica - Problema popolazione

Dpap
Ciao a tutti!

Devo preparare una presentazione di statistica e ho deciso di analizzare la produzione di energia nazionale negli ultimi 60 anni
Il mio problema è che il campione che analizzo non corrisponde a parte della popolazione ma a tutta la popolazione, in quanto il mio dataset contiene tutti gli anni della popolazione di interesse.
Dite che può essere un problema per la mia presentazione?
E' possibile fare un intervallo di previsione per l'anno prossimo? Dovrei usare la T-student o la Z?
Grazie in anticipo! :D

Risposte
dasalv12
Domanda: di che livello di scuole stiamo parlando?

Dpap
1 anno di ingegneria, esame da 5 crediti

dasalv12
Dovresti usare modelli per serie storiche, i modelli ARIMA sarebbero i più adatti, mentre tu stai ragionando come fosse un problema di inferenza su un campione, ma credo che questo sia oltre ciò che è richiesto in un esame del primo anno di ingegneria. Io però non avendo fatto ingegneria e non sapendo cosa fai esattamente mi astengo dal dare indicazioni.
Nel caso tu voglia approfondire dovresti andare a vederti una dispensa sulle serie storiche, dopodiché scaricare il software gratuito Gretl (il più semplice da usare).

Dpap
Scusami! MI sono dimenticato di aggiungere una precisazione importante che potrebbe fare la differenza: ogni dato è il rapporto tra il consumo/produzione dell'anno e il consumo/rapporto dell'anno precedente, in questo modo ho ovviato il problema delle serie storiche (che non abbiamo fatto a lezione).
Fatto questo dovrei avere un campione/popolazione la cui media è la percentuale di miglioramento rispetto all'anno precedente

dasalv12
Se scrivi in formule questo rapporto è meglio, così si capisce e potrebbero intervenire anche altri.
Quindi sarebbe questo il tuo dato?
$(C_t / P_t) / (C_(t-1) / P_(t-1))$

Dunque hai due serie, perché hai sia la produzione che il consumo. Qual è l'unità di misura del dato grezzo che hai? Perché i dati pubblici di solito sono numeri indice. La cosa più logica e semplice che mi viene in mente e fare una regressione fra il consumo al tempo t e la produzione al tempo t+1, ovvero verificare se il consumo dell'anno precedente influisca sulla produzione dell'anno successivo. In questo caso puoi utilizzare la distribuzione t per l'intervallo di confidenza. Diciamo che i tuoi dati, pur essendo completi, possono essere interpretati come un campione di una popolazione più ampia fatta di eventi che non si sono ancora realizzati.

Dpap
LA formula che userei è questa:
$ "Anno_Corrente" = "Anno_Precedente" + "DATO" * "Anno_Precedente" $
da cui ricaverei la variabile DATO per ogni anno (e che sarebbe la percentuale di miglioramento).
Grazie mille per l'idea! in effetti non ci avevo pensato e non è niente male!!
Avendo la variabile "DATO" per ogni anno potrei fare un Intervallo di Confidenza sulla media? O è un problema per la natura del mio campione?
E un intervallo di previsione per l'anno prossimo?
Grazie Mille!!!

dasalv12
Seguendo il tuo metodo è come se tu avessi una popolazione di 60 unità e ne avessi estratte 59, da cui vuoi ricavare l'unica unità che non conosci. A rigore non è un'estrazione casuale, infatti le unità sono estratte secondo l'ordine cronologico, in pratica non si può eludere il fatto che si tratti di una serie storica, dove l'ordine conta ed ha un'influenza sostanziale sulla previsione.
In buona sostanza non si tratta nemmeno di un problema inferenziale visto che la numerosità campionaria è abbastanza alta ed è simile alla numerosità della popolazione. Il problema è puramente descrittivo quindi, la tua previsione seguirà quindi questo ragionamento: "Siccome negli ultimi 59 anni le variazioni annuali sono sempre state comprese fra -3% e +3% anche l'anno prossimo la variazione sarà compresa entro questo intervallo". La conclusione è molto naive, anche se potresti azzeccarci, ma non segue nessuna procedura statistica rigorosa.
L'alternativa è quella che scrivevo nel post precedente, ovvero creare un modello fra cui i più semplici e che hanno anche un senso economico è quello di cui al post precedente oppure un modello autoregressivo di ordine 1...non spaventi il parolone, si tratta semplicemente di verificare se la produzione dell'anno t è influenzata dalla produzione dell'anno t-1, basta che fai due colonne sfasate di un anno in excel e inserisci il grafico a dispersione.

Dpap
Ma se ad esempio la maggior parte delle variazioni le ho comprese tra 0% e 1% e solo una minima parte è maggiore/minore di questo intervallo (sto riprendendo l'esempio che hai fatto sopra), non potrei prevedere con un'affidabilità x come potrebbe essere la variazione dell'anno prossimo?
Ho provato anche a vedere se la produzione dell'anno T dipende da quella dell'anno T-1 e anche a applicare la formula che considera sia Consumi che Produzione ma non è andata bene: la normalità è molto bassa :roll:

dasalv12
Ma se ad esempio la maggior parte delle variazioni le ho comprese tra 0% e 1% e solo una minima parte è maggiore/minore di questo intervallo (sto riprendendo l'esempio che hai fatto sopra), non potrei prevedere con un'affidabilità x come potrebbe essere la variazione dell'anno prossimo?

Ti rifai semplicemente alle statistiche descrittive che risultano dalla popolazione, se il 90% delle variazioni è compresa fra 0% e 1% potrai dire che l'anno prossimo la variazione sarà compresa in tale intervallo. Però ripeto che non è così che si fanno le previsioni e che questo metodo non segue nessun rigore statistico.
Ho provato anche a vedere se la produzione dell'anno T dipende da quella dell'anno T-1 e anche a applicare la formula che considera sia Consumi che Produzione ma non è andata bene: la normalità è molto bassa :roll:

Onestamente ho i miei dubbi che non ci sia alcuna correlazione fra le due quantità, se magari posti i dati e le fonti possiamo vedere di cosa si sta parlando e questo non dipende dalla normalità (la normalità di cosa?).

Dpap
Va bene grazie!
Purtroppo non so come caricare i dati ma sono più che sicuro di non aver sbagliato a analizzarli.
Viste le difficoltà a questo punto preferisco cambiare progetto: grazie mille per aver chiarito i miei dubbi!!

P.S: mi riferivo al fatto che il nuovo campione di dati non segue una distribuzione normale

dasalv12
mi riferivo al fatto che il nuovo campione di dati non segue una distribuzione normale

Questo fatto non ha nessuna influenza sul modello. Dovevi solo capire se le due variabili sono correlate in modo significativo e sicuramente lo sono dato il legame economico che esiste fra consumo e produzione.
Viste le difficoltà a questo punto preferisco cambiare progetto: grazie mille per aver chiarito i miei dubbi!!

Al primo anno probabilmente non ci sono ancora gli strumenti per fare analisi di questo tipo, quindi meglio lasciar perdere se non quando si hanno chiari almeno i concetti di base e come metterli in pratica.

Dpap
Eh si, mi sto tirando la zappa sui piedi con questo progetto :-)
GRAZIE ANCORA!!

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.