Valore atteso di un membro del campione
Ho un dubbio che mi "vincola" dal capire più o meno tutte le dimostrazioni.
A questo link (pag. 3 delle slide, pag. 9 del pdf) ho trovato una dimostrazione di come la media campionaria sia uno stimatore della media della popolazione
Ora sostanzialmente non ho capito perchè \( E[X_i] = \mu \). Nel pdf spunta come ipotesi, però io vorrei arrivare a dimostrare quanto sopra, con i vari \( X_i \) che sono quindi campioni "veri", non variabili stocastiche ognuna con media \( \mu \) per ipotesi.
Per esempio, vogliamo calcolare la media dell'età anagrafica della popolazione italiana, che l'ISTAT ci dice essere (per esempio) 40 anni.
Prendiamo un campione di tutta la popolazione fatto da 10 individui. Uno dei quali è Mario Rossi: lui ha un'età che è esattamente 30 anni, non una distribuzione con media 30 e deviazione 5. E la sua età è diversa da quella media di tutta la popolazione.
In sostanza, vorrei capire perchè \( E[X_i] = \mu \)
EDIT: ho corretto il link. Grazie della segnalazione
A questo link (pag. 3 delle slide, pag. 9 del pdf) ho trovato una dimostrazione di come la media campionaria sia uno stimatore della media della popolazione
Ora sostanzialmente non ho capito perchè \( E[X_i] = \mu \). Nel pdf spunta come ipotesi, però io vorrei arrivare a dimostrare quanto sopra, con i vari \( X_i \) che sono quindi campioni "veri", non variabili stocastiche ognuna con media \( \mu \) per ipotesi.
Per esempio, vogliamo calcolare la media dell'età anagrafica della popolazione italiana, che l'ISTAT ci dice essere (per esempio) 40 anni.
Prendiamo un campione di tutta la popolazione fatto da 10 individui. Uno dei quali è Mario Rossi: lui ha un'età che è esattamente 30 anni, non una distribuzione con media 30 e deviazione 5. E la sua età è diversa da quella media di tutta la popolazione.
In sostanza, vorrei capire perchè \( E[X_i] = \mu \)
EDIT: ho corretto il link. Grazie della segnalazione
Risposte
Segnalo che il link non porta a nessuna slide ma ad una pagina di ricerca di google.
Non è di certo la "teoria" il mio forte ne' (sono sincero) ho ben capito quale sia effettivamente il tuo dubbio. Provo a darti degli imput per iniziare una discussione sull'argomento (dato che mi interessa), magari coinvolgendo qualche utente più "ferrato".
Vuoi capire perchè $ E[X_i]=mu $ . Ok. Premessa:
$ X_i $, così come intesa in questo frangente, è una variabile casuale o, come la definisci tu, stocastica. Non è una realizzazione della stessa. E' una funzione, non il valore della funzione, per dirla in altri termini.
Forse il pedice "i" può aver generato qualche tipo di ambiguità (provo a interpretare quello che hai scritto), ma non si sta parlando dell'osservazione concreta i (il signor Mario). $ X_i $ è la variabile che si realizza in un'osservazione campionaria nel momento in cui la si estrae. Non è il signor Mario che ha valore atteso $ mu $. E' chiaro questo aspetto?
Mi fermerei qui, perchè magari la premessa può costituire la spiegazione.
Non è di certo la "teoria" il mio forte ne' (sono sincero) ho ben capito quale sia effettivamente il tuo dubbio. Provo a darti degli imput per iniziare una discussione sull'argomento (dato che mi interessa), magari coinvolgendo qualche utente più "ferrato".
Vuoi capire perchè $ E[X_i]=mu $ . Ok. Premessa:
$ X_i $, così come intesa in questo frangente, è una variabile casuale o, come la definisci tu, stocastica. Non è una realizzazione della stessa. E' una funzione, non il valore della funzione, per dirla in altri termini.
Forse il pedice "i" può aver generato qualche tipo di ambiguità (provo a interpretare quello che hai scritto), ma non si sta parlando dell'osservazione concreta i (il signor Mario). $ X_i $ è la variabile che si realizza in un'osservazione campionaria nel momento in cui la si estrae. Non è il signor Mario che ha valore atteso $ mu $. E' chiaro questo aspetto?
Mi fermerei qui, perchè magari la premessa può costituire la spiegazione.
Grazie della risposta Sergio
Scusa ma non riesco ancora a capire
Prendiamo la popolazione italiana.
Quindi sia \(X \) l'età anagrafica della popolazione italiana. Supponiamo che (l'ISTAT ci dice che) \( X \sim \mathcal{N}(30,100)\). Quindi l'età anagrafica media di tutta la popolazione italiana (la media "vera") è 30, che è un numero certo al 100%. Anche la deviazione standard è un numero certo al 100%, ed è pari a 10 (anni)
Prendiamo un campione (persone italiane) di dimensione 2 (2 persone italiane). Le variabili che rappresentano l'età anagrafica di queste 2 persone italiane le chiamiamo \( A_1, A_2 \).
Prima di sceglierle mi bendo gli occhi. Ora poiché ho gli occhi bendati, non conosco nè posso intuire l'età di queste 2 persone e quindi la cosa migliore che posso fare è trattare l'età come variabili aleatorie.
Tu dici che \( A_1, A_2 \sim \mathcal{N}(30,100) \), come la popolazione italiana.
Io invece dico che \( A_1, A_2 \sim \mathcal{N} (10,1) \)
Togliendomi la benda, mi accorgo di avere due ragazzini di 9 e 11 anni davanti a me.
Sicuramente il mio è un modello di rappresentare i dati che ho di fronte, quelli che ho estratto dalla popolazione, migliore del tuo. No?
Poi possiamo discutere se il campione che ho preso è rappresentativo di tutta la popolazione oppure no, ma questo è irrilevante. Io ho creato due variabili aleatorie che mi dico l'età delle due persone che ho scelto. Ho una funzione di distribuzione delle due variabili che "meno sbaglia meglio è", e la mia sbaglia di meno.
Non capisco l'esempio dei dadi. Io non sto calcolando la probabilità che scegliendo una persona italiana a caso la sua età sia compresa tra (10,50) (probabilità del 95% che resta tale prendendo i due ragazzini). Ma sto costruendo distribuzioni di probabilità sui campioni, sui singoli dati che estraggo. E non vedo perchè dovrei metterci la distribuzione del dato sulla popolazione intera
Scusa ma non l'ho capita.

Prendiamo la popolazione italiana.
Tratti quindi l'età anagrafica come una variabile aleatoria della popolazione.
Quindi sia \(X \) l'età anagrafica della popolazione italiana. Supponiamo che (l'ISTAT ci dice che) \( X \sim \mathcal{N}(30,100)\). Quindi l'età anagrafica media di tutta la popolazione italiana (la media "vera") è 30, che è un numero certo al 100%. Anche la deviazione standard è un numero certo al 100%, ed è pari a 10 (anni)
Se pensi a un qualsiasi possibile campione, non puoi che pensarlo come un insieme di variabili aleatorie che hanno la stessa distribuzione della popolazione
Prendiamo un campione (persone italiane) di dimensione 2 (2 persone italiane). Le variabili che rappresentano l'età anagrafica di queste 2 persone italiane le chiamiamo \( A_1, A_2 \).
Prima di sceglierle mi bendo gli occhi. Ora poiché ho gli occhi bendati, non conosco nè posso intuire l'età di queste 2 persone e quindi la cosa migliore che posso fare è trattare l'età come variabili aleatorie.
Tu dici che \( A_1, A_2 \sim \mathcal{N}(30,100) \), come la popolazione italiana.
Io invece dico che \( A_1, A_2 \sim \mathcal{N} (10,1) \)
Togliendomi la benda, mi accorgo di avere due ragazzini di 9 e 11 anni davanti a me.
Sicuramente il mio è un modello di rappresentare i dati che ho di fronte, quelli che ho estratto dalla popolazione, migliore del tuo. No?
Poi possiamo discutere se il campione che ho preso è rappresentativo di tutta la popolazione oppure no, ma questo è irrilevante. Io ho creato due variabili aleatorie che mi dico l'età delle due persone che ho scelto. Ho una funzione di distribuzione delle due variabili che "meno sbaglia meglio è", e la mia sbaglia di meno.
Non capisco l'esempio dei dadi. Io non sto calcolando la probabilità che scegliendo una persona italiana a caso la sua età sia compresa tra (10,50) (probabilità del 95% che resta tale prendendo i due ragazzini). Ma sto costruendo distribuzioni di probabilità sui campioni, sui singoli dati che estraggo. E non vedo perchè dovrei metterci la distribuzione del dato sulla popolazione intera
E qui scattano il teorema che citi e la sua dimostrazione: \(E[\overline{X}]=E[X_i]=\mu\) non fa una piega.
Scusa ma non l'ho capita.
"raffamaiden":
Prendiamo la popolazione italiana.
Quindi sia \(X \) l'età anagrafica della popolazione italiana. Supponiamo che (l'ISTAT ci dice che) \( X \sim \mathcal{N}(30,100)\). Quindi l'età anagrafica media di tutta la popolazione italiana (la media "vera") è 30, che è un numero certo al 100%. Anche la deviazione standard è un numero certo al 100%, ed è pari a 10 (anni)
Prendiamo un campione (persone italiane) di dimensione 2 (2 persone italiane). Le variabili che rappresentano l'età anagrafica di queste 2 persone italiane le chiamiamo \( A_1, A_2 \).
Prima di sceglierle mi bendo gli occhi. Ora poiché ho gli occhi bendati, non conosco nè posso intuire l'età di queste 2 persone e quindi la cosa migliore che posso fare è trattare l'età come variabili aleatorie.
Tu dici che \( A_1, A_2 \sim \mathcal{N}(30,100) \), come la popolazione italiana.
Io invece dico che \( A_1, A_2 \sim \mathcal{N} (10,1) \)
Togliendomi la benda, mi accorgo di avere due ragazzini di 9 e 11 anni davanti a me.
Sicuramente il mio è un modello di rappresentare i dati che ho di fronte, quelli che ho estratto dalla popolazione, migliore del tuo. No?
Quoto Sergio, che è stato chiarissimo.
Sei stato sfortunato nell'estrazione (nel senso che, se l'obiettivo è fare inferenza sulla popolazione, hai ottenuto un campione non rappresentativo) o molto fortunato nella previsione (se per qualche motivo dovesse interessarti il valore specifico del campione).
Inizio a capire, ma data la tarda ora ci ritorno a mente fresca domani. Se dovessi avere dubbi riscrivo.
Per intanto grazie, Sergio e valeporpo.
Per intanto grazie, Sergio e valeporpo.