Qual è il vantaggio di considerare un valore osservato in una popolazione come una v.a.?

Jokah
Salve,

nell'introduzione allo studio della statistica inferenziale, il professore ha inserito alcune slide sulla "logica del campionamento", argomento accuratamente evitato dal libro di testo.
Il suo discorso è più o meno il seguente:
Consideriamo di avere una popolazione di N unità di cui ci interessa un carattere avente k modalità, $x_1$, ... , $x_i$, ... $x_k$ , di cui sono note le frequenze relative.
Allora, se estraiamo un'unità a caso (con equiprobabilità) dalla popolazione, possiamo considerare prima dell'estrazione il valore osservato come una variabile aleatoria X, avente come supporto le modalità del carattere e come probabilità le frequenze relative. Tale variabile aleatoria avrà valore atteso uguale alla media del carattere, varianza uguale e così via, inoltre la distribuzione di probabilità della singola variabile aleatoria sarà uguale alla distribuzione del carattere nella popolazione.

Invece, se vogliamo estrarre n unità con equiprobabilità e reimbussolamento (perché altrimenti che cambierebbe?!), otterremo n variabili aleatorie indipendenti aventi distribuzioni di probabilità uguali, e coincidenti con la distribuzione del carattere.

Qual è il vantaggio di avere n distribuzioni di probabilità separate ed uguali alla distribuzione del carattere?
Stavo pensando per esempio alla binomiale, che può essere vista come la somma di N variabili aleatorie Bernoulliane (ove N è il numero di prove identiche ed indipendenti), in questo caso pure si dovrà ottenere una somma? A quale vantaggio (come si interpreta)? Oppure si considerano tutte le variabili aleatorie indipendentemente? Il prof non spiega una mazza, e a lezione non ne ha parlato.

Qualcuno ha la pazienza di spiegarmi? Grazie

Risposte
Walter97lor
Ciao, tenterò di risponderti, sempre che abbia capito appieno la tua domanda.
Innanzitutto, specie nei primi corsi di statistica inferenziale l'idea alla base dell'inferenza è il principio del campionamento ripetuto.
Facendo delle considerazioni preliminari sulla popolazione su cui si vuole fare inferenza è necessario, come prima cosa, che il campione oggetto sia casuale, di ampiezza n, estratto a sorte, con estrazioni successive, e riponendo dopo ogni estrazione l'unità estratta nella popolazione (es. urna contenente n palline), perchè si vuole che esso sia il più possibile "rappresentativo" e non influenzato da "soggettività" di sorta, tutte le palline hanno la stessa probabilità di uscire. Tale campione casuale di ampiezza n è visto di fatto come una grossa variabile aleatoria multipla, che conseguentemente a quanto detto prima, ha per componenti $X_1,...,X_N$ associate alle osservazioni, tra loro indipendenti e con egual distribuzione, perchè "frutto" dello stesso tipo di esperimento. Quindi ora abbiamo una sorta di modello che ci orienta nel dire come si distribuirà la popolazione. Di qui il concetto di parametro, ovvero una costante caratteristica della popolazione, poi stima, stimatore, ecc.
Il principio del campionamento ripetuto si basa sul darci l'idea che la distribuzione che ha il nostro campione sia il risultato di un'estrazione di numerosissimi campioni della popolazione oggetto dello studio, il campione che noi osserviamo è solo uno dei possibili ripetendo molte volte il campionamento. Quindi, replicando per campioni diversi l'uso di una procedura di stima(come la media o la mediana, o la moda ecc.) si otterranno risultati sempre un po' diversi, per scegliere la miglior procedura vedremo quale tra queste, alla lunga, da risultati più vicini ai reali. Si andrà ad osservare un solo campione, ma si ragiona come se questi fossero molti.
Spero di essermi spiegato bene, e che, tramite ciò, tu riesca a rispondere alle tue domande. Magari utenti più esperti di me potranno chiarire ancor di più. cIAO

Jokah
"Walter97lor":
Tale campione casuale di ampiezza n è visto di fatto come una grossa variabile aleatoria multipla, che conseguentemente a quanto detto prima, ha per componenti $X_1,...,X_N$ associate alle osservazioni


Quindi se non ho capito male, attraverso le n variabili aleatorie $x_1$, $x_2$, ... , $x_n$ si ottiene un'unica variabile aleatoria? E nel caso, questa unica variabile aleatoria ha come distribuzione la distribuzione delle singole componenti (esempio: se $x_1$, $x_2$, ... , $x_n$ sono distribuiti normalmente, la unica variabile aleatoria sarebbe distribuita normalmente?).

E nel caso, per eseguire la standardizzazione, devo utilizzare le proprietà delle trasformazioni lineari delle variabili aleatorie per trovare la media? In altre parole, se a partire da $x_1$, $x_2$, ... , $x_n$ si costruisce una unica variabile aleatoria come la somma delle singole, oppure dovrei considerarla come una ditribuzione congiunta?
E che me ne farei di questa unica grande variabile aleatoria (che se non ho capito male rappresenterebbe il campione)?

Scusa la raffica di domande, ma la spiegazione fornita dal mio professore fa acqua da tutte le parti!

mati.brunetti37
Premetto dicendo che non sono un esperto, e di dare peso maggiore agli altri che eventualmente risponderanno.
Detto questo, vedo un po' di confusione... oppure sono io che non capisco quello che tu voglia dire.
Già il titolo mi fa storcere un po' il naso: non è che il valore osservato venga considerato come una v.a., perché sono cose diverse. Il valore osservato è la "manifestazione" di una v.a.. il valore osservato dà indizi sulla sua v.a.

Prendendo l'esempio della moneta...
Se fai un solo lancio, la v.a che indica il numero di teste uscite è una Be= bernoulliana di parametro p=0,5 di media quindi 0,5 e varianza p(1-p). Immagina ogni lancio come singola osservazione. In questo caso hai solo un'osservazione.
Se fai invece 10 lanci, la v.a. che indica il numero di volte in cui esce testa sarà una Bin= binomiale di parametri n=10 e p=0,5, e quindi di media 5 e varianza np(1-p). Se adesso però consideriamo la v.a. Bin/n, cioè la media di quante volte è uscita testa ogni lancio, dei 10, allora avrai una media np/n= p e una varianza Var(Bin/n)=1/n^2 * Var(Bin)= [p(1-p)]\n. Insomma, la v.a. Bin/n ha la stessa media di Be ma una minore varianza. Avendo una minore varianza, i valore osservati della v.a. Bin/n saranno solitamente più accurati per indicare la media della distribuzione di Be, nel caso a te fosse ignota questa.
In parole non matematiche, il concetto è ovvio: più campioni prendi da una distribuzione, più probabilmente sarai accurato nello stimare parametri della distribuzione della popolazione, come il valore atteso, varianza... nel mio esempio cercavamo di stimare il valore atteso.

Potrei aver capito male il tuo problema, e magari tutto quello che ho scritto per te risulta ovvio, ma spero che sia utile quanto ho scritto.

Jokah
Ciao, grazie per la risposta!

"Kastighos":
vedo un po' di confusione...

Questo succede quando metti in una spiegazione un calderone di concetti sparsi, non contestualizzati e farciti di concetti neppur minimamente sfiorati a lezione in nessuna materia...

Il discorso è che il professore propone di estrarre n unità da una popolazione, ottenendo così n variabili aleatorie, salvo poi lanciarsi in altre superc.... su altri argomenti ancora, distaccati... boh, non spiega niente!

Di fatto propone qualcosa e lo abbandona, non capisco perché mai ce ne parla! Avrà pure un'utilità operare così, o avrebbe risparmiato il suo tempo scrivendo altro di più sensato.

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.