Probabilità induttiva generalizzazione statistica
Ciao, amici! A proposito di una generalizzazione statistica della forma
$n$ per cento di $c$ elementi scelti a caso tra gli $F$ è $G$. Quindi circa $n$ per cento di tutti gli $F$ è $G$.[/list:u:6vuc5aq8]
trovo scritto, su Logica di A. Varzi, J. Nolt e D. Rohatyn, quanto segue
"A. Varzi, J. Nolt, D. Rohatyn":
Supponiamo di intendere 'circa $n$ per cento' come se significasse \(n\pm 3\) per cento. Allora, se $c=1000$, la probabilità induttiva dell'argomentazione risulta piuttosto alta, circa 0,95 se non di più. Se diminuiamo $c$ a 100 mantenendo invariata la conclusione, la probabilità induttiva scende a un valore nell'ordine dello 0,5.
Mi chiedevo quale ragionamento matematico sta dietro questi numeri...
Ora, direi che la probabilità induttiva di una tale argomentazione sia la probabilità che, osservati ${nc}/100$ elementi di un campione aleatorio della popolazione $F$ aventi la proprietà $G$, chiamata $p$ la frazione di elementi di $F$ aventi la proprietà $G$, si abbia $(n-3)/100\leq p\leq (n+3)/100$. [EDIT: corretta svista nell'ultima uguaglianza]
Ora, chiamato $X$ il numero di elementi del campione aleatorio considerato aventi la proprietà $G$ e chiamata $p$ la frazione di tutti gli $F$ con tale proprietà $G$, direi che \(X\) è distribuita \(\text{bin}(c,p)\), ovvero, supponendo che il campione sia grande a sufficienza, approssimativamente normale\[X\sim\mathcal{N}(cp,cp(1-p))\]cioè\[\frac{\bar{X}-p}{\sqrt{p(1-p)/c}}\sim\mathcal{N}(0,1)\]e si può semplificare con un'ulteriore approssimazione di $p$ proprio con $n/100$ ottenendo\[P\Big(\bar{X}-z\sqrt{\frac{n}{100c}\Big(1-\frac{n}{100}\Big)}\leq p\leq\bar{X}+z\sqrt{\frac{n}{100c}\Big(1-\frac{n}{100}\Big)} \Big)\approx 2\Phi(z)-1\]dove intendo $\Phi(z)=1/\sqrt{2\pi}\int_{-\infty}^z e^{-t^2/2}\text{d}t$.
Pensate che sia utilizzando tale distribuzione che si ottengono i risultati numerici enunciati nel mio testo? Per $n=50$ mi sembra che si ottenga quanto afferma il libro, approssimativamente.
La cosa che mi stupisce è che le probabilità induttive menzionate nel testo non dipendono da $n$...
$\infty$ grazie e felice anno a tutti!!!

Risposte
Grazie per la risposta tanto dettagliata, gentile e pronta, Sergio!!!
Avrei detto che, per l'argomentazione "$n%$ di $c$ elementi scelti a caso tra gli $F$ è $G$. Quindi circa $n%$ di tutti gli $F$ è $G$", ciò equivalesse ad un evento di tipo \(\{(n-t)/100\leq p\leq(n+t)/100\}\) con $t\in\mathbb{R}$ (nel caso specifico $z=3$, secondo il significato dato al "circa"), ma visto quanto mi fai notare:
Avrei quindi piuttosto l'impressione che, definita una variabile aleatoria \(N/100=\hat{p}\) rappresentante la frazione di elementi del campione che gode della proprietà $G$, la probabilità induttiva della nostra argomentazione, fissato uno $z$ per dare un senso esatto al "circa", coincida con $P((N-t)/100\leq p\leq(N+t)/100)$. Spero che questo non sia un delirio ancora più grosso...
Intendevo che $z$ è un numero reale, argomento della funzione di ripartizione della variabile normale \(\frac{\bar{X}-p}{\sqrt{p(1-p)/c}}\)...
Quindi direi che basterebbe porre \(z=t\sqrt{\frac{c}{n(100-n)}}\), nel caso specifico $t=3$. Credo che in tal caso potremmo dire di avere ottenuto un'approssimazione di \(P((N-t)/100\leq p\leq(N+t)/100)\).
$\infty$ grazie ancora!!!
"Sergio":Intendevo che $X$ fosse una variabile aleatoria binomiale rappresentante quanti elementi in un campione posseggono la proprietà $G$. È una notazione introdotta da me. Mi accorgo adesso che tale notazione è in conflitto con \(\bar{X}\) che, se è la media di $X_1,...,X_c$, allora le $X_i$ sono bernoulliane e ad essere binomiale è \(\sum_{i=1}^c X_i\). Diciamo che bisogna leggere \(X=\sum_{i=1}^c X_i\).
in genere \(n\) è un numero naturale o almeno intero, non un razionale che esprima un rapporto parte/tutto; in genere \(X\) è una variabile aleatoria, non un numero
"Sergio":Sì, sì, mi scuso per non averla specificata: la probabilità induttiva di un'argomentazione è la probabilità che la conclusione sia vera nell'ipotesi in cui siano vere tutte le premesse.
Mi verrebbe da chiedermi se gli autori danno una definizione chiara di "probabilità induttiva", come mi sembrerebbe doveroso.
Avrei detto che, per l'argomentazione "$n%$ di $c$ elementi scelti a caso tra gli $F$ è $G$. Quindi circa $n%$ di tutti gli $F$ è $G$", ciò equivalesse ad un evento di tipo \(\{(n-t)/100\leq p\leq(n+t)/100\}\) con $t\in\mathbb{R}$ (nel caso specifico $z=3$, secondo il significato dato al "circa"), ma visto quanto mi fai notare:
"Sergio":direi proprio che tale interpretazione non sia corretta. Quanto a quel \(n/100\), è un grossolano errore di battitura da parte mia.
non puoi dire che \(p=n/100\). Puoi dire che \(p\) è la probabilità che un elemento di \(F\) sia \(G\) e che usi \(n/100\) per stimarla.

Avrei quindi piuttosto l'impressione che, definita una variabile aleatoria \(N/100=\hat{p}\) rappresentante la frazione di elementi del campione che gode della proprietà $G$, la probabilità induttiva della nostra argomentazione, fissato uno $z$ per dare un senso esatto al "circa", coincida con $P((N-t)/100\leq p\leq(N+t)/100)$. Spero che questo non sia un delirio ancora più grosso...
"Sergio":È quello che volevo dire... Mi scuso per non essere stato abbastanza chiaro.Preferirei[...]Pazienza.
"Sergio":
\(z\) è una variabile aleatoria, non un numero reale (a meno che non intervenga anche qui una notazione un po' ostrogota).

"Sergio":Già: ho usato proprio l'approssimazione \(\frac{\bar{X}-p}{\sqrt{\hat{p}(1-\hat{p})/c}}\) di \(\frac{\bar{X}-p}{\sqrt{p(1-p)/c}}\) e utilizzato \(n/100\) per stimare $p$ per scrivere \(P\Big(\bar{X}-z\sqrt{\frac{n}{100c}\Big(1-\frac{n}{100}\Big)}\leq p\leq\bar{X}+z\sqrt{\frac{n}{100c}\Big(1-\frac{n}{100}\Big)} \Big)\approx 2\Phi(z)-1\) perché mi sembra che, se $Z$ è una variabile normale e $z\in\mathbb{R}$, valga \(P(Z-z\sigma\leq\mu\leq Z+z\sigma)=2\Phi(z)-1\), e anche\[\frac{\hat{p}-p}{\sqrt{\hat{p}(1-\hat{p})/c}}\sim\mathcal{N}(0,1)\Rightarrow P(\hat{p}-z\sqrt{\hat{p}(1-\hat{p})/c}\leq p\leq\hat{p}+z\sqrt{\hat{p}(1-\hat{p})/c})= 2\Phi(z)-1\]... [EDIT: corretto errore fattomi notare da Sergio, che ringrazio] Giusto?
scrivendo \(\hat{p}\) invece di \(n/100\)):\[ P\left(\hat{p}-1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{c}} in quanto \(\Phi(1.96)-\Phi(-1.96)=0.95\).
Quindi direi che basterebbe porre \(z=t\sqrt{\frac{c}{n(100-n)}}\), nel caso specifico $t=3$. Credo che in tal caso potremmo dire di avere ottenuto un'approssimazione di \(P((N-t)/100\leq p\leq(N+t)/100)\).
"Sergio":Allora le mie perplessità non erano infondate... Mi sono accorto che scegliendo l'$n$ più "neutro" possibile, cioè 50, i conti tornano... Purtroppo il mio libro non tratta i dettagli matematici della questione, essendo un libro di logica non pensato esclusivamente per studenti di facoltà scientifiche.
Dall'altro, però, l'ampiezza dell'intervallo di confidenza (fissato il suo livello) dipende da \(\displaystyle \sqrt{\frac{\hat{p}(1-\hat{p})}{c}} \), quindi anche da \(\hat{p}=n/100\).
$\infty$ grazie ancora!!!
"Sergio":Mah! Se tutte le premesse sono vere, se ne possono dedurre conclusioni vere (non probabilmente vere). O no?[/quote]No, la definizione di probabilità induttiva di un'argomentazione non riguarda solo le argomentazioni deduttivamente valide, ma qualsiasi argomentazione.
[quote="DavideGenova"]la probabilità induttiva di un'argomentazione è la probabilità che la conclusione sia vera nell'ipotesi in cui siano vere tutte le premesse.
"Sergio":
E \(z\) dov'è finito? Non può mica comparire solo a destra...Diciamo che lo metti anche prima dei segni di radice e lo intendi come quantile della normale.


Dato che studio queste cose da autodidatta e non ho moltissimo modo per confrontare varianti d'uso, apprezzo molto le precisazioni sulla notazione: grazie!

"Sergio":
Comunque, se quel "3" fa riferimento alla frase che avevi citato ("Supponiamo di intendere 'circa \(n\) per cento' come se significasse \(n\pm 3\) per cento"), direi che bisogna porre \(z\sigma=0.03\hat{p}\) e che \(z\)
Assumendo che "\(n\pm 3\) per cento di tutti gli $F$ è $G$" significhi "\((n\pm 3)\%\) di tutti gli $F$ è $G$" (direi che è questo che intenda il libro, sperando di non dare i numeri), è quindi sbagliato porre $z\sigma=z\sqrt{n/(100c)(1-n/100)}=0.03$? Non capisco da dove venga $\hat{p}$ nella tua formula...
$\aleph_1$ grazie!!!
"Sergio":Secondo la definizione di probabilità induttiva \(P(A|B)\) di un'argomentazione \(B\vdash A\), data dal Varzi-Nolt-Rohatyn, direi che, data l'argomentazione
A me pare che induzione sia quella cosa per cui, a furia di vedere cigni bianchi (esperienza, non "premesse"), ritieni la conclusione "tutti i cigni sono bianchi" vera. Fino a che non scopri che esistono anche cigni neri.
Aggiustare la presunta verità dell'induzione con una probabilità mi sembra ragionevole, parlare di premesse "vere" no. Quali sarebbero nel caso dei cigni?
- Tutti i cigni finora osservati sono bianchi.[/list:u:spzw2fk0]
- \(\therefore\)Tutti i cigni sono bianchi[/list:u:spzw2fk0]la sua probabilità induttiva sia \(P(\{\)è vero che tutti i cigni sono bianchi\(\}|\{\)è vero che tutti i cigni finora osservati sono bianchi\(\})\), che è comunque lo stesso di \(P(\{\)tutti i cigni sono bianchi\(\}|\{\)i cigni finora osservati sono bianchi\(\})\) identificando, come illustra il mio testo di logica, la probabilità di un evento con la probabilità che sia vera l'asserzione che lo afferma. In assenza di un'argomentazione costituita da premesse e conclusione, per la definizione che ho io di argomentazione, non sono al corrente una definizione di probabilità induttiva. Spero di aver compreso ciò che dice il libro...
"Sergio":Mmh... Sono in alto mare: "\(n\pm 3\) per cento di tutti gli $F$" significa $\frac{n\pm 3}{100}\cdot\#F$ dove chiamo $#F$ il numero di tutti gli $F$ o do i numeri (con reimbussolamento perché temo di averne dati già troppi)?
\(\hat{p}\) non è altro che \(n/100\). Per il resto, \(0.03\) non è un numero puro, ma una percentuale: è il 3 per cento di qualcosa.
Se tale mia interpretazione non è scorretta, direi che vogliamo che sia\[P\Big(\hat{p}-z\sqrt{\frac{n}{100c}\Big(1-\frac{n}{100}\Big)}\leq p\leq\hat{p}+z\sqrt{\frac{n}{100c}\Big(1-\frac{n}{100}\Big)} \Big)\approx P\Big(\hat{p}-\frac{3}{100} \leq p\leq\hat{p}+\frac{3}{100} \Big)\]dove $\hat{p}$ è la stessa cosa della variabile aleatoria \(N/100\) che ho introdotto nel post precedente per rappresentare la percentuale di un campione che soddisfi la proprietà $G$, perciò mi pare che, per approssimare \(P((N-3)/100\leq p\leq(N+3)/100)\), si debba imporre che \(z\sqrt{\frac{n}{100c}(1-\frac{n}{100})}=0.03\). Dove sbaglio?
Comunque, sì, è un testo introduttivo.
$\aleph_2$ grazie!!!

"Sergio":[...] A me pare che "\(n\pm 3\) per cento" voglia dire che se \(n=30\) allora \(p\in[0.291,0.309]\), mentre se \(n=40\) allora \(p\in[0.388,0.412]\).[/quote]Abbi pazienza, sono un po' duro di comprendonio: da dove ricavi gli estremi degli intervalli? Se diciamo "circa $30$ [=$30\pm 3$] per cento di tutti gli $F$ è $G$" diciamo \(p\in[0.27,0.33]\), e rispettivamente "circa $40$ [=$40\pm 3$] per cento di tutti gli $F$ è $G$", diciamo \(p\in[0.27,0.33]\) e rispettivamente \(p\in[0.37,0.43]\), giusto (spero)?
[quote="DavideGenova"]direi che vogliamo che sia\[P\Big(\hat{p}-z\sqrt{\frac{n}{100c}\Big(1-\frac{n}{100}\Big)}\leq p\leq\hat{p}+z\sqrt{\frac{n}{100c}\Big(1-\frac{n}{100}\Big)} \Big)\approx P\Big(\hat{p}-\frac{3}{100} \leq p\leq\hat{p}+\frac{3}{100} \Big)\]dove $\hat{p}$ è la stessa cosa della variabile aleatoria \(N/100\) che ho introdotto nel post precedente per rappresentare la percentuale di un campione che soddisfi la proprietà $G$, perciò mi pare che, per approssimare \(P((N-3)/100\leq p\leq(N+3)/100)\), si debba imporre che \(z\sqrt{\frac{n}{100c}(1-\frac{n}{100})}=0.03\). Dove sbaglio?
Tante grazie di cuore ancora!!!
Ah, ho capito dove differiva la nostra interpretazione del testo. Se avesse usato una notazione più matematica, che, nonostante sia un testo pensato anche per esempio per studenti di filosofia, in altri contesti è per fortuna utilizzata, non ci sarebbe stata differenza.
$\aleph_3$ grazie!!!
$\aleph_3$ grazie!!!
