Probabilità induttiva generalizzazione statistica

DavideGenova1
Ciao, amici! A proposito di una generalizzazione statistica della forma


    $n$ per cento di $c$ elementi scelti a caso tra gli $F$ è $G$. Quindi circa $n$ per cento di tutti gli $F$ è $G$.[/list:u:6vuc5aq8]

    trovo scritto, su Logica di A. Varzi, J. Nolt e D. Rohatyn, quanto segue
    "A. Varzi, J. Nolt, D. Rohatyn":
    Supponiamo di intendere 'circa $n$ per cento' come se significasse \(n\pm 3\) per cento. Allora, se $c=1000$, la probabilità induttiva dell'argomentazione risulta piuttosto alta, circa 0,95 se non di più. Se diminuiamo $c$ a 100 mantenendo invariata la conclusione, la probabilità induttiva scende a un valore nell'ordine dello 0,5.

    Mi chiedevo quale ragionamento matematico sta dietro questi numeri...
    Ora, direi che la probabilità induttiva di una tale argomentazione sia la probabilità che, osservati ${nc}/100$ elementi di un campione aleatorio della popolazione $F$ aventi la proprietà $G$, chiamata $p$ la frazione di elementi di $F$ aventi la proprietà $G$, si abbia $(n-3)/100\leq p\leq (n+3)/100$. [EDIT: corretta svista nell'ultima uguaglianza]
    Ora, chiamato $X$ il numero di elementi del campione aleatorio considerato aventi la proprietà $G$ e chiamata $p$ la frazione di tutti gli $F$ con tale proprietà $G$, direi che \(X\) è distribuita \(\text{bin}(c,p)\), ovvero, supponendo che il campione sia grande a sufficienza, approssimativamente normale\[X\sim\mathcal{N}(cp,cp(1-p))\]cioè\[\frac{\bar{X}-p}{\sqrt{p(1-p)/c}}\sim\mathcal{N}(0,1)\]e si può semplificare con un'ulteriore approssimazione di $p$ proprio con $n/100$ ottenendo\[P\Big(\bar{X}-z\sqrt{\frac{n}{100c}\Big(1-\frac{n}{100}\Big)}\leq p\leq\bar{X}+z\sqrt{\frac{n}{100c}\Big(1-\frac{n}{100}\Big)} \Big)\approx 2\Phi(z)-1\]dove intendo $\Phi(z)=1/\sqrt{2\pi}\int_{-\infty}^z e^{-t^2/2}\text{d}t$.
    Pensate che sia utilizzando tale distribuzione che si ottengono i risultati numerici enunciati nel mio testo? Per $n=50$ mi sembra che si ottenga quanto afferma il libro, approssimativamente.
    La cosa che mi stupisce è che le probabilità induttive menzionate nel testo non dipendono da $n$...
    $\infty$ grazie e felice anno a tutti!!! :partyman:

Risposte
DavideGenova1
Grazie per la risposta tanto dettagliata, gentile e pronta, Sergio!!!

"Sergio":
in genere \(n\) è un numero naturale o almeno intero, non un razionale che esprima un rapporto parte/tutto; in genere \(X\) è una variabile aleatoria, non un numero
Intendevo che $X$ fosse una variabile aleatoria binomiale rappresentante quanti elementi in un campione posseggono la proprietà $G$. È una notazione introdotta da me. Mi accorgo adesso che tale notazione è in conflitto con \(\bar{X}\) che, se è la media di $X_1,...,X_c$, allora le $X_i$ sono bernoulliane e ad essere binomiale è \(\sum_{i=1}^c X_i\). Diciamo che bisogna leggere \(X=\sum_{i=1}^c X_i\).


"Sergio":
Mi verrebbe da chiedermi se gli autori danno una definizione chiara di "probabilità induttiva", come mi sembrerebbe doveroso.
Sì, sì, mi scuso per non averla specificata: la probabilità induttiva di un'argomentazione è la probabilità che la conclusione sia vera nell'ipotesi in cui siano vere tutte le premesse.
Avrei detto che, per l'argomentazione "$n%$ di $c$ elementi scelti a caso tra gli $F$ è $G$. Quindi circa $n%$ di tutti gli $F$ è $G$", ciò equivalesse ad un evento di tipo \(\{(n-t)/100\leq p\leq(n+t)/100\}\) con $t\in\mathbb{R}$ (nel caso specifico $z=3$, secondo il significato dato al "circa"), ma visto quanto mi fai notare:
"Sergio":
non puoi dire che \(p=n/100\). Puoi dire che \(p\) è la probabilità che un elemento di \(F\) sia \(G\) e che usi \(n/100\) per stimarla.
direi proprio che tale interpretazione non sia corretta. Quanto a quel \(n/100\), è un grossolano errore di battitura da parte mia. :oops:
Avrei quindi piuttosto l'impressione che, definita una variabile aleatoria \(N/100=\hat{p}\) rappresentante la frazione di elementi del campione che gode della proprietà $G$, la probabilità induttiva della nostra argomentazione, fissato uno $z$ per dare un senso esatto al "circa", coincida con $P((N-t)/100\leq p\leq(N+t)/100)$. Spero che questo non sia un delirio ancora più grosso...


"Sergio":
Preferirei[...]Pazienza.
È quello che volevo dire... Mi scuso per non essere stato abbastanza chiaro.


"Sergio":
\(z\) è una variabile aleatoria, non un numero reale (a meno che non intervenga anche qui una notazione un po' ostrogota).
:oops: Intendevo che $z$ è un numero reale, argomento della funzione di ripartizione della variabile normale \(\frac{\bar{X}-p}{\sqrt{p(1-p)/c}}\)...


"Sergio":
scrivendo \(\hat{p}\) invece di \(n/100\)):\[ P\left(\hat{p}-1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{c}} in quanto \(\Phi(1.96)-\Phi(-1.96)=0.95\).
Già: ho usato proprio l'approssimazione \(\frac{\bar{X}-p}{\sqrt{\hat{p}(1-\hat{p})/c}}\) di \(\frac{\bar{X}-p}{\sqrt{p(1-p)/c}}\) e utilizzato \(n/100\) per stimare $p$ per scrivere \(P\Big(\bar{X}-z\sqrt{\frac{n}{100c}\Big(1-\frac{n}{100}\Big)}\leq p\leq\bar{X}+z\sqrt{\frac{n}{100c}\Big(1-\frac{n}{100}\Big)} \Big)\approx 2\Phi(z)-1\) perché mi sembra che, se $Z$ è una variabile normale e $z\in\mathbb{R}$, valga \(P(Z-z\sigma\leq\mu\leq Z+z\sigma)=2\Phi(z)-1\), e anche\[\frac{\hat{p}-p}{\sqrt{\hat{p}(1-\hat{p})/c}}\sim\mathcal{N}(0,1)\Rightarrow P(\hat{p}-z\sqrt{\hat{p}(1-\hat{p})/c}\leq p\leq\hat{p}+z\sqrt{\hat{p}(1-\hat{p})/c})= 2\Phi(z)-1\]... [EDIT: corretto errore fattomi notare da Sergio, che ringrazio] Giusto?
Quindi direi che basterebbe porre \(z=t\sqrt{\frac{c}{n(100-n)}}\), nel caso specifico $t=3$. Credo che in tal caso potremmo dire di avere ottenuto un'approssimazione di \(P((N-t)/100\leq p\leq(N+t)/100)\).


"Sergio":
Dall'altro, però, l'ampiezza dell'intervallo di confidenza (fissato il suo livello) dipende da \(\displaystyle \sqrt{\frac{\hat{p}(1-\hat{p})}{c}} \), quindi anche da \(\hat{p}=n/100\).
Allora le mie perplessità non erano infondate... Mi sono accorto che scegliendo l'$n$ più "neutro" possibile, cioè 50, i conti tornano... Purtroppo il mio libro non tratta i dettagli matematici della questione, essendo un libro di logica non pensato esclusivamente per studenti di facoltà scientifiche.
$\infty$ grazie ancora!!!

DavideGenova1
"Sergio":
[quote="DavideGenova"]la probabilità induttiva di un'argomentazione è la probabilità che la conclusione sia vera nell'ipotesi in cui siano vere tutte le premesse.
Mah! Se tutte le premesse sono vere, se ne possono dedurre conclusioni vere (non probabilmente vere). O no?[/quote]No, la definizione di probabilità induttiva di un'argomentazione non riguarda solo le argomentazioni deduttivamente valide, ma qualsiasi argomentazione.

"Sergio":
E \(z\) dov'è finito? Non può mica comparire solo a destra... :wink: Diciamo che lo metti anche prima dei segni di radice e lo intendi come quantile della normale.
:lol: :oops: Sì, sì, era quanto volevo dire. Tra l'ora tarda e un po' di arrugginimento... Editato sopra.
Dato che studio queste cose da autodidatta e non ho moltissimo modo per confrontare varianti d'uso, apprezzo molto le precisazioni sulla notazione: grazie! :smt023

"Sergio":
Comunque, se quel "3" fa riferimento alla frase che avevi citato ("Supponiamo di intendere 'circa \(n\) per cento' come se significasse \(n\pm 3\) per cento"), direi che bisogna porre \(z\sigma=0.03\hat{p}\) e che \(z\)

Assumendo che "\(n\pm 3\) per cento di tutti gli $F$ è $G$" significhi "\((n\pm 3)\%\) di tutti gli $F$ è $G$" (direi che è questo che intenda il libro, sperando di non dare i numeri), è quindi sbagliato porre $z\sigma=z\sqrt{n/(100c)(1-n/100)}=0.03$? Non capisco da dove venga $\hat{p}$ nella tua formula...
$\aleph_1$ grazie!!!

DavideGenova1
"Sergio":
A me pare che induzione sia quella cosa per cui, a furia di vedere cigni bianchi (esperienza, non "premesse"), ritieni la conclusione "tutti i cigni sono bianchi" vera. Fino a che non scopri che esistono anche cigni neri.
Aggiustare la presunta verità dell'induzione con una probabilità mi sembra ragionevole, parlare di premesse "vere" no. Quali sarebbero nel caso dei cigni?
Secondo la definizione di probabilità induttiva \(P(A|B)\) di un'argomentazione \(B\vdash A\), data dal Varzi-Nolt-Rohatyn, direi che, data l'argomentazione

    Tutti i cigni finora osservati sono bianchi.[/list:u:spzw2fk0]
      \(\therefore\)Tutti i cigni sono bianchi[/list:u:spzw2fk0]la sua probabilità induttiva sia \(P(\{\)è vero che tutti i cigni sono bianchi\(\}|\{\)è vero che tutti i cigni finora osservati sono bianchi\(\})\), che è comunque lo stesso di \(P(\{\)tutti i cigni sono bianchi\(\}|\{\)i cigni finora osservati sono bianchi\(\})\) identificando, come illustra il mio testo di logica, la probabilità di un evento con la probabilità che sia vera l'asserzione che lo afferma. In assenza di un'argomentazione costituita da premesse e conclusione, per la definizione che ho io di argomentazione, non sono al corrente una definizione di probabilità induttiva. Spero di aver compreso ciò che dice il libro...

      "Sergio":
      \(\hat{p}\) non è altro che \(n/100\). Per il resto, \(0.03\) non è un numero puro, ma una percentuale: è il 3 per cento di qualcosa.
      Mmh... Sono in alto mare: "\(n\pm 3\) per cento di tutti gli $F$" significa $\frac{n\pm 3}{100}\cdot\#F$ dove chiamo $#F$ il numero di tutti gli $F$ o do i numeri (con reimbussolamento perché temo di averne dati già troppi)?
      Se tale mia interpretazione non è scorretta, direi che vogliamo che sia\[P\Big(\hat{p}-z\sqrt{\frac{n}{100c}\Big(1-\frac{n}{100}\Big)}\leq p\leq\hat{p}+z\sqrt{\frac{n}{100c}\Big(1-\frac{n}{100}\Big)} \Big)\approx P\Big(\hat{p}-\frac{3}{100} \leq p\leq\hat{p}+\frac{3}{100} \Big)\]dove $\hat{p}$ è la stessa cosa della variabile aleatoria \(N/100\) che ho introdotto nel post precedente per rappresentare la percentuale di un campione che soddisfi la proprietà $G$, perciò mi pare che, per approssimare \(P((N-3)/100\leq p\leq(N+3)/100)\), si debba imporre che \(z\sqrt{\frac{n}{100c}(1-\frac{n}{100})}=0.03\). Dove sbaglio?

      Comunque, sì, è un testo introduttivo.
      $\aleph_2$ grazie!!! :wink:

DavideGenova1
"Sergio":
[quote="DavideGenova"]direi che vogliamo che sia\[P\Big(\hat{p}-z\sqrt{\frac{n}{100c}\Big(1-\frac{n}{100}\Big)}\leq p\leq\hat{p}+z\sqrt{\frac{n}{100c}\Big(1-\frac{n}{100}\Big)} \Big)\approx P\Big(\hat{p}-\frac{3}{100} \leq p\leq\hat{p}+\frac{3}{100} \Big)\]dove $\hat{p}$ è la stessa cosa della variabile aleatoria \(N/100\) che ho introdotto nel post precedente per rappresentare la percentuale di un campione che soddisfi la proprietà $G$, perciò mi pare che, per approssimare \(P((N-3)/100\leq p\leq(N+3)/100)\), si debba imporre che \(z\sqrt{\frac{n}{100c}(1-\frac{n}{100})}=0.03\). Dove sbaglio?
[...] A me pare che "\(n\pm 3\) per cento" voglia dire che se \(n=30\) allora \(p\in[0.291,0.309]\), mentre se \(n=40\) allora \(p\in[0.388,0.412]\).[/quote]Abbi pazienza, sono un po' duro di comprendonio: da dove ricavi gli estremi degli intervalli? Se diciamo "circa $30$ [=$30\pm 3$] per cento di tutti gli $F$ è $G$" diciamo \(p\in[0.27,0.33]\), e rispettivamente "circa $40$ [=$40\pm 3$] per cento di tutti gli $F$ è $G$", diciamo \(p\in[0.27,0.33]\) e rispettivamente \(p\in[0.37,0.43]\), giusto (spero)?
Tante grazie di cuore ancora!!!

DavideGenova1
Ah, ho capito dove differiva la nostra interpretazione del testo. Se avesse usato una notazione più matematica, che, nonostante sia un testo pensato anche per esempio per studenti di filosofia, in altri contesti è per fortuna utilizzata, non ci sarebbe stata differenza.
$\aleph_3$ grazie!!! :wink:

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.