La mia paginetta sul rischio quadratico
Ho scritto un pezzo sul rischio quadratico, poco più che un copia&incolla fra due o tre testi reperibili in rete, e vorrei proporvelo per controllare se il discorso è rigoroso e se non ci sono errori. Mi raccomando, siate spietati
Definizione. Data una stima $U$ della funzione $g(\theta)$, si dice rischio (quadratico) il numero
$R(U,\theta)=\mathbb{E}^\theta[(U-g(\theta))^2]$
Proposizione. Se $U$ è una stima corretta, allora $R(\theta,U)=Var^\theta(U)$.
Dimostrazione.
$R(\theta,U) = \mathbb{E}^\theta[(U-g(\theta))^2]= \mathbb{E}^\theta[(U-\mathbb{E}^\theta+\mathbb{E}^\theta-g(\theta))^2]=$
$=\mathbb{E}^\theta[(U-\mathbb{E}^\theta)^2]+(\mathbb{E}^\theta-g(\theta))^2-2(\mathbb{E}^\theta-g(\theta))\mathbb{E}^\theta[U-\mathbb{E}^\theta]=$
$= Var^\theta(U)+(\mathbb{E}^\theta-g(\theta))^2= Var^\theta(U)$
Osservazione. Ha senso parlare di rischio anche se, per qualche $\theta$, la stima $U$ non ha momento secondo: in tal caso il rischio è uguale a $+oo$. Tuttavia nel seguito del paragrafo si suppone che tutte le stime considerate abbiano momento secondo rispetto a ogni probabilità $\mathbb{P}^\theta$.
Considerando che la varianza misura il grado di oscillazione della variabile intorno al suo valor medio, lo stimatore corretto sarà da considerare tanto più buono quanto più piccolo sarà il rischio. Si ha dunque il seguente criterio di ordinamento parziale tra le stime:
- $U$ è preferibile a $V$ se per ogni $\theta$ risulta $R(\theta,U)\leq R(\theta,V)$;
- $U$ è strettamente preferibile a $V$ se è preferibile ed esiste (almeno) un parametro $\bar\theta$ tale che $R(\theta,U)
- $U$ è ammissibile se non esistono stime strettamente preferibili a $U$;
- $U$ è ottimale se è preferibile a ogni altra stima.
Essendo $R$ una funzione di $\theta$, può succedere che uno stimatore sia migliore di un altro per certi valori di $\theta$ e peggiore per altri, dunque due stime non sono necessariamente confrontabili.
Esempio. Una moneta di cui si ignora l'onestà, viene lanciata 1000 volte, ottenendo 447 teste. Si può affermare che la moneta sia onesta?
Un modello statistico adeguato al problema può essere definito da
$\Omega =\{0, 1\}^{1000}\quad\quad L(\theta;k_1,...,k_{1000})=\theta^k(1-\theta)^{1000-k}$
dove $k$ è il numero di successi (di teste) presenti nella sequenza $\omega$, cioè $k=k_1+...+k_{1000}$ e $L$ è la verosimiglianza, con il campione di variabili aleatorie $X_i$ (proiezioni canoniche di indice $i$) di taglia 1000 e legge di Bernoulli di parametro $\theta$.
Si vuole individuare $\theta$ (oppure una funzione $f(\theta)$), a partire dalla osservazione $\omega$ (in questo caso la realizzazione di 447 teste) e per fare ciò si introducono le due seguenti stime
$V(\omega) = X_1(\omega)$
$U(\omega) = \frac{1}{1000}\sum_{i=1}^{1000}X_i(\omega)$
(la $V$ stima $\theta$ con il valore $1$ se il primo lancio è un successo, oppure con $0$ se al primo lancio esce una croce, mentre la $U$ stima $\theta$ con la proporzione di teste ottenute nei 1000 lanci considerati, in questo caso $U(\omega)=0.447$).
Le due stime sono entrambe corrette, infatti
$\mathbb{E}^\theta[V]=\mathbb{E}^\theta[X_i]=\theta$
$\mathbb{E}^\theta=\mathbb{E}^\theta [ \frac{1}{1000}\sum_{i=1}^{1000}X_i ]=\frac{1}{1000}\sum_{i=1}^{1000}\mathbb{E}^\theta[X_i]=\frac{1000\theta}{1000}=\theta$
Ma calcoliamo i rispettivi rischi:
$R(\theta,V)=\mathbb{E}^\theta[(X_1-\theta)^2]=Var^\theta(X_1)+(\mathbb{E}^\theta[X_1]-\theta)^2=\theta(1-\theta)$
$R(\theta,U)=\frac{\theta(1-\theta)}{1000}$
dai quali si vede subito che $U$ è strettamente preferibile a $V$ e che quindi la stima $V$ non è ammissibile.

Definizione. Data una stima $U$ della funzione $g(\theta)$, si dice rischio (quadratico) il numero
$R(U,\theta)=\mathbb{E}^\theta[(U-g(\theta))^2]$
Proposizione. Se $U$ è una stima corretta, allora $R(\theta,U)=Var^\theta(U)$.
Dimostrazione.
$R(\theta,U) = \mathbb{E}^\theta[(U-g(\theta))^2]= \mathbb{E}^\theta[(U-\mathbb{E}^\theta+\mathbb{E}^\theta-g(\theta))^2]=$
$=\mathbb{E}^\theta[(U-\mathbb{E}^\theta)^2]+(\mathbb{E}^\theta-g(\theta))^2-2(\mathbb{E}^\theta-g(\theta))\mathbb{E}^\theta[U-\mathbb{E}^\theta]=$
$= Var^\theta(U)+(\mathbb{E}^\theta-g(\theta))^2= Var^\theta(U)$
Osservazione. Ha senso parlare di rischio anche se, per qualche $\theta$, la stima $U$ non ha momento secondo: in tal caso il rischio è uguale a $+oo$. Tuttavia nel seguito del paragrafo si suppone che tutte le stime considerate abbiano momento secondo rispetto a ogni probabilità $\mathbb{P}^\theta$.
Considerando che la varianza misura il grado di oscillazione della variabile intorno al suo valor medio, lo stimatore corretto sarà da considerare tanto più buono quanto più piccolo sarà il rischio. Si ha dunque il seguente criterio di ordinamento parziale tra le stime:
- $U$ è preferibile a $V$ se per ogni $\theta$ risulta $R(\theta,U)\leq R(\theta,V)$;
- $U$ è strettamente preferibile a $V$ se è preferibile ed esiste (almeno) un parametro $\bar\theta$ tale che $R(\theta,U)
- $U$ è ottimale se è preferibile a ogni altra stima.
Essendo $R$ una funzione di $\theta$, può succedere che uno stimatore sia migliore di un altro per certi valori di $\theta$ e peggiore per altri, dunque due stime non sono necessariamente confrontabili.
Esempio. Una moneta di cui si ignora l'onestà, viene lanciata 1000 volte, ottenendo 447 teste. Si può affermare che la moneta sia onesta?
Un modello statistico adeguato al problema può essere definito da
$\Omega =\{0, 1\}^{1000}\quad\quad L(\theta;k_1,...,k_{1000})=\theta^k(1-\theta)^{1000-k}$
dove $k$ è il numero di successi (di teste) presenti nella sequenza $\omega$, cioè $k=k_1+...+k_{1000}$ e $L$ è la verosimiglianza, con il campione di variabili aleatorie $X_i$ (proiezioni canoniche di indice $i$) di taglia 1000 e legge di Bernoulli di parametro $\theta$.
Si vuole individuare $\theta$ (oppure una funzione $f(\theta)$), a partire dalla osservazione $\omega$ (in questo caso la realizzazione di 447 teste) e per fare ciò si introducono le due seguenti stime
$V(\omega) = X_1(\omega)$
$U(\omega) = \frac{1}{1000}\sum_{i=1}^{1000}X_i(\omega)$
(la $V$ stima $\theta$ con il valore $1$ se il primo lancio è un successo, oppure con $0$ se al primo lancio esce una croce, mentre la $U$ stima $\theta$ con la proporzione di teste ottenute nei 1000 lanci considerati, in questo caso $U(\omega)=0.447$).
Le due stime sono entrambe corrette, infatti
$\mathbb{E}^\theta[V]=\mathbb{E}^\theta[X_i]=\theta$
$\mathbb{E}^\theta=\mathbb{E}^\theta [ \frac{1}{1000}\sum_{i=1}^{1000}X_i ]=\frac{1}{1000}\sum_{i=1}^{1000}\mathbb{E}^\theta[X_i]=\frac{1000\theta}{1000}=\theta$
Ma calcoliamo i rispettivi rischi:
$R(\theta,V)=\mathbb{E}^\theta[(X_1-\theta)^2]=Var^\theta(X_1)+(\mathbb{E}^\theta[X_1]-\theta)^2=\theta(1-\theta)$
$R(\theta,U)=\frac{\theta(1-\theta)}{1000}$
dai quali si vede subito che $U$ è strettamente preferibile a $V$ e che quindi la stima $V$ non è ammissibile.
Risposte
Leggendo molto velocemente mi sembra corretto.
L'unica cosa è che la dimostrazione della proposizione mi sembra eccessiva: se $U$ è non distorto (corretto) per $g(theta)$, cioè se $E^{theta}=g(theta)$, ovviamente il rischio della funzione di perdita quadratica da te definita è la varianza di $U$, per definizione stessa di varianza.
L'unica cosa è che la dimostrazione della proposizione mi sembra eccessiva: se $U$ è non distorto (corretto) per $g(theta)$, cioè se $E^{theta}=g(theta)$, ovviamente il rischio della funzione di perdita quadratica da te definita è la varianza di $U$, per definizione stessa di varianza.
Altra precisazione:
$R(\theta,U)=\frac{\theta(1-\theta)}{1000^2}$
"retrocomputer":
Ma calcoliamo i rispettivi rischi:
$R(\theta,V)=\mathbb{E}^\theta[(X_1-\theta)^2]=Var^\theta(X_1)+(\mathbb{E}^\theta[X_1]-\theta)^2=\theta(1-\theta)$
$R(\theta,U)=\frac{\theta(1-\theta)}{1000}$
dai quali si vede subito che $U$ è strettamente preferibile a $V$ e che quindi la stima $V$ non è ammissibile.
$R(\theta,U)=\frac{\theta(1-\theta)}{1000^2}$
"frapippo":
L'unica cosa è che la dimostrazione della proposizione mi sembra eccessiva: se $U$ è non distorto (corretto) per $g(theta)$, cioè se $E^{theta}=g(theta)$, ovviamente il rischio della funzione di perdita quadratica da te definita è la varianza di $U$, per definizione stessa di varianza.
Giusto

Diciamo che l'uguaglianza tra rischio e varianza per stime corrette è una conseguenza immediata della definizione di varianza, mentre in generale vale la suddetta scomposizione.
Grazie!

"frapippo":
$R(\theta,U)=\frac{\theta(1-\theta)}{1000^2}$
Questo non mi torna

$Var^\theta(U)=Var^\theta ( \frac{1}{1000}\sum_{i=1}^{1000}X_i )=\frac{1}{1000^2}\sum_{i=1}^{1000}Var^\theta(X_i)=\frac{1}{1000^2}\sum_{i=1}^{1000}\theta(1-\theta)=\frac{1000\theta(1-\theta)}{1000^2}=\frac{\theta(1-\theta)}{1000}$
hai perfettamente ragione..scusa per l'errore grossolano..
Figurati, mi hai dato l'occasione di rifare il conto

Questo altro errore me lo correggo da solo:
$\mathbb{E}^\theta[V]=\mathbb{E}^\theta[X_1]=\theta$
($X_1$ al posto di $X_i$)
"retrocomputer":
Le due stime sono entrambe corrette, infatti
$\mathbb{E}^\theta[V]=\mathbb{E}^\theta[X_i]=\theta$
$\mathbb{E}^\theta[V]=\mathbb{E}^\theta[X_1]=\theta$
($X_1$ al posto di $X_i$)