Dubbio su densita di probabilità condizionata
Ciao a tutti, ho un dubbio concettuale sulla possibilità o meno di considerare il condizionamento probabilistico nell'evoluzione temporale di una variabile casuale.
Volevo stimare il tempo di arrivo di un bus intercorrente dal mio arrivo in una fermata.
Bene, stavo pensando, se io uso una variabile casuale $T$ che misura la distanza tra il mio arrivo in fermata e l'arrivo del bus, credo che dopo che ho aspettato un tempo $t$ senza che il mio bus non sia ancora ancora arrivato la distribuzione di $T$ cambi.
Posso quindi affermare che la distribuzione di $T$ sia condizionata al tempo trascroso? Ovvero che:
$F_0(T) != F_t(T | T > t)$
in questo caso posso affermare che sia la densità $f_t$ che la cumulata $F_t$ valgono $0$ fino a $t$ e poi inizino il loro andamento?
Direi che accadrebbe la medesima cosa se al posto di pensare alla variabile casuale $T$ pensassi alla v.c. $Y$ che misura il mio tempo residuo di attesa in $t$, ovvero:
$F_{Y_0}(Y) != F_{Y_t}(Y| T > t)$
grazie per l'aiuto!
Volevo stimare il tempo di arrivo di un bus intercorrente dal mio arrivo in una fermata.
Bene, stavo pensando, se io uso una variabile casuale $T$ che misura la distanza tra il mio arrivo in fermata e l'arrivo del bus, credo che dopo che ho aspettato un tempo $t$ senza che il mio bus non sia ancora ancora arrivato la distribuzione di $T$ cambi.
Posso quindi affermare che la distribuzione di $T$ sia condizionata al tempo trascroso? Ovvero che:
$F_0(T) != F_t(T | T > t)$
in questo caso posso affermare che sia la densità $f_t$ che la cumulata $F_t$ valgono $0$ fino a $t$ e poi inizino il loro andamento?
Direi che accadrebbe la medesima cosa se al posto di pensare alla variabile casuale $T$ pensassi alla v.c. $Y$ che misura il mio tempo residuo di attesa in $t$, ovvero:
$F_{Y_0}(Y) != F_{Y_t}(Y| T > t)$
grazie per l'aiuto!
Risposte
mmm simpatica questione.
Come pensi sia l'andamento di $T$? uniforme?
Come pensi sia l'andamento di $T$? uniforme?
Ciao! Se tutto fosse perfetto $T$ sarebbe uniforme, in realtà non è così, ho fatto qualche prova ed ho visto che si tratta di una curva a campana asimmetrica verso sinistra tipicamente ben rappresentata dalle distribuzioni Gamma e Weibull (ma non solo).
Per farmi capire meglio ho disegnato su questo link gli andamenti che mi aspetterei per le variabili casuali $T$ ed $Y$, condizionandole al tempo che ho già atteso.
Per ricollegarmi a quanto chiesto da hamming_burst, e per farla più semplice
, ho approssimato che le v.c. seguissero una distribuzione uniforme e che si fosse sicuri che il bus passi entro un certo tempo $h$ (e se le cose funzionassero perfettamente sarebbe davvero così!)
Le conclusioni a cui giungo sono:
(a) $T$ varia a seconda del tempo in cui viene valutato e [tex]$F_0(T) < F_t(T \; | \; \text{aver già aspettato del tempo})$[/tex] in tutto il dominio
(b) $Y$ varia a seconda del tempo in cui viene valutato e [tex]$F_{Y_0}(Y) > F_{Y_t}(Y \; | \; \text{aver già aspettato del tempo})$[/tex] in tutto il dominio
(c) questi ordinamenti sono validi per ogni istante di tempo $t_1
Credo che questi risultati siano verosimili ed indipendenti dalle distribuzioni usate. Il problema è che ho provato a fare calcoli medesimi con delle cdf di Weibull, distribuzione molto più verosimile, ma i parametri stimati non evidenziano questa dominanza tra le funzioni...dove sto sbagliando (forse la stima è imprecisa)?
Grazie
Per ricollegarmi a quanto chiesto da hamming_burst, e per farla più semplice

Le conclusioni a cui giungo sono:
(a) $T$ varia a seconda del tempo in cui viene valutato e [tex]$F_0(T) < F_t(T \; | \; \text{aver già aspettato del tempo})$[/tex] in tutto il dominio
(b) $Y$ varia a seconda del tempo in cui viene valutato e [tex]$F_{Y_0}(Y) > F_{Y_t}(Y \; | \; \text{aver già aspettato del tempo})$[/tex] in tutto il dominio
(c) questi ordinamenti sono validi per ogni istante di tempo $t_1
Credo che questi risultati siano verosimili ed indipendenti dalle distribuzioni usate. Il problema è che ho provato a fare calcoli medesimi con delle cdf di Weibull, distribuzione molto più verosimile, ma i parametri stimati non evidenziano questa dominanza tra le funzioni...dove sto sbagliando (forse la stima è imprecisa)?
Grazie
ok, la questione sembra interessante (io continuo a vedere un qualche tipo di processo che sia Poisson od altro)
cmq leggo tutto meglio e provo a vedere se riesco ad aiutarti in un momento migliore, ora sono a terra.
cmq leggo tutto meglio e provo a vedere se riesco ad aiutarti in un momento migliore, ora sono a terra.

Grazie mille hamming_burst, spero che alla fine quello che ho postato sia verosimile 
Alla fine le dominanze stocastiche che ho espresso nel punto (a) e nel punto (b) credo che siano così proprio "per costruzione". Guarda ad $Y$ (il tempo residuo d'attesa), ad esempio. Se un bus si sta avvicinando al mio punto credo sia plausibile dire che:
\[
P(Y < y \; | \; \text{ho aspettato} \; t_1) < P(Y < y \; | \; \text{ho aspettato} \; t_2) \;\;\; \text{con} \; t_1< t_2
\]
Infatti il mio tempo di attesa residuale va ad abbassarsi mano a mano che l'attesa prosegue (ed il bus si avvicina verso la fermata)...
grazie in anticipo!

Alla fine le dominanze stocastiche che ho espresso nel punto (a) e nel punto (b) credo che siano così proprio "per costruzione". Guarda ad $Y$ (il tempo residuo d'attesa), ad esempio. Se un bus si sta avvicinando al mio punto credo sia plausibile dire che:
\[
P(Y < y \; | \; \text{ho aspettato} \; t_1) < P(Y < y \; | \; \text{ho aspettato} \; t_2) \;\;\; \text{con} \; t_1< t_2
\]
Infatti il mio tempo di attesa residuale va ad abbassarsi mano a mano che l'attesa prosegue (ed il bus si avvicina verso la fermata)...
grazie in anticipo!
Niente, non riesco ad uscire, con l'uniforme la dominanza stocastica del primo ordine funziona correttamente, con altre distribuzioni definite su [tex]$[0,+\infty)$[/tex] no.
Eppure dovrebbe esserci sempre dominanza stocastica...non capisco...dove sto sbagliando?
Grazie!
Eppure dovrebbe esserci sempre dominanza stocastica...non capisco...dove sto sbagliando?
Grazie!
Ciao,
ho letto tutto con un po' più di calma
Allora, purtroppo non posso esserti di aiuto. Quello che avevo in mente all'inizio è diverso da quello che chiedi negli ultimi post ed è anche po' incriccato.
Il problema dell'autobus cmq mi aveva ricordato qualcosa e cercando meglio, per legare il tuo discorso al condizionamento probabilistico, ho trovato questo: http://www.uniroma2.it/didattica/TFA1MS ... to/mms.pdf pag 10.
Vedi se ti è utile.
ho letto tutto con un po' più di calma
Allora, purtroppo non posso esserti di aiuto. Quello che avevo in mente all'inizio è diverso da quello che chiedi negli ultimi post ed è anche po' incriccato.
Il problema dell'autobus cmq mi aveva ricordato qualcosa e cercando meglio, per legare il tuo discorso al condizionamento probabilistico, ho trovato questo: http://www.uniroma2.it/didattica/TFA1MS ... to/mms.pdf pag 10.
Vedi se ti è utile.
Ciao hamming_burst grazie per la risposta! Provo a guardare con calma le dispense che mi hai linkato. : )
Il problema che ho non è solo dovuto al condizionamento. O meglio, io mi aspetto un determinato comportamento dalle funzioni di ripartizione condizionate (al crescere del tempo dovrebbero stare completamente una sopra l'altra), invece non è così... :/
non capisco questa cosa...
Il problema che ho non è solo dovuto al condizionamento. O meglio, io mi aspetto un determinato comportamento dalle funzioni di ripartizione condizionate (al crescere del tempo dovrebbero stare completamente una sopra l'altra), invece non è così... :/
non capisco questa cosa...
Prima di tutto qualche idea sulla distribuzione del tempo di attesa.
1) Distribuzione uniforme. Visione ottimistica. Pdf costante nel rettangolo. Massima prevedibilità. Dopo un tempo t1 di attesa la distribuzione “rimanente” resta un rettangolo, ma con una base più corta ed un’ altezza corrispondentemente maggiore, in modo che l’ area rimanga 1. Questa è la situazione in cui gli autobus passano regolarmente ogni tot minuti, ma io non so l’ orario e comincio l’ attesa in un momento a caso.
2) Distribuzione di Poisson. Visione assolutamente pessimistica. Totale indipendenza fra i vari passaggi di autobus. L’ interarrival time ha distribuzione negativa esponenziale. Non ha memoria, come sappiamo tutti. Ma non ha nemmeno insight nel futuro. E’ solo garantito che ci sono , ad esempio mediamente 2 autobus all’ ora, il tempo che intercorre fra un passaggio e l’ altro è quindi mediamente 30 minuti. Il tempo medio di attesa quando mi presento io è dunque 30 minuti. E dopo ad esempio 10 minuti, la mia situazione non è minimamente migliorata: il tempo medio di attesa resta altri 30 minuti. Man mano che passa il tempo non migliora la possibilità che l’ autobus stia per arrivare. Strano ma vero. La pdf dopo il tempo t1 non è dunque cambiata
3) Distribuzione di Weibull. Intanto escludiamo quella a tre parametri (il terzo parametro, quello dell’ invecchiamento, non mi pare che abbia un corrispondente per gli autobus). Quella a due parametri mi sembra altrettanto inapplicabile: usando la notazione di wikipedia, lambda dipende solo dalla scala dei tempi e non è influente, k invece determina la forma della pdf. Se k=1 ricadiamo nella negativa esponenziale, già esaminata. Per K>1 abbiamo delle forme della pdf inverosimili. Partono da 0 , raggiungono un massimo e poi scendono a zero. Non è possibile che come mi metto in attesa abbia una pdf inizialmente nulla e solo dopo un po’ di tempo raggiunga il massimo. O la pdf è costante (caso rettangolare uniforme) oppure è monotona calante. Per K<1 abbiamo la forma giusta, ma la variabilità è ancora più accentuata che non la pdf dell’ esponenziale negativa: non possiamo accettare / sperare che la pdf inziale sia maggiore di quella che avremmo con la totale indipendenza di autobus.
4) La distribuzione più realistica secondo me è data da una uniforme rettangolare + una distribuzione normale di adeguata varianza (piccola nelle prime fermate, più grandi vicino al capolinea). Ad esempio 30 minuti di intervallo medio e deviazione standard di due minuti di gaussiana.
Quindi la distribuzione del tempo di attesa iniziale è rettangolare da 0 a 24 minuti (30-3 deviazioni standard da due minuti l’ una), scende al 50% in corrispondenza del valore 30 minuti, scendendo praticamente a zero in corrispondenza del valore 36 minuti
Ora, la probabilità condizionata.
Se la distribuzione del tempo di attesa è quest’ ultima che ho definito più realistica è facile anche ricalcolare la pdf supponendo che siano trascorsi T minuti invano. Avremo un rettangolo accorciato di T minuti e di altezza proporzionalmente aumentata in modo che l’ area del rettangolo da T a 30 sia 1. Durante i primi 24 minuti le chances che stia arrivando l’ autobus aumentano in continuazione; trascorsi 24 minuti inutilmente (l’ 80% di 30 minuti) , ne restano 6ed in quel momento la pdf è quintuplicata rispetto a quella iniziale etc
1) Distribuzione uniforme. Visione ottimistica. Pdf costante nel rettangolo. Massima prevedibilità. Dopo un tempo t1 di attesa la distribuzione “rimanente” resta un rettangolo, ma con una base più corta ed un’ altezza corrispondentemente maggiore, in modo che l’ area rimanga 1. Questa è la situazione in cui gli autobus passano regolarmente ogni tot minuti, ma io non so l’ orario e comincio l’ attesa in un momento a caso.
2) Distribuzione di Poisson. Visione assolutamente pessimistica. Totale indipendenza fra i vari passaggi di autobus. L’ interarrival time ha distribuzione negativa esponenziale. Non ha memoria, come sappiamo tutti. Ma non ha nemmeno insight nel futuro. E’ solo garantito che ci sono , ad esempio mediamente 2 autobus all’ ora, il tempo che intercorre fra un passaggio e l’ altro è quindi mediamente 30 minuti. Il tempo medio di attesa quando mi presento io è dunque 30 minuti. E dopo ad esempio 10 minuti, la mia situazione non è minimamente migliorata: il tempo medio di attesa resta altri 30 minuti. Man mano che passa il tempo non migliora la possibilità che l’ autobus stia per arrivare. Strano ma vero. La pdf dopo il tempo t1 non è dunque cambiata
3) Distribuzione di Weibull. Intanto escludiamo quella a tre parametri (il terzo parametro, quello dell’ invecchiamento, non mi pare che abbia un corrispondente per gli autobus). Quella a due parametri mi sembra altrettanto inapplicabile: usando la notazione di wikipedia, lambda dipende solo dalla scala dei tempi e non è influente, k invece determina la forma della pdf. Se k=1 ricadiamo nella negativa esponenziale, già esaminata. Per K>1 abbiamo delle forme della pdf inverosimili. Partono da 0 , raggiungono un massimo e poi scendono a zero. Non è possibile che come mi metto in attesa abbia una pdf inizialmente nulla e solo dopo un po’ di tempo raggiunga il massimo. O la pdf è costante (caso rettangolare uniforme) oppure è monotona calante. Per K<1 abbiamo la forma giusta, ma la variabilità è ancora più accentuata che non la pdf dell’ esponenziale negativa: non possiamo accettare / sperare che la pdf inziale sia maggiore di quella che avremmo con la totale indipendenza di autobus.
4) La distribuzione più realistica secondo me è data da una uniforme rettangolare + una distribuzione normale di adeguata varianza (piccola nelle prime fermate, più grandi vicino al capolinea). Ad esempio 30 minuti di intervallo medio e deviazione standard di due minuti di gaussiana.
Quindi la distribuzione del tempo di attesa iniziale è rettangolare da 0 a 24 minuti (30-3 deviazioni standard da due minuti l’ una), scende al 50% in corrispondenza del valore 30 minuti, scendendo praticamente a zero in corrispondenza del valore 36 minuti
Ora, la probabilità condizionata.
Se la distribuzione del tempo di attesa è quest’ ultima che ho definito più realistica è facile anche ricalcolare la pdf supponendo che siano trascorsi T minuti invano. Avremo un rettangolo accorciato di T minuti e di altezza proporzionalmente aumentata in modo che l’ area del rettangolo da T a 30 sia 1. Durante i primi 24 minuti le chances che stia arrivando l’ autobus aumentano in continuazione; trascorsi 24 minuti inutilmente (l’ 80% di 30 minuti) , ne restano 6ed in quel momento la pdf è quintuplicata rispetto a quella iniziale etc
Una domanda: ma te questo problema lo pensi descrivibile sotto un certo tipo di processo?
La mia domanda sull'andamento di $T$ era dovuta ad alcune proprietà che legano i processi di Poisson ed i tempi aleatori con distribuzioni condizionate e l'uniformità mi sembra una naturale conseguenza. Ma i tuoi ultimi post mi hanno un po' deviato e fatto pensare che non c'entrasse molto con il tuo problema.
EDIT:
scritto prima della risposta di topi, ma domanda ancora valida.
La mia domanda sull'andamento di $T$ era dovuta ad alcune proprietà che legano i processi di Poisson ed i tempi aleatori con distribuzioni condizionate e l'uniformità mi sembra una naturale conseguenza. Ma i tuoi ultimi post mi hanno un po' deviato e fatto pensare che non c'entrasse molto con il tuo problema.
EDIT:
scritto prima della risposta di topi, ma domanda ancora valida.
Ciao topi, grazie mille, fantastica la tua disamina
Vado con ordine:
1) Concordo pienamente, funzionerebbe così in un mondo perfetto
2) Assolutamente sì, è il cosiddetto paradosso dei tempi d'attesa, se non erro!
3) Avevo provato ad usare un'istanza a due parametri, quello di forma e di scala. I risultati in questione mi venivano con delle k>1, devo convenire con le tue osservazioni. Non ho solo ben capito questo passaggio:
Questo non l'ho capito, perché?
Perché la pdf in 0 non può essere nulla?
4) dunque se ho capito bene dovrei agganciare due distribuzioni. Prima avrei una uniforme e poi una normale che inizia subito dopo l'uniforme (scusa se la domanda ti sembra banale ma non ho mai avuto a che fare, operativamente, con un discorso simile a quello che mi hai descritto in questo punto) corretto?
Perfetto, quindi per quanto concerne il condizionamento direi che accade qualcosa di simile a quanto descritto su questo link (per una uniforme), compreso il discorso di dominanza stocastica!
...Grazie mille!



Vado con ordine:
1) Concordo pienamente, funzionerebbe così in un mondo perfetto
2) Assolutamente sì, è il cosiddetto paradosso dei tempi d'attesa, se non erro!
3) Avevo provato ad usare un'istanza a due parametri, quello di forma e di scala. I risultati in questione mi venivano con delle k>1, devo convenire con le tue osservazioni. Non ho solo ben capito questo passaggio:
"topi":
. Per K<1 abbiamo la forma giusta, ma la variabilità è ancora più accentuata che non la pdf dell’ esponenziale negativa: non possiamo accettare / sperare che la pdf iniziale sia maggiore di quella che avremmo con la totale indipendenza di autobus.
Questo non l'ho capito, perché?
"topi":
Per K>1 abbiamo delle forme della pdf inverosimili. Partono da 0 , raggiungono un massimo e poi scendono a zero. Non è possibile che come mi metto in attesa abbia una pdf inizialmente nulla e solo dopo un po’ di tempo raggiunga il massimo. O la pdf è costante (caso rettangolare uniforme) oppure è monotona calante.
Perché la pdf in 0 non può essere nulla?
4) dunque se ho capito bene dovrei agganciare due distribuzioni. Prima avrei una uniforme e poi una normale che inizia subito dopo l'uniforme (scusa se la domanda ti sembra banale ma non ho mai avuto a che fare, operativamente, con un discorso simile a quello che mi hai descritto in questo punto) corretto?
Perfetto, quindi per quanto concerne il condizionamento direi che accade qualcosa di simile a quanto descritto su questo link (per una uniforme), compreso il discorso di dominanza stocastica!
...Grazie mille!

"hamming_burst":
Una domanda: ma te questo problema lo pensi descrivibile sotto un certo tipo di processo?
[...]
Ciao hamming_burst, sì in effetti non ho specificato. Io vorrei trattare il problema dal punto di vista più reale possibile, per questo immaginavo che bene o male i bus rispettassero una sorta di intertempo, e mi sembrava ragionevole assumere che i vari passaggi dei bus non fossero indipendenti.
Però continuavo a scontrarmi con la stima della distribuzione basata su dati reali che sconvolgeva l'assunzione che:
\[
P(Y < y \; | \; \text{ho aspettato} \; t_1) < P(Y < y \; | \; \text{ho aspettato} \; t_2) \;\;\; \text{con} \; t_1< t_2
\]
(questo per mia ignoranza statistica)

Ciao, stavo ancora riflettendo sul problema e stavo pensando come a stimare la distribuzione che mi consigliava topi.
Se ho capito bene dovrei pensare ad una distribuzione rettangolare fino ad un certo valore (il valore di attesa nominale della linea meno 3 deviazioni standard) e poi da lì in poi agganciarci il ramo decrescente di una distribuzione normale, per cui le aree si distribuiscono 50 e 50.
Ho raccolto dei dati di passaggio di una linea di bus, questi possono aiutare per stimare l'uniforme e la normale che compongo la distribuzione complessiva dei tempi d'attesa e se sì come?
Ad esempio per stimare i parametri della Weibull avevo usato i tempi di passaggio per calcolare i tempi di attesa. Simulavo degli scenari di arrivo alla fermata sulla base di tutti i possibili orari di arrivo di un passeggero e calcolavo le relative attese.
Se ho capito bene dovrei pensare ad una distribuzione rettangolare fino ad un certo valore (il valore di attesa nominale della linea meno 3 deviazioni standard) e poi da lì in poi agganciarci il ramo decrescente di una distribuzione normale, per cui le aree si distribuiscono 50 e 50.
Ho raccolto dei dati di passaggio di una linea di bus, questi possono aiutare per stimare l'uniforme e la normale che compongo la distribuzione complessiva dei tempi d'attesa e se sì come?
Ad esempio per stimare i parametri della Weibull avevo usato i tempi di passaggio per calcolare i tempi di attesa. Simulavo degli scenari di arrivo alla fermata sulla base di tutti i possibili orari di arrivo di un passeggero e calcolavo le relative attese.
Assumendo la n.4 io procederei così:
cronometraggio dell'orario di passaggio di una serie abbastanza lunga (es un turno di 8 ore. attenzione che non ci siano delle variazioni già stabilite dall' azienda nell' ambito di quel turno. ad es dalle 7 alle 9 frequenza 4 all' ora; dalle 9 alle 12 frequenza 2 all' ora etc). Naturalmente nell' ipotesi che nella fermata interessi uno specifico autobus e non il primo che vada nella direzione che mi interessa, cosa frequente ad es nelle stazioni della metro). Il tempo medio intercorrente fra un passaggio e l' altro costituisce già la base del rettangolo.
Le devizioni dei vari intervalli rispetto a tale media permettono di stimare senza altri calcoli la dev standard della gaussiana.
SE non ricordo male considera il 63% dei valori (positivi o negativi) più vicini allo zero: essi corrispondono alla prima deviazione standard nei due sensi. Se i dati non sono sufficienti si puo' effettuare lo stesso cronometraggio in vari giorni successivi. Non ti meravigliare se le deviazioni sono a volte forti ed altre modeste: forse in una situazione concreta potrebbe essere più accurato avere un modello valido per le ore di punta ed una altro per le ore di scarso traffico; ma questa indagine puo' essere fatta anche in un secondo tempo.
Dubbio da te espresso nel precedente messaggio. La Weibull con il parametro di forma <1 parte da valori altissimi per t=0 (concetto che va benissimo per i componenti elettronici che hanno una forte probabilità di guasto immediato, inverosimile invece avere una straordinaria fortuna appena si arriva alla fermata)
cronometraggio dell'orario di passaggio di una serie abbastanza lunga (es un turno di 8 ore. attenzione che non ci siano delle variazioni già stabilite dall' azienda nell' ambito di quel turno. ad es dalle 7 alle 9 frequenza 4 all' ora; dalle 9 alle 12 frequenza 2 all' ora etc). Naturalmente nell' ipotesi che nella fermata interessi uno specifico autobus e non il primo che vada nella direzione che mi interessa, cosa frequente ad es nelle stazioni della metro). Il tempo medio intercorrente fra un passaggio e l' altro costituisce già la base del rettangolo.
Le devizioni dei vari intervalli rispetto a tale media permettono di stimare senza altri calcoli la dev standard della gaussiana.
SE non ricordo male considera il 63% dei valori (positivi o negativi) più vicini allo zero: essi corrispondono alla prima deviazione standard nei due sensi. Se i dati non sono sufficienti si puo' effettuare lo stesso cronometraggio in vari giorni successivi. Non ti meravigliare se le deviazioni sono a volte forti ed altre modeste: forse in una situazione concreta potrebbe essere più accurato avere un modello valido per le ore di punta ed una altro per le ore di scarso traffico; ma questa indagine puo' essere fatta anche in un secondo tempo.
Dubbio da te espresso nel precedente messaggio. La Weibull con il parametro di forma <1 parte da valori altissimi per t=0 (concetto che va benissimo per i componenti elettronici che hanno una forte probabilità di guasto immediato, inverosimile invece avere una straordinaria fortuna appena si arriva alla fermata)
Ciao e ancora grazie per la tua risposta,
Non credo di aver capito qual è la forma della pdf di questa distribuzione.
Diciamo di aver calcolato che l'intertempo medio di passaggio di un pullman della stessa linea sia $8,70$ minuti e che la deviazione standard sia $5,18$ minuti, quale di queste forme somiglia di più alla tua idea di distribuzione?
ipotesi 1
ipotesi 2
ipotesi 3
Tieni conto che l'area sottesa dal totale di questa funzione a tratti deve essere 1. In che modo tale distribuzione garantisce tale requisito? Mi era sembrato di capire che la parte rettangolare di questa distribuzione dovrebbe sottendere il $50%$ dell'area totale.
Quando vado a condizionare la distribuzione al passare di $t$ so come far variare la parte rettangolare della distribuzione, ma il tratto della normale? La deviazione standard rimane costante e Cambia solo la media?
Infine quando $t$ sarà più grande del limite destro della parte rettangolare, come stimo la normale restante?
PS: lo so che i grafici sono sbagliati, ma non riesco proprio a capire come sia fatta la pdf.
Non credo di aver capito qual è la forma della pdf di questa distribuzione.
Diciamo di aver calcolato che l'intertempo medio di passaggio di un pullman della stessa linea sia $8,70$ minuti e che la deviazione standard sia $5,18$ minuti, quale di queste forme somiglia di più alla tua idea di distribuzione?
ipotesi 1
ipotesi 2
ipotesi 3
Tieni conto che l'area sottesa dal totale di questa funzione a tratti deve essere 1. In che modo tale distribuzione garantisce tale requisito? Mi era sembrato di capire che la parte rettangolare di questa distribuzione dovrebbe sottendere il $50%$ dell'area totale.
Quando vado a condizionare la distribuzione al passare di $t$ so come far variare la parte rettangolare della distribuzione, ma il tratto della normale? La deviazione standard rimane costante e Cambia solo la media?
Infine quando $t$ sarà più grande del limite destro della parte rettangolare, come stimo la normale restante?
PS: lo so che i grafici sono sbagliati, ma non riesco proprio a capire come sia fatta la pdf.
Quella che assomiglia di più è la 1) , ma non deve avere la discontinuità e non deve essere di seguito rispetto alla rettangolare. Deve smussare il suo gradino finale.
Io non ho mai studiato/ capito come si fa a postare un grafico (se è facile puoi spiegarmelo tu?) ma elenco qui di seguito una tabella che dovrebbe chiarire come procedere.
Ho fatto il caso di uniforme da 30 minuti e gaussiana con dev std di 2 minuti.
Al tempo 0 la pdf è costante e vale 1/30. Per semplicità ho scritto 1 invece di 1/30. Questo anche nel seguito.
Questo valore rimane costante fino al 23mo minuto. Il 24 vale un po' meno di 1 (vale esattamente 1-DISTRIB.NORM.N(24;30;2;VERO) e la stessa formula ho applicato anche al tempo 25 , 26 etc. Al tempo 30 il valore della pdf è 0,5. Corrisponde al fatto che rispetto all' uniforme abbiamo , simmetricamente, un po' di fortuna ed un po' di sfortuna.
Nella terza colonna riporto la pdf dopo 15 minuti: l' altezza del diagramma è raddoppiata (su tutto il tempo che resta) la larghezza si è ridotta di 15 minuti.
Nota: l' area non è esattamente 30 a causa della discretizzazione della funzione pdf che in effetti è continua.
t pdf(0) pdf(15)
0 1 2
1 1 2
2 1 2
3 1 2
4 1 2
5 1 2
6 1 2
7 1 2
8 1 2
9 1 1,997
10 1 1,988
11 1 1,954
12 1 1,866
13 1 1,683
14 1 1,383
15 1 1,000
16 1 0,617
17 1 0,317
18 1 0,134
19 1 0,046
20 1 0,012
21 1 0,003
22 1 0
23 1 0
24 0,999 0
25 0,994 0
26 0,977 0
27 0,933 0
28 0,841 0
29 0,691 0
30 0,500 0
31 0,309 0
32 0,159 0
33 0,067 0
34 0,023 0
35 0,006 0
36 0,001 0
Area 30,50 31,00
Io non ho mai studiato/ capito come si fa a postare un grafico (se è facile puoi spiegarmelo tu?) ma elenco qui di seguito una tabella che dovrebbe chiarire come procedere.
Ho fatto il caso di uniforme da 30 minuti e gaussiana con dev std di 2 minuti.
Al tempo 0 la pdf è costante e vale 1/30. Per semplicità ho scritto 1 invece di 1/30. Questo anche nel seguito.
Questo valore rimane costante fino al 23mo minuto. Il 24 vale un po' meno di 1 (vale esattamente 1-DISTRIB.NORM.N(24;30;2;VERO) e la stessa formula ho applicato anche al tempo 25 , 26 etc. Al tempo 30 il valore della pdf è 0,5. Corrisponde al fatto che rispetto all' uniforme abbiamo , simmetricamente, un po' di fortuna ed un po' di sfortuna.
Nella terza colonna riporto la pdf dopo 15 minuti: l' altezza del diagramma è raddoppiata (su tutto il tempo che resta) la larghezza si è ridotta di 15 minuti.
Nota: l' area non è esattamente 30 a causa della discretizzazione della funzione pdf che in effetti è continua.
t pdf(0) pdf(15)
0 1 2
1 1 2
2 1 2
3 1 2
4 1 2
5 1 2
6 1 2
7 1 2
8 1 2
9 1 1,997
10 1 1,988
11 1 1,954
12 1 1,866
13 1 1,683
14 1 1,383
15 1 1,000
16 1 0,617
17 1 0,317
18 1 0,134
19 1 0,046
20 1 0,012
21 1 0,003
22 1 0
23 1 0
24 0,999 0
25 0,994 0
26 0,977 0
27 0,933 0
28 0,841 0
29 0,691 0
30 0,500 0
31 0,309 0
32 0,159 0
33 0,067 0
34 0,023 0
35 0,006 0
36 0,001 0
Area 30,50 31,00
Con un valore atteso di 8,7 minuti e deviazione standard 5,18 minuti il modello da me proposto è poco accurato , non c' è spazio nemmeno per due deviazioni standard rispetto alla media. Forse è preferibile un tratto a rettangolo ed uno triangolare. Il raccordo fra le due porzioni è simile a quello che ho descritto nel post precedente.
Per un giudizio e per un ulteriore aiuto avrei bisogno dei dati di interarrival che hai rilevato
In gamba!
Per un giudizio e per un ulteriore aiuto avrei bisogno dei dati di interarrival che hai rilevato
In gamba!
Ciao topi, : ) allora vado con ordine.
Per quanto riguarda il come disegnare ed allegare il tutto ti mando un MP con i dettagli.
Per quanto concerne i dati, li ho inseriti su questo link, si tratta della ripetizione di un esperimento in 4 giorni diversi, in fasce orarie analoghe. Le condizioni (gli intertempi) dovrebbero essere omogenei. Si tratta di 4 linee diverse (a,b,c,d) ognuna delle quali potrebbe avere le sue distribuzioni.
Ho provato ad usare i tuoi consigli ed ho messo disegnato il tuo esempio in questo file, dovrebbe essere ok! Si vedono molto bene le dominanze delle cdf col crescere del tempo!
Unica cosa:
- le somme non fanno esattamente $1$ e le cdf non partono da $0$, credo accada per motivi di discretizzazione
- non ho ben capito il procedimento di normalizzazione $1/30$ (che ho applicato in maniera meccanica). Nè come mai la varianza (della normale) non cambi nel tempo. Magari ci devo riflettere un attimo a mente fresca e diventa chiaro...!
Una domanda ma: ma cosa accade quando devo condizionare la distribuzione oltre il tempo medio. Per riferirmi al tuo esempio, oltre al $30$-esimo minuto?
Scusa se le domande sono banali ma ho pensato così tanto al problema che ora ho le idee confuse
Grazie ancora per l'aiuto!
Per quanto riguarda il come disegnare ed allegare il tutto ti mando un MP con i dettagli.

Per quanto concerne i dati, li ho inseriti su questo link, si tratta della ripetizione di un esperimento in 4 giorni diversi, in fasce orarie analoghe. Le condizioni (gli intertempi) dovrebbero essere omogenei. Si tratta di 4 linee diverse (a,b,c,d) ognuna delle quali potrebbe avere le sue distribuzioni.
Ho provato ad usare i tuoi consigli ed ho messo disegnato il tuo esempio in questo file, dovrebbe essere ok! Si vedono molto bene le dominanze delle cdf col crescere del tempo!

Unica cosa:
- le somme non fanno esattamente $1$ e le cdf non partono da $0$, credo accada per motivi di discretizzazione
- non ho ben capito il procedimento di normalizzazione $1/30$ (che ho applicato in maniera meccanica). Nè come mai la varianza (della normale) non cambi nel tempo. Magari ci devo riflettere un attimo a mente fresca e diventa chiaro...!
Una domanda ma: ma cosa accade quando devo condizionare la distribuzione oltre il tempo medio. Per riferirmi al tuo esempio, oltre al $30$-esimo minuto?
Scusa se le domande sono banali ma ho pensato così tanto al problema che ora ho le idee confuse

Grazie ancora per l'aiuto!
Su dropbox ho rimesso il tuo file dati, chiamandolo gs_attesa_bus, arricchito. Non ho visto come metterlo in un folder public. Comunque lo puoi consultare con la password passperdrop
Autobus a,b,c: non ho fatto niente
Autobus D: ho trasformato gli intervalli in secondi. Il valor medio è venuto 427 secondi, la deviazione standard è 132 secondi - Tu avevi dichiarato un valor medio di 8,7 minuti ed una deviazione di 5,18 minuti e questo mi aveva allarmato: il modello intervallo regolare + o - una gaussiana si adattava. Con i valori che ho trovato io invece abbiamo una breve fase (32 secondi) di distribuzione uniforme e poi inizia la gaussiana. Per caso il valore di 5,18 minuti che hai dato per dev std era in realtà la varianza? Gli corrisponderebbe una dev std di 147 secondi, non lontano dai miei 132...
Aprendo una parentesi si puo' pensare che i percorsi dei singoli autobus siano indipendenti uno dall' altro e che quindi la variabilità dell' inetrvallo fra due autobus sia la differenza fra due variabili casuali. Allora ciascuno avrebbe una dev std di 93 secondi rispetto all' orario prestabilito. Però su questa indipendenza non giurerei: se ilbus che è davanti rallenta per qualunque motivo, trova più utenti che debbono salire e perde ulteriore tempo.Il bus che segue trova meno utenti alle fermate e puo' velocizzare la sua media. Un altro fenomeno incompatibile con le due gaussiane indipendenti è il fatto che nella realtà gli autobus non possono superarsi. Chiusa la parentesi.
I grafici del D (pdf e cumulativa) li ho sviluppati per il tempo T0, quando il valor medio dell' attesa era di 427/2 secondi e per il valore 460 secondi, quando cioè era già passato il tempo "massimo" ed eravamo in un ritardo conclamato.
Spero si tutto chiaro
saluti
Autobus a,b,c: non ho fatto niente
Autobus D: ho trasformato gli intervalli in secondi. Il valor medio è venuto 427 secondi, la deviazione standard è 132 secondi - Tu avevi dichiarato un valor medio di 8,7 minuti ed una deviazione di 5,18 minuti e questo mi aveva allarmato: il modello intervallo regolare + o - una gaussiana si adattava. Con i valori che ho trovato io invece abbiamo una breve fase (32 secondi) di distribuzione uniforme e poi inizia la gaussiana. Per caso il valore di 5,18 minuti che hai dato per dev std era in realtà la varianza? Gli corrisponderebbe una dev std di 147 secondi, non lontano dai miei 132...
Aprendo una parentesi si puo' pensare che i percorsi dei singoli autobus siano indipendenti uno dall' altro e che quindi la variabilità dell' inetrvallo fra due autobus sia la differenza fra due variabili casuali. Allora ciascuno avrebbe una dev std di 93 secondi rispetto all' orario prestabilito. Però su questa indipendenza non giurerei: se ilbus che è davanti rallenta per qualunque motivo, trova più utenti che debbono salire e perde ulteriore tempo.Il bus che segue trova meno utenti alle fermate e puo' velocizzare la sua media. Un altro fenomeno incompatibile con le due gaussiane indipendenti è il fatto che nella realtà gli autobus non possono superarsi. Chiusa la parentesi.
I grafici del D (pdf e cumulativa) li ho sviluppati per il tempo T0, quando il valor medio dell' attesa era di 427/2 secondi e per il valore 460 secondi, quando cioè era già passato il tempo "massimo" ed eravamo in un ritardo conclamato.
Spero si tutto chiaro
saluti
Ciao!!!
Rispondo con ordine.
No 5.18 era proprio la deviazione standard ma avevamo usati dati su una fascia oraria troppo ampia, in cui anche l'intertempo teorico cambia.
Si direi che i passaggi dei singoli autobus non siano eventi indipendenti. Concordo in pieno con le tue osservazioni. In più ti aggiungo che tipicamente gli autobus cercano di distanziarsi correttamente (ove possibile) in funzione di ciò che acce sulla linea
Appena riesco a vedere il file ti dico altro! (ti ho inviato via MP i dettagli per inserire i file sulla cartella public)
Considerazione non mi torna una cosa:
La distribuzione che mi hai consigliato è una distribuzione dei tempi di attesa reali, o delle aspettative che ha una persona in fermata sulla sua attesa? A me interessa sapere la distribuzione dei tempi di attesa reali, non di quelli congetturali. Ti spiego il perché della domanda:
Io so i dati reali di passaggio in fermata. Per stimare la distribuzione dei tempi di attesa in fermata, inizialmente facevo così:
[list=1]
[*:lq78zvc1]supponevo che una persona potesse arrivare in fermata in un'istante casuale equiprobabile;[/*:m:lq78zvc1]
[*:lq78zvc1]calcolavo tutti i possibili tempi di attesa costruendo quindi tutti gli scenari possibili (una sorta di simulazione);[/*:m:lq78zvc1]
[*:lq78zvc1]stimavo la distribuzione dalle frequenze dei tempi di attesa simulati.[/*:m:lq78zvc1][/list:o:lq78zvc1]
[size=85](Per condizionare la distribuzione dopo, ad esempio, $t=1$, ripetevo lo stesso procedimento eliminando dalla simulazione i tempi di attesa negativi, ovvero quegli scenari in cui il bus era già passato entro $t=1$)[/size]
Ecco se io sovrappongo queste frequenze empiriche alla distribuzione di cui stiamo parlando (uniforme + normale) sembrano proprio due cose diverse. Le frequenze ricavate col mio metodo non hanno una parte uniforme, ma l'andamento è molto diverso, come mai?
Probabilmente il mio metodo non è corretto (o parte da assunzioni che sporcano il risultato). Ma non ho trovato una spiegazione valida che mi convinca.
Rispondo con ordine.
No 5.18 era proprio la deviazione standard ma avevamo usati dati su una fascia oraria troppo ampia, in cui anche l'intertempo teorico cambia.
Si direi che i passaggi dei singoli autobus non siano eventi indipendenti. Concordo in pieno con le tue osservazioni. In più ti aggiungo che tipicamente gli autobus cercano di distanziarsi correttamente (ove possibile) in funzione di ciò che acce sulla linea

Appena riesco a vedere il file ti dico altro! (ti ho inviato via MP i dettagli per inserire i file sulla cartella public)
Considerazione non mi torna una cosa:
La distribuzione che mi hai consigliato è una distribuzione dei tempi di attesa reali, o delle aspettative che ha una persona in fermata sulla sua attesa? A me interessa sapere la distribuzione dei tempi di attesa reali, non di quelli congetturali. Ti spiego il perché della domanda:
Io so i dati reali di passaggio in fermata. Per stimare la distribuzione dei tempi di attesa in fermata, inizialmente facevo così:
[list=1]
[*:lq78zvc1]supponevo che una persona potesse arrivare in fermata in un'istante casuale equiprobabile;[/*:m:lq78zvc1]
[*:lq78zvc1]calcolavo tutti i possibili tempi di attesa costruendo quindi tutti gli scenari possibili (una sorta di simulazione);[/*:m:lq78zvc1]
[*:lq78zvc1]stimavo la distribuzione dalle frequenze dei tempi di attesa simulati.[/*:m:lq78zvc1][/list:o:lq78zvc1]
[size=85](Per condizionare la distribuzione dopo, ad esempio, $t=1$, ripetevo lo stesso procedimento eliminando dalla simulazione i tempi di attesa negativi, ovvero quegli scenari in cui il bus era già passato entro $t=1$)[/size]
Ecco se io sovrappongo queste frequenze empiriche alla distribuzione di cui stiamo parlando (uniforme + normale) sembrano proprio due cose diverse. Le frequenze ricavate col mio metodo non hanno una parte uniforme, ma l'andamento è molto diverso, come mai?
Probabilmente il mio metodo non è corretto (o parte da assunzioni che sporcano il risultato). Ma non ho trovato una spiegazione valida che mi convinca.