Premessa
Abbiamo imparato a leggere un file csv, utilizzando due oggetti messi a disposizione dell'ambiente che sono TextFieldParsed e StreamReader. Ora il passo in avanti è quello di tradurre questa lista di oggetti in una distribuzione di frequenza.
Come determinare una distribuzione di frequenza?
Determinare la distribuzione di frequenza,significa andare a contare quante unità statistiche cadono all'interno di ciascuna classe che formiamo, rappresentativa di un certo intervallo di valori del carattere. In generale noi partiamo dalle unità statistiche con i suoi valori che assume. Noi vogliamo passare dalla distribuzione per unità → alla distribuzione di frequenza. Per fare ciò dobbiamo stabilire degli intervalli e dobbiamo andare a contare quanti di questi valori cadono all'interno del'intervallo. Esempio prendiamo un intervallo e ci costruiamo delle classi(degli intervalli), ed andiamo a contare quante di queste osservazioni cadono all'interno di ciascun intervallo. Questa suddivisione è arbitraria sia per quanto riguarda il range, che per quanto riguarda l'ampiezza e il numero di classi. L'ampiezza e il numero di classi sono legati, stabilendo uno si definisce l'altro.
Quale strategia utilizzare?
Come strategia è indicato iniziare con il definire il minimo e poi l'intervallo e fermarsi quando ho racchiuso l'ultima osservazione, così ho una struttura immediatamente interpretabile.
1) cioè Abbiamo le nostre unità statistiche con i valori che assumono poi andiamo a conteggiare quante osservazioni cadono all'interno dell'intervallo questo è un metodo Naive ed è poco pratico in quanto devo fare un doppio Loop, sia sulle osservazioni che sugli intervalli.
2) Ordino le osservazioni dalla più piccola alla più grande, essendo ordinate con un solo Loop riesco ad allocare tutte le osservazioni vedo ogni osservazione in quale intervallo cade. Ordinando le osservazioni mi risparmio il doppio Loop
Andiamo a creare la nostra distribuzione di frequenza in un altro file separato. La distribuzione di frequenza è un insieme di intervalli con delle frequenze. Può essere vista come una lista cioè una sequenza di intervalli dove ci dà un informazione. Un intervallo è una struttura con un estremo sinistro ed un estremi destro.
Obbiettivo
Il nostro obiettivo è creare gli intervalli e contare le osservazioni che cadono in ciascun intervallo per la nostra distribuzione di frequenza. Facciamo il passaggio da distribuzioni per unità a distribuzioni di frequenza. Possiamo rappresentare la nostra distribuzione di frequenza attraverso i caratteri ASCII, cioè in corrispondenza di ciascuna frequenza rappresenta una riga di caratteri che esprimono l’intensità del fenomeno su quella determinata classe. In questo modo si ottiene un numero di caratteri proporzionale alla frequenza della classe presa in considerazione.
Si parla di statistiche bivariate quando, su ogni unità statistica, appartenente ad una determinata popolazione, si vogliono studiare contemporaneamente due caratteri A e B.
La distribuzione delle frequenze dei loro valori può essere rappresentata attraverso una tabella a doppia entrata in cui ad ogni coppia (xi,yi) si associa la sua frequenza assoluta detta frequenza congiunta di A e B.L'analisi bivariata studia se vi sono eventuali correlazioni o una qualche relazione tra due o più distinte variabili aleatorie. Invece l'analisi univariata si occupa dello studio di una sola variabile aleatoria.
La distribuzione delle frequenze dei loro valori può essere rappresentata attraverso una tabella a doppia entrata in cui ad ogni coppia (xi,yi) si associa la sua frequenza assoluta detta frequenza congiunta di A e B.L'analisi bivariata studia se vi sono eventuali correlazioni o una qualche relazione tra due o più distinte variabili aleatorie. Invece l'analisi univariata si occupa dello studio di una sola variabile aleatoria.
.
Nessun commento:
Posta un commento