Articles

Che cos'è un grafico a istogramma?

Un istogramma è un grafico statistico che rappresenta la distribuzione di un insieme di dati continui attraverso barre tracciate, ognuna delle quali rappresenta una particolare categoria o intervallo di classi. L'altezza della barra riflette la frequenza o il conteggio dei punti dati all'interno di ciascun gruppo. In sostanza, gli istogrammi rivelano i modelli, le tendenze e informazioni nascoste nei dati grezzi e non ordinati - mostrando un quadro organizzato che rende l'interpretazione e l'analisi molto più gestibile ed efficace.

Esempio di grafico a istogramma

L'utilità degli istogrammi si estende a diversi settori e discipline, tra cui finanza, salute pubblica, scienze ambientali, produzione e studi sociali. Sono fondamentali per compiti come l'identificazione di modelli all'interno di grandi insiemi di dati, l'individuazione di anomalie, il controllo della qualità, la stima dei parametri statistici e la comunicazione efficace dei risultati alle parti interessate. Inoltre, gli istogrammi servono come trampolino di lancio per concetti e metodi statistici più complessi.

Dashboard ad hoc progettati e integrati con Jaspersoft
Prova Jaspersoft - Prova gratuita
Con Jaspersoft, la piattaforma di BI leader per i creatori di software, puoi progettare, integrare e gestire report e analisi in modo efficiente.

Anatomia di un istogramma: scomposizione dei componenti

Per creare un istogramma, il set di dati viene suddiviso in una serie di intervalli o bin uniformemente distanziati. L'ampiezza dei bin può variare, rendendo flessibile l'adattamento a diverse distribuzioni di dati e ai livelli di dettaglio desiderati.

Dopo aver analizzato il set di dati, il numero di punti dati che rientrano in ogni bin viene contato e rappresentato dall'altezza (o occasionalmente dall'area) di ogni barra corrispondente. Quindi, un istogramma ci permette di cogliere a colpo d'occhio caratteristiche importanti dei dati, come la tendenza centrale, la diffusione o dispersione, la simmetria, la lunghezza della coda e la presenza di vuoti o picchi.

Quando si analizza un istogramma, è fondamentale capire i suoi componenti e il ruolo che svolgono nel rivelare preziose informazioni dai dati. Le sezioni seguenti analizzano gli elementi chiave di un istogramma e approfondiscono il loro significato.

Data

La base stessa di un istogramma è costituita dai dati su cui è costruito. In genere, gli istogrammi rappresentano dati quantitativi continui o discreti, il che li rende uno strumento ideale per visualizzare i modelli e le distribuzioni sottostanti nel set di dati. I dati possono provenire da varie fonti, come misurazioni, osservazioni o simulazioni.

Bin (o intervalli di classe)

I bin, noti anche come intervalli di classe, vengono creati suddividendo i dati in intervalli di dimensioni uguali. L'intervallo di un bin rappresenta l'intervallo in cui cadono i punti dati. Il numero e la dimensione dei bin sono determinati dall'analista, che può considerare fattori come la quantità di dati, il livello di granularità desiderato e la distribuzione sottostante.

Occorre prestare molta attenzione alla scelta della dimensione e del numero dei contenitori, in quanto può avere un impatto significativo sulla visualizzazione risultante. Una dimensione di bin troppo piccola potrebbe dare origine a un istogramma "rumoroso", rendendo difficile discernere i modelli o le tendenze. D'altra parte, una dimensione di bin eccessivamente grande può semplificare eccessivamente i dati, causando una perdita di informazioni vitali e forse nascondendo i modelli sottostanti.

Frequenza (o densità)

La frequenza, il punto cruciale di un istogramma, è il numero di punti dati che rientrano in ciascun intervallo. La frequenza è rappresentata dall'altezza (o, nel caso degli istogrammi di densità, dall'area) della barra corrispondente nell'istogramma. L'asse verticale del grafico riflette in genere la frequenza grezza, la percentuale o la densità di probabilità di ogni bin, a seconda del tipo di istogramma.

Le barre più alte nell'istogramma indicano una maggiore concentrazione di punti dati all'interno di quell'intervallo, mentre le barre più basse indicano una minore frequenza di punti dati in quell'intervallo. Analizzando la forma complessiva e l'altezza delle barre, si può capire meglio la distribuzione, la tendenza centrale e i potenziali anomalie all'interno dei dati.

Assi

Gli istogrammi sono costituiti da due assi principali: quello orizzontale (asse x) e quello verticale (asse y). L'asse delle ascisse rappresenta i bin e copre l'intero intervallo dei dati, mentre l'asse delle ordinate raffigura la frequenza, la percentuale o la densità di probabilità in base al tipo di istogramma.

Una distinzione importante tra istogrammi e grafici a barre è che gli istogrammi visualizzano dati quantitativi continui o discreti e presentano un asse x continuo, mentre i grafici a barre rappresentano tipicamente dati categorici con spazi vuoti tra le singole barre.

Forma

La forma complessiva di un istogramma è una rappresentazione visiva della distribuzione dei dati. L'esame della forma consente agli analisti di identificare caratteristiche cruciali come la modalità (unimodale, bimodale o multimodale), la simmetria, l'asimmetria e la presenza di lacune o picchi. Le distribuzioni di dati come normale (a campana), uniforme o esponenziale possono essere facilmente riconosciute dalla forma dei loro istogrammi, portando a una migliore comprensione e a un migliore processo decisionale.

Sezionando e comprendendo i componenti principali di un istogramma, si può analizzare efficacemente la distribuzione del set di dati, portando a scoperte rilevanti che altrimenti potrebbero rimanere nascoste. La semplicità e la versatilità degli istogrammi li rendono uno strumento indispensabile in un'ampia gamma di applicazioni accademiche e professionali, consentendo agli utenti di sbloccare il potenziale dei loro dati.

I vantaggi dell'uso dell'istogramma

Gli istogrammi hanno superato la prova del tempo, risalendo alla fine del XIX secolo. Il loro continuo utilizzo in una serie di discipline, dalla finanza alla salute pubblica, testimonia il loro valore nel semplificare informazioni complesse e nel fornire approfondimenti completi sui dati. Ecco alcuni dei vantaggi principali dell'utilizzo degli istogrammi:

Maggiore comprensibilità

Uno dei punti di forza degli istogrammi è la loro semplicità intrinseca. Anche gli insiemi di dati complessi possono essere distillati in una forma facilmente comprensibile, aiutando sia gli analisti dei dati che gli stakeholder a comprendere le caratteristiche dei dati. Gli istogrammi forniscono una visione semplificata di come i dati sono distribuiti su intervalli, rivelando schemi, tendenze e anomalie che altrimenti potrebbero andare persi nei numeri grezzi o nelle tabelle. Questa copertura vivida e intuitiva delle informazioni rende gli istogrammi uno strumento incredibile per la comunicazione dei dati, trascendendo le barriere linguistiche e tecniche.

Approfondimento sulla distribuzione dei dati

L'obiettivo fondamentale della creazione di un istogramma è comprendere e visualizzare la distribuzione di un set di dati. A differenza di altri grafici, gli istogrammi raffigurano l'intera diffusione del set di dati, dipingendo un quadro più ampio e ricco di informazioni. Questo include l'identificazione del centro dei dati, dell'intervallo e della presenza di eventuali asimmetrie o simmetrie. In particolare, gli istogrammi aiutano anche a identificare i valori anomali e le lacune, che sono significativi in qualsiasi analisi dei dati, consentendo di apportare le necessarie modifiche nella pulizia dei dati o di indagare ulteriormente su queste anomalie.

Aiuto nel processo decisionale

Gli istogrammi hanno un impatto profondo sui processi decisionali, qualificando e quantificando i modelli nei dati. Mostrando chiaramente la frequenza dei valori in ciascun intervallo, gli istogrammi consentono un facile confronto tra diverse categorie, che può guidare l'identificazione di punti di forza, debolezze, opportunità e minacce. Inoltre, aiutano a suggerire soluzioni fattibili, rendendoli una parte cruciale dell'arsenale decisionale in aree come il controllo della qualità, il miglioramento dei processi, il marketing e gli investimenti.

Versatilità

Gli istogrammi sono sorprendentemente versatili, in grado di gestire diversi tipi di dati e di trovare utilità in vari campi. Sia che si tratti di gestire i punteggi dei test di una classe di studenti, di misurare le altezze degli individui, di seguire le variazioni dei prezzi del mercato azionario, di analizzare le abitudini di spesa dei clienti o di studiare gli effetti dei trattamenti in medicina, gli istogrammi si rivelano preziosi in ogni scenario.

Base per un'ulteriore analisi statistica

Gli istogrammi sono un ottimo punto di partenza per analisi statistiche più dettagliate e complesse. Fornendo una visione rapida e completa della distribuzione di un set di dati, aiutano gli analisti a decidere se è necessario eseguire test aggiuntivi, come ANOVA, Chi-quadro, t-test o analisi di regressione. Gli istogrammi identificano rapidamente le caratteristiche dei dati, indicando se soddisfano i presupposti necessari, come la normalità, l'omogeneità delle varianze, eccetera, necessari per eseguire tali test statistici.

Efficienza in termini di tempo ed economicità

Data la complessità dei big data, il costo e il tempo necessari per analizzare grandi insiemi di dati possono essere formidabili. Tuttavia, gli istogrammi rappresentano una soluzione economica, in quanto riassumono graficamente grandi serie di dati con relativa facilità, consentendo un'analisi e un processo decisionale rapidi. Questa efficienza si rivela fondamentale nelle industrie di oggi, frenetiche e incentrate sui dati.

Facile da creare e interpretare

Gli istogrammi, in sostanza, sono facili e immediati da costruire, soprattutto con l'aiuto di software e linguaggi di programmazione come Python e R. Allo stesso modo, la loro interpretazione è altrettanto semplice, non richiede una formazione statistica specializzata o una conoscenza approfondita dell'argomento.

Indipendentemente dalla natura complessa e sfaccettata dei dati moderni, gli istogrammi continuano a fornire una visualizzazione chiara, concisa e completa dei modelli e delle tendenze, dimostrando che, a volte, gli strumenti semplici hanno un impatto maggiore.

Visualizzazioni di dati integrate con Jaspersoft
Demo gratuita: BI incorporata in Bikeshare, sostenuta da Jaspersoft
Scopriamo come trasformare i dati in informazioni preziose che è possibile utilizzare e che i clienti possono utilizzare per prendere decisioni migliori.

Alternative agli istogrammi: altre tecniche di visualizzazione dei dati

Per quanto potenti e versatili possano essere gli istogrammi, non sempre sono lo strumento più adatto per ogni attività di visualizzazione dei dati. Alcuni scenari possono richiedere altri metodi di visualizzazione che mirano ad approfondimenti più specifici o a presentare le caratteristiche dei dati in modo più efficace. Ecco alcune delle alternative più utilizzate agli istogrammi:

Diagramma a scatola e baffi

Il diagramma a scatola e baffi, è uno strumento robusto utilizzato per visualizzare la distribuzione di un set di dati e identificare i valori anomali. Mostra la mediana (la linea centrale all'interno del riquadro), il primo e il terzo quartile (la parte inferiore e superiore del riquadro, rispettivamente) e potenziali anomalie (i punti oltre i "baffi"). I diagrammi a scatola e baffi forniscono una sinossi compatta ma dettagliata di un set di dati, mostrando misure statistiche importanti in un'unica vista. Sono particolarmente utili quando si confrontano più gruppi o insiemi di dati, perché occupano poco spazio e raffigurano chiaramente le differenze nelle distribuzioni.

Diagrammi di densità

I diagrammi di densità mostrano la distribuzione di una variabile sotto forma di una curva regolare, simile a una mappa topografica dei dati. Sono simili agli istogrammi, ma visualizzano la distribuzione in modo più fluido, senza la distrazione del "binning bias"', ossia la potenziale distorsione della distribuzione dei dati in base alla dimensione del bin scelto. I diagrammi di densità possono rivelare la struttura e le forme dei dati a un livello più sofisticato, compresi i modelli sottili che potrebbero non essere così evidenti in un istogramma.

Diagrammi a punti

Utilizzati soprattutto per piccoli insiemi di dati, i diagrammi a punti fanno sì che ogni punto rappresenti un punto di dati. Questa corrispondenza uno-a-uno tra punti dati e punti conferisce una qualità precisa ai diagrammi a punti. Non solo mostrano la distribuzione e la frequenza di un set di dati simile agli istogrammi, ma conservano anche i valori esatti e sono molto più facili da leggere quando si tratta di set di dati con valori discreti o pochi valori unici.

Diagrammi a violino

I diagrammi a violino offrono una combinazione del diagramma a scatola e baffi e del diagramma di densità, visualizzando un diagramma a scatola e baffi all'interno di un diagramma di densità leggermente ruotato. Questo contrasto consente una comprensione più completa della distribuzione, mostrando sia la densità dei valori nei diversi punti che le informazioni sui quartili del diagramma a scatola e baffi. I diagrammi a violino sono eccellenti per visualizzare e confrontare la distribuzione e la frequenza dei dati tra diverse categorie.

Diagrammi ramo-foglia

I diagrammi ramo-foglia entrano in gioco quando è fondamentale conservare i valori esatti dei dati e la loro frequenza. Come suggerisce il nome, i diagrammi ramo-foglia suddividono ogni punto dati in un "ramo e in una "foglia," dove il "ramo" rappresenta le cifre iniziali e la "foglia" è la cifra finale. Questo grafico è utile quando si tratta di insiemi di dati di dimensioni moderate e si desidera mantenere intatti i valori esatti dei dati per un'analisi successiva.

Grafici di frequenza cumulativa (Ogiva)

I grafici di frequenza cumulativa, o Ogive, tracciano la frequenza cumulativa o la percentuale cumulativa di punti di dati inferiori o uguali al valore sull'asse delle ascisse. A differenza di un istogramma, che fornisce la frequenza, un'ogiva fornisce un totale continuo delle frequenze, consentendo di comprendere non solo la diffusione dei dati, ma anche la frequenza totale fino a un determinato punto.

Ognuna di queste alternative ha i suoi punti di forza e i suoi contesti. La determinazione della tecnica di visualizzazione più appropriata dipende in gran parte dal tipo di dati, dall'obiettivo dell'analisi e dagli approfondimenti desiderati dal set di dati. Pertanto, gli analisti di dati dovrebbero dotarsi di una varietà di metodi di visualizzazione per affrontare vari scenari di dati ed esprimere la storia dei dati nel modo più efficace.

Creare un istogramma - Una guida passo dopo passo

La creazione di un istogramma comporta diverse fasi cruciali di preparazione, suddivisione e visualizzazione dei dati. Ecco una guida passo passo su come costruire un istogramma:

Fase 1: raccolta dei dati

Il primo passo per creare un istogramma è la raccolta dei dati. A seconda del suo campo di studio o di lavoro, questo potrebbe comportare la raccolta di dati sul campo, la conduzione di indagini, l'utilizzo di database esistenti o il lavoro con set di dati simulati. Questi dati grezzi devono essere quantitativi, in quanto gli istogrammi sono utilizzati per visualizzare i dati numerici e la loro distribuzione.

Fase 2: preparazione dei dati

Prepari i suoi dati assicurandosi che siano puliti e affidabili. Ciò potrebbe comportare la rimozione di eventuali valori anomali o errati, la gestione dei dati mancanti o l'esecuzione di altre attività di pulizia dei dati necessarie. Si assicuri che i suoi dati siano pronti e adatti per un istogramma.

Fase 3: definizione del numero di bin

Una volta preparati i dati, il passo successivo è la definizione del numero di bin o intervalli di classi. I bin sono intervalli di punti dati e la base di ogni barra all'interno dell'istogramma. La scelta del numero di bin dipende spesso dalle dimensioni e dalla variabilità del set di dati.

Non esiste una regola definitiva, ma i modi più comuni per definire il numero di cestini includono la Regola di Sturges, la Regola del Riso o la Regola di Scott. In generale, un numero maggiore di contenitori può rivelare più dettagli e complessità, ma potrebbe anche essere visivamente opprimente; un numero minore di contenitori rende la visualizzazione più semplice, ma potrebbe trascurare dettagli o modelli critici.

Fase 4: calcolo della larghezza del bin

La larghezza del bin (o larghezza della classe) è l'intervallo di ciascun bin. Si calcola dividendo l'intervallo totale dei dati (valore più alto - valore più basso) per il numero di bin. Tutti i bin devono avere la stessa larghezza per garantire una rappresentazione uguale dei punti dati nell'istogramma.

Fase 5: preparazione della tabella di frequenza

Una tabella di frequenza aiuta a mappare il numero di punti dati che rientrano in ogni intervallo di bin o classe. Questa fase prevede il conteggio del numero di punti dati all'interno di ogni bin. La frequenza dei punti dati all'interno di questi bin definirà in seguito l'altezza delle barre nell'istogramma.

Fase 6: disegno degli assi

Successivamente, deve disegnare gli assi orizzontale (asse x) e verticale (asse y). L'asse delle ascisse rappresenta i bin o gli intervalli di classe e copre l'intero intervallo dei dati raccolti, mentre l'asse delle ordinate rappresenta la frequenza o il conteggio dei punti dati in ciascun bin.

Fase 7: disegno delle barre dell'istogramma

Ogni barra dell'istogramma corrisponde a un intervallo, e la sua altezza rappresenta la frequenza all'interno di quell'intervallo. Le barre in un istogramma sono adiacenti senza spazi intermedi (a meno che non ci sia un intervallo di classe senza dati), a dimostrazione che i dati sono continui o quasi. Disegni le barre per ogni bin in base alla frequenza corrispondente, assicurandosi che ogni barra tocchi le barre adiacenti.

Fase 8: perfezionamento e revisione

Una volta tracciate le barre, perfezioni il suo istogramma fornendo elementi essenziali come un titolo, le etichette degli assi e una chiave o una legenda, se necessario. Esamini il suo istogramma, assicurandosi che rappresenti accuratamente i dati grezzi e fornisca una visione chiara e comprensibile della distribuzione. È utile fare riferimento anche al contesto in cui il suo istogramma verrà utilizzato o visualizzato, in base al livello di conoscenza o alle esigenze del suo pubblico specifico.

Storia e origine dell'istogramma

L'istogramma, uno strumento notevole per comprendere le tendenze dei dati, deve la sua origine a un brillante scienziato e filosofo francese di nome François-Marie Arouet, meglio conosciuto come Voltaire. Tuttavia, è da notare che ciò che Voltaire ha creato non è esattamente l'istogramma nella sua forma attuale, ma piuttosto una forma primitiva di esso. Fu il primo a dividere i dati in classi (o bin) e a contare quanti valori rientravano in ciascuna categoria. Lo ha documentato alla fine del XVII secolo per mostrare i modelli di variazione dei prezzi del mercato azionario inglese.

Sebbene Voltaire sia stato il pioniere dell'idea, la persona più comunemente associata allo sviluppo dell'istogramma non è altro che Karl Pearson. Pearson è stato un matematico influente che ha fatto passi da gigante nella statistica e nelle sue applicazioni tra la fine del XIX e l'inizio del XX secolo. È interessante notare che il lavoro iniziale di Pearson era incentrato sulla filosofia e sulla metafisica, finché non si imbatté negli importanti documenti di Francis Galton, un affermato statistico ed eugenetico vittoriano. Il lavoro di Galton suscitò un profondo interesse in Pearson, che alla fine spostò la sua ricerca sulla statistica.

Il primo istogramma era versatile e facile da usare

Dalla sua invenzione, l'istogramma ha guadagnato popolarità e un uso diffuso in vari campi. La sua semplice natura visiva la rende incredibilmente versatile e facile da usare, consentendo alle persone di diverse professioni di trarre vantaggio dalla comprensione della distribuzione dei dati. Nonostante la sua età, l'istogramma rimane uno strumento potente e indispensabile nel kit di strumenti di ogni analista di dati.

Conclusioni

Tra i vari strumenti di visualizzazione dei dati a nostra disposizione, gli istogrammi si distinguono per la loro semplicità, versatilità e profondo valore informativo. Non solo presentano un'istantanea intuitiva della distribuzione dei dati, ma gettano anche le basi per analisi statistiche più avanzate.

Tuttavia, in alcuni scenari, gli istogrammi potrebbero non essere la scelta più efficace per la visualizzazione dei dati. Alternative come i diagrammi a scatola e baffi, i diagrammi di densità, i diagrammi di dispersione, i diagrammi a violino, i diagrammi ramo-foglia e quelli di frequenza cumulativa forniscono prospettive alternative, ognuna con i propri punti di forza e contesti in cui eccellono.

Alla fine, la scelta di una tecnica di visualizzazione dipende dal tipo di dati, dall'obiettivo dell'analisi e dagli approfondimenti necessari. Indipendentemente da ciò, l'importanza di un'efficace capacità di visualizzazione dei dati non può essere sopravvalutata nell'odierna era guidata dai dati.

Grafici a istogrammi con Jaspersoft

Risorse correlate

Jaspersoft in Action: Embedded BI Demo

See everything Jaspersoft has to offer – from creating beautiful data visualizations and dashboards to embedding them into your application.

 On-demand demo (22:28)

Creating Addictive Dashboards

Learn how to build dashboards that your users will love. Turn your data into interactive, visually engaging metrics that can be embedded into your web application.

 On-demand webinar (56:17)

Ready to give it a spin?

Start your 30-day trial now.