Mappatura

Panoramica
Creative Commons License: CC-BY Domande:
  • Che cos’è la mappatura?

  • Quali due elementi sono cruciali per una mappatura corretta?

  • Che cos’è un file BAM?

Obiettivi:
  • Eseguire uno strumento per mappare le letture su un genoma di riferimento

  • Spiegare cos’è un file BAM e cosa contiene

  • Usare un browser genomico per comprendere i propri dati

Requisiti:
Stima del tempo: 1 ora
Livello: Introduttivo Introductory
Materiali di supporto:
Pubblicato: Mar 30, 2026
Ultima modifica: Mar 30, 2026
Licenza: Il contenuto del tutorial è concesso in licenza Creative Commons Attribution 4.0 International License. Il framework GTN è concesso in licenza MIT
version Revisione: 1

Il sequenziamento produce una raccolta di sequenze prive di contesto genomico. Non sappiamo a quale parte del genoma corrispondano queste sequenze. La mappatura delle letture di un esperimento su un genoma di riferimento è una fase fondamentale nell’analisi moderna dei dati genomici. Attraverso la mappatura, le letture vengono assegnate a una posizione specifica nel genoma, consentendo di ottenere informazioni come il livello di espressione dei geni.

Le letture non contengono informazioni sulla posizione, quindi non sappiamo da quale parte del genoma provengano. Dobbiamo utilizzare la sequenza della lettura stessa per trovare la regione corrispondente nella sequenza di riferimento. Tuttavia, la sequenza di riferimento può essere molto lunga (circa 3 miliardi di basi per l’uomo), il che rende difficile individuare la regione corrispondente. Poiché le nostre letture sono brevi, potrebbero esserci più posizioni ugualmente probabili nella sequenza di riferimento da cui esse potrebbero derivare, questo è particolarmente vero per le regioni ripetitive.

In linea di principio, potremmo eseguire un’analisi BLAST per determinare dove si adattano meglio i frammenti sequenziati nel genoma noto. Tuttavia, sarebbe necessario eseguire questa operazione per ciascuna delle milioni di letture presenti nei dati di sequenziamento. Allineare milioni di brevi sequenze in questo modo richiederebbe settimane di elaborazione. Inoltre, non ci interessa la corrispondenza esatta base per base (alignment), ma piuttosto da quale parte del genoma provengono le letture. Questo approccio è chiamato mappatura.

Di seguito, elaboreremo un set di dati con il mappatore Bowtie2 e visualizzeremo i dati con il programma IGV.

Agenda

In questo tutorial, ci occuperemo di:

  1. Preparazione dei dati
  2. Mappare le letture su un genoma di riferimento
  3. Ispezione di un file BAM
  4. Visualizzazione con il browser del genoma
    1. IGV
    2. JBrowse
  5. Conclusione

Preparazione dei dati

Pratica: Caricamento dei dati
  1. Creare una nuova storia per questa esercitazione e assegnarle un nome appropriato

    Per creare una nuova storia è sufficiente fare clic sull’icona new-history nella parte superiore del pannello della storia:

    UI per la creazione di una nuova storia

    1. Fare clic su galaxy-pencil (Modifica) accanto al nome della storia (che per impostazione predefinita è “Storia senza nome”)
    2. Digitare il nuovo nome
    3. fare clic su Salva
    4. Per annullare la ridenominazione, fare clic sul pulsante galaxy-undo “Annulla”

    Se non si ha l’icona galaxy-pencil (Modifica) accanto al nome della cronologia (cosa che può accadere se si utilizza una versione precedente di Galaxy), procedere come segue:

    1. Fare clic su Cronologia senza nome (o sul nome attuale della cronologia) (Clicca per rinominare la cronologia) nella parte superiore del pannello della cronologia
    2. Digitare il nuovo nome
    3. Premere Invio

  2. Importare wt_H3K4me3_read1.fastq.gz e wt_H3K4me3_read2.fastq.gz da Zenodo o dalla libreria dei dati (chiedere al proprio docente)

    https://zenodo.org/record/1324070/files/wt_H3K4me3_read1.fastq.gz
    https://zenodo.org/record/1324070/files/wt_H3K4me3_read2.fastq.gz
    
    • Copia la posizione del collegamento
    • Fare clic su galaxy-upload Carica i dati nella parte superiore del pannello degli strumenti
    • Selezionare galaxy-wf-edit Incollare/recuperare i dati
    • Incollare il/i link nel campo di testo
    • Premere Avvio
    • Chiude la finestra

    In alternativa al caricamento dei dati da un URL o dal proprio computer, i file possono essere resi disponibili da una libreria di dati condivisi:

    1. Entrare in Librerie (pannello sinistro)
    2. Navigare verso alla cartella corretta indicata dal vostro istruttore. Nella maggior parte dei Galaxies i dati delle esercitazioni vengono forniti in una cartella denominata GTN - Materiale –> Nome argomento -> Nome esercitazione.
    3. selezionare i file desiderati
    4. Fare clic su Aggiungi alla cronologia galaxy-dropdown vicino alla parte superiore e selezionare as Datasets dal menu a tendina
    5. Nella finestra pop-up, scegliere
      • “Seleziona cronologia “: la cronologia in cui si desidera importare i dati (o crearne una nuova)
    6. Cliccare su Import

    Per impostazione predefinita, Galaxy assegna come nome il link stesso, quindi è necessario rinominarli.

  3. Rinominare i file in reads_1 e reads_2

    • Fare clic sull’icona galaxy-pencil icona della matita per il set di dati per modificarne gli attributi
    • Nel pannello centrale, cambiare il campo Name
    • Fare clic sul pulsante Save

  4. Crea una raccolta di coppie denominata Paired Reads

    • Fare clic su galaxy-selector Seleziona elementi nella parte superiore del pannello della cronologia Pulsante Seleziona elementi
    • Controllare tutti i dataset della cronologia che si desidera includere
    • Fare clic su n di N selezionati e scegliere Costruisci elenco di coppie di set di dati

    • Cambiare il testo di unpaired forward in un selettore comune per le letture forward
    • Cambiare il testo di unpaired reverse con un selettore comune per le letture inverse
    • Fare clic su Accoppia questi set di dati per ogni coppia avanti e inversa valida.
    • Inserire un nome per la collezione
    • Fare clic su Crea elenco per creare la raccolta
    • Fare nuovamente clic sull’icona del segno di spunta in cima alla cronologia

Abbiamo appena importato in Galaxy i file FASTQ corrispondenti a dati paired-end, come quelli che si ottengono direttamente da un centro di sequenziamento. Durante il sequenziamento possono essere introdotti errori, come nucleotidi chiamati in modo errato. Tali errori possono influenzare l’analisi e portare a un’interpretazione sbagliata dei dati. Il primo passo in qualsiasi analisi di dati di sequenziamento è sempre verificare la qualità delle letture.

Esiste un tutorial dedicato al controllo di qualità dei dati di sequenziamento. NNon ripeteremo qui i passaggi descritti. Ti consigliamo di seguire il tutorial e di applicarlo ai tuoi dati prima di proseguire.

Mappare le letture su un genoma di riferimento

La mappatura delle letture è il processo di allineamento delle sequenze lette a un genoma di riferimento. Un mapper prende in input un genoma di riferimento e un insieme di letture, con l’obiettivo di allineare ciascuna lettura al genoma di riferimento, consentendo mismatch, inserzioni/delezioni (indel) e clipping di piccoli frammenti alle due estremità delle letture:

Spiegazione della mappatura

Abbiamo bisogno di un genoma di riferimento su cui mappare le letture.

Domanda
  1. Cos’è un genoma di riferimento?
  2. Per ogni organismo modello, possono essere disponibili diversi genomi di riferimento (per esempio, hg19 e hg38 per l’uomo). A cosa corrispondono?
  3. Quale genoma di riferimento dobbiamo usare?
  1. Un genoma di riferimento (o assemblaggio di riferimento) è un insieme di sequenze di acidi nucleici assemblate come esempio rappresentativo del materiale genetico di una specie. Poiché spesso sono assemblati a partire dal sequenziamento di diversi individui, non rappresentano accuratamente l’insieme dei geni di un singolo organismo, ma un mosaico di diverse sequenze di acidi nucleici provenienti da ciascun individuo.
  2. Con la diminuzione del costo del sequenziamento del DNA e l’emergere di nuove tecnologie di sequenziamento del genoma completo, continuano a essere generate più sequenze di genomi. Utilizzando queste nuove sequenze, si costruiscono nuovi allineamenti e si migliorano i genomi di riferimento (meno lacune, correzione di errori di rappresentazione nella sequenza, ecc.) I diversi genomi di riferimento corrispondono alle diverse versioni rilasciate (chiamate “build”).
  3. Questi dati provengono dal ChIP-seq dei topi, quindi utilizzeremo mm10 (Mus musculus)

Attualmente esistono oltre 60 diversi mappatori, e il loro numero continua a crescere. In questo tutorial utilizzeremo Bowtie2, uno strumento open source veloce ed efficiente in termini di memoria, particolarmente adatto per l’allineamento di letture di lunghezza compresa tra circa 50 e diverse migliaia di basi su genomi relativamente grandi.

Pratica: Mappatura con Bowtie2
  1. Bowtie2 ( Galaxy version 2.4.2+galaxy0) con i seguenti parametri
    • “Is this single or paired library”: Paired-end
      • param-file “FASTA/Q file #1”: reads_1
      • param-file “FASTA/Q file #2”: reads_2
      • “Do you want to set paired-end options?”: No

        È comunque utile esaminare i parametri disponibili, in particolare l’orientamento dei mate, se conosciuto. Queste opzioni possono migliorare la qualità della mappatura paired-end.

    • “Will you select a reference genome from your history or use a built-in index?”: Use a built-in genome index
      • “Select reference genome”: Mouse (Mus musculus): mm10
    • “Select analysis mode”: Default setting only

      È consigliabile consultare anche i parametri non predefiniti e comprenderne la funzione, poiché possono influenzare la qualità e l’efficienza della mappatura.

    • “Save the bowtie2 mapping statistics to the history”: Yes
  2. Ispezionare il file mapping stats cliccando sull’icona galaxy-eye (occhio)
Domanda
  1. Quali informazioni sono fornite in questo file?
  2. Quante letture sono state mappate esattamente una volta?
  3. Quante letture sono state mappate più di una volta? Come è possibile? Cosa si dovrebbe fare con esse?
  4. Quante coppie di letture non sono state mappate? Quali possono essere le cause?
  1. Il file fornisce informazioni quantitative: mostra quante sequenze sono state allineate, ma non dà indicazioni dirette sulla qualità dell’allineamento.
  2. Circa il 90% delle letture è stato allineato esattamente una volta
  3. Circa il 7% delle letture è stato allineato concordemente più di una volta. Queste sono dette multi-mapped reads. Ciò può accadere a causa di regioni ripetitive nel genoma di riferimento (ad esempio copie multiple di un gene), soprattutto quando le letture sono brevi. È difficile stabilire la loro origine esatta, perciò la maggior parte delle pipeline le ignora. È comunque importante verificare queste statistiche per assicurarsi di non escludere troppe informazioni nelle analisi successive.
  4. Circa il 3% delle coppie di letture non è stato mappato, perché:
    • entrambe le letture della coppia sono allineate, ma le loro posizioni non concordano (aligned discordantly 1 time)
    • le letture della coppia sono multi-mappate (aligned >1 times in pairs aligned 0 times concordantly or discordantly)
    • una delle due letture è mappata ma non la sua compagna (aligned exactly 1 time in pairs aligned 0 times concordantly or discordantly)
    • il resto non viene mappato affatto

Verificare le statistiche di mappatura è un passaggio cruciale prima di proseguire con qualsiasi analisi. Esistono numerose possibili fonti di errore nella mappatura, tra cui (ma non solo):

  • Artefatti della reazione a catena della polimerasi (PCR): Molti metodi di sequenziamento ad alta velocità (HTS) prevedono una o più fasi di PCR. Gli errori di PCR si manifestano come mismatch nell’allineamento e, in particolare, gli errori nei primi cicli di PCR si manifestano con letture multiple, suggerendo falsamente una variazione genetica nel campione. Un errore correlato è rappresentato dai duplicati di PCR, in cui la stessa coppia di letture si presenta più volte, alterando i calcoli di copertura nell’allineamento.
  • Errori di sequenziamento: La macchina di sequenziamento può effettuare una chiamata errata per motivi fisici (ad esempio, olio su un vetrino Illumina) o a causa delle proprietà del DNA sequenziato (ad esempio, omopolimeri). Poiché gli errori di sequenziamento sono spesso casuali, possono essere filtrati come letture singleton durante la chiamata di variante.
  • Errori di mappatura: L’algoritmo di mappatura può mappare una lettura nella posizione sbagliata del riferimento. Ciò accade spesso in prossimità di ripetizioni o di altre regioni a bassa complessità.

Pertanto, se le statistiche di mappatura non sono buone, è necessario indagare sulla causa di questi errori prima di procedere con le analisi.

Dopo di che, è necessario dare un’occhiata alle letture e ispezionare il file BAM in cui sono memorizzate le mappature delle letture.

Ispezione di un file BAM

Un file BAM (Binary Alignment Map è un file binario compresso che memorizza le sequenze di letture, se sono state allineate a una sequenza di riferimento (ad esempio un cromosoma) e, in caso affermativo, la posizione sulla sequenza di riferimento in cui sono state allineate.

Pratica: Ispettare un file BAM/SAM
  1. Ispezionare il param-file output di Bowtie2 tool

Un file BAM (o un file SAM, la versione non compressa) consiste in:

  • Una sezione di intestazione (le righe che iniziano con @) contenente metadati in particolare i nomi dei cromosomi e le lunghezze (righe che iniziano con il simbolo @SQ)
  • Una sezione di allineamento costituita da una tabella con 11 campi obbligatori e un numero variabile di campi opzionali:

    Col Field Type Brief Description
    1 QNAME String Query template NAME
    2 FLAG Integer Bitwise FLAG
    3 RNAME String References sequence NAME
    4 POS Integer 1- based leftmost mapping POSition
    5 MAPQ Integer MAPping Quality
    6 CIGAR String CIGAR String
    7 RNEXT String Ref. name of the mate/next read
    8 PNEXT Integer Position of the mate/next read
    9 TLEN Integer Observed Template LENgth
    10 SEQ String Segment SEQuence
    11 QUAL String ASCII of Phred-scaled base QUALity+33
Domanda
  1. Quali informazioni si trovano in un file SAM/BAM?
  2. Quali sono le informazioni aggiuntive rispetto a un file FASTQ?
  1. Sequenze e informazioni sulla qualità, come un FASTQ
  2. Informazioni sulla mappatura, posizione della lettura sul cromosoma, qualità della mappatura, ecc

Il file BAM include molte informazioni, in particolare sulla qualità della mappatura.

Pratica: Riepilogo della qualità di mappatura
  1. Samtools Stats ( Galaxy version 2.0.2+galaxy2) con i seguenti parametri
    • param-file “BAM file”: aligned reads (output of Bowtie2 tool)
    • “Use reference sequence”: Locally cached/Use a built-in genome
      • “Using genome”: Mouse (Mus musculus): mm10 Full
  2. Ispezionare il file param-file file Stats
Domanda
  1. Qual è la percentuale di mismatch nelle letture mappate rispetto al genoma di riferimento?
  2. Cosa rappresenta il tasso di errore?
  3. Qual è la qualità media della mappatura e come viene rappresentata?
  4. Qual è la dimensione media degli inserti?
  5. Quante letture hanno un punteggio di qualità di mappatura inferiore a 20?
  1. Ci sono ~21.900 mismatches per ~4.753.900 basi mappate, il che produce in media ~0,005 mismatches per basi mappate.
  2. Il tasso di errore è la proporzione di mismatch per basi mappate, quindi il rapporto calcolato subito prima.
  3. La qualità media è il punteggio medio di qualità della mappatura. Si tratta di un punteggio Phred come quello utilizzato nel file FASTQ per ciascun nucleotide. Ma qui il punteggio non è per nucleotide, ma per lettura e rappresenta la probabilità della qualità della mappatura.
  4. La dimensione dell’inserto è la distanza tra le due letture nelle coppie.
  5. Per ottenere le informazioni:
    1. Filter BAM ( Galaxy version 2.5.2+galaxy2) con un filtro per mantenere solo le letture con una qualità di mappatura >= 20
    2. Samtools Stats ( Galaxy version 2.0.5) sull’output di Filter

    Prima del filtraggio: 95.412 letture e dopo il filtraggio: 89.664 letture.

Visualizzazione con il browser del genoma

IGV

L’Integrative Genomics Viewer (IGV) è uno strumento di visualizzazione ad alte prestazioni per l’esplorazione interattiva di grandi insiemi di dati genomici integrati. Supporta un’ampia varietà di tipi di dati, tra cui i dati di sequenziamento basati su microarray e di nuova generazione (NGS), oltre alle annotazioni genomiche. Di seguito lo utilizzeremo per visualizzare le letture mappate.

Pratica: Visualizzazione delle letture in IGV

Ci sono due modi per eseguirlo:

  1. Se avete installato IGV (o volete installarlo):
    1. Installare IGV
    2. Avvio di IGV sul computer
    3. Espande il param-file output di Bowtie2 tool
    4. Fare clic sul local in display with IGV per caricare le letture nel browser IGV
  2. Se non si dispone di IGV
    1. Fare clic su Mouse mm10 (o sull’organismo corretto) in display with IGV per caricare le letture nel browser IGV
  3. Zoom sul chr2:98,666,236-98,667,473

Le letture hanno una direzione: sono mappate, rispettivamente, sul filamento avanti o sul filamento indietro. Quando si passa il mouse su una lettura, vengono visualizzate informazioni supplementari

Domanda
  1. Cosa può significare se una barra nella vista di copertura è colorata?
  2. Quale potrebbe essere il motivo per cui una lettura è bianca invece che grigia?
  1. Se un nucleotide differisce dalla sequenza di riferimento in più del 20% delle letture ponderate per la qualità, IGV colora la barra in proporzione al numero di letture di ciascuna base.
  2. Hanno una qualità di mappatura pari a zero. L’interpretazione di questa qualità di mappatura dipende dall’allineatore di mappatura, poiché alcuni allineatori comunemente utilizzati utilizzano questa convenzione per contrassegnare una lettura con allineamenti multipli. In questo caso, la lettura si mappa anche in un’altra posizione con un posizionamento altrettanto buono. È anche possibile che la lettura non sia posizionata in modo univoco, ma che gli altri posizionamenti non diano necessariamente risultati altrettanto buoni.
Commento: Consigli per IGV
  1. Poiché il numero di letture in una regione può essere molto grande, il browser IGV visualizza per impostazione predefinita solo le letture che rientrano in una piccola finestra. Questo comportamento può essere modificato in IGV da view > Preferences > Alignments.
  2. Se il genoma di vostro interesse non è presente, controllate se è disponibile tramite More…. In caso contrario, è possibile aggiungerlo manualmente tramite il menu Genomi -> Carica genoma da…

    Seleziona genoma in IGV

Una descrizione generale dell’interfaccia utente del browser IGV è disponibile qui: Descrizione del browser IGV

JBrowse

JBrowse ( Galaxy version 1.16.11+galaxy0) è è un browser genomico alternativo basato sul web. Mentre IGV è un software da scaricare ed eseguire localmente, JBrowse è accessibile tramite un’interfaccia web ospitata online, che consente di esplorare i dati genomici direttamente dal browser. Lo useremo per visualizzare le letture mappate.

Pratica: Visualizzazione delle letture in JBrowse
  1. JBrowse ( Galaxy version 1.16.11+galaxy1) browser, con i seguenti parametri:
    • “Genoma di riferimento da visualizzare “: Utilizzare un genoma incorporato
      • “Seleziona un genoma di riferimento “: mm10
    • “Azione JBrowse-in-Galaxy “: New JBrowse Instance
    • “Inserisci gruppo di tracce “:
      • “Inserisci traccia annotazione “:
        • “Tipo di traccia “: BAM Pileup
        • “BAM Track Data “: aligned reads (output di Bowtie2 tool)
        • “Autogenerazione traccia SNP “: Sì
        • “Visibilità traccia “: Attiva per i nuovi utenti
  2. Visualizzare il dataset galaxy-eye
  3. Zoom sul chr2:98,666,236-98,667,473
Commento: Slow

L’esecuzione può richiedere uno o due minuti, a seconda delle risorse dell’istanza di formazione. Ci vuole tempo perché il server crea un piccolo sito web per voi e preelabora il genoma di riferimento in un formato più efficiente. Se si desidera condividere questo lavoro con i colleghi, è possibile scaricare questo set di dati e inserirlo direttamente nel proprio server web.

Le letture hanno una direzione: sono mappate rispettivamente sul filamento avanti o sul filamento indietro. Quando si fa clic su una lettura, vengono visualizzate informazioni aggiuntive

Domanda
  1. Cosa significano la forma a goccia e la linea nella traccia SNP autogenerata?
  2. Cosa significano letture di colore diverso?
  1. Se un numero sufficiente di letture ha un valore diverso, viene contrassegnato con un’icona a goccia. Il grafico della copertura è contrassegnato in altezza con la percentuale di letture con una chiamata diversa in quella posizione
  2. Codici colore:

    Colour Meaning
          Original red Forward strand
          Original blue Reverse strand
          Hard red Forward strand, missing mate
          Hard Blue Reverse strand, missing mate
          Light red Forward strand not proper
          Light blue Reverse strand, not proper
          Black Forward, diff chr
          Grey Reverse, diff chr
          Grey No strand

Conclusione

Dopo il controllo di qualità, la mappatura rappresenta una fase fondamentale nella maggior parte delle analisi di dati di sequenziamento (RNA-Seq, ChIP-Seq, ecc.). Serve a determinare l’origine delle letture nel genoma di riferimento e a utilizzare queste informazioni nelle analisi successive (downstream analyses).