Sekwencjonowanie i Kodowanie Genomu: Od DNA do Edycji CRISPR
🧬 Seria artykułów o CRISPR:
- Część 1: Historia i podstawy CRISPR
- Część 2: Mechanizm działania CRISPR-Cas9
- Część 3: Enhancery i promotory
- Część 4: Sekwencjonowanie i kodowanie genomu
- Część 5: Programowanie CRISPR - bioinformatyka
- Część 6: Zastosowania i dostępność technologii
📜 Historia sekwencjonowania: od Sangera do NGS
⏱️ Kamienie milowe sekwencjonowania genomu
1977: Frederick Sanger opracowuje metodę sekwencjonowania dideoksowego (Sanger sequencing)
Pierwsza praktyczna metoda. Wykorzystuje ddNTP (dideoksynukleotydy) jako terminatory reakcji. Długość odczytu: 500-1000 pz.
2001: Publikacja pierwszego draftu ludzkiego genomu (Human Genome Project)
Czas: 13 lat | Koszt: $3 miliardy | Metoda: Automatyczne sekwencjonowanie Sangera
2005: Wprowadzenie sekwencjonowania następnej generacji (NGS - Next-Generation Sequencing)
Pierwsza platforma: 454 Life Sciences (pirosekwencjonowanie). Równoległe sekwencjonowanie milionów fragmentów DNA.
2007: Illumina wprowadza sekwencjonowanie przez syntezę (SBS)
Dominujaca technologia NGS do dziś. Accurate, masowo równoległe, stosunkowo tanie.
2014: Oxford Nanopore wprowadza sekwencjonowanie długich odczytów w czasie rzeczywistym
Rewolucja: sekwencjonowanie molekuł DNA bez amplifikacji, odczyty do 2 Mb długości.
2022: Kompletny genom ludzki (T2T-CHM13) – pierwsze pełne zsekwencjonowanie wszystkich chromosomów
Wypełnienie ostatnich luk w genomie referencyjnym. Wykorzystanie długich odczytów PacBio HiFi i Nanopore.
2025: Koszt zsekwencjonowania całego genomu ludzkiego: $200-500
Czas: 24-48 godzin | Dokładność: >99.9%
🔬 Technologie sekwencjonowania NGS
1. Illumina Sequencing (Sekwencjonowanie przez syntezę - SBS)
Zasada działania:
Workflow Illumina SBS
1 Przygotowanie biblioteki (Library Preparation)
- Fragmentacja DNA do 300-500 pz
- Ligacja adapterów na oba końce fragmentów
- Adaptery zawierają sekwencje komplementarne do oligonukleotydów na flow cell
2 Amplifikacja mostkowa (Bridge Amplification)
- Fragmenty DNA wiążą się do flow cell pokrytej oligonukleotydami
- DNA "zapętla się", tworząc most między dwoma oligonukleotydami
- Amplifikacja PCR tworzy klastry (~1000 kopii) każdego fragmentu
- Wynik: miliony klastrów na flow cell, każdy reprezentujący jeden fragment
3 Sekwencjonowanie przez syntezę (SBS)
- Dodanie DNA polimerazy i fluorescencyjnie znakowanych dNTP (każda zasada inny kolor)
- dNTP są odwracalnie zterminowane – po inkorporacji polimeraza zatrzymuje się
- Kamera rejestruje fluorescencję każdego klastra (identyfikacja zasady)
- Usunięcie fluoroforu i grupy terminującej
- Powtórzenie dla kolejnych cykli (zazwyczaj 2×150 pz – paired-end)
4 Generowanie danych (Basecalling)
- Oprogramowanie konwertuje sygnały fluorescencyjne na sekwencje zasad (ATCG)
- Każda zasada otrzymuje wynik jakości (Phred quality score)
- Output: pliki FASTQ zawierające sekwencje i ich jakość
Specyfikacje (Illumina NovaSeq X Plus):
- Przepustowość: Do 16 Tb (16,000 Gb) danych na run
- Długość odczytu: 2×150 pz (paired-end)
- Dokładność: >85% baz z Q30 (błąd 1:1000)
- Czas: 24-48 godzin na run
- Koszt: ~$2-5 per Gb
- Zastosowania: Whole genome sequencing (WGS), whole exome sequencing (WES), RNA-seq, ChIP-seq
2. Oxford Nanopore Sequencing (Sekwencjonowanie nanopo rowe)
Zasada działania:
Technologia oparta na pomiarze zmian prądu jonowego podczas przechodzenia DNA przez białkową nanoporę osadzoną w membranie.
Workflow Oxford Nanopore
1 Przygotowanie biblioteki
- Ligacja adapterów z białkiem motorowym (helikaza)
- Brak fragmentacji – można sekwencjonować ultradługie fragmenty (>100 kb)
2 Sekwencjonowanie nanopor owe
- Helikaza "przepycha" DNA przez nanoporę (CsgG lub MspA) z kontrolowaną prędkością (~450 pz/s)
- Każda sekwencja 5-6 nukleotydów (k-mer) w porze powoduje charakterystyczną zmianę prądu jonowego
- Algorytmy basecalling (np. Guppy, Dorado) używają modeli deep learning do konwersji sygnału na sekwencje
- Sekwencjonowanie w czasie rzeczywistym – dane dostępne natychmiast
Specyfikacje (PromethION 2 Solo):
- Długość odczytu: Średnio 10-50 kb, maksymalnie >4 Mb (najdłuższy odczyt: 4.2 Mb)
- Dokładność:
- Raw reads: Q10-Q15 (~90-97% dokładności)
- Consensus (po polishingu): Q25-Q30 (>99.9%)
- Przepustowość: Do 8.8 Tb na flow cell
- Modyfikacje epigenetyczne: Bezpośrednia detekcja metylacji DNA (5mC, 6mA) bez bisulfitowej konwersji
- Koszt: ~$5-10 per Gb
- Przewaga: Portabilność (MinION wielkości pendrive!), długie odczyty, detekcja modyfikacji
3. PacBio HiFi Sequencing (SMRT Sequencing)
Zasada działania: Single Molecule Real-Time (SMRT) Sequencing
Workflow PacBio SMRT
1 SMRTbell Library
- Tworzenie cząsteczek "dzwonkowych" (hairpin adapters na obu końcach fragmentu DNA)
- Struktura pozwala na wielokrotne sekwencjonowanie tej samej cząsteczki (Circular Consensus Sequencing - CCS)
2 Zero-Mode Waveguide (ZMW)
- Pojedyncza cząsteczka DNA + DNA polimeraza umieszczone w nano-studni (ZMW) o średnicy 70 nm
- Oświetlenie od dołu – fluorescencja widoczna tylko na dnie studni (eliminuje tło)
- Miliony ZMW równolegle sekwencjonuje miliony cząsteczek
3 HiFi Consensus
- Polimeraza wielokrotnie sekwencjonuje cząsteczkę SMRTbell (circular template)
- Typowo 10-20 przepustów (passes)
- Algorytm CCS generuje konsensus o bardzo wysokiej dokładności (Q30+)
Specyfikacje (PacBio Revio):
- Długość odczytu HiFi: 10-25 kb (średnia ~15 kb)
- Dokładność HiFi: Q30+ (>99.9%, porównywalna do Illumina!)
- Przepustowość: 360-1,100 Gb per SMRT Cell (15 Gb per CCS)
- Czas: 24 godziny na run
- Koszt: ~$10-15 per Gb
- Zastosowania: De novo assembly, detekcja wariantów strukturalnych, izoform RNA, genotypowanie HLA
- Dokładność raw reads: PacBio HiFi > Nanopore (ale Nanopore dogania z nowymi basecallerami)
- Maksymalna długość: Nanopore > PacBio (Nanopore może >1 Mb, PacBio zazwyczaj <100 kb)
- Koszt: Nanopore < PacBio (zwłaszcza urządzenia)
- Modyfikacje epigenetyczne: Obie wykrywają, Nanopore bezpośrednio, PacBio również (kinetics)
📊 Od surowych danych do genomu: Bioinformatyka NGS
Sekwencjonowanie generuje ogromne ilości danych wymagających zaawansowanego przetwarzania bioinformatycznego. Typowy workflow analizy WGS (Whole Genome Sequencing):
🖥️ Pipeline analizy WGS (Illumina)
1 Basecalling i demultiplexing
Input: Obrazy fluorescencji z sekwencera
Output: Pliki FASTQ (sekwencje + quality scores)
Narzędzia: bcl2fastq (Illumina), Guppy/Dorado (Nanopore)
2 Kontrola jakości (QC)
Narzędzia: FastQC, MultiQC
Sprawdzane parametry:
- Rozkład jakości per-base i per-sequence
- Zawartość GC
- Obecność adapterów
- Duplikacja sekwencji
- Reprezentacja k-merów
3 Trimming i filtracja
Narzędzia: Trimmomatic, Cutadapt, fastp
Operacje:
- Usunięcie adapterów
- Trimming końców o niskiej jakości (Q<20)
- Odrzucenie zbyt krótkich odczytów (<50 pz)
4 Alignment (mapowanie do genomu referencyjnego)
Narzędzia: BWA-MEM, Bowtie2, minimap2 (długie odczyty)
Input: FASTQ + genom referencyjny (np. GRCh38)
Output: Pliki SAM/BAM (Sequence Alignment/Map)
Czas: ~8-12 godzin dla WGS 30x coverage na 16 rdzeniach
5 Post-alignment processing
Narzędzia: Picard, SAMtools, GATK
Operacje:
- Sortowanie BAM po pozycji
- Marking duplicates (PCR/optical duplicates)
- Base Quality Score Recalibration (BQSR)
- Indel realignment (starsze pipelines)
- Indeksowanie BAM
6 Variant calling
Narzędzia: GATK HaplotypeCaller, FreeBayes, DeepVariant (AI-based)
Output: Pliki VCF (Variant Call Format)
Identyfikowane warianty:
- SNV (Single Nucleotide Variants)
- Indels (insercje/delecje)
- SV (Structural Variants) - wymaga specjalistycznych narzędzi
7 Filtracja i adnotacja wariantów
Narzędzia: GATK VariantFiltration, VEP (Variant Effect Predictor), ANNOVAR
Filtracja: Quality (QUAL), Depth (DP), Allele Frequency (AF)
Adnotacja:
- Wpływ funkcjonalny (synonimiczna, missense, nonsense, splice site)
- Geny i transkrypty
- Częstość populacyjna (gnomAD, 1000 Genomes)
- Patogenność (ClinVar, COSMIC)
- Konserwacja ewolucyjna (PhyloP, GERP++)
8 Interpretacja i raportowanie
Analiza:
- Priorytetyzacja wariantów klinicznie istotnych
- Analiza ścieżek biologicznych
- Porównanie z fenotypem pacjenta
- Weryfikacja przez sekwencjonowanie Sangera (warianty kliniczne)
🧬 Dekodowanie i kodowanie genomu dla CRISPR
Sekwencjonowanie nie tylko pozwala nam "czytać" genom, ale również precyzyjnie planować eksperymenty CRISPR:
Zastosowania sekwencjonowania w CRISPR
1. Projektowanie sgRNA:
- Identyfikacja sekwencji docelowej i PAM w genomie referencyjnym
- Przewidywanie potencjalnych miejsc off-target przez wyrównanie sekwencji
- Optymalizacja sgRNA ze względu na zawartość GC, strukturę drugorzędową
2. Weryfikacja edycji:
- Sanger sequencing: Weryfikacja pojedynczych loci (szybkie, tanie)
- Amplicon-seq (NGS): Głęboka analiza miejsca edycji (wykrycie mozaicyzmu, indeli)
- WGS: Kompletna analiza off-target effects w całym genomie
3. Detekcja off-target:
Specjalistyczne techniki łączące CRISPR z sekwencjonowaniem:
- GUIDE-seq: Używa oligonukleotydów dsDNA jako znaczników DSB
- CIRCLE-seq: In vitro detekcja wszystkich miejsc cięcia Cas9
- DISCOVER-seq: Wykorzystuje MRE11 (białko naprawy DSB) do identyfikacji miejsc cięcia in vivo
4. Single-cell sequencing po CRISPR:
- scRNA-seq: Analiza zmian ekspresji genów po edycji na poziomie pojedynczych komórek
- scATAC-seq: Zmiany dostępności chromatyny
- Perturb-seq / CROP-seq: Połączenie CRISPR screening z scRNA-seq
💾 Wielkość danych i przechowywanie
Rozmiary plików dla 30x coverage WGS (Illumina):
- Raw FASTQ: ~90-120 GB (skompresowane .gz)
- Aligned BAM: ~60-80 GB
- Compressed CRAM: ~30-40 GB
- VCF (warianty): ~500 MB - 2 GB
Typowy projekt badawczy:
100 próbek WGS = ~6-10 TB danych
Wymaga: Systemy HPC (High-Performance Computing), storage sieciowy, infrastruktura chmurowa
Rozwiązania:
- Kompresja (gzip, CRAM format)
- Cloud storage (AWS S3, Google Cloud Storage)
- Usuwanie pośrednich plików (np. unsorted BAM)
- Archiwizacja tylko finalnych wyników + raw FASTQ
🎓 Podsumowanie
Sekwencjonowanie genomu przeszło drogę od żmudnych, miesięcznych procedur Sangera do ultraszybkich, zautomatyzowanych platform NGS zdolnych do odczytania całego genomu w ciągu godzin. Ta rewolucja technologiczna zdemokratyzowała dostęp do informacji genetycznej i stała się fundamentem współczesnej medycyny precyzyjnej oraz edycji genomu CRISPR.
Różnorodność dostępnych technologii – od krótkich, bardzo dokładnych odczytów Illumina, przez ultradługie odczyty Nanopore, po wysokojakościowe długie odczyty PacBio HiFi – pozwala na wybór optymalnej strategii w zależności od celu badania. Połączenie sekwencjonowania z zaawansowanymi narzędziami bioinformatycznymi umożliwia nie tylko odczytywanie, ale również głębokie rozumienie i modyfikowanie genomu.
W kolejnym artykule zagłębimy się w praktyczne aspekty programowania eksperymentów CRISPR – od projektowania sgRNA, przez przewidywanie off-target, po optymalizację efektywności edycji przy użyciu narzędzi bioinformatycznych.
📖 Następny artykuł w serii:
Część 5: Programowanie CRISPR - bioinformatyka i projektowanie sgRNA →