Programowanie CRISPR: Bioinformatyka i Projektowanie sgRNA
🧬 Seria artykułów o CRISPR:
- Część 1: Historia i podstawy CRISPR
- Część 2: Mechanizm działania CRISPR-Cas9
- Część 3: Enhancery i promotory
- Część 4: Sekwencjonowanie genomu
- Część 5: Programowanie CRISPR - bioinformatyka
- Część 6: Zastosowania i dostępność technologii
🎯 Kryteria projektowania optymalnego sgRNA
Nie wszystkie sgRNA działają jednakowo efektywnie. Skuteczność cięcia przez Cas9 w docelowym locus może wahać się od <1% do >90% komórek, w zależności od właściwości sgRNA i kontekstu genomowego. Bioinformatyczne projektowanie musi uwzględnić wiele kryteriów:
📊 Kluczowe parametry projektowania sgRNA
1. Obecność sekwencji PAM KRYTYCZNE
Wymóg: Dla SpCas9: 5'-NGG-3' bezpośrednio po protospacerze (20 pz)
Rozszerzone PAM:
- SpCas9: NGG (kanoniczny), ale również NAG (5-20% efektywności NGG)
- SpCas9-NG: NG (rozszerzony zakres, niższa efektywność)
- xCas9: NG, GAA, GAT
- SaCas9: NNGRRT (gdzie R = A lub G)
- Cas12a (Cpf1): TTTV (gdzie V = A, C lub G) – 5' od protospacera
2. Zawartość GC (GC content) WYSOKA WAGA
Optymalny zakres: 40-60% GC
Uzasadnienie biochemiczne:
- Zbyt niska GC (<30%): Słabe wiązanie RNA:DNA, niestabilny R-loop
- Zbyt wysoka GC (>70%): Silne struktury drugorzędowe w sgRNA, utrudnione rozplecenie DNA
- Wiązania GC (3 mostki wodorowe) vs. AT (2 mostki) wpływają na stabilność heterodupleksu
3. Nukleotyd w pozycji przed PAM WYSOKA WAGA
Preferowany nukleotyd: G (guanina) w pozycji -1 (bezpośrednio przed PAM)
Wpływ na efektywność:
- G w pozycji -1: Najwyższa efektywność cięcia (~100% względna)
- C w pozycji -1: ~90% względna efektywność
- A w pozycji -1: ~70-80% względna efektywność
- T w pozycji -1: ~60-70% względna efektywność
Doench et al. (2014) Nat Biotechnol, 32(12): 1262-1267
4. Unikanie poliT/poliA stretch ŚREDNIA WAGA
Wykluczenie: ≥4 kolejne T (lub U w RNA) w spacerze
Powód: TTTT jest sekwencją terminującą dla polimerazy RNA III (używanej w ekspresji sgRNA z promotora U6). Może prowadzić do przedwczesnej terminacji transkrypcji sgRNA.
5. Minimalizacja struktury drugorzędowej sgRNA ŚREDNIA WAGA
Ocena: Przewidywanie struktury drugorzędowej spacera (20 nt)
Narzędzia: RNAfold, ViennaRNA package
Preferowane: Minimalny ΔG (energia swobodna Gibbsa) struktury drugorzędowej
- ΔG > -5 kcal/mol: Słaba struktura (dobry sgRNA)
- ΔG < -10 kcal/mol: Silna struktura (ryzyko niskiej efektywności)
6. Pozycja w eksonie/genie KONTEKSTOWA
Dla knockout:
- Celowanie w wczesne eksony (1-3) – większe prawdopodobieństwo nonsense-mediated decay
- Przed kluczowymi domenami funkcjonalnymi białka
- Unikanie alternatywnych miejsc startu transkrypcji
Dla HDR (Homology-Directed Repair):
- Celowanie jak najbliżej miejsca edycji (optymalne: 0-10 pz)
- HDR spada eksponencjalnie z odległością od DSB
7. Dostępność chromatyny WYSOKA WAGA
Preferowane: Regiony otwartej chromatyny (euchromatin)
Dane epigenomiczne:
- DNase I hypersensitive sites (DHS) - otwarta chromatyna
- H3K4me3, H3K27ac - markery aktywnej chromatyny
- H3K9me3, H3K27me3 - heterochromatin (unikać)
Wpływ na efektywność: sgRNA w otwartej chromatynie może być 5-100x bardziej efektywny niż w zamkniętej
8. Minimalizacja off-target KRYTYCZNE
Cel: Brak miejsc off-target z ≤3 niedopasowaniami w genomie
Szczególnie krytyczne: Niedopasowania w seed region (pozycje 1-12 od PAM)
Szczegółowo omówione w następnej sekcji...
🧮 Algorytmy scoring – przewidywanie efektywności on-target
Wczesne narzędzia do projektowania sgRNA opierały się na prostych regułach (GC content, PAM, poly-T). Współczesne algorytmy wykorzystują uczenie maszynowe trenowane na tysiącach eksperymentalnie zwalidowanych sgRNA.
1. Rule-Based Scoring (wczesne algorytmy, 2013-2014)
2. Doench 2014 Score (MIT Specificity Score)
Pierwszy algorytm trenowany na dużym datasecie (1841 sgRNA celujących 563 geny w ludzkich komórkach).
Model Doench 2014:
Features (cechy wejściowe):
- Tożsamość nukleotydu w każdej pozycji (20 pozycji × 4 nukleotydy = 80 binary features)
- Dinukleotydy (pary sąsiadujących nukleotydów)
- GC content
- Pozycja w genie
Model: Gradient boosted regression tree (ensemble method)
Output: Predicted on-target score (0-100)
Performance:
- Pearson correlation z eksperymentem: r = 0.52 (training set)
- Przewiduje względną efektywność sgRNA
Doench et al. (2014) Nat Biotechnol, 32(12): 1262-1267
3. Doench 2016 Score (Azimuth / Rule Set 2)
Znacząco ulepszona wersja trenowana na 8 razy większym datasecie (14,895 sgRNA).
🤖 Azimuth Model (2016)
Dataset: Lentiviralny CRISPR library celujący 2,079 genów, oceniany przez sequencing
Features (rozszerzone):
- Kontekst +/- 4 pz wokół protospacera (28 nt łącznie)
- Dinukleotydy i trinukleotydy
- Thermodynamic features (stabilność RNA:DNA)
- Pozycja w transkrypcie (normalizowana)
- Struktura drugorzędowa spacera (ΔG)
Model: L2-regularized linear regression + gradient boosting
Performance:
- Spearman correlation: ρ = 0.73 (test set)
- Znacząca poprawa nad 2014 model
- Generalizuje dobrze do innych typów komórek
Dostępność: https://azimuth.cs.washington.edu/
Doench et al. (2016) Nat Biotechnol, 34(2): 184-191
4. DeepCRISPR i modele deep learning (2018+)
Najnowsze algorytmy wykorzystują głębokie sieci neuronowe zdolne do uczenia się złożonych, nieliniowych interakcji między pozycjami.
🧠 Deep Learning Models
DeepCRISPR (2018):
- Architektura: Convolutional Neural Network (CNN) + Bidirectional LSTM
- Input: One-hot encoded sequence (30 nt context)
- Hidden layers: 3 conv layers + 2 LSTM layers + fully connected
- Performance: Spearman ρ = 0.87 (najlepszy wynik na 2018)
CRISPR-Net (2020):
- Multi-task learning: Jednoczesne przewidywanie on-target efficiency + off-target effects
- Transfer learning między organizmami (human → mouse)
- Uwzględnia secondary structure features
CRISPRon (2021):
- Attention mechanism – identyfikuje kluczowe pozycje
- Integruje dane epigenomiczne (DNase-seq, histone marks)
- Cell-type specific predictions
🎯 Predykcja off-target effects
Najbardziej krytyczny aspekt projektowania sgRNA. Nawet "dobry" sgRNA może być niebezpieczny, jeśli powoduje cięcia off-target w genach krytycznych.
Reguły tolerancji niedopasowań
Empiryczne reguły off-target (Hsu et al. 2013):
Seed region (pozycje 1-12 od PAM):
- 0 niedopasowań: ~100% cięcia
- 1 niedopasowanie: 1-50% cięcia (zależy od pozycji)
- 2 niedopasowania: 0.1-10% cięcia
- 3+ niedopasowania: zazwyczaj <0.1% cięcia
Region dystalny (pozycje 13-20):
- 2-3 niedopasowania: często tolerowane
- Wpływ pojedynczego niedopasowania mniejszy niż w seed
Typ niedopasowań:
- rG:dT wobble pairs – najbardziej tolerowane
- Bulge (pętla) – silnie redukuje cięcie
- Consecutive mismatches – silniejsza redukcja niż rozproszone
Hsu et al. (2013) Nat Biotechnol, 31(9): 827-832
Algorytmy predykcji off-target
1. CFD Score (Cutting Frequency Determination)
Empiryczny scoring system oparty na eksperymentalnych danych z GUIDE-seq.
Doench et al. (2016) Nat Biotechnol, 34(2): 184-191
2. MIT Specificity Score
3. CRISTA Score (2018)
Machine learning model trenowany na 16,000+ eksperymentalnie zwalidowanych off-target.
Features wykorzystywane przez CRISTA:
- Pozycja i typ niedopasowań
- Lokalne features (dinukleotydy wokół niedopasowań)
- Epigenetyczne features (DNase accessibility w miejscu off-target)
- Thermodynamic stability RNA:DNA heteroduplex
Model: Gradient Boosted Trees
Performance: AUC-ROC = 0.91 (klasyfikacja true off-target vs. false positives)
Abadi et al. (2017) Mol Cell, 67(5): 769-781
🛠️ Narzędzia bioinformatyczne do projektowania sgRNA
Teoria to jedno, ale praktyczne projektowanie wymaga narzędzi software. Oto najpopularniejsze platformy:
1. CRISPOR (crispor.org)
Deweloper: Maximilian Haeussler (UCSC Genomics Institute)
URL: https://crispor.org
Funkcje:
- Input: Sekwencja docelowa (można wkleić DNA lub podać współrzędne genomowe)
- Wspierane organizmy: >250 gatunków (w tym human, mouse, rat, zebrafish, C. elegans, Drosophila, rośliny)
- Scoring:
- On-target: MIT Doench 2016, Moreno-Mateos (dla zarodków)
- Off-target: CFD score, MIT specificity score
- Wykrywanie off-target: Przeszukiwanie całego genomu z tolerancją do 4 niedopasowań
- Wizualizacja: Przegląd off-target, lokalizacja w genomie, eksony
- Dodatkowe features:
- Projektowanie primerów do amplicon sequencing (weryfikacja edycji)
- Sekwencje dla zamawiania oligonukleotydów
- Batch mode (wiele genów jednocześnie)
Zalety: Darmowy, łatwy w użyciu, regularnie aktualizowany, doskonała dokumentacja
Output przykład:
Concordet & Haeussler (2018) Genome Biol, 19(1): 114
2. Benchling CRISPR Tool
URL: https://www.benchling.com
Model biznesowy: Freemium (darmowy dla akademików, płatny dla przemysłu)
Funkcje CRISPR:
- Zintegrowane projektowanie sgRNA z molekularnym notebook
- Wizualizacja plazmidów i konstruktów
- Automatyczne projektowanie HDR templates
- Off-target analysis (0-3 niedopasowania)
- Tracking eksperymentów i wyników
- Współdzielenie projektów w zespole
Zalety:
- All-in-one platform (od projektowania do analizy wyników)
- Intuicyjny interface
- Integracja z zamówieniami syntez (IDT, Twist Bioscience)
- Electronic Lab Notebook functionality
Wady: Closed-source, wymaga konta, mniej transparentne algorytmy niż open-source tools
3. Cas-OFFinder (Off-target Finder)
Deweloper: Seoul National University
URL: http://www.rgenome.net/cas-offinder/
Specjalizacja: Szybkie wykrywanie off-target w całym genomie
Technologia: OpenCL-accelerated (wykorzystuje GPU)
Prędkość: Przeszukiwanie ludzkiego genomu w <30 sekund (na GPU)
Funkcje:
- Wsparcie dla różnych PAM (SpCas9, SaCas9, Cas12a, etc.)
- Konfigurowalny mismatch tolerance (0-10 niedopasowań)
- Bulge search (insercje/delecje w protospacer)
- Command-line tool dla batch processing
Use case: Gdy potrzebujesz szybkiego, kompletnego przeszukiwania off-target dla wielu sgRNA
Bae et al. (2014) Bioinformatics, 30(10): 1473-1475
4. CHOPCHOP
URL: https://chopchop.cbu.uib.no/
Deweloper: University of Bergen
Unique features:
- Wsparcie dla różnych nukleaz: Cas9, Cas12a, Cas13, base editors, prime editors
- Projektowanie paired sgRNA (dla delecji/insercji)
- Knockout efficiency prediction
- Ranking sgRNA przez kombinację algorytmów
- Visualizacja w UCSC Genome Browser
Scoring system:
- Efficiency score: 0-100 (Doench 2016 + własny model)
- Self-complementarity (struktura drugorzędowa)
- Off-target penalty based on MIT + CFD
Labun et al. (2019) Nucleic Acids Res, 47(W1): W171-W174
5. IDT CRISPR Design Tool
URL: https://www.idtdna.com/crispr
Model: Darmowe projektowanie + bezpośrednie zamawianie syntez
Funkcje:
- Projektowanie sgRNA, crRNA, tracrRNA
- Zoptymalizowane dla produktów IDT (Alt-R system)
- Off-target analysis
- HDR template design
- Automatic oligo design dla klonowania
- One-click ordering syntez (sgRNA, Cas9 protein, HDR templates)
Zalety: Jeśli planujesz zamówienie syntez, seamless integration
Wady: Preferuje produkty IDT, mniej features niż dedykowane research tools
🧪 Workflow: Od genu docelowego do zamówienia sgRNA
📋 Praktyczny workflow projektowania sgRNA
Krok 1: Definicja celu biologicznego
- Knockout: Który ekson? Preferowane: wczesne eksony (1-3), przed kluczowymi domenami
- Knock-in/HDR: Dokładna pozycja edycji (SNP, insercja tagu)
- CRISPRa/i: Region promotora (CRISPRa: -200 do +1; CRISPRi: +1 do +300)
Krok 2: Identyfikacja regionu docelowego
- Pobierz sekwencję z NCBI/Ensembl lub użyj UCSC Genome Browser
- Dla genów z wariantami: użyj sekwencji specyficznej dla pacjenta/linii komórkowej
- Uwzględnij +/- 200 pz kontekstu
Krok 3: Projektowanie sgRNA (CRISPOR/Benchling)
- Wklej sekwencję do CRISPOR
- Wybierz organizm i genom referencyjny (np. human GRCh38)
- Ustaw parametry:
- Cas enzyme (zazwyczaj SpCas9)
- Off-target tolerance (zazwyczaj do 4 mm)
- CRISPOR zwróci listę wszystkich możliwych sgRNA z scoring
Krok 4: Selekcja top sgRNA
Kryteria selekcji:
- MIT Specificity Score >50 (wysoka specyficzność)
- Doench 2016 Score >50 (dobra efektywność on-target)
- Brak off-target z 0-1 niedopasowaniem w eksonach
- GC% w zakresie 40-60%
- Brak poly-T (TTTT)
Rekomendacja: Wybierz 3-4 top sgRNA dla eksperymentalnej walidacji
Krok 5: Projektowanie primerów weryfikacyjnych
Dla każdego sgRNA zaprojektuj primery amplicon-seq (flanking region ~500 pz wokół miejsca cięcia):
- Forward primer: -250 pz od DSB
- Reverse primer: +250 pz od DSB
- Użyj Primer3 lub funkcji CRISPOR
Krok 6: Zamówienie syntez
Opcje:
- sgRNA syntetyczny (in vitro): IDT, Synthego, Horizon (~$30-100/sgRNA)
- Plazmidy ekspresyjne: Klonowanie do wektorów (px330, lentiCRISPR)
- Cas9 protein: IDT Alt-R, NEB, Thermo (~$200-500/reakcja)
Krok 7: Eksperymentalna walidacja
- Transfekcja/elektroporacja Cas9 + sgRNA do komórek
- Harvest DNA po 48-72h
- PCR amplifikacja locus + NGS lub Sanger sequencing
- Analiza indeli: TIDE, ICE, CRISPResso2
- Off-target validation (opcjonalnie): GUIDE-seq, CIRCLE-seq
📊 Praktyczne porady – lessons learned
- Zawsze testuj 3-4 sgRNA: Bioinformatyczne predykcje nie są doskonałe. Empiryczna walidacja jest niezbędna.
- Priorytet: Specyficzność > Efektywność: Lepiej mieć 50% knockout bez off-target niż 90% z ryzykiem edycji onkogenów.
- Kontekst komórkowy ma znaczenie: sgRNA działa różnie w różnych typach komórek ze względu na dostępność chromatyny. Jeśli możliwe, użyj danych ATAC-seq/DNase-seq dla swojego typu komórki.
- Dla HDR: bliskość ma znaczenie: DSB powinien być <20 pz od miejsca edycji. HDR efficiency spada eksponencjalnie z odległością.
- Base editors i Prime editors dla SNP: Jeśli edytujesz pojedynczy nukleotyd, rozważ base editors (BE) lub prime editors (PE) zamiast klasycznego CRISPR-Cas9 + HDR. Wyższa efektywność, mniej off-target.
- Multiplex CRISPR wymaga szczególnej uwagi: Gdy używasz wielu sgRNA jednocześnie, off-target effects mogą się kumulować. Użyj wysokospecyficznych wariantów (eSpCas9, HF1).
- Weryfikuj genetycznie: Sekwencjonowanie Sangera może przeoczyć mozaicyzm. Używaj amplicon deep sequencing (NGS) dla dokładnej kwantyfikacji efektywności i off-target.
🎓 Podsumowanie
Projektowanie optymalnego sgRNA to połączenie nauki i sztuki. Choć współczesne algorytmy machine learning znacząco poprawiły predykcję efektywności on-target i off-target, empiryczna walidacja pozostaje złotym standardem. Kluczem do sukcesu jest:
- Zrozumienie biologicznych determinant efektywności Cas9
- Wykorzystanie sprawdzonych narzędzi bioinformatycznych (CRISPOR, Benchling)
- Priorytetyzacja specyficzności nad efektywnością
- Testowanie wielu sgRNA kandydatów
- Dokładna walidacja eksperymentalna
Wraz z rozwojem technologii – od high-fidelity Cas9 variants, przez base i prime editors, po nowe systemy CRISPR (Cas12, Cas13) – narzędzia bioinformatyczne stale ewoluują, oferując coraz dokładniejsze predykcje i większe możliwości precyzyjnej edycji genomu.
W ostatnim artykule tej serii przyjrzymy się praktycznym zastosowaniom CRISPR w medycynie, rolnictwie i biotechnologii, oraz odpowiemy na pytanie: kto może korzystać z tej technologii i jak wygląda dostępność CRISPR w laboratoriach.
📖 Następny (ostatni) artykuł w serii:
Część 6: Zastosowania praktyczne i dostępność CRISPR – czy każdy może to robić? →