Programowanie CRISPR: Bioinformatyka i Projektowanie sgRNA

🧬 Seria artykułów o CRISPR:

Projektowanie skutecznego eksperymentu CRISPR to znacznie więcej niż wybór losowej sekwencji 20 nukleotydów w pobliżu PAM. To złożony proces wymagający zrozumienia genomiki, algorytmów bioinformatycznych oraz właściwości biochemicznych wpływających na efektywność cięcia i specyficzność. W erze big data i machine learning, projektowanie sgRNA stało się zaawansowaną dziedziną łączącą biologię molekularną z naukami komputerowymi.

🎯 Kryteria projektowania optymalnego sgRNA

Nie wszystkie sgRNA działają jednakowo efektywnie. Skuteczność cięcia przez Cas9 w docelowym locus może wahać się od <1% do >90% komórek, w zależności od właściwości sgRNA i kontekstu genomowego. Bioinformatyczne projektowanie musi uwzględnić wiele kryteriów:

📊 Kluczowe parametry projektowania sgRNA

1. Obecność sekwencji PAM KRYTYCZNE

Wymóg: Dla SpCas9: 5'-NGG-3' bezpośrednio po protospacerze (20 pz)

Rozszerzone PAM:

  • SpCas9: NGG (kanoniczny), ale również NAG (5-20% efektywności NGG)
  • SpCas9-NG: NG (rozszerzony zakres, niższa efektywność)
  • xCas9: NG, GAA, GAT
  • SaCas9: NNGRRT (gdzie R = A lub G)
  • Cas12a (Cpf1): TTTV (gdzie V = A, C lub G) – 5' od protospacera
SpCas9 protospacer + PAM: 5'-[20 bp protospacer]NGG-3' <- target strand (komplementarna do sgRNA) |||||||||||||||||||| sgRNA (20 nt spacer) Przykład: 5'-GACCGGAACGATCTCGCGTA TGG-3' (TGG = PAM) |||||||||||||||||||| 3'-CUGGCCUUGCUAGAGCGCAU-5' (sgRNA spacer)

2. Zawartość GC (GC content) WYSOKA WAGA

Optymalny zakres: 40-60% GC

Uzasadnienie biochemiczne:

  • Zbyt niska GC (<30%): Słabe wiązanie RNA:DNA, niestabilny R-loop
  • Zbyt wysoka GC (>70%): Silne struktury drugorzędowe w sgRNA, utrudnione rozplecenie DNA
  • Wiązania GC (3 mostki wodorowe) vs. AT (2 mostki) wpływają na stabilność heterodupleksu
GC% = (liczba G + liczba C) / (długość spacera) × 100% Przykład: Spacer: GACCGGAACGATCTCGCGTA G: 6, C: 6, A: 4, T: 4 GC% = (6+6)/20 × 100% = 60% ✓ OPTYMALNY

3. Nukleotyd w pozycji przed PAM WYSOKA WAGA

Preferowany nukleotyd: G (guanina) w pozycji -1 (bezpośrednio przed PAM)

Wpływ na efektywność:

  • G w pozycji -1: Najwyższa efektywność cięcia (~100% względna)
  • C w pozycji -1: ~90% względna efektywność
  • A w pozycji -1: ~70-80% względna efektywność
  • T w pozycji -1: ~60-70% względna efektywność

Doench et al. (2014) Nat Biotechnol, 32(12): 1262-1267

4. Unikanie poliT/poliA stretch ŚREDNIA WAGA

Wykluczenie: ≥4 kolejne T (lub U w RNA) w spacerze

Powód: TTTT jest sekwencją terminującą dla polimerazy RNA III (używanej w ekspresji sgRNA z promotora U6). Może prowadzić do przedwczesnej terminacji transkrypcji sgRNA.

5. Minimalizacja struktury drugorzędowej sgRNA ŚREDNIA WAGA

Ocena: Przewidywanie struktury drugorzędowej spacera (20 nt)

Narzędzia: RNAfold, ViennaRNA package

Preferowane: Minimalny ΔG (energia swobodna Gibbsa) struktury drugorzędowej

  • ΔG > -5 kcal/mol: Słaba struktura (dobry sgRNA)
  • ΔG < -10 kcal/mol: Silna struktura (ryzyko niskiej efektywności)

6. Pozycja w eksonie/genie KONTEKSTOWA

Dla knockout:

  • Celowanie w wczesne eksony (1-3) – większe prawdopodobieństwo nonsense-mediated decay
  • Przed kluczowymi domenami funkcjonalnymi białka
  • Unikanie alternatywnych miejsc startu transkrypcji

Dla HDR (Homology-Directed Repair):

  • Celowanie jak najbliżej miejsca edycji (optymalne: 0-10 pz)
  • HDR spada eksponencjalnie z odległością od DSB

7. Dostępność chromatyny WYSOKA WAGA

Preferowane: Regiony otwartej chromatyny (euchromatin)

Dane epigenomiczne:

  • DNase I hypersensitive sites (DHS) - otwarta chromatyna
  • H3K4me3, H3K27ac - markery aktywnej chromatyny
  • H3K9me3, H3K27me3 - heterochromatin (unikać)

Wpływ na efektywność: sgRNA w otwartej chromatynie może być 5-100x bardziej efektywny niż w zamkniętej

8. Minimalizacja off-target KRYTYCZNE

Cel: Brak miejsc off-target z ≤3 niedopasowaniami w genomie

Szczególnie krytyczne: Niedopasowania w seed region (pozycje 1-12 od PAM)

Szczegółowo omówione w następnej sekcji...

🧮 Algorytmy scoring – przewidywanie efektywności on-target

Wczesne narzędzia do projektowania sgRNA opierały się na prostych regułach (GC content, PAM, poly-T). Współczesne algorytmy wykorzystują uczenie maszynowe trenowane na tysiącach eksperymentalnie zwalidowanych sgRNA.

1. Rule-Based Scoring (wczesne algorytmy, 2013-2014)

Prosta funkcja scoring (przykład): Score = W_GC × f(GC%) + W_pos20 × f(nuc_-1) + W_polyT × f(polyT) gdzie: - W_* = wagi (empirycznie określone) - f(GC%) = funkcja kara za odchylenie od 50% - f(nuc_-1) = bonus za G w pozycji -1 - f(polyT) = kara za poly-T stretch Ograniczenie: Nie uwzględnia interakcji między pozycjami

2. Doench 2014 Score (MIT Specificity Score)

Pierwszy algorytm trenowany na dużym datasecie (1841 sgRNA celujących 563 geny w ludzkich komórkach).

Model Doench 2014:

Features (cechy wejściowe):

  • Tożsamość nukleotydu w każdej pozycji (20 pozycji × 4 nukleotydy = 80 binary features)
  • Dinukleotydy (pary sąsiadujących nukleotydów)
  • GC content
  • Pozycja w genie

Model: Gradient boosted regression tree (ensemble method)

Output: Predicted on-target score (0-100)

Performance:

  • Pearson correlation z eksperymentem: r = 0.52 (training set)
  • Przewiduje względną efektywność sgRNA

Doench et al. (2014) Nat Biotechnol, 32(12): 1262-1267

3. Doench 2016 Score (Azimuth / Rule Set 2)

Znacząco ulepszona wersja trenowana na 8 razy większym datasecie (14,895 sgRNA).

🤖 Azimuth Model (2016)

Dataset: Lentiviralny CRISPR library celujący 2,079 genów, oceniany przez sequencing

Features (rozszerzone):

  • Kontekst +/- 4 pz wokół protospacera (28 nt łącznie)
  • Dinukleotydy i trinukleotydy
  • Thermodynamic features (stabilność RNA:DNA)
  • Pozycja w transkrypcie (normalizowana)
  • Struktura drugorzędowa spacera (ΔG)

Model: L2-regularized linear regression + gradient boosting

Performance:

  • Spearman correlation: ρ = 0.73 (test set)
  • Znacząca poprawa nad 2014 model
  • Generalizuje dobrze do innych typów komórek

Dostępność: https://azimuth.cs.washington.edu/

Doench et al. (2016) Nat Biotechnol, 34(2): 184-191

4. DeepCRISPR i modele deep learning (2018+)

Najnowsze algorytmy wykorzystują głębokie sieci neuronowe zdolne do uczenia się złożonych, nieliniowych interakcji między pozycjami.

🧠 Deep Learning Models

DeepCRISPR (2018):

  • Architektura: Convolutional Neural Network (CNN) + Bidirectional LSTM
  • Input: One-hot encoded sequence (30 nt context)
  • Hidden layers: 3 conv layers + 2 LSTM layers + fully connected
  • Performance: Spearman ρ = 0.87 (najlepszy wynik na 2018)

CRISPR-Net (2020):

  • Multi-task learning: Jednoczesne przewidywanie on-target efficiency + off-target effects
  • Transfer learning między organizmami (human → mouse)
  • Uwzględnia secondary structure features

CRISPRon (2021):

  • Attention mechanism – identyfikuje kluczowe pozycje
  • Integruje dane epigenomiczne (DNase-seq, histone marks)
  • Cell-type specific predictions

🎯 Predykcja off-target effects

Najbardziej krytyczny aspekt projektowania sgRNA. Nawet "dobry" sgRNA może być niebezpieczny, jeśli powoduje cięcia off-target w genach krytycznych.

Reguły tolerancji niedopasowań

Empiryczne reguły off-target (Hsu et al. 2013):

Seed region (pozycje 1-12 od PAM):

  • 0 niedopasowań: ~100% cięcia
  • 1 niedopasowanie: 1-50% cięcia (zależy od pozycji)
  • 2 niedopasowania: 0.1-10% cięcia
  • 3+ niedopasowania: zazwyczaj <0.1% cięcia

Region dystalny (pozycje 13-20):

  • 2-3 niedopasowania: często tolerowane
  • Wpływ pojedynczego niedopasowania mniejszy niż w seed

Typ niedopasowań:

  • rG:dT wobble pairs – najbardziej tolerowane
  • Bulge (pętla) – silnie redukuje cięcie
  • Consecutive mismatches – silniejsza redukcja niż rozproszone

Hsu et al. (2013) Nat Biotechnol, 31(9): 827-832

Algorytmy predykcji off-target

1. CFD Score (Cutting Frequency Determination)

Empiryczny scoring system oparty na eksperymentalnych danych z GUIDE-seq.

CFD Score calculation: CFD = ∏(i=1 to 20) M[i, type_i] gdzie: - M[i, type_i] = macierz kar za niedopasowanie w pozycji i - Wartości M empirycznie określone z eksperymentów - CFD ∈ [0, 1], gdzie 1 = perfect match Przykład: On-target: GACCGGAACGATCTCGCGTA NGG Off-target: GACCGGAACGTTCTCGCGTA NGG (1 mismatch w pozycji 11: A→T) CFD = M[11, rA:dT] × ∏(innych pozycji = 1) = 0.375 × 1 = 0.375 Interpretacja: Off-target z CFD >0.2 wymaga eksperymentalnej walidacji

Doench et al. (2016) Nat Biotechnol, 34(2): 184-191

2. MIT Specificity Score

MIT Score dla pojedynczego off-target: Score = 100 × ∏(i=1 to 20) (1 - W_i × d_i) gdzie: - d_i = 1 jeśli niedopasowanie w pozycji i, 0 jeśli match - W_i = waga pozycji (wyższa dla seed region) W_i dla pozycji: Pozycje 1-7 (seed): W = 1.0 Pozycje 8-12: W = 0.8 Pozycje 13-15: W = 0.5 Pozycje 16-20: W = 0.2 Agregowany MIT Specificity Score dla sgRNA: Total_Score = 100 / (100 + Σ(wszystkie off-targets)) Wartości: >50 = wysoka specyficzność 30-50 = średnia <30 = niska (unikać)

3. CRISTA Score (2018)

Machine learning model trenowany na 16,000+ eksperymentalnie zwalidowanych off-target.

Features wykorzystywane przez CRISTA:

  • Pozycja i typ niedopasowań
  • Lokalne features (dinukleotydy wokół niedopasowań)
  • Epigenetyczne features (DNase accessibility w miejscu off-target)
  • Thermodynamic stability RNA:DNA heteroduplex

Model: Gradient Boosted Trees

Performance: AUC-ROC = 0.91 (klasyfikacja true off-target vs. false positives)

Abadi et al. (2017) Mol Cell, 67(5): 769-781

🛠️ Narzędzia bioinformatyczne do projektowania sgRNA

Teoria to jedno, ale praktyczne projektowanie wymaga narzędzi software. Oto najpopularniejsze platformy:

1. CRISPOR (crispor.org)

🌐 CRISPOR – Comprehensive Web Tool

Deweloper: Maximilian Haeussler (UCSC Genomics Institute)

URL: https://crispor.org

Funkcje:

  • Input: Sekwencja docelowa (można wkleić DNA lub podać współrzędne genomowe)
  • Wspierane organizmy: >250 gatunków (w tym human, mouse, rat, zebrafish, C. elegans, Drosophila, rośliny)
  • Scoring:
    • On-target: MIT Doench 2016, Moreno-Mateos (dla zarodków)
    • Off-target: CFD score, MIT specificity score
  • Wykrywanie off-target: Przeszukiwanie całego genomu z tolerancją do 4 niedopasowań
  • Wizualizacja: Przegląd off-target, lokalizacja w genomie, eksony
  • Dodatkowe features:
    • Projektowanie primerów do amplicon sequencing (weryfikacja edycji)
    • Sekwencje dla zamawiania oligonukleotydów
    • Batch mode (wiele genów jednocześnie)

Zalety: Darmowy, łatwy w użyciu, regularnie aktualizowany, doskonała dokumentacja

Output przykład:

CRISPOR Results for BRCA1 exon 5: sgRNA #1: GACCGGAACGATCTCGCGTA TGG MIT Score: 82 (wysoka specyficzność) Doench 2016: 67 (dobra efektywność) Off-targets (0mm): 0 Off-targets (1mm): 0 Off-targets (2mm): 3 (wszystkie w intronach) Off-targets (3mm): 24 ✓ REKOMENDOWANY sgRNA #2: CATTCGAGACGCTGAGCGAT AGG MIT Score: 35 (niska specyficzność) Doench 2016: 71 (dobra efektywność) Off-targets (0mm): 0 Off-targets (1mm): 2 (1 w eksonie EGFR!) Off-targets (2mm): 18 ✗ NIEZALECANY (off-target w EGFR)

Concordet & Haeussler (2018) Genome Biol, 19(1): 114

2. Benchling CRISPR Tool

🧬 Benchling – Integrated Molecular Biology Platform

URL: https://www.benchling.com

Model biznesowy: Freemium (darmowy dla akademików, płatny dla przemysłu)

Funkcje CRISPR:

  • Zintegrowane projektowanie sgRNA z molekularnym notebook
  • Wizualizacja plazmidów i konstruktów
  • Automatyczne projektowanie HDR templates
  • Off-target analysis (0-3 niedopasowania)
  • Tracking eksperymentów i wyników
  • Współdzielenie projektów w zespole

Zalety:

  • All-in-one platform (od projektowania do analizy wyników)
  • Intuicyjny interface
  • Integracja z zamówieniami syntez (IDT, Twist Bioscience)
  • Electronic Lab Notebook functionality

Wady: Closed-source, wymaga konta, mniej transparentne algorytmy niż open-source tools

3. Cas-OFFinder (Off-target Finder)

🔍 Cas-OFFinder – Ultra-Fast Off-Target Search

Deweloper: Seoul National University

URL: http://www.rgenome.net/cas-offinder/

Specjalizacja: Szybkie wykrywanie off-target w całym genomie

Technologia: OpenCL-accelerated (wykorzystuje GPU)

Prędkość: Przeszukiwanie ludzkiego genomu w <30 sekund (na GPU)

Funkcje:

  • Wsparcie dla różnych PAM (SpCas9, SaCas9, Cas12a, etc.)
  • Konfigurowalny mismatch tolerance (0-10 niedopasowań)
  • Bulge search (insercje/delecje w protospacer)
  • Command-line tool dla batch processing

Use case: Gdy potrzebujesz szybkiego, kompletnego przeszukiwania off-target dla wielu sgRNA

Bae et al. (2014) Bioinformatics, 30(10): 1473-1475

4. CHOPCHOP

✂️ CHOPCHOP – Multi-Tool CRISPR Designer

URL: https://chopchop.cbu.uib.no/

Deweloper: University of Bergen

Unique features:

  • Wsparcie dla różnych nukleaz: Cas9, Cas12a, Cas13, base editors, prime editors
  • Projektowanie paired sgRNA (dla delecji/insercji)
  • Knockout efficiency prediction
  • Ranking sgRNA przez kombinację algorytmów
  • Visualizacja w UCSC Genome Browser

Scoring system:

  • Efficiency score: 0-100 (Doench 2016 + własny model)
  • Self-complementarity (struktura drugorzędowa)
  • Off-target penalty based on MIT + CFD

Labun et al. (2019) Nucleic Acids Res, 47(W1): W171-W174

5. IDT CRISPR Design Tool

🧪 IDT (Integrated DNA Technologies) – Commercial Tool with Ordering

URL: https://www.idtdna.com/crispr

Model: Darmowe projektowanie + bezpośrednie zamawianie syntez

Funkcje:

  • Projektowanie sgRNA, crRNA, tracrRNA
  • Zoptymalizowane dla produktów IDT (Alt-R system)
  • Off-target analysis
  • HDR template design
  • Automatic oligo design dla klonowania
  • One-click ordering syntez (sgRNA, Cas9 protein, HDR templates)

Zalety: Jeśli planujesz zamówienie syntez, seamless integration

Wady: Preferuje produkty IDT, mniej features niż dedykowane research tools

🧪 Workflow: Od genu docelowego do zamówienia sgRNA

📋 Praktyczny workflow projektowania sgRNA

Krok 1: Definicja celu biologicznego

  • Knockout: Który ekson? Preferowane: wczesne eksony (1-3), przed kluczowymi domenami
  • Knock-in/HDR: Dokładna pozycja edycji (SNP, insercja tagu)
  • CRISPRa/i: Region promotora (CRISPRa: -200 do +1; CRISPRi: +1 do +300)

Krok 2: Identyfikacja regionu docelowego

  • Pobierz sekwencję z NCBI/Ensembl lub użyj UCSC Genome Browser
  • Dla genów z wariantami: użyj sekwencji specyficznej dla pacjenta/linii komórkowej
  • Uwzględnij +/- 200 pz kontekstu

Krok 3: Projektowanie sgRNA (CRISPOR/Benchling)

  1. Wklej sekwencję do CRISPOR
  2. Wybierz organizm i genom referencyjny (np. human GRCh38)
  3. Ustaw parametry:
    • Cas enzyme (zazwyczaj SpCas9)
    • Off-target tolerance (zazwyczaj do 4 mm)
  4. CRISPOR zwróci listę wszystkich możliwych sgRNA z scoring

Krok 4: Selekcja top sgRNA

Kryteria selekcji:

  • MIT Specificity Score >50 (wysoka specyficzność)
  • Doench 2016 Score >50 (dobra efektywność on-target)
  • Brak off-target z 0-1 niedopasowaniem w eksonach
  • GC% w zakresie 40-60%
  • Brak poly-T (TTTT)

Rekomendacja: Wybierz 3-4 top sgRNA dla eksperymentalnej walidacji

Krok 5: Projektowanie primerów weryfikacyjnych

Dla każdego sgRNA zaprojektuj primery amplicon-seq (flanking region ~500 pz wokół miejsca cięcia):

  • Forward primer: -250 pz od DSB
  • Reverse primer: +250 pz od DSB
  • Użyj Primer3 lub funkcji CRISPOR

Krok 6: Zamówienie syntez

Opcje:

  • sgRNA syntetyczny (in vitro): IDT, Synthego, Horizon (~$30-100/sgRNA)
  • Plazmidy ekspresyjne: Klonowanie do wektorów (px330, lentiCRISPR)
  • Cas9 protein: IDT Alt-R, NEB, Thermo (~$200-500/reakcja)

Krok 7: Eksperymentalna walidacja

  • Transfekcja/elektroporacja Cas9 + sgRNA do komórek
  • Harvest DNA po 48-72h
  • PCR amplifikacja locus + NGS lub Sanger sequencing
  • Analiza indeli: TIDE, ICE, CRISPResso2
  • Off-target validation (opcjonalnie): GUIDE-seq, CIRCLE-seq

📊 Praktyczne porady – lessons learned

Wskazówki od praktyków CRISPR:
  • Zawsze testuj 3-4 sgRNA: Bioinformatyczne predykcje nie są doskonałe. Empiryczna walidacja jest niezbędna.
  • Priorytet: Specyficzność > Efektywność: Lepiej mieć 50% knockout bez off-target niż 90% z ryzykiem edycji onkogenów.
  • Kontekst komórkowy ma znaczenie: sgRNA działa różnie w różnych typach komórek ze względu na dostępność chromatyny. Jeśli możliwe, użyj danych ATAC-seq/DNase-seq dla swojego typu komórki.
  • Dla HDR: bliskość ma znaczenie: DSB powinien być <20 pz od miejsca edycji. HDR efficiency spada eksponencjalnie z odległością.
  • Base editors i Prime editors dla SNP: Jeśli edytujesz pojedynczy nukleotyd, rozważ base editors (BE) lub prime editors (PE) zamiast klasycznego CRISPR-Cas9 + HDR. Wyższa efektywność, mniej off-target.
  • Multiplex CRISPR wymaga szczególnej uwagi: Gdy używasz wielu sgRNA jednocześnie, off-target effects mogą się kumulować. Użyj wysokospecyficznych wariantów (eSpCas9, HF1).
  • Weryfikuj genetycznie: Sekwencjonowanie Sangera może przeoczyć mozaicyzm. Używaj amplicon deep sequencing (NGS) dla dokładnej kwantyfikacji efektywności i off-target.

🎓 Podsumowanie

Projektowanie optymalnego sgRNA to połączenie nauki i sztuki. Choć współczesne algorytmy machine learning znacząco poprawiły predykcję efektywności on-target i off-target, empiryczna walidacja pozostaje złotym standardem. Kluczem do sukcesu jest:

Wraz z rozwojem technologii – od high-fidelity Cas9 variants, przez base i prime editors, po nowe systemy CRISPR (Cas12, Cas13) – narzędzia bioinformatyczne stale ewoluują, oferując coraz dokładniejsze predykcje i większe możliwości precyzyjnej edycji genomu.

W ostatnim artykule tej serii przyjrzymy się praktycznym zastosowaniom CRISPR w medycynie, rolnictwie i biotechnologii, oraz odpowiemy na pytanie: kto może korzystać z tej technologii i jak wygląda dostępność CRISPR w laboratoriach.

← Powrót do bloga