Programowanie CRISPR: Bioinformatyka i Projektowanie sgRNA

16 lutego 2026 | Dr Wojciech Ziółek | 25 min czytania | CRISPR, Bioinformatyka, sgRNA Design

🧬 Seria artykułów o CRISPR:

Część 1: Historia i podstawy CRISPR
Część 2: Mechanizm działania CRISPR-Cas9
Część 3: Enhancery i promotory
Część 4: Sekwencjonowanie genomu
Część 5: Programowanie CRISPR - bioinformatyka
Część 6: Zastosowania i dostępność technologii

Projektowanie skutecznego eksperymentu CRISPR to znacznie więcej niż wybór losowej sekwencji 20 nukleotydów w pobliżu PAM. To złożony proces wymagający zrozumienia genomiki, algorytmów bioinformatycznych oraz właściwości biochemicznych wpływających na efektywność cięcia i specyficzność. W erze big data i machine learning, projektowanie sgRNA stało się zaawansowaną dziedziną łączącą biologię molekularną z naukami komputerowymi.

🎯 Kryteria projektowania optymalnego sgRNA

Nie wszystkie sgRNA działają jednakowo efektywnie. Skuteczność cięcia przez Cas9 w docelowym locus może wahać się od <1% do >90% komórek, w zależności od właściwości sgRNA i kontekstu genomowego. Bioinformatyczne projektowanie musi uwzględnić wiele kryteriów:

📊 Kluczowe parametry projektowania sgRNA

1. Obecność sekwencji PAM KRYTYCZNE

Wymóg: Dla SpCas9: 5'-NGG-3' bezpośrednio po protospacerze (20 pz)

Rozszerzone PAM:

SpCas9: NGG (kanoniczny), ale również NAG (5-20% efektywności NGG)
SpCas9-NG: NG (rozszerzony zakres, niższa efektywność)
xCas9: NG, GAA, GAT
SaCas9: NNGRRT (gdzie R = A lub G)
Cas12a (Cpf1): TTTV (gdzie V = A, C lub G) – 5' od protospacera

SpCas9 protospacer + PAM: 5'-[20 bp protospacer]NGG-3' <- target strand (komplementarna do sgRNA) |||||||||||||||||||| sgRNA (20 nt spacer) Przykład: 5'-GACCGGAACGATCTCGCGTA TGG-3' (TGG = PAM) |||||||||||||||||||| 3'-CUGGCCUUGCUAGAGCGCAU-5' (sgRNA spacer)

2. Zawartość GC (GC content) WYSOKA WAGA

Optymalny zakres: 40-60% GC

Uzasadnienie biochemiczne:

Zbyt niska GC (<30%): Słabe wiązanie RNA:DNA, niestabilny R-loop
Zbyt wysoka GC (>70%): Silne struktury drugorzędowe w sgRNA, utrudnione rozplecenie DNA
Wiązania GC (3 mostki wodorowe) vs. AT (2 mostki) wpływają na stabilność heterodupleksu

GC% = (liczba G + liczba C) / (długość spacera) × 100% Przykład: Spacer: GACCGGAACGATCTCGCGTA G: 6, C: 6, A: 4, T: 4 GC% = (6+6)/20 × 100% = 60% ✓ OPTYMALNY

3. Nukleotyd w pozycji przed PAM WYSOKA WAGA

Preferowany nukleotyd: G (guanina) w pozycji -1 (bezpośrednio przed PAM)

Wpływ na efektywność:

G w pozycji -1: Najwyższa efektywność cięcia (~100% względna)
C w pozycji -1: ~90% względna efektywność
A w pozycji -1: ~70-80% względna efektywność
T w pozycji -1: ~60-70% względna efektywność

Doench et al. (2014) Nat Biotechnol, 32(12): 1262-1267

4. Unikanie poliT/poliA stretch ŚREDNIA WAGA

Wykluczenie: ≥4 kolejne T (lub U w RNA) w spacerze

Powód: TTTT jest sekwencją terminującą dla polimerazy RNA III (używanej w ekspresji sgRNA z promotora U6). Może prowadzić do przedwczesnej terminacji transkrypcji sgRNA.

5. Minimalizacja struktury drugorzędowej sgRNA ŚREDNIA WAGA

Ocena: Przewidywanie struktury drugorzędowej spacera (20 nt)

Narzędzia: RNAfold, ViennaRNA package

Preferowane: Minimalny ΔG (energia swobodna Gibbsa) struktury drugorzędowej

ΔG > -5 kcal/mol: Słaba struktura (dobry sgRNA)
ΔG < -10 kcal/mol: Silna struktura (ryzyko niskiej efektywności)

6. Pozycja w eksonie/genie KONTEKSTOWA

Dla knockout:

Celowanie w wczesne eksony (1-3) – większe prawdopodobieństwo nonsense-mediated decay
Przed kluczowymi domenami funkcjonalnymi białka
Unikanie alternatywnych miejsc startu transkrypcji

Dla HDR (Homology-Directed Repair):

Celowanie jak najbliżej miejsca edycji (optymalne: 0-10 pz)
HDR spada eksponencjalnie z odległością od DSB

7. Dostępność chromatyny WYSOKA WAGA

Preferowane: Regiony otwartej chromatyny (euchromatin)

Dane epigenomiczne:

DNase I hypersensitive sites (DHS) - otwarta chromatyna
H3K4me3, H3K27ac - markery aktywnej chromatyny
H3K9me3, H3K27me3 - heterochromatin (unikać)

Wpływ na efektywność: sgRNA w otwartej chromatynie może być 5-100x bardziej efektywny niż w zamkniętej

8. Minimalizacja off-target KRYTYCZNE

Cel: Brak miejsc off-target z ≤3 niedopasowaniami w genomie

Szczególnie krytyczne: Niedopasowania w seed region (pozycje 1-12 od PAM)

Szczegółowo omówione w następnej sekcji...

🧮 Algorytmy scoring – przewidywanie efektywności on-target

Wczesne narzędzia do projektowania sgRNA opierały się na prostych regułach (GC content, PAM, poly-T). Współczesne algorytmy wykorzystują uczenie maszynowe trenowane na tysiącach eksperymentalnie zwalidowanych sgRNA.

1. Rule-Based Scoring (wczesne algorytmy, 2013-2014)

Prosta funkcja scoring (przykład): Score = W_GC × f(GC%) + W_pos20 × f(nuc_-1) + W_polyT × f(polyT) gdzie: - W_* = wagi (empirycznie określone) - f(GC%) = funkcja kara za odchylenie od 50% - f(nuc_-1) = bonus za G w pozycji -1 - f(polyT) = kara za poly-T stretch Ograniczenie: Nie uwzględnia interakcji między pozycjami

2. Doench 2014 Score (MIT Specificity Score)

Pierwszy algorytm trenowany na dużym datasecie (1841 sgRNA celujących 563 geny w ludzkich komórkach).

Model Doench 2014:

Features (cechy wejściowe):

Tożsamość nukleotydu w każdej pozycji (20 pozycji × 4 nukleotydy = 80 binary features)
Dinukleotydy (pary sąsiadujących nukleotydów)
GC content
Pozycja w genie

Model: Gradient boosted regression tree (ensemble method)

Output: Predicted on-target score (0-100)

Performance:

Pearson correlation z eksperymentem: r = 0.52 (training set)
Przewiduje względną efektywność sgRNA

Doench et al. (2014) Nat Biotechnol, 32(12): 1262-1267

3. Doench 2016 Score (Azimuth / Rule Set 2)

Znacząco ulepszona wersja trenowana na 8 razy większym datasecie (14,895 sgRNA).

🤖 Azimuth Model (2016)

Dataset: Lentiviralny CRISPR library celujący 2,079 genów, oceniany przez sequencing

Features (rozszerzone):

Kontekst +/- 4 pz wokół protospacera (28 nt łącznie)
Dinukleotydy i trinukleotydy
Thermodynamic features (stabilność RNA:DNA)
Pozycja w transkrypcie (normalizowana)
Struktura drugorzędowa spacera (ΔG)

Model: L2-regularized linear regression + gradient boosting

Performance:

Spearman correlation: ρ = 0.73 (test set)
Znacząca poprawa nad 2014 model
Generalizuje dobrze do innych typów komórek

Dostępność: https://azimuth.cs.washington.edu/

Doench et al. (2016) Nat Biotechnol, 34(2): 184-191

4. DeepCRISPR i modele deep learning (2018+)

Najnowsze algorytmy wykorzystują głębokie sieci neuronowe zdolne do uczenia się złożonych, nieliniowych interakcji między pozycjami.

🧠 Deep Learning Models

DeepCRISPR (2018):

Architektura: Convolutional Neural Network (CNN) + Bidirectional LSTM
Input: One-hot encoded sequence (30 nt context)
Hidden layers: 3 conv layers + 2 LSTM layers + fully connected
Performance: Spearman ρ = 0.87 (najlepszy wynik na 2018)

CRISPR-Net (2020):

Multi-task learning: Jednoczesne przewidywanie on-target efficiency + off-target effects
Transfer learning między organizmami (human → mouse)
Uwzględnia secondary structure features

CRISPRon (2021):

Attention mechanism – identyfikuje kluczowe pozycje
Integruje dane epigenomiczne (DNase-seq, histone marks)
Cell-type specific predictions

🎯 Predykcja off-target effects

Najbardziej krytyczny aspekt projektowania sgRNA. Nawet "dobry" sgRNA może być niebezpieczny, jeśli powoduje cięcia off-target w genach krytycznych.

Reguły tolerancji niedopasowań

Empiryczne reguły off-target (Hsu et al. 2013):

Seed region (pozycje 1-12 od PAM):

0 niedopasowań: ~100% cięcia
1 niedopasowanie: 1-50% cięcia (zależy od pozycji)
2 niedopasowania: 0.1-10% cięcia
3+ niedopasowania: zazwyczaj <0.1% cięcia

Region dystalny (pozycje 13-20):

2-3 niedopasowania: często tolerowane
Wpływ pojedynczego niedopasowania mniejszy niż w seed

Typ niedopasowań:

rG:dT wobble pairs – najbardziej tolerowane
Bulge (pętla) – silnie redukuje cięcie
Consecutive mismatches – silniejsza redukcja niż rozproszone

Hsu et al. (2013) Nat Biotechnol, 31(9): 827-832

Algorytmy predykcji off-target

1. CFD Score (Cutting Frequency Determination)

Empiryczny scoring system oparty na eksperymentalnych danych z GUIDE-seq.

CFD Score calculation: CFD = ∏(i=1 to 20) M[i, type_i] gdzie: - M[i, type_i] = macierz kar za niedopasowanie w pozycji i - Wartości M empirycznie określone z eksperymentów - CFD ∈ [0, 1], gdzie 1 = perfect match Przykład: On-target: GACCGGAACGATCTCGCGTA NGG Off-target: GACCGGAACGTTCTCGCGTA NGG (1 mismatch w pozycji 11: A→T) CFD = M[11, rA:dT] × ∏(innych pozycji = 1) = 0.375 × 1 = 0.375 Interpretacja: Off-target z CFD >0.2 wymaga eksperymentalnej walidacji

Doench et al. (2016) Nat Biotechnol, 34(2): 184-191

2. MIT Specificity Score

MIT Score dla pojedynczego off-target: Score = 100 × ∏(i=1 to 20) (1 - W_i × d_i) gdzie: - d_i = 1 jeśli niedopasowanie w pozycji i, 0 jeśli match - W_i = waga pozycji (wyższa dla seed region) W_i dla pozycji: Pozycje 1-7 (seed): W = 1.0 Pozycje 8-12: W = 0.8 Pozycje 13-15: W = 0.5 Pozycje 16-20: W = 0.2 Agregowany MIT Specificity Score dla sgRNA: Total_Score = 100 / (100 + Σ(wszystkie off-targets)) Wartości: >50 = wysoka specyficzność 30-50 = średnia <30 = niska (unikać)

3. CRISTA Score (2018)

Machine learning model trenowany na 16,000+ eksperymentalnie zwalidowanych off-target.

Features wykorzystywane przez CRISTA:

Pozycja i typ niedopasowań
Lokalne features (dinukleotydy wokół niedopasowań)
Epigenetyczne features (DNase accessibility w miejscu off-target)
Thermodynamic stability RNA:DNA heteroduplex

Model: Gradient Boosted Trees

Performance: AUC-ROC = 0.91 (klasyfikacja true off-target vs. false positives)

Abadi et al. (2017) Mol Cell, 67(5): 769-781

🛠️ Narzędzia bioinformatyczne do projektowania sgRNA

Teoria to jedno, ale praktyczne projektowanie wymaga narzędzi software. Oto najpopularniejsze platformy:

1. CRISPOR (crispor.org)

🌐 CRISPOR – Comprehensive Web Tool

Deweloper: Maximilian Haeussler (UCSC Genomics Institute)

URL: https://crispor.org

Funkcje:

Input: Sekwencja docelowa (można wkleić DNA lub podać współrzędne genomowe)
Wspierane organizmy: >250 gatunków (w tym human, mouse, rat, zebrafish, C. elegans, Drosophila, rośliny)
Scoring:
- On-target: MIT Doench 2016, Moreno-Mateos (dla zarodków)
- Off-target: CFD score, MIT specificity score
Wykrywanie off-target: Przeszukiwanie całego genomu z tolerancją do 4 niedopasowań
Wizualizacja: Przegląd off-target, lokalizacja w genomie, eksony
Dodatkowe features:
- Projektowanie primerów do amplicon sequencing (weryfikacja edycji)
- Sekwencje dla zamawiania oligonukleotydów
- Batch mode (wiele genów jednocześnie)

Zalety: Darmowy, łatwy w użyciu, regularnie aktualizowany, doskonała dokumentacja

Output przykład:

CRISPOR Results for BRCA1 exon 5: sgRNA #1: GACCGGAACGATCTCGCGTA TGG MIT Score: 82 (wysoka specyficzność) Doench 2016: 67 (dobra efektywność) Off-targets (0mm): 0 Off-targets (1mm): 0 Off-targets (2mm): 3 (wszystkie w intronach) Off-targets (3mm): 24 ✓ REKOMENDOWANY sgRNA #2: CATTCGAGACGCTGAGCGAT AGG MIT Score: 35 (niska specyficzność) Doench 2016: 71 (dobra efektywność) Off-targets (0mm): 0 Off-targets (1mm): 2 (1 w eksonie EGFR!) Off-targets (2mm): 18 ✗ NIEZALECANY (off-target w EGFR)

Concordet & Haeussler (2018) Genome Biol, 19(1): 114

2. Benchling CRISPR Tool

🧬 Benchling – Integrated Molecular Biology Platform

URL: https://www.benchling.com

Model biznesowy: Freemium (darmowy dla akademików, płatny dla przemysłu)

Funkcje CRISPR:

Zintegrowane projektowanie sgRNA z molekularnym notebook
Wizualizacja plazmidów i konstruktów
Automatyczne projektowanie HDR templates
Off-target analysis (0-3 niedopasowania)
Tracking eksperymentów i wyników
Współdzielenie projektów w zespole

Zalety:

All-in-one platform (od projektowania do analizy wyników)
Intuicyjny interface
Integracja z zamówieniami syntez (IDT, Twist Bioscience)
Electronic Lab Notebook functionality

Wady: Closed-source, wymaga konta, mniej transparentne algorytmy niż open-source tools

3. Cas-OFFinder (Off-target Finder)

🔍 Cas-OFFinder – Ultra-Fast Off-Target Search

Deweloper: Seoul National University

URL: http://www.rgenome.net/cas-offinder/

Specjalizacja: Szybkie wykrywanie off-target w całym genomie

Technologia: OpenCL-accelerated (wykorzystuje GPU)

Prędkość: Przeszukiwanie ludzkiego genomu w <30 sekund (na GPU)

Funkcje:

Wsparcie dla różnych PAM (SpCas9, SaCas9, Cas12a, etc.)
Konfigurowalny mismatch tolerance (0-10 niedopasowań)
Bulge search (insercje/delecje w protospacer)
Command-line tool dla batch processing

Use case: Gdy potrzebujesz szybkiego, kompletnego przeszukiwania off-target dla wielu sgRNA

Bae et al. (2014) Bioinformatics, 30(10): 1473-1475

4. CHOPCHOP

✂️ CHOPCHOP – Multi-Tool CRISPR Designer

URL: https://chopchop.cbu.uib.no/

Deweloper: University of Bergen

Unique features:

Wsparcie dla różnych nukleaz: Cas9, Cas12a, Cas13, base editors, prime editors
Projektowanie paired sgRNA (dla delecji/insercji)
Knockout efficiency prediction
Ranking sgRNA przez kombinację algorytmów
Visualizacja w UCSC Genome Browser

Scoring system:

Efficiency score: 0-100 (Doench 2016 + własny model)
Self-complementarity (struktura drugorzędowa)
Off-target penalty based on MIT + CFD

Labun et al. (2019) Nucleic Acids Res, 47(W1): W171-W174

5. IDT CRISPR Design Tool

🧪 IDT (Integrated DNA Technologies) – Commercial Tool with Ordering

URL: https://www.idtdna.com/crispr

Model: Darmowe projektowanie + bezpośrednie zamawianie syntez

Funkcje:

Projektowanie sgRNA, crRNA, tracrRNA
Zoptymalizowane dla produktów IDT (Alt-R system)
Off-target analysis
HDR template design
Automatic oligo design dla klonowania
One-click ordering syntez (sgRNA, Cas9 protein, HDR templates)

Zalety: Jeśli planujesz zamówienie syntez, seamless integration

Wady: Preferuje produkty IDT, mniej features niż dedykowane research tools

🧪 Workflow: Od genu docelowego do zamówienia sgRNA

📋 Praktyczny workflow projektowania sgRNA

Krok 1: Definicja celu biologicznego

Knockout: Który ekson? Preferowane: wczesne eksony (1-3), przed kluczowymi domenami
Knock-in/HDR: Dokładna pozycja edycji (SNP, insercja tagu)
CRISPRa/i: Region promotora (CRISPRa: -200 do +1; CRISPRi: +1 do +300)

Krok 2: Identyfikacja regionu docelowego

Pobierz sekwencję z NCBI/Ensembl lub użyj UCSC Genome Browser
Dla genów z wariantami: użyj sekwencji specyficznej dla pacjenta/linii komórkowej
Uwzględnij +/- 200 pz kontekstu

Krok 3: Projektowanie sgRNA (CRISPOR/Benchling)

Wklej sekwencję do CRISPOR
Wybierz organizm i genom referencyjny (np. human GRCh38)
Ustaw parametry:
- Cas enzyme (zazwyczaj SpCas9)
- Off-target tolerance (zazwyczaj do 4 mm)
CRISPOR zwróci listę wszystkich możliwych sgRNA z scoring

Krok 4: Selekcja top sgRNA

Kryteria selekcji:

MIT Specificity Score >50 (wysoka specyficzność)
Doench 2016 Score >50 (dobra efektywność on-target)
Brak off-target z 0-1 niedopasowaniem w eksonach
GC% w zakresie 40-60%
Brak poly-T (TTTT)

Rekomendacja: Wybierz 3-4 top sgRNA dla eksperymentalnej walidacji

Krok 5: Projektowanie primerów weryfikacyjnych

Dla każdego sgRNA zaprojektuj primery amplicon-seq (flanking region ~500 pz wokół miejsca cięcia):

Forward primer: -250 pz od DSB
Reverse primer: +250 pz od DSB
Użyj Primer3 lub funkcji CRISPOR

Krok 6: Zamówienie syntez

Opcje:

sgRNA syntetyczny (in vitro): IDT, Synthego, Horizon (~$30-100/sgRNA)
Plazmidy ekspresyjne: Klonowanie do wektorów (px330, lentiCRISPR)
Cas9 protein: IDT Alt-R, NEB, Thermo (~$200-500/reakcja)

Krok 7: Eksperymentalna walidacja

Transfekcja/elektroporacja Cas9 + sgRNA do komórek
Harvest DNA po 48-72h
PCR amplifikacja locus + NGS lub Sanger sequencing
Analiza indeli: TIDE, ICE, CRISPResso2
Off-target validation (opcjonalnie): GUIDE-seq, CIRCLE-seq

📊 Praktyczne porady – lessons learned

                Wskazówki od praktyków CRISPR:

                Zawsze testuj 3-4 sgRNA: Bioinformatyczne predykcje nie są doskonałe. Empiryczna walidacja jest niezbędna.
Priorytet: Specyficzność > Efektywność: Lepiej mieć 50% knockout bez off-target niż 90% z ryzykiem edycji onkogenów.
Kontekst komórkowy ma znaczenie: sgRNA działa różnie w różnych typach komórek ze względu na dostępność chromatyny. Jeśli możliwe, użyj danych ATAC-seq/DNase-seq dla swojego typu komórki.
Dla HDR: bliskość ma znaczenie: DSB powinien być <20 pz od miejsca edycji. HDR efficiency spada eksponencjalnie z odległością.
Base editors i Prime editors dla SNP: Jeśli edytujesz pojedynczy nukleotyd, rozważ base editors (BE) lub prime editors (PE) zamiast klasycznego CRISPR-Cas9 + HDR. Wyższa efektywność, mniej off-target.
Multiplex CRISPR wymaga szczególnej uwagi: Gdy używasz wielu sgRNA jednocześnie, off-target effects mogą się kumulować. Użyj wysokospecyficznych wariantów (eSpCas9, HF1).
Weryfikuj genetycznie: Sekwencjonowanie Sangera może przeoczyć mozaicyzm. Używaj amplicon deep sequencing (NGS) dla dokładnej kwantyfikacji efektywności i off-target.

            

🎓 Podsumowanie

Projektowanie optymalnego sgRNA to połączenie nauki i sztuki. Choć współczesne algorytmy machine learning znacząco poprawiły predykcję efektywności on-target i off-target, empiryczna walidacja pozostaje złotym standardem. Kluczem do sukcesu jest:

Zrozumienie biologicznych determinant efektywności Cas9
Wykorzystanie sprawdzonych narzędzi bioinformatycznych (CRISPOR, Benchling)
Priorytetyzacja specyficzności nad efektywnością
Testowanie wielu sgRNA kandydatów
Dokładna walidacja eksperymentalna

Wraz z rozwojem technologii – od high-fidelity Cas9 variants, przez base i prime editors, po nowe systemy CRISPR (Cas12, Cas13) – narzędzia bioinformatyczne stale ewoluują, oferując coraz dokładniejsze predykcje i większe możliwości precyzyjnej edycji genomu.

W ostatnim artykule tej serii przyjrzymy się praktycznym zastosowaniom CRISPR w medycynie, rolnictwie i biotechnologii, oraz odpowiemy na pytanie: kto może korzystać z tej technologii i jak wygląda dostępność CRISPR w laboratoriach.

📖 Następny (ostatni) artykuł w serii:

Część 6: Zastosowania praktyczne i dostępność CRISPR – czy każdy może to robić? →

← Powrót do bloga