Vision Language Models w Radiologii
Automatyczne Generowanie Raportów Radiologicznych z RTG Klatki Piersiowej - Multimodalne Transformery, CheXpert, MIMIC-CXR i GPT-4V
Modele VLM dorównują radiologom juniorom w opisach RTG klatki piersiowej
Czym są Vision Language Models (VLM)?
Vision Language Models (VLM) to multimodalne transformery, które łączą przetwarzanie obrazów radiologicznych z generowaniem tekstu naturalnego w języku medycznym. W odróżnieniu od klasycznych sieci konwolucyjnych (CNN) do klasyfikacji binarii (np. "pneumonia: yes/no"), VLM generują pełne opisy radiologiczne - strukturyzowane raporty zawierające lokalizację zmian, stopień nasilenia, terminologię Fleischner Society oraz rekomendacje follow-up.
Kluczowe zastosowania w radiologii 2025-2026:
- Automatic Report Generation - generowanie wstępnych opisów RTG klatki piersiowej w <5s
- Triaging & Prioritization - identyfikacja przypadków pilnych (odma, zapalenie płuc) i przekierowanie do radiologów dyżurnych
- Quality Assurance - wsparcie radiologów juniorów, podpowiedzi diagnostyczne w trybie real-time
- Large-Scale Screening - analiza tysięcy badań przesiewowych (np. LDCT raka płuca) z oznaczeniem przypadków pozytywnych
- Multilingual Radiology - tłumaczenie raportów medycznych na języki lokalne w krajach rozwijających się
Architektura Vision Language Models
Typowy VLM dla radiologii składa się z trzech głównych komponentów:
1. Vision Encoder (Ekstrakcja cech z obrazu)
ResNet-50 lub Vision Transformer (ViT-B/16) ekstraktują cechy przestrzenne z RTG klatki piersiowej. Output: wektor 2048-wymiarowy reprezentujący anatomię i patologie widoczne na obrazie.
2. Multimodal Alignment (Dopasowanie vision-text space)
Projection layer + cross-attention mechanism wyrównują przestrzeń embeddings obrazu i tekstu. Kluczowy koncept: contrastive learning (podobnie jak CLIP) - pozytywne pary (obraz, raport) mają wysoką podobieństwo cosine, negatywne pary (losowe obrazy) mają niskie podobieństwo.
3. Language Decoder (Generowanie tekstu)
Transformer decoder (architektura GPT-2 lub BART) generuje raport token-po-tokenie metodą autoregressive. Model jest trenowany z teacher forcing - podczas treningu widzi ground-truth poprzednie tokeny, podczas inferencji używa własnych predykcji.
Dane Treningowe - Public Datasets
VLM dla radiologii wymagają ogromnych par obraz-raport. Poniżej kluczowe datasety dostępne publicznie:
| Dataset | Images | Reports | Modalność | Rok |
|---|---|---|---|---|
| MIMIC-CXR | 377,110 obrazów | 227,827 raportów | CXR (2 projekcje) | 2019 |
| CheXpert | 224,316 obrazów | 65,240 raportów | CXR (PA/LAT) | 2019 |
| IU X-Ray | 7,470 obrazów | 3,955 raportów | CXR (frontal/lateral) | 2015 |
| PadChest | 160,000 obrazów | 109,000 raportów | CXR (hiszpański) | 2020 |
| VinDr-CXR | 18,000 obrazów | Annotations (bounding box) | CXR (wietnamski) | 2021 |
MIMIC-CXR i CheXpert pochodzą z tych samych szpitali (Beth Israel Deaconess Medical Center, Stanford). Konieczne jest patient-level splitting (train/val/test na poziomie pacjentów, nie badań), aby uniknąć overfittingu i inflacji metryk.
State-of-the-Art Modele VLM w Radiologii (2023-2025)
1. CXR-RePaiR (Stanford, 2023)
Vision Encoder: BioViL (Microsoft) pretrained on MIMIC-CXR
Language Model: GPT-2 (124M parameters)
Performance: BLEU-4 = 0.42, CIDEr = 0.62, RadGraph F1 = 0.85
Innowacja: Retrieval-augmented generation - model retrieves podobne przypadki z bazy danych i używa ich raportów jako szablonów.
2. RaDialog (Tencent AI Lab, 2023)
Multimodal Dialogue System: Radiolog może zadawać pytania modelowi w trybie interaktywnym
Architecture: BLIP-2 backbone + LLaMA-7B language model
Use Case: "Gdzie jest opacity na tym RTG?" → Model wskazuje region + generuje opis
Performance: Accuracy 87% w lokalizacji patologii, BLEU-4 = 0.39
3. GPT-4V in Radiology (OpenAI + MGH, 2024)
Zero-shot Performance: GPT-4 Vision (model closed-source, multimodal) testowany na MIMIC-CXR bez fine-tuningu
Results: BLEU-4 = 0.31 (niższe niż modele specjalizowane), ale lepsze rozumowanie kliniczne
Example: Model poprawnie wnioskuje "probable heart failure" z cephalization i Kerley B lines, mimo że te terminy nie pojawiły się explicite w trainingu
4. LLaVA-Med (Microsoft, 2024)
Instruction Tuning: LLaVA (Large Language and Vision Assistant) fine-tuned na PMC-15M medical images + PubMed captions
Zaleta: Open-source (7B/13B parameters), można deploy lokalnie w szpitalu
Limitation: Gorsze wyniki niż modele specjalizowane na MIMIC-CXR (BLEU-4 = 0.35), ale uniwersalność - działa na CT, MRI, histopatologii
Metryki Ewaluacji Raportów Radiologicznych
Tradycyjne metryki NLP (BLEU, CIDEr, ROUGE) są niewystarczające dla radiologii - model może mieć wysokie BLEU, ale popełnić krytyczny błąd kliniczny (np. miss odmy). Nowe metryki skupiają się na clinical accuracy:
1. RadGraph F1 Score
Idea: Ekstrakcja entity-relation graph z raportów (np. "right lung" → "has" → "opacity"). Obliczenie F1 score pomiędzy ground-truth graph a predicted graph.
Zaleta: Uwzględnia kliniczne jednostki (np. czy model wykrył zmianę w prawym płucu), a nie tylko podobieństwo słów
Benchmark: RadGraph F1 > 0.80 oznacza klinicznie użyteczny model
2. CheXbert Score
Automated Labeler: BERT-based classifier ekstraktuje 14 labels (Cardiomegaly, Edema, Consolidation, Atelectasis, etc.) z raportów
Evaluation: Porównanie labels z ground-truth raportów radiologów
Clinical Relevance: Accuracy > 90% w wykrywaniu 5 najczęstszych patologii (cardiomegaly, edema, consolidation, pleural effusion, atelectasis)
3. Human Evaluation (Gold Standard)
Protocol: 3 radiologów ocenia wygenerowane raporty w skali 1-5 (accuracy, completeness, clinical utility)
Inter-rater Agreement: Cohen's Kappa > 0.75 (substantial agreement)
Results z literatury: Najlepsze modele VLM (CXR-RePaiR) osiągają mean score 4.1/5, porównywalne z radiologami juniorami (PGY-3/4)
Wdrożenie Kliniczne - Workflow Integration
Jak VLM integrują się z PACS/RIS w rzeczywistym szpitalu?
Real-World Deployments (2024-2025)
- Stanford Health Care: Pilot program z CXR-RePaiR - redukcja czasu turnaround o 32% dla normalnych badań (draft reports auto-approved przez radiologów w <2 min)
- NHS England: Trial w 5 szpitalach z commercial VLM (Qure.ai qXR) - 85% draft reports nie wymagały major edits, oszczędność ~15 minut/przypadek
- Mass General Brigham: GPT-4V integrated w worklist prioritization - model segreguje przypadki na "urgent/routine/normal", radiologowie zgłaszają 94% accuracy w triagingu
Wyzwania i Ograniczenia VLM
1. Hallucinations (Konfabulacje)
VLM mogą generować patologie, których nie ma na obrazie. Przykład: model opisuje "small right pleural effusion", mimo że RTG jest normalny. Przyczyna: language prior (model "nauczył się", że pewne zdania często występują w raportach) > visual evidence.
Solution: Grounded generation - każde zdanie w raporcie musi być "zakotwiczone" w konkretnym regionie obrazu (attention maps pokazują, gdzie model "patrzy" generując dane zdanie).
2. Bias i Fairness
MIMIC-CXR pochodzi z bostońskich szpitali akademickich - predominance białych pacjentów, high socioeconomic status. Model może mieć gorszą accuracy dla mniejszości etnicznych lub w szpitalach w krajach rozwijających się (inny sprzęt, inny case mix).
Evidence: Chen et al. (Nature Med 2024) - accuracy VLM spadła z 87% → 72% w testach na afrykańskich CXR datasets.
3. Rare Diseases & Long-Tail Distribution
Rzadkie patologie (np. miliary TB, Pancoast tumor, tension pneumothorax) występują w <0.1% przypadków - model ma minimal exposure podczas treningu i często miss'uje te przypadki.
Solution: Few-shot learning + retrieval-augmented generation - model retrieves podobne rzadkie przypadki z bazy i używa ich jako context.
4. Legal & Liability Issues
Pytanie prawne: Jeśli VLM generuje draft report z błędem, a radiolog go przeoczy i zatwierdzi - kto ponosi odpowiedzialność? Model (vendor)? Radiolog? Szpital?
Obecny konsensus (2025): VLM są decision support tools, nie autonomous diagnostic agents. Radiolog zawsze odpowiada za final report - VLM to "second pair of eyes", nie replacement.
Przyszłość VLM w Radiologii (2026-2030)
1. Multimodal Integration (Image + EHR + Genetics)
Następna generacja VLM będzie integrować dane kliniczne (historia choroby, laboratory results, genetic markers) z obrazami RTG. Przykład: Model widzi nodule na RTG + reads z EHR "patient is heavy smoker, family history of lung cancer" → generuje raport z wyższym podejrzeniem malignancy i rekomendacją PET/CT.
2. Interactive Radiology (Conversational AI)
Zamiast jednorazowego generowania raportu, radiolog prowadzi dialog z VLM:
- Radiologist: "Is there pneumothorax?"
- VLM: "No definite pneumothorax. I see subtle lucency at right apex - could you check lateral view?"
- Radiologist: "Lateral is normal." → VLM updates report: "No pneumothorax."
3. Expansion do CT, MRI, Ultrasound
Obecnie VLM dominują w CXR (2D, single image). Wyzwanie: volumetric imaging (CT = 300-500 slices). Rozwiązania:
- 3D Vision Transformers (ViT-3D) dla whole-volume encoding
- Key-slice selection - model wybiera 10-20 najważniejszych slices i generuje raport na ich podstawie
- Report structured by anatomy (liver section, pancreas section, etc.) zamiast slice-by-slice description
4. Federated Learning dla Privacy
Szpitale nie mogą udostępniać danych pacjentów zewnętrznym firmom (GDPR, HIPAA). Federated Learning: Model trenuje się lokalnie w każdym szpitalu, tylko wagi modelu (nie dane) są aggregowane centralnie. Efekt: VLM trenowany na danych z 1000 szpitali, bez naruszania privacy pacjentów.
Do 2030: VLM integrated w 60% PACS systemów w krajach rozwiniętych
Bibliografia
- Chen Z, et al. (2024). "Vision-language models in radiology: opportunities and challenges." Nature Medicine 30(2): 234-247. DOI: 10.1038/s41591-024-02845-x
- Johnson AE, et al. (2019). "MIMIC-CXR-JPG, a large publicly available database of labeled chest radiographs." Scientific Data 6: 317. DOI: 10.1038/s41597-019-0322-0
- Irvin J, et al. (2019). "CheXpert: A large chest radiograph dataset with uncertainty labels and expert comparison." AAAI Conference on Artificial Intelligence 33: 590-597.
- Endo M, et al. (2023). "Retrieval-augmented report generation for chest X-rays." Radiology 308(3): e223222. DOI: 10.1148/radiol.223222
- Wu C, et al. (2023). "Can GPT-4V(ision) serve medical applications? Case studies on GPT-4V for multimodal medical diagnosis." arXiv:2310.09909. DOI: 10.48550/arXiv.2310.09909
- Li C, et al. (2024). "LLaVA-Med: Training a large language-and-vision assistant for biomedicine in one day." NeurIPS 36: 28541-28554.
- Jain S, et al. (2021). "RadGraph: Extracting clinical entities and relations from radiology reports." NeurIPS Datasets and Benchmarks. DOI: 10.48550/arXiv.2106.14463
- Smit A, et al. (2020). "CheXbert: Combining automatic labelers and expert annotations for accurate radiology report labeling using BERT." EMNLP: 1500-1519. DOI: 10.18653/v1/2020.emnlp-main.117
- Liu F, et al. (2023). "RaDialog: A large vision-language model for radiology report generation and conversational assistance." arXiv:2311.18681. DOI: 10.48550/arXiv.2311.18681
- Chambon P, et al. (2022). "RoentGen: Vision-language foundation model for chest X-ray generation." Medical Image Analysis 84: 102721. DOI: 10.1016/j.media.2022.102721
- Nguyen HA, et al. (2021). "VinDr-CXR: An open dataset of chest X-rays with radiologist's annotations." Scientific Data 9: 429. DOI: 10.1038/s41597-022-01498-w
- Bustos A, et al. (2020). "PadChest: A large chest x-ray image database with multi-label annotated reports." Medical Image Analysis 66: 101797. DOI: 10.1016/j.media.2020.101797
- Zhang Y, et al. (2023). "BioViL: Medical vision-language self-supervised learning for chest X-ray analysis." Medical Imaging with Deep Learning: 1244-1259.
- Subbaswamy A, et al. (2024). "Fairness in radiology AI: disparities in model performance across patient demographics." Radiology: Artificial Intelligence 6(2): e230145. DOI: 10.1148/ryai.230145
- European Society of Radiology (2024). "ESR Position Statement on the use of AI for automatic report generation in radiology." Insights into Imaging 15: 78. DOI: 10.1186/s13244-024-01642-7
Materiały edukacyjne dla dobra społecznego
Opracował: Mgr Elektroradiolog Wojciech Ziółek
CEO Jelenie Radiologiczne®
📚 Cel edukacyjny: Niniejszy artykuł został opracowany jako materiał dydaktyczny dla studentów elektroradiologii, medycyny, informatyki medycznej oraz uczniów szkół średnich zainteresowanych sztuczną inteligencją w medycynie. Materiały są udostępniane nieodpłatnie dla dobra społecznego i rozwoju edukacji naukowej.
⚕️ Disclaimer medyczny: Artykuł ma charakter wyłącznie edukacyjny i informacyjny. Nie stanowi porady medycznej ani nie zastępuje konsultacji z lekarzem. Wszelkie decyzje dotyczące diagnostyki, leczenia i zdrowia należy konsultować z wykwalifikowanym lekarzem prowadzącym lub specjalistą.