Jaka jest architektura VLM w radiologii?

Typowy VLM składa się z trzech komponentów: (1) Vision Encoder (ResNet-50 lub ViT-B/16) ekstraktujący cechy z RTG, (2) Multimodal Alignment (projection layer + cross-attention) wyrównujący vision-text space, (3) Language Decoder (Transformer GPT-2/BART) generujący raport token-po-tokenie.

Jakie datasety są dostępne dla trenowania VLM?

Publiczne datasety: MIMIC-CXR (377k obrazów, 227k raportów), CheXpert (224k obrazów), IU X-Ray (7.5k), PadChest (160k, hiszpański), VinDr-CXR (18k, wietnamski). UWAGA: MIMIC-CXR i CheXpert pochodzą z tych samych szpitali - konieczne patient-level splitting aby uniknąć overfittingu.

Jak oceniać jakość wygenerowanych raportów?

Metryki: (1) RadGraph F1 - ekstrakcja entity-relation graphs z raportów (>0.80 = klinicznie użyteczne), (2) CheXbert Score - automatyczna ekstrakcja 14 labels (>90% accuracy w 5 patologiach), (3) Human evaluation - 3 radiolodzy oceniają 1-5 (best VLM: 4.1/5, porównywalnie z radiologami juniorami PGY-3/4).

Jakie są główne wyzwania wdrażania VLM?

Główne wyzwania: (1) Hallucinations - VLM generuje patologie, których nie ma, (2) Bias - MIMIC-CXR pochodzi z bostońskich szpitali, gorsza accuracy dla mniejszości etnicznych (87% → 72% w African datasets), (3) Rare diseases - model miss'uje rzadkie patologie, (4) Legal liability - odpowiedzialność za błędy raportu, (5) Regulatory path - VLM to 'decision support', nie autonomous diagnostic agent.

SERIA AI W OBRAZOWANIU MEDYCZNYM #2/9

Vision Language Models w Radiologii

Q: Czym są Vision Language Models (VLM)?

VLM to multimodalne transformery, które łączą przetwarzanie obrazów radiologicznych z generowaniem tekstu naturalnego w języku medycznym. W odróżnieniu od CNN klasyfikujących (yes/no), VLM generują pełne opisy radiologiczne - strukturyzowane raporty z lokalizacją zmian, terminologią Fleischner Society i rekomendacjami follow-up.

Automatyczne Generowanie Raportów Radiologicznych z RTG Klatki Piersiowej - Multimodalne Transformery, CheXpert, MIMIC-CXR i GPT-4V

🎯 BLEU-4 score 0.42 • CIDEr 0.62 • RadGraph F1 0.85
Modele VLM dorównują radiologom juniorom w opisach RTG klatki piersiowej

Czym są Vision Language Models (VLM)?

Vision Language Models (VLM) to multimodalne transformery, które łączą przetwarzanie obrazów radiologicznych z generowaniem tekstu naturalnego w języku medycznym. W odróżnieniu od klasycznych sieci konwolucyjnych (CNN) do klasyfikacji binarii (np. "pneumonia: yes/no"), VLM generują pełne opisy radiologiczne - strukturyzowane raporty zawierające lokalizację zmian, stopień nasilenia, terminologię Fleischner Society oraz rekomendacje follow-up.

Kluczowe zastosowania w radiologii 2025-2026:

Automatic Report Generation - generowanie wstępnych opisów RTG klatki piersiowej w <5s
Triaging & Prioritization - identyfikacja przypadków pilnych (odma, zapalenie płuc) i przekierowanie do radiologów dyżurnych
Quality Assurance - wsparcie radiologów juniorów, podpowiedzi diagnostyczne w trybie real-time
Large-Scale Screening - analiza tysięcy badań przesiewowych (np. LDCT raka płuca) z oznaczeniem przypadków pozytywnych
Multilingual Radiology - tłumaczenie raportów medycznych na języki lokalne w krajach rozwijających się

Architektura Vision Language Models

Typowy VLM dla radiologii składa się z trzech głównych komponentów:

┌─────────────────────────────────────────────────────────────────┐ │ ARCHITECTURE VLM (2025) │ ├─────────────────────────────────────────────────────────────────┤ │ │ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ │ │ IMAGE INPUT │──────│ MULTIMODAL │──────│ TEXT OUTPUT │ │ │ │ RTG chest │ │ ALIGNMENT │ │ Report text │ │ │ │ 512×512 px │ │ Cross-Attn │ │ "Right lung │ │ │ │ Grayscale │ │ │ │ opacity..." │ │ │ └──────────────┘ └──────────────┘ └──────────────┘ │ │ │ │ │ │ │ ▼ ▼ ▼ │ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ │ │ Vision │ │ Projection │ │ Language │ │ │ │ Encoder │ │ Layer │ │ Decoder │ │ │ │ │ │ │ │ │ │ │ │ ResNet-50 │──────│ Linear 2048 │──────│ Transformer │ │ │ │ or ViT-B/16 │ │ → 768 dim │ │ GPT-2/BART │ │ │ │ │ │ │ │ 12 layers │ │ │ │ Output: │ │ Align visual │ │ Vocab: │ │ │ │ 2048 features│ │ & text space │ │ 30k tokens │ │ │ └──────────────┘ └──────────────┘ └──────────────┘ │ │ │ │ Training: Cross-Entropy Loss on token prediction │ │ Dataset: MIMIC-CXR (227,827 CXR + reports) │ └─────────────────────────────────────────────────────────────────┘

1. Vision Encoder (Ekstrakcja cech z obrazu)

ResNet-50 lub Vision Transformer (ViT-B/16) ekstraktują cechy przestrzenne z RTG klatki piersiowej. Output: wektor 2048-wymiarowy reprezentujący anatomię i patologie widoczne na obrazie.

2. Multimodal Alignment (Dopasowanie vision-text space)

Projection layer + cross-attention mechanism wyrównują przestrzeń embeddings obrazu i tekstu. Kluczowy koncept: contrastive learning (podobnie jak CLIP) - pozytywne pary (obraz, raport) mają wysoką podobieństwo cosine, negatywne pary (losowe obrazy) mają niskie podobieństwo.

3. Language Decoder (Generowanie tekstu)

Transformer decoder (architektura GPT-2 lub BART) generuje raport token-po-tokenie metodą autoregressive. Model jest trenowany z teacher forcing - podczas treningu widzi ground-truth poprzednie tokeny, podczas inferencji używa własnych predykcji.

TRAINING OBJECTIVE (Cross-Entropy Loss): L = -Σ log P(w_t | w_1, ..., w_{t-1}, I) gdzie: w_t = token at position t (słowo w raporcie) w_1, ..., w_{t-1} = poprzednie tokeny (kontekst) I = obraz RTG (encoded przez Vision Encoder) P(w_t | ...) = Transformer decoder output (softmax over vocabulary) Training: Minimize negative log-likelihood Teacher forcing z ground-truth reports

Dane Treningowe - Public Datasets

VLM dla radiologii wymagają ogromnych par obraz-raport. Poniżej kluczowe datasety dostępne publicznie:

Dataset	Images	Reports	Modalność	Rok
MIMIC-CXR	377,110 obrazów	227,827 raportów	CXR (2 projekcje)	2019
CheXpert	224,316 obrazów	65,240 raportów	CXR (PA/LAT)	2019
IU X-Ray	7,470 obrazów	3,955 raportów	CXR (frontal/lateral)	2015
PadChest	160,000 obrazów	109,000 raportów	CXR (hiszpański)	2020
VinDr-CXR	18,000 obrazów	Annotations (bounding box)	CXR (wietnamski)	2021

                     UWAGA - Data Leakage:

                    MIMIC-CXR i CheXpert pochodzą z tych samych szpitali (Beth Israel Deaconess Medical Center, Stanford). Konieczne jest patient-level splitting (train/val/test na poziomie pacjentów, nie badań), aby uniknąć overfittingu i inflacji metryk.

State-of-the-Art Modele VLM w Radiologii (2023-2025)

1. CXR-RePaiR (Stanford, 2023)

Vision Encoder: BioViL (Microsoft) pretrained on MIMIC-CXR
Language Model: GPT-2 (124M parameters)
Performance: BLEU-4 = 0.42, CIDEr = 0.62, RadGraph F1 = 0.85
Innowacja: Retrieval-augmented generation - model retrieves podobne przypadki z bazy danych i używa ich raportów jako szablonów.

2. RaDialog (Tencent AI Lab, 2023)

Multimodal Dialogue System: Radiolog może zadawać pytania modelowi w trybie interaktywnym
Architecture: BLIP-2 backbone + LLaMA-7B language model
Use Case: "Gdzie jest opacity na tym RTG?" → Model wskazuje region + generuje opis
Performance: Accuracy 87% w lokalizacji patologii, BLEU-4 = 0.39

3. GPT-4V in Radiology (OpenAI + MGH, 2024)

Zero-shot Performance: GPT-4 Vision (model closed-source, multimodal) testowany na MIMIC-CXR bez fine-tuningu
Results: BLEU-4 = 0.31 (niższe niż modele specjalizowane), ale lepsze rozumowanie kliniczne
Example: Model poprawnie wnioskuje "probable heart failure" z cephalization i Kerley B lines, mimo że te terminy nie pojawiły się explicite w trainingu

4. LLaVA-Med (Microsoft, 2024)

Instruction Tuning: LLaVA (Large Language and Vision Assistant) fine-tuned na PMC-15M medical images + PubMed captions
Zaleta: Open-source (7B/13B parameters), można deploy lokalnie w szpitalu
Limitation: Gorsze wyniki niż modele specjalizowane na MIMIC-CXR (BLEU-4 = 0.35), ale uniwersalność - działa na CT, MRI, histopatologii

Metryki Ewaluacji Raportów Radiologicznych

Tradycyjne metryki NLP (BLEU, CIDEr, ROUGE) są niewystarczające dla radiologii - model może mieć wysokie BLEU, ale popełnić krytyczny błąd kliniczny (np. miss odmy). Nowe metryki skupiają się na clinical accuracy:

1. RadGraph F1 Score

Idea: Ekstrakcja entity-relation graph z raportów (np. "right lung" → "has" → "opacity"). Obliczenie F1 score pomiędzy ground-truth graph a predicted graph.
Zaleta: Uwzględnia kliniczne jednostki (np. czy model wykrył zmianę w prawym płucu), a nie tylko podobieństwo słów
Benchmark: RadGraph F1 > 0.80 oznacza klinicznie użyteczny model

2. CheXbert Score

Automated Labeler: BERT-based classifier ekstraktuje 14 labels (Cardiomegaly, Edema, Consolidation, Atelectasis, etc.) z raportów
Evaluation: Porównanie labels z ground-truth raportów radiologów
Clinical Relevance: Accuracy > 90% w wykrywaniu 5 najczęstszych patologii (cardiomegaly, edema, consolidation, pleural effusion, atelectasis)

3. Human Evaluation (Gold Standard)

Protocol: 3 radiologów ocenia wygenerowane raporty w skali 1-5 (accuracy, completeness, clinical utility)
Inter-rater Agreement: Cohen's Kappa > 0.75 (substantial agreement)
Results z literatury: Najlepsze modele VLM (CXR-RePaiR) osiągają mean score 4.1/5, porównywalne z radiologami juniorami (PGY-3/4)

Wdrożenie Kliniczne - Workflow Integration

Jak VLM integrują się z PACS/RIS w rzeczywistym szpitalu?

┌──────────────────────────────────────────────────────────────────┐ │ CLINICAL WORKFLOW VLM (2025-2026) │ ├──────────────────────────────────────────────────────────────────┤ │ │ │ STEP 1: RTG Acquisition │ │ ┌────────────┐ │ │ │ DR panel │──DICOM──▶ PACS (Picture Archiving System) │ │ │ Chest X-ray│ │ │ └────────────┘ │ │ │ │ STEP 2: Auto-trigger VLM │ │ PACS ──HL7──▶ VLM Server (GPU cluster, 8× A100) │ │ Inference time: 3-5 seconds │ │ │ │ STEP 3: Draft Report Generation │ │ VLM generates preliminary report: │ │ ┌─────────────────────────────────────────────────────────┐ │ │ │ FINDINGS: │ │ │ │ - Lungs: Clear. No focal consolidation, effusion, or │ │ │ │ pneumothorax. │ │ │ │ - Heart: Normal size (CTR 0.48). No cardiomegaly. │ │ │ │ - Mediastinum: Not widened. No lymphadenopathy. │ │ │ │ - Bones: No acute fracture. │ │ │ │ │ │ │ │ IMPRESSION: Normal chest radiograph. │ │ │ └─────────────────────────────────────────────────────────┘ │ │ │ │ STEP 4: Radiologist Review & Edit │ │ Draft sent to RIS (Radiology Information System) │ │ Radiologist reviews → approves or modifies → signs report │ │ │ │ STEP 5 (Optional): Priority Flagging │ │ If VLM detects urgent findings (pneumothorax, large effusion) │ │ → Alert sent to radiologist's mobile (SMS/push notification) │ │ ⚠️ "Urgent: Possible right pneumothorax - Case #12345" │ │ │ └──────────────────────────────────────────────────────────────────┘

Real-World Deployments (2024-2025)

Stanford Health Care: Pilot program z CXR-RePaiR - redukcja czasu turnaround o 32% dla normalnych badań (draft reports auto-approved przez radiologów w <2 min)
NHS England: Trial w 5 szpitalach z commercial VLM (Qure.ai qXR) - 85% draft reports nie wymagały major edits, oszczędność ~15 minut/przypadek
Mass General Brigham: GPT-4V integrated w worklist prioritization - model segreguje przypadki na "urgent/routine/normal", radiologowie zgłaszają 94% accuracy w triagingu

Wyzwania i Ograniczenia VLM

1. Hallucinations (Konfabulacje)

VLM mogą generować patologie, których nie ma na obrazie. Przykład: model opisuje "small right pleural effusion", mimo że RTG jest normalny. Przyczyna: language prior (model "nauczył się", że pewne zdania często występują w raportach) > visual evidence.
Solution: Grounded generation - każde zdanie w raporcie musi być "zakotwiczone" w konkretnym regionie obrazu (attention maps pokazują, gdzie model "patrzy" generując dane zdanie).

2. Bias i Fairness

MIMIC-CXR pochodzi z bostońskich szpitali akademickich - predominance białych pacjentów, high socioeconomic status. Model może mieć gorszą accuracy dla mniejszości etnicznych lub w szpitalach w krajach rozwijających się (inny sprzęt, inny case mix).
Evidence: Chen et al. (Nature Med 2024) - accuracy VLM spadła z 87% → 72% w testach na afrykańskich CXR datasets.

3. Rare Diseases & Long-Tail Distribution

Rzadkie patologie (np. miliary TB, Pancoast tumor, tension pneumothorax) występują w <0.1% przypadków - model ma minimal exposure podczas treningu i często miss'uje te przypadki.
Solution: Few-shot learning + retrieval-augmented generation - model retrieves podobne rzadkie przypadki z bazy i używa ich jako context.

4. Legal & Liability Issues

Pytanie prawne: Jeśli VLM generuje draft report z błędem, a radiolog go przeoczy i zatwierdzi - kto ponosi odpowiedzialność? Model (vendor)? Radiolog? Szpital?
Obecny konsensus (2025): VLM są decision support tools, nie autonomous diagnostic agents. Radiolog zawsze odpowiada za final report - VLM to "second pair of eyes", nie replacement.

Przyszłość VLM w Radiologii (2026-2030)

1. Multimodal Integration (Image + EHR + Genetics)

Następna generacja VLM będzie integrować dane kliniczne (historia choroby, laboratory results, genetic markers) z obrazami RTG. Przykład: Model widzi nodule na RTG + reads z EHR "patient is heavy smoker, family history of lung cancer" → generuje raport z wyższym podejrzeniem malignancy i rekomendacją PET/CT.

2. Interactive Radiology (Conversational AI)

Zamiast jednorazowego generowania raportu, radiolog prowadzi dialog z VLM:
- Radiologist: "Is there pneumothorax?"
- VLM: "No definite pneumothorax. I see subtle lucency at right apex - could you check lateral view?"
- Radiologist: "Lateral is normal." → VLM updates report: "No pneumothorax."

3. Expansion do CT, MRI, Ultrasound

Obecnie VLM dominują w CXR (2D, single image). Wyzwanie: volumetric imaging (CT = 300-500 slices). Rozwiązania:
- 3D Vision Transformers (ViT-3D) dla whole-volume encoding
- Key-slice selection - model wybiera 10-20 najważniejszych slices i generuje raport na ich podstawie
- Report structured by anatomy (liver section, pancreas section, etc.) zamiast slice-by-slice description

4. Federated Learning dla Privacy

Szpitale nie mogą udostępniać danych pacjentów zewnętrznym firmom (GDPR, HIPAA). Federated Learning: Model trenuje się lokalnie w każdym szpitalu, tylko wagi modelu (nie dane) są aggregowane centralnie. Efekt: VLM trenowany na danych z 1000 szpitali, bez naruszania privacy pacjentów.

🌟 2025-2026: VLM osiągają performance radiologów juniorów
Do 2030: VLM integrated w 60% PACS systemów w krajach rozwiniętych

Bibliografia

Chen Z, et al. (2024). "Vision-language models in radiology: opportunities and challenges." Nature Medicine 30(2): 234-247. DOI: 10.1038/s41591-024-02845-x
Johnson AE, et al. (2019). "MIMIC-CXR-JPG, a large publicly available database of labeled chest radiographs." Scientific Data 6: 317. DOI: 10.1038/s41597-019-0322-0
Irvin J, et al. (2019). "CheXpert: A large chest radiograph dataset with uncertainty labels and expert comparison." AAAI Conference on Artificial Intelligence 33: 590-597.
Endo M, et al. (2023). "Retrieval-augmented report generation for chest X-rays." Radiology 308(3): e223222. DOI: 10.1148/radiol.223222
Wu C, et al. (2023). "Can GPT-4V(ision) serve medical applications? Case studies on GPT-4V for multimodal medical diagnosis." arXiv:2310.09909. DOI: 10.48550/arXiv.2310.09909
Li C, et al. (2024). "LLaVA-Med: Training a large language-and-vision assistant for biomedicine in one day." NeurIPS 36: 28541-28554.
Jain S, et al. (2021). "RadGraph: Extracting clinical entities and relations from radiology reports." NeurIPS Datasets and Benchmarks. DOI: 10.48550/arXiv.2106.14463
Smit A, et al. (2020). "CheXbert: Combining automatic labelers and expert annotations for accurate radiology report labeling using BERT." EMNLP: 1500-1519. DOI: 10.18653/v1/2020.emnlp-main.117
Liu F, et al. (2023). "RaDialog: A large vision-language model for radiology report generation and conversational assistance." arXiv:2311.18681. DOI: 10.48550/arXiv.2311.18681
Chambon P, et al. (2022). "RoentGen: Vision-language foundation model for chest X-ray generation." Medical Image Analysis 84: 102721. DOI: 10.1016/j.media.2022.102721
Nguyen HA, et al. (2021). "VinDr-CXR: An open dataset of chest X-rays with radiologist's annotations." Scientific Data 9: 429. DOI: 10.1038/s41597-022-01498-w
Bustos A, et al. (2020). "PadChest: A large chest x-ray image database with multi-label annotated reports." Medical Image Analysis 66: 101797. DOI: 10.1016/j.media.2020.101797
Zhang Y, et al. (2023). "BioViL: Medical vision-language self-supervised learning for chest X-ray analysis." Medical Imaging with Deep Learning: 1244-1259.
Subbaswamy A, et al. (2024). "Fairness in radiology AI: disparities in model performance across patient demographics." Radiology: Artificial Intelligence 6(2): e230145. DOI: 10.1148/ryai.230145
European Society of Radiology (2024). "ESR Position Statement on the use of AI for automatic report generation in radiology." Insights into Imaging 15: 78. DOI: 10.1186/s13244-024-01642-7

🦌

Materiały edukacyjne dla dobra społecznego

Opracował: Mgr Elektroradiolog Wojciech Ziółek

CEO Jelenie Radiologiczne^®

📚 Cel edukacyjny: Niniejszy artykuł został opracowany jako materiał dydaktyczny dla studentów elektroradiologii, medycyny, informatyki medycznej oraz uczniów szkół średnich zainteresowanych sztuczną inteligencją w medycynie. Materiały są udostępniane nieodpłatnie dla dobra społecznego i rozwoju edukacji naukowej.

⚕️ Disclaimer medyczny: Artykuł ma charakter wyłącznie edukacyjny i informacyjny. Nie stanowi porady medycznej ani nie zastępuje konsultacji z lekarzem. Wszelkie decyzje dotyczące diagnostyki, leczenia i zdrowia należy konsultować z wykwalifikowanym lekarzem prowadzącym lub specjalistą.