PRODUCTO

NexusMedical

Sistema RAG (Retrieval-Augmented Generation) para imagen médica. Búsqueda híbrida con BiomedCLIP + BM25 + Vector Search sobre datasets clínicos DICOM.

Demo en Vivo Arquitectura (MD)

52K+

Imágenes procesadas (LIDC + COVID-AR)

Datasets clínicos (TCIA)

512

Dimensiones embedding (BiomedCLIP)

100%

Local / On-premise (sin cloud)

ARQUITECTURA

Pipeline completo: ingesta → búsqueda → respuesta

Desde archivos DICOM crudos hasta respuestas clínicas con fuentes verificables. Todo ejecutado localmente con modelos open-source.

Descargar ARCHITECTURE_RAG.md completo

STACK TECNOLÓGICO

7 componentes. Cero APIs de pago.

BiomedCLIP

Embeddings de imagen entrenados con 15M pares médicos de PubMed. 512 dimensiones. Mucho mejor que CLIP genérico para radiología.

BM25 + Vector Search

Búsqueda híbrida: BM25 para keywords exactas + Vector Search para significado semántico. Fusión con RRF (Reciprocal Rank Fusion).

Cross-Encoder

Re-evaluación de resultados con modelo Cross-Encoder (ms-marco-MiniLM-L-6-v2). Mejora precisión un 10-20% sobre búsqueda base.

LLaVA (VLM)

Visual Language Model que ve imágenes y genera descripciones clínicas. Complementa BiomedCLIP: busca con vectores, describe con LLaVA.

LLaMA 3 (Ollama)

LLM local via Ollama. Sintetiza resultados, explica hallazgos y genera respuestas con fuentes verificables. Sin APIs de pago.

scispaCy NER

NER biomédico (Allen AI): detecta enfermedades, fármacos y entidades UMLS. SpaCy genérico no detecta "pneumonia" — scispaCy sí.

DATASETS

Datos clínicos reales de TCIA

Dataset	Tamaño	DICOMs	PNGs	Estado
COVID-19-AR	19 GB	31,935	31,547	✅
LIDC-IDRI	16 GB	26,833	20,871	✅
CMB-LCA	96 GB	—	—	Descargando
COVID-19-NY-SBU	144 GB	—	—	Descargando

CÓMO FUNCIONA

Búsqueda inteligente en 3 pasos

PASO 1

Ingesta DICOM

Los archivos DICOM se convierten a PNG, se extraen metadatos clínicos y se generan embeddings con BiomedCLIP (imagen) y MiniLM (texto).

PASO 2

Búsqueda Híbrida

Tu query se procesa con NER médico, se busca por BM25 (keywords) y Vector Search (semántico), se fusionan con RRF y se re-rankean con Cross-Encoder.

PASO 3

Respuesta con IA

LLaVA describe las imágenes encontradas y LLaMA3 sintetiza una respuesta clínica con fuentes verificables. Todo local, sin APIs de pago.

COSTES

100% local. Sin facturas de API.

Componente	Nuestra solución	Cloud API equivalente
LLM	LLaMA3 (Ollama) — $0	GPT-4: $30/1M tok
Embeddings	BiomedCLIP + MiniLM — $0	OpenAI Ada: $0.10/1M tok
Reranker	Cross-Encoder (HF) — $0	Cohere: $2/1K queries
VLM	LLaVA (Ollama) — $0	GPT-4V: $10/1K images
Coste mensual	~€10 (electricidad)	€70 — €400+