Retour à toutes les compétences

⚙️

Data & analytique

Inférence vLLM

Servez des LLMs open-weight localement avec haut débit via vLLM.

4.6note

4 600 installations

mlops/inference/vllm

Max requis

À propos de cette compétence

Inférence vLLM enveloppe le moteur vLLM pour exécuter un LLM open-weight (Llama, Mistral, Qwen, DeepSeek) sur votre propre matériel avec batching, paged attention et HTTP compatible OpenAI. À utiliser pour échapper aux coûts API sur de gros volumes, garder des prompts sensibles en local, ou exécuter un modèle fine-tuné à côté de votre assistant principal.

Ce qu'elle fait

Inférence batchée à haut débit
Endpoint HTTP compatible OpenAI
Supporte la plupart des checkpoints famille Llama
Paged attention pour les longs contextes
Fonctionne sur CUDA ou Metal

Cas d'usage

Servir un modèle fine-tuné pour des outils internes
Offloader une classification à gros volume sur du matériel local
Garder les prompts sensibles hors des APIs tierces

Compétences liées

Data & analytique

Base de connaissances personnelle

Notes persistantes que l'assistant retient et peut interroger.

20 300 installations

Data & analytique

Analyse de données (Jupyter)

Exécutez du Python sur vos données avec un kernel Jupyter vivant.

16 200 installations

Data & analytique

Constructeur de graphiques

Générez des graphiques propres à partir d'un tableau ou d'un CSV.

11 100 installations

Data & analytique

Moteur de requêtes BDD

Interrogez votre Postgres, MySQL ou SQLite en langage naturel.

3 600 installations