Retour à toutes les compétences
⚙️
Data & analytique

Inférence vLLM

Servez des LLMs open-weight localement avec haut débit via vLLM.

4.6note
4 600 installations
mlops/inference/vllm
Max requis

À propos de cette compétence

Inférence vLLM enveloppe le moteur vLLM pour exécuter un LLM open-weight (Llama, Mistral, Qwen, DeepSeek) sur votre propre matériel avec batching, paged attention et HTTP compatible OpenAI. À utiliser pour échapper aux coûts API sur de gros volumes, garder des prompts sensibles en local, ou exécuter un modèle fine-tuné à côté de votre assistant principal.

Ce qu'elle fait

  • Inférence batchée à haut débit
  • Endpoint HTTP compatible OpenAI
  • Supporte la plupart des checkpoints famille Llama
  • Paged attention pour les longs contextes
  • Fonctionne sur CUDA ou Metal

Cas d'usage

  • Servir un modèle fine-tuné pour des outils internes
  • Offloader une classification à gros volume sur du matériel local
  • Garder les prompts sensibles hors des APIs tierces