🧠 LLM som service
En skalerbar LLM-as-a-Service løsning der leverer solidariske flatrate-priser og potentiale for energieffektiv drift
🕒 ~2 min read
Udkast
Baggrund
Styregruppen i os2ai ønsker sig en løsning for der kan levere en “LLM as a Service” med:
- Flatrate betaling
- Solidaritetsmodel
Arkitektur anbefaling
Det anbefales at lave en teknisk PoC der omfatter KServe med ModelMesh for at kunne udnytte de muligheder vi allerede betaler for i vore k8s clusters, til at levere på ønskerne.
Denne løsning:
- Udnytter de k8s native operators og funktionalitet vi allerede betaler for.
- Genbruger eksisterende internationalt vedligeholdte løsninger, istedet for at opfinde nye dybe tallerkener.
- Understøtter model-sharing for effektiv ressourceudnyttelse
- Muliggør scale-to-zero og GPU-pooling for lavere energiforbrug og dermed forventet lavere hostingpriser
- Er CNCF open source og cloud-neutral
Komponenter
Arkitekturlandskab
flowchart LR
subgraph Application cluster
A[Brugergrænseflade]
B[Backend]
end
subgraph GPU Cluster
C[KServe Operator]
D[vLLM Embedded i ModelMesh]
end
A --> B --> C --> D
A:::Aqua
B:::Aqua
C:::Aqua
D:::Aqua
classDef Sky stroke-width:1px, stroke-dasharray:none, stroke:#374D7C, fill:#E2EBFF, color:#374D7C
classDef Ash stroke-width:1px, stroke-dasharray:none, stroke:#999999, fill:#EEEEEE, color:#000000
classDef Aqua stroke-width:1px, stroke-dasharray:none, stroke:#46EDC8, fill:#DEFFF8, color:#378E7A
Kserve
Skalerbar inferencing med multi-tenancy og dynamisk model-loading og skalering.
ModelMesh
Avanceret runtime til multi-model hosting med memory-optimering. Gør det muligt at have mange modeller tilgængelige uden at alle fylder i GPU-hukommelsen samtidig. Integrerer med KServe for dynamisk model-loading og routing.
Forventede gevinster
💰 Fair og forudsigelig økonomi
Faste tiers med flatrate muliggør solidarisk prisstruktur.
🌱 Grøn IT og lavere hostingpris
Scale-to-zero og GPU-pooling reducerer energiforbrug og driftsomkostninger markant.
🔒 Robust og fremtidssikret
CNCF open source og Kubernetes-native operators sikrer standardisering og leverandøruafhængighed.
Anvendte arkitekturprincipper
Forslaget understøtter følgende fællesoffentlige principper og regler:
♻️ Genbrug og fælles løsninger 👁️ Åbne standarder og interoperabilitet 🧩 Modularitet og løskobling 🔒 Sikkerhed og robusthed 🌱 Grøn IT og effektiv ressourceudnyttelse 📏 Standardisering og governance
Kilder
- https://developer.ibm.com/articles/llms-inference-scaling-vllm-kserve/
- https://developer.ibm.com/blogs/kserve-and-watson-modelmesh-extreme-scale-model-inferencing-for-trusted-ai/