🧠 Sprogmodeller-as-a-service

En skalerbar, LLM-as-a-Service løsning bygget på åbne standarder, der muliggører solidarisk fair-use og energieffektiv drift.

📆 Feb 25, 2026
🕒 ~2 min read

Udkast

Baggrund

For at sikre en solidarisk adgang til sprogmodeller i OS2ai vil tilføjelsen af en “LLM as a Service” løsning til OS2ai kunne levere:

Flatrate betaling (baseret på organisationsstørrelse)
Fair-use solidaritetsmodel (Fair-use pooling af ressourcer)
Høj sikkerhed (Ingen læk af data til eksterne API’er)

Arkitektur anbefaling

Det anbefales at følge internationale Cloud Native referencearktitekturer og implementere en løsning baseret på Envoy AI Gateway, Kueue og KServe. En sådan model adskiller adgangs- og ressource-styring fra selve model-afviklingen og sikrer en ægte cloud-native platform.

Denne løsning:

Standardiserer adgang: Bruger Envoy AI Gateway til at skabe én samlet, sikker indgang for alle organisationer.
Sikrer Fair-Use: Bruger Kueue til at styre ressourcefordeling (GPU-kvoter) på tværs af organisationer gennem en solidarisk model.
Løskobler applikation og model: Applikationer taler med en stabil gateway, mens modellerne kan opdateres eller skiftes i baggrunden uden nedetid.
Følger 12/15-faktor principper: Alt er deklarativt, stateless og konfigureret som kode (Config-as-Code) uden procedurale indgreb i containers.
Er 100% OSI-compliant: Baseret udelukkende på CNCF open source-projekter, hvilket sikrer mod leverandørbindinger.

Komponenter

Arkitekturlandskab

flowchart TD
    subgraph "Applikations Domæne"
        A[Brugergrænseflade / Applikation]
    end

    subgraph "Infrastructure Domæne"
        B[Envoy AI Gateway]-.-
        B1[Auth & Credentials]
    end

    subgraph "Inference Domæne"
        C[Kueue Resource Manager]
        D[KServe InferenceServices]
        E[ModelMesh / vLLM]
    end

    A -->|mTLS / JWT| B
    B -->|Fair-Use Routing| C
    C --> D
    D --> E

    classDef Sky stroke-width:1px, stroke-dasharray:none, stroke:#374D7C, fill:#E2EBFF, color:#374D7C
    classDef Aqua stroke-width:1px, stroke-dasharray:none, stroke:#46EDC8, fill:#DEFFF8, color:#378E7A
    classDef Tech stroke-width:1px, stroke-dasharray:none, stroke:#378E7A, fill:#DEFFF8, color:#000
    
    A:::Sky
    B:::Aqua
    B1:::Tech
    C:::Aqua
    D:::Aqua
    E:::Aqua

Envoy AI Gateway

Det strategiske kontrolpunkt. Håndterer identifikation af alle organisationer, injicerer API-nøgler sikkert (Credential Injection) og håndterer routing. Det sikrer, at applikationskoden aldrig “ser” følsomme nøgler, og at data ikke flyder til ikke-godkendte eksterne services.

Kueue

Solidaritets-motoren. Styrer hvem der får lov at bruge GPU’erne “lige nu”. Hvis én myndighed bruger hele sin kvote, holder Kueue deres requests i kø, indtil der er ledig kapacitet, så de ikke “stjæler” fra naboen, men stadig kan udnytte ledig overskudskapacitet via “borrowing”.

KServe & ModelMesh

Produktionsmaskinen. Automatiserer udrulning af modeller som skalerbare services. ModelMesh gør det muligt at køre mange forskellige modeller på få GPU’er ved at dele hukommelsen effektivt, hvilket er essentielt for at holde prisen nede i en flatrate-model.

Forventede gevinster

💰 Solidarisk og forudsigelig økonomi

Ved at bruge Envoy og Kueue kan vi garantere kapacitet til alle, samtidig med at vi tillader “lån” af ledig kapacitet på tværs af platformen. Det fjerner behovet for kompleks token-afregning og understøtter en ren flatrate-struktur.

🔒 Enterprise Sikkerhed & Governance

Al trafik monitoreres via standard OpenTelemetry logning. Vi får fuldt overblik over anvendelse pr. organisation på netværksniveau, hvilket gør revision og auditering muligt uden specialudviklet kode.

🌱 Grøn IT og optimeret drift

Scale-to-zero og intelligent GPU-pooling kan minimere tomgangskørsel, hvilket reducerer både CO2-aftryk og de faktiske hostingomkostninger for de deltagende organisationer.

Anvendte arkitekturprincipper

Forslaget understøtter følgende fællesoffentlige principper:

♻️ Genbrug og fælles løsninger 👁️ Åbne standarder 🧩 Modularitet og løskobling 🔒 Sikkerhed og robusthed 🌱 Grøn IT 📏 Governance