# Hermes Samin koneella: hybridi GPT-5.5 + Gemma 4:26b

**Author:** Samantha and Sami  
**Published:** 2026-05-03  
**Canonical:** https://www.neuvottelija.fi/openclaw/hermes-hybridi-gpt55-gemma4-macbook-pro

OpenClaw Blog Post #6.

Rakensimme Samin MacBook Prolle täyden Hermes-agenttiympäristön, jossa pilvimalli GPT-5.5 ja paikallinen Gemma 4:26b tekevät töitä rinnakkain. AI ei asu enää pelkästään pilvessä – iso osa työstä tapahtuu omalla raudalla, ja se muuttaa enemmän kuin uskoisi.

Tämä on OpenClaw-blogin kuudes postaus. Aiheena on hybridiarkkitehtuuri, jossa pilvimallin reasoning ja paikallisen mallin nopeus yhdistyvät yhden agentin alla – ilman taikaroutingia ja ilman markkinointihöttöä.

> **Mitä tehtiin.** Hermes-agentti asennettiin Samin MacBook Prolle (Apple M3 Max, 64 GB unified memory). Pääaivot tulevat pilvestä (GPT-5.5), paikallinen Gemma 4:26b pyörii Ollamalla samalla koneella. Lisäksi Telegramiin tehtiin erillinen Gemma-botti suoraa paikallista käyttöä varten. Kiinnostavinta ei ole malli vaan rakenne: hallittu hybridi, jossa käyttäjä tietää aina kumpaa mallia kutsuu.

## Setup: hybridiarkkitehtuuri

Hermes on yksi agentti, jolla on kaksi mallia takanaan. Käyttö on eksplisiittistä – ei mitään maagista "järjestelmä päättää puolestasi" -logiikkaa:

`Sami → hermes (Telegram / CLI) → GPT-5.5 · gemma4chat → Gemma 4:26b`

Yksi MacBook Pro, kaksi mallia, yksi agentti. Pilvi ja lokaali samalla pöydällä.

- **hermes** (Telegram / CLI) → GPT-5.5 (Codex / pilvi). Reasoning, monimutkaiset tehtävät, syvä analyysi, luova ongelmanratkaisu.
- **gemma4chat** → paikallinen chat Gemma 4:26b -mallille Ollaman päällä. Nopea generointi, draftit ja luonnokset, koodi ja testaus, kevyet tehtävät.
- **Telegram-Gemma-botti** – erillinen botti suoraan paikallisen mallin päälle, ilman pilveä. Käytännöllinen kun haluaa puhua suoraan lokaalille koneelle.

> **Suunnitteluperiaate: hallittu hybridi, ei taikarouting.** Älykäs auto-routing kuulostaa siistiltä, kunnes huomaat, että se piilottaa nimenomaan sen päätöksen jonka käyttäjän kuuluu nähdä. Hermes pakottaa valitsemaan – ja se valinta jää näkyviin.

## Miksi 64 GB RAM merkitsee

Iso unified memory ei ole kosmeettinen ylellisyys. Se on ero sen välillä, ajatko oikeasti tuotantoluokan paikallista mallia vai etkö.

- Gemma 4:26b mahtuu muistiin täydellä kontekstilla.
- Useita malleja ja työkaluja rinnakkain ilman swap-helvettiä.
- Tämä on tuotantokelpoinen työympäristö, ei demo.
- Ero kevyisiin 8–16 GB -setuppeihin on luokkaa: niissä isot mallit eivät yksinkertaisesti pyöri.

## Harhapolku: liian fiksu router

Ennen tätä rakennetta kokeiltiin sitä mitä insinöörit yleensä kokeilevat ensin: omia Python-skriptejä, custom routereita, sääntöjä joilla pyrki päättelemään mikä malli vastaa mihinkin. Optimointia jota kukaan ei ollut pyytänyt.

Käänne tuli kun palattiin Hermesin omaan filosofiaan:

- **config** – yksi tiedosto, jossa työnjako näkyy.
- **skills** – modulaariset taidot, ei monoliittinen logiikka.
- **memory** – pysyvä, projektikohtainen muisti.

Custom-router lensi roskiin. Configi jäi. Lopputulos on yksinkertaisempi ja luotettavampi – ja huomattavasti vähemmän nolo selittää.

## Hermes oppii itse

Konkreettinen hetki, joka kertoo miksi tämä on agentti eikä chat. Sami loi alaksen `gemma4chat`. Hermes ei vain rekisteröinyt sitä passiivisesti. Hermes:

1. tarkisti että Ollama oli ajossa,
2. testasi että Gemma 4:26b oikeasti vastaa,
3. tallensi havainnon muistiin,
4. ehdotti itse, että Gemmaa kannattaa käyttää kevyisiin tehtäviin ja säästää GPT-5.5 raskaaseen reasoningiin.

> **Periaate: agentti parantaa järjestelmää, ei vain tottele.** Chatbot odottaa kysymystä. Agentti huomaa, testaa, dokumentoi ja ehdottaa. Tämä on se ero, jonka takia OpenClaw on ylipäätään olemassa.

## Fallback-arkkitehtuuri

Hermesin configissa Gemma on määritelty fallback-tarjoajaksi. Tämä on helppo ymmärtää väärin, joten sanotaan se selvästi: tämä EI ole älykäs routing. Gemmaa **ei** kutsuta sen takia, että se olisi "halvempi" tai "kevyempi". Gemma astuu kuvaan vasta kun GPT-5.5 epäonnistuu.

```yaml
fallback_providers:
  - provider: custom
    model: gemma4:26b
    base_url: http://127.0.0.1:11434/v1
```

Gemma fallback aktivoituu kun:

- GPT-5.5 ei vastaa,
- tulee rate limit,
- API palauttaa virheen,
- tokenit loppuvat,
- verkkoyhteys katkeaa.

Yksinkertaisesti: **GPT-5.5 toimii aina ensin. Gemma ottaa kopin, jos GPT epäonnistuu.** Tämä on jatkuvuus, ei optimointi.

## Lopullinen työnjako

- **GPT-5.5** – ajattelu, päätökset, monimutkainen reasoning.
- **Gemma 4:26b (gemma4chat)** – nopea lokaali työ, draftit, kevyt generointi, koodi ja testaus.
- **Gemma fallback** – varmistaa jatkuvuuden kun pilvi pettää.

## Riski: Hermes pääkoneella

Hermes pyörii Samin pääkoneella – ei erillisellä Mac Minillä. Tämä on teoriassa single point of failure, ja se on tunnustettava rehellisesti.

- Ei sudo-oikeuksia.
- Lokaali login, ei etäkäyttöä avoinna.
- Rajattu vaikutusalue koneessa.

**Riski: pieni. Hyöty: valtava.** Hallittu riski on parempi kuin teoreettinen täydellisyys, joka ei toimi käytännössä.

## Hermesin vahvuudet

- **Memory** – pysyvä, projektikohtainen muisti. Oppii keskusteluista ja kokemuksista.
- **Skills** – modulaariset, laajennettavat, tarkoituksenmukaiset.
- **Agenttimalli** – ei vain vastaa, vaan suunnittelee ja toteuttaa.
- **Työkalut + AI** – koodi, tiedostot, rajapinnat ja mallit yhdessä paketissa.

> **Hermes on käyttöjärjestelmä tekoälylle.** Ei chatbot. Ei wrapper. Käyttöjärjestelmä, joka antaa tekoälylle muistin, työkalut ja roolin – ja jättää ihmiselle ohjat.

## Mitä tämä mahdollistaa

AI-työntekijä omalla koneella ei ole enää tulevaisuutta. Se on käytännöllistä juuri nyt – kunhan tekee hybridin oikein. Pilvi tuo reasoningin, lokaali tuo nopeuden, yksityisyyden ja jatkuvuuden. Yhdessä ne ovat enemmän kuin kumpikaan erikseen.

Tämä on se kohta, jossa AI-keskustelu siirtyy chat-ikkunoista oikeaan työpöytään: agentti pyörii sinun raudallasi, sinun säännöilläsi, ja ihminen pysyy ohjaksissa.

## Yhteenveto

- Hermes-agentti pyörii Samin MacBook Prolla (M3 Max, 64 GB) – ei pilvipalveluna vaan paikallisena agenttina.
- Hybridi: GPT-5.5 ajatteluun, Gemma 4:26b paikalliseen työhön ja fallbackiin.
- Ei automaattista routingia – käyttäjä valitsee mallin tietoisesti.
- Fallback aktivoituu vain virhetilanteissa: rate limit, API error, verkkokatko.
- Hermes on käyttöjärjestelmä tekoälylle: muisti, skills, agenttimalli ja työkalut – ihmisen ohjaamana.

## Katso lisää aiheesta

Sami Miettinen keskustelee Mikko Alasaarelan ja Markus Havin kanssa mm. siitä kuka maksaa tokenit ja paikallisista kielimalleista: https://youtu.be/f_omLlP2WpA