Какие локальные модели на Mac mini M4 16 ГБ?

16 ГБ UMA достаточно для квантованных 7B–13B: Qwen2.5 7B, Llama 3.1 8B; 70B требуют M4 Pro 48–64 ГБ.

OpenClaw и OpenHuman на одной машине?

Да, с разными LaunchAgent label и мониторингом RAM; для параллельного inference стартовая линия — 32 ГБ.

Почему не Linux VPS?

LaunchAgent OpenClaw и Tauri-GUI OpenHuman требуют native macOS; на Linux нет Neural Engine и полноценного desktop path.

Нужен ли VNC для OpenHuman?

Да для полного GUI; для чистой automation часто хватает OpenClaw через Telegram/WhatsApp.

2026 Аренда Mac mini M4: OpenClaw, OpenHuman и Ollama — локальный ИИ-агент

OpenClaw гоняет автономных агентов через Telegram, WhatsApp и Discord; OpenHuman строит desktop-ассистента с Memory Tree — оба умеют Ollama для локального inference без обязательного облака. Install.sh отрабатывает за час. Узкое место — не команды, а macOS-хост 7×24 с Apple Silicon, Metal/UMA и фиксированным IP под webhook'и каналов. Ниже: матрица OpenClaw vs OpenHuman, sizing M4 с цифрами RSS, LaunchAgent на арендованном удалённом Mac и TCO-линия для команд, которые уже пишут RFC на agent-infra.

1. Где крутить агента: infra-боль

В 2026 конкуренция agent-стеков сместилась с «чей API сильнее» на «кто держит uptime, приватность и контроль». Три типовых failure mode в проде:

Sleep ноутбука. MacBook закрыли — LaunchAgent от openclaw onboard --install-daemon не гарантирует живой процесс; Telegram показывает bot offline. Это не «модель тупит», это отсутствие хоста.
Capex и lead time. Свой Mac mini M4 — месяцы ожидания и валютные риски; для POC на квартал capex часто не проходит budget gate.
Linux VPS. AWS/GCP/Hetzner дают 7×24, но не macOS: launchd-путь OpenClaw и Tauri-GUI OpenHuman на VM — компромисс; Neural Engine и единый UMA-пул CPU/GPU через Metal отсутствуют.

Аренда выделенного Mac mini M4 — рабочий компромисс: SSH/VNC ~10 минут, 1 Gbps, статический IP, 13B на 16 ГБ UMA терпимо, M4 Pro 64 ГБ — заход на 70B q4. Tenant физически изолирован — проще описать в architecture doc, чем «Docker на общем VPS». Дефолт: admin на ноде, Homebrew, проверка sysctl -n hw.memsize и uname -m → arm64.

2. OpenClaw vs OpenHuman — матрица

Общий runtime — Ollama; разные operator personas. OpenClaw: mobile-first ops, каналы, headless gateway. OpenHuman: desktop depth, голос, Meet, Memory Tree. Лицензии: MIT vs GPL-3.0 — для white-label клиенту GPL требует отдельной legal review.

Параметр	OpenClaw	OpenHuman
Лицензия	MIT	GPL-3.0
UX	CLI + Telegram/WhatsApp/Discord	GUI + voice + Google Meet
Память	workspace / plugins	Memory Tree native
Local LLM	Ollama (OpenAI-compatible endpoint)	Ollama / LM Studio (`config.toml`)
Типовой кейс	channel automation, ops bot	personal super-assistant, Notion/Gmail

«Команда с телефона → исполнение на сервере» → OpenClaw. «Помни мои привычки три недели и зайди в созвон» → OpenHuman. Coexistence: разные LaunchAgent label — см. Hermes multi-agent на одном хосте.

3. Железо и выбор облачной ноды

UMA на Apple Silicon — единый пул для CPU/GPU/Neural Engine через Metal, без дискретной VRAM. Oversubscription бьёт по p95 latency каналов: swap на NVMe убивает tool-call loop.

M4 16 ГБ: cloud API primary + local 7B–13B (Qwen2.5 7B, Llama 3.1 8B) для sensitive шагов; idle power часто 8–15 W — термика mini на 7×24 стабильнее MacBook на ковре.
32 ГБ: main OpenClaw agent + 2–3 sub-agent + один 13B Ollama instance — практичная линия для mixed routing.
M4 Pro 48–64 ГБ: zero-cloud target, 30B–70B q4; OpenHuman с большим context + GUI over VNC.
Регион: EU-ноды для RTT; не синхронизировать Memory Tree в неконтролируемый public cloud sync.

Node.js ≥ 22 (install.sh может подтянуть 24). macOS 14 Sonoma+. Выделенный UNIX-пользователь prod — иначе HOME drift как в наших systemd/launchd runbook'ах.

Перед pull тяжёлых weights проверьте baseline: df -h на APFS volume (модели Ollama 7B–13B — десятки ГБ на каталог), sysctl -n hw.memsize, idle RSS gateway через Activity Monitor (VNC). Арендованный mini на NVMe и 1 Gbps uplink сокращает время ollama pull vs домашний канал с асимметрией — частый сюрприз в пятницу вечером, когда команда «просто докачала llama3.1:8b».

Регион EU vs US: для latency к Telegram API и data residency часто выбирают Frankfurt/Amsterdam class nodes. RTT с Moscow/SPB на EU-ноду обычно приемлем для async bot; для sub-second voice loop OpenHuman смотрите p95 end-to-end, а не только inference tok/s.

4. OpenClaw + Ollama + LaunchAgent: пять шагов

Runbook для свежей удалённой ноды. Фиксируйте версии в change log — при postmortem «что стояло на prod» критично.

Ollama + модели:

brew install ollama
ollama pull qwen2.5:7b
# optional: ollama pull llama3.1:8b

OpenClaw install:

curl -fsSL https://openclaw.ai/install.sh | bash
openclaw onboard --install-daemon

Local inference: ~/.openclaw/openclaw.json → baseUrl = http://127.0.0.1:11434/v1, model ollama/qwen2.5:7b. OLLAMA_KEEP_ALIVE=-1 снижает cold start после idle.
Channels: Telegram bot token / WhatsApp в onboard wizard; после plugin → openclaw gateway restart, затем openclaw channels status --probe. Зелёный probe без reply — см. channel runbook серии OpenClaw.
Security: openclaw security audit --fix; gateway без auth на 0.0.0.0 на публичном IP — instant incident.

LaunchAgent от --install-daemon переживает разрыв SSH — ключевое преимущество над dev-ноутбуком. После upgrade при split-brain CLI/service: выровнять meta и doctor.

Acceptance checklist (prod). Порядок жёсткий: openclaw doctor без red flags → openclaw gateway status с ожидаемой revision → openclaw channels status --probe (p95 latency < 3 s для Telegram с EU-ноды — подстройте под ваш SLO) → реальное сообщение с телефона, triggering tool call. Артефакты (log excerpt, probe output) кладите в ticket/Confluence — при расследовании «бот молчит» без этого вы слепы. На арендованном remote Mac weekly cron на probe + alert в monitoring дешевле, чем postmortem в понедельник 09:00. Restart loops — см. официальную лестницу launchd restart.

Ollama tuning на Apple Silicon. q4_K_M — default для 16 ГБ UMA: Qwen2.5 7B часто 25–40 tok/s через Metal, без discrete VRAM bottleneck. OLLAMA_MAX_LOADED_MODELS=1 при single-channel; multi-agent → scale RAM, не parallel load. Post-reboot warmup: ollama run qwen2.5:7b "ping" до первого user request — иначе cold start съест SLO. sysctl hw.memsize и Activity Monitor через VNC: sustained memory pressure > 80 % → upgrade tier или schedule (OpenHuman днём, batch OpenClaw ночью).

5. OpenHuman v0.53 и local AI

curl -fsSL https://raw.githubusercontent.com/tinyhumansai/openhuman/main/scripts/install.sh | bash

Local AI по умолчанию off — явный opt-in в config.toml:

local_ai.runtime_enabled = true
local_ai.opt_in_confirmed = true

Endpoint Ollama/LM Studio на 11434. Onboarding Gmail/Notion/Slack: minimal OAuth scopes, read-only где достаточно. Memory Tree индексирует недельные планы и preferences; у OpenClaw нет встроенной long-term memory того же класса — complementary: channels vs desktop depth.

GUI OpenHuman на remote Mac → VNC/screen sharing. Backend-only: OpenClaw + channels primary, OpenHuman second instance с ограничением OLLAMA_NUM_PARALLEL.

Версия v0.53 (весна 2026) предполагает явный opt-in local AI — не включайте runtime_enabled на prod без load test: первый запрос Memory Tree + inference может spike RAM на 2–4 ГБ поверх baseline. Для Meet/voice latency критичнее p95 tool round-trip, чем peak tok/s в бенчмарке; фиксируйте оба в acceptance doc.

6. Multi-agent: RAM, изоляция, безопасность

RAM budget: Ollama 7B q4 resident ~5–8 ГБ; gateway OpenClaw + OpenHuman desktop → floor 32 ГБ.
Process isolation: distinct LaunchAgent labels, split log dirs; не завышать OLLAMA_NUM_PARALLEL — swap silent killer для channel p95.
Backup: SFTP/rsync ~/.openclaw + OpenHuman config на admin workstation; secrets не в git.
Compliance path: Qwen2.5 local для domestic text; отключить cloud fallback providers в openclaw.json если data residency strict.
Tenant wipe: при аренде требовать documented disk erase on offboard — иначе OAuth tokens на чужом железе.

Если параллельно крутите Hermes Agent для skill evolution — три дерева: ~/.hermes/, OpenClaw workspace, Memory Tree. Смешение → split-brain USER profiles и невозможность rollback.

Ops-сценарии аренды. Platform team: OpenClaw на Telegram для runbook automation, OpenHuman для personal knowledge — один M4 32 ГБ, разные UNIX users, общий Ollama с explicit model pin. Agency: tenant per end-client, изоляция Memory Tree и OAuth. Compliance: snapshot ~/.openclaw + OpenHuman config перед каждым model upgrade через SFTP/rsync с sha256 gate — как для CI artifacts. Sunk cost инженерных часов: один incident «channel green, no reply» без probe discipline съедает ~8 h — сопоставимо с кварталом аренды M4-class.

Metal/UMA и цифры для RFC. Unified Memory — не marketing: 16 ГБ делят CPU, GPU и Neural Engine; Ollama 7B q4 resident 5–8 ГБ оставляет мало headroom для GUI OpenHuman + gateway + Node 24. 32 ГБ — практический floor для dual-framework. M4 Pro 48–64 ГБ: 30B–70B q4, больший context window OpenHuman без swap thrash. Idle power mini 8–15 W vs desktop GPU rig 200 W+ — relevant для 24/7 opex narrative в budget deck. Fixed IP арендованной ноды упрощает Telegram/WhatsApp webhook delivery vs home NAT CGNAT.

Security hardening. FileVault on, SSH key-only, openclaw security audit --fix, gateway bind localhost + reverse tunnel если нужен external access — never raw 0.0.0.0 без auth. OAuth tokens и bot secrets — вне git; rotation quarterly. Offboard tenant: contract disk wipe, verify с diskutil apfs list post-wipe report. Cloud fallback в openclaw.json — explicit opt-in; для data residency strict держите Qwen2.5 local-only chain.

7. Стоимость, FAQ, next steps

Вариант	24 мес. порядок	Главный limit
Свой M4 16 ГБ	Железо + электричество	Depreciation, home uplink, нет SLA
Cloud GPU (A10 class)	Часто > $200/мес	Не macOS, variable bill, data egress
Аренда Mac mini M4	Monthly opex, short pilot OK	Trust: physical isolation + wipe

Q: Только API, без local model? 16 ГБ аренды хватит; Ollama optional, OpenClaw на Claude/OpenAI — LaunchAgent всё равно нужен для 7×24.

Q: OpenClaw vs Hermes? Hermes — skill self-evolution; OpenClaw/OpenHuman — channels + desktop ecosystem. Hardware shootout: 90 дней Pi/VPS/M4.

Q: Max model на 16 ГБ? 7B–13B q4 stable; 70B → M4 Pro 48–64 ГБ.

Q: Linux VPS как экономия? CLI experiments OK; LaunchAgent quality и OpenHuman GUI degraded.

Q: Миграция с ноутбука на аренду? Stop local daemons → rsync ~/.openclaw и ~/.ollama → на remote Mac тот же UNIX user если возможно → openclaw gateway restart + probe. OpenHuman: перенести config.toml и Memory Tree; OAuth re-auth если сменился redirect URL.

Q: Какой stack если нужен только messaging? OpenClaw + cloud API на 16 ГБ без Ollama — минимальный ops footprint; LaunchAgent всё равно обязателен. OpenHuman добавляйте когда нужен desktop memory и интеграции Notion/Gmail.

Q: Hermes + OpenClaw + OpenHuman на одном M4? Технически на 32–64 ГБ с жёстким RAM budget и разными launchd labels; для prod часто разносят Hermes и channel-bot на один Mac, OpenHuman GUI — на другой, если VNC latency мешает монтажу.

8. Итог: frameworks ставятся быстро — value в «вечном» macOS

OpenClaw и OpenHuman поднимаются за час. Production value: Neural Engine always-on, LaunchAgent alive после SSH drop, configs/models sync через SFTP/rsync с checksum gate как для CI artifacts. Laptop + cheap Linux VPS + ad-hoc Docker одновременно ломаются на «channel fake online», «local OOM», «GUI not native».

Выбрали local-first + messaging/desktop dual track — gateway и workspace на always-on Apple Silicon node. SFTPMAC аренда Mac mini M4: dedicated physics, launchd baseline, multi-region — быстрее purchase, ближе macOS чем cloud GPU, лучше для Telegram/WhatsApp callbacks чем home NAT — чтобы оптимизировать model/skill, а не рестартить gateway в 03:00.

Практический next step: inventory (framework, UMA tier, channels, log retention) → 30-дневный pilot на арендованном mini с weekly probe cron и SFTP backup ~/.openclaw перед каждым openclaw update. Pilot без swap incidents и channel p95 в SLO — масштабируйте; иначе не покупайте железо вслепую. Документируйте версии Ollama и openclaw в change log с первого дня.

Далее: Hermes память 7×24, restart gateway launchd, split-brain после upgrade.