Documentation | tamebilab

Présentation

tamebi est un package Python généraliste pour travailler avec des modèles IA open-source. Il est conçu pour grandir avec vous : de la compréhension de votre hardware à l'exécution de modèles, en passant par la construction d'agents et le déploiement en production.

La version actuelle se concentre sur la détection hardware et la compatibilité des modèles. Une seule commande scanne automatiquement votre CPU, RAM, GPU et disque, puis vous indique exactement quels modèles vous pouvez exécuter en local, à quelle précision, et quelles performances attendre.

NVIDIA, AMD, Intel et Apple Silicon sont tous détectés automatiquement. Aucun flag ni variable d'environnement supplémentaire n'est nécessaire.

Adapté au hardware

Détecte GPU, CPU, RAM et disque. Sait exactement ce que vous pouvez exécuter.

Une seule commande

tamebi check vous donne un rapport de compatibilité complet en quelques secondes.

Prêt pour Ollama

Chaque modèle compatible inclut une commande ollama run prête à copier.

Installation

Installer avec pip :

pipbash

pip install tamebi

Ou avec uv (recommandé, nettement plus rapide) :

uvbash

uv pip install tamebi

Astuce

uv résout et installe tamebi environ 10 à 100 fois plus vite que pip. Si vous ne l'avez pas : curl -LsSf https://astral.sh/uv/install.sh | sh

Démarrage rapide

Lancez un scan hardware avec une seule commande :

terminalbash

tamebi check

bash — tamebi check

~/Workspace›tamebi check

Hardware

CPUApple M4 Pro

Architecturearm64

Cores / Threads12 cores / 12 threads @ 4.5 GHz

RAM24.0 GB total / 8.2 GB available

GPUApple M4 Pro, 24.0 GB VRAM (20.1 GB free)

Disk512.0 GB free / 1024.0 GB total

OSDarwin 25.3.0

Available for inference20.1 GB (VRAM)

Top Recommendations

#	Modèle	Précision	Mémoire	Commande Ollama
1	Qwen3.5 9B	INT4	6.3 GB	ollama run qwen3.5:9b
2	gemma 4 E4B	INT8	5.5 GB	ollama run gemma4:4b
3	DeepSeek R1 8B	INT4	5.6 GB	ollama run deepseek-r1:8b

Runnable Models

… tous les modèles compatibles avec détail mémoire, estimations de vitesse et TTFT

Référence CLI

04.1tamebi check

Détecte le hardware et affiche ce qui est exécutable en trois sections : Hardware, Top Recommendations et Runnable Models.

tamebi check [OPTIONS]

Flag	Court	Défaut	Description
`--json`	`-j`	false	Sortie en JSON plutôt qu'en tableaux.
`--context-length`	`-c`	4096	Longueur de contexte en tokens. Le cache KV évolue linéairement.
`--batch-size`	`-b`	1	Requêtes simultanées. Chacune obtient son propre cache KV.
`--verbose`	-	false	Affiche les infos de détection détaillées.

04.2tamebi models

Affiche la matrice complète de compatibilité des modèles sur toutes les précisions (INT4, INT8, FP16).

tamebi models [OPTIONS]

Flag	Court	Défaut	Description
`--context-length`	`-c`	4096	Longueur de contexte pour l'estimation du cache KV.
`--batch-size`	`-b`	1	Taille de batch pour l'estimation du cache KV.

04.3tamebi update

Récupère le dernier catalogue de modèles depuis le serveur distant.

tamebi update

Info

Le catalogue est récupéré depuis HuggingFace Hub et couvre les modèles de Meta, Mistral, Google, Qwen, DeepSeek, GLM, MiniMax, Kimi, Liquid et AllenAI. Il se met à jour automatiquement chaque semaine. Exécutez tamebi update pour forcer un rafraîchissement.

Exemples

01Scan hardware de base

Scannez votre machine et voyez tous les modèles compatibles avec les commandes Ollama.

tamebi check

02Sortie JSON pour scripts

Sortie lisible par machine. À piper dans jq, des scripts ou des pipelines CI.

tamebi check --json

03Servir plusieurs utilisateurs

Estime la mémoire pour 4 requêtes simultanées avec un contexte de 8K chacune.

tamebi check --batch-size 4 --context-length 8192

04Contexte maximal

Passez --context-length 0 pour utiliser la fenêtre de contexte maximale de chaque modèle.

tamebi check --context-length 0

05Parcourir tous les modèles

Voir tous les modèles du catalogue et leur compatibilité sur les précisions INT4, INT8 et FP16.

tamebi models

Hardware supporté

tamebi détecte votre hardware automatiquement via des APIs natives. Aucune configuration nécessaire.

Plateforme	Méthode de détection	Ce qui est rapporté
NVIDIA	`nvidia-ml-py (NVML)`	Modèle, VRAM, version CUDA, capacité de calcul
AMD	`rocm-smi (subprocess)`	Modèle, VRAM (nécessite ROCm)
Intel	`OpenCL / WMI`	Modèle, VRAM (Arc discret + intégrés)
Apple Silicon	`system_profiler`	Modèle de puce (M1/M2/M3/M4), mémoire unifiée
CPU uniquement	`psutil + py-cpuinfo`	Cœurs, threads, fréquence, architecture

Apple Silicon

Sur Apple Silicon, le GPU et le CPU partagent la mémoire unifiée. tamebi utilise la mémoire unifiée totale comme VRAM disponible.

Catalogue de modèles

Le catalogue est maintenu automatiquement depuis HuggingFace Hub. Mise à jour hebdomadaire.

01Meta (Llama)

02Mistral AI

03Google (Gemma)

04Alibaba (Qwen)

05DeepSeek

06Kimi / Moonshot

07Liquid AI

08AllenAI

09GLM / Zhipu

10MiniMax

Les modèles sont catalogués sur plusieurs précisions (INT4, INT8, FP16). Exécutez tamebi update pour récupérer le dernier catalogue.

Calcul d'estimation

La mémoire est estimée par modèle et précision selon la formule suivante :

Formule d'estimation mémoirePython

VRAM totale = Poids du modèle + Cache KV + Overhead

Poids du modèle = params (milliards) × octets_par_param

FP16 → 2 octets / param

INT8 → 1 octet / param

INT4 → 0,5 octet / param

Cache KV = 2 × couches × num_kv_heads × head_dim

× context_len × octets × batch_size

Compatible GQA : utilise les KV heads, pas les Q heads

Overhead = 15% des poids (activations + fragmentation)

+ 0,5 Go (NVIDIA uniquement, runtime CUDA)

Précision

Les estimations de performance (tokens/sec et temps au premier token) indiquent des plages, pas des chiffres exacts. Les performances réelles dépendent de vos drivers, de votre stack logicielle et de votre usage.

tamebilab

PyPI ↗Accueil Produits

tamebi docs