Tamebilab
v1.1.4Avril 2026
00
Documentation

tamebi docs

Détectez votre hardware, identifiez ce que vous pouvez exécuter. Une seule commande donne un scan complet et des commandes Ollama prêtes à copier.

$pip install tamebi
$tamebi check
01

Présentation

tamebi est un package Python généraliste pour travailler avec des modèles IA open-source. Il est conçu pour grandir avec vous : de la compréhension de votre hardware à l'exécution de modèles, en passant par la construction d'agents et le déploiement en production.

La version actuelle se concentre sur la détection hardware et la compatibilité des modèles. Une seule commande scanne automatiquement votre CPU, RAM, GPU et disque, puis vous indique exactement quels modèles vous pouvez exécuter en local, à quelle précision, et quelles performances attendre.

NVIDIA, AMD, Intel et Apple Silicon sont tous détectés automatiquement. Aucun flag ni variable d'environnement supplémentaire n'est nécessaire.

Adapté au hardware
Détecte GPU, CPU, RAM et disque. Sait exactement ce que vous pouvez exécuter.
Une seule commande
tamebi check vous donne un rapport de compatibilité complet en quelques secondes.
Prêt pour Ollama
Chaque modèle compatible inclut une commande ollama run prête à copier.
02

Installation

Installer avec pip :

pipbash
pip install tamebi

Ou avec uv (recommandé, nettement plus rapide) :

uvbash
uv pip install tamebi
Astuce
uv résout et installe tamebi environ 10 à 100 fois plus vite que pip. Si vous ne l'avez pas : curl -LsSf https://astral.sh/uv/install.sh | sh
03

Démarrage rapide

Lancez un scan hardware avec une seule commande :

terminalbash
tamebi check
bash — tamebi check
~/Workspacetamebi check
Hardware
CPUApple M4 Pro
Architecturearm64
Cores / Threads12 cores / 12 threads @ 4.5 GHz
RAM24.0 GB total / 8.2 GB available
GPUApple M4 Pro, 24.0 GB VRAM (20.1 GB free)
Disk512.0 GB free / 1024.0 GB total
OSDarwin 25.3.0
Available for inference20.1 GB (VRAM)
Top Recommendations
#ModèlePrécisionMémoireCommande Ollama
1Qwen3.5 9BINT46.3 GBollama run qwen3.5:9b
2gemma 4 E4BINT85.5 GBollama run gemma4:4b
3DeepSeek R1 8BINT45.6 GBollama run deepseek-r1:8b
Runnable Models

… tous les modèles compatibles avec détail mémoire, estimations de vitesse et TTFT

04

Référence CLI

04.1tamebi check

Détecte le hardware et affiche ce qui est exécutable en trois sections : Hardware, Top Recommendations et Runnable Models.

tamebi check [OPTIONS]
FlagCourtDéfautDescription
--json-jfalseSortie en JSON plutôt qu'en tableaux.
--context-length-c4096Longueur de contexte en tokens. Le cache KV évolue linéairement.
--batch-size-b1Requêtes simultanées. Chacune obtient son propre cache KV.
--verbose-falseAffiche les infos de détection détaillées.

04.2tamebi models

Affiche la matrice complète de compatibilité des modèles sur toutes les précisions (INT4, INT8, FP16).

tamebi models [OPTIONS]
FlagCourtDéfautDescription
--context-length-c4096Longueur de contexte pour l'estimation du cache KV.
--batch-size-b1Taille de batch pour l'estimation du cache KV.

04.3tamebi update

Récupère le dernier catalogue de modèles depuis le serveur distant.

tamebi update
Info
Le catalogue est récupéré depuis HuggingFace Hub et couvre les modèles de Meta, Mistral, Google, Qwen, DeepSeek, GLM, MiniMax, Kimi, Liquid et AllenAI. Il se met à jour automatiquement chaque semaine. Exécutez tamebi update pour forcer un rafraîchissement.
05

Exemples

01Scan hardware de base

Scannez votre machine et voyez tous les modèles compatibles avec les commandes Ollama.

tamebi check
02Sortie JSON pour scripts

Sortie lisible par machine. À piper dans jq, des scripts ou des pipelines CI.

tamebi check --json
03Servir plusieurs utilisateurs

Estime la mémoire pour 4 requêtes simultanées avec un contexte de 8K chacune.

tamebi check --batch-size 4 --context-length 8192
04Contexte maximal

Passez --context-length 0 pour utiliser la fenêtre de contexte maximale de chaque modèle.

tamebi check --context-length 0
05Parcourir tous les modèles

Voir tous les modèles du catalogue et leur compatibilité sur les précisions INT4, INT8 et FP16.

tamebi models
06

Hardware supporté

tamebi détecte votre hardware automatiquement via des APIs natives. Aucune configuration nécessaire.

PlateformeMéthode de détectionCe qui est rapporté
NVIDIAnvidia-ml-py (NVML)Modèle, VRAM, version CUDA, capacité de calcul
AMDrocm-smi (subprocess)Modèle, VRAM (nécessite ROCm)
IntelOpenCL / WMIModèle, VRAM (Arc discret + intégrés)
Apple Siliconsystem_profilerModèle de puce (M1/M2/M3/M4), mémoire unifiée
CPU uniquementpsutil + py-cpuinfoCœurs, threads, fréquence, architecture
Apple Silicon
Sur Apple Silicon, le GPU et le CPU partagent la mémoire unifiée. tamebi utilise la mémoire unifiée totale comme VRAM disponible.
07

Catalogue de modèles

Le catalogue est maintenu automatiquement depuis HuggingFace Hub. Mise à jour hebdomadaire.

01Meta (Llama)
02Mistral AI
03Google (Gemma)
04Alibaba (Qwen)
05DeepSeek
06Kimi / Moonshot
07Liquid AI
08AllenAI
09GLM / Zhipu
10MiniMax

Les modèles sont catalogués sur plusieurs précisions (INT4, INT8, FP16). Exécutez tamebi update pour récupérer le dernier catalogue.

08

Calcul d'estimation

La mémoire est estimée par modèle et précision selon la formule suivante :

Formule d'estimation mémoirePython
VRAM totale = Poids du modèle + Cache KV + Overhead
Poids du modèle = params (milliards) × octets_par_param
FP16 → 2 octets / param
INT8 → 1 octet  / param
INT4 → 0,5 octet / param
Cache KV = 2 × couches × num_kv_heads × head_dim
× context_len × octets × batch_size
Compatible GQA : utilise les KV heads, pas les Q heads
Overhead = 15% des poids (activations + fragmentation)
+ 0,5 Go (NVIDIA uniquement, runtime CUDA)
Précision
Les estimations de performance (tokens/sec et temps au premier token) indiquent des plages, pas des chiffres exacts. Les performances réelles dépendent de vos drivers, de votre stack logicielle et de votre usage.
tamebilab

© 2026 Tamebi AI. Tous droits réservés.