Présentation
tamebi est un package Python généraliste pour travailler avec des modèles IA open-source. Il est conçu pour grandir avec vous : de la compréhension de votre hardware à l'exécution de modèles, en passant par la construction d'agents et le déploiement en production.
La version actuelle se concentre sur la détection hardware et la compatibilité des modèles. Une seule commande scanne automatiquement votre CPU, RAM, GPU et disque, puis vous indique exactement quels modèles vous pouvez exécuter en local, à quelle précision, et quelles performances attendre.
NVIDIA, AMD, Intel et Apple Silicon sont tous détectés automatiquement. Aucun flag ni variable d'environnement supplémentaire n'est nécessaire.
Installation
Installer avec pip :
pip install tamebiOu avec uv (recommandé, nettement plus rapide) :
uv pip install tamebicurl -LsSf https://astral.sh/uv/install.sh | shDémarrage rapide
Lancez un scan hardware avec une seule commande :
tamebi checkRéférence CLI
04.1tamebi check
Détecte le hardware et affiche ce qui est exécutable en trois sections : Hardware, Top Recommendations et Runnable Models.
tamebi check [OPTIONS]| Flag | Court | Défaut | Description |
|---|---|---|---|
--json | -j | false | Sortie en JSON plutôt qu'en tableaux. |
--context-length | -c | 4096 | Longueur de contexte en tokens. Le cache KV évolue linéairement. |
--batch-size | -b | 1 | Requêtes simultanées. Chacune obtient son propre cache KV. |
--verbose | - | false | Affiche les infos de détection détaillées. |
04.2tamebi models
Affiche la matrice complète de compatibilité des modèles sur toutes les précisions (INT4, INT8, FP16).
tamebi models [OPTIONS]| Flag | Court | Défaut | Description |
|---|---|---|---|
--context-length | -c | 4096 | Longueur de contexte pour l'estimation du cache KV. |
--batch-size | -b | 1 | Taille de batch pour l'estimation du cache KV. |
04.3tamebi update
Récupère le dernier catalogue de modèles depuis le serveur distant.
tamebi updatetamebi update pour forcer un rafraîchissement.Exemples
Scannez votre machine et voyez tous les modèles compatibles avec les commandes Ollama.
tamebi checkSortie lisible par machine. À piper dans jq, des scripts ou des pipelines CI.
tamebi check --jsonEstime la mémoire pour 4 requêtes simultanées avec un contexte de 8K chacune.
tamebi check --batch-size 4 --context-length 8192Passez --context-length 0 pour utiliser la fenêtre de contexte maximale de chaque modèle.
tamebi check --context-length 0Voir tous les modèles du catalogue et leur compatibilité sur les précisions INT4, INT8 et FP16.
tamebi modelsHardware supporté
tamebi détecte votre hardware automatiquement via des APIs natives. Aucune configuration nécessaire.
| Plateforme | Méthode de détection | Ce qui est rapporté |
|---|---|---|
| NVIDIA | nvidia-ml-py (NVML) | Modèle, VRAM, version CUDA, capacité de calcul |
| AMD | rocm-smi (subprocess) | Modèle, VRAM (nécessite ROCm) |
| Intel | OpenCL / WMI | Modèle, VRAM (Arc discret + intégrés) |
| Apple Silicon | system_profiler | Modèle de puce (M1/M2/M3/M4), mémoire unifiée |
| CPU uniquement | psutil + py-cpuinfo | Cœurs, threads, fréquence, architecture |
Catalogue de modèles
Le catalogue est maintenu automatiquement depuis HuggingFace Hub. Mise à jour hebdomadaire.
Les modèles sont catalogués sur plusieurs précisions (INT4, INT8, FP16). Exécutez tamebi update pour récupérer le dernier catalogue.
Calcul d'estimation
La mémoire est estimée par modèle et précision selon la formule suivante :

