ORCRUX logo

Templates

Bibliotheque de workloads

Utilise ces templates comme base de depart. Chaque fiche indique le type de modele, le format dataset attendu, la charge GPU recommandee et une estimation de temps avant de soumettre un vrai workload.

Parcours recommande pour debuter
  1. Prepare un petit dataset et publie-le sur /datasets.
  2. Choisis d abord un template Starter.
  3. Confirme que le workload passe en completed et que les rewards sont credites.
  4. Monte ensuite sur un template Demo, puis seulement apres sur un template Advanced.
Pack public recommande

Dataset conseille pour la premiere demo publique: public-support-mini-v1.jsonl. Lance d abord smoke-logreg-quick, confirme les rewards et l artefact, puis passe a un template texte plus realiste.

Starter workloads

Les plus simples pour un premier test public: courts, comprehensibles et faciles a verifier.

Smoke Test - LogReg Quick

Template ultra-court pour onboarding: valide rapidement pipeline dataset -> workload -> rewards.

smokeonboardingcpuquick
Modele
logreg
Runtime
numpy
Dataset attendu
npz
GPU recommande
auto
Temps estime
0.15 GPU-hours
Reward cible
40 CRUX
Blocks target
6
Dataset template
Synthetic smoke (4k)

Text - Llama 3 8B LoRA Smoke (20G)

Validation courte GPU pour testnet et beta tests sur cartes 20 Go. Workflow LoRA/adapters, sharding actif, duree et reward bornees.

textllmlorashardedlargesmokegpu-20g
Modele
byo
Runtime
torch
Dataset attendu
jsonl
GPU recommande
gpu_12g
Temps estime
0.2 GPU-hours
Reward cible
0.5 CRUX
Blocks target
6
Dataset template
OpenOrca ORCRUX Lite

Demo workloads

Des exemples montrables publiquement pour illustrer texte, image, audio et pipeline rewards.

LogReg - GPU optional

Baseline PoUW deterministic batch. Sert à valider les mineurs CPU/GPU (seed = hash du bloc précédent).

cpuauditbaseline
Modele
logreg
Runtime
numpy
Dataset attendu
npz
GPU recommande
auto
Temps estime
1.5 GPU-hours
Reward cible
600 CRUX
Blocks target
64
Dataset template
Synthetic balanced (75k)

CNN Lite Vision

Fine-tuning d'un CNN compact sur dataset MNIST 32x32 (+ data aug). Budget idéal pour GPU 8 Go.

visiongpumnist
Modele
cnn-lite
Runtime
torch
Dataset attendu
parquet
GPU recommande
gpu_8g
Temps estime
4.5 GPU-hours
Reward cible
3500 CRUX
Blocks target
320
Dataset template
MNIST-lite (augmenté)

Vision Transformer Small

Fine-tuning d'un ViT-S/16 sur CIFAR-100. Demande un GPU 12 Go pour le micro-batching.

visiontransformergpu
Modele
vit-small
Runtime
torch
Dataset attendu
tar
GPU recommande
gpu_12g
Temps estime
9.2 GPU-hours
Reward cible
6200 CRUX
Blocks target
n/a
Dataset template
CIFAR-100 augmenté

Tiny QA Transformer

Modèle distillé, 55M params pour question/réponse multi-langue. Nécessite un GPU 24 Go pour la fenêtre contextuelle étendue.

nlptransformerpremium
Modele
transformer-mini
Runtime
torch
Dataset attendu
jsonl
GPU recommande
gpu_24g
Temps estime
18 GPU-hours
Reward cible
25000 CRUX
Blocks target
600
Dataset template
QA Global 40k

Text - DistilBERT QA

QA extractive leger pour texte. Rapide a entrainer.

textqanlpsmall
Modele
distilbert
Runtime
torch
Dataset attendu
jsonl
GPU recommande
auto
Temps estime
1.8 GPU-hours
Reward cible
1800 CRUX
Blocks target
210
Dataset template
SQuAD v1

Text - BERT Base QA

Fine-tuning QA extractive sur un modele texte classique.

textqanlpmedium
Modele
bert-base
Runtime
torch
Dataset attendu
jsonl
GPU recommande
gpu_8g
Temps estime
2.5 GPU-hours
Reward cible
2400 CRUX
Blocks target
240
Dataset template
SQuAD v1

Text - RoBERTa Large QA

QA extractive haute qualite, plus lourd.

textqanlplarge
Modele
roberta-large
Runtime
torch
Dataset attendu
jsonl
GPU recommande
gpu_24g
Temps estime
8.5 GPU-hours
Reward cible
5200 CRUX
Blocks target
320
Dataset template
SQuAD v1

Image - ResNet-50

Classification image classique, rapide a entrainer.

imagevisionsmall
Modele
resnet-50
Runtime
torch
Dataset attendu
parquet
GPU recommande
auto
Temps estime
2 GPU-hours
Reward cible
2400 CRUX
Blocks target
300
Dataset template
CIFAR-10

Image - CLIP ViT-B/32

Adaptation image/texte via CLIP pour recherche visuelle.

imagevisionclipmedium
Modele
clip-vit-b32
Runtime
torch
Dataset attendu
tar
GPU recommande
gpu_12g
Temps estime
6 GPU-hours
Reward cible
5200 CRUX
Blocks target
400
Dataset template
COCO captions

Image - ViT Large

Vision Transformer large pour classification image.

imagevisionlarge
Modele
vit-large
Runtime
torch
Dataset attendu
tar
GPU recommande
gpu_24g
Temps estime
12 GPU-hours
Reward cible
8800 CRUX
Blocks target
420
Dataset template
ImageNet-1k

Audio - Whisper Tiny

ASR ultra leger pour tests rapides.

audioasrsmall
Modele
whisper-tiny
Runtime
torch
Dataset attendu
wav
GPU recommande
auto
Temps estime
2.2 GPU-hours
Reward cible
2600 CRUX
Blocks target
240
Dataset template
LibriSpeech ASR

Audio - Whisper Base

ASR audio multi-langue, equilibre cout/qualite.

audioasrmedium
Modele
whisper-base
Runtime
torch
Dataset attendu
wav
GPU recommande
gpu_8g
Temps estime
4.5 GPU-hours
Reward cible
4200 CRUX
Blocks target
300
Dataset template
LibriSpeech ASR

Audio - Whisper Small

ASR audio multi-langue. Bon compromis qualite/cout.

audioasrlarge
Modele
whisper-small
Runtime
torch
Dataset attendu
wav
GPU recommande
gpu_12g
Temps estime
7 GPU-hours
Reward cible
6200 CRUX
Blocks target
360
Dataset template
LibriSpeech ASR

Video - VideoMAE Small

Classification video courte, modele compact.

videotransformersmall
Modele
videomae-small
Runtime
torch
Dataset attendu
mp4
GPU recommande
gpu_12g
Temps estime
7 GPU-hours
Reward cible
6200 CRUX
Blocks target
360
Dataset template
Kinetics-400

Video - TimeSformer Base

Classification video courte (sports, actions).

videotransformermedium
Modele
timesformer-base
Runtime
torch
Dataset attendu
mp4
GPU recommande
gpu_24g
Temps estime
10.5 GPU-hours
Reward cible
7800 CRUX
Blocks target
480
Dataset template
Kinetics-400

Video - TimeSformer Large

Video transformer large pour classification exigeante.

videotransformerlarge
Modele
timesformer-large
Runtime
torch
Dataset attendu
mp4
GPU recommande
gpu_24g
Temps estime
14.5 GPU-hours
Reward cible
12000 CRUX
Blocks target
520
Dataset template
Kinetics-400

Code - CodeT5 Small

Generation/resume de code rapide pour prototypes.

codenlpsmall
Modele
codet5-small
Runtime
torch
Dataset attendu
jsonl
GPU recommande
gpu_8g
Temps estime
4 GPU-hours
Reward cible
3800 CRUX
Blocks target
300
Dataset template
CodeSearchNet

Code - CodeT5 Base

Generation/resume de code pour Python/JS.

codenlpmedium
Modele
codet5-base
Runtime
torch
Dataset attendu
jsonl
GPU recommande
gpu_12g
Temps estime
6.5 GPU-hours
Reward cible
5200 CRUX
Blocks target
360
Dataset template
CodeSearchNet

Code - CodeT5 Large

Generation de code plus lourde, qualite superieure.

codenlplarge
Modele
codet5-large
Runtime
torch
Dataset attendu
jsonl
GPU recommande
gpu_24g
Temps estime
12 GPU-hours
Reward cible
12000 CRUX
Blocks target
420
Dataset template
CodeSearchNet

Code - CodeLlama 7B

Generation de code avec un modele 7B.

codegenerationlarge
Modele
codellama-7b
Runtime
torch
Dataset attendu
jsonl
GPU recommande
gpu_24g
Temps estime
14 GPU-hours
Reward cible
16000 CRUX
Blocks target
480
Dataset template
CodeSearchNet

Image - FLUX.1 Schnell

Generation d images rapide (support LoRA).

imagegenerationlarge
Modele
flux1-schnell
Runtime
torch
Dataset attendu
tar
GPU recommande
gpu_24g
Temps estime
12 GPU-hours
Reward cible
14000 CRUX
Blocks target
420
Dataset template
LAION-2B (subset)

Image - SDXL 1.0

Generation d images haute qualite (support LoRA).

imagegenerationlarge
Modele
sdxl-1.0
Runtime
torch
Dataset attendu
tar
GPU recommande
gpu_24g
Temps estime
16 GPU-hours
Reward cible
20000 CRUX
Blocks target
520
Dataset template
LAION-5B (subset)

Audio - AudioLDM2

Generation audio a partir de texte (text-to-audio).

audiogenerationlarge
Modele
audioldm2
Runtime
torch
Dataset attendu
wav
GPU recommande
gpu_24g
Temps estime
10 GPU-hours
Reward cible
12000 CRUX
Blocks target
360
Dataset template
Common Voice

Video - Stable Video Diffusion

Generation video a partir d image ou prompt.

videogenerationlarge
Modele
stable-video-diffusion
Runtime
torch
Dataset attendu
mp4
GPU recommande
gpu_24g
Temps estime
12 GPU-hours
Reward cible
15000 CRUX
Blocks target
420
Dataset template
Kinetics-400

Advanced workloads

Templates pour tests VRAM plus lourds, sharding, LoRA et campagnes de validation avancees.

Text - Llama 3 8B Instruct

Generation texte/assistant, gros modele 8B.

textgenerationlarge
Modele
llama3-8b-instruct
Runtime
torch
Dataset attendu
jsonl
GPU recommande
gpu_24g
Temps estime
16 GPU-hours
Reward cible
18000 CRUX
Blocks target
480
Dataset template
OpenWebText

Text - Llama 3 8B (Shard v2)

Gros modele 8B avec sharding + micro-batching + checkpoints (spec v2).

textgenerationlargev2sharded
Modele
llama3-8b-instruct
Runtime
torch
Dataset attendu
jsonl
GPU recommande
gpu_24g
Temps estime
18 GPU-hours
Reward cible
22000 CRUX
Blocks target
480
Dataset template
OpenWebText

Code - CodeLlama 7B (Shard v2)

Modele 7B avec sharding + micro-batching + checkpoints (spec v2).

codegenerationlargev2sharded
Modele
codellama-7b
Runtime
torch
Dataset attendu
jsonl
GPU recommande
gpu_24g
Temps estime
16 GPU-hours
Reward cible
19000 CRUX
Blocks target
420
Dataset template
CodeSearchNet

Text - Llama 3 8B LoRA (sharded-ready)

Fine-tuning LoRA d'un Llama 3 8B. Concu pour tourner sur un GPU 20 Go unique ou en mode sharde/adapters sur plusieurs GPU plus modestes.

textllmlorashardedlarge
Modele
byo
Runtime
torch
Dataset attendu
jsonl
GPU recommande
gpu_12g
Temps estime
14 GPU-hours
Reward cible
18000 CRUX
Blocks target
480
Dataset template
OpenOrca ORCRUX Lite