Language Model Training

A PyTorch implementation for training transformer language models on large text datasets like SlimPajama.

Features

Transformer Model: Transformer architecture with configurable parameters
Training Configuration: Clean configuration object for all hyperparameters
SlimPajama Dataset: Support for the SlimPajama-627B dataset with efficient data loading
Training Loop: Complete training implementation with loss tracking and evaluation
Multi-process Data Loading: Efficient data loading with separate processes
Neptune Integration: Optional experiment tracking with Neptune
Chinchilla Scaling: Automatic computation of optimal numer of training steps

Installation

Install the required dependencies:

pip install -r requirements.txt

Data Preparation

First, download and prepare the SlimPajama dataset:

# Download training data
python download_data.py --dataset slimpajama --split train

# Download validation data  
python download_data.py --dataset slimpajama --split validation

This will create data/slimpajama_train/ and data/slimpajama_validation/ directories with the processed JSONL files.

Usage

Run the language model training:

# Training without Neptune logging
python language_model_training.py --no_neptune --description "Local training"

# Use different model configuration
python language_model_training.py --model_config chinchilla-44m --description "Small model test"

# Profile mode (short run for testing)
python language_model_training.py --profile_only

What it does

Data Loading: Loads SlimPajama dataset with tokenization and batching
Model Creation: Initializes a transformer model with specified configuration
Training: Runs training loop with AdamW optimizer and learning rate scheduling
Monitoring: Tracks loss, learning rate, and performance metrics during training
Evaluation: Periodic evaluation on validation data
Experiment Tracking: Optional Neptune integration for experiment management

Customization

You can modify the hyperparameters in the run() function in language_model_training.py:

batch_size: Training batch size
sequence_length: Maximum sequence length
learning_rate: Learning rate for AdamW optimizer
warmup_steps: Number of warmup steps for learning rate schedule
model_config: Transformer architecture configuration

Name		Name	Last commit message	Last commit date
Latest commit History 165 Commits
.augment/rules		.augment/rules
.neptune/markusrabeworkspace_training-exploration_immediate-target-20250922184342636-djdes_1758566622636134912		.neptune/markusrabeworkspace_training-exploration_immediate-target-20250922184342636-djdes_1758566622636134912
experiments/extending_mlp		experiments/extending_mlp
fp8_experiments		fp8_experiments
model_configs		model_configs
scaling_analysis		scaling_analysis
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
aggregation.py		aggregation.py
aggregation_test.py		aggregation_test.py
attention.py		attention.py
attention_test.py		attention_test.py
checkpointing.py		checkpointing.py
checkpointing_test.py		checkpointing_test.py
claude.md		claude.md
cross_entropy.py		cross_entropy.py
cross_entropy_test.py		cross_entropy_test.py
data.ipynb		data.ipynb
data_test.py		data_test.py
download_data.py		download_data.py
eval_main.py		eval_main.py
fp32norm.py		fp32norm.py
infer_main.py		infer_main.py
initialization.py		initialization.py
iris_training.py		iris_training.py
language_model_basics.py		language_model_basics.py
language_model_dataloader.py		language_model_dataloader.py
language_model_dataloader_test.py		language_model_dataloader_test.py
language_model_training.py		language_model_training.py
linear_training.py		linear_training.py
linear_training_test.py		linear_training_test.py
lm_eval_wrapper.py		lm_eval_wrapper.py
lm_eval_wrapper_test.py		lm_eval_wrapper_test.py
mixed_dataloader_test.py		mixed_dataloader_test.py
multiprocess_iterable.py		multiprocess_iterable.py
multiprocess_iterable_test.py		multiprocess_iterable_test.py
neptune_lib.py		neptune_lib.py
prng.py		prng.py
prng_test.py		prng_test.py
requirements.txt		requirements.txt
run.py		run.py
run_scaling_series.py		run_scaling_series.py
setup_env.sh		setup_env.sh
slimpajama_dataloader.py		slimpajama_dataloader.py
slimpajama_dataloader_test.py		slimpajama_dataloader_test.py
spelling_bee_embeddings.py		spelling_bee_embeddings.py
spelling_bee_embeddings_test.py		spelling_bee_embeddings_test.py
stackv2_dataloader.py		stackv2_dataloader.py
stackv2_dataloader_test.py		stackv2_dataloader_test.py
strawberry_dataloader.py		strawberry_dataloader.py
strawberry_dataloader_test.py		strawberry_dataloader_test.py
training_basics.py		training_basics.py
training_loop.py		training_loop.py
transformer.py		transformer.py
transformer_test.py		transformer_test.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Language Model Training

Features

Installation

Data Preparation

Usage

What it does

Customization

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Language Model Training

Features

Installation

Data Preparation

Usage

What it does

Customization

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages