feat: add dedicated inference data parallel support by vivekkalyan · Pull Request #581 · OpenPipe/ART

vivekkalyan · 2026-02-25T19:34:09Z

Summary

Enable dedicated Unsloth inference data parallelism across multiple inference GPUs.

This PR keeps the dedicated architecture as a single API frontend process with runtime LoRA reloading, and adds DP sizing/guardrails for multi-GPU inference.

What changed

Allow multi-GPU inference_gpu_ids in dedicated config validation.
Add dedicated validation for:
- engine_args.data_parallel_size == len(inference_gpu_ids) (if provided)
- engine_args.data_parallel_size_local == len(inference_gpu_ids) (if provided)
In dedicated vLLM subprocess startup:
- default data_parallel_size and data_parallel_size_local to inference GPU count when >1
- default distributed_executor_backend to "mp" when >1
- reject api_server_count != 1
Add/expand unit tests for dedicated config validation contracts.

Testing

ART-E with 2 inference GPUs

feat: Add dedicated inference data parallel support

0f31116

vivekkalyan requested a review from bradhilton February 25, 2026 19:42

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat: add dedicated inference data parallel support#581

feat: add dedicated inference data parallel support#581
vivekkalyan wants to merge 1 commit intomainfrom
feat/dedicated-unsloth-inference-dp

vivekkalyan commented Feb 25, 2026 •

edited

Loading

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

vivekkalyan commented Feb 25, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Summary

What changed

Testing

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

vivekkalyan commented Feb 25, 2026 •

edited

Loading