gpu-optimization

Here are 6 public repositories matching this topic...

GVProf / GVProf

GVProf: A Value Profiler for GPU-based Clusters

machine-learning patterns profiler gpu cuda data-flow instrumentation binary-analysis clusters redundancy gpu-optimization value-profiler

Updated Mar 24, 2024
Python

The GPU Optimizer for ML Models enhances GPU performance for machine learning. It offers advanced scheduling, real-time monitoring, and efficient resource management through a user-friendly web interface and robust API, integrating big data technologies for seamless data processing and model optimization. @NVIDIA

model-management gpu-optimization real-time-monitoring secure-api big-data-integration gpu-scheduling

Updated Jun 29, 2024
Python

flickleafy / ollama_consumer

Star

🤖 Ollama Consumer - A Python-based interactive chat interface for Ollama models with advanced model management, comprehensive benchmarking, vision support, and automatic error recovery. Features dynamic model switching, GPU optimization, and intelligent service monitoring for seamless AI model interactions.

python benchmarking machine-learning automation ai chatbot configuration-management language-models error-recovery model-management cli-tool multimodal gpu-optimization service-monitoring interactive-chat vision-models llm ollama-api moe-models

Updated Aug 6, 2025
Python

OriYarden / pytorch_training_optimization_using_tensordict_memory_mapping

Star

Optimizing PyTorch Model Training by Wrapping Memory Mapped Tensors on Nvidia GPUs with TensorDict.

Updated May 27, 2025
Python

JonSnow1807 / Fused-LayerNorm-CUDA-Operator

Star

High-performance CUDA implementation of LayerNorm for PyTorch achieving 1.46x speedup through kernel fusion. Optimized for large language models (4K-8K hidden dims) with vectorized memory access, warp-level primitives, and mixed precision support. Drop-in replacement for nn.LayerNorm with 25% memory reduction.

deep-learning cuda pytorch gpu-optimization kernel-fusion layernorm

Updated Aug 17, 2025
Python

Kuenoz / pytorch_training_optimization_using_tensordict_memory_mapping

Star

Optimizing PyTorch Model Training by Wrapping Memory Mapped Tensors on an Nvidia GPU with TensorDict.

python ai gpu optimization torch pytorch tensors memory-mapping gpu-optimization pytorch-tensors pytorch-training tensordict memory-mapped-tensors pytorch-training-optimization

Updated Aug 18, 2025
Python

Improve this page

Add a description, image, and links to the gpu-optimization topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the gpu-optimization topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

gpu-optimization

Here are 6 public repositories matching this topic...

GVProf / GVProf

raj200501 / GPUOptimizerML

flickleafy / ollama_consumer

OriYarden / pytorch_training_optimization_using_tensordict_memory_mapping

JonSnow1807 / Fused-LayerNorm-CUDA-Operator

Kuenoz / pytorch_training_optimization_using_tensordict_memory_mapping

Improve this page

Add this topic to your repo