diff --git a/llama_stack/providers/remote/inference/nvidia/__init__.py b/llama_stack/providers/remote/inference/nvidia/__init__.py
index 99b37a823..9c537d448 100644
--- a/llama_stack/providers/remote/inference/nvidia/__init__.py
+++ b/llama_stack/providers/remote/inference/nvidia/__init__.py
@@ -6,12 +6,12 @@
 
 from llama_stack.apis.inference import Inference
 
-from ._config import NVIDIAConfig
+from .config import NVIDIAConfig
 
 
 async def get_adapter_impl(config: NVIDIAConfig, _deps) -> Inference:
     # import dynamically so `llama stack build` does not fail due to missing dependencies
-    from ._nvidia import NVIDIAInferenceAdapter
+    from .nvidia import NVIDIAInferenceAdapter
 
     if not isinstance(config, NVIDIAConfig):
         raise RuntimeError(f"Unexpected config type: {type(config)}")
diff --git a/llama_stack/providers/remote/inference/nvidia/_config.py b/llama_stack/providers/remote/inference/nvidia/config.py
similarity index 100%
rename from llama_stack/providers/remote/inference/nvidia/_config.py
rename to llama_stack/providers/remote/inference/nvidia/config.py
diff --git a/llama_stack/providers/remote/inference/nvidia/_nvidia.py b/llama_stack/providers/remote/inference/nvidia/nvidia.py
similarity index 98%
rename from llama_stack/providers/remote/inference/nvidia/_nvidia.py
rename to llama_stack/providers/remote/inference/nvidia/nvidia.py
index 43a16643c..0ed66bfa5 100644
--- a/llama_stack/providers/remote/inference/nvidia/_nvidia.py
+++ b/llama_stack/providers/remote/inference/nvidia/nvidia.py
@@ -34,13 +34,13 @@ from llama_stack.providers.utils.inference.model_registry import (
     ModelRegistryHelper,
 )
 
-from ._config import NVIDIAConfig
-from ._openai_utils import (
+from . import NVIDIAConfig
+from .openai_utils import (
     convert_chat_completion_request,
     convert_openai_chat_completion_choice,
     convert_openai_chat_completion_stream,
 )
-from ._utils import _is_nvidia_hosted, check_health
+from .utils import _is_nvidia_hosted, check_health
 
 _MODEL_ALIASES = [
     build_model_alias_with_just_provider_model_id(
diff --git a/llama_stack/providers/remote/inference/nvidia/_openai_utils.py b/llama_stack/providers/remote/inference/nvidia/openai_utils.py
similarity index 100%
rename from llama_stack/providers/remote/inference/nvidia/_openai_utils.py
rename to llama_stack/providers/remote/inference/nvidia/openai_utils.py
diff --git a/llama_stack/providers/remote/inference/nvidia/_utils.py b/llama_stack/providers/remote/inference/nvidia/utils.py
similarity index 97%
rename from llama_stack/providers/remote/inference/nvidia/_utils.py
rename to llama_stack/providers/remote/inference/nvidia/utils.py
index c4f02f197..0ec80e9dd 100644
--- a/llama_stack/providers/remote/inference/nvidia/_utils.py
+++ b/llama_stack/providers/remote/inference/nvidia/utils.py
@@ -8,7 +8,7 @@ from typing import Tuple
 
 import httpx
 
-from ._config import NVIDIAConfig
+from . import NVIDIAConfig
 
 
 def _is_nvidia_hosted(config: NVIDIAConfig) -> bool: