我在根据演示案例nvidia.com/gpu:2启动pod 出现了UnexpectedAdmissionError #590

wei1793786487 · 2024-11-01T16:54:19Z

Please provide an in-depth description of the question you have:
我使用helm安装了HAMi 一切按照默认环境以及显示了

但是在我调度的时候无法调度

What do you think about this question?:
是因为需要依赖nvidia device plugin吗我只安装了HAMi
Environment:

HAMi version:v2.4.0
Kubernetes version:v1.22.17
Others:

Nimbus318 · 2024-11-04T04:15:13Z

@wei1793786487
从目前的现象看：

调度都没有走到 hami-scheduler
被 default-scheduler 调度到了 worker1 上，然后这个节点 kubelet 也不知道这个 gpu 资源应该怎么办

从我的猜测出发，目前的排查思路：

worker1 是 GPU 节点吗？是的话，贴出节点的 Annotation
确认一下咱们 hami 相关组件都正常运行
- hami-scheduler 和 hami-device-plugin 是否都正常
- hami-device-plugin 是不是如预期的跑在了需要使用的 GPU 节点上
如果都正常，就得往 api-server 调用 hami 的 webhook 通不通的思路查了

wei1793786487 · 2024-11-04T10:50:41Z

@wei1793786487 从目前的现象看：

调度都没有走到 hami-scheduler

被 default-scheduler 调度到了 worker1 上，然后这个节点 kubelet 也不知道这个 gpu 资源应该怎么办

从我的猜测出发，目前的排查思路：

worker1 是 GPU 节点吗？是的话，贴出节点的 Annotation

确认一下咱们 hami 相关组件都正常运行

hami-scheduler 和 hami-device-plugin 是否都正常

hami-device-plugin 是不是如预期的跑在了需要使用的 GPU 节点上

如果都正常，就得往 api-server 调用 hami 的 webhook 通不通的思路查了

好的感谢！我按照这个思路排查一下

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

我在根据演示案例nvidia.com/gpu:2启动pod 出现了UnexpectedAdmissionError #590

我在根据演示案例nvidia.com/gpu:2启动pod 出现了UnexpectedAdmissionError #590

wei1793786487 commented Nov 1, 2024

Nimbus318 commented Nov 4, 2024

wei1793786487 commented Nov 4, 2024

我在根据演示案例nvidia.com/gpu:2启动pod 出现了UnexpectedAdmissionError #590

我在根据演示案例nvidia.com/gpu:2启动pod 出现了UnexpectedAdmissionError #590

Comments

wei1793786487 commented Nov 1, 2024

Nimbus318 commented Nov 4, 2024

wei1793786487 commented Nov 4, 2024