mnn推理时如何降低内存占用 #3086

lxh0510 · 2024-11-16T13:15:29Z

目前使用--fp16将模型大小降低了一倍，但运行过程中内存并无变化，请问该如何修改以降低内存呢

jxt1234 · 2024-11-18T07:49:50Z

模型转换的 --fp16 与是否使用 fp16 推理没有关联，使用 fp16 的开关是：编译 mnn 打开 MNN_ARM82 ，创建 session 或者 module 时，precision 设成 low ，这样如果设备支持便会启用 fp16 优化

此外可以考虑用动态量化的方式：

加 --weightQuantBits=8 量化模型
编译 mnn 打开 MNN_LOW_MEMORY 宏
设置 memory = low

lxh0510 · 2024-11-21T15:05:13Z

谢谢您，我还想问一下，使用动态量化将模型转化为int8后，是不是也是只有模型大小减少，但推理时会反量化，运行内存并没有变化呢

jxt1234 · 2024-11-27T08:06:55Z

使用动态量化（编译 mnn 打开 MNN_LOW_MEMORY 宏 + 设置 memory = low）内存会减少。否则仍然反量化

lxh0510 · 2024-11-27T08:10:33Z

这个配置是会让程序按照int8来计算吗

lxh0510 · 2024-11-28T04:02:53Z

你好，这是只有大模型框架才可以用吗，我普通pytorch模型的框架并没有找到这个接口在 2024-11-27 16:07:18，"jxt1234" ***@***.***> 写道：使用动态量化（编译 mnn 打开 MNN_LOW_MEMORY 宏 + 设置 memory = low）内存会减少。否则仍然反量化 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: ***@***.***>

jxt1234 · 2024-11-28T12:08:46Z

这个配置是会让程序按照int8来计算吗

会的。
这个在编译 MNN 时打开宏就可以用

jxt1234 added the User The user ask question about how to use. Or don't use MNN correctly and cause bug. label Nov 18, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

mnn推理时如何降低内存占用 #3086

mnn推理时如何降低内存占用 #3086

lxh0510 commented Nov 16, 2024

jxt1234 commented Nov 18, 2024

lxh0510 commented Nov 21, 2024

jxt1234 commented Nov 27, 2024

lxh0510 commented Nov 27, 2024

lxh0510 commented Nov 28, 2024 via email

jxt1234 commented Nov 28, 2024

mnn推理时如何降低内存占用 #3086

mnn推理时如何降低内存占用 #3086

Comments

lxh0510 commented Nov 16, 2024

jxt1234 commented Nov 18, 2024

lxh0510 commented Nov 21, 2024

jxt1234 commented Nov 27, 2024

lxh0510 commented Nov 27, 2024

lxh0510 commented Nov 28, 2024 via email

jxt1234 commented Nov 28, 2024