Skip to content

PaddlePaddle Duty Log

Tao Luo edited this page Dec 9, 2019 · 1 revision

2017-09-16

Caretaker : @sunxinghai

2017-09-05

值班人:曹莹

用户群问题 : 8 个,已解答 8 个

github isssue :7 个,3 个已关闭,3 个已解答,1 个需要进一步排查

关闭 历史 issue: 3 个

  • 用户群问题
  1. C-API 有文档吗?
    • 已解答:@曹莹
  2. 集群训练出错询问原因。
    • 已解答:@曹莹
  3. 单 slot 和多 slot 区别,什么时候用单slot,什么时候用多 slot
    • 已解答:@曹莹
  4. 把Paddle保存的原始文件解压之后再压缩,模型无法加载。
    • 已解答:@郭晟 @武毅
  5. 集群训练时,test文件夹下的文件在多结点之间怎样分配。
    • 已解答:@武毅
  6. 集群预测时报错咨询。
    • 缺少足够信息,无法确定原因。@曹莹
  7. 多个输入如何指定不同的 initial_std
    • 已解答:@曹莹
  8. nmt模型训练十几个pass后,cost不降反增,进而变为nan。
    • 已解答: @曹莹
  • github issue
  1. [closed] https://github.com/PaddlePaddle/Paddle/issues/3854
    • 问题 : Table Projection: Check failed: in_->ids
    • 状态:已解答 @曹莹
  2. https://github.com/PaddlePaddle/Paddle/issues/3867
    • 问题:希望了解 embedding layer 在 PaddlePaddle 中的具体实现
    • 状态:已解答解决 @曹莹
  3. https://github.com/PaddlePaddle/models/issues/229
    • 问题:每个 Pass 的 Test 中,各个 node 的 cost 不一致。
    • 状态:有待进一步排查;谢谢 @武毅 ~
  4. https://github.com/PaddlePaddle/Paddle/issues/3884
    • 问题:V2 在提交任务的时候怎么关闭掉大部分的 info log日志
    • 状态:已解答,用户无反馈 @曹莹
  5. https://github.com/PaddlePaddle/Paddle/issues/3880
    • 问题:centos 7 上面源码安装paddle
    • 状态:已解答 ; 谢谢 @武毅
  6. [closed] https://github.com/PaddlePaddle/Paddle/issues/3879
    • 问题:使用厂内二进制安装不成功;
    • 状态:未解答但用户自行关闭问题
  7. [closed] https://github.com/PaddlePaddle/Paddle/issues/3847
    • 问题:集群训练失败
    • 状态:已解决,由于用户的数据处理脚本有bug 谢谢 @武毅
  • 关闭历史 issue
  1. https://github.com/PaddlePaddle/Paddle/issues/2415
  2. https://github.com/PaddlePaddle/Paddle/issues/2246 fixed by https://github.com/PaddlePaddle/Paddle/pull/3845
  3. https://github.com/PaddlePaddle/Paddle/issues/3802 fixed by https://github.com/PaddlePaddle/Paddle/pull/3844

2018-08-27

值班人:@yanxu @caoying @chenxi

2018-08-19

值班人:@yanxu @caoying

2017-08-18

值班人:@liuyiqun @liuyibing

总结:

关闭历史issue 6 个;

用户群问题6个,已全部解答;

github issue 5个,3个已解决,1个跟进中,1个待跟进。

历史 issue:

用户群问题:

  • 问题1:单机多cpu训练的时候,增加trainer_count数目提升计算速度不明显,

    • 跟进情况:已解答。可能是单个CPU计算能力利用不充分,建议用户固定很大的batch_size进行测试。@yiqun
  • 问题2:paddle 模型在wutai02机器上wget不下来

    • 跟进情况:其他用户解答,用noah申请hpc的节点门神,登录机器查看
  • 问题3:mpi的计算资源一般都是什么时候申请,向什么地方申请?

    • 跟进情况:已解答。联系部门OP进行申请,MPI集群的使用参考wiki。@wuyi @yaming @yibing
  • 问题4:mpi集群使用是否需要本地安装 hpc_client

    • 问题描述:已解答。v2 api 不需要 hpc_client。@wuyi @yibing
  • 问题5:使用capi加载模型,出core,报错找不到目录下的文件

    • 问题描述:已解答。用户load目录的方式错误。 @yiqun
  • 问题6: 使用一键安装工具安装时的编译报错

    • 已解答。python环境问题。@yiqun

github issue:

  • issue 3567

    • python训练配置脚本本地运行通过,MPI集群报错SIGFPE
    • 已解答。已解决。推荐历史相似issue中的解决方案。@yiqun
  • issue #3565

    • 问题描述: v2怎么在训练时固定某些节点的参数使之不被更新
    • 跟进情况:已解决。为不同的参数设置不同的学习率。 @yiqun
  • issue #3573

    • 问题描述:paddle v2 dssm demo 训练报错
    • 跟进情况:待跟进
  • issue #3575

    • 问题描述:paddle android capi 偶尔出现异常 Check failed: !IsGoogleLoggingInitialized()
    • 跟进情况:跟进中,检查是否存在多次init。 @yiqun
  • issue #3572

    • 问题描述:使用paddle-capi.so库时报错
    • 跟进情况:用户自行解决,issue closed。

2017-08-02

值班人:@qijun @xinghai

用户群问题:

  • 问题1. 集群训练 thirdparty 参数传递了不存在的文件导致出错。
    • 跟进情况:已解决。@yanxu
  • 问题2. 二分类问题不恰当使用损失函数(MultiBinaryLabelCrossEntropy)导致出错。
    • 跟进情况:已解决。换用classification_cost。@yaming @caoying
  • 问题3. 集群训练如何上传使用自定义数据,以及如何查看run_sentiment.sh示例数据。
    • 跟进情况:已解决。@qijun
  • 问题4. 集群训练dataprovider能否访问全部数据已统计全局字典。
    • 跟进情况:已解决。不可以,只能预处理。@xinghai
  • 问题5. 预测lib库的链接问题。
    • 跟进情况:已解决, 需链接glog和mkl等相关库。@yuyang
  • 问题6. 在infer时指定output的hdfs路径,并将预测结果写到./output/,但任务结束后,结果未成功保存到hdfs上。
    • 跟进情况:跟进中,等待用户反馈。@yanxu
  • 问题7. 集群训练失败,但另一组实验(仅有端口、output路径、参数)不同,可以成功运行。
    • 跟进情况:跟进中,等待用户反馈。@qijun
  • 问题9. 集群任务提交失败,可能为端口占用和配置文件有误。
    • 跟进情况:跟进解答中,等待用户进一步反馈。@yanxu
  • 问题10. 模型训练收敛不正常。
    • 跟进情况:已解答,可能由于数据未shuffle,等待用户确认。@qijun
  • 问题11. interger_value(2) 参数解释。
    • 跟进情况:已解答。@caoying @xinghai
  • 问题12. MPI任务receiver连接失败。
    • 跟进情况:已解答。已重启 receiver。 @wuyi
  • 问题13. classification_cost 和 softmax 激活的使用疑问。
    • 跟进情况:已解答。@caoying
  • 问题14:test时batch size使用疑问。
    • 跟进情况:已解答。@xingahi

Github issue:

2017-07-28

值班人:@yanxu @caoying

总结:

用户群问题: 15个,解决15个; github issue: 5个,均已经回答用户。1个关闭,一个解决后用户无反馈。2个需要用户进一步自行排查或提供跟多信息。1个等待用户反馈。 历史issue: 关闭10个不活跃或已解决的issue;

用户群问题:

  • 问题1. 文本生成自定义数据时提示需要worddict和labeldict 。如果希望程序自动完成worddict和labeldict的生成 应该怎么做?
    • 跟进情况:已解决。@yongfeng @yanxu
  • 问题2. 在模型里配置auc后 怎么看模型整体的auc。
    • 跟进情况:已解决。V2 目前只输出当前batch 上的AUC,可以自行评估。@caoying
  • 问题3. docker加载了image 0.10.0rc2,在执行train.sh的时候,提示import error,no module named paddle.trainer.config_parser
    • 跟进情况:已解决。0.10.0rc2 有bug,建议更新至最新镜像。@yanxu
  • 问题4. 请问paddle训练的时候,可以输入初始模型的地址么?就是在之前一个pass的基础上进行训练?
    • 跟进情况:已解决。设置 init_model_path 参数@caoying
  • 问题5. 求v1版安装wiki
    • 跟进情况:已解决。@caoying
  • 问题6. slot类型是Index,Embedding之后可以pooling吗?
    • 跟进情况:已解答。@caoying -问题7. 我想使用Jupter Notebook ,在个人的云主机上起的docker,不能用主机公网ip+port的方式用paddle book吗?
    • 跟进情况:已解决,需要配置安全策略。 @yanxu
  • 问题8. lstm训练出来的embedding后面拼接上几十个维度,这些维度都是通过一些规则来确定的。这种是否支持?
    • 跟进情况:已解答。@caoying -问题9. 用ner的demo跑的序列标注模型,Test上precision,recall,F1显示0,是不是不正常?
    • 跟进情况:需要用户提供更多信息。@caoying -问题10. 在LSTM的demo中,这个average_winodw是什么意思?
    • 跟进情况:已解答。@caoying
  • 问题11. V2 如何在infer 时输出某个中间隐层。
    • 跟进情况:已解答。@caoying -问题12. 提交MPI训练任务失败了,这个receiver为什么连接不了?
    • 跟进情况:已解答。已经修复 reciver 问题 @wuyi @yanxu -问题13. 训练的时候没有把layer contact起来,有没有办法使用api把模型文件contanct起来保存为一个啊?
    • 跟进情况:已解答。@caoying
  • 问题14:train的输入文件想用通配符
    • 跟进情况:已解答。@wuyi @yanxu @wanghaoshuang
  • 问题15:怎样设置L1正则
    • 跟进情况:已解答。@caoying

Github issue:

  • issue 1. paddle训练在不同的pass结束之后随机报错,请问这个有可能是为什么呢?
    • 跟进情况:并非随机报错,和数值优化异常有关。已经解答用户问题,需要用户自己也进行进一步排查。@caoying @yanxu
  • issue 2. 如何将多个embedding文件拼接起来。
    • 跟进情况:已解决。@caoying
  • issue 3. paddle v1 训练时save model出现的问题。
    • 跟进情况:非保存模型问题,可能和sparse updata 已经模型配置都有一定关系,需要用户自己也进行进一步排查。@yanxu
  • issue 4. 序列标注模型,Test上precision,recall,F1显示0。
    • 跟进情况:已解答用户问题,需要用户自己也进行进一步排查,或提供更多信息。@caoying
  • issue 5. 如果要修改bi-lstm中forget gate的初始bias,应该如何修改
    • 跟进情况:已解答。@caoying

-历史issue

2017-07-27

Caretaker:@liuyiqun @liuyibing

总结:

历史issue: 关闭10个不活跃或已解决的issue;

用户群问题: 16个,解决15个,1个正在跟进中;

github issue: 3个,解决并关闭两个,1个正在跟进中。

历史issue

https://github.com/PaddlePaddle/Paddle/issues/775 https://github.com/PaddlePaddle/Paddle/issues/1096 https://github.com/PaddlePaddle/Paddle/issues/1368 https://github.com/PaddlePaddle/Paddle/issues/1552 https://github.com/PaddlePaddle/Paddle/issues/1525 https://github.com/PaddlePaddle/Paddle/issues/1352 https://github.com/PaddlePaddle/Paddle/issues/1728 https://github.com/PaddlePaddle/Paddle/issues/1191 https://github.com/PaddlePaddle/Paddle/issues/1856 https://github.com/PaddlePaddle/Paddle/issues/1270

用户群问题

  • 问题1:

    • 问题描述:用户在一台机器上编译paddle,迁移到另一机器后运行时出现cuda运行错误
    • 跟进情况:已解答。提示用户在新机器上重新编译paddle,以解决依赖问题。@yibing
  • 问题2:

    • 问题描述:本地训练正常的网络,用户在MPI机器上训练权重全为零
    • 跟进情况:@wuyi @yanxu 正在跟进。
  • 问题3:

    • 问题描述:提交MPI任务不成功
    • 跟进情况:已解答。qsub提交有超时导致receiver没反应,重启机器后重新提交任务解决。@wuyi
  • 问题4:

    • 问题描述:在Paddle/paddle/capi下cmake出错
    • 跟进情况:已解答。提示用户如需使用capi, 要在编译paddle时加上WITH_C_API=ON属性,帮助提供解答。@liaogang @yuyang
  • 问题5:

    • 问题描述:新版本的paddle怎么设置mpi集群和队列
    • 跟进情况:已解答。按wiki安装receiver的客户端。@yanxu
  • 问题6:

    • 问题描述:用户编译paddle报错 No CMAKE_Go_COMPILER could be found
    • 跟进情况:已解答。提示用户没有安装Go环境。@yibing
  • 问题7:

    • 问题描述:用wiki的一键安装脚本出现 _sqlite3.so 相关的报错
    • 跟进情况:已解答。仍可按用户所贴截图的方式予以修复。@jiayi @yaming
  • 问题8:

    • 问题描述:用户使用类似book教程中的推荐模型,改变部分网络结构和cost,训练不收敛
    • 跟进情况:已解答。提示用户先尝试训练教程中的模型,验证收敛性,再训练自己的模型对比实验。@yibing
  • 问题9:

    • 问题描述:用户咨询如何输出auc
    • 跟进情况:已解答。在evaluator中存在auc,给出相关代码链接供用户参考,并发现英文文档中缺少evaluator相关部分,待@yongfeng修复。@caoying @yibing
  • 问题10:

    • 问题描述:用户咨询在v2 api中,reader的shuffle_size填-1是不是默认最大
    • 跟进情况:已解答。答案为否,提供代码链接供用户参考。@yibing
  • 问题11:

    • 问题描述:用户咨询在cluster test的时候参数如何设置。
    • 跟进情况:已解答。已在wiki中更新相关内容。@wuyi
  • 问题12:

    • 问题描述:用户咨询在使能capi编译paddle时报错找不到libpaddle_capi_shared.so
    • 跟进情况:已解答。在CMakeLists.txt中用link_directories指定相关库的路径。@daoyuan
  • 问题13:

    • 问题描述:用户用MPI训练模型100个pass后失败
    • 跟进情况:已解答。因用户使用节点数较多,怀疑部分节点出错导致任务失败,提示用户减少节点数并手动恢复模型训练。@yaming @yibing
  • 问题14:

  • 问题描述:用户咨询若一个节点里开了多个线程,是每个线程都是设置的batch_size的数据量,还是多个线程平分batch_size的数据。

  • 跟进情况:已解答。多个线程平分batch_size的数据。@caoying

  • 问题15:

  • 问题描述:用户咨询使用两个mpi节点训练一个模型时,每个节点都会在output目录下存了一份params.tar.gz,如果使用这个模型。

  • 跟进情况:已解答。参考wiki中的demo。@wuyi

  • 问题16:

  • 问题描述:用户咨询v2版本在paddle.reader.shuffle()中,想让全部数据都放内存中,buf_size该怎么设置

  • 跟进情况:已解答。可以将buf_size设置的足够大。@yaming

github issue:

  • issue 3081

    • 问题描述:同用户群问题4.
    • 跟进情况:已在hi群解答,关闭issue。@yibing
  • issue 3078

    • 问题描述:如何查看当前的paddle版本。
    • 跟进情况:运行命令paddle version。@yaming
  • issue 3080

    • 问题描述:生成binary conf的时候,dotmul_projection报assert param_attr is None错误
    • 跟进情况:正在跟进。@yanxu

2017-07-12

Caretaker : @wuyi @wanghaoshuang

  • issue 2807

    • 问题描述:使用pre-train的embedding词表初始化网络参数,加载参数异常。
    • 跟进情况:@caoying继续跟进。
  • issue 2812

    • 问题描述:PaddlePaddle存储的二进制模型参数文件的格式是什么样,如何转为明文?
    • 跟进情况:@caoying 已跟进解决。另用户有需求使用v1的在pserver端存取大的稀疏模型,并应用于线上预测,需要port此功能到v2
  • issue 2829

    • 问题描述:centos7.3 gpu 训练报错Not supported
    • 跟进情况:已assign @dangqingqing,可能是v2的GPU sparse支持的问题
  • 用户群问题1:

    • 问题描述:内网安装Paddle错误找不到numpy头文件
    • 跟进情况:与用户环境相关,多人提供了多个方案
  • 用户群问题2:

    • 问题描述:训练每个pass之间 参数会重新初始化吗?
    • 跟进情况:@wuyi, @qiaolongfei已回答
  • 用户群问题3:

    • 问题描述:想问问随着训练轮数的增加,内存增长,如何估计使用的内存总量
    • 跟进情况:@wuyi, @wanghaoshuang建议提交issue排查是否是某些layer的问题
  • 用户群问题4:

    • 问题描述:0.9版的paddle代码在1.0版的集群上显示paddle command not found?
    • 跟进情况:@wuyi跟进中,仍然不太明确用户的具体问题

2017-07-11

Caretaker : @qijun @sunxinghai

  • issue 2807

    • 问题描述:使用pre-train的embedding词表初始化网络参数,加载参数异常。
    • 跟进情况:让用户提供更准确描述;问题assign给 @luotao和@caoying跟进。(@yaming)
  • issue 2797

    • 问题描述:网络拓扑解析时的递归调用导致某些深层网络parsing速度慢。
    • 跟进情况:已修复。(@yuyang )
  • 用户群问题1:

    • 问题描述: Paddle编译需依赖Github网络连接,但doc描述不清。
    • 跟进情况:已解答。待更新doc。(@qijun @caoying)
  • 用户群问题2:

    • 问题描述: doc.paddlepaddle.org 服务异常。
    • 跟进情况:已修复(@yongfeng)
  • 用户群问题3:

    • 问题描述: Paddle编译对go依赖问题。
    • 跟进情况:已解答。(@liaogang, @qijun)
  • 用户群问题4:

    • 问题描述: paddle如何逐时间步加权平均交叉熵loss和crf loss。
    • 跟进情况:等待用户提issue。
  • 用户群问题5:

    • 问题描述: import paddle时报错sqlite3_enable_share_cached未定义。
    • 跟进情况:已提供解决方案。(@yanxu @qijun)
  • 用户群问题6:

    • 问题描述: 询问c++ api说明文档。
    • 跟进情况:已提供。(@qijun)
  • 用户群问题7:

    • 问题描述: cloud 提交任务出错(出错信息None)
    • 跟进情况:等待用户进一步提供详细提交参数信息。(@yanxu)

2017-07-06

Caretaker: @yanxu @caoying

总结:1 个github issue,6个用户群问题

Github issue:

  • 问题1:
    • 问题描述:Paddle 是否使用 Inverted Dropout?测试时如何设置Droprate。
    • 跟进情况:已解答,Paddle使用Dropout常规方式,不是Inverted Dropout,测试时无需修改droprate。@caoying。

用户群

  • 问题1:

    • 问题描述:使用paddle bin进行预测,希望控制输出格式,将每个序列预测结果输出到一行,而不是每个时间步输出一行。
    • 跟进情况:已解答。使用paddle bin进行预测试无法自由控制输出格式,建议使用v2 预测接口进行预测。@caoying
  • 问题2:

    • 问题描述:均方误差mse_cost是否支持序列数据
    • 跟进情况:已解答。均方误差不在乎输入是否是序列,如果输入是序列,只要label是序列级别的即可。@caoying
  • 问题3:

    • 问题描述:v2是否支持分布式训练
    • 跟进情况:已解答。支持,给出wiki连接。@wuyi
  • 问题4:

    • 问题描述:仿照例子中语义角色标注中双向LSTM做训练,针对多个输入使用paddle.layer.mixed报错。
    • 跟进情况:已解答。paddle.layer.mixed的多个输入是序列时要求序列长度一致,否则需要填充。@caoying
  • 问题5:

    • 问题描述:单机可以调用的paddle.dataset中自带的reader函数接口,集群上却报错。
    • 跟进情况:已解答。GPU版本的paddle bin相对较老,相关接口暂时缺失,建议把需要的代码段写在reader里,不去调用paddle包中的接口。@yanxu
  • 问题6:

    • 问题描述:新版的CAPI接口,混合输入数据类型是怎样组织。
    • 跟进情况:已解答,给出文档和代码段。@yuyang

2017-07-05

Caretaker: @liuyiqun @liuyibing

总结:0 个github issue,3个用户群问题

Github issue:

0 问题

用户群

  • 问题1:

    • 问题描述:集群训练提交任务出错;
    • 跟进情况:目录权限问题,@wuyi已解决。
  • 问题2:

    • 问题描述:用自定义cost来训练序列模型,如何写训练代码;
    • 跟进情况:因问题描述较复杂,已建议用户提issue,待跟进。
  • 问题3:

    • 问题描述:咨询某段代码参数的更新是发生在update()还是在finishBatch();
    • 跟进情况:@qingqing 已解答,不同模式下不相同,有的是在update()中,有些是在finishBatch()中。

2017-06-30

Caretaker : @qijun @sunxinghai

  • issue 2677

    • 问题描述:swig_paddle多线程(trainer_count>1) 序列预测时,出现输出序列和输入序列不等长; trainer_count=1时正常。
    • 跟进情况:等待用户使用最新版Paddle(可能含相关bug修复)复现问题,跟进中。(@qijun)
  • issue 2684

    • 问题描述: layer.scaling 效果不符合预期。
    • 跟进情况: 已解决。用户配置错误。(@qijun)
  • 用户群问题1:

    • 问题描述: Batch norm 的作用和使用方法。
    • 跟进情况:已解答。(@caoying @xinghai)
  • 用户群问题2:

    • 问题描述: 集群和单机训练结果不一致。
    • 跟进情况:已解决。集群配置和单机配置的 minibatch size不一致,导致收敛速度不一致。(@xinghai @zhihong)
  • 用户群问题3:

    • 问题描述: Paddle receiver 是否仅能固定配置一台?
    • 跟进情况:已解答。是的,目前仅部署了一台。(@yanxu)

2017-06-25

Creator @Yancey1989(yanxu) @lcy-seso(caoying)

GitHub issue : 0 问题

用户群 : 1问题

  • 问题1:paddle 集群任务提交无法提交
  • 解答:用户配置写法有错误。@yanxu 已解答。
  • 状态:已解决。

2017-06-24

Caretaker: @liuyiqun @liuyibing

今日无用户问题

2017-06-23

Creator @dangqingqing @qiaolongfei

总结: 总共7个问题: 2个咨询,5个训练问题 解答状态:3个需要继续跟进

  • issue: https://github.com/PaddlePaddle/Paddle/issues/2574
    描述:集群训练,classification_cost中使用precision_recall_evalutor,不识别参数top_k
    状态:已经Fix,集群receiver版本还没更新,建议用户使用其他方式,已解决 @dangqingqing @caoying

  • issue: https://github.com/PaddlePaddle/Paddle/issues/2585
    描述:集群训练,问题1:错误文件见导致失败, 问题2:浮点异常
    状态:问题1解决,问题2提了意见,实验中,后续继续跟进 @qiaolongfei @dangqingqing

  • issue: https://github.com/PaddlePaddle/Paddle/issues/2581
    描述:集群训练, 第一个pass过后cost为0
    状态:Hi讨论组跟进中, @qiaolongfei @dangqingqing

  • issue: https://github.com/PaddlePaddle/Paddle/issues/2578
    描述: 如何给参数设置一些全局的优化参数,例如momentum, decay_rate, device_id, std,mean等
    状态: assign给了 @cxwangyi @qiaolongfei @yuyang , 需要继续跟进,fix一些bug

  • 用户群问题1:paddle book的公式渲染问题
    解答:@daiwenkai @liuyongfeng 提供建议
    状态:解答完毕

  • 用户群问题2:旧版paddle切换到新版,加载模型继续训练出现nan
    解答:@dangqingqing @caoying 提醒用户对比,发现warp_ctc中blank设置新旧版不同,改过之后,暂时正常。
    状态:暂没问题

  • 用户群问题3: paddle.v2中是否需要v1的outputs()?
    解答:@qiaolongfei 提供v2写法
    状态:解答完毕

其他问题建议转移到GitHub Issue,如上述问题。

2017-06-14

Creator @Yancey1989(yanxu) @lcy-seso(caoying)

  • issue 2458

    • 问题描述:用户反馈文档更新不及时的问题
    • 跟进情况:目前有Project跟踪文档issue,以及提供github最新文档的网站链接。(@luotao, @yanxu)
  • issue 2461

    • 问题描述:预测值与预期不符
    • 跟进情况:问题跟进中(@caoying)
  • issue 2462

    • 问题描述:希望提供0.10.0的deb包
    • 跟进情况:提供Docker编译的deb包的文档(@yanxu)
  • issue 2465

    • 问题描述:MPI训练中有Test Cost在不同节点不一致的情况
    • 跟进情况:问题定位中(@wuyi, @longfei @yanxu)
  • 用户群

    • 问题描述:PaddlePaddle编译错误,缺少的依赖库需要外网下载
    • 跟进情况:建议将github.com改成内网某台机器wget。 (@wangbin)
  • 用户群

    • 问题描述:MPI任务失败,报错Check failed: blockSize % this->width_ == 0
    • 跟进情况:建议改为独占模式,等待进一步反馈中(@yanxu)
  • 用户群

    • 问题描述:MPI任务失败,报错Check failed: (size_t)lbl[i] < dim (3 vs. 2)
    • 跟进情况:给出报错原因可能为类别数对应不上,等待进一步反馈(@yangyaming @caoying)
  • 用户群

    • 问题描述:知识图谱团队希望PaddlePaddle将源码或依赖库托管到内部Git,以便走上线流程
    • 跟进情况:需要进一步和@yongfeng @yuyang 沟通确认(@yanxu)

2017-06-13

Caretaker: @liuyiqun @liuyibing

  • issue 2451

    • 问题描述:RNN配置英文文档为空
    • 跟进情况:@luotao 建议先查看中文文档
  • issue 2452

    • 问题描述:如何评估模型的auc以及线上预测相关问题
    • 跟进情况:@dangqingqing 解决
  • docker镜像下载地址

    • 跟进情况:docker pull docker.paddlepaddle.org/paddle:0.10.0docker pull paddlepaddle/paddle:0.10.0 @liuyongfeng 和@liuyiqun 解决
  • 语言模型相关的例子

  • 文本分类例子报错

    • 问题描述:[... layers.py:866] Duplicated layer name: word
    • 跟进情况:@caoying 提供解决方案,见PR
  • Paddle二进制是否可以兼容不同cuda驱动版本

    • 问题描述:... hl_cuda_device.cc:453] Check failed: cudaSuccess == cudaStat (0 vs. 35) Cuda Error: CUDA driver version is insufficient for CUDA runtime version
    • 跟进情况:待解决
  • 提交任务没权限

    • 跟进情况:@wuyi 私聊解决
  • issue 2456

    • 问题描述:mnist v1出现错误,... MemoryHandle.cpp:140] Check failed: size != 0 allocate 0 bytes
    • 跟进情况:@caoying 和@qiaolongfei 提供建议。@caoying 建议检查数据,可能存在batch为空,读数据过程出现问题。
  • issue 2455

    • 问题描述:用户自己写的data reader,运行train.py时出现错误,TypeError: 'generator' object is not callable
    • 跟进情况:@yanxu 和@caoying 提供建议并解决
  • 编译Paddle

  • 使用浮点数值连续特征,Paddle对输入特征数量是否存在限制

    • 跟进情况:@dangqingqing 理论上没有限制
  • issue 2457

    • 问题描述:mac os上protobuf出错
    • 跟进情况:@liuyiqun 跟进

2017-06-12

Caretaker : @qiaolongfei @dangqingqing

  • issue 2443

    • 问题描述: paddle_trainer.INFO里auc的计算机制.
    • 跟进情况: @qiaoglongfei 和 @caoying 解释了log中的auc信息
  • issue 2441

    • 问题描述:训练序列标注模型用于预测新数据,发现预测结果都是空
    • 跟进情况:Hi讨论组私聊 @qinglongfei @qingqing @caoying, @caoying在issue中提出建议。

2017-06-11

Caretaker : @hedaoyuan @pkuyym (yangyaming)

  • v1 outputs layer exception
    • problem description : In v1 configuration, user tries to print result of auc_evaluator using outputs and PaddlePaddle throws an fatal exception in type checking.
    • fix : Suggest that he should print loss only using outputs and upgrade the configuration to v2 api. The usr asks how to print precision metric and we assign @luotao1 for following up.

2017-06-10

Caretaker : @gongweibao @dzhwinter(dongzhihong)

  • v1 slot configuration error
    • problem description : user config model in v1 API, when the data format cannot match slot config, paddle will crash and throw slot shape exception.
    • fix : suggest him upgrade configuration with V2, and assign@dzhwinter @lcy-seso for follow up. thanks @lcy-seso explains the error reason.

2017-06-09

Caretaker : @typhoonzer(wuyi) @wanghaoshuang

  • receiver down

    • @typhoonzer(wuyi) and @yancey1989(yanxu) fixed.
  • slurm cluster submit fails

    • @typhoonzer(wuyi) work in progress.
  • issue 2431

    • assign @lcy-seso

2017-06-08

Caretaker : @qijun @sunxinghai

  • issue 2421

    • 问题描述:想利用PADDLE的训练程序对训练数据进行预测,为加快预测速度,对训练数据按照图片的宽度进行排序,batch_size=32, 然后在network.conf里面增加对输出层的信息输出,在程序运行完成后,发现log里面的输出信息有丢失。

    • 跟进情况:@qijun 待进一步跟进解决

  • issue 2422

    • 问题描述:Error : Wrong number or type of arguments for overloaded function 'IVector_create'

    • 跟进情况:@lcy-seso 已解决,是用户配置网络不当造成的

2017-06-07

Caretaker : @gangliao @guosheng

  • issue 2405

    • 问题描述:没有定义prelu的接口,activation func只定义了brelu,softrelu和relu函数,而且好像也没有完整的说明文档。请教一下如果想用prelu的话需要怎么修改接口呢。

    • 跟进情况:@lcy-seso 正在解决

  • issue 2409

    • 问题描述:The documentation of building doc is not consistent with the code.

    • 跟进情况:@luotao1 答疑中

  • issue 2404

    • 问题描述: semantic_role_labeling demo中预测predict.sh无法跑通

    • 跟进情况:@lcy-seso 已解决 :建议使用 paddle book 下 SRL 相关的代码。demo 目录下旧版本的 paddle 例子目前已经被移除。

  • issue 2397

    • 问题描述:Is cuDNN/BLAS, MKL, Neon all BLAS compatible?

    • 跟进情况:@gangliao 答疑中

  • issue 2402

    • 问题描述: Markdown documents can not use Chinese link

    • 跟进情况: @luotao @Qijun 待跟进

  • 总结: 5个issue中,其中有三个与代码文档的一致性有关,建议开展文档梳理工作。

2017-06-05

Caretaker: @luotao @fengjiayi

Github Issue

  • Threaded MKL for paddle #2379

    问题描述:在Intel Xeon Phi上跑Paddle,启动10个trainer。用多线程的MKL库libmkl_intel_thread.so,比使用单线程的MKL库libmkl_sequential.so,来的慢。

    • 跟进情况:@liuyiqun01 排查中。

paddle用户交流群

  • FC等layer的序列信息在哪里被保存下来?

    • 跟进情况:已引导提问到 Issue #2377,并完成解决。
  • book里面对于image的输入都是flatten成一维vector以后读入的,data layer也没有指定width和height,那是如何实现convolution的呢?

    • 跟进情况:已引导提问到 Issue #2380,并完成解决(@dangqingqing 帮忙)。
  • 按照示例脚本提交任务至MPI集群,训练完成后模型参数没有上传到HDFS。

    • 跟进情况:升级示例脚本,已经解决。
  • MPI集群任务,修改MPI集群后提交失败

    • 跟进情况:武毅(@wuyi)排查中。
  • 相关性问题如何处理

    • 跟进情况:已引导提问到 Issue #2382,排查中。
Clone this wiki locally