Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

bug question & reproduce #4

Open
Stycoo opened this issue Oct 13, 2022 · 4 comments
Open

bug question & reproduce #4

Stycoo opened this issue Oct 13, 2022 · 4 comments

Comments

@Stycoo
Copy link

Stycoo commented Oct 13, 2022

  1. 请问 source/module/attention.py line 114 是否存在错误?final_memory = temp_memory + add_memory (add_memory 这里只是权重) 并没有加上更新量:add
  2. 同时模型在给定的参数下 无法复现出在 MultiWoZ的结果
    复现: | 论文中:
    F1: 26.01 | 31.4
    BLEU: 13.97 | 12.4
    请问是 有另外的超参数配置吗?
@iwangjian
Copy link
Contributor

Hi 你好,感谢对这个工作的关注!

  1. Line 112-114对应于paper中Eq. (6) 的计算,故这里add并非最终的更新量,只是hidden state $\tilde{\mathbf{s}}_{t}$ 经过线性变换后的表示,而它再经过sigmoid函数变换后并乘以attention weights才是最终的更新量,即add_memory.
  2. 由于sh运行脚本是2年前写的,当时开源代码的时候给出的默认参数比较少, 在此表示歉意。对于你提出的复现MultiWoz数据集出现F1和BLEU分值不太符合论文的情况,建议你训练的时候适当增大batch_size, 生成的时候适当减小beam_size.

@Stycoo
Copy link
Author

Stycoo commented Oct 18, 2022

Hi 你好,感谢对这个工作的关注!

  1. Line 112-114对应于paper中Eq. (6) 的计算,故这里add并非最终的更新量,只是hidden state s~t 经过线性变换后的表示,而它再经过sigmoid函数变换后并乘以attention weights才是最终的更新量,即add_memory.
  2. 由于sh运行脚本是2年前写的,当时开源代码的时候给出的默认参数比较少, 在此表示歉意。对于你提出的复现MultiWoz数据集出现F1和BLEU分值不太符合论文的情况,建议你训练的时候适当增大batch_size, 生成的时候适当减小beam_size.

非常感谢你的回复,很抱歉第一个问题还是有些疑问,代码中的最终的add_memory 似乎只是更新权重(attn weight * add_weight),而并没有乘以add

@iwangjian
Copy link
Contributor

你好,这里可能是代码中变量的命名产生了一些困扰,add_weights本身不是权重的含义,而是add经过f=sigmoid变换后的表示,所以这里不是直接乘以add, 而是乘以 f(add).

@Stycoo
Copy link
Author

Stycoo commented Oct 18, 2022

你好,这里可能是代码中变量的命名产生了一些困扰,add_weights本身不是权重的含义,而是add经过f=sigmoid变换后的表示,所以这里不是直接乘以add, 而是乘以 f(add).

嗯嗯 明白了 谢谢你的回复

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants