Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

应用场景征集【免费提供优化方案】 #200

Open
bigbrother666sh opened this issue Jan 18, 2025 · 10 comments
Open

应用场景征集【免费提供优化方案】 #200

bigbrother666sh opened this issue Jan 18, 2025 · 10 comments

Comments

@bigbrother666sh
Copy link
Member

感谢大家对 wiseflow 的关注!

wiseflow 目前已经发布 V0.3.7版本,该版本在0.3.5、0.3.6基础上进一步改进提取策略,尤其优化了数据前处理流程,目前在中文页面的通用任务上已经可以实现不错的效果。

现向大家征集实际业务场景,如果您在实际应用中遇到提取效果不佳等问题,欢迎跟帖,我们会给出针对性优化建议(关注点设定方案、prompt 改进方案等),并在后续版本迭代中优先考虑场景的需求!

跟帖格式:

信源站点:(网址或者微信公众号名称),如果您需要从社交平台获取信息,请提供社交平台名称和关注的账号举例(比如微博上的张皓涵官微)
关注点:(请详细描述您关注什么方面的信息,包括相关的限定,比如 xxx 日之前的信息,或者 xxx 金额以上的招标等)
@bigbrother666sh bigbrother666sh pinned this issue Jan 18, 2025
@TeamWiseFlow TeamWiseFlow deleted a comment from guozanhua Jan 20, 2025
@grassmu
Copy link

grassmu commented Jan 23, 2025

比如我要监听某个网站,但是该网站是需要登录且需要会员身份的,wiseflow 是否可满足需求

@bigbrother666sh
Copy link
Member Author

比如我要监听某个网站,但是该网站是需要登录且需要会员身份的,wiseflow 是否可满足需求

可以自定义 crawl4ai 的 run config,给 user data

@leo03qq
Copy link

leo03qq commented Jan 24, 2025

能登录管理登录账号么,比如我想爬X上一些主题的信息,后续还想自动发帖啥的

@bigbrother666sh
Copy link
Member Author

能登录管理登录账号么,比如我想爬X上一些主题的信息,后续还想自动发帖啥的

什么叫管理账号?

理论上,你有权限的操作都可以通过 ai 实现

@imfeisir
Copy link

能否限定只爬取当前分类的文章?比如,我给定的网址是: abc.com/game/,该页面主体有10个文章,而侧边栏有其他全站各个分类下的热门文章,现在他都会进行爬取。。甚至跳转到 cde.com网站下爬取。。
能否设置只爬取下一级URL的内容?这个问题导致我消耗了大量Token~

@bigbrother666sh
Copy link
Member Author

你用的是 Secondary model是什么? 理论上如果侧边栏跟你的关注点关系不大,它会跳过。如果过滤效果不好,可以尝试将 secondary model换参数量更大的。或者尝试将兴趣点描述的更加具体些,或者增加兴趣点下面的 explanation。

当然,如果你一定希望从代码层面规避此问题,可以自定义 crawl4ai 针对这个站点的 run config,

@imfeisir
Copy link

你用的是 Secondary model是什么? 理论上如果侧边栏跟你的关注点关系不大,它会跳过。如果过滤效果不好,可以尝试将 secondary model换参数量更大的。或者尝试将兴趣点描述的更加具体些,或者增加兴趣点下面的 explanation。

当然,如果你一定希望从代码层面规避此问题,可以自定义 crawl4ai 针对这个站点的 run config,

这里的兴趣点可以写的很长么?下面的描述是要按照提示词的写法写的很详细么?我的兴趣点以为就简单一个词语,比如 人工智能,然后描述里,写的 关注OpenAI,Gemini等大模型厂商和AI领域的最新资讯。。。

@bigbrother666sh
Copy link
Member Author

兴趣点写关键词也不是不可以,但关键词肯定是比较宽泛的。最好写清楚是什么方面的人工智能,explanation 写限制和进一步描述,

可以参考 readme 中 部署和使用的第五步。

@tonyzhu2021
Copy link

我只想搜集某网站最近一周更新的信息、发表的文章新闻等,但是现在好像wiseflow连很久之前的信息也会采集

@bigbrother666sh
Copy link
Member Author

我只想搜集某网站最近一周更新的信息、发表的文章新闻等,但是现在好像wiseflow连很久之前的信息也会采集

可以在 explanation 中写明,最近一周的信息。

如果效果仍不理想,可以把你的信源站点和关注点发出来,我来看一下

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants