Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

owner 你好 请问 如何配置 数据 mysql 数据表 #1

Closed
EdronCai opened this issue Nov 25, 2016 · 14 comments
Closed

owner 你好 请问 如何配置 数据 mysql 数据表 #1

EdronCai opened this issue Nov 25, 2016 · 14 comments

Comments

@EdronCai
Copy link

No description provided.

@gsh199449
Copy link
Owner

参考一下README的这块

@EdronCai
Copy link
Author

@gsh199449 owner 你好 我确实有点本末倒置了 我现在公司要完成一个爬虫任务
就是要抓取 http://cs.58.com/zhaozu/pve_1092_1/?PGTID=0d30000d-0019-e94b-9d63-7f64b406e2e4&ClickID=1 这个页面的列表链接点开后包含的数据
一开始使用webmagic 在抓取发现不知道是不是正则表达式是错误的 求解答
http://cs\.58\.com/zhaozu/pn\d+\/pve_1092_1/\?PGTID=0d30000d-0019-\w+\-\w+\-\w+\&ClickID=1
这个是我的正则表达式

@EdronCai
Copy link
Author

@gsh199449 需要抓取这个列表数据 存储到Mysql数据库中

@gsh199449
Copy link
Owner

可能是你对于正则表达式的显着过于严格了,放宽一点可能就能抓到了,还有一种可能是这个页面是ajax加载的.存储mysql只需实现PageProcessor接口,然后添加到配置文件即可.

@EdronCai
Copy link
Author

@gsh199449 列表页面 http://cs.58.com/zhaozu/pve_1092_1/?PGTID=0d30000d-0019-e94b-9d63-7f64b406e2e4&ClickID=1 不是ajax 加载的
可以帮忙看下吗 如何抓取这个求租链接信息和点开求租链接页面的信息

存储mysql只需实现PageProcessor接口,然后添加到配置文件即可 这段不懂 求解答详细一点

@EdronCai
Copy link
Author

@gsh199449 不好意思哈 我是新手 刚上手爬虫 对正则表达式又不熟 所以问得比较基础

@gsh199449
Copy link
Owner

刚刚更新了README 增加了对这块的解释,您再看一下 8af5690

@gsh199449
Copy link
Owner

正则那块建议表达式放宽一点,举个例子比如改成 http://cs\.58\.com/zhaozu/pn\d+\/.*

@EdronCai
Copy link
Author

@gsh199449 好的 我试试 这个正则

@fengwuze
Copy link

正则在线测试工具,可以先用这个测试正则表达式。
http://www.regexpal.com/

@EdronCai
Copy link
Author

@fengwuze 谢谢 @gsh199449 我这里下载你的源码后有一个jar maven 下载不下来
image

@EdronCai
Copy link
Author

@gsh199449 我已经在 运行的war中 找到了 谢谢

@gsh199449
Copy link
Owner

@EdronCai 在百度云有一个libs压缩包,里面有所有依赖的jar包

@EdronCai
Copy link
Author

@gsh199449 恩 看到了谢谢您

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

3 participants