We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
今天的朋友圈被《我承认,我们是有组织攻击马蜂窝的》刷屏了。自媒体「小声比比」作者梓泉和「乎睿数据」的三名技术人员组成的「四人豪华犯罪团伙」,通过爬虫技术结合大数据分析,披露马蜂窝 2100 万条用户评论数据中的 1800 万条为造假数据,被马蜂窝以名誉权纠纷为由状告法院。
在我看来,以下几个要点可能会影响案件判罚结果:
今年上半年今日头条和腾讯因为抖音被微信屏蔽事件,双方大战了 300 个来回,最终都向法院提起了诉讼。有意思的是,如果腾讯是原告,通常会向深圳市南山区人民法院起诉,而今日头条则会优先选择北京市海淀区人民法院。
这是为什么呢?(提示:可以从纳税人的角度思考)
当然是为了判罚的公正性嘛。
所以这个案子,很多人会建议深圳的「乎睿数据」团队向法院提请「管辖异议」,案件的管辖权应当由「北京市朝阳区人民法院」转给「深圳市南山区人民法院」。
第十五条 侵害信息网络传播权民事纠纷案件由侵权行为地或者被告住所地人民法院管辖。侵权行为地包括实施被诉侵权行为的网络服务器、计算机终端等设备所在地。侵权行为地和被告住所地均难以确定或者在境外的,原告发现侵权内容的计算机终端等设备所在地可以视为侵权行为地。 ——《最高人民法院关于审理侵害信息网络传播权民事纠纷案件适用法律若干问题的规定》,https://www.chinacourt.org/law/detail/2012/12/id/146033.shtml
文章还提到,马蜂窝清理脏数据的效率十分迅猛,涉嫌造假的 1000 多万条数据分分钟就清完了(给马蜂窝未雨绸缪的技术架构点个赞)。
事实上,在互联网 big brother watching big data 时代,信息残留无处不在。以网站数据为例,不但云服务器上会留下各种 backup,各大搜索引擎也会 cache 数据,Web Archive 上甚至还能查到许多站点 10 年前的版本(例如 2005 年的支付宝首页)。
诉前证据保全公证工作(以及各种作品和数据的原创保护)甚至都不用去线下找公证处,通过在线的第三方服务就能完成,因为网上的数据流是有时间属性的。例如,你可以给自己的 QQ 邮箱发送一封带附件的邮件,用来证明这个附件里的内容你是全网首发,从而来保障自己的著作权。
中国科学院国家授时中心提供了一个在线的「联合信任时间戳服务」(http://www.tsa.cn),只需要 10 块钱,任意大小的数据包上传打个时间戳,就能完成法院认可的证据保全公证程序。
前几年猫哥在外创业,团队里有个从快播来的技术大牛,那爬虫技术是相当优秀。
公司让他们用爬虫抓了不少 1024 小电影和未经授权的影视作品,后来在一次突击检查中,服务器被查获了,领导们也进了局子。
技术人员写爬虫程序,抓取第三方站点数据,是一项很常见的操作,但同时也是一个高危操作。
robots.txt 爬虫协议是国际通用的商业惯例,任何站点可以通过 robots.txt 来引导爬虫,站点上哪些内容是开放的,哪些是禁止抓取的。
2012 年百度诉 360 违反 robots 协议案,以 360 败诉告终。
马蜂窝估计也考虑到这个问题了,今天下午 5 点 38 分 42 秒(Last-Modified: Tue, 23 Oct 2018 09:38:42 GMT)更新了站点的 robots.txt 协议,将原来未做限制的爬虫 UA 和目录进行了限制。
根据《网络安全法》与相关司法解释,爬虫如果抓到了涉及用户隐私与商业机密的内容必须予以删除,情节严重的要负刑事责任。
(三)非法获取、出售或者提供行踪轨迹信息、通信内容、征信信息、财产信息五十条以上的; (四)非法获取、出售或者提供住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息五百条以上的; (五)非法获取、出售或者提供第三项、第四项规定以外的公民个人信息五千条以上的; —— 《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第五条, http://www.spp.gov.cn/xwfbh/wsfbt/201705/t20170509_190088.shtml
爬虫如果采用类似黑客暴力破解手段获取数据,或因此导致对方站点服务不可用,可能触犯「非法获取计算机信息系统数据罪」。
第二百八十五条 违反国家规定,侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统的,处三年以下有期徒刑或者拘役。 违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。 提供专门用于侵入、非法控制计算机信息系统的程序、工具,或者明知他人实施侵入、非法控制计算机信息系统的违法犯罪行为而为其提供程序、工具,情节严重的,依照前款的规定处罚。{刑法修正案(七)增加第二款、第三款} —— 中华人民共和国刑法(修订),http://www.spp.gov.cn/spp/fl/201802/t20180206_364975.shtml
所幸的是,以上三条爬虫红线,梓泉和乎睿团队都没有违反。不知马蜂窝大佬接下来将如何应对?
我相信,借助技术和法律的力量,小个体总有扳倒大集团的那一天。
身为技术人,我们一直以来关注的都是技术和能力,这既是我们安身立命的本钱,也是自身价值的体现。但专业技能不是生活的全部,真遇到一个与法律有关的烦心事,或许会让你无心上班甚至失去工作。
而事实上,法律是人人都要面对的话题。比如,翻墙有风险吗?期权被坑怎么办?用盗版图有什么后果?突然被 HR 叫进办公室说要辞退你,该怎么应对?办公室性骚扰,怎么对抗?发生交通事故,怎么处理?
猫哥作为「极客时间」的重度用户,在此向各位新老技术同学推荐一门新上线的《白话法律42讲》专栏。该专栏由从业十余年的资深律师周甲德开设,选取职场、技术、生活三个领域里与程序员联系最密切的40个法律问题,讲解每个社会人都应该知道的的法律知识,并给到你实用有效的处理办法。这是市面上第一个,也是目前唯一一个专门面向程序员群体的法律课程。
感兴趣的朋友可以去看看。
The text was updated successfully, but these errors were encountered:
且看马蜂窝中的马蜂如何蜇人!
Sorry, something went wrong.
No branches or pull requests
今天的朋友圈被《我承认,我们是有组织攻击马蜂窝的》刷屏了。自媒体「小声比比」作者梓泉和「乎睿数据」的三名技术人员组成的「四人豪华犯罪团伙」,通过爬虫技术结合大数据分析,披露马蜂窝 2100 万条用户评论数据中的 1800 万条为造假数据,被马蜂窝以名誉权纠纷为由状告法院。
在我看来,以下几个要点可能会影响案件判罚结果:
一、案件管辖权
今年上半年今日头条和腾讯因为抖音被微信屏蔽事件,双方大战了 300 个来回,最终都向法院提起了诉讼。有意思的是,如果腾讯是原告,通常会向深圳市南山区人民法院起诉,而今日头条则会优先选择北京市海淀区人民法院。
这是为什么呢?(提示:可以从纳税人的角度思考)
当然是为了判罚的公正性嘛。
所以这个案子,很多人会建议深圳的「乎睿数据」团队向法院提请「管辖异议」,案件的管辖权应当由「北京市朝阳区人民法院」转给「深圳市南山区人民法院」。
二、证据保全公证
文章还提到,马蜂窝清理脏数据的效率十分迅猛,涉嫌造假的 1000 多万条数据分分钟就清完了(给马蜂窝未雨绸缪的技术架构点个赞)。
事实上,在互联网 big brother watching big data 时代,信息残留无处不在。以网站数据为例,不但云服务器上会留下各种 backup,各大搜索引擎也会 cache 数据,Web Archive 上甚至还能查到许多站点 10 年前的版本(例如 2005 年的支付宝首页)。
诉前证据保全公证工作(以及各种作品和数据的原创保护)甚至都不用去线下找公证处,通过在线的第三方服务就能完成,因为网上的数据流是有时间属性的。例如,你可以给自己的 QQ 邮箱发送一封带附件的邮件,用来证明这个附件里的内容你是全网首发,从而来保障自己的著作权。
中国科学院国家授时中心提供了一个在线的「联合信任时间戳服务」(http://www.tsa.cn),只需要 10 块钱,任意大小的数据包上传打个时间戳,就能完成法院认可的证据保全公证程序。
三、爬虫获取数据是否违法
前几年猫哥在外创业,团队里有个从快播来的技术大牛,那爬虫技术是相当优秀。
公司让他们用爬虫抓了不少 1024 小电影和未经授权的影视作品,后来在一次突击检查中,服务器被查获了,领导们也进了局子。
技术人员写爬虫程序,抓取第三方站点数据,是一项很常见的操作,但同时也是一个高危操作。
1. 不遵守 robots.txt 违反《反不正当竞争法》
robots.txt 爬虫协议是国际通用的商业惯例,任何站点可以通过 robots.txt 来引导爬虫,站点上哪些内容是开放的,哪些是禁止抓取的。
2012 年百度诉 360 违反 robots 协议案,以 360 败诉告终。
马蜂窝估计也考虑到这个问题了,今天下午 5 点 38 分 42 秒(Last-Modified: Tue, 23 Oct 2018 09:38:42 GMT)更新了站点的 robots.txt 协议,将原来未做限制的爬虫 UA 和目录进行了限制。
2. 抓取涉及用户隐私与商业机密的数据违反《网络安全法》
根据《网络安全法》与相关司法解释,爬虫如果抓到了涉及用户隐私与商业机密的内容必须予以删除,情节严重的要负刑事责任。
3. 非法获取计算机信息系统数据罪
爬虫如果采用类似黑客暴力破解手段获取数据,或因此导致对方站点服务不可用,可能触犯「非法获取计算机信息系统数据罪」。
所幸的是,以上三条爬虫红线,梓泉和乎睿团队都没有违反。不知马蜂窝大佬接下来将如何应对?
我相信,借助技术和法律的力量,小个体总有扳倒大集团的那一天。
身为技术人,我们一直以来关注的都是技术和能力,这既是我们安身立命的本钱,也是自身价值的体现。但专业技能不是生活的全部,真遇到一个与法律有关的烦心事,或许会让你无心上班甚至失去工作。
而事实上,法律是人人都要面对的话题。比如,翻墙有风险吗?期权被坑怎么办?用盗版图有什么后果?突然被 HR 叫进办公室说要辞退你,该怎么应对?办公室性骚扰,怎么对抗?发生交通事故,怎么处理?
猫哥作为「极客时间」的重度用户,在此向各位新老技术同学推荐一门新上线的《白话法律42讲》专栏。该专栏由从业十余年的资深律师周甲德开设,选取职场、技术、生活三个领域里与程序员联系最密切的40个法律问题,讲解每个社会人都应该知道的的法律知识,并给到你实用有效的处理办法。这是市面上第一个,也是目前唯一一个专门面向程序员群体的法律课程。
感兴趣的朋友可以去看看。
The text was updated successfully, but these errors were encountered: