数据截取

erjian2022-05-1520830

数据截取与截取

爬虫案例,我们主要选取了六大案例,我们按照时间轴的年份,2016年之前,2016年之后来划分这六大案例。前三个案例是2016年之前,2016年之前最著名的“三百战”案例。原告是百度,被告是奇虎360。这是一个经典案例,涉及对包括协议在内的竞争法案例的审查。协议本身的法律性质不是合同,而是技术规范,是一系列程序代码TXT的文件。本文件对公众开放。我们知道有些网站,特别是一些东西希望自己的产品和服务能够被广大的互联网用户或者潜在的消费者接触到,所以它希望并允许360、百度、Google等搜索引擎的爬虫来抓取这部分信息,因为被抓取之后,输入关键词就可以搜索到他们的家。关于本案中的具体审查要件,法院认为360应当通过其爬虫抓取百度的网站。部分内容是否构成违法?百度的协议对抓取行为有哪些限制?

在本案中,法院明确表示,该协议是业界公认的普遍接受的商业标准。如果违反了这样的商业标准,爬取的内容就是百度竞争优势为核心服务的数据、信息和产品。这样的行为实际上违反了《不正当竞争法》第二条,构成了对商业道德和诚信原则的违反。其实这个案件对于百度360最经典的意义在于,第一,明确了协议的性质;其次,在违反约定擅自强占的情况下,一旦双方产生竞争关系,应该衡量什么样的利益;第三法院做了一个行业倡导,说如果严格制定协议本身,禁止特定对象抓取网站的任何内容。事实上,双方都可以经历通知和协商的过程。如果你执行的通知协商过程,比如百度,还是不同意抓取,实际上可能涉及到我们反不正当竞争法下的另一个垄断法的考量,第二维度。

第二个案例和第三个案例是接近2016年的案例,分别是大众点评VS爱帮和大众点评VS百度的案例。这两个案例也是相当经典的。这两个案例的典型性在于,第一,原告和被告是否存在竞争关系。我们说在互联网环境下,这种竞争关系的认定已经突破了传统的直接竞争关系的认定。传统的竞争关系是原被告是否同行业、同业态。互联网经济下,更多关注的是用户、流量和我们说的数据。这类纠纷只要法院认可原被告,只要用户数量增加,用户群体就有必然的对应关系,不要求原告和被告处于同一传统行业。这是对竞争关系的第一次认定。我们可以看到实际的点评和百度,点评都是餐饮点评。百度地图和百度知道这样的搜索在传统上并不是同一竞争对手的概念,但是在互联网的背景下,竞争关系的认定实际上已经突破了直接竞争关系的认定,而趋向于广泛竞争关系的认定。

其次,在爬虫类的竞争纠纷中,法院需要确定原告对所主张的数据或信息(原始数据或衍生数据)是否拥有权利,是否具有法律保护的意义。在数据的概念提出之前,大家更多了解的是在关注建立的原始数据集群,数据产品是否属于著作权法下的保护内容,其实著作权法对一个要保护的对象是有最基本的要求的。在欧洲倡导构成著作权法下的汇编作品或者相对认可的数据库的概念还是有一定门槛的。在这种背景下,实际上在这类案件纠纷中,原告需要证明你对你寻求保护的数据或数据产品具有受法律保护的合法利益。第二点在于决心。事实上,我们说有一个根本问题可能需要回答,那就是,无论是平台还是互联网公司,原告对其主张的数据拥有权利,这就需要法院作出判决

数据截取与截取

关于数据的所有权有两种观点。第一是每一个评论和搜索都是由每一个数据主体即用户本人形成或操作的,可以对应身份信息、他的喜好和网络行为习惯,所以数据权属于用户。这种观点的代表是GDPR。GDPR对数据主体享有的权利有完整的规定,甚至规定权利主体有权携带数据。用户此时可以选择从平台的一个家转移到另一个家,用户可以要求将第一个平台积累的数据转移到第二个平台以天猫为例,用户可以要求天猫将这些年的网购数据打包转移到JD.COM。GDPR确定的是,个人数据主体对个人数据拥有绝对控制权。这是第一点。

第二是数据权属于互联网企业,

为什么?理论是有逻辑背景的,因为用户数据乃至数据文件产生的前提是互联网平台利用算法对其进行收集整理。在这个过程中,互联网平台付出了一定的人力、财力和物力,因此这些数据应该作为平台的劳动成果得到保护。

为什么会有这样的看法?我数据截取们说上层建筑为经济基础服务,第一种观点主要是在欧洲,因为欧洲的互联网企业发展不是很发达,基本没有本土的互联网巨头。在第二个观点下,我们可以看到美国用的比较多,因为美国有很多互联网巨头。中国法院如何选择这两种观点?其实它并没有回答这个问题,所以很巧妙的绕开了。它没有说数据权属于个人用户还是互联网公司。法院承认,互联网公司通过它的算法、它的平台构建、它的行为收集、设计和规范,投入了大量的劳动、资源和努力,是不正当竞争法下的劳动成果。其他任何企图非法获取他人通过劳动积累的这些数据的行为,都是不劳而获、搭便车的行为。如果,采集抓取数据后,对应使用,使用不当,非法使用等。并达到实质上替代原被抢方的效果,则构成不正当竞争。法院绕开了之前的数据确认前提条件,而是通过反法的逻辑结构到达其判决路径。

最简单的例子,可以举大众点评和百度的例子。本案例具体回顾了百度地图,百度知道抓取大众点评的数据点,以及如何使用。我们在百度地图上搜索了某个地方,然后跳出了这个地方。

近的商家,案子发生的时候,百度地图其实显示被搜索地点商家出现点评信息,同时它会在跳出来的点评信息当中,在下面显示大众点评的链接。百度抗辩,其实没有进行业务的实质性替代,下面还有大众点评的链接,可以跳链到大众点评的网页,那么法院怎么认定呢?从日常消费者的消费经验看,消费者不可能阅读商家的服务点评信息的时候,不会一条条看,消费者可能是最多看前面的五条、十条,其实这样的部分摘取和显示,已经达到了实质性替代的效果。

后面三个经典的案子,2016年以后,为什么我们认为是竞争纠纷当中,关于爬虫数据后面的判决时代呢?因为你通过法院判决书,可以发现它判决的逻辑其实是更精细化的,不是前面比较框架性的、第二条适用的四条逻辑的推演,而是会进一步分析涉案当中的数据,被爬取的数据是原始数据还是衍生数据;爬取之后是用了还是没有用;用了当时是直接展示了,还是通过自己编辑、归纳,二次开发。法院会清晰的研究原告对主张数据或数据产品是否享有权利;数据来源是不是合法的;是不是符合网安法41条的规定;第三方抓取数据类案子里面的被告,在抓取这样的数据当中,有没有履行“三重授权”的原则。

很多案子里面的被告或者爬虫的使用方,抓取方并不是从头到尾未经授权的,有一些恰恰是和原告有合作关系的,最经典的案例4和5里面的,其实可以看到脉脉的案子,它抓取的数据是和新浪合作期间,新浪开通了数据API接口,通过数据接口抓取了新浪用户的一些信息,包括它的手机、网络呢称等,它合作终止以后,没有停止数据抓取。这个案子法院认定作为抓取方,抓取行为应当获得三重授权,第一,是用户对原来的平台,你的合作方,被抓取方,对数据的收集、使用、归集有没有得到授权;第二,抓取方,有没有得到前面合作平台的授权;第三,抓取方有没有得到用户的授权,所以是三重授权的逻辑架构。

第五个淘宝和美景案子中,美景还进行了二次开发,这样杭州法院提到网络数据商品的开发与市场应用已成为当前互联网行业的主要商业模式,也是网络运营者与竞争优势的重要来源与核心竞争力所在,其带来了可观的商业利益与市场竞争优势,应当受到保护。

最后这个案子不一样,是爬取方主动诉被爬方的案例。职场社交网络的HIQ业务模式。是完全寄生于的,主要是依赖公开信息,为雇主分析预测雇员离职倾向和个体技能分布图。这个案子当中,HIQ作为爬取方,提出了这么一个诉讼,去诉LinkedIN,主要是说LinkedIN向我发了律师函,要我停止使用爬虫手段,所以HiQ现在是想向法院要求禁止LinkedIN采取这种反爬措施,这个案子由于涉及到HIQ的行为是否受美国CFAA的法案规制,因此这个案子引起了很多关注。这个案子是今年9月9日美国第九巡回上诉法院维持了一审的临时禁令,支持HIQ,表示CFAA这样的立法目的,当时是为了防止黑客攻击,并不是为保护私权力主体,所以对HIQ提出的禁止LinkedIN提出反爬措施,法院是支持的。

前面说的是爬虫抓取的竞争法的纠纷,那采取爬虫的手段,合规风险要考虑很多法律。我们说了从法律保护来说,被爬的东西可能是构成商业秘密而受保护的客体,可能是受版权保护的客体,如果爬取的是网站收集的公民个人信息,又会涉及到公民个人信息保护。从宏观的角度还涉及到整个网站计算机信息系统安全的法律保护。

从法律评价角度,其实也是可以分两个行为阶段的评价,第一个是爬取的阶段,第二是获取完成后的使用阶段。我们看对商业秘密,其实我们可以梳理一下,在竞争法里面有关于商业秘密的具体行为表现和相应的法律责任,这里面就不展开了,给大家理理。第二刚刚提到六个案子当中,其实涉及到如果你爬取的信息和内容是他人形成竞争优势的数据,而你行为实际上对他实现了实质性替代,就违反了竞争法下对市场的保护。个人信息就是侵犯公民个人信息,有刑事、民事的以及行政的责任。如果是计算机信息系统安全你规避技术保护措施且无/超越授权获取数据,可能会有构成非法获取信息计算机系统数据罪的可能等。版权也是,如果突破网站版权措施,会构成版权法下的对版权保护措施侵权的内容。如果你是抓取作品也有侵犯著作权等风险。计算机信息系统无论是自己主机端的系统还是包括我们的APP的系统,还是服务器端,到客户端整个信息交互过程,只要你通过保护措施对系统进行了保护,其实都涉及计算机信息系统安全,对科技创新是很不好的趋向。

对被抓取方权益的保护刚刚有嘉宾提到了,对被抓取方的保护重要的是发生问题时的举证问题,首先是谁爬了我的数据,这比较难,因为互联网当中体现的就是一个个IP地址,服务器多层转嫁地址,你告谁也很难的。

第二是固定证据

,民事案件中,由被抓取方举证证明存在的非法的数据抓取行为,应满足高盖然性标准。刑事案件中,可由警方采用侦查手段进行调查。

对被抓取方权益保护的建议有四个:一个是设置完善网站的ROBOTS协议。第二采取一些实实在在反爬措施。第三碰到问题的时候,你要有日常的证据留痕,采取数据壁垒,很容易识别发生问题或者爬你网站的IP地址到底来源于哪里,经过哪些链接周转。第四比较简单没有写,对版权网站内容,网站最好设置一些版权内容声明。

对抓取方合规建议,我们也总结了六个,前面嘉宾提到了,我梳理一遍。第一对于爬的时候,要非常慎重的,第一要评估数据的类型和被爬取方的意愿,最简单的是点开网站看看ROBOTS协议怎么写的。第二爬的时候千万慎重数据是不是涉及到公民隐私的范畴,是不是商业秘密保护的范畴。第三严格规范自己爬取手段,其实爬取这样的技术是非常中立的技术,你爬取手段如果采取类似黑客的手段,如果你的获益、数据抓取是建立对别人信息系统的侵犯,对别人一系列保护措施的的违反的基础上的,那就可能会使自己承担法律责任。第五我们说合理控制抓取数量,避免给服务器造成过度的负担。第六前面提到的,如果是合法抓取的数据,还要注意自己的授权范围,有没有满足三重授权的要求,还有如果是希望对方改变自己的ROBOTS协议的话,可以通过行业协会,进行这样的通知和协商。

关注公众号公司法务联盟可以阅读更多相关文章

大数据抓取:他们要控制你的汽车方向盘

[点评]没错,他们就是想控制你车的方向盘。他们是谁?为什么要控制汽车的方向盘?大数据就像一切都被原谅了,任何人都可以形成CP。随着越来越多的制造商投入到无人驾驶汽车的研究中,这一前瞻性领域收获颇丰关注谷歌无人驾驶汽车在14个月内发生了272起事故。你怎么敢坐在那里?很多人可能会责怪数据获取和分析过程不当,那么我们就来看看这个锅该不该有大数据背。

一年前,管理咨询巨头麦肯锡预测,到2025年,物联网的价值将达到11亿美元。这是一个非常大胆的观点,尤其是目前互联网上已经披露了大量“物联网设备弱密码漏洞”的相关信息。

现在,麦肯锡再次涉足汽车行业,并声称到2030年来自汽车的数据价值将达到7500亿美元。咨询公司甚至给出了如何获得这部分收入的具体方案。如果从汽车上获得的数据可以获得如此可观的利润,消费者可能不愿意分享他们的个人信息,但目前这只是一个预测。

汽车工业是一块巨大的蛋糕。谷歌、苹果等公司都在努力寻找机会布局自己的汽车产业。尤其是在南美,你可能会得到和你花在汽车上一样多的数据。很容易想象一个新的大型汽车相关企业能建立起什么样的数据库。毕竟,优步实际上是一家大数据分析公司,而不仅仅是一家出租车公司。

当然,对优步来说,它不是中国的优步。不仅仅是它主导了市场。根据麦肯锡最新报告《》作者给出的结论,未来13年,汽车行业产生的数据可能达到4500到7500亿美元的价值。

根据麦肯锡的分析:7500亿美元任何人都可以拥有,但首先要满足以下两个条件:

1.抓住市场,通过数据分析出符合消费者心理的酷炫新品,让消费者愿意买单。

2.以合理的产品迭代周期推出该产品。

想法很简单,但实现起来很难。很笼统地说,麦肯锡关于这个新市场的结论让我们明白了一件事。汽车数据货币化道路上的第一个挑战是与最终客户沟通,了解客户最终想要什么。

互联网时代,分析用户数据判断产品趋势的例子比比皆是,科技行业把消费者当成产品也就不足为奇了。例如,谷歌在几周前非常低调地改变了广告政策,以便获得更多的用户行为数据。

这对专车司机有什么影响吗?

假设你的车自动运行了一分钟,时间,这会对车道上的其他车产生什么影响?毕竟,获取你的行程、驾驶习惯等信息要严肃得多。而不是获取你的互联网信息。消费者分享这些数据的动机是什么?麦肯锡列出了一系列可能的原因,如消费者为了更低的保险费率或其他利益而积极分享。但是我们往往忽略了根本原因:用户往往不喜欢为数据安全买单,但是你要知道,既然保险公司可以通过获取用户数据来降低你的保险费率,那么他们也可以用同样的方法来提高你的保险费率。

另一方面,即使我们意识到了这一点,也可能无法阻止任何事情。年轻人通常不太担心隐私问题。根据调查的意外发现,其中90%的人意识到数据可以被一些应用程序或第三方使用。在另一项调查中,79%的受访者表示,他们不介意这些应用通过授权访问自己的数据。

当你的数据采集足够充分,足够庞大的时候,你能安心吗?获取司机的个人信息可能很简单,但在行驶过程中可能会发生很多事故,尤其是中国复杂的交通状况,各种立交桥、高架桥纵横交错。让无人车可以用于人们的日常出行,恐怕不仅仅是大数据的责任。

相关阅读

  • 大扫除清垃圾?RNG仅仅14分钟“红绿灯”打烂PSG
  • RNG开启超级背靠背靠背!IW尽兴局盖伦单杀Bin
  • 数据截取
  • 本文链接:http://www.slxf119.com/18338.html 转载需授权!

    上一篇:RNG开启超级背靠背靠背!IW尽兴局盖伦单杀Bin

    下一篇:大数据时代数据截取下 当代大学生应该如何应对“大数据”带来的机遇

    相关文章

    网友评论