大数据倒在2019 史上最严监管已经来临
网络爬虫是指按照一定规则,自动抓取互联网信息的程序。这项技术并无原罪,业内不少公司会通过爬虫技术,将用户在互联网上的数据收集起来,做出更精准的用户风控模型。某数据研究院院长刘志告诉记者,搜索引擎、天眼查、企查查等公司都是用爬虫技术爬取公开数据,在不涉及个人敏感数据的情况下,使用这项技术没有问题。
但对于这些大数据公司来说,他们把爬虫做成了产品,并且“走了两步”。第一步是在面向用户的产品中,让个人用户填写账号密码,从公积金、社保局、信用卡中心等系统中帮用户把里面的信息拿出来,第二步是把这些包含很多个人敏感数据的信息缓存在系统,之后对外提供给高利贷、催收公司等使用。“到第一步没有问题,但到第二步就涉嫌过度采集、违规使用数据,侵犯用户隐私。”刘志说。
这些数据有多大杀伤力?新金融深度曾报道,大数据服务公司聚信立只要获取用户的手机号码和服务码,就可登录各大运营商的系统爬取通话记录的数据,形成“个人用户报告”,包括通话号码、次数、时长等,借款人的通讯信息就会成为借贷机构向借款人及其家人朋友催收的“利器”。这时,这类公司相当于协助了贷款平台的暴力催收。
刘志解释,做风控需要多维度的数据,如果全部通过正规渠道去拿,一方面目前行业内没有太多渠道,另一方面数据成本很高,但通过爬虫去获取,边际成本很低。另外,数据公司通过爬虫拿到的数据颗粒度更细,除了做风控还可以提供给一些公司做营销,获益更大。因此,业内出现一大批违规操作的数据公司。
数据从何而来?
多名业内人士介绍,数据公司的数据来源通常分为四大类:企业自身或其相关公司的数据、爬虫技术爬取数据、相关现金贷公司在用户协议上进行二次授权、通过地下交易非法购买相关信息。
金融行业从业者张丰介绍,对于第一种情况,公信宝推出手机挖矿产品,用户免费使用的同时,需要提供大量个人信息,公司即可借此收集数据;考拉征信属于拉卡拉支付参股公司,其数据来源可能包括在拉卡拉上进行信用卡还款、缴费、金融业务的个人用户数据,以及线下商户经营的数据。
另外,一些合规的企业不少也具备“数据基因”,如前海征信是平安集团旗下全资子公司,其官网显示:前海征信植根于平安集团,探索多样化和创新性的数据采集、存储、处理与分析方式,有着自身独有的优势。
第二种情况是数据公司用爬虫技术去公开网站等地方爬取数据,主要分为司法信息、电商信息、银行卡信息、运营商信息、社交信息、开放数据等几大类。
云鼎实验室2018年发布的《互联网恶意爬虫分析》报告显示,排名前三位的流量目标行业来自出行、电商、社交,运营商和公共行政分别占比4.91%,被爬的频率也较为靠前。
-
锦富技术原董事收深交所监管函 曾打算申请豁免履行增持计划
6月25日,深交所向锦富技术(300128,SZ)董事肖鹏下发了监管函。记者了解到,该监管函涉及肖2021-03-26 00:33 -
存储不当跨省转运 医疗废物处置亟待有效监管
据中央广播电视总台中国之声《新闻纵横》报道,废弃的针头、输液器、棉球等医疗废物,可能2021-03-26 00:33 -
爬虫业务整顿压顶 断臂后的大数据公司去哪
众所周知,当下的大数据行业风声鹤唳。近日,央视一则关于“揭秘套路贷背后的罪恶利益链”2021-03-26 00:33 -
市场监管总局新规 明年起恶意索赔将受限
以“打假”之名,通过恶意投诉而牟利的行为将从下月起受限。2020年1月1日,国家市场监督管2021-03-26 00:33 -
创业板借壳首只概念股吉药控股 面临监管层的追问甚至处罚
欲争做创业板借壳首只概念股的吉药控股,非但没有夺得这个实名,反而因此事件中涉嫌信披违2021-03-26 00:33 -
年内第三次大排查 信托风险监管再加码
信托风险监管力度并未随着岁末而放松。继4月份及8月份的两次风险排查之后,信托行业即将2021-03-26 00:33 -
互联网保险监管办法迎"大修" 重构第三方网络平台
征求意见稿给出一定的过渡期,要求保险机构在监管办法正式实施之日起12个月内完成问题整2021-03-26 00:33 -
暴风集团各项数据全面下滑 谁会是救世主?
磕磕绊绊的暴风集团(300431,SZ)终于发布了2019年半年度报告,不出意外,各项数据全面下滑。2021-03-26 00:32 -
梁建章否认携程大数据杀熟 价格复杂造成的假象
12月24日,携程联合创始人梁建章在接受专访时,回应了携程大数据“杀熟”的问题。梁建章否2021-03-26 00:32 -
携号转网叠加5G商用 运营数据都还好吗?
12月23日消息10月31日,国内三大运营商共同商用5G套餐,11月10日至26日携号转网26省试运行2021-03-26 00:31
TOPS
- 一周排行榜
- 一周排行榜