领英7亿用户资料被公开出售 黑客如何在社交媒体上抓取信息
在你的社交媒体个人资料页上,你公开了多少个人信息?
姓名、地点、年龄、职位、婚姻状况,还有头像?每个人在网上愿意发布的个人信息有所不同。
但是,大多数人都接受一点,即无论我们在公开的个人资料页上发布了什么信息,这些内容都属公有领域所有。
- 社交媒体自拍照背后透露的惊人真相
- 社交媒体巨头Facebook可能面临的分拆和法律挑战
- 软件勒索:各国政府应该禁止向黑客支付赎金吗?
- 黑客乔装多情女 F35战机秘密险被盗
那么,如果你听说一个黑客把你所有的信息分门别类,放入一个有上百万个条目的怪兽式表格里,准备卖给出价最高的网络罪犯时,你会作何反应呢?
上周,一名自称叫汤姆·莱内尔(Tom Liner)的黑客“为了好玩”便做出了这样的事情。他汇编了一个来自全世界7亿领英(LinkedIn)用户的数据库,每次售价大约为5千美元。
这起事件和其他类似的社交媒体数据抓取(social media scraping)案例引发了一场激烈讨论。大家开始关注,我们在资料页分享的个人基本信息是否应该得到更好的保护。
在某天的英国时间早上8点57分,莱内尔在一个臭名昭著的黑客论坛上发布了一则贴文,宣布了自己最近的行动。
对于黑客来说,这是一个出奇正常的时间,但当然,我们不知道这个叫自己为汤姆·莱内尔的黑客究竟住在哪个时区。
“大家好,我有7亿条2021年领英记录,”他写道。
贴文中有一个链接,点开便是一个一百万条记录的样本,以及一封邀请其他黑客私下联系他、为他的数据库报价的信息。
不出所料,这笔生意在黑客世界里引起了一阵轰动。汤姆告诉我,他正以大约5千美元的价格把自己的货物出售给“多个”有意愿的客户。
他不肯透露自己的客户是谁,或者他们为什么想要得到这些信息。但他表示,这些数据可能会在今后被用于恶意的黑客行动。
在网络安全与隐私领域,这则新闻还点燃一场关于我们是否应该担忧这种超级抓取行为的争论。
这里重要的一点是,这些数据库并不是通过侵入服务器或者社交媒体网站建立起来的。
它们的构建主要依靠使用自动程序抓取面向公众的平台数据,从中获取关于用户的一切免费可用信息。
理论上来说,大多数被集合的数据都可以通过从每个社交媒体资料页逐一摘录得到。当然,要想汇集黑客们收集到的这么多数据,需要花费多个人一辈子的时间。
到目前为止,今年已经至少发生过至少三起大型“数据抓取”事件。
今年4月,一个黑客出售了另一个从领英抓取的涉及5亿条记录的数据库。
同一周,另一名黑客在一个论坛上免费发布了一个抓取到的130万条Clubhouse用户档案的数据库。
同样在4月,一个黑客论坛上发布5.53亿脸书(Facebook)用户的信息,其中含有新旧抓取的资料,发布这则信息的黑客借此接受捐款。
而自称对脸书数据库负责的那名黑客,也自称汤姆·莱内尔。
我与汤姆在Telegram上交谈了三周多,Telegram是一个基于云的即时通讯应用程序。我们的一些信息和未接电话是在半夜收到的,其余通讯则是在工作时间进行,因此,我对他所在的位置一无所知。
关于他日常生活的唯一一条线索是一次他对我说,他不能接电话,因为他的妻子正在睡觉。此外,他白天有一份工作,做黑客是他的“爱好”。
汤姆告诉我,他打造7亿领英用户数据库所使用的技术,与他创建脸书用户清单使用的技术“几乎完全一样”。
他说:“这个工作花了我几个月时间。非常复杂。我必须侵入领英的API。如果你一次针对用户数据作出太多次请求,系统便会永久封禁你。”
API全称是应用程序编程接口(application programming interface),大多数社交网络都会出售其API伙伴关系,这样使得其他公司可以访问他们的数据,可以用于市场营销或搭建应用程序。
汤姆称,他找到了一个欺骗领英API软件的方法,可以在不触发警报的情况下让领英API向他提供大量记录。
率先发现这个数据库交易的公司Privacy Shark在浏览免费样品后发现,这些数据包括用户全名、邮箱地址、性别、手机号码以及所在行业信息。
领英坚持表示,汤姆·莱内尔没有使用他们的API,但同时承认,这些数据“包括从领英抓取的信息,以及从其他出处获取的信息”。
领英还表示:“这不是一次领英的数据泄露,也没有领英会员的私人数据遭到暴露。从领英上抓取数据是违反我们服务条款的做法,我们一直在努力确保我们会员的隐私得到保护。”
脸书在回应4月出现的数据担忧时,同样将那次事件视作以前的数据抓取事件而冷淡处理。脸书媒体联络团队甚至不小心向一名记者透露,他们的策略是“将数据抓取构述成一个广泛的行业问题,并将这一活动定义为定期发生的事情,使其正常化。”
然而,真实情况是,黑客们从这些数据库中赚取钱财,这让一些网络安全专家感到担忧。
SOS Intelligence是一家为企业提供收集威胁性情报服务的公司,其创始人及总裁埃米尔·哈济兹帕希奇(Amir Hadžipašić)每天日夜在各个黑客论坛上游走。当7亿领英用户数据库的消息一出现,他和团队便开始对数据进行分析。
他表示,无论是这起还是其他的大规模抓取数据事件,其中包含的信息都不是大多数人以为可以在公有领域看到的。他认为,API程序提供的与用户有关的数据多出了公众可以看到的范围,这种程序应该得到更加严格的控制。
“鉴于这些信息错综复杂的细节,比如在一些情况下包含地理位置或私人手机号码和邮件地址,像这样的大规模泄露是令人担忧的,”他说。
“大多会人会对这些API扩展服务拥有的如此信息量而感到惊讶。如果这些信息落在坏人的手里,可能会对一些人带来重大影响。”
汤姆·莱内尔说,他知道自己的数据库很可能会被用于实施恶意攻击。
他说,这的确“给他带来困扰”,但他不愿明说自己为何仍在继续做这样的抓取。
哈济兹帕希奇表示,购买领英数据的黑客可以将这些信息用于发动对高层目标(比如公司老板)的有计划的黑客攻击。
他还表示,单单是数据库中的活跃邮箱用户数量便有价值,因为黑客们可以用其进行大规模邮件钓鱼活动。
“这些数据本身就是公开的”
但是,网络安全专家特洛伊·亨特(Troy Hunt)相比之下对于最近的信息抓取事没有那么担忧。在他职业生涯当中,他的大部分时间都花在研究遭黑客入侵的数据内容上面,研究结果用于自己的网站haveibeenpwned.com。他认为,我们需要接受这些作为我们资料公开分享的一部分。
“这些绝对不是泄露,这中间没有含糊不清的地方。这些数据的大部分本身就是公开的,”他说。
“不过,在每起事件中我们要问的问题是,这些信息中有多少是用户选择公开可见的,有多少是没有打算让公众可以访问的。”
与埃米尔一样,特洛伊也认为我们应该改善对社交媒体网络API程序的控制,他表示,我们不能对这些事件做轻描淡写的处理。
“我不反对脸书和其他方的立场,但我觉得,‘这不是个问题’的这种回应虽然在技术上来说可能是准确的,但忽视了关注这些用户数据价值的意见,也可能是在淡化他们自己在这些数据库创建中的角色。”
莱内尔的行为很可能让他自己因知识产权盗窃或侵犯版权而被社交媒体公司起诉。如果他的真实身份被人发现,他或许并不会面临法律严惩,但当被问及是否担心被捕时,他表示,“不,没人可以找得到我,”之后便结束了我们的对话,只留下一句“祝你玩得开心”。