孔乙己教学设计 古有孔乙己 今有马蜂窝
【数字观察导读】互联网发展史几乎是一部充斥着爬虫与反爬虫的斗争史...
“不作恶”是全球最顶尖的科技公司——谷歌的座右铭,然而技术在商业化的的过程中总会不可避免地出现偏差,从而让许多企业身处舆论旋涡,一如现时的马蜂窝。
10月20日起,一篇题为《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城?》的自媒体文章被刷屏,作者梓泉在文章中指出,通过数据抓取和分析,发现马蜂窝多个账号涉嫌抄袭其他平台的餐饮和酒店点评,其比例占马蜂窝总点评数的85%。
针对内容数据造假一事,马蜂窝随后在10月22日作出回应,称其UGC(用户原创内容)数据中,点评内容仅占比2.91%,涉嫌虚假点评正在调查。与此同时,马蜂窝也强调这是一场“一次有组织的攻击行为”,并将文章发布方乎睿数据和作者梓泉告上法庭。
随后,梓泉则发布了一篇反击檄文—《我承认,我们是有组织攻击马蜂窝的》,文中表示还有更多的证据,已经做好了公证和司法鉴定,将在接下来逐步放出。而在10月23日下午,马蜂窝CEO陈罡在接受媒体采访时强调,“马蜂窝在餐饮等点评数据方面存在部分问题,但远没有外界所表述的那么夸大。
马蜂窝已开始对相关问题进行整改,并重新梳理工作流程,堵住漏洞。”值得一提的是,有媒体曝光马蜂窝新一轮融资已接近尾声,腾讯领投,估值20亿美金。
内容数据造假、黑公关、融资等交织在一起,使得“马蜂窝被捅”一事持续发酵,一些圈内外人士也纷纷发表自己的看法:
互联网行业专家王越表示,“像类似马蜂窝去抓取其他网络预订同行的内容数据这种情况,应该也相对来讲在业内是司空见惯的,大家都也是知道的,只不过就是抓取或者是抄袭的程度、方法手段各有不同。”
也有业内人士认为,“因为该事件发生的时间接近马蜂窝新一轮融资时间,也不能完全排除马蜂窝被抹黑的可能,具体要看此后的事态发展。”
但不管事情的真相到底为何,马蜂窝、旅游行业、UGC产业都将处于“旋涡”的正中心。
创立于2006年的马蜂窝一直是旅游行业中的一个异类,最早以旅行游记、攻略起家,从建立起一个聚焦于“驴友”的社群入手,激励用户创作UGC内容(游记、攻略、评论等),进而吸引基数庞大的旅游爱好者前来浏览、借鉴,进而为OTA等旅游平台、商家引流,由此完成自己的变现之路。
除此之外,借助2017年的D轮1.33亿美元的融资,马蜂窝还开始向旅游行业中游进军,深耕自由行供应链,扩展酒店、目的地市场资源,建立强大稳定的供应商体系。
公开资料显示,马蜂窝自称是“全球旅游消费指南”,覆盖全球200多个国家和地区、1亿位旅行者、92万家国际酒店、2100万条真实点评、3.82亿次攻略下载。而在此基础上,马蜂窝CEO陈罡希望在三年内将马蜂窝打造成为中国最大的旅游流量平台,并通过用户的决策能够与相匹配的旅游产品顺利“连接”,从而顺势而为地对接交易,形成从认知到决策、消费、分享的全链路闭环。
在马蜂窝的旅游闭环生态中,UGC内容始终占据着举足轻重的地位,为了进一步商业化,则要继续增加评论和游记数量。此前有媒体报道,马蜂窝发动了很多内部员工撰写,直到近期又爆出直接从国内外网站“抄袭”、“搬运”。
事实上,点评内容“搬运”基本上可以看作是旅游OTA行业公开的秘密,而数据抓取问题也是中国互联网公司的通病。就像“老道消息”在微博上所感叹:涉及上千万条点评内容的爬取,看似严重,其实只“是一个行业平均水平。某两个听书App之前对活跃用户的注水,也是这个水平。对创业公司提供的数据做减零处理,有助于你正确认识这家公司的基本面,这是投资行业常识了吧”。
“老道消息”的评论未必全部属实,但却反映出当下互联网上数据爬取行为之泛滥。网络爬虫,又被称为网页蜘蛛、网络机器人,是按照一定的规则,自动地抓取网络信息的程序或者脚本。网络爬虫不仅能够抓取网页商品、服务、文字、图片等关键的静态网页信息,还能够爬取用户评价、价格和账户等动态信息等。根据爬虫协议,大部分爬虫内容采集是合法的,而被采集到的内容如何使用却经常引发纠纷。
整个互联网发展史几乎是一部充斥着爬虫与反爬虫的斗争史,比如淘宝曾与百度发生过爬虫摩擦,公开屏蔽百度爬虫对淘宝内容的抓取;京东也曾屏蔽过一淘搜索的爬虫。而在大数据科技平台中,网络爬虫现象也十分常见,某个源头数据出错,其竞争对手也往往会出现连带错误,这就是网络爬虫的“功劳”了。
此次“马蜂窝被捅”风波,让OTA或者UGC行业的数据抓取和抄袭的“灰色产业链”暴露在大众视野中。一些细心的用户发现,在淘宝上即有全新的马蜂窝账号出售,一毛八一个,其用途不言而喻;此外,还有专门为商家提供用户点评和游记内容推广服务的店铺,从别处抓取的3元一条,原创点评4元一条。
餐饮、酒旅等商家有需求,就滋生了专门为他们服务的各种店铺,而这些店铺“原创”或者“爬取”的内容又营造了旅游平台用户高度活跃的表象,有利于平台的后续融资和发展,他们怎么可能不乐意呢?
至于由此造成的知识产权纠纷,就如孔乙己反问的那样:“窃书不能算偷……窃书!……读书人的事,能算偷么?”。在互联网时代下,“内容人的事,能算窃么?”君不见,新的知识产权立法正在赶来的路途中!
*本文作者圈哥。欢迎添加数字观察官微小妹(ID:heimahui2),加入B2B行业VIP社群(请备注姓名-公司-职位,无备注者不予通过)。返回搜狐,查看更多