首页 >>  正文

免费网络爬虫网站

来源:baiyundou.net   日期:2024-08-22

前段时间,一个开发者做出了可以识别出原神玩家的代码,经过数个人的迭代优化,在互联网上迅速传播开来。通过代码给网友打上标签,就能更方便地找到同好或者屏蔽某个群体。但这种做法,真的更好吗?本文作者对此分享了自己的观点,一起来看看吧。

十几天前,在为C端用户提供拓展脚本的论坛网站Greasy Fork上,一位开发者做了一款“原神玩家指示器”。据开发者留下的公开信息,此拓展脚本主要应用于B站视频的评论区,安装了该工具的用户可以识别出发言的网友是否为原神玩家。

图源:网站截图

识别的方式也很简单,经过拓展脚本的筛选,符合条件的网友会在其头像与昵称的后面,被标注上“原神玩家”几个字。

图源:B站评论区截图

这款拓展脚本一经发布,就引起了游戏玩家的强烈反响。在Greasy Fork这个较为小众的用户脚本论坛上,原神玩家指示器的安装量已达数万次,反馈中,不少用户将其称之为“本年度最好用的脚本”、“这个伟大的发明仅次于第一定律”、“几个字就能带来极致的精神享受”。

不仅如此,由于该开发者表示自己是做着玩的、不太会迭代更新,但部分用户确实在使用中发现了一些bug,于是论坛上涌现了很多愿意参与其中的开发者,有的人制作出了“原神玩家指示器升级版”,有的发明了适用于B站、微博、知乎在内的全平台版本脚本,还有的将王者荣耀、明日方舟、新三相之力等大热游戏都涵盖在内,支持识别更多游戏玩家群体。

在使用了该拓展脚本的用户界面中,每个网友的昵称后面被贴上了五颜六色的标签,且针对不同标签的群体数量,指示器还会显示“普通”、“稀有”、“史诗”、“隐藏”等前缀。

而指示器检测不出任何标签的用户,会被标注为“普通|纯良”。

图源:升级版本的指示器,为网友打上了五颜六色的标签

这场始于游戏圈的“指示器”制作大赛到这里并没有结束。

为了响应用户们对其他领域身份识别的需求,越来越多类型的指示器出现在了拓展脚本的论坛上,包括识别虚拟主播(Vtuber)的V圈指示器、明星粉丝的饭圈指示器、苹果/华为用户的指示器、抽奖转发参与者指示器……..

匿名开发者们很快制作出了应用范围更广的拓展脚本。在一个名为“成分指示器”的脚本中,用户可以通过自定义关键词来实现识别不同网络群体的目的。换言之,这款“指示器”是一个可供用户个性化使用的“给网友打标签机器”。

仅从技术实现角度来看,指示器的制作并不复杂。

它主要利用了爬虫技术来读取社交平台的API数据,通过挖掘评论区和用户发布动态的内容,按照一定的匹配规则进行筛选。这种爬虫技术最早应用于互联网搜索引擎中,近年来曾被大数据公司用于获取用户个人信息和简历,一些公司对它的滥用也助长了互联网金融借贷的导流获客和暴力催收等行业乱象。

虽然随着AI技术的发展,很多互联网平台开启了智能反爬虫功能来保护用户的个人隐私,但对于社交媒体平台来说,用户所发布的动态、评论转发点赞的内容,以及头像和昵称等公开信息,仍可以被爬虫软件轻易获取。

一方面是拓展脚本的技术实现成本和用户获取成本无限低,另一方面则是互联网世界的割裂程度的加剧,于是爬虫“摆脱”了商业目的的束缚,爬到了数万网友的手中。

在最先火出圈的“原神玩家指示器”拓展脚本评论区中,已经聚集了很多对原神游戏及其玩家具有负面情绪的用户,在不少用户互动对话里,也开始了基于各自喜爱游戏立场的对线。

图源:Greasy fork论坛截图

整体来看,这类“对线”针对游戏内容本身的并不多,更多是在以游戏作为标签对社交媒体上的陌生网友进行群像化分类。事实上,很多用户需要“网友指示器”的原因,是希望对社交媒体中发表与自身观点相反、谈论自己不喜内容,或曾就某议题产生过争执的陌生网友,找到一种标签式的合理解释。

借助指示器来给网友打标签的人中,相当大一部分用户的诉求是——屏蔽不想看的标签内容与社交账户。

  • “谢谢你,我真的很需要这个,如果能屏蔽掉这一群体的发言就更好了。”
  • “请问可以改成屏蔽id及内容吗?不关心是不是,就是不想看。”
  • “需要一键拉黑功能,如果可以自动屏蔽就更好了。”

而能成功实现这种诉求的拓展脚本也很快被制作出来。

事实上今天的头部社交媒体平台上,屏蔽和拉黑早已成为必不可少的功能。以微博为例,仅在拉黑上就做过多次调整,包括主页是否可见、发文对谁可见、谁能参与评论在内的一系列具体功能,用户都有着相对细分的选择权限。即使对零互动的陌生网友所发内容,微博也设置了屏蔽关键词的功能。

但看起来这些出于预防网络暴力目的推出的功能对不少用户来说还是不太够。

不少使用了此类指示器的用户发帖表示,他们反向追溯了以往看不惯的网友发言内容,不出意料地发现这些网友果然被打上了某类标签。

图源:某网友发言截图

一些有意思的变化也随之发生,这一方面令他们更加确定了自己对某类观点或内容的厌恶是正确的,另一方面也加深了他们对某个标签化群体的厌恶情绪。

而不少网友显然并不满足于只是识别出来“敌军”。

有网友观察到,一些网络对线爱好者在B站和微博等社交媒体开启了“猎巫”行动,他们不在乎网友们具体发表了什么内容和观点,而是专注于寻找被指示器打上了某类标签的群体,并进行无差别攻击。

一个荒谬的例子是,在“原神指示器”早期版本中,因为脚本的不完善,所有网友的发文内容之要含有“原”和“神”两个字,都会被指示器打上标签。于是,在一些名为“还原神州飞船”和“感染源神出鬼没”的发问评论区中,明明内容与游戏毫不相关,却出现了游戏玩家或团建或对线的群体行为。

当然,也有很多用户认为用指示器给网友打标签只是图个乐玩一玩,并且随着安装脚本用户的激增,大量发送到社交媒体服务器的数据请求,也很可能已经引起了平台方的注意,对于滥用爬虫技术的行为,开发者面临着被平台方起诉的风险,而使用者的账号也存在被封禁的可能。

图源:一款应用于B站的标签化视频屏蔽脚本/网络截图

看着这类指示器的流行,很容易让人再次确信,这些年互联网对人们思维的最大改造就是贴标签。移动互联网时代的平台无论是短视频,资讯、外卖、出行还是电商购物,只要有用户账号存在的地方,平台系统都在以打标签的方式将用户分门别类,再通过算法来推荐偏好内容或服务。

现在看来网友们也开始用同样的方法对待彼此了。

作者:沈丹阳

来源公众号:品玩(ID:pinwancool),有品好玩的科技,一切与你有关。

本文由人人都是产品经理合作媒体 @品玩 授权发布于人人都是产品经理,未经许可,禁止转载。

题图来自Unsplash,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

","force_purephv":"0","gnid":"962c079662708fd8c","img_data":[{"flag":2,"img":[{"desc":"","height":"420","title":"","url":"https://p0.ssl.img.360kuai.com/t01f39c43b113fc11d4.jpg","width":"900"},{"desc":"","height":"315","title":"","url":"https://p0.ssl.img.360kuai.com/t01e13f72048dd0d180.jpg","width":"656"},{"desc":"","height":"227","title":"","url":"https://p0.ssl.img.360kuai.com/t013b4621b4eba86899.jpg","width":"680"},{"desc":"","height":"668","title":"","url":"https://p0.ssl.img.360kuai.com/t015c579163b6b1087a.jpg","width":"750"},{"desc":"","height":"230","title":"","url":"https://p0.ssl.img.360kuai.com/t01100891ba80e1282c.jpg","width":"750"},{"desc":"","height":"157","title":"","url":"https://p0.ssl.img.360kuai.com/t01f8b436008ca19790.jpg","width":"648"}]}],"original":0,"pat":"art_src_3,fts0,sts0","powerby":"hbase","pub_time":1663558500000,"pure":"","rawurl":"http://zm.news.so.com/9de3dfec69c78bac91759abbf7c16b8e","redirect":0,"rptid":"e3275bc5a97b391e","s":"t","src":"人人都是产品经理","tag":[],"title":"这届网友已经开始用爬虫互相贴标签了

郭嵇矩5078有什么基于浏览器内核的爬虫 -
充转变19348327960 ______ 前嗅的ForeSpider数据采集系统,内置的是IE内核的浏览器,可以在内置浏览器上通过选区,采集对应的内容.ForeSpider是可视化的通用性采集软件,同时内置了强大的爬虫脚本语言.如果有通过可视化采集不到的内容,都可以通过简单几行...

郭嵇矩5078谁写过类似爬虫,抓取网页的程序 -
充转变19348327960 ______ ForeSpider是可视化的通用性采集软件,同时内置了强大的爬虫脚本语言.如果有通过可视化采集不到的内容,都可以通过简单几行代码,实现强大的脚本采集.软件同时支持正则表达式操作,可以通过可视化、正则、脚本任意方式,实现对数...

郭嵇矩5078python爬虫爬什么网站好 -
充转变19348327960 ______ 这种情况我自己还没有试过,只是借助爬虫框架pyspider结合PhantomJS,这样就可以在python里面嵌入一些js代码,实现点击,下拉等操作啦.

郭嵇矩5078爬虫软件哪家可以实现爬取全网 -
充转变19348327960 ______ 用 下 发 源 地 采 集 引 擎 , 云 端 s a a s 采 集 , 高 匿 名 分 布 节 点 , 我 们 公 司 现 在 用 下 来 还 没 有 不 能 爬 取 的 网 站 , 性 价 比 很 高 .

郭嵇矩5078现在有哪些适合练手爬虫技术的网站 -
充转变19348327960 ______ 房天下吧 爬爬房产数据

郭嵇矩5078python网络爬虫可以干什么? -
充转变19348327960 ______ 从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止.如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来. 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫.

郭嵇矩5078python 爬虫 ip池怎么做 -
充转变19348327960 ______ Python爬虫采集信息都是采用IP进行更改,不然就不能快速的爬取信息,可以加入采用这类方式,就失去了快速抓取的意义.所以,如果要大批量的抓取信息,就不能避免的使用IP池,针对Python爬虫使用的IP池,是如何搭建起来的呢?接下来...

郭嵇矩5078Python网络爬虫解析数据包有哪些 -
充转变19348327960 ______ 1、fiddle抓包2、chrome浏览器network3、火狐浏览器network

郭嵇矩5078如何使用爬虫做一个网站? -
充转变19348327960 ______ 做法:传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件.聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与...

郭嵇矩5078多可网络爬虫使用说明 怎么使用网络爬虫 -
充转变19348327960 ______ 搜索引擎使用网络爬虫寻找网络内容,网络上的HTML文档使用超链接连接了起来,就像织成了一张网,网络爬虫也叫网络蜘蛛,顺着这张网爬行,每到一个网页就用抓取程序将这个网页抓下来,将内容抽取出来,同时抽取超链接,作为进一步...

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024