全网数据免费“白嫖”!这款开源爬虫神器,把竞品底裤都扒光

发布时间:2026-02-13 12:38  浏览量:1

抖音小红书都在防,爬虫却越用越顺,它到底动了谁的奶酪?

最近公司让我试试MediaCrawler,说是“不用API也能抓数据”。我本来以为又是那种点几下就崩、报错全是英文的工具,结果真跑起来了——小红书笔记能导出,抖音评论能翻到第二层,B站视频信息连发布时间和弹幕数都列得清清楚楚。没吹牛,也没骗人,就一个GitHub上开源的项目,代码都摊在那儿,谁都能看。

它不靠黑科技,就靠让浏览器“像真人”一样操作。比如打开小红书,它会等页面完全加载完再点下一页,滑动时还带点随机停顿,鼠标轨迹也不是直来直去。我不懂技术细节,但看得出来——它不硬撞门,是学着人敲门,等主人开门了再进去。代理IP池自己续命,滑块验证码用的是免费OCR模型,识别不准就暂停,不瞎试。

可它真不是万能的。抖音刷出来的“推荐流”,你让它抓,它试几次就放弃,因为根本没公开入口;小红书那些标着“仅好友可见”的笔记,它压根不碰,连按钮都没做出来;B站的弹幕它能存下,但不是实时的,就是定时截图那一秒的弹幕池,刷得快的直播间,漏掉一半都正常。这些不是bug,是设计时就画好的线。

我试过用它帮市场部扒竞品口红笔记。输几个关键词,开个代理,两小时后Excel里出来几百条笔记标题、点赞数、带图没图、高频词——“卡粉”“拔干”“显唇纹”都标好了颜色。但有意思的是,“卡粉”在27%的笔记里出现,可点开一看,有11条是在夸“这支哑光还卡粉?我嘴唇干成沙漠都没事”。工具不会读语气,它只数词,不判调。

另一个组用它盯抖音热门话题,再同步抓B站相关视频。结果发现,同一个梗在抖音是搞笑翻跳,在B站变成深度配音吐槽。数据对比表做得很干净,但最后要人工筛掉30%的营销号水稿,因为账号主页写着“接广”,头像却是AI生成的假脸。它只抓得准“发了什么”,抓不准“谁发的、为啥发”。

最让我意外的是,它自己设了红线。你在配置里把请求间隔改成1秒,程序直接报错退出,提示“请遵守最小3秒间隔”。这不是怕被封,是作者硬写的——就像电动车限速25km/h,不是跑不动,是不想让你骑上快车道。它还默认关掉了所有抓用户关系链的功能,小红书个人主页能看基础资料,但“关注了谁”“粉丝列表”这些字段,代码里压根没写。

法律上也卡得死。我查过,它的README里明确说:不能抓手机号、私信、地址这些。有次我手滑把微博用户私信接口的路径复制进去,运行后直接跳出红色警告:“检测到非公开接口调用,已终止。”不是系统挡,是代码自己刹车。这玩意儿不像某些打包软件,宣传页写“一键全网数据”,背后却偷偷埋调用私密接口的逻辑。

有人拿它做舆情预警。比如输入“XX手机 发烫”,自动抓微博热搜+贴吧帖子,关键词命中就发邮件。实际跑下来,告警85%准,但剩下的15%里,有“发烫”是因为某博主说“新火锅店发烫好吃”,还有“发热”误认成“发烫”。它不认识语境,只认字形。

它确实省了不少事。以前扒100条小红书,要手动翻页、截图、贴表格,现在脚本跑着,我还能去泡杯面。但它不会替你读评论,不会告诉你哪句话是反讽,也不会帮你判断“贵”是指定价高,还是性价比低。有一次我们导出一堆“太贵了”的吐槽,结果产品组查销售数据发现,这批人下单转化率反而是最高的——贵,可能是因为信任。

我翻过它的GitHub,最新一次更新是2月18号,改了小红书新版CSS选择器。说明它也在被平台推着走,不是稳坐钓鱼台。哪天B站把弹幕接口全切到Websocket长连,它就得重写一整套逻辑。它不神,也不坏,就是一个普通人写的、给普通人用的工具,有脾气,有底线,也有修不好的时候。

前几天我又用它抓了一波数据,导出后直接发给同事。她问我:“这个能直接给老板看吗?”我说不能,得加三行背景说明,再标出哪部分是机器数的,哪部分是我手动翻了50条评论才确认的。她点点头,没再问。

工具没腰线,人得有。