影刀RPA新手教程:自媒体博主工具箱完全指南——选题采集、数据分析与多平台发布自动化 影刀RPA新手教程自媒体博主工具箱完全指南——选题采集、数据分析与多平台发布自动化我做自媒体第三个月每天花在找选题上的时间比写文章还长。刷小红书、刷抖音、刷公众号把看到的好选题手动记到Excel里。每天这一套操作下来两个小时没了。后来我用影刀RPA做了一个选题采集器每天自动跑一次把三个平台的热门内容抓回来自动写入飞书多维表格。现在每天省两个小时一个月就是60个小时。这篇文章围绕多平台选题采集与数据分析这个真实案例展开全部是我自己跑通的流程。一、安装与准备博主的第一套自动化工具影刀RPA社区版免费下载安装过程不赘述了。关键是你要明确自己的需求是什么——你要采集哪个平台、采集什么数据、用来做什么。我建议博主们在安装完影刀之后先做一件事把你要采集的平台的网页版在浏览器里登录好。Cookie有了后面的采集流程就不需要反复处理了。浏览器插件安装完之后在扩展管理里确认影刀插件是启用状态。我第一次装完以为自动启用了结果捕获元素的时候怎么都抓不到排查了很久。界面布局指令面板在左侧流程画布在中间属性面板在右侧。做选题采集的话你最常用的是网页自动化和数据处理这两个大类的指令。二、元素定位四合一采集博主数据的核心技术选题采集的本质就是打开目标页面 → 定位到每条内容的元素 → 提取数据 → 翻页继续。元素定位不准后面全白搭。元素捕获是最快的但动态页面经常失效。小红书的页面是动态渲染的捕获到的XPath经常过几分钟就失效了。XPath是我采集时的主力工具。小红书笔记的XPath写法//div[classnote-item] ← 笔记卡片容器 //div[classtitle]/text() ← 提取笔记标题 //span[classlike-count]/text() ← 提取点赞数 //a[contains(href,/explore/)] ← 笔记链接 //div[contains(class,feed-item)] ← 动态class的匹配写法 //span[text()点赞]/following-sibling::span ← 取点赞后面的数字CSS选择器在小红书和抖音的页面上表现更稳定.div.note-item ← 笔记卡片 .div.title ← 标题 .span.like-count ← 点赞数 a[href*/explore/] ← 包含/explore/的链接正则表达式用在提取数字场景比如点赞数1.2万要转成数字(\d\.?\d*)(万|w|W) ← 匹配1.2万格式要转成12000 (\d) ← 纯数字点赞数 ![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/83993b9e1d884f429e2aa2a2d2c42862.png#pic_center)我当时踩过的坑小红书的点赞数有时候显示1.2万有时候显示12345还有时候显示点赞。要用正则先判断格式再决定怎么处理。三、变量与数据类型管理你的选题数据库选题数据要存起来还要做去重变量和数据类型是基础。字符串用来存标题、链接、作者名字。数字用来存点赞数、评论数、收藏数。拼多多店群自动化报活动上架# 单条选题数据title影刀RPA入门教程likes1234linkhttps://www.xiaohongshu.com/explore/xxx列表用来存一批选题。我每次采集到一页20条笔记先存在列表里统一写入Excel。字典用来存单条笔记的完整信息结构化清晰note{title:影刀RPA入门教程,author:林焱,likes:1234,link:https://xxx,collect_time:2024-03-15}JSON处理在调用平台API的时候用到。有些数据通过网页抓取拿不到比如账号的粉丝数可以调第三方数据平台的API返回的是JSON格式。importjson resp{code:0,data:{fans:12345}}datajson.loads(resp)![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/bf371fa7d45f463188435d1a491bb277.png#pic_center)fansdata[data][fans]我当时踩过的坑点赞数1.2万存到Excel里变成了日期Excel自动把1.2万识别成了1月2日。解决方法是在写入Excel之前把所有数字字段转成字符串前面加一个单引号强制当作文本。四、流程控制让采集流程会思考选题采集不是简单的重复操作中间有很多判断逻辑。If条件判断用来做去重这条笔记我已经采集过了吗采集过了就跳过没采集过才入库。ifnote_linknotincollected_links:save_to_excel(note)else:print(已存在跳过)循环是最核心的。采集20条笔记用ForEach循环翻页采集用While循环。While循环判断下一页按钮是否存在存在就点不存在就停止。这是我用得最多的翻页逻辑。# While循环实现翻页采集has_next_pageTruewhilehas_next_page:collect_current_page()# 采集当前页has_next_pagecheck_next_page()# 检查是否有下一页ifhas_next_page:click_next_page()# 点击下一页wait(3)# 等待页面加载相似元素循环用来处理笔记列表。页面上20条笔记用相似元素循环自动逐个处理不用手写20次。Try-Catch在所有数据采集步骤外面都要包一层。网络卡了、页面结构变了、弹窗出来了——这些意外情况都要能处理不能让整个采集流程中断。我当时没加Try-Catch跑了一个小时的采集流程中间遇到一个弹窗整个流程停了。后来数据只采了一半还要重新跑。五、网页自动化多平台采集的核心技巧网页自动化在选题采集里占90%的工作量。每个平台有不同的坑我一个个说。等待策略小红书和抖音都是动态页面必须用元素出现再继续不能用固定等待。固定等待在网速慢的时候会出问题。弹窗处理小红书登录的时候会弹二维码弹窗抖音会弹是否允许通知的弹窗。5步标准流程之前文章写过不再重复。翻页处理小红书的下一页按钮在滚动到页面底部才会出现所以翻页之前要先滚动到页面底部。# 滚动到底部触发下一页按钮出现scroll_to_bottom()wait_element_appear(下一页按钮,timeout10)click(下一页按钮)懒加载处理小红书首页的笔记列表是滚动加载的滚动一次加载一批。处理方案记录当前笔记数量 → 滚动 → 再统计数量 → 数量不变就说明加载完了。iframe处理抖音的登录框有时候在iframe里要先切换进去才能操作。窗口切换有些平台点击笔记会打开新标签页要用切换到指定窗口切换到新标签页采集完再切回来。六、数据处理把采集到的选题变成有价值的信息采集到原始数据之后要做清洗和分析才能真正用起来。Excel读写我每天把采集到的选题写入同一个Excel文件用追加模式不覆盖之前的。晚上分析的时候直接打开Excel看。# 用Python处理采集到的选题数据importpandasaspd dfpd.read_excel(选题库.xls)# 按点赞数排序找热门选题hot_notesdf.sort_values(点赞数,ascendingFalse).head(20)# 按关键词筛选rpa_notesdf[df[标题].str.contains(RPA|影刀|自动化)]文本提取与清洗笔记标题里经常有特殊字符emoji、换行符、引号写入Excel之前要清洗掉不然会报错。importre title影刀RPA真的太好用了# 去掉emoji和特殊字符clean_titlere.sub(r[^\u4e00-\u9fa5a-zA-Z0-9\s],,title)JSON解析有些平台的分享数据是用JSON格式存的要解析后提取。数据库连接我的选题库存在MySQL里方便按关键词、按时间、按点赞数范围查询。七、鼠标键盘图像自动化处理非标准场景有些操作网页自动化完成不了要用鼠标键盘模拟。模拟模式和驱动模式做选题采集一般用模拟模式就行速度快。但如果目标平台有反爬检测要用驱动模式更像真人操作。图像识别用在什么场景有些平台的点赞数不是文字是一张图片很少见但确实存在要用OCR识别图片里的数字。# 图像识别点击加载更多按钮# 有些平台的加载更多是Canvas绘制的抓取不到# 用图像识别点击wait_image_appear(load_more.png)click_image(load_more.png)锚点9位置偏移点击的位置不对可以用偏移调整。比如关注按钮图片识别默认识别整个按钮的中心但有些按钮点中心没反应需要偏移几个像素。八、进阶技能让选题分析更智能HTTP请求对接第三方数据平台API。新榜、飞瓜数据、蝉妈妈这些平台都有API可以直接拿到账号数据、热门内容数据比网页抓取稳定。importrequests urlhttps://api.xxx.com/hot_listparams{platform:xiaohongshu,category:科技}headers{Authorization:Bearer xxxxx}resprequests.get(url,paramsparams,headersheaders)hot_listresp.json()[data][list]Python协同做情感分析采集到评论数据之后用snownlp做情感分析判断用户对某个话题的态度是正面还是负面。fromsnownlpimportSnowNLP comment这个工具真的太好用了sSnowNLP(comment)print(s.sentiments)# 0.6是正面0.4是负面OCR文字识别用来处理笔记封面图里的文字。有些博主把核心信息写在封面图上要用OCR识别出来。ADB手机自动化有些平台小红书、抖音在手机端的反爬比网页端松可以用ADB控制手机做自动化。TEMU店群矩阵自动化运营核价报活动九、平台实战小红书抖音公众号三平台联动小红书采集的要点登录态保持Cookie、点赞数格式转换1.2万转成数字、图片封面采集存图片链接。抖音采集的要点抖音的页面是异步加载的等待时间要设长一点我一般设5-8秒。视频播放量在页面源码里不一定有要用正则从JS变量里提取。公众号采集的要点搜狗微信搜索weixin.sogou.com可以采集公众号文章。但微信的反爬很严建议用Cookie保持登录态并且控制访问频率。三平台数据汇总每个平台采集完统一写入同一个Excel文件字段对齐标题、链接、点赞数、平台、采集时间。十、系统联动让选题数据自动通知到你飞书消息通知每天采集完选题之后自动发一条飞书消息“今日采集选题XX条热门选题XXX”。飞书多维表格选题库存在飞书多维表格里随时随地用手机查看。我每天早上在地铁上刷一遍昨天的选题库挑几个值得写的。邮件发送把每周的热门选题汇总成报告发邮件给自己或者团队。定时任务每天凌晨2点自动跑采集流程这个时候平台流量低反爬也松一些。跑完自动发飞书通知。十一、工程化与规范博主的技术债管理子流程封装我把每个平台的采集流程封装成了独立的子流程小红书采集子流程、抖音采集子流程、公众号采集子流程。主流程按顺序调用三个子流程。调试技巧选题采集流程比较复杂我会在每个平台采集完成之后加一个打印日志输出小红书采集完成共XX条。出问题的时候一看日志就知道是哪个平台出了问题。命名规范变量名要有意义。platform_name比a好note_count比b好target_url比url1好。版本选择社区版够用。如果要做私有化部署比如团队共用一套采集流程可以考虑创业版。流程模板化采集流程的框架是通用的打开网页→登录→采集→翻页→保存不同平台只是元素定位不同。我把通用框架做成模板新平台来了改改XPath就能用。十二、速查表与常见报错博主常见问题元素定位失败小红书的class是动态生成的每次刷新都变。解决方法是用contains()模糊匹配或者用文字定位。XPath语法报错属性值里有空格或者特殊字符要用引号包起来。如果属性值里有引号要用单引号包双层。Excel报错写入数据之前要做去重不然同一个选题会被写入多次。去重用字典的键唯一性或者用pandas的drop_duplicates。循环报错相似元素循环在页面刷新之后找不到元素。解决方法是在循环体里加等待时间并且用Try-Catch包住每个循环体。弹窗拦截小红书和抖音经常弹登录弹窗、广告弹窗。要在每个关键步骤后面加弹窗检测。IP封禁采集频率太高会被封IP。解决方案是加随机等待时间2-5秒并且用代理IP池。反爬升级平台改版之后XPath失效。我的方案是每次运行流程之前先手动打开目标页面用检查元素确认XPath是否还有效。我把自己用的选题采集XPath模板整理了一份放在 home.linyan.cloud需要的朋友可以去下载。#影刀RPA #RPA教程 #自媒体工具 #选题采集 #多平台运营作者林焱