NovaEdge logo

公共搜索采集

辅助入口。按 subreddit 和搜索 seed 抓公开结果,适合小规模补样本;主采集优先走 Apify。

公共搜索补样怎么用

本页功能

用 subreddit 和 seed 小规模抓公开搜索结果,补充某个场景或产品验证的证据。

存储位置

RawItem;metadata_json 会记录 seed、query、permalink 等来源信息

归类方式

入库时做去重和意向分类;后续由 Demand Extractor 归入 Scenario。

下一步

采集完成后回场景库分析未处理原文。

运行公共搜索采集

输入 subreddit 和搜索 seed,系统会从公开 Reddit 搜索结果抓取帖子,立刻做 Redis/文本哈希去重、意向分类,并写入 RawItem。

这是轻量级公共搜索适配器,不需要 Reddit OAuth;如果遇到限流或稳定性要求更高,后续可替换为第三方社媒数据服务适配器。

自动化主链路

1. 定义监听目标产品、品类、竞品、用户场景
2. 发现社区相关 subreddit 和相邻人群社区
3. 生成搜索 Seed痛点词、求推荐词、替代品词
4. 自动采集Apify / 公共搜索 / 数据服务 / 搜索索引适配器
5. 意向分类购买、吐槽、痛点、场景提问
6. 需求沉淀Demand -> Scenario DNA -> 机会评分
第一步

从产品或品类生成监听种子

先不要全网乱抓。用产品反推验证或人工输入确定 5-20 个种子。

  • 产品词:rolling side table
  • 场景词:small apartment couch storage
  • 痛点词:living room clutter
  • 求推荐词:recommend narrow side table
  • 竞品/替代词:coffee table alternative
第二步

确定目标 subreddit 池

优先监听垂直社区和真实生活场景社区,不只看大而泛的板块。

  • 品类社区:家居、宠物、厨房、科技、时尚
  • 场景社区:小户型、租房、育儿、通勤、露营
  • 问题社区:收纳、清洁、维修、焦虑、效率
  • 竞品社区:品牌、产品类别、替代方案

Reddit 上应该自动抓什么

强意向搜索式

  • where can I buy {product}
  • best {category} for {scenario}
  • recommend {product} for {problem}

痛点搜索式

  • struggling with {problem}
  • {scenario} is annoying
  • how do I fix {problem}

竞品吐槽式

  • {competitor} broke
  • {product} alternative
  • waste of money {category}
第三步

选择自动化数据源适配器

数据源适配器就是“把不同来源的数据,统一翻译成 RawItem 可入库格式”的模块。业务流程不绑定单个 API,采集层可以替换。

  1. Apify Actor:优先作为自动化采集入口,输出 dataset 后统一写入 RawItem。
  2. Reddit 公共搜索适配器:按 subreddit + seed 抓取公开搜索结果。
  3. 第三方社媒数据服务:用于稳定获得公开社媒文本。
  4. 搜索引擎索引:用 site:reddit.com/r/... 获取公开结果,再解析标题和摘要。
  5. 合规页面解析:只处理公开页面,不绕登录、不抓私密内容。
手动导入只作为兜底和校验样本,不是主流程。
第四步

进入系统处理链路

采集到的文本统一进入 RawItem,后面的流程保持一致。

  1. Redis + 文本哈希去重。
  2. LLM 意向分类:购买、吐槽、痛点、场景提问、求推荐。
  3. 过滤低价值噪音。
  4. Demand Extractor 抽取痛点、结果、情绪、产品提及。
  5. Scenario Engine 聚类成可复用场景。
  6. 人工审核决定拍摄、保留、拒绝或合并。

当前可操作导航