公共搜索采集 - Demand Radar OS

公共搜索补样怎么用

本页功能

用 subreddit 和 seed 小规模抓公开搜索结果，补充某个场景或产品验证的证据。

存储位置

RawItem；metadata_json 会记录 seed、query、permalink 等来源信息

归类方式

入库时做去重和意向分类；后续由 Demand Extractor 归入 Scenario。

下一步

采集完成后回场景库分析未处理原文。

输入 subreddit 和搜索 seed，系统会从公开 Reddit 搜索结果抓取帖子，立刻做 Redis/文本哈希去重、意向分类，并写入 RawItem。

这是轻量级公共搜索适配器，不需要 Reddit OAuth；如果遇到限流或稳定性要求更高，后续可替换为第三方社媒数据服务适配器。

1. 定义监听目标产品、品类、竞品、用户场景

2. 发现社区相关 subreddit 和相邻人群社区

3. 生成搜索 Seed痛点词、求推荐词、替代品词

4. 自动采集Apify / 公共搜索 / 数据服务 / 搜索索引适配器

5. 意向分类购买、吐槽、痛点、场景提问

6. 需求沉淀Demand -> Scenario DNA -> 机会评分

第一步

先不要全网乱抓。用产品反推验证或人工输入确定 5-20 个种子。

第二步

优先监听垂直社区和真实生活场景社区，不只看大而泛的板块。

第三步

数据源适配器就是“把不同来源的数据，统一翻译成 RawItem 可入库格式”的模块。业务流程不绑定单个 API，采集层可以替换。

手动导入只作为兜底和校验样本，不是主流程。

第四步

采集到的文本统一进入 RawItem，后面的流程保持一致。

运行 Apify 采集手动导入兜底样本