从产品或品类生成监听种子
先不要全网乱抓。用产品反推验证或人工输入确定 5-20 个种子。
- 产品词:
rolling side table - 场景词:
small apartment couch storage - 痛点词:
living room clutter - 求推荐词:
recommend narrow side table - 竞品/替代词:
coffee table alternative
辅助入口。按 subreddit 和搜索 seed 抓公开结果,适合小规模补样本;主采集优先走 Apify。
用 subreddit 和 seed 小规模抓公开搜索结果,补充某个场景或产品验证的证据。
RawItem;metadata_json 会记录 seed、query、permalink 等来源信息
入库时做去重和意向分类;后续由 Demand Extractor 归入 Scenario。
采集完成后回场景库分析未处理原文。
输入 subreddit 和搜索 seed,系统会从公开 Reddit 搜索结果抓取帖子,立刻做 Redis/文本哈希去重、意向分类,并写入 RawItem。
先不要全网乱抓。用产品反推验证或人工输入确定 5-20 个种子。
rolling side tablesmall apartment couch storageliving room clutterrecommend narrow side tablecoffee table alternative优先监听垂直社区和真实生活场景社区,不只看大而泛的板块。
where can I buy {product}best {category} for {scenario}recommend {product} for {problem}struggling with {problem}{scenario} is annoyinghow do I fix {problem}{competitor} broke{product} alternativewaste of money {category}数据源适配器就是“把不同来源的数据,统一翻译成 RawItem 可入库格式”的模块。业务流程不绑定单个 API,采集层可以替换。
site:reddit.com/r/... 获取公开结果,再解析标题和摘要。采集到的文本统一进入 RawItem,后面的流程保持一致。