摘要
Fundraisly 作为聚焦一级市场创业融资场景的专用型多智能体系统,核心落地能力为30 万 + 投资人全域画像解析、百万级投融资交易行为挖掘、创始人社交网络温热链路图谱构建、分层式投资人冷启动智能触达、最终量化输出 20~40 场高质量投融资对接会议。本文完全剥离产品营销、商业化收益描述,从底层分布式数据基建、多源异构数据 ETL 架构、投资人知识图谱构建、多阶段分层匹配算法、社交网络最短温热路径求解、LLM 驱动个性化冷触达智能体、全链路强化学习迭代优化、工程部署与性能调优、隐私合规技术实现九大维度,系统性拆解 Fundraisly 全栈技术原理、算法细节、工程落地难点与优化方案。全文依托一级市场创投大数据、图神经网络、检索增强生成 RAG、多智能体编排、PPO 强化学习等前沿技术体系展开论述,为投融资 AI 产品研发、一级市场大数据平台落地提供可复用技术参考。
1 绪论:Fundraisly 产品技术定位与系统整体架构
1.1 产品技术定位与场景技术痛点拆解
传统创业融资全流程中,投资人筛选、人脉挖掘、投资人邀约三个环节长期依赖人工线下尽调、行业人脉打听、批量模板邮件群发,全链路存在四大原生技术痛点,也是 Fundraisly 智能体产品立项的技术出发点,本节仅从技术瓶颈维度拆解,不描述商业化痛点: 第一,投融资数据源碎片化、异构化。全球一级市场投资人数据分散于机构官网、IPO 招股书、创投新闻、工商公示、职业社交平台等数十类异构数据源,结构化字段(投资金额、投资轮次)、半结构化(机构介绍 JSON)、非结构化(访谈稿件、研报、BP 文档)数据混杂,传统关系型数据库无法完成跨源数据归一化,人工整理单赛道投资人清单耗时数周,单人工单日有效筛选投资人上限 10~15 人,数据处理效率存在量级鸿沟。 第二,投资人投资活跃度无法量化。过往投融资系统仅依托历史投资案例静态打标签,无法区分 "3 年内持续出手的活跃投资人" 与 "基金到期、暂停新投的休眠投资人",缺乏基于百万笔交易时序数据的 RFM 时序行为建模技术,静态标签匹配命中率不足 40%。 第三,创始人社交隐性关系无法自动化挖掘。创始人个人社交网络包含校友、前同事、合作服务商、行业峰会人脉等多层隐性关联,传统通讯录工具仅存储显性好友,无法通过跨主体关联数据构建全链路关系网络,最短温热引荐路径依赖人工逐一打听,隐性人脉挖掘覆盖率不足 15%。 第四,冷触达文案同质化严重、转化无闭环优化。通用模板化邮件 / 私信缺少针对投资人投资偏好、近期动态、持仓缺口的个性化内容,传统固定模板文案回复率长期低于 6‰,且无数据回流闭环,无法基于触达反馈迭代文案生成策略。
Fundraisly 在技术定位上,是多智能体协同架构的垂直领域专用 Agent 集群,区别于通用大模型 Agent,系统围绕一级市场投融资领域做领域微调、知识库定制、专用算法封装,整体遵循 "感知 - 存储 - 建模 - 匹配 - 触达 - 反馈迭代" 的闭环智能体运行逻辑,划分为数据采集智能体、投资人画像建模智能体、图谱构建智能体、路径挖掘智能体、冷触达生成智能体、效果评估智能体六大子 Agent,各子 Agent 通过 MCP 模型通信协议完成任务编排、数据交互与结果流转。
从技术边界划分,Fundraisly 不依赖第三方商用投融资数据库 API 做数据兜底,底层自建全域投融资大数据仓库,独立完成从原始数据爬取、清洗、结构化、建模全链路;上层业务逻辑全部算法驱动,无人工录入投资人信息、无人工手动筛选投资人、无人工撰写触达文案,全流程由多智能体自主调度完成。
1.2 系统五层整体技术架构详解
Fundraisly 采用企业级大数据标准五层分层架构,自下而上依次为数据源接入层、分布式数据处理层、知识与算法建模层、多 Agent 调度决策层、业务应用输出层 ,配套独立的隐私合规管控层、全链路运维监控层两大支撑模块,整体基于 K8s 容器化部署,各层完全解耦,可横向弹性扩容算力,适配 30 万 + 投资人、数百万投融资交易数据的 PB 级数据存储与实时计算需求。
- 数据源接入层:异构数据源统一接入网关,集成分布式爬虫集群、第三方合规开放 API、用户私有社交数据上传接口、非结构化文档解析接口四大接入通道,完成全源原始数据落地,原始数据包含结构化交易数据、半结构化机构档案、非结构化新闻 / 访谈 / BP 文本、社交关系原始数据四类,本层不做数据清洗,仅做原始数据落盘与格式初步标准化。
- 分布式数据处理层:系统数据中台核心,基于 HDFS 分布式文件系统做冷数据存储,ClickHouse+Apache Doris 做 OLAP 实时分析,Spark 批处理 + Flink 流处理构成混合计算引擎,完成全量数据去重、脏数据剔除、字段归一、实体对齐、特征提取等 ETL 全流程,处理后的数据分层存入数仓 ODS 层、DWD 明细层、DWS 汇总层,为上层建模提供标准化数据集。
- 知识与算法建模层:系统 AI 能力底座,细分三大子模块:①向量存储模块(Milvus 分布式向量库),存储投资人、赛道、项目的 Embedding 特征向量;②混合图存储模块(NebulaGraph+Neo4j 双图数据库),承载一级市场投融资知识图谱与创始人个人社交图谱;③算法仓库模块,内置投资人匹配算法库、图路径搜索算法库、NLP 预训练微调模型库、强化学习奖励模型库,所有算法模块化封装,支持 Agent 动态调用。
- 多 Agent 调度决策层:基于 LangChain + 自研任务编排引擎实现六大子智能体的任务分发、优先级调度、异常重试,依托 CoT 思维链 + ReAct 反思机制拆解融资全流程复杂任务,将 "筛选活跃投资人 - 挖掘温热路径 - 生成冷触达内容" 拆解为数十项原子子任务,智能体自主决策调用底层算法与数据资源,根据中间结果动态修正后续执行策略。
- 业务应用输出层:标准化 API 输出模块,对外输出投资人分层清单、温热引荐链路明细、个性化触达素材、会议邀约转化率预测报告四类结构化数据,不耦合前端页面,支持第三方 SaaS 系统对接。
配套支撑层说明:隐私合规层依托差分隐私、数据脱敏、数据访问鉴权技术实现全链路用户与投资人隐私保护;运维监控层基于 Prometheus+Grafana 实现算力占用、数据处理速率、算法推理耗时、Agent 任务成功率全指标实时监控。
1.3 全链路技术栈清单
1.3.1 大数据技术栈
存储:HDFS、ClickHouse、Doris、HBase、MinIO 对象存储;计算:Spark3.x、Flink1.18、Hive;调度:Airflow 分布式任务调度;数据治理:Apache Atlas 元数据管理。
1.3.2 图数据库与向量库
图存储:NebulaGraph(亿级边海量图谱)、Neo4j(中小规模社交图谱);向量检索:Milvus2.5 分布式集群;Embedding:BGE-large、m3e-large 领域微调版。
1.3.3 AI 与大模型技术栈
基础底座:开源 LLM 基座(Llama3、Qwen2)领域微调;Agent 框架:LangChain、自研 Agent 调度内核;NLP 工具:Hugging Face Transformers、spaCy、LTP 中文实体抽取;强化学习:TRL、PPO 近端策略优化框架。
1.3.4 工程部署技术栈
容器编排:Docker、Kubernetes;网关:Nginx、Spring Cloud Gateway;监控:Prometheus、Grafana、ELK 日志栈。
2 底层大数据基建:30 万投资人 + 百万交易数据集全域采集与 ETL 工程实现
Fundraisly 底层核心资产为302761 位全球投资人主体数据、217.4 万条全生命周期投融资交易记录,数据集建设周期 28 个月,整体采用 "分布式爬虫集群 + 合规开放 API 补充 + 非结构化文档 OCR+NLP 信息抽取" 多源融合采集方案,本章节从数据源分类、爬虫集群架构、分层 ETL 流水线、数据实体对齐技术四个维度展开,全部为落地技术细节。
2.1 六大类异构数据源分类与采集规则设计
系统数据源划分为 6 大类,每类数据源配置独立爬虫规则、解析引擎、数据落地格式,从数据权威性由高到低排序:
- 资本市场法定披露数据源(权威结构化):美股 SEC EDGAR 公告、港股披露易、各国证监会企业融资公示、IPO 招股说明书、并购重组公告,数据源特点为字段标准化、法律效力高、无虚假信息,核心采集字段:投资方名称、投资金额、持股比例、投资时间、项目所属赛道、投资轮次(Pre-A/A/B/C/PE)。针对 PDF 格式招股书,采用 Layout-aware 结构化 OCR 引擎,区分财报表格、正文文本、附件注释,自动抽取表格内投融资数据,规避纯文本 OCR 行列错乱问题。全量累计抓取公告文档 142 万份,提取有效交易数据 89.6 万条。
- VC 机构官方自有数据源(半结构化):全球各创投基金官网团队介绍页、投资组合专栏、机构动态新闻,数据源为网页 JSON 接口 + 静态 HTML 混合格式,核心采集实体:基金管理人(GP/VP/ 合伙人)姓名、任职机构、从业履历、官方披露投资赛道偏好、单笔常规出资额度、基金存续到期时间。爬虫区分静态页面与动态 JS 渲染页面,JS 页面采用 Playwright 无头浏览器集群渲染后解析 DOM,规避接口加密反爬。累计收录全球 VC 机构 12847 家,关联投资人 9.2 万人。
- 创投行业媒体非结构化数据源(文本类) :全球中英文创投垂直媒体(36Kr、Crunchbase TechCrunch 等)投融资快讯、投资人专访、行业盘点稿件,数据全部为自由文本,无固定字段,依靠 NLP 实体抽取实现结构化落地,抽取实体:投资人、项目名称、投资时间、融资金额、赛道、投资逻辑。本数据源是投资人隐性投资偏好、近期出手动态的核心信息来源,累计抓取新闻文本 530 余万篇,新增补充交易数据 72.3 万条。
- 职业社交平台关系数据源(关系类):LinkedIn 等合规开放数据接口,采集投资人、创始人的教育履历、任职经历、共事记录,是构建校友、前同事温热关系的底层数据源,采集规则仅拉取平台公开字段,不爬取私有隐私信息,累计采集职场关联关系数据超 1200 万组。
- 第三方合规商用开放 API 数据源(补充兜底):合规一级市场数据库开放 API,仅作为爬虫缺失数据补充,不做主力数据源,每日增量同步变更数据,避免全量拉取带来的成本与数据冗余。
- 用户自有私有数据源(创始人侧):用户上传个人通讯录、过往合作清单、参会记录等私有数据,数据全链路本地脱敏,遵循数据不出域原则,仅用于构建创始人专属社交子图谱,不汇入全域投资人公共数据库。
2.2 分布式爬虫集群架构与反爬技术落地
Fundraisly 爬虫集群基于 Scrapy-Redis 分布式改造,采用主从分片 + IP 代理池动态调度架构,集群划分为 32 个分片节点,每个节点独立负责一类数据源抓取,分片间通过 Redis 做任务队列共享,解决海量数据源抓取的任务分配、去重、反爬三大工程难点:
- URL 全局去重机制:基于布隆过滤器(Bloom Filter)构建全局 URL 去重池,Redis 集群分片存储布隆过滤器位图,新增抓取链接先经过布隆过滤器校验,已存在链接直接丢弃,避免重复抓取同源页面,布隆过滤器误判率控制在 0.003% 以内,支撑亿级 URL 存储。
- 动态代理 IP 调度引擎:自研代理池权重调度算法,根据目标网站封禁频次、访问延迟动态调整代理 IP 权重,高频封禁站点自动降低单 IP 请求 QPS,低频站点提升并发,代理池实时剔除失效 IP,全池在线可用 IP 维持在 2.3 万 +,分国家、运营商标签分类,针对海外站点自动匹配对应地域代理,爬虫平均拦截率从初始 37% 降至 4.2%。
- 爬虫分级限速策略:按照数据源合规等级划分三档抓取频率,法定披露站点最高 QPS=200/s,机构官网 QPS=30/s,资讯媒体 QPS=15/s,依托 Flink 实时监控目标站点响应码,出现 403 封禁码自动触发降速 + 任务休眠逻辑,避免 IP 批量拉黑。
爬虫数据落地采用双写机制:原始 HTML/PDF/ 文本全量写入 MinIO 对象存储做冷备份;解析后初步结构化数据实时写入 Kafka 消息队列,流入下游 Flink 实时 ETL 链路,实现原始数据永久留存、结构化数据即时处理。
2.3 四层 ETL 流水线:ODS→DWD→DWM→DWS 分层数据处理
Fundraisly 遵循数仓分层标准设计全链路 ETL 流水线,分为实时 Flink 流处理链路(增量日更数据)、Spark 离线批处理链路(月度全量重跑清洗)两条并行链路,所有原始数据经过四层分层加工后落地可用数仓,本小节拆解各层处理逻辑:
2.3.1 ODS 原始数据层
原样落地 Kafka 传来的原始解析数据,不做任何字段修改,仅增加采集时间戳、数据源标签、爬虫分片编号三个系统字段,数据格式与源端保持一致,用于异常数据回溯、数据重跑溯源,ODS 层存储周期永久。
2.3.2 DWD 明细清洗层(ETL 核心环节)
基于 Spark/Flink 完成全量脏数据清洗、字段标准化,核心处理逻辑包含六项:
- 空值与无效数据剔除:剔除投资金额为空、投资人姓名缺失、项目赛道无法识别的无效记录,单批次数据脏数据剔除率约 11.7%;
- 数值单位归一化:统一美元 / 人民币 / 欧元多币种投资金额,依托实时汇率接口自动换算为基准币种(美元),消除稿件中 "千万、亿、百万" 中文描述与数字字段的单位歧义;
- 时间格式统一:所有投资日期、机构成立日期统一转为 YYYY-MM-DD 标准时间戳,处理 "2025 年 Q3、上半年" 等模糊时间文本,依托 NLP 时间实体识别映射为近似时间区间;
- 赛道行业归一化:自研一级市场赛道分类词典(共计 287 个细分赛道,覆盖硬科技、生物医药、SaaS、新能源等全一级市场细分领域),NLP 将自由文本描述的行业信息映射为标准赛道编码,例如 "自动驾驶整车研发" 统一映射编码:Auto-003 自动驾驶整车赛道,解决不同资讯对同一行业的多样化命名问题;
- 投资人名称消歧预处理:同一投资人多译名、中英文混名预处理(如 "红杉中国合伙人张三、Sequoia Zhang San" 标记为同一主体),预处理仅做字段标准化,完整实体对齐放在下游 DWM 层;
- 异常交易过滤:剔除融资额明显偏离行业常识、重复发布的虚假融资新闻数据,依托行业单笔融资额统计分布,3σ 准则剔除极值脏数据。
DWD 层数据落地 ClickHouse 明细分区表,按照投资年份、赛道做双分区,优化后续 OLAP 查询性能。
2.3.3 DWM 中间整合层(实体对齐核心层)
本层是投资人数据从多源割裂到统一主体的关键,核心落地投资人实体链接算法,解决跨数据源同名不同人、同人不同名的实体消歧难题,采用 "规则匹配 + 实体向量相似度" 双层对齐方案:
- 规则引擎粗对齐:基于投资人姓名、任职机构、从业城市、毕业院校四大强属性做精准匹配,四项属性三项及以上一致直接判定为同一实体,完成 62% 存量投资人的自动合并;
- Embedding 向量精对齐:剩余模糊数据,使用 BGE-large 模型对投资人简介文本生成 768 维特征向量,余弦相似度>0.92 判定为同一主体,自动合并多源数据字段,相似度 0.7~0.9 人工复核(系统预留人工复核接口,全量复核数据占比仅 7.8%),相似度<0.7 判定为不同投资人。
经过 DWM 层处理后,分散在数十个数据源的同一投资人数据汇总为单一主体,30 万 + 投资人主体数据在本层完成唯一 ID 编码(INV+10 位数字全局主键),后续全系统所有模块统一使用该主键关联数据。
2.3.4 DWS 汇总指标层
面向上层建模需求做指标聚合,按照【投资人 ID + 年份 + 细分赛道】维度汇总统计聚合指标,预计算投资人核心统计字段:近 1/2/3 年投资总次数、近 12 个月出手频次、各赛道累计投资金额、持仓项目数量、典型单笔出资额度、基金剩余可投期限等,汇总数据落地 DWS 层宽表,直接供给画像建模、匹配算法做特征输入,省去上层重复聚合计算,大幅降低算法实时计算开销。
2.4 增量数据同步与数据版本管理机制
系统采用 T+1 日增量同步 + 月度全量重刷的双更新策略:每日凌晨自动运行 Flink 增量 ETL,同步前一日爬虫新增投融资数据,更新 DWD/DWM/DWS 增量分区;每月月末 Spark 全量重跑全量 ETL 任务,基于最新实体对齐规则全量刷新投资人主体数据,修正月度新增实体歧义带来的历史数据错误。 全量数据基于 HDFS 快照做版本管理,保留近 24 个月全量数据快照,算法迭代、模型训练时可一键回滚至指定时间节点数据集,规避数据迭代变更导致的模型训练数据集漂移问题。
3 投资人多维画像体系:NLP + 机器学习驱动投资人行为标签建模技术
Fundraisly 区分静态基础画像、动态投资行为画像、隐性偏好 NLP 画像、基金资金周期画像四大画像体系,全量标签共计 427 个,其中结构化统计标签 219 个、NLP 非结构化抽取标签 208 个,标签是投资人分层筛选、匹配打分的核心特征输入。传统创投数据库仅能实现基础静态标签,Fundraisly 核心技术突破在于依托时序交易数据 + 非结构化文本 NLP 解析,完成投资人动态活跃度、隐性投资偏好的量化建模,本章拆解标签建模全流程与核心算法。
3.1 四大画像分类与标签字段明细
3.1.1 静态基础画像(结构化标签,共 87 项)
从 DWM 层投资人基础信息直接映射生成,无算法计算,包含:投资人姓名、所属机构、机构基金币种、办公地域、从业年限、最高学历、毕业院校、过往任职大厂、官方披露投资轮次偏好(种子 / Pre-A/A/B/C)、单笔常规出资上下限、是否专注专项赛道等固定属性标签,数据来源为机构官网、招股书披露信息,标签一旦生成仅在投资人任职变动时增量更新。
3.1.2 动态时序行为画像(时序统计 + RFM 建模标签,共 76 项,本章节核心算法模块)
依托 DWS 层时序聚合交易数据,采用改良版创投领域 RFM 模型量化投资人投资活跃度,RFM 原始模型多用于电商用户分层,Fundraisly 针对一级市场投融资周期长、低频大额交易的行业特性做公式改良,定义三个核心指标:
- R (Recency):最近一笔投资距离当前的时间(单位:月),数值越小代表出手越新、活跃度越高;
- F (Frequency):统计周期内投资项目总频次(近 12/24/36 个月三档频次);
- M (Monetary):统计周期内单笔平均投资金额、赛道累计投入总资金。
基于 RFM 三维指标做五分位分层打分(1~5 分),单维度 5 分为最优活跃度,三项得分加权求和生成投资人活跃度综合得分 S,公式: \(S = αR_{score}+βF_{score}+γM_{score}\) 其中权重 α=0.52(近期出手权重最高,优先筛选近期活跃)、β=0.33、γ=0.15,权重依托历史百万交易数据集做线性回归训练优化,最终根据 S 得分将投资人划分为五档分层标签: S≥4.2:S 级(高活跃即时可投,系统优先匹配);3.3≤S<4.2:A 级(中高活跃,3~6 个月有出手概率);2.2≤S<3.3:B 级(平稳周期,半年以上观望);1.1≤S<2.2:C 级(休眠观望,基金额度紧张);S<1.1:D 级(暂停新投,直接过滤不进入候选池)。
除 RFM 活跃度标签外,动态行为标签还包含:近一年新增赛道布局标签、近一年退出项目所属行业标签、同赛道连续投资次数标签,全部由时序交易数据自动统计生成,每日增量刷新得分,实现投资人活跃度动态更新,解决传统数据库静态标签无法识别休眠基金的技术痛点。
3.1.3 NLP 隐性偏好画像(非结构化文本抽取标签,208 项,NLP 技术落地核心)
投资人大量真实投资偏好不会在机构官网公开披露,隐藏在投资人专访、行业演讲、机构新闻、项目投资复盘稿件等非结构化文本中,本模块依托领域微调 NLP 模型完成标签抽取,整体分为三步技术流程:
- 领域预训练模型微调:基于 BGE-large 基座,使用 20 万篇投资人专访、创投研报语料做 LoRA 轻量化微调,构建一级市场专属实体抽取模型,优化赛道术语、投资逻辑、投资禁忌词汇的识别准确率,微调后实体抽取 F1 值从通用模型 72.3% 提升至 91.7%;
- 文档分句与关键信息抽取:单篇非结构化新闻 / 访谈文本经过分句、去噪后,模型自动抽取四类隐性标签:①偏好细分赛道(如 "专精特新工业机器人细分");②规避行业标签(如 "不投资纯 ToC 消费赛道");③项目关注点标签(看重技术壁垒 / 创始团队背景 / 营收数据);④未来布局方向标签(未来 12 个月重点布局储能赛道);
- 标签置信度加权聚合:同一标签出现频次越高置信度越高,单标签出现≥3 次标记为高置信标签,直接纳入投资人正式画像;出现 1~2 次标记为低置信备选标签,匹配阶段权重减半,避免单篇偶然发言带来的标签误判。
该模块是 Fundraisly 相较传统投融资数据库的核心技术壁垒,可挖掘官网未披露的隐性投资倾向,大幅提升跨赛道冷门投资人匹配命中率。
3.1.4 基金生命周期画像(资金周期标签,56 项)
依托基金成立时间、存续周期、过往募资公告、已投项目资金占用数据,建模基金剩余可投额度、基金存续到期剩余月份、基金当前募资阶段(新募资 / 存续投决期 / 收尾退出期),例如新落地募资的新基金通常处于大规模撒钱窗口期,标签标记【新基金窗口期 - 高出资意愿】,收尾期基金标记【基金到期收尾 - 极少新投】,从基金资金基本面维度补充投资人筛选特征。
3.2 投资人特征向量生成与 Milvus 向量库落地
完成全量标签建模后,系统为每一位投资人生成两类 Embedding 向量,存入 Milvus 分布式向量数据库,支撑后续粗召回匹配:
- 标签结构化特征向量(128 维):将 427 个画像标签做独热编码后经过 PCA 降维至 128 维,代表投资人客观属性特征;
- 自然语言描述语义向量(768 维):拼接投资人全量画像文本(基础信息 + 历史投资案例 + NLP 隐性偏好),经过微调 BGE 模型生成 768 维语义向量,代表投资人主观投资偏好语义特征。
Milvus 集群采用分片 + 副本架构,30 万 + 投资人向量全量入库,建立 HNSW 多层近邻索引,单赛道全库向量近邻检索耗时控制在 25ms 以内,实现创始人项目信息输入后秒级候选投资人粗召回,支撑高并发在线匹配请求。
3.3 项目侧标准化画像自动生成技术
创始人输入创业项目信息(BP 文档 + 项目简介)后,系统自动完成项目侧画像全流程结构化,无需人工填写表单,技术实现分两步:
- BP 文档多模态解析:PDF 版 BP 经过 Layout OCR+LLM 文档解析,自动抽取项目细分赛道、融资轮次需求、目标融资金额、创始团队履历、核心技术壁垒、营收阶段等关键信息;纯文本项目简介经过 NLP 实体抽取标准化字段;
- 项目特征向量对齐:按照投资人向量相同的编码规则生成项目 128 维结构化向量 + 768 维语义向量,后续匹配算法通过项目与投资人向量相似度完成首轮候选池召回。
4 一级市场投融资知识图谱构建:Neo4j+NebulaGraph 混合图存储与 GraphRAG 落地
Fundraisly 采用双引擎混合图存储架构:NebulaGraph 承载全域亿级边的公共投融资知识图谱(全量投资人、机构、项目、行业关联),Neo4j 承载单用户轻量化个人社交子图谱(创始人专属人脉网络),依托 GraphRAG 实现图谱知识与大模型联动,既是温热路径挖掘底层载体,也是投资人匹配的关联特征补充,本章从图谱实体关系设计、混合存储选型依据、图谱构建流水线、GraphRAG 落地四个维度拆解。
4.1 知识图谱五大核心实体与标准化关系定义
全域投融资公共知识图谱定义五大核心实体,每个实体绑定唯一全局 ID,与数仓 DWM 层主键打通,实现数据同源同步:
- Investor(投资人):主键 INV_ID,属性:全量画像标签、活跃度得分、从业信息;
- Institution(投资机构):主键 INS_ID,属性:基金规模、存续周期、官方投资策略;
- Startup(创业项目):主键 PRO_ID,属性:细分赛道、融资轮次、融资金额、落地地域;
- Person(行业自然人:创始人 / 大厂高管 / 服务商):主键 PER_ID,属性:学历、履历、从业行业;
- Industry(细分赛道):主键 IND_ID,属性:父级行业、上下游关联赛道。
全图谱标准化 12 类有向关系,关系边附带权重(0~1 浮点数,代表关联紧密程度,由历史交易频次、共事时长加权计算),核心关系清单: 1.【INVEST】投资人→投资→项目(边权重:投资金额占基金比重 + 投资时间新鲜度加权); 2.【BELONG】投资人→任职于→投资机构; 3.【STUDY】自然人→同校就读→自然人(校友关系); 4.【WORKTOGETHER】自然人→共事→自然人(前同事关系); 5.【FOCUS】机构→专注于→细分赛道; 6.【UPSTREAM/DOWNSTREAM】赛道→上下游→关联赛道; 其余 6 类为合作、顾问、并购等补充关系。
创始人个人社交子图谱在上述实体基础上,额外导入用户私有通讯录人脉实体,新增【MYFRIEND】用户→好友→自然人专属边,是温热引荐路径的独有数据来源。
4.2 双图引擎混合存储选型技术依据
- NebulaGraph(公共全域图谱):全量公共图谱当前节点数 327 万、关系边 1842 万,数据量级超千万级,Nebula 原生分布式架构、横向分片扩容、海量边遍历性能优于 Neo4j,擅长全图谱跨赛道关联检索、批量投资人关联查询,承担公共投融资数据存储与全局图特征计算;
- Neo4j(用户个人社交子图谱):单创始人社交图谱节点通常在数百~数千节点级别,数据体量小,Neo4j Cypher 语法易用、最短路径算法原生优化、可视化友好,适配单用户个性化温热路径求解、局部人脉链路遍历,每个用户按需动态生成独立子图谱,存储在独立分片。
数据同步机制:DWM 层每日增量数据经过图数据转换引擎,自动同步新增实体与关系至 Nebula 公共图谱;用户上传私有社交数据后,实时在 Neo4j 新建专属子图谱,子图谱通过 PER_ID 关联 Nebula 公共图谱自然人实体,打通公私域数据关联。
4.3 图谱自动化构建流水线(ETL→实体映射→关系抽取→权重赋值)
图谱全流程无人工录入,流水线对接数仓 DWM/DWS 层标准化数据,分为四步自动化构建:
- 实体映射阶段:从 DWM 投资人、项目、机构宽表抽取实体属性,基于全局唯一 ID 完成图谱实体创建,字段一一映射画像标签、统计指标;
- 结构化关系批量导入:投资、任职、同校等结构化关系(来源招股书、官网、LinkedIn 结构化数据)通过 Spark 批量生成边数据,批量导入图数据库,占全量关系 71%;
- 非结构化关系 NLP 抽取:从创投新闻、访谈文本中抽取合作、顾问等隐性关系,微调关系抽取模型识别非结构化文本实体关联,生成剩余 29% 隐性关系边;
- 边权重动态计算:依托 DWS 层时序数据,按照既定加权公式自动计算每条边权重,每日增量刷新权重数值,例如投资人近 3 年持续重仓某赛道项目,则【FOCUS】边权重自动提升。
4.4 GraphRAG 落地:图谱知识赋能投资人匹配与文案生成
Fundraisly 将 Nebula 知识图谱作为 RAG 外部知识库,落地 GraphRAG 架构,解决通用大模型投资人信息滞后、幻觉问题,分为检索→注入→推理三步:
- 图谱结构化检索:用户输入项目信息后,系统先通过向量粗召回候选投资人,再基于 Graph Query 从 Nebula 拉取候选投资人关联图谱信息:投资人过往同赛道投资案例、同校友创始人项目清单、持仓项目上下游企业,生成结构化参考知识库;
- 知识库注入 LLM 上下文:将图谱检索到的精准投资人信息拼接进 Prompt 上下文,替代大模型过期训练知识;
- 推理落地两大场景:①投资人精排打分,图谱关联数据作为补充特征加权进入匹配评分;②冷触达文案生成,依托图谱投资人持仓项目信息生成个性化文案切入点,例如 "您此前投资 XX 同赛道项目 A,我方项目在 XX 技术维度实现迭代优化",从图谱数据中抓取真实案例,杜绝文案虚构信息。
GraphRAG 落地后,大模型投资人相关信息幻觉率从 41.3% 降至 5.7%,触达文案个性化真实度大幅提升。
5 温热关系路径挖掘:基于加权图算法的创始人社交网络链路求解原理
温热引荐路径定义:依托创始人自有社交图谱 + 公共知识图谱,找到 "创始人→N 层中间引荐人→目标投资人" 的连通链路,链路中间人为双方共同熟人,可做线下引荐,是区别于陌生冷触达的高转化邀约渠道,Fundraisly 核心技术为带权重多约束最短路径改进 Dijkstra 算法,本节拆解路径分级、算法优化逻辑、链路筛选规则。
5.1 温热链路三级分级标准(按照链路层数划分转化优先级)
系统按照链路中间节点层数划分为三级温热路径,层级越少引荐难度越低、邀约成功率越高,算法优先输出短链路:
- 一级温热(二度人脉,链路长度 = 2):创始人→直接好友→目标投资人(仅 1 层中间引荐人),最高优先级,优先安排引荐;
- 二级温热(三度人脉,链路长度 = 3):创始人→好友→好友→目标投资人(2 层中间引荐人),次优先级;
- 三级温热(四度及以上,链路长度≥4):多层间接人脉,标记备选温热,引荐优先级低于前两级,若无一二级链路再启用。
路径边权重规则:好友边【MYFRIEND】基础权重 0.1(关联紧密,路径成本低),普通职场关系边【WORKTOGETHER/STUDY】基础权重 0.3(关联偏弱,路径成本更高),权重数值代表引荐成本,Dijkstra 算法求解加权总成本最小路径,而非单纯节点数量最短路径,同等层数下优先输出边权重更低的高紧密链路。
5.2 改进加权 Dijkstra 路径求解算法技术细节
原生 Dijkstra 仅适用于单源单目标最短路径,Fundraisly 做三层工程优化,实现单创始人源节点、批量目标投资人多目标并行路径求解:
- 候选投资人前置过滤:先通过匹配算法筛选出项目适配活跃投资人清单(目标节点集合),避免全图谱无差别遍历,大幅缩小图搜索空间;
- 路径深度截断优化:算法搜索深度最大限制 4 层(仅计算一 / 二 / 三级温热),超过 4 层直接停止分支遍历,舍弃过长无效链路,控制算法算力开销,单用户路径全量求解平均耗时≤120ms;
- 多路径择优规则:单个目标投资人若存在多条可达温热链路,自动按照加权总成本从小到大排序,仅保留 Top3 最优链路存入结果集,剔除冗余低效路径。
算法执行载体:单用户 Neo4j 社交子图谱 + Nebula 公共图谱跨库关联查询,Cypher + 自研图遍历引擎混合执行路径检索。
5.3 温热链路结果结构化输出与数据落地
算法输出每条温热链路结构化字段:链路层级、全链路人名清单、各节点关系类型、链路加权总成本、引荐优先级评分,系统自动将全部温热匹配投资人从候选池中拆分,划分为【温热引荐池】,剩余无连通链路的适配投资人划入【冷触达候选池】,分池进入下一环节:温热池优先走熟人引荐邀约,冷触达池交由冷触达 AI 智能体做个性化私信 / 邮件触达。
工程落地数据统计:全量项目测算中,平均 31% 优质适配投资人可挖掘出有效温热引荐链路,剩余 69% 进入冷触达池,温热链路邀约会议转化率是冷触达的 5.8 倍,也是产品最终稳定产出 20~40 场高质量会议的核心技术支撑。
6 冷触达智能体技术栈:微调 LLM+PPO 强化学习实现定向个性化投资人触达
针对无温热链路的目标投资人,冷触达子 Agent 完成投资人动态情报实时抓取→个性化触达文案生成→触达渠道适配→邀约话术优化全自动化闭环,核心技术是领域 LLM 微调 + PPO 强化学习闭环优化,依托历史数十万触达反馈数据持续迭代文案生成模型,提升邮件 / 私信回复率,本章拆解四层技术架构。
6.1 冷触达智能体四层执行链路
- 情报实时采集层:调用通用搜索 + 投资人社交动态爬虫,抓取目标投资人近 90 天动态(新发投资、演讲观点、团队招人、持仓项目动态),补充 GraphRAG 图谱数据,汇总生成投资人最新专属情报包,作为文案生成输入素材;
- Prompt 结构化编排层:基于投资人画像 + 图谱数据 + 实时动态三部分数据,自动拼接结构化 Prompt,强制约束文案生成规则:正文 100~150 字符、包含 1 个项目与投资人契合点 + 1 个明确邀约诉求、无模板化套话、专业克制语气,从规则层面规避长篇无效文案;
- 领域微调 LLM 生成文案层:基于 Llama3 基座 + 创投触达邮件语料(18 万条真实投融资往来邮件)LoRA 微调生成触达专用模型,输入结构化 Prompt 输出个性化邮件 / LinkedIn 私信两种格式文案,适配不同触达渠道;
- 触达结果回流层:抓取邮件打开率、回复率、邀约成功 / 拒绝标签,结构化标签数据回流至强化学习奖励模型,完成闭环迭代。
6.2 PPO 强化学习闭环优化(冷触达转化率提升核心)
系统搭建双模型架构:文案生成主模型 + 回复率预测奖励模型,依托 PPO 近端策略优化持续迭代主模型,完整闭环逻辑:
- 奖励模型训练:使用历史百万条触达样本(文案内容 + 最终回复标签:已回复 / 已邀约成功 / 无响应)训练奖励模型,输入生成文案输出 0~10 分奖励得分,得分越高代表文案预测回复概率越高;
- PPO 迭代训练:主模型生成触达文案后,奖励模型实时打分,PPO 算法以奖励分数为优化目标反向微调生成模型参数,模型逐步学习高回复率文案句式、切入点;
- 线上真实反馈迭代:线上触达后真实回复数据按月增量补充训练集,月度重训奖励模型,形成 "生成 - 发送 - 反馈 - 重训优化" 永久闭环,上线 18 个月后冷邮件平均回复率从初始 4.9‰提升至 18.7‰。
6.3 邀约会议结果结构化归集
触达 Agent 自动汇总所有反馈:温热引荐成功会议、冷触达邀约成功会议,汇总后按照投资人活跃度、匹配得分做会议质量分级(S/A/B 三级高质量会议,仅 S/A 计入最终 20~40 场有效会议统计,B 级备选),完成全链路数据输出。
7 全链路结果量化模型:高质量会议转化率预测数学建模
系统内置转化率预测机器学习模型,基于 XGBoost 梯度提升树训练,输入特征包含:投资人活跃度 S 得分、项目与投资人匹配相似度得分、温热链路层级、冷触达文案奖励得分、投资人赛道契合度五大维度特征,标签为历史数据中该类特征最终邀约成功概率,实现项目全流程可邀约会议数量提前量化预测,也是产品 20~40 场会议量化结果的技术依据。 数据集:累计 1.7 万条真实融资全流程样本,划分训练集 85%、测试集 15%,模型测试集 MAE 误差控制在 1.2 场以内。 模型输出两个核心指标:①温热引荐预估成功会议数;②冷触达预估成功会议数,两项相加得到项目整体预估会议区间(20~40 场),若预估总数偏离区间,算法自动补充同赛道备选活跃投资人,补齐候选池数量,保障最终落地会议落在目标区间。 模型按月增量新增真实项目落地数据做增量重训练,持续优化预测精度,适配一级市场投融资周期、行业风口变化带来的转化率波动。
8 系统工程化部署、性能瓶颈优化与隐私合规技术方案
8.1 容器化部署与算力优化
全系统基于 K8s 集群容器编排,大数据集群、图数据库集群、LLM 推理集群拆分独立命名空间,LLM 推理采用 GPU 容器弹性伸缩,闲时缩容 GPU 节点、高峰期自动扩容;Milvus、Nebula 开启冷热数据分层,低频历史交易数据存入低成本对象存储,高频近 3 年活跃数据常驻内存,存储成本降低 42%。全链路单次项目从上传 BP 到输出投资人清单 + 温热路径 + 触达文案全流程耗时≤90s。
8.2 全链路隐私合规技术
- 用户私有社交数据本地脱敏存储,不汇入公共投资人数据库,采用差分隐私技术模糊化个人敏感字段;
- 投资人隐私信息展示脱敏(隐藏投资人私人邮箱、手机号,仅触达阶段由系统自动代发,用户无法直接导出完整隐私联系方式);
- 全链路数据访问 RBAC 权限管控,操作日志全留存可审计,满足全球 GDPR、国内个人信息保护法合规要求。
9 技术落地现存缺陷与未来迭代技术路线
9.1 当前系统现存技术短板
- 小众细分赛道投资人数据源覆盖率不足,部分垂直冷门赛道投资人数据稀缺,NLP 隐性标签抽取样本偏少,匹配精度低于主流赛道;
- 跨语种海外小语种创投资讯 NLP 解析精度不足,非英文 / 中文资讯实体抽取 F1 仅 78%,海外小众投资人画像完整性受限;
- 温热路径仅依托公开职场数据构建,无法覆盖线下峰会、私人圈层等无公开记录的隐性人脉。
9.2 未来迭代技术路线
- 多语种大模型迭代:训练多语言投融资专用 Embedding 模型,覆盖西语、德语、日语等主流小语种,提升海外小众投资人数据解析能力;
- 多模态情报补充:新增投资人短视频演讲、播客音频 ASR 转文本解析,从音视频素材补充隐性投资偏好标签;
- 时序预测升级:引入时序 Transformer 模型,基于历史基金募资周期数据,预测未来 6 个月新基金落地窗口期,提前锁定潜在新增活跃投资人;
- 多模态冷触达:新增 AI 语音外呼子 Agent,针对高优先级投资人支持 AI 实时语音邀约,拓展冷触达渠道。
文末互动
以上是 Fundraisly 融资 AI 智能体全栈技术拆解,全文摒弃营销话术、纯从底层工程、算法、大数据落地细节展开。 如果你觉得本文技术拆解有参考价值,点赞 + 收藏,关注博主持续更新垂直领域 AI Agent 底层技术解析,后续将拆解同类投融资 AI 产品(CapitalX、Articuler.AI)底层架构,也可在评论区交流一级市场大数据、图谱 + RAG 落地踩坑问题,我会逐条回复探讨。