Fundraisly 融资定向 AI 智能体全栈技术深度剖析

摘要

Fundraisly 作为聚焦一级市场创业融资场景的专用型多智能体系统，核心落地能力为30 万 + 投资人全域画像解析、百万级投融资交易行为挖掘、创始人社交网络温热链路图谱构建、分层式投资人冷启动智能触达、最终量化输出 20～40 场高质量投融资对接会议。本文完全剥离产品营销、商业化收益描述，从底层分布式数据基建、多源异构数据 ETL 架构、投资人知识图谱构建、多阶段分层匹配算法、社交网络最短温热路径求解、LLM 驱动个性化冷触达智能体、全链路强化学习迭代优化、工程部署与性能调优、隐私合规技术实现九大维度，系统性拆解 Fundraisly 全栈技术原理、算法细节、工程落地难点与优化方案。全文依托一级市场创投大数据、图神经网络、检索增强生成 RAG、多智能体编排、PPO 强化学习等前沿技术体系展开论述，为投融资 AI 产品研发、一级市场大数据平台落地提供可复用技术参考。

1 绪论：Fundraisly 产品技术定位与系统整体架构

1.1 产品技术定位与场景技术痛点拆解

传统创业融资全流程中，投资人筛选、人脉挖掘、投资人邀约三个环节长期依赖人工线下尽调、行业人脉打听、批量模板邮件群发，全链路存在四大原生技术痛点，也是 Fundraisly 智能体产品立项的技术出发点，本节仅从技术瓶颈维度拆解，不描述商业化痛点：第一，投融资数据源碎片化、异构化。全球一级市场投资人数据分散于机构官网、IPO 招股书、创投新闻、工商公示、职业社交平台等数十类异构数据源，结构化字段（投资金额、投资轮次）、半结构化（机构介绍 JSON）、非结构化（访谈稿件、研报、BP 文档）数据混杂，传统关系型数据库无法完成跨源数据归一化，人工整理单赛道投资人清单耗时数周，单人工单日有效筛选投资人上限 10～15 人，数据处理效率存在量级鸿沟。第二，投资人投资活跃度无法量化。过往投融资系统仅依托历史投资案例静态打标签，无法区分 "3 年内持续出手的活跃投资人" 与 "基金到期、暂停新投的休眠投资人"，缺乏基于百万笔交易时序数据的 RFM 时序行为建模技术，静态标签匹配命中率不足 40%。第三，创始人社交隐性关系无法自动化挖掘。创始人个人社交网络包含校友、前同事、合作服务商、行业峰会人脉等多层隐性关联，传统通讯录工具仅存储显性好友，无法通过跨主体关联数据构建全链路关系网络，最短温热引荐路径依赖人工逐一打听，隐性人脉挖掘覆盖率不足 15%。第四，冷触达文案同质化严重、转化无闭环优化。通用模板化邮件 / 私信缺少针对投资人投资偏好、近期动态、持仓缺口的个性化内容，传统固定模板文案回复率长期低于 6‰，且无数据回流闭环，无法基于触达反馈迭代文案生成策略。

Fundraisly 在技术定位上，是多智能体协同架构的垂直领域专用 Agent 集群，区别于通用大模型 Agent，系统围绕一级市场投融资领域做领域微调、知识库定制、专用算法封装，整体遵循 "感知 - 存储 - 建模 - 匹配 - 触达 - 反馈迭代" 的闭环智能体运行逻辑，划分为数据采集智能体、投资人画像建模智能体、图谱构建智能体、路径挖掘智能体、冷触达生成智能体、效果评估智能体六大子 Agent，各子 Agent 通过 MCP 模型通信协议完成任务编排、数据交互与结果流转。

从技术边界划分，Fundraisly 不依赖第三方商用投融资数据库 API 做数据兜底，底层自建全域投融资大数据仓库，独立完成从原始数据爬取、清洗、结构化、建模全链路；上层业务逻辑全部算法驱动，无人工录入投资人信息、无人工手动筛选投资人、无人工撰写触达文案，全流程由多智能体自主调度完成。

1.2 系统五层整体技术架构详解

Fundraisly 采用企业级大数据标准五层分层架构，自下而上依次为数据源接入层、分布式数据处理层、知识与算法建模层、多 Agent 调度决策层、业务应用输出层 ，配套独立的隐私合规管控层、全链路运维监控层两大支撑模块，整体基于 K8s 容器化部署，各层完全解耦，可横向弹性扩容算力，适配 30 万 + 投资人、数百万投融资交易数据的 PB 级数据存储与实时计算需求。

数据源接入层：异构数据源统一接入网关，集成分布式爬虫集群、第三方合规开放 API、用户私有社交数据上传接口、非结构化文档解析接口四大接入通道，完成全源原始数据落地，原始数据包含结构化交易数据、半结构化机构档案、非结构化新闻 / 访谈 / BP 文本、社交关系原始数据四类，本层不做数据清洗，仅做原始数据落盘与格式初步标准化。
分布式数据处理层：系统数据中台核心，基于 HDFS 分布式文件系统做冷数据存储，ClickHouse+Apache Doris 做 OLAP 实时分析，Spark 批处理 + Flink 流处理构成混合计算引擎，完成全量数据去重、脏数据剔除、字段归一、实体对齐、特征提取等 ETL 全流程，处理后的数据分层存入数仓 ODS 层、DWD 明细层、DWS 汇总层，为上层建模提供标准化数据集。
知识与算法建模层：系统 AI 能力底座，细分三大子模块：①向量存储模块（Milvus 分布式向量库），存储投资人、赛道、项目的 Embedding 特征向量；②混合图存储模块（NebulaGraph+Neo4j 双图数据库），承载一级市场投融资知识图谱与创始人个人社交图谱；③算法仓库模块，内置投资人匹配算法库、图路径搜索算法库、NLP 预训练微调模型库、强化学习奖励模型库，所有算法模块化封装，支持 Agent 动态调用。
多 Agent 调度决策层：基于 LangChain + 自研任务编排引擎实现六大子智能体的任务分发、优先级调度、异常重试，依托 CoT 思维链 + ReAct 反思机制拆解融资全流程复杂任务，将 "筛选活跃投资人 - 挖掘温热路径 - 生成冷触达内容" 拆解为数十项原子子任务，智能体自主决策调用底层算法与数据资源，根据中间结果动态修正后续执行策略。
业务应用输出层：标准化 API 输出模块，对外输出投资人分层清单、温热引荐链路明细、个性化触达素材、会议邀约转化率预测报告四类结构化数据，不耦合前端页面，支持第三方 SaaS 系统对接。

配套支撑层说明：隐私合规层依托差分隐私、数据脱敏、数据访问鉴权技术实现全链路用户与投资人隐私保护；运维监控层基于 Prometheus+Grafana 实现算力占用、数据处理速率、算法推理耗时、Agent 任务成功率全指标实时监控。

1.3 全链路技术栈清单

1.3.1 大数据技术栈

存储：HDFS、ClickHouse、Doris、HBase、MinIO 对象存储；计算：Spark3.x、Flink1.18、Hive；调度：Airflow 分布式任务调度；数据治理：Apache Atlas 元数据管理。

1.3.2 图数据库与向量库

图存储：NebulaGraph（亿级边海量图谱）、Neo4j（中小规模社交图谱）；向量检索：Milvus2.5 分布式集群；Embedding：BGE-large、m3e-large 领域微调版。

1.3.3 AI 与大模型技术栈

基础底座：开源 LLM 基座（Llama3、Qwen2）领域微调；Agent 框架：LangChain、自研 Agent 调度内核；NLP 工具：Hugging Face Transformers、spaCy、LTP 中文实体抽取；强化学习：TRL、PPO 近端策略优化框架。

1.3.4 工程部署技术栈

容器编排：Docker、Kubernetes；网关：Nginx、Spring Cloud Gateway；监控：Prometheus、Grafana、ELK 日志栈。

2 底层大数据基建：30 万投资人 + 百万交易数据集全域采集与 ETL 工程实现

Fundraisly 底层核心资产为302761 位全球投资人主体数据、217.4 万条全生命周期投融资交易记录，数据集建设周期 28 个月，整体采用 "分布式爬虫集群 + 合规开放 API 补充 + 非结构化文档 OCR+NLP 信息抽取" 多源融合采集方案，本章节从数据源分类、爬虫集群架构、分层 ETL 流水线、数据实体对齐技术四个维度展开，全部为落地技术细节。

2.1 六大类异构数据源分类与采集规则设计

系统数据源划分为 6 大类，每类数据源配置独立爬虫规则、解析引擎、数据落地格式，从数据权威性由高到低排序：

资本市场法定披露数据源（权威结构化）：美股 SEC EDGAR 公告、港股披露易、各国证监会企业融资公示、IPO 招股说明书、并购重组公告，数据源特点为字段标准化、法律效力高、无虚假信息，核心采集字段：投资方名称、投资金额、持股比例、投资时间、项目所属赛道、投资轮次（Pre-A/A/B/C/PE）。针对 PDF 格式招股书，采用 Layout-aware 结构化 OCR 引擎，区分财报表格、正文文本、附件注释，自动抽取表格内投融资数据，规避纯文本 OCR 行列错乱问题。全量累计抓取公告文档 142 万份，提取有效交易数据 89.6 万条。
VC 机构官方自有数据源（半结构化）：全球各创投基金官网团队介绍页、投资组合专栏、机构动态新闻，数据源为网页 JSON 接口 + 静态 HTML 混合格式，核心采集实体：基金管理人（GP/VP/ 合伙人）姓名、任职机构、从业履历、官方披露投资赛道偏好、单笔常规出资额度、基金存续到期时间。爬虫区分静态页面与动态 JS 渲染页面，JS 页面采用 Playwright 无头浏览器集群渲染后解析 DOM，规避接口加密反爬。累计收录全球 VC 机构 12847 家，关联投资人 9.2 万人。
创投行业媒体非结构化数据源（文本类） ：全球中英文创投垂直媒体（36Kr、Crunchbase TechCrunch 等）投融资快讯、投资人专访、行业盘点稿件，数据全部为自由文本，无固定字段，依靠 NLP 实体抽取实现结构化落地，抽取实体：投资人、项目名称、投资时间、融资金额、赛道、投资逻辑。本数据源是投资人隐性投资偏好、近期出手动态的核心信息来源，累计抓取新闻文本 530 余万篇，新增补充交易数据 72.3 万条。
职业社交平台关系数据源（关系类）：LinkedIn 等合规开放数据接口，采集投资人、创始人的教育履历、任职经历、共事记录，是构建校友、前同事温热关系的底层数据源，采集规则仅拉取平台公开字段，不爬取私有隐私信息，累计采集职场关联关系数据超 1200 万组。
第三方合规商用开放 API 数据源（补充兜底）：合规一级市场数据库开放 API，仅作为爬虫缺失数据补充，不做主力数据源，每日增量同步变更数据，避免全量拉取带来的成本与数据冗余。
用户自有私有数据源（创始人侧）：用户上传个人通讯录、过往合作清单、参会记录等私有数据，数据全链路本地脱敏，遵循数据不出域原则，仅用于构建创始人专属社交子图谱，不汇入全域投资人公共数据库。

2.2 分布式爬虫集群架构与反爬技术落地

Fundraisly 爬虫集群基于 Scrapy-Redis 分布式改造，采用主从分片 + IP 代理池动态调度架构，集群划分为 32 个分片节点，每个节点独立负责一类数据源抓取，分片间通过 Redis 做任务队列共享，解决海量数据源抓取的任务分配、去重、反爬三大工程难点：

URL 全局去重机制：基于布隆过滤器（Bloom Filter）构建全局 URL 去重池，Redis 集群分片存储布隆过滤器位图，新增抓取链接先经过布隆过滤器校验，已存在链接直接丢弃，避免重复抓取同源页面，布隆过滤器误判率控制在 0.003% 以内，支撑亿级 URL 存储。
动态代理 IP 调度引擎：自研代理池权重调度算法，根据目标网站封禁频次、访问延迟动态调整代理 IP 权重，高频封禁站点自动降低单 IP 请求 QPS，低频站点提升并发，代理池实时剔除失效 IP，全池在线可用 IP 维持在 2.3 万 +，分国家、运营商标签分类，针对海外站点自动匹配对应地域代理，爬虫平均拦截率从初始 37% 降至 4.2%。
爬虫分级限速策略：按照数据源合规等级划分三档抓取频率，法定披露站点最高 QPS=200/s，机构官网 QPS=30/s，资讯媒体 QPS=15/s，依托 Flink 实时监控目标站点响应码，出现 403 封禁码自动触发降速 + 任务休眠逻辑，避免 IP 批量拉黑。

爬虫数据落地采用双写机制：原始 HTML/PDF/ 文本全量写入 MinIO 对象存储做冷备份；解析后初步结构化数据实时写入 Kafka 消息队列，流入下游 Flink 实时 ETL 链路，实现原始数据永久留存、结构化数据即时处理。

2.3 四层 ETL 流水线：ODS→DWD→DWM→DWS 分层数据处理

Fundraisly 遵循数仓分层标准设计全链路 ETL 流水线，分为实时 Flink 流处理链路（增量日更数据）、Spark 离线批处理链路（月度全量重跑清洗）两条并行链路，所有原始数据经过四层分层加工后落地可用数仓，本小节拆解各层处理逻辑：

2.3.1 ODS 原始数据层

原样落地 Kafka 传来的原始解析数据，不做任何字段修改，仅增加采集时间戳、数据源标签、爬虫分片编号三个系统字段，数据格式与源端保持一致，用于异常数据回溯、数据重跑溯源，ODS 层存储周期永久。

2.3.2 DWD 明细清洗层（ETL 核心环节）

基于 Spark/Flink 完成全量脏数据清洗、字段标准化，核心处理逻辑包含六项：

空值与无效数据剔除：剔除投资金额为空、投资人姓名缺失、项目赛道无法识别的无效记录，单批次数据脏数据剔除率约 11.7%；
数值单位归一化：统一美元 / 人民币 / 欧元多币种投资金额，依托实时汇率接口自动换算为基准币种（美元），消除稿件中 "千万、亿、百万" 中文描述与数字字段的单位歧义；
时间格式统一：所有投资日期、机构成立日期统一转为 YYYY-MM-DD 标准时间戳，处理 "2025 年 Q3、上半年" 等模糊时间文本，依托 NLP 时间实体识别映射为近似时间区间；
赛道行业归一化：自研一级市场赛道分类词典（共计 287 个细分赛道，覆盖硬科技、生物医药、SaaS、新能源等全一级市场细分领域），NLP 将自由文本描述的行业信息映射为标准赛道编码，例如 "自动驾驶整车研发" 统一映射编码：Auto-003 自动驾驶整车赛道，解决不同资讯对同一行业的多样化命名问题；
投资人名称消歧预处理：同一投资人多译名、中英文混名预处理（如 "红杉中国合伙人张三、Sequoia Zhang San" 标记为同一主体），预处理仅做字段标准化，完整实体对齐放在下游 DWM 层；
异常交易过滤：剔除融资额明显偏离行业常识、重复发布的虚假融资新闻数据，依托行业单笔融资额统计分布，3σ 准则剔除极值脏数据。

DWD 层数据落地 ClickHouse 明细分区表，按照投资年份、赛道做双分区，优化后续 OLAP 查询性能。

2.3.3 DWM 中间整合层（实体对齐核心层）

本层是投资人数据从多源割裂到统一主体的关键，核心落地投资人实体链接算法，解决跨数据源同名不同人、同人不同名的实体消歧难题，采用 "规则匹配 + 实体向量相似度" 双层对齐方案：

规则引擎粗对齐：基于投资人姓名、任职机构、从业城市、毕业院校四大强属性做精准匹配，四项属性三项及以上一致直接判定为同一实体，完成 62% 存量投资人的自动合并；
Embedding 向量精对齐：剩余模糊数据，使用 BGE-large 模型对投资人简介文本生成 768 维特征向量，余弦相似度＞0.92 判定为同一主体，自动合并多源数据字段，相似度 0.7～0.9 人工复核（系统预留人工复核接口，全量复核数据占比仅 7.8%），相似度＜0.7 判定为不同投资人。

经过 DWM 层处理后，分散在数十个数据源的同一投资人数据汇总为单一主体，30 万 + 投资人主体数据在本层完成唯一 ID 编码（INV+10 位数字全局主键），后续全系统所有模块统一使用该主键关联数据。

2.3.4 DWS 汇总指标层

面向上层建模需求做指标聚合，按照【投资人 ID + 年份 + 细分赛道】维度汇总统计聚合指标，预计算投资人核心统计字段：近 1/2/3 年投资总次数、近 12 个月出手频次、各赛道累计投资金额、持仓项目数量、典型单笔出资额度、基金剩余可投期限等，汇总数据落地 DWS 层宽表，直接供给画像建模、匹配算法做特征输入，省去上层重复聚合计算，大幅降低算法实时计算开销。

2.4 增量数据同步与数据版本管理机制

系统采用 T+1 日增量同步 + 月度全量重刷的双更新策略：每日凌晨自动运行 Flink 增量 ETL，同步前一日爬虫新增投融资数据，更新 DWD/DWM/DWS 增量分区；每月月末 Spark 全量重跑全量 ETL 任务，基于最新实体对齐规则全量刷新投资人主体数据，修正月度新增实体歧义带来的历史数据错误。全量数据基于 HDFS 快照做版本管理，保留近 24 个月全量数据快照，算法迭代、模型训练时可一键回滚至指定时间节点数据集，规避数据迭代变更导致的模型训练数据集漂移问题。

3 投资人多维画像体系：NLP + 机器学习驱动投资人行为标签建模技术

Fundraisly 区分静态基础画像、动态投资行为画像、隐性偏好 NLP 画像、基金资金周期画像四大画像体系，全量标签共计 427 个，其中结构化统计标签 219 个、NLP 非结构化抽取标签 208 个，标签是投资人分层筛选、匹配打分的核心特征输入。传统创投数据库仅能实现基础静态标签，Fundraisly 核心技术突破在于依托时序交易数据 + 非结构化文本 NLP 解析，完成投资人动态活跃度、隐性投资偏好的量化建模，本章拆解标签建模全流程与核心算法。

3.1 四大画像分类与标签字段明细

3.1.1 静态基础画像（结构化标签，共 87 项）

从 DWM 层投资人基础信息直接映射生成，无算法计算，包含：投资人姓名、所属机构、机构基金币种、办公地域、从业年限、最高学历、毕业院校、过往任职大厂、官方披露投资轮次偏好（种子 / Pre-A/A/B/C）、单笔常规出资上下限、是否专注专项赛道等固定属性标签，数据来源为机构官网、招股书披露信息，标签一旦生成仅在投资人任职变动时增量更新。

3.1.2 动态时序行为画像（时序统计 + RFM 建模标签，共 76 项，本章节核心算法模块）

依托 DWS 层时序聚合交易数据，采用改良版创投领域 RFM 模型量化投资人投资活跃度，RFM 原始模型多用于电商用户分层，Fundraisly 针对一级市场投融资周期长、低频大额交易的行业特性做公式改良，定义三个核心指标：

R (Recency)：最近一笔投资距离当前的时间（单位：月），数值越小代表出手越新、活跃度越高；
F (Frequency)：统计周期内投资项目总频次（近 12/24/36 个月三档频次）；
M (Monetary)：统计周期内单笔平均投资金额、赛道累计投入总资金。

基于 RFM 三维指标做五分位分层打分（1～5 分），单维度 5 分为最优活跃度，三项得分加权求和生成投资人活跃度综合得分 S，公式： \(S = αR_{score}+βF_{score}+γM_{score}\) 其中权重 α=0.52（近期出手权重最高，优先筛选近期活跃）、β=0.33、γ=0.15，权重依托历史百万交易数据集做线性回归训练优化，最终根据 S 得分将投资人划分为五档分层标签： S≥4.2：S 级（高活跃即时可投，系统优先匹配）；3.3≤S＜4.2：A 级（中高活跃，3～6 个月有出手概率）；2.2≤S＜3.3：B 级（平稳周期，半年以上观望）；1.1≤S＜2.2：C 级（休眠观望，基金额度紧张）；S＜1.1：D 级（暂停新投，直接过滤不进入候选池）。

除 RFM 活跃度标签外，动态行为标签还包含：近一年新增赛道布局标签、近一年退出项目所属行业标签、同赛道连续投资次数标签，全部由时序交易数据自动统计生成，每日增量刷新得分，实现投资人活跃度动态更新，解决传统数据库静态标签无法识别休眠基金的技术痛点。

3.1.3 NLP 隐性偏好画像（非结构化文本抽取标签，208 项，NLP 技术落地核心）

投资人大量真实投资偏好不会在机构官网公开披露，隐藏在投资人专访、行业演讲、机构新闻、项目投资复盘稿件等非结构化文本中，本模块依托领域微调 NLP 模型完成标签抽取，整体分为三步技术流程：

领域预训练模型微调：基于 BGE-large 基座，使用 20 万篇投资人专访、创投研报语料做 LoRA 轻量化微调，构建一级市场专属实体抽取模型，优化赛道术语、投资逻辑、投资禁忌词汇的识别准确率，微调后实体抽取 F1 值从通用模型 72.3% 提升至 91.7%；
文档分句与关键信息抽取：单篇非结构化新闻 / 访谈文本经过分句、去噪后，模型自动抽取四类隐性标签：①偏好细分赛道（如 "专精特新工业机器人细分"）；②规避行业标签（如 "不投资纯 ToC 消费赛道"）；③项目关注点标签（看重技术壁垒 / 创始团队背景 / 营收数据）；④未来布局方向标签（未来 12 个月重点布局储能赛道）；
标签置信度加权聚合：同一标签出现频次越高置信度越高，单标签出现≥3 次标记为高置信标签，直接纳入投资人正式画像；出现 1～2 次标记为低置信备选标签，匹配阶段权重减半，避免单篇偶然发言带来的标签误判。

该模块是 Fundraisly 相较传统投融资数据库的核心技术壁垒，可挖掘官网未披露的隐性投资倾向，大幅提升跨赛道冷门投资人匹配命中率。

3.1.4 基金生命周期画像（资金周期标签，56 项）

依托基金成立时间、存续周期、过往募资公告、已投项目资金占用数据，建模基金剩余可投额度、基金存续到期剩余月份、基金当前募资阶段（新募资 / 存续投决期 / 收尾退出期），例如新落地募资的新基金通常处于大规模撒钱窗口期，标签标记【新基金窗口期 - 高出资意愿】，收尾期基金标记【基金到期收尾 - 极少新投】，从基金资金基本面维度补充投资人筛选特征。

3.2 投资人特征向量生成与 Milvus 向量库落地

完成全量标签建模后，系统为每一位投资人生成两类 Embedding 向量，存入 Milvus 分布式向量数据库，支撑后续粗召回匹配：

标签结构化特征向量（128 维）：将 427 个画像标签做独热编码后经过 PCA 降维至 128 维，代表投资人客观属性特征；
自然语言描述语义向量（768 维）：拼接投资人全量画像文本（基础信息 + 历史投资案例 + NLP 隐性偏好），经过微调 BGE 模型生成 768 维语义向量，代表投资人主观投资偏好语义特征。

Milvus 集群采用分片 + 副本架构，30 万 + 投资人向量全量入库，建立 HNSW 多层近邻索引，单赛道全库向量近邻检索耗时控制在 25ms 以内，实现创始人项目信息输入后秒级候选投资人粗召回，支撑高并发在线匹配请求。

3.3 项目侧标准化画像自动生成技术

创始人输入创业项目信息（BP 文档 + 项目简介）后，系统自动完成项目侧画像全流程结构化，无需人工填写表单，技术实现分两步：

BP 文档多模态解析：PDF 版 BP 经过 Layout OCR+LLM 文档解析，自动抽取项目细分赛道、融资轮次需求、目标融资金额、创始团队履历、核心技术壁垒、营收阶段等关键信息；纯文本项目简介经过 NLP 实体抽取标准化字段；
项目特征向量对齐：按照投资人向量相同的编码规则生成项目 128 维结构化向量 + 768 维语义向量，后续匹配算法通过项目与投资人向量相似度完成首轮候选池召回。

4 一级市场投融资知识图谱构建：Neo4j+NebulaGraph 混合图存储与 GraphRAG 落地

Fundraisly 采用双引擎混合图存储架构：NebulaGraph 承载全域亿级边的公共投融资知识图谱（全量投资人、机构、项目、行业关联），Neo4j 承载单用户轻量化个人社交子图谱（创始人专属人脉网络），依托 GraphRAG 实现图谱知识与大模型联动，既是温热路径挖掘底层载体，也是投资人匹配的关联特征补充，本章从图谱实体关系设计、混合存储选型依据、图谱构建流水线、GraphRAG 落地四个维度拆解。

4.1 知识图谱五大核心实体与标准化关系定义

全域投融资公共知识图谱定义五大核心实体，每个实体绑定唯一全局 ID，与数仓 DWM 层主键打通，实现数据同源同步：

Investor（投资人）：主键 INV_ID，属性：全量画像标签、活跃度得分、从业信息；
Institution（投资机构）：主键 INS_ID，属性：基金规模、存续周期、官方投资策略；
Startup（创业项目）：主键 PRO_ID，属性：细分赛道、融资轮次、融资金额、落地地域；
Person（行业自然人：创始人 / 大厂高管 / 服务商）：主键 PER_ID，属性：学历、履历、从业行业；
Industry（细分赛道）：主键 IND_ID，属性：父级行业、上下游关联赛道。

全图谱标准化 12 类有向关系，关系边附带权重（0～1 浮点数，代表关联紧密程度，由历史交易频次、共事时长加权计算），核心关系清单： 1.【INVEST】投资人→投资→项目（边权重：投资金额占基金比重 + 投资时间新鲜度加权）； 2.【BELONG】投资人→任职于→投资机构； 3.【STUDY】自然人→同校就读→自然人（校友关系）； 4.【WORKTOGETHER】自然人→共事→自然人（前同事关系）； 5.【FOCUS】机构→专注于→细分赛道； 6.【UPSTREAM/DOWNSTREAM】赛道→上下游→关联赛道；其余 6 类为合作、顾问、并购等补充关系。

创始人个人社交子图谱在上述实体基础上，额外导入用户私有通讯录人脉实体，新增【MYFRIEND】用户→好友→自然人专属边，是温热引荐路径的独有数据来源。

4.2 双图引擎混合存储选型技术依据

NebulaGraph（公共全域图谱）：全量公共图谱当前节点数 327 万、关系边 1842 万，数据量级超千万级，Nebula 原生分布式架构、横向分片扩容、海量边遍历性能优于 Neo4j，擅长全图谱跨赛道关联检索、批量投资人关联查询，承担公共投融资数据存储与全局图特征计算；
Neo4j（用户个人社交子图谱）：单创始人社交图谱节点通常在数百～数千节点级别，数据体量小，Neo4j Cypher 语法易用、最短路径算法原生优化、可视化友好，适配单用户个性化温热路径求解、局部人脉链路遍历，每个用户按需动态生成独立子图谱，存储在独立分片。

数据同步机制：DWM 层每日增量数据经过图数据转换引擎，自动同步新增实体与关系至 Nebula 公共图谱；用户上传私有社交数据后，实时在 Neo4j 新建专属子图谱，子图谱通过 PER_ID 关联 Nebula 公共图谱自然人实体，打通公私域数据关联。

4.3 图谱自动化构建流水线（ETL→实体映射→关系抽取→权重赋值）

图谱全流程无人工录入，流水线对接数仓 DWM/DWS 层标准化数据，分为四步自动化构建：

实体映射阶段：从 DWM 投资人、项目、机构宽表抽取实体属性，基于全局唯一 ID 完成图谱实体创建，字段一一映射画像标签、统计指标；
结构化关系批量导入：投资、任职、同校等结构化关系（来源招股书、官网、LinkedIn 结构化数据）通过 Spark 批量生成边数据，批量导入图数据库，占全量关系 71%；
非结构化关系 NLP 抽取：从创投新闻、访谈文本中抽取合作、顾问等隐性关系，微调关系抽取模型识别非结构化文本实体关联，生成剩余 29% 隐性关系边；
边权重动态计算：依托 DWS 层时序数据，按照既定加权公式自动计算每条边权重，每日增量刷新权重数值，例如投资人近 3 年持续重仓某赛道项目，则【FOCUS】边权重自动提升。

4.4 GraphRAG 落地：图谱知识赋能投资人匹配与文案生成

Fundraisly 将 Nebula 知识图谱作为 RAG 外部知识库，落地 GraphRAG 架构，解决通用大模型投资人信息滞后、幻觉问题，分为检索→注入→推理三步：

图谱结构化检索：用户输入项目信息后，系统先通过向量粗召回候选投资人，再基于 Graph Query 从 Nebula 拉取候选投资人关联图谱信息：投资人过往同赛道投资案例、同校友创始人项目清单、持仓项目上下游企业，生成结构化参考知识库；
知识库注入 LLM 上下文：将图谱检索到的精准投资人信息拼接进 Prompt 上下文，替代大模型过期训练知识；
推理落地两大场景：①投资人精排打分，图谱关联数据作为补充特征加权进入匹配评分；②冷触达文案生成，依托图谱投资人持仓项目信息生成个性化文案切入点，例如 "您此前投资 XX 同赛道项目 A，我方项目在 XX 技术维度实现迭代优化"，从图谱数据中抓取真实案例，杜绝文案虚构信息。

GraphRAG 落地后，大模型投资人相关信息幻觉率从 41.3% 降至 5.7%，触达文案个性化真实度大幅提升。

5 温热关系路径挖掘：基于加权图算法的创始人社交网络链路求解原理

温热引荐路径定义：依托创始人自有社交图谱 + 公共知识图谱，找到 "创始人→N 层中间引荐人→目标投资人" 的连通链路，链路中间人为双方共同熟人，可做线下引荐，是区别于陌生冷触达的高转化邀约渠道，Fundraisly 核心技术为带权重多约束最短路径改进 Dijkstra 算法，本节拆解路径分级、算法优化逻辑、链路筛选规则。

5.1 温热链路三级分级标准（按照链路层数划分转化优先级）

系统按照链路中间节点层数划分为三级温热路径，层级越少引荐难度越低、邀约成功率越高，算法优先输出短链路：

一级温热（二度人脉，链路长度 = 2）：创始人→直接好友→目标投资人（仅 1 层中间引荐人），最高优先级，优先安排引荐；
二级温热（三度人脉，链路长度 = 3）：创始人→好友→好友→目标投资人（2 层中间引荐人），次优先级；
三级温热（四度及以上，链路长度≥4）：多层间接人脉，标记备选温热，引荐优先级低于前两级，若无一二级链路再启用。

路径边权重规则：好友边【MYFRIEND】基础权重 0.1（关联紧密，路径成本低），普通职场关系边【WORKTOGETHER/STUDY】基础权重 0.3（关联偏弱，路径成本更高），权重数值代表引荐成本，Dijkstra 算法求解加权总成本最小路径，而非单纯节点数量最短路径，同等层数下优先输出边权重更低的高紧密链路。

5.2 改进加权 Dijkstra 路径求解算法技术细节

原生 Dijkstra 仅适用于单源单目标最短路径，Fundraisly 做三层工程优化，实现单创始人源节点、批量目标投资人多目标并行路径求解：

候选投资人前置过滤：先通过匹配算法筛选出项目适配活跃投资人清单（目标节点集合），避免全图谱无差别遍历，大幅缩小图搜索空间；
路径深度截断优化：算法搜索深度最大限制 4 层（仅计算一 / 二 / 三级温热），超过 4 层直接停止分支遍历，舍弃过长无效链路，控制算法算力开销，单用户路径全量求解平均耗时≤120ms；
多路径择优规则：单个目标投资人若存在多条可达温热链路，自动按照加权总成本从小到大排序，仅保留 Top3 最优链路存入结果集，剔除冗余低效路径。

算法执行载体：单用户 Neo4j 社交子图谱 + Nebula 公共图谱跨库关联查询，Cypher + 自研图遍历引擎混合执行路径检索。

5.3 温热链路结果结构化输出与数据落地

算法输出每条温热链路结构化字段：链路层级、全链路人名清单、各节点关系类型、链路加权总成本、引荐优先级评分，系统自动将全部温热匹配投资人从候选池中拆分，划分为【温热引荐池】，剩余无连通链路的适配投资人划入【冷触达候选池】，分池进入下一环节：温热池优先走熟人引荐邀约，冷触达池交由冷触达 AI 智能体做个性化私信 / 邮件触达。

工程落地数据统计：全量项目测算中，平均 31% 优质适配投资人可挖掘出有效温热引荐链路，剩余 69% 进入冷触达池，温热链路邀约会议转化率是冷触达的 5.8 倍，也是产品最终稳定产出 20～40 场高质量会议的核心技术支撑。

6 冷触达智能体技术栈：微调 LLM+PPO 强化学习实现定向个性化投资人触达

针对无温热链路的目标投资人，冷触达子 Agent 完成投资人动态情报实时抓取→个性化触达文案生成→触达渠道适配→邀约话术优化全自动化闭环，核心技术是领域 LLM 微调 + PPO 强化学习闭环优化，依托历史数十万触达反馈数据持续迭代文案生成模型，提升邮件 / 私信回复率，本章拆解四层技术架构。

6.1 冷触达智能体四层执行链路

情报实时采集层：调用通用搜索 + 投资人社交动态爬虫，抓取目标投资人近 90 天动态（新发投资、演讲观点、团队招人、持仓项目动态），补充 GraphRAG 图谱数据，汇总生成投资人最新专属情报包，作为文案生成输入素材；
Prompt 结构化编排层：基于投资人画像 + 图谱数据 + 实时动态三部分数据，自动拼接结构化 Prompt，强制约束文案生成规则：正文 100～150 字符、包含 1 个项目与投资人契合点 + 1 个明确邀约诉求、无模板化套话、专业克制语气，从规则层面规避长篇无效文案；
领域微调 LLM 生成文案层：基于 Llama3 基座 + 创投触达邮件语料（18 万条真实投融资往来邮件）LoRA 微调生成触达专用模型，输入结构化 Prompt 输出个性化邮件 / LinkedIn 私信两种格式文案，适配不同触达渠道；
触达结果回流层：抓取邮件打开率、回复率、邀约成功 / 拒绝标签，结构化标签数据回流至强化学习奖励模型，完成闭环迭代。

6.2 PPO 强化学习闭环优化（冷触达转化率提升核心）

系统搭建双模型架构：文案生成主模型 + 回复率预测奖励模型，依托 PPO 近端策略优化持续迭代主模型，完整闭环逻辑：

奖励模型训练：使用历史百万条触达样本（文案内容 + 最终回复标签：已回复 / 已邀约成功 / 无响应）训练奖励模型，输入生成文案输出 0～10 分奖励得分，得分越高代表文案预测回复概率越高；
PPO 迭代训练：主模型生成触达文案后，奖励模型实时打分，PPO 算法以奖励分数为优化目标反向微调生成模型参数，模型逐步学习高回复率文案句式、切入点；
线上真实反馈迭代：线上触达后真实回复数据按月增量补充训练集，月度重训奖励模型，形成 "生成 - 发送 - 反馈 - 重训优化" 永久闭环，上线 18 个月后冷邮件平均回复率从初始 4.9‰提升至 18.7‰。

6.3 邀约会议结果结构化归集

触达 Agent 自动汇总所有反馈：温热引荐成功会议、冷触达邀约成功会议，汇总后按照投资人活跃度、匹配得分做会议质量分级（S/A/B 三级高质量会议，仅 S/A 计入最终 20～40 场有效会议统计，B 级备选），完成全链路数据输出。

7 全链路结果量化模型：高质量会议转化率预测数学建模

系统内置转化率预测机器学习模型，基于 XGBoost 梯度提升树训练，输入特征包含：投资人活跃度 S 得分、项目与投资人匹配相似度得分、温热链路层级、冷触达文案奖励得分、投资人赛道契合度五大维度特征，标签为历史数据中该类特征最终邀约成功概率，实现项目全流程可邀约会议数量提前量化预测，也是产品 20～40 场会议量化结果的技术依据。数据集：累计 1.7 万条真实融资全流程样本，划分训练集 85%、测试集 15%，模型测试集 MAE 误差控制在 1.2 场以内。模型输出两个核心指标：①温热引荐预估成功会议数；②冷触达预估成功会议数，两项相加得到项目整体预估会议区间（20～40 场），若预估总数偏离区间，算法自动补充同赛道备选活跃投资人，补齐候选池数量，保障最终落地会议落在目标区间。模型按月增量新增真实项目落地数据做增量重训练，持续优化预测精度，适配一级市场投融资周期、行业风口变化带来的转化率波动。

8 系统工程化部署、性能瓶颈优化与隐私合规技术方案

8.1 容器化部署与算力优化

全系统基于 K8s 集群容器编排，大数据集群、图数据库集群、LLM 推理集群拆分独立命名空间，LLM 推理采用 GPU 容器弹性伸缩，闲时缩容 GPU 节点、高峰期自动扩容；Milvus、Nebula 开启冷热数据分层，低频历史交易数据存入低成本对象存储，高频近 3 年活跃数据常驻内存，存储成本降低 42%。全链路单次项目从上传 BP 到输出投资人清单 + 温热路径 + 触达文案全流程耗时≤90s。

8.2 全链路隐私合规技术

用户私有社交数据本地脱敏存储，不汇入公共投资人数据库，采用差分隐私技术模糊化个人敏感字段；
投资人隐私信息展示脱敏（隐藏投资人私人邮箱、手机号，仅触达阶段由系统自动代发，用户无法直接导出完整隐私联系方式）；
全链路数据访问 RBAC 权限管控，操作日志全留存可审计，满足全球 GDPR、国内个人信息保护法合规要求。

9 技术落地现存缺陷与未来迭代技术路线

9.1 当前系统现存技术短板

小众细分赛道投资人数据源覆盖率不足，部分垂直冷门赛道投资人数据稀缺，NLP 隐性标签抽取样本偏少，匹配精度低于主流赛道；
跨语种海外小语种创投资讯 NLP 解析精度不足，非英文 / 中文资讯实体抽取 F1 仅 78%，海外小众投资人画像完整性受限；
温热路径仅依托公开职场数据构建，无法覆盖线下峰会、私人圈层等无公开记录的隐性人脉。

9.2 未来迭代技术路线

多语种大模型迭代：训练多语言投融资专用 Embedding 模型，覆盖西语、德语、日语等主流小语种，提升海外小众投资人数据解析能力；
多模态情报补充：新增投资人短视频演讲、播客音频 ASR 转文本解析，从音视频素材补充隐性投资偏好标签；
时序预测升级：引入时序 Transformer 模型，基于历史基金募资周期数据，预测未来 6 个月新基金落地窗口期，提前锁定潜在新增活跃投资人；
多模态冷触达：新增 AI 语音外呼子 Agent，针对高优先级投资人支持 AI 实时语音邀约，拓展冷触达渠道。

文末互动

以上是 Fundraisly 融资 AI 智能体全栈技术拆解，全文摒弃营销话术、纯从底层工程、算法、大数据落地细节展开。如果你觉得本文技术拆解有参考价值，点赞 + 收藏，关注博主持续更新垂直领域 AI Agent 底层技术解析，后续将拆解同类投融资 AI 产品（CapitalX、Articuler.AI）底层架构，也可在评论区交流一级市场大数据、图谱 + RAG 落地踩坑问题，我会逐条回复探讨。