spark

极光代码工作室1 天前
大数据·hadoop·python·spark·数据可视化
基于数据仓库的电商数据分析平台随着电子商务行业持续高速发展,头部平台日均订单量突破千万级,用户行为日志达TB级规模,传统数据库与BI工具在面对多维、实时、高并发分析场景时暴露出查询延迟高、模型耦合强、扩展性差等瓶颈。本研究聚焦“构建面向电商场景的高性能、可扩展、语义清晰的数据分析平台”这一核心命题,基于Kimball维度建模理论,设计并实现了一套以Hadoop+Spark为核心引擎、以Star Schema为逻辑模型、以Apache Superset为可视化门户的端到端电商数据分析平台。系统完整覆盖从原始日志采集(Flume/Kafk
JLWcai202510091 天前
mongodb·zookeeper·eureka·spark·rabbitmq·memcached·storm
铸造领域树脂砂轮|金利威多场景解决方案,20 + 配方覆盖全需求铸造行业工况复杂、切割要求严苛,从碳钢、不锈钢到耐高温合金钢,不同材质、不同场景对砂轮的锋利度、耐用性、安全性都有极高标准。金利威深耕磨料磨具领域,针对铸造行业的多样化需求,打造出覆盖 20 + 规格型号的树脂砂轮产品矩阵,经市场实践验证,在铸造属性领域具备行业前茅的性能优势,为客户提供高效、稳定、安全的切割解决方案。
ACP广源盛139246256732 天前
大数据·人工智能·分布式·嵌入式硬件·spark
GSV9001S@ACP#1080P 级视频处理芯片,物理 AI 普及终端的高性价比选择与同价位视频处理芯片相比,GSV9001S 的核心优势在于普及型物理 AI 场景的精准适配:其一,其针对 1080P 场景的优化,在降低成本的同时保留了核心视频处理能力,避免了普通入门级芯片常见的画面卡顿、色彩偏差问题;其二,集成的 MCU 与基础交互功能,无需额外添加主控即可实现物理 AI 终端的界面交互,简化了系统设计;其三,低功耗与工业级稳定性,使其能在普及型终端中长时间稳定运行,而竞品芯片的故障率普遍更高,无法满足大规模应用的可靠性要求。
木心术12 天前
大数据·人工智能·spark
AMD Ryzen AI Halo与NVIDIA RTX Spark/DGX Spark两款AI个人主机的差异和优劣势关键修正:NVIDIA DGX Spark确实预装Linux(Ubuntu DGX OS),而RTX Spark是Windows专属。AMD采用双版本策略,覆盖两种操作系统生态。
ACP广源盛139246256732 天前
大数据·人工智能·分布式·嵌入式硬件·spark
GSV5600@ACP#多接口协议转换芯片,物理 AI 便携终端的互联核心与传统协议转换芯片相比,GSV5600 的核心优势在于便携物理 AI 场景的深度优化:其一,其高度集成的设计减少了终端设备的体积与功耗,这对便携终端至关重要,而竞品芯片通常需要搭配额外的转换芯片,增加了系统复杂度;其二,低功耗架构与高效电源管理,解决了物理 AI 终端长时间运行的续航问题,普通转换芯片的功耗是其 1.5 倍以上;其三,国产化设计与快速技术支持,可针对特定便携终端的接口需求提供定制化固件,适配悟道 4.0 模型的轻量化应用场景。
KaMeidebaby2 天前
大数据·人工智能·架构·spark·新浪微博
卡梅德生物技术快报 | 噬菌体展示 12 肽文库在蛋白表位定位中的应用与实验数据本次实验针对 4 型禽腺病原体开展蛋白表位定位研究。该微生物的六邻体蛋白、1 型纤维蛋白是核心免疫靶点,两类蛋白氨基酸序列长,抗原位点分布不明确。传统实验方式需要逐段截短表达蛋白,单批次仅能验证少数片段,实验周期长达数月,且体外表达的截短蛋白容易丢失天然空间构象,导致筛选结果失真。实验核心需求:快速、高通量筛选出可与特异性单克隆抗体结合的模拟表位,并反向定位天然蛋白的抗原区域。基于该需求,团队确定采用噬菌体展示12 肽随机文库作为核心实验工具,利用噬菌体展示系统将随机 12 肽展示于噬菌体外壳,模拟天然抗
ACP广源盛139246256733 天前
大数据·人工智能·嵌入式硬件·gpt·spark
GSV2221@ACP#DP 1.4 MST 多屏转换芯片,物理 AI 多模态交互的视觉中枢与传统转换芯片相比,GSV2221 的核心优势在于物理 AI 场景的深度优化:其一,其 DSC 解码引擎专门针对 AI 生成画面的压缩格式优化,避免了普通芯片在处理动态物理渲染数据时的画质损耗;其二,低延迟架构确保了 AI 动作指令与画面反馈的同步性,这对物理交互场景至关重要;其三,工业级宽温设计(-40℃~85℃)与强抗干扰能力,使其能在复杂电磁环境的工业物理 AI 终端中稳定运行,而竞品芯片多为商业级设计,无法适配此类场景。
想ai抽3 天前
大数据·性能优化·spark
Spark Executor 因节点内存超限被杀的分析与应对关键信息:YARN 的 NodeManager 有两层内存监控,理解它们的区别是定位问题的关键:本文讨论的是节点级别的情况——你的 Executor 自身内存使用正常,但因为同节点上其他容器占用了大量内存,导致物理机整体内存吃紧,NM 为了自保杀掉了部分容器,你的 Executor 不幸被选中。
simidagogogo4 天前
算法·spark·推荐算法
生产环境推荐系统最隐蔽的坑:Training-Serving Skew 详解与实战去年某电商大促期间,我们团队上线了一个新版的深度推荐模型。离线评估一切正常:AUC 提升 3%,NDCG@10 提升 5%。然而上线后,CTR 曲线没有如期上扬,反而在流量放大到 10% 时出现了明显的下滑。
ACP广源盛139246256734 天前
大数据·人工智能·分布式·嵌入式硬件·spark
GSV6155@ACP#DP 1.4a 重定时器芯片,物理 AI 信号长距传输的稳定保障与传统 DP 中继芯片相比,GSV6155 的核心优势在于物理 AI 场景的精准适配:其一,其重定时算法专门针对 AI 生成的动态画面优化,相比普通中继芯片,对高帧率、高对比度画面的恢复能力更强,避免了物理推演中关键细节的丢失;其二,集成 PD 与 CC 模块的一体化设计,减少了外围器件数量,降低了终端设备的功耗与故障率,而竞品芯片通常需要额外搭配 PD 控制器;其三,国产化技术支持与快速响应服务,可针对物理 AI 终端的特殊需求提供定制化固件,而境外芯片厂商的技术支持周期长,难以满足快速迭代的 AI 应
ACP广源盛139246256734 天前
大数据·人工智能·分布式·嵌入式硬件·gpt·spark·电脑
IX7008 PCIe 交换芯片@ACP#RTX Spark 经济型 8 口扩展芯片(对比 ASM1806)绝大多数消费级、入门商用 RTX Spark 设备(主流 AI 本、家用 AIPC、入门 AI 盒子、小型单路视觉设备),仅需要4~8 路 PCIe 端口扩展,核心诉求为体积小、成本低、稳定耐用、即插即用。
ACP广源盛139246256734 天前
大数据·人工智能·分布式·嵌入式硬件·gpt·spark·电脑
IX6012 PCIe 交换芯片@ACP#RTX Spark 入门级 12 口存储外设扩展方案(对比 ASM1812)主流 RTX Spark 桌面 AIPC、中端 AI 工作站、小型存储服务器,普遍需要8~12 路 PCIe 外设 / 存储扩展,用于连接多块硬盘、单路 / 多路 AI 相机、加速卡等设备。这类设备定位中端,要求扩展芯片端口够用、价格亲民、运行稳定,无需高端集群的极限性能。
暴躁小师兄数据学院5 天前
大数据·hadoop·flink·spark
【AI大数据工程师特训笔记】第15讲:大数据环境安装目录第一章:WSL 与 Java 环境安装第二章:Hadoop 安装与配置第三章:Hive 安装与配置
木心术16 天前
大数据·分布式·spark
在NVIDIA DGX Spark上部署NemoClaw的实际操作方案以及实际应用便利性。NVIDIA DGX Spark + NemoClaw的组合为企业提供了前所未有的本地AI部署能力,在保证安全性的同时,充分发挥了DGX Spark强大的1 PFLOPS算力,真正实现了"把AI工厂级能力压缩进桌面形态"。
KaMeidebaby6 天前
大数据·人工智能·架构·spark·新浪微博
卡梅德生物技术快报|纳米抗体表达:分子生物学实操指南:噬菌体筛选与纳米抗体表达全流程技术拆解在分子生物学实验室与生物试剂研发场景中,单域抗体制备是热门实验方向。传统杂交瘤细胞制备单抗、动物多抗的实验方案,存在流程繁琐、周期长、产物稳定性差等问题,且难以获得针对隐蔽表位的结合蛋白。
Nefu_lyh7 天前
hive·spark·mapreduce
【Hive】 八、Hive 计算引擎:MapReduce / Tez / Spark 对比与选型计算引擎是大数据处理中的核心软件框架,它负责对海量数据执行具体的计算任务,是数据从“存储”到“价值”的加工车间。
极光代码工作室8 天前
大数据·python·数据分析·spark·数据可视化
基于数据分析的电影票房预测系统随着中国电影产业持续高速发展,2023年全国电影总票房达549.15亿元,观影人次达12.9亿,影视内容生产与市场运营日益依赖数据驱动决策。然而,当前主流票房预测仍高度依赖人工经验、定性判断及简单线性回归模型,难以有效融合多源异构特征(如社交媒体情感倾向、宣发节奏、档期竞争强度、主创历史表现等),导致预测误差普遍高于35%,严重制约制片方预算分配、院线排片优化与平台精准营销。本研究基于真实电影行业数据,构建端到端的票房预测分析系统,采用“数据采集—特征工程—模型融合—可视化服务”四级技术路径:首先整合猫眼
KaMeidebaby8 天前
大数据·人工智能·架构·spark·新浪微博
卡梅德生物技术快报|噬菌体文库构建实验优化及偶联体系实验数据分析在常规实验室开展噬菌体文库构建实验时,高频故障集中在四个环节:第一,小鼠免疫后血清效价不达标,淋巴细胞活性低,直接导致起始原料不合格;第二,抗体可变区基因扩增失败,条带缺失或片段大小异常,中断噬菌体文库构建进程;第三,重组载体转化效率低,最终文库库容低于 10⁹ pfu/mL,无法满足高通量筛选要求;第四,辅助噬菌体扩增后滴度不足,文库扩增失败。 同时,后续联用实验中,天然人参皂苷 Rg3、Rh2 存在生物利用度低、靶向性差的问题,即便筛选出优质单链抗体,也难以发挥协同作用。这些故障在常规实验中反复出现,
鸿乃江边鸟8 天前
大数据·分布式·spark
Spark中怎么做Spark canonicalize归一化本文基于Spark 4.0在Spark查询计划的生成过程中,会对逻辑计划进行一次查询计划自上而下的替换:若某段子树与已 cache/persist 的查询 sameResult 相等,就把该子树换成对应的 InMemoryRelation,后续优化/物理规划会直接读内存缓存,而不是重算。 在这个过程中,就会进行逻辑计划的 归一化操作,该操作的目的是为了判断两个计划从语义上来看是否相等。这里分析一下这里的归一化操作是怎么实现的。其实这些实现不仅仅是对于spark来说有用,对于其他引擎也是有借鉴意义的。
ACP广源盛1392462567310 天前
大数据·人工智能·嵌入式硬件·gpt·spark·电脑·音视频
GSV2221 显示转换芯片@ACP#赋能 RTX Spark 端侧 AI 设备,构建多屏全模态视觉交互新生态英伟达 3nm RTX Spark 作为当下端侧 AI 的核心算力底座,依托 Grace CPU+Blackwell GPU 异构架构,凭借 50 Petaflops FP4 推理算力、13TB/s 超高内存带宽,实现200B 参数大模型本地流畅运行,搭配全球首款全模态物理 AI 模型 Cosmos 3,打通视觉、内容生成、动作预测三大能力,让端侧 AI 设备从单一计算工具进化为全场景智能交互终端NVIDIA 英伟达。