在我们日常生活中或多或少都会有记账的情况,以此来对自己的收支和消费习惯进行分析,来帮助自己减少不必要的开支,优化财务决策、合理分配资金,减少财务压力和不必要的浪费。
但记账这个动作本身就是一件比较麻烦的。虽然现阶段有很多APP应用来帮助我们进行记账,不再像原来一样需要手写记录,但还是存在比较多的问题。比如:每记录一笔都要手动点选分类,长期下来很浪费时间。另外,如果想自动记账还得授权支付应用的权限接口给记账程序,这样会对财产造成安全隐患。
刚好,在最近的"中国大学生服务外包创新创业大赛"上就有大学生团队针对记账问题提供了它们的解决方案。
首先,介绍一下什么是中国大学生服务外包创新创业大赛
中国大学生服务外包创新创业大赛是在为了积极响应国家关于鼓励服务外包产业发展、加强服务外包人才培养的相关战略举措与号召而衍生出的全国性竞赛,该赛事自2010年创立以来,成为服务外包产业领域的国家级赛事。尤其在本届大赛上共有803所全国院校的8006支团队报名参赛,报名团队数再创新高!可以说是非常有影响力的一项赛事。
本届大赛的内容设计充分聚焦企业发展中所面临的技术、管理等现实问题,与产业的结合度更紧密,其中智能文字识别技术是大赛重点关注的技术之一。
合合信息作为国内外智能文字识别领域领先的科技企业,基于自身在行业领域的认知,从"基于智能文字场景个人财务管理创新应用"等议题出发,向广大学生群体发出了"产品征集令",相关赛题吸引了全国70多所高校的近300支队伍积极参与,也涌现出许多优秀的作品。
尤其是中南大学研发的"记账全能王"让我印象深刻,该应用非常有效的解决了现行业现状记账的痛点:
他们团队首先对大量用户调研,分析出绑定支付自动记账和图片识别记账更受欢迎,尤其是在45-60岁的中年用户:
也调研了市面常见的记账类APP,指出了它们现阶段存在的几大问题,尤其是自动记账导致隐私过度收集这一块做了充分的说明:
它们也针对该问题,在APP中提供了通过识别账单图片来录入账单信息的方式进行记账:
这个功能看似很简单,实际难度是很大的!
虽然这个功能核心步骤就两个:票据图片识别、提取信息。
但要做好这两步需要下很大的功夫。首先,票据种类特别多,二是票据本身保存不好的话,会有很多褶皱或者字迹不太清晰的情况,三是因拍摄环境复杂的原因会导致图片反光、明暗不同等呈现质量差的问题。这样就会导致在识别的时候很容易造成识别不准确或识别失败的情况。
他们为了解决票据识别的问题,使用了合合信息提供的智能文字识别服务平台接口来对票据进行识别及预处理,该接口支持识别的票据种类非常多、无论是发票、火车票、金融票据等都能提供精度很高的识别效果:
图片识别出文本后,就需要对其进行预处理,这一步骤通常包括去除标点符号、数字和特殊字符,将文本转换为小写,以及进行分词。他们采用了jieba这个专为中文文本设计的分词工具库进行分词,然后将文本中的词语转换为数值向量,以便计算机能够理解和处理,最后再对图片中的账单信息部分进行文本分类与信息关系抽取,抽取出具体的金额、地点、店铺等信息,也就是命名实体识别(NER)
什么是命名实体识别(NER)呢?
是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等等,并把我们需要识别的词在文本序列中标注出来。
举个例子就很容易理解,比如现在有一段文本:
我和张三昨天去看了蜘蛛侠,感觉还不错,下周还想去看阿凡达,你要跟我们一起吗?
我们要在上面文本中识别出电影名称的信息,那么我们需要识别出来内容则是:蜘蛛侠、阿凡达。
而对于上述提到的账单识别而言,我们则需要把图片包含的文本信息中的账单相关部分提取出来并排除掉与其无关的信息,这就是典型的命名实体识别。
中南大学为了处理这个问题,使用了基于谷歌BERT(Bidirectional Encoder Representations from Transformers)衍生的Bert-Chinese作为预训练模型:
然后将各种票据类型数据输入到模型中并进行训练。训练完成后再进行微调,运用到下流任务(如账单类别判定)等任务中,最后提取出账单信息,整个的算法步骤流程图如下图所示:
他们团队所使用的技术路线如下图所示:
我也使用了"记账全能王"app测试了一下,效果也是很不错的:
识别结果
中南大学团队整体表现在我看来是非常亮眼的,不仅洞悉了"中老年人使用记账本应用需要经历繁琐的操作"现象背后发现"图片识别记账方式更受欢迎"的趋势,并针对性地进行产品优化,还灵活地将合合信息智能图像识别模块与小票识别的API落地到记账场景中,再结合大模型将复杂的小票信息秒速转换成了简洁、高效的数据输入,这是非常难能可贵的。
另外我还认为该类应用具有不错的前景和商业价值,国务院印发的《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》《新一代人工智能发展规划》等文件中也提到:人工智能在个人财务管理领域的深入应用,有利于推动个人财务管理数字化,帮助消费者以较低的成本,实现消费的合理安排、财务风险的可靠保障以及钱财的最优跨期配置。在国家大力支持的背景下,该赛道一定具有不错的未来!
在中国信通院进行的测试中,合合信息智能文字识别产品顺利通过全部7项基础类功能指标测试以及9项增强类功能指标测试,获得"增强级"评级,其智能文字识别产品展现出良好的性能和服务成熟度。
以具有较大难度的证件类和票据类性能测试为例,面对旋转、阴影、反光、褶皱、形变、模糊、多语言、低像素、光照不均等复杂场景,合合信息智能文字识别产品均有较高的识别准确率,字符准确率分别为99.21%和99.59%,字段准确率分别为97.87%和98.42%。
其实,中南大学利用合合信息票据识别接口来识别票据的功能只是合合信息众多功能中的一小部分,除此之外合合信息还有很多强大的功能和产品,特别是他们推出的扫描全能王、名片全能王等智能文字识别产品已经服务全球上百个国家和地区的上亿用户。
在去年我也使用过合合科技的PS检测和摩尔纹去除等服务,效果都很不错,特别是PS检测上,这一直是很多行业迫切需要解决的难点,特别是在保险、金融、银行等领域,如果将虚假篡改过的信息资料审核通过可能会带来巨大的影响甚至是经济上的损失:
今年也看到合合信息团队对图像篡改检测"黑科技"持续优化升级,应用面也拓展至"截图篡改检测":除了原本支持的文档、证书、证件等自然场景图像的识别检测外,还支持转账记录、交易记录、聊天记录等多种截图的识别检测,无论是从原图中"抠下"关键要素后移动"粘贴"至另一处的"复制移动"图片篡改手段,还是"擦除"、"重打印"等方式,图像篡改检测技术均可"慧眼"识假!
不难看出,合合信息的产品不仅质量高且具有十足的多样性,能应用的领域也非常广泛。
通过这次的大赛也可以看到,现代学生的作品不再局限于传统互联网思维下的应用开发,而是逐渐发展为结合人工智能、大模型进行创新、创造新时代的产品,也真正实现了"用新技术解决旧问题"。
还能够感受到的是,现阶段企业对于人才的需求人从单一性变为多样性了,知识面单一的人才显然已经不能满足时代需求,因此交叉学习也越来越重要。
举办该大赛还有一个重要的目的是:促成校企双方在科研项目、人才培养等方面深度合作,助推产学研用协同创新发展。因此,大赛对参赛作品的评分标准也十分"仿真",涉及技术资源及经济成本控制,对项目创意前景的判断、对市场需求的分析等方面,覆盖商业价值、社会应用价值等多方面的评估。
CharGPT以及其他生成式AI的爆火让我们清晰的感受到未来一定是人工智能的时代,行业也会渴望每一位对专业学术领域有着深刻独到理解,具备构建解决方案潜力的人才。
在大赛的闭幕式上,合合信息人力行政部负责人杜杰介绍了他们公司的人才培养计划:
"企业期望与新一代青年才俊共同开拓科技新场景。在时代进步的每一个阶段,我们都需要不同的新生力量来创造新的可能性。"杜杰表示,现阶段,合合信息通过"星火计划"等系列人才培育计划和配套分享平台,助力科技青年在实践中强化专业能力,未来也将持续联合高校和行业机构,共同探索产学研融合之路,让大学生们创新的科技灵感能够更便捷地寻找沃土里,从而"落地生花"。
相信它们的举措以及大赛的继续开展会持续影响更多的从业者!