18600329666

咨询技术专家

扫一扫
与技术专家在线沟通

Menu
研报智能审核系统技术方案-证券
一,需求背景
      在当前监管机构大力推动金融行业数字化、智能化的背景下,针对研报产出流程中大量繁杂底稿的整理、传统审核流程等作业方式,智能核查系统从以下几个方面实现资源整合、信息共享、业务协同,以达到相关部门人员提升工作效率、提高产出质量等效果。
      从业务流程角度来看,研究员整理底稿,撰写研究报告,提交给核查人员后,核查人员对研究报告进行审核,期间伴随打回或传给下一位审核人员的动作,直至审核通过,流程无法规范化,信息很难共享。核查系统中可以支持管理人员制定审核流程,整个过程线上化,相关人员可实时关注项目进展,关键节点数据共享,减少信息传递阻碍。
从审核本身来看,核查人员需要在繁杂的底稿中一一对应每一个数据出处,且需要花费大量时间通过查询第三方数据来确保数据准确,核对过程没有数据沉淀,通过线下方式效率低、易出错。核查系统可将文档通过技术手段线上化后,对文档内容进行分析,智能判断文档中的数据与相关公开数据一致性,自动关联相关底稿内容,确保研究报告与相关底稿内容的一致性,通过语义分析等技术校验确保文本规范性,另外文档数据沉淀后,支持底稿溯源。核查系统应通过相关技术提供一套完整的文档核查能力,解决核查人员对于核查过程中的痛点。
1.软件系统开发目标
      从业务流程出发,系统应达到对业务流程完成覆盖,有相应的流程管理、人员管理、权限管理、核查内容管理,提高工作效率,规范核查流程。
      对于底稿,系统应具备底稿管理能力,完成数据沉淀,提供溯源能力,包括文本段落、数值等。
      对于核查本身,系统提供研究报告上下文一致性审核,底稿一致性审核,外部数据核对,文本规范性审核能力。
2.总体方案
     整个系统围绕业务内容进行设计,从数据来源、系统核心处理流程以及数据落地存储几个方面进行考虑。通过将业务人员上传的文件进行OCR、NLP、智能语言处理技术解析并结构化存储,完成核查对象的数据处理,对接第三方数据源数据,分析并清洗后得到外部数据支持。
      搭建工作流引擎支撑业务流程配置,包括人员权限相关管理、核查流程和相关内容管理,对研究人员、审核人员间的工作流程完成覆盖,支持文件上传、底稿管理、智能审核、人工审核、批注、反馈消息通知等功能,达到过程可追溯,提高流程规范,确保输出研究报告的质量。
      对于核心核查功能,整合已解析并结构化的文档,关联已处理的第三方数据,依赖配置的业务流程及核查相关规则要求,系统自动对研究报告进行上下文一致性的审核,研究报告与底稿间一致性审核,文中数据与第三方数据一致性,文本内容规范性审核。
      结构化存储各类文档数据,结合搜索引擎,达到底稿溯源能力,支持业务人员在系统中通过简单的关键字信息在海量底稿文档中筛选关键文档。
系统设计上,结构清晰,操作交互简便,使用流程清晰易用,理解与学习成本底
二.技术实现方案
1.服务端文件管理

文件管理模块是该系统的核心,由文件表格、文件树和文件编辑模块三个插件构成。主要功能可以分为:
1)基于Web的文件资源浏览。
2)基于Web的文件在线打开。
3)基于HTYP协议的大文件传输。
4)大文件传输的断点续传功能。
5)用户文件的空间管理。
2.数据库及文件服务器
本系统使用MySQL数据库,用来保存用户信息、上传的文件基本信息。文件断点续传模块采用base54加密的存储技术来实现对文件信息的管理。
3.OCR智能识别
图像处理:去噪声、平滑、去黑边、倾斜校正等。
表格识别
字符分割
字符识别
格式化输出
4.语义识别

地址识别

地址信息提取:精准提取文本填单中的地址信息,并按省、市、区、街道、详细地址的格式结构化输出
姓名信息提取:精准提取文本填单信息中收件人或寄件人的名称,并输出结构化信息
电话信息提取:精准提取文本填单信息中寄件人或收件人的联系方式,并输出结构化信息

词法分析

中文分词:将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列
词性标注:为自然语言文本中的每个词汇赋予一个词性,例如名词、动词、形容词等
命名实体识别:识别自然语言文本中具有特定意义的实体,主要包括人名、地名、机构名、时间日期

短文本相似度

短文本相似度计算:提供两个短文本之间的语义相似度计算能力,输出的相似度是一个介于0到1之间的实数值,输出数值越大,则代表语义相似程度相对越高
短文本相似聚合:通过语义相似度计算,判断两个短文本的语义表述是否相近,从而实现相似短文本的聚合或去重

文本纠错

文本纠错能力:准确识别出文本中出现的字词或标点错误,并针对性给出正确的建议文本内容,在搜索引擎、语音识别、内容审核等场景有广泛应用

词向量表示

词语向量化:通过训练的方法,将语言词表中的词映射成一个长度固定的向量
文本可计算:词表中所有的词向量构成一个向量空间,每一个词都是这个词向量空间中的一个点,利用这种方法,实现文本的可计算

词义相似度

深度语义解析:该技术常用于计算两个给定词语的语义相似度,基于自然语言中的分布假设,即越是经常共同出现的词之间的相似度越高
领先技术应用:词义相似度是自然语言处理中的重要基础技术,是专名挖掘、query改写、词性标注等常用技术的基础之一

依存句法分析

深度语义结构:利用句子中词与词之间的依存关系来表示词语的句法结构信息(如主谓、动宾、定中等结构关系) ,并用树状结构来表示整句的的结构(如主谓宾、定状补)等
算法识别准确:在大规模人工标注的数据基础上,句法结构描述体系简洁通用,海量数据训练让文本匹配更准确

DNN语言模型

基于条件概率:该技术通过计算给定词组成的句子的概率,从而判断所组成的句子是否符合客观语言表达习惯
 
5.智能报告知识库

系统结构

知识库管理系统由如下四部分就组成:
知识库使用关系型数据库来存放知识,包括事实与规则。
搜索模块实现知识库和推理机之间的知识搜索和与传递。
查询模块实现推理机对知识库的知识查询。
一致性、完整性检查模块在知识库中的知识发生变动时对知识库中的知识进行一致性、完整性检查。

功能概述

 

搭建海量文档集中存储的平台,实现统一的文档管理。对文档进行统一管理可支持显示、搜索、排序等功能。提供权限控制机制,针对用户进行细粒度的权限控制,控制用户的管理、浏览、阅读、编辑、下载、删除、打印、订阅等操作,实现文档安全共享。采用加密存储,防止文件扩散,全面保证数据的安全性和可靠性。
6.底稿审核
登录系统上传文件,系统将自动识别文件内容,区分首页及正文页,对首页数据进行整理,将整理的数据在文档正文内进行一致性核查,核查通过则提示验证通过,否则提示不通过。

7.文档协同

权限管理

通过集中的数据权限管控,分别对不同安全等级的数据分配不同的访问权限,并基于统一的安全技术框架与多维度的安全控制模型, 对用户授权及数据访问权限进行校验,保证核心数据的保密性。
系统权限机制:系统权限模块使用自定义用户角色机制;
       自定义用户角色:管理员可创建用户角色组,并设置角色组名称;
       自定义权限:针对不同的角色组设置不同的权限;
       自定义用户:创建用户账户并加入到不同的角色组(用户权限设置)。
       操作流程简述:创建角色-选择功能模块—>添加管理员-将管理员添加到该角色(管理员获得该角色权限)、编辑角色权限后对应管理员权限相应改变(需注销登录)。

文档在线操作

实现流程

对所有用户进行统一管理,提供对外注册(前端把用户填写的用户名、密码、手机号等信息加密后发送给服务端;服务端拿到数据,再和生成的唯一用户ID一起,存入表中。)、登录接口(前端要求用户输入用户名+密码并发送给服务端,服务端校验用户名和密码的正确性;校验通过后,根据「用户名+密码+密钥+时间戳」生成有时效性的Token,返回给客户端;登录之后前端所有请求都带着Token信息。服务端根据Token获取当前登录用户信息并判断请求是否合法。)、对文档进行统一管理,其中包括创建文档(前端发送文档名称、文档内容给服务端;服务端生成唯一的文档ID,从Token中获取到用户ID,获取服务器时间然后把数据一起存入数据库中;服务端返回文档ID给前端),修改文档(为了及时保存用户编辑的内容,需要在用户编辑过程中实时把数据传递给服务端。前端生成修改数据发送给服务端;服务端从数据库中获取文档内容,然后根据用户的行为合并操作,最后保存到数据库中。),查看文档(前端发送要查看的文档ID给服务端;服务端根据文档ID返回文档内容),删除文档(前端发送要删除的文档ID给服务端;服务端根据文档ID删除对应文档)等。

自定义表单

自定义表单可分为表单定义管理部分、表单呈现/提交部分、表单数据查看/管理部分。

表单定义管理

表单基本信息管理(表单名称、描述)、表单存储表字段管理、表单布局设计、表单数据验证定义、表单字段关联/子表单管理、表单字段编辑框行为管理。

表单存储表字段定义

定义表单中用到的数据项,包括字段名、字段类型、长度、默认值、编辑框类型、是否允许为空、是否自增长字段、分组名称、是否在列表中显示等信息。编辑框类型一般有:文本框、文本域、复选框、单选框、列表框、时间日期选择、文件上传框等。

表单布局设计

表单模板,表单中的数据项说明、编辑框、数据验证用内部变量来代替,系统可提供自动生成表单的功能,用户也可以自己手工修改。

表单数据验证定义

定义需要验证字段的规则,验证规则,用正则表达式的方式定义。

表单字段关联/子表单管理

定义表/表单之间的关联信息,即主键外键信息。

表单字段编辑框行为定义

主要负责处理字段值发生变化时引发的其他编辑框事件,比如连动下拉框、从选择值中返回值并赋予其他字段编辑框、其他编辑框的隐藏等。

表单运行时呈现及提交

根据表单定义的布局及其他设置呈现表单,并一起生成验证、行为用到的JS代码。如果填写表单时,先填主表信息,然后填写从表信息,多个表单之间要进行跳转,保存的临时表单值可采用SESSION进行传递,最后一起提交,提交时先写入主表信息,并返回主键值(如果存在主从表的话),然后写从表数据。

表单数据管理

根据字段配置信息显示表单的数据列表,并进行管理。