在过去的十年里,深度学习等技术的出现,让AI迎来了蓬勃发展的第三次浪潮。目前AI能力已经在银行、商超、小额支付、城市轨道交通等各行业得到了广泛的应用,例如人脸识别、图像识别、证件类文字提取等。但随着更多创新的智能化应用的爆发式增长,如智慧社区的高空抛物,智慧小区的电瓶车入电梯,餐饮行业中的明厨亮灶等,针对各行各业的越来越复杂的应用场景,如何去解决AI方面的专业人才不足、算法开发成本高、训练周期长、建模效率低以及投入产出结果不可控等问题就成了AI赋能应用落地的难题。
面对AI建模的挑战与困难,自助建模应运而生,它是帮助用户实现AI应用的低门槛、零代码的模型开发工具。业务人员无需专业的开发基础和编码能力,只需上传数据集,通过自助建模界面引导和简单操作即可完成模型训练和部署,数小时便可轻松获得AI模型。
OCR是近年比较火热的领域。像身份证识别、车牌识别等都需要运用到OCR技术,而像身份证识别的场景又非常多。比如,如支付宝、微信、小程序应用里的身份认证功能,上传的身份证图片经过识别后,无需人工干预就可将身份信息提取出来完成认证,十分方便。那么我们的AI又是如何在这种具体业务场景中提供匹配的能力呢?其中要经过什么样的流程,才能最终赋能应用?对于开发者来说,通过对具体案例流程的了解,就能够快速的掌握开发所需要的能力,从而实现自主创新开发。下面,我们就以“为身份证国徽面OCR识别进行AI建模”这个场景为例,与大家一同展开探究。
自助建模不同于高代码建模方式,它的业务目标是提供流程化操作界面,满足用户从上传文件、数据标注到自动化建模和模型部署在一个可视化配置页面中完成,从而大大减少建模难度和提高建模效率。
以身份证国徽面OCR识别为例,来详细介绍自助建模的流程:
业务人员通过界面化引导与操作进行自动化训练与模型部署流程,可即时体验效果;
业务人员对身份证国徽面OCR识别的能力验收和试用。
在整个自助建模流程中,业务人员可完成建模的全流程操作,无需算法工程师直接参与,也无需进行代码编写,则可完成身份证国徽面OCR识别场景的建模,经过模型部署后,则可完成对上层应用赋能。
工欲善其事,必先利其器,所以开始自助建模之前我们还是要选择一个合适的建模工具,人在江湖走怎么能没有一个响亮的名号和趁手的武器呢,WhaleDI自助建模就是我们要介绍的工具。那么有些朋友可能会好奇了,我们自助建模工具到底有何"超强技能"来支撑业务应用?以OCR识别的场景举例:
在实际生产中,样本数据对建模非常重要,由于业务局限与样本数据安全问题,很难搜集到业务场景所需的样本数据,若基于少量的样本数据进行模型训练,生成的模型效果会比较差,往往达不到生产的要求。
构建自动预处理的样本生成器,通过少量的样本数据,进行标注。基于已标注数据,将标注区内容抹除,生成数据模板,再基于此模板生成大量模拟样本,从而快速扩展样本集规模,满足实际情况所用样本集。
如图1,从业务中搜集到的样本集,整理其中不同字段文本的业务规则,包括机关名称字段、时间期限字段,并进行样本标注。
如图2,对样本数据去除标注区域文字得到模板样本,再从对应的文本语料库中生成文本图片,再进行样本的颜色、亮度、对比度、文字大小、形状等进行调节,合成到模板样本中,从而生成样本。
如图3,大规模生成业务生产中所需样本,解决样本不足的问题。
核心功能二:内置不同场景预训练模型功能,提升模型效果
为实现建模全流程自动化,降低技术门槛,提升建模效率,让完全不懂代码的用户也可进行训练建模,减少对算法技术不懂的恐惧,工具中内置预训练模型,如:图像检测、OCR识别、图像分类、文本分类等,用户可以根据使用场景进行选择。
当使用OCR识别场景时,在实际生产过程中,由于拍摄时,角度不一定都是正面的,会存在90°,180°,270°等旋转角度的情况,导致建模的时候,无法识别,建模的准确率降低。为了解决这一个问题,内置预训练模型则会进行校正图片的方向,最终会输出正方向的图片进行处理。
针对检测内容区域,会存在目标文字截断的情况,同时,对文字识别需要编写大量的规则分类,很难覆盖生产中能遇到真实场景,且模型较为复杂不具备性能优势,模型效果较差。而内置预训练模型,则会在进行文字检测后生成结果时,便进行文字分类,只检测图片区域中的关键文字内容,从而降低检测干扰以及文字截断的情况,提高文本检测的性能。
针对文字识别,通用文字识别字典覆盖汉字不够完全,遇到生僻字、变形字、扭曲字等情况,识别准确率较低,而内置预训练模型,进行数据增强提升:
(1)识别字典,构建出涵盖汉字、字母、数字、符号等多种类型的文字字符,同时,能覆盖出现频次较高的生僻字或词。
(2)基于百万级别数据进行优化文字识别模型,提高模型准确率,增强识别效果。
核心功能三:生成模型评估详情,提供可视化样本分析功能
在训练得到模型之后,整个建模过程还不能算结束,往往还需要对模型进行评估。一般很难一次性得到满意的模型,我们需要反复的进行样本数据的分析,参数调整,不断重复迭代训练生成模型。根据封装的模型评估脚本,可以针对测试集生成模型的指标,如准确率、精确率、召回率、F1值等。但模型指标,只能知道模型的效果,当我们根据模型指标发现效果不好时,怎样通过样本分析提高模型效果?
我们进行标注时,会通过标签来标记标注的内容,当模型识别出结果后,会根据标签也生成一个结果,通过两者进行比对,则能知道识别的内容是否准确,同时筛选出该负样本数据。如下图:
若筛选出负样本后,则可对样本数据进行判断,标注区域是否有问题。常见问题如:标注区域是否覆盖住标注内容等。若发现是识别的不准,可以选择更换模型语料库,然后再次对负样本进行标注检查,生成模板,生成样本数据,进行迭代训练输出模型。
基于训练后的模型效果,若不满意,可返回上传样本集步骤,优化完善样本集、自动化参数组合调优,再次进行模型训练,即可训练出新模型版本,从而完成流程化迭代,保障模型效果最佳性并持续可优化。我们这种流程化的自助建模工具,可以简化用户的操作,用户只需通过步骤指导进行迭代训练模型即可。极大地减少了使用难度,有效提高用户建模效率,满足AI快速落地的场景应用。
智能应用场景落地困难,在开篇提及的一系列问题以及挑战,其本质在于AI建模规模化、流程化、模块化、工具化能力不足。如果能简化智能应用的建模开发周期,面向样本数据、算法脚本、模型等内容形成便捷易用的工具体系,使工具标准化、统一化,实现模型算法的可构建、可复用、可迭代,方可确保支撑AI快速落地场景应用。
自助建模就是流程化、模块化、工具化的自动化建模工具,它把算法建模的难点全部进行预置与封装,如,具备内置的预训练模型算法、已封装的高级参数设置等。整个流程可由业务人员自助完成,可依托少量样本数据,便能快速高效进行建模。可通过流程化的模型迭代,进行自动化建模调优,保障模型效果。其特征以及作用如下:
(1)建模业务化:业务人员、无编程能力的小白,也能快速上手,无需耗费大量时间进行编码与调参优化即可自助完成AI建模,大大降低了技术门槛及开发成本。
(2)标注自助化:自助上传样本集文件、进行少量样本数据标注,则自动模拟生成生产所需样本数据,极大的提高了样本标注的人力与时间成本。
(3)训练自动化:对标注好的样本集,进行自动化模型训练与部署,缩短建模周期时长以及提升建模效率。
(4)迭代流程化:业务发生变化或模型老化效果跟不上时,可通过更新样本集,经过流程化界面进行标注、自动化训练即可完成模型的迭代更新。通过模型流程化迭代,可快速进行迭代更新应用场景所需的模型,以支撑快速落地的AI场景应用。