浅谈利用人工智能技术构建税务管理模型

(整期优先)网络出版时间:2024-05-22
/ 2

浅谈利用人工智能技术构建税务管理模型

凌晨

国家税务总局福建省税务局,福建福州  350001

摘要:生成式人工智能主要技术原理是机器通过先进的算法学习人类“投喂”给它的文本、图像、音视频等资料,并在学习中分析、理解和掌握各数据间的潜在特征和关联,并在这些特征和关联中加入自己的创意(如重新组织文本、图像、视频、代码等),最终实现为问题输入者生成其所想要了解的答案和内容。通过生成式人工智能,人们可以获得更多不同类型、不同视角的信息和数据,并利用这些信息和数据开展创造性的工作和管理。基于此,文章主要对人工智能技术构建税务管理模型展开分析。

关键词:人工智能技术;税务管理;模型

一、前言      

生成式人工智能是人工智能领域中一种新兴的技术,属于人工智能的子领域,其本质是机器使用深度神经网络等算法(如Transformer)学习大量数据样本(10亿参数以上)的统计规律和模式,进而拥有强大的识别、理解、推理、决策等类似于人类思维的能力,并能为问题输入者生成其想要的答案和内容,其典型代表就是ChatGPT。这种新型的人工智能,不仅可以学习和记忆人类向其灌输的信息,还能像一个富有创作能力的作家和艺术家,从无到有地创造出全新的内容,进一步解放人类的体力和脑力。

二、人工智能技术在税务领域的应用分析

生成式人工智能的基本原理是通过将数据“投喂”给一套先进的算法(如Transformer),该算法在预训练、行业训练、微调训练等阶段中自主学习数据特征和背后的规律,并最终形成具备识别、理解、推理和预测能力的人工智能模型。经训练后的模型,可以根据学习到的数据特征和规律,重新组织文本、图像、视频等内容,最终为问题输入者生成其所想要的答案和内容。当前,生成式人工智能技术已趋于成熟。自ChatGPT-3面世后,该技术应用快速火遍全球,生成式人工智能技术的应用场景也从最初的咨询问答、文章创作逐渐延伸到医疗、法律、气象、采矿等各个专业领域,赋能许多行业解决之前无法解决的问题,大幅提高了人们的工作效率。在生成式人工智能技术全球化应用的背景下,我国税务部门应该抓紧实施和应用,以进一步提高我们税务行业精确执法、精细服务、精准监管、精诚共治的水平。

三、人工智能技术在税务领域的应用场景

(一)税务咨询问答。生成式人工智能技术可以通过学习和分析相关税收法律法规政策、税收指南和常见问题等大量文本数据,为纳税人提供智能化的税务咨询和解答服务。纳税人可以直接向AI系统提问,并快速获得准确和可靠的回答。

(二)宣传内容生成。生成式人工智能技术具有多模态的特征,它可以根据输入者的需要输出相应的图片、音频和视频。我们可以将此技术应用于税收宣传领域,进而高效地生成税收宣传的标语、图片、音视频等等,提高宣传工作效率。

(三)税收优惠策划。生成式人工智能技术可以通过分析纳税人提供的财务数据和业务情况,为其提供个性化的税收优惠策划建议,可以模拟不同方案所带来的税务影响,帮助纳税人选择最优的税收筹划方案。

(四)涉税风险分析。生成式人工智能技术可以分析税务系统中的涉税数据,通过关联匹配,识别潜在的涉税风险和违规行为,帮助进行风险评估和监测,协助开展反欺诈、反避税、反逃税工作,进一步提高监管效果。

(五)税务智能预测。生成式人工智能技术可以通过学习历史数据和趋势,进行税收收入的智能预测和分析。这有助于更准确地开展税收规划,优化资源分配,并预警潜在的税收波动和风险。

四、人工智能技术在税务领域的实现方式

(一)算力实现

因为大算力是应用生成式人工智能技术必须具备的最基本条件,算力能否满足训练阶段和应用阶段的需要,直接关系到训练时间的长短(一个月至数个月)以及应用时输出的稳定,税务部门算力实施方案有如下几个阶段。

1.预训练阶段。人工智能通用模型的预训练阶段对算力要求最高,因为其所训练的语料库和数据集最为庞大。以ChatGPT为例,GPT-2语料库规模为40GB,而到了GPT-3语料库规模则达到45TB。目前,各大技术厂商完成预训练至少需要数千张的英伟达A100芯片或华为升腾910B芯片。税务机关参照此模式进行算力建设。 

2.行业训练阶段。税收模型的行业训练阶段对算力的要求较低一些,因为其训练的语料库大约需要100G左右。根据对科大和华为的调研,要较好地完成该阶段训练,同时为后期的迭代优化和模型扩展做准备(从长远看,迭代优化、模型扩展对算力的要求将越来越高),需要约1千张左右的算力芯片。

3.微调训练阶段。微调训练对算力的要求则更低,根据调研情况,两位数左右的芯片算力足以支撑模型对数千个标注的数据集的学习和自我优化。同样,在具体的应用阶段对算力的要求也不高,两位数或者个位数的芯片就能满足日常推理、应用的需要。

(二)算力布局

在算力建设布局上,建议站在全国的角度进行统筹考虑,避免省以下税务机关在探索和实践中的重复建设和资源浪费。在实际的项目实施和项目应用上,税务总局主要负责行业训练、微调训练而获得税收行业模型,而省级层面则主要是应用层面的推理计算或通过微调训练进行特定的应用场景创新。从成本投入角度来看,行业训练算力的建设前期投入巨大,后期则成本不断摊薄。若税务总局自建千张级GPU芯片卡(GPU市面价格15-20万/张)训练算力平台,投入预计在亿元以上。若租赁外部算力,费用预计每小时万元级,一次行业模型训练算力费用预计在百万至千万级,每年或每半年需要迭代一次。但从保障税收数据的安全和自主可控的角度考虑,租赁外部算力进行数据训练存在安全风险,因此建议自主建设全国统一的算力平台,省级层面则根据微调训练和推理应用的需要自建小规模的算力分中心。

(三)实施方案

1.持续开展微调训练。组建常态化的语料库建设团队,由团队定期收集最新的税收法律法规政策及其他税收数据,按月、按需更新数据集,并对应开展微调训练,改善模型的决策和生成能力进一步提高答复和生成内容的准确性

2.持续监测模型性能。建议由AI系统运维组负责对模型应用的表现进行监测,按季度对模型内容生成的精准性、答复内容的合规性、系统的安全性、稳定性等方面形成应用评测报告,持续开展调整优化。

3.持续迭代模型版本。在向厂商采购人工智能通用模型时,与厂商约定模型迭代优化的相关条款,明确厂商迭代、升级模型版本的频率,实现对模型算法、结构和参数的持续优化和升级,不断提升答复的准确性和系统的安全性,并最大限度避免法律道德等敏感事项的答复瑕疵。