基于数据挖掘的反诈资金追踪分析与研究

(整期优先)网络出版时间:2024-08-06
/ 3

基于数据挖掘的反诈资金追踪分析与研究

欧金玲

中国人民大学      广东     510000

摘要:最近关于缅北诈骗案件的新闻层出不穷,诈骗势力的猖獗和规模令人心惊,让公众对于网络诈骗日益关注。 而网络诈骗的手段层出不穷,规模越来越大,手段越来越专业,给市民财产安全带来极大的风险。随着科技的发展,数据挖掘技术等技术的不断进步,给反网络诈骗体系建设注入了新的活力。深入了解数据挖掘技术在反网络诈骗中的应用,不断高反诈水平提是相当必要的。

关键词:数据挖掘;电信网络诈骗;反网络诈骗金融模型

        21世界是属于信息科技的时代,网络的日益发展给人们带来许多生活上便利的同时,与网络相关的犯罪也应运而生,而其中网络诈骗危害让人不能忽视。造成的损失极其巨大。相关报道显示中国近些年来,每年因网络诈骗损失金额达到2万亿元。而2023年中国GDP 为126.06万亿,广东省13.5万亿,贵州省2万亿。网络诈骗资金竟然超过一个省的GDP,比重更是达到中国GDP的1.5%,规模之大令人拙舌。由此看出反网络诈骗的紧要性和必要性。

        新闻常常报道,被诈骗后资金追回极其难,这个难究竟难在哪?第一是人定位难,第二是资金定位难。

       人定位难在与诈骗分子所在IP是经过层层包装的,例如在被骗人报案后,警察获取诈骗人诈骗时候所在广州IP1,其实是是由江苏IP2跳转的,而IP2是由云南IP3跳转的,接着发现云南IP3是由北京IP4跳转的,然后北京IP4是由国外IP5跳转的,即使民警申请跨国查案,经过层层审批得到领导同意跨国查案的批准, 不远万里来到国外,在外国警察协助下可能发现IP5的拥有者是个无辜家庭,他们的IP被盗用,或者是此地已经人去楼空。整个案件追踪涉及到网络技术破译,国际关系,两国是否签署引渡条约,两国警方跨国办案等等复杂问题,此时花费的调查成本可能已经超过该案被诈骗资金,而结果仍然是竹篮打水一场空。

       人定位难那么资金定位难点在于哪呢?这也是许多被害者报案后的疑惑:“目前不是已经实现账户银行账户,微信,支付宝等第三方支付账户)实名制了吗?为何还是难以追踪?是不是警察不尽心?”资金定位难的原因在于诈骗分子有一套严密高效的反侦察洗钱手段。诈骗所用的账户(银行账户,微信,支付宝等第三方支付账户)往往都不是真的在诈骗分子名下的。诈骗分子所用账户(银行账户,微信,支付宝等第三方支付账户)通常有2个来源,一是被盗的居民身份证办的账户。我国每年有大量丢失或者被盗的第二代居民身份证。这些大量丢失或者被盗的第二代居民身份证被贩卖,为诈骗分子提供了足够多的身份信息资源。二是收购的的账户(银行账户,微信,支付宝等第三方支付账户),诈骗分子会从一些家庭不富裕的人群中购买账户,像是大学生和老年人以及农村人群体。例如现在有诈骗账户A1上共有50万电信诈骗资金,这50万电诈金额分别来自5位受害者。诈骗分子将这50万金额分成25个2万分别汇到25个不同的账户上。此时需要追查的账户变成25个。而这25个账户原本就有5万余额现在加上转入的这2万,变成7万。这些账户再进行各类转账消费还贷,此时你还能分辨这7万中哪2万是电信诈骗资金吗?在电信诈骗资金与正常资金混合后已经无法区分哪些正常消费转账交易,哪些是异常交易。此时查询的规模就需要扩大化。假设每个账户这段时间消费900笔,转账10笔。则此时需要查询的消费交易数量是5*900,而接着需要查询的账户是5*10,如此循环往复,工程量非常之大。而你能查到的持卡人或者我支付宝微信拥有者往往可能只是遗失或者将自己账号卖出的人。最后电信诈骗资金可能被诈骗分子用来购买一些商品,再将商品卖掉洗白电信诈骗资金。或者可能是电信诈骗资金被用来购买加密货币,或者可能电信诈骗资金最后被转出到境外如沉入大海难以查询,或者可能电信诈骗资金被用来投资影视行业洗白,或者可能通过还信用卡欠款后再不停消费将金额转出。整个调查过程费时费力,工程量巨大,收获还可能很低。如果把电信诈骗分为上游,中游,下游。那么电信诈骗上游的人主要是负责赃款分散流入,中游的人主要负责电信诈骗资金层层转移,而下游主的人要负责电信诈骗资金洗白流出。。

        电信诈骗日益猖獗,诈骗手段和技术层出不穷,不断更新迭代。面对如此形势,反诈能力也必须与时俱进。为了响应国家公安机关部署的各项反诈行动的号召,持续严厉地打击电信网络诈骗等违法活动。各个银行和第三方支付系统都在构建自己的反网络诈骗金融体系和反网络诈骗金融模型。布设电信诈骗涉案账户(银行账户,微信,支付宝等第三方支付账户)的应急处理机制、对有关的涉案账户开展倒查工作。对于公安机关反诈中心最新发布的电信诈骗相关的信息高度关注。并分析与研究是否需要依此进行反网络诈骗金融模型的优化。

        在反诈工作中,数据挖掘技术的运用不可忽视。

在反网络诈骗金融体系的构建过程中。它可以基于人工智能技术、数据挖掘技术、云计算、机器学习法等,自动分析银行的海量数据,作出合理的分析与研究,从中挖掘出数据之前潜在的关系与特征,帮助银行优化反网络诈骗金融模型,减少电信诈骗资金流失风险。近年来,数据挖掘在银行和第三方支付系统的反诈体系中得到了极大运用,其主要原因是在于银行和第三方支付系统中有大量账户交易数据,可以广泛使用,并且迫切需要这些数据转换成对反诈有用的信息和知识。而这些信息和知识可以用于反网络诈骗金融体系的构建。

        运用银行和第三方支付系统的客户的各类标签构建该用户的画像。通过客户年龄、性别、教育程度、所在行业、公司性质、信用额度等构建用户的画像。当该用户交易行为与画像存在明显差异时候,可以提示风险。例如当用户的交易金额显著超出其信用额度时候。

        采用银行和第三方支付系统端自己监测、倒查、调查出的电信诈骗高危账户和国家反诈中心向银行推送的已确认的电信诈骗涉案账户,通过对样本账户的数据进行挖掘分析和研究,提炼涉及网络诈骗异常账户的特征。统计这类账户出金笔数和入金笔数,以及出金累计金额和入金累计金额。以及转账交易占比,大额交易占比和POS交易占比,以及消费占比。如果是信用卡统计同日入金还款账号的个数等等信息。选择正常账户为样本,同样的统计正常账户出金笔数和入金笔数,以及出金累计金额和入金累计金额。以及转账交易占比,大额交易占比和POS交易占比,以及消费占比。如果是信用卡统计同日入金还款账号的个数信息。将两个样本的数据做对比,存在明显差异的可作为诈骗账户的特征。研究还发现对于信用卡,诈骗资金具有多对一还款、交易间隔短、交易金额超信用额度等特征。短时间内通过各种消费方式将入账金额全部用完,并且消费支出是远大于账户到的数据进行清洗信用额度等等特点。

        通过构建的反网络诈骗金融模型,挖掘出了诈骗账户具有资金快进快出、频繁溢缴款交易、小额交易测试、短时间内交易徒增、非正常交易时间、POS机套现、活跃期短特征。

  • 资金快进快出: 诈骗活动具有极大的实时性要求,当诈骗资金成功被骗取到后,诈骗分子会立即将诈骗资金进行层层转移和洗白,因为被害人进行转账后很可能立刻发现立马报警。而公安机关和有银行会立刻采取措施对该资金和账户进行拦截和冻结。所以诈骗账户会有资金快进快出的特征。
  • 频繁溢缴款交易:溢缴款是指信用卡客户还款时多缴的资金或存放在信用卡账户内的资金。普通人的消费习惯是不会经常性的将超过待还款金额的资金打入信用卡账户的,这类行为往往是电信诈骗分子用来洗钱的手段
  • 小额交易测试:小额交易测试是指犯罪分子为了测试受害者的反应或者获取受害者的银行账户信息,进行的一种小额交易。小额试探交易常出现在3种账户,开户后多日不用,或发生他行同名账户的小额交易,这是为了规避开户后连续6个月没有交易自动中止业务的政策以及银行交易监测,在发生试探性小额交易测试后账户很可能会突然启用成为电信诈骗中的一环。
  • 短时间内交易徒增:在电信诈骗进行中时,为了转移洗白电信诈骗资金会在诈骗资金到手后的短时间内进行大量转账和消费以洗白电信诈骗资金
  • 非正常交易时间:正常账户的资金往来通常是白天上班时间,如果某账户出现大量非正常交易时间进行交易是非常可疑的。
  • POS机套现:大规模的POS机套现很可能是诈骗账户为了洗白电信诈骗资金进行的非法活动
  • 活跃期短:诈骗账户通常只在诈骗成功的时候才会活跃,其他时间都沉寂着

        在反网络诈骗金融模型中的数据挖掘,可以采取下列步骤:数据收集------数据预处理------模型构建------模型评估------模型应用。

        第一步数据收集,为反网络诈骗金融模型建立独立的数据仓库,在银行和第三方支付系统数据库中分析和研究哪些数据是反网络诈骗金融模型需要的筛选出来。例如银行账户的交易流水,客户的职业信息和引用等级等数据。包括结构化的数据(数据库表)和非结构化的数据(文本和图像等)。

        第二步数据预处理,为什么需要进行数据的预处理,因为数据的质量是非常重要的,决定了数据挖掘的效果,在数据挖掘之前要对数据进行预处理以提高数据的质量,从而提高数据挖掘的效率。原始数据并不能直接运用于数据仓库。因为这些数据可能存在数据不一致,噪音数据,缺失值等问题。数据不一致是因为数据来源于不同的系统,各个系统中数据定义和标准,以及数据结构是不一样的。将步骤1收集到的数据进行数据清洗,并整理和转换,处理数据存在的问题,以确保数据的高质量和一致性。

        第三步特征选择,这是数据挖掘中的重要一步,需要从数据中选择最具代表性,最相关的特征,这样可以减少数据的维度,提高模型的准确性和效率以及解释能力。例如交易金额,交易数量,交易时间等等

        第四步模型构建,常用的数据挖掘包括聚类算法

K-means算法,,关联规则算法Apriopri算法和FP-growth算法,分类算法朴素贝叶斯算法和KNN算法。根据需求采用合适的算法来构建反网络诈骗金融模型。

  • K-means算法,是无监督学习的算法,目标是将数据点划分为K个不同的簇,其中每个簇由内部各个数据点的平均值质心表示。K-means算法基本原理是通过迭代的方式将各个数据点分配给离它最近的质心,然后根据新的分配来更新质心的位置。这个过程会一直不断地重复,直到质心的位置不再发生变化或者达到预定迭代的次数。K-means算法优点是简单且计算效率高,适用于大规模数据集聚类分析。缺点是它需要预先设定簇的数量(K值),且对初始质心的选择有一定的敏感,初始选择的不同可能导致聚类结果的不同。
  • Apriopri算法,Apriori算法是一种关联规则挖掘算法。它利用迭代方法找出数据库中各个项集的关系,形成规则,例如从超市消费记录上找出两商品的关联性,发现买了啤酒的人大概率会买尿布。
  • 朴素贝叶斯方法,是由贝叶斯算法演变而来,在其基础上做了简化,它是假定给定目标值时属性之间条件是相互独立的。使用概率统计的知识对样本数据集进行分类。其优点是较高的准确率
  • KNN分类算法,在某一特定的空间中,针对某一个样本选定附近的K个最相近的样本,如果它们大都属于某一个类别,则同样的该样本也属于这个类别。

        第五步模型评估,构建模型后采用适合的模型优化方法对模型进行评估和优化   

        第六步模型应用,将模型应用于实际,支持反诈

        中国银行在2020年推出了网 御系统,提供的智能反诈骗服务。综合运用大数据、云计算、数据挖掘和人 工智能等先进技术,有效地识别和实时处置相关的诈骗风险事件,进一步完善了反诈骗事前风险识别评估、反诈骗事中风险监测预警、 反诈骗事后风险响应处置的全流程反诈金融 体系。基于银行海量交易数据和高维度行为特征, 构建了实时反诈骗机器学习模型,形成了一套深度融合机器学习模型和专家经验的体系。具有自我学习的能力,即使面对新的诈骗手法也能通过不断地自我学习而发现新的诈骗规则,从而达到自我优化的目的。

        源引中国青年网报道,2023全国公安机关共破获的电信网络诈骗案件多达43.7万起,电信网络诈骗发案数自2023年8月起连续下降。会同相关部门拦截涉案资金3288亿元。反诈之路任重道远。

        数据挖掘技术的运用极大的促进了反诈事业的发展,实现对涉及账户的主动挖掘,让反诈追踪从被动防御变成主动狙击。实现反诈行动事前预警和追查。随着反电信诈骗工作的不断深入和研究,人工智能与数据挖掘技术将在其中发挥越来越大的作用。而反网络诈骗金融模型也一定不是一尘不变的,为了规避监管,诈骗分子是在不断的改进诈骗方法的,所以反诈手段也需要更随着不断的进步。可以通过加强银行之间的和做,分享最新的技术和反诈手段和模型,一起保护人民群众财产安全。

参考文献:

[1]施琤漪,吴伟.信用卡反诈标签规则和机器学习模型初探[J].中国信用卡,2023,(07):59-63.

[2]薛振文,李彤,牛帆.大数据时代数据仓库技术的发展及应用[J].中国传媒科技,2023,(10):154-158.DOI:10.19483/j.cnki.11-4653/n.2023.10.032.

[3]孙茂艳,谢康林.基于客户关系属性的市场营销数据挖掘[J].计算机工程与应用,2005,(18):215-218.

[4]林刚.基于大数据挖掘的GSM-R网络综合监测系统[J].广西通信技术,2014,(04):30-34+50.

[5]胡栋鹏,曾坚毅.数据挖掘常见分类算法比较分析[J].计算机产品与流通,2018,(08):107+110.

1