1 王路桥 2 杨阳 3 张锐
1王路桥,六安市烟草专卖局(公司),专卖管理监督科,安徽省六安市皖西东路288号,237010
2杨阳,六安市烟草专卖局(公司),专卖管理监督科,安徽省六安市皖西东路288号,237010
3张锐,六安市烟草专卖局(公司)皋城分局,营销部,安徽省六安市皖西东路288号,237010
摘 要:文章应用数据清洗技术和交互式复杂网络分析软件Gephi,将2020年寄递物流上线与下线资金交易数据转换,形成网络关系图形,通过操作网络关系图形进行数据挖掘和可视化分析,形成案件情报,为决策提供依据。
通过应用表明,同比手工筛选文本、排查数据的方法,使用Gephi图形分析“互联网+案件”型数据更具有可视化的效果,通过对图像的认知去理解大量的数据,数据分析更为精准、迅速,分析全面,能准确快速地找到藏匿在数据集中至关重要的数据关系,避免人工分析带来的案件信息遗漏问题。其分析、决策方法可用于经济犯罪和其它财产型网络刑事案件。
关键词:Gephi;可视化分析;节点;有向边;源;目标;单数详情
一、引言
随着互联网+金融、互联网+物流寄递模式的发展,制、售假冒伪劣产品等犯罪模式也正在演化,不法分子利用互联网、自媒体,通过“线上+线下+物流寄递”模式销售假冒伪劣产品的违法活动有日趋严重的态势。然而,天网恢恢,疏而不漏,利用互联网进行犯罪活动都要引起资金的增减变动。打击互联网犯罪活动必然利用案件资金的存在、分布和运动来证明犯罪是否发生。查实证据注意以下五点:一是证明案件是否发生。二是证明犯罪是否为犯罪嫌疑人所为。三是证明犯罪行为过程与证据有关联性。四是证明犯罪手段和方法,对客体侵犯的结果。五是证明犯罪的时间和地点。证据形成前需要侦办人员对情报线索反复调查、研判。
本文采用数据分析法、规范分析法等研究方法,对某一案件证据进行数据结构分析,借助Gephi软件描绘资金流关系图像,对上线、下线关系进行分析,找出分析的重点环节、关键点,排查出网络资金流线索,有的放矢,达到侦破案件的目的。
二、背景
互联网助力经济发展、推动社会进步方面发挥了重要的作用。当今,社会活动对互联网的依赖程度高,移动支付正取代传统货币交易模式。利用互联网非法获利成为一种新的犯罪形态,具有地域广、犯罪分子分散隐匿、涉案金额大、组织严密等特点。大数据环境下案件形成的数据量大,侦办人员排查难度大,同比办理一般案件需要耗费更多的人力、物力。在互联网+案件类的刑事案件中,如何更智能化的梳理排查线索情报,减少办理案件人力、物力投入成为本文的研究方向。
1、基于“网络+案件”可视化分析决策模型
图1:执法部门增设的分析层
监管层负责销售市场检查、寄递物流检查,发现和处置假冒违法案件,并制作和录入案件卷宗。决策层负责协调、联合公安、海关、城关和邮政管理等部门查处重大案件。与时俱进,近年“互联网+案件”型犯罪趋多,行政执法也面临数字升级转型,在原有组织结构中增设数据分析组,收集历史案件、投诉举报、其它执法部门移交和上级交办等相关案件情报信息,针对性开展互联网+案件数据分析,分析结果直接为决策层服务,提供案件情报研判的重点与方向。统计已发案件数据,抓好发案频率高的场所、环节,做好监管信息服务。在分析层面上,分析人员有计算机专业知识,数据操作能力强,改变了监管层计算机信息知识参差不一的情况,有利于提高案件情报资料的质量和证据的证明力。在“互联网+案件”案件侦办中,有利于案件侦办指挥调度,有利于查清违法犯罪的危害程度。
2、基于Gephi的可视化分析决策方法
Gephi是一款开源免费跨平台基于JVM的复杂网络分析平台,2008年于法国开始使用,2011年SocialFlow使用Gephi发布了一张以视觉形式揭示某新闻的Twitter传播图。至此Gephi作为复杂网络分析工具开始被国内熟知,用于文献分析、地理数据分析、链路分析、社交网络分析、生物网络分析等,广泛应用于学术研究、互联网、生物医学、交通等领域。
图分析与图可视化:在离散数据中,图G是由两个集合V和E组成(记做 G = (V, E)):V是节点的集合(vertex),E 是边的集合(edges),节点与边的离散关系经过计算机运算和绘制形成理解现实世界的图。在使用Gephi分析前,需要对数据进行清洗,分为数据清洗与数据计算两个清洗内容(图2),清洗后的两份数据导入Gephi中,以建立Gephi可识别的节点集合和有向边集合。
三、数据清洗与数据计算
数据清洗:本文研究的数据来自于一份案件协查数据,CSV文本格式,数据类别如下。
序号 | 列 | 记录数 | 类型 |
0 | ID | 4141 | int64 |
1 | 交易号 | 4141 | object |
2 | 外部交易号 | 4141 | object |
3 | 交易状态 | 4141 | object |
4 | 合作伙伴ID | 4141 | object |
5 | 买家用户id | 4141 | int64 |
6 | 买家信息 | 4141 | object |
7 | 卖家用户id | 4141 | int64 |
8 | 卖家信息 | 4141 | object |
9 | 交易金额(元) | 4141 | float64 |
10 | 收款时间 | 3750 | object |
11 | 最后修改时间 | 4141 | object |
12 | 创建时间 | 4141 | object |
13 | 交易类型 | 4141 | object |
14 | 来源地 | 4141 | object |
15 | 商品名称 | 4141 | object |
16 | 收货人地址 | 518 | object |
17 | 对应的协查数据 | 4141 | int64 |
表1:2020年调取的某嫌疑人银行账号的协查数据
数据清洗是把协查数据进行文本向数据表格式转换,并去除空格、Tab等标识,建立索引,剔除冗余内容,为网格化数据作准备。
图2:数据计算并导入Gephi
1、节点数据计算及导入
抽取的数据要达到两个要求:一是确保节点的唯一性,方法以交易账号属性区分,抽取协查数据中的买家、卖家用户ID(某网站用户交易账号),去除重复项,进行升序排列后,对序号赋Id值(Gephi可识别的节点,见图4第1列)。二是正确匹配节点属性,根据买家、卖家信息运用Python正则表达式得出姓名、通讯方式等字段(Gephi的节点属性,见图4第4、5列)。
导入Gephi后共得到1642个节点,Gephi根据第一列Id识别节点,其它列Gephi节点属性。Id、label、Interval、get_name、get_tel等节点属性均可用于节点的筛选。
图3:使用Python正则表达式代码抽取表1中嫌疑人账号、姓名、通讯方式
图4:将账号、姓名、通讯方式导入Gephi中形成节点
由节点数据窗口切换到图窗口,展示1642个节点离散分布如图5示
图5:节点离散分布图
2、边数据计算及导入
一、将协查数据的每条记录理解为一条有向边,则有向边相关的两个节点是“源”与“目标”的关系(图5中的前两列)。在Gephi中有向边的“源”与“目标”的值就是节点参数Id。例如,甲向乙付钱,甲节点的Id为23,乙节点的Id为50,这条边的“源”与“目标”的值就是23和50。抽取协查数据表中的“买家用户ID”和“卖家用户ID”的值,使用vlookup函数查找label值(图4中的第2列)找出边的“源”与“目标”。共生成4141条边。
二、去除平行边,形成平行边的原因是重复交易。例如,甲付给乙两笔钱,甲向乙的路径仅有一个,Gephi将这个路径理解为有向边(集合唯一),发生的两次交易理解为度(weight)。因此,数据导入Gephi前,相对于1642个节点,需要对4141条边进行路径合并,相同的路径的每次交易记录保存在单数详情字段。这时甲向乙的路径1条,度(weight)为2,单数详情字段里记录了2条交易信息,由2条信息改变成1条信息表达交易内容,达到去除平行边的目的。
去除平行边的同时计算weight、交易总金额、平均交易金额,最大交易金额、最小交易金额和单数详情等有向边属性(图7中第7至第12列)。计算代码如下:
图6:计算weight、交易总金额、平均交易金额,最大交易金额、最小交易金额和单数详情
整理后将4141条边形成1687条有向边,导入后Gephi数据信息如图7示。平行边的数量存储在weight值中(度或权重,值越高,交易次数大)。图7中的源、目标、类型、Id等参数均可用于边的筛选。
图7:导入边的信息
四、数据可视化评估及数据服务
在图窗口下,经过Force Atlus Layout布局、YiFan Hu Layout布局改变节点离散位置,形成图形,突出网络中的集群。根据中心度对节点着色,采用红色作为连出边指示,黑色为连入边指示,紫色为双向边指示,箭头代表连出方向,线的粗细代表weight(度或权重, weight值总和为4141),得出得到离散图布局如图8示。
图8:点、边形成网络分析图
互联网+案件可视化评估
Gephi可统计图8的布局结果,平均度1.027,平均加权度2.522,网络直径4,图密度0.001,模块化0.752,平均路径长度1.962。图密度值越小,网络复杂性越高,以上数据表明,本案件数据达到网络关系分析条件。
综合集群的中心点及掌握的线索,锁定本案有7个主要下线。布局点Id分别为963,1128,425,825,349,571,1597,可为决策层提供办案侦办方向。
综合双向边、连入度、交易金额及掌握的线索,锁定本案4个主要上线。布局点Id分别为1628,680,1405,734,可为决策层提供办案侦办重点。
可视化环境下的互联网+案件数据服务
数据服务贯穿于整个案件的调查过程,案件调查方向决定案件调查对象,每个调查环节需要针对不同的调查对象提供不同的分析数据,方可做好互联网+案件环境下办理案件的部门、人员协同工作。取得分析数据以数据抽取为主,抽取分析数据有图形抽取与文本抽取两种方式。
图形抽取
图形可视化环境下抽取方式多样,Gephi概述模式下,选取右侧过滤窗口,可进行节点参数、边参数和计算内容筛选,筛选后的内容以点或点和边的形式展示图形。
图9:点数据抽取(连入度45-579) |
图10:边数据抽取(金额4万-40万) |
点数据抽取
以“连入度“(节点参数)为例,在范围中设置45-579后,经Gephi计算后,显示图9,即3个集群的中心节点。相比图8的 1642个节点,抽取后3个集群中心节点更加直观,实际案件分析中有助于快速找出重点嫌疑人。
边数据抽取
以“交易金额”(边参数)为例,在范围中设置40000-400000元后,经Gephi计算后,显示图10,揭示集合关系可以发现有6项(边)交易总额超过4万,有10个账号(节点)参与,相比图8的 1687个边,抽取后6条边结果更加直观。实际案件分析中有助于快速找出到案件大额资金流去向,确定“互联网+案件”的重点关系。
文本数据抽取
文本数据抽取方式可在Gephi的图界面或数据界面下抽取,可抽取单个点、单个边、相关点、相关边的文本数据,单个点、单个边、相关点(一个点或一个边与之有联系的点)、相关边(某个点连入或连出的边)的条件锁定方式灵活多样。
图11:图界面查询节点参数文本值 |
图12:数据界面查询边参数文本值 |
通过图界面查询文本信息,例如,在图中点选节点后,左侧窗口列出该节点的各项属性,如图11示,该节点的Id值为1088,同时可在此编辑节点的各项属性。实际办案中利用图11右侧工具可标记有待查证的嫌疑对象和线索(调整节点的颜色、形状和大小),标注待查证的蛛丝马迹,有利于查清“互联网+案件”。
通过数据界面查询文本信息,例如,查询目标节点Id为1073的交易文本,选择“目标”后,过滤条件设1073,即可出现两条边路径,weight值分别为45和22(双向边),平均交易金额为130.25和30.88,其中weight值为45的边交易信息详情如图12示,单数详情中列出45条详细记录。实际办案中可用于查证嫌疑人的每笔交易情况,提高办案效率、达到固定证据的目的,有利于查实“互联网+案件”。
五、总结与展望
使用Gephi以图形的视角观测案件协查数据,一是能从点的连入度、连出度来发现网络集群中心,突出“互联网+案件”的关键点。二是能单个点、单个边的调取数据,有利于查清案件事实。三是对于单向边,能直观地体现网络集群之间的迭代关系,直观地体现互联网+案件的跨区、跨省的广度。四是可以进行相关点、相关边的分析,有利于把复杂的案件拆分,使之简单化。五是数据筛选速度快、维度多,如过滤weight、交易金额、交易平均金额等,案侦办过程可灵活运用。实际应用表明:Gephi可应用于分析“互联网+案件”类的资金流分析,其可视化功能强大,在查证“互联网+案件”中,通过“边”识别网络关键成员,通过大额资金锁定主要成员,以可视化技术对该网络组织的层次结构进行呈现,决策依据明确。当然,Gephi对计算类数据的处理较弱,数据导入Gephi前,需要对数据进行清洗,需要分析人员有一定的计算机编程能力。
参考文献
[1]赵韶凡,龙佳楠,范晓伟,徐惠珍.基于Gephi的新零售模式研究可视化分析[2019-4-2].新营销
[2]邓君,马晓君,毕强.社会网络分析工具 Ucinet 和Gephi 的比较研究[2014-8-1]].情报理论与实践
[3]李学兰.基于 Gephi 的物流金融研究可视化[2017-7-1].牡丹江大学学报
[4]李学兰,王海元. 基于 Gephi 的制造业与物流业联动研究可视化分析[2017-9-1].重庆第二师范学院学报
[5]Gephi 中文教程 [EB /OL].[2013-02-18].https: / /www.Udemy.com/gephi /.
5