基于Gephi的“互联网+案件”可视化分析与决策

(整期优先)网络出版时间:2021-11-18
/ 3

基于 Gephi的“互联网 +案件”

可视化分析与决策

1 王路桥 2 杨阳 3 张锐

1王路桥,六安市烟草专卖局(公司),专卖管理监督科,安徽省六安市皖西东路288号,237010

2杨阳,六安市烟草专卖局(公司),专卖管理监督科,安徽省六安市皖西东路288号,237010

3张锐,六安市烟草专卖局(公司)皋城分局,营销部,安徽省六安市皖西东路288号,237010



摘 要:文章应用数据清洗技术和交互式复杂网络分析软件Gephi,将2020年寄递物流上线与下线资金交易数据转换,形成网络关系图形,通过操作网络关系图形进行数据挖掘和可视化分析,形成案件情报,为决策提供依据。

通过应用表明,同比手工筛选文本、排查数据的方法,使用Gephi图形分析“互联网+案件”型数据更具有可视化的效果,通过对图像的认知去理解大量的数据,数据分析更为精准、迅速,分析全面,能准确快速地找到藏匿在数据集中至关重要的数据关系,避免人工分析带来的案件信息遗漏问题。其分析、决策方法可用于经济犯罪和其它财产型网络刑事案件。

关键词:Gephi;可视化分析;节点;有向边;源;目标;单数详情

一、引言

随着互联网+金融、互联网+物流寄递模式的发展,制、售假冒伪劣产品等犯罪模式也正在演化,不法分子利用互联网、自媒体,通过“线上+线下+物流寄递”模式销售假冒伪劣产品的违法活动有日趋严重的态势。然而,天网恢恢,疏而不漏,利用互联网进行犯罪活动都要引起资金的增减变动。打击互联网犯罪活动必然利用案件资金的存在、分布和运动来证明犯罪是否发生。查实证据注意以下五点:一是证明案件是否发生。二是证明犯罪是否为犯罪嫌疑人所为。三是证明犯罪行为过程与证据有关联性。四是证明犯罪手段和方法,对客体侵犯的结果。五是证明犯罪的时间和地点。证据形成前需要侦办人员对情报线索反复调查、研判。

本文采用数据分析法、规范分析法等研究方法,对某一案件证据进行数据结构分析,借助Gephi软件描绘资金流关系图像,对上线、下线关系进行分析,找出分析的重点环节、关键点,排查出网络资金流线索,有的放矢,达到侦破案件的目的。

二、背景

互联网助力经济发展、推动社会进步方面发挥了重要的作用。当今,社会活动对互联网的依赖程度高,移动支付正取代传统货币交易模式。利用互联网非法获利成为一种新的犯罪形态,具有地域广、犯罪分子分散隐匿、涉案金额大、组织严密等特点。大数据环境下案件形成的数据量大,侦办人员排查难度大,同比办理一般案件需要耗费更多的人力、物力。在互联网+案件类的刑事案件中,如何更智能化的梳理排查线索情报,减少办理案件人力、物力投入成为本文的研究方向。

1、基于“网络+案件”可视化分析决策模型

61960b2d39a17_html_dd2929db3eadc3ba.png

图1:执法部门增设的分析层

监管层负责销售市场检查、寄递物流检查,发现和处置假冒违法案件,并制作和录入案件卷宗。决策层负责协调、联合公安、海关、城关和邮政管理等部门查处重大案件。与时俱进,近年“互联网+案件”型犯罪趋多,行政执法也面临数字升级转型,在原有组织结构中增设数据分析组,收集历史案件、投诉举报、其它执法部门移交和上级交办等相关案件情报信息,针对性开展互联网+案件数据分析,分析结果直接为决策层服务,提供案件情报研判的重点与方向。统计已发案件数据,抓好发案频率高的场所、环节,做好监管信息服务。在分析层面上,分析人员有计算机专业知识,数据操作能力强,改变了监管层计算机信息知识参差不一的情况,有利于提高案件情报资料的质量和证据的证明力。在“互联网+案件”案件侦办中,有利于案件侦办指挥调度,有利于查清违法犯罪的危害程度。

2、基于Gephi的可视化分析决策方法

Gephi是一款开源免费跨平台基于JVM的复杂网络分析平台,2008年于法国开始使用,2011年SocialFlow使用Gephi发布了一张以视觉形式揭示某新闻的Twitter传播图。至此Gephi作为复杂网络分析工具开始被国内熟知,用于文献分析、地理数据分析、链路分析、社交网络分析、生物网络分析等,广泛应用于学术研究、互联网、生物医学、交通等领域。

图分析与图可视化:在离散数据中,图G是由两个集合V和E组成(记做 G = (V, E)):V是节点的集合(vertex),E 是边的集合(edges),节点与边的离散关系经过计算机运算和绘制形成理解现实世界的图。在使用Gephi分析前,需要对数据进行清洗,分为数据清洗与数据计算两个清洗内容(图2),清洗后的两份数据导入Gephi中,以建立Gephi可识别的节点集合和有向边集合。

三、数据清洗与数据计算

数据清洗:本文研究的数据来自于一份案件协查数据,CSV文本格式,数据类别如下。

序号

记录数

类型

0

ID

4141

int64

1

交易号

4141

object

2

外部交易号

4141

object

3

交易状态

4141

object

4

合作伙伴ID

4141

object

5

买家用户id

4141

int64

6

买家信息

4141

object

7

卖家用户id

4141

int64

8

卖家信息

4141

object

9

交易金额(元)

4141

float64

10

收款时间

3750

object

11

最后修改时间

4141

object

12

创建时间

4141

object

13

交易类型

4141

object

14

来源地

4141

object

15

商品名称

4141

object

16

收货人地址

518

object

17

对应的协查数据

4141

int64

表1:2020年调取的某嫌疑人银行账号的协查数据

数据清洗是把协查数据进行文本向数据表格式转换,并去除空格、Tab等标识,建立索引,剔除冗余内容,为网格化数据作准备。


61960b2d39a17_html_8d1064b8353a63f9.png

图2:数据计算并导入Gephi

1、节点数据计算及导入

抽取的数据要达到两个要求:一是确保节点的唯一性,方法以交易账号属性区分,抽取协查数据中的买家、卖家用户ID(某网站用户交易账号),去除重复项,进行升序排列后,对序号赋Id值(Gephi可识别的节点,见图4第1列)。二是正确匹配节点属性,根据买家、卖家信息运用Python正则表达式得出姓名、通讯方式等字段(Gephi的节点属性,见图4第4、5列)。

导入Gephi后共得到1642个节点,Gephi根据第一列Id识别节点,其它列Gephi节点属性。Id、label、Interval、get_name、get_tel等节点属性均可用于节点的筛选。

61960b2d39a17_html_cead9b68670f3857.png

图3:使用Python正则表达式代码抽取表1中嫌疑人账号、姓名、通讯方式

61960b2d39a17_html_78812913e1fa69d5.jpg

图4:将账号、姓名、通讯方式导入Gephi中形成节点

由节点数据窗口切换到图窗口,展示1642个节点离散分布如图5示

61960b2d39a17_html_9362aa3e68da7c19.png

图5:节点离散分布图

2、边数据计算及导入

一、将协查数据的每条记录理解为一条有向边,则有向边相关的两个节点是“源”与“目标”的关系(图5中的前两列)。在Gephi中有向边的“源”与“目标”的值就是节点参数Id。例如,甲向乙付钱,甲节点的Id为23,乙节点的Id为50,这条边的“源”与“目标”的值就是23和50。抽取协查数据表中的“买家用户ID”和“卖家用户ID”的值,使用vlookup函数查找label值(图4中的第2列)找出边的“源”与“目标”。共生成4141条边。

二、去除平行边,形成平行边的原因是重复交易。例如,甲付给乙两笔钱,甲向乙的路径仅有一个,Gephi将这个路径理解为有向边(集合唯一),发生的两次交易理解为度(weight)。因此,数据导入Gephi前,相对于1642个节点,需要对4141条边进行路径合并,相同的路径的每次交易记录保存在单数详情字段。这时甲向乙的路径1条,度(weight)为2,单数详情字段里记录了2条交易信息,由2条信息改变成1条信息表达交易内容,达到去除平行边的目的。

去除平行边的同时计算weight、交易总金额、平均交易金额,最大交易金额、最小交易金额和单数详情等有向边属性(图7中第7至第12列)。计算代码如下:

61960b2d39a17_html_145685486628b36c.png

图6:计算weight、交易总金额、平均交易金额,最大交易金额、最小交易金额和单数详情

整理后将4141条边形成1687条有向边,导入后Gephi数据信息如图7示。平行边的数量存储在weight值中(度或权重,值越高,交易次数大)。图7中的源、目标、类型、Id等参数均可用于边的筛选。

61960b2d39a17_html_10803333590706f5.png

图7:导入边的信息

四、数据可视化评估及数据服务

在图窗口下,经过Force Atlus Layout布局、YiFan Hu Layout布局改变节点离散位置,形成图形,突出网络中的集群。根据中心度对节点着色,采用红色作为连出边指示,黑色为连入边指示,紫色为双向边指示,箭头代表连出方向,线的粗细代表weight(度或权重, weight值总和为4141),得出得到离散图布局如图8示。

61960b2d39a17_html_1bed60a81e778689.png

图8:点、边形成网络分析图


  1. 互联网+案件可视化评估

Gephi可统计图8的布局结果,平均度1.027,平均加权度2.522,网络直径4,图密度0.001,模块化0.752,平均路径长度1.962。图密度值越小,网络复杂性越高,以上数据表明,本案件数据达到网络关系分析条件。

综合集群的中心点及掌握的线索,锁定本案有7个主要下线。布局点Id分别为963,1128,425,825,349,571,1597,可为决策层提供办案侦办方向。

综合双向边、连入度、交易金额及掌握的线索,锁定本案4个主要上线。布局点Id分别为1628,680,1405,734,可为决策层提供办案侦办重点。


  1. 可视化环境下的互联网+案件数据服务

数据服务贯穿于整个案件的调查过程,案件调查方向决定案件调查对象,每个调查环节需要针对不同的调查对象提供不同的分析数据,方可做好互联网+案件环境下办理案件的部门、人员协同工作。取得分析数据以数据抽取为主,抽取分析数据有图形抽取与文本抽取两种方式。


  1. 图形抽取

图形可视化环境下抽取方式多样,Gephi概述模式下,选取右侧过滤窗口,可进行节点参数、边参数和计算内容筛选,筛选后的内容以点或点和边的形式展示图形。

  • 61960b2d39a17_html_924c8c0151707cc9.png





    图9:点数据抽取(连入度45-579)

    61960b2d39a17_html_d38cf0d1422d1b3c.png

    图10:边数据抽取(金额4万-40万)


点数据抽取

以“连入度“(节点参数)为例,在范围中设置45-579后,经Gephi计算后,显示图9,即3个集群的中心节点。相比图8的 1642个节点,抽取后3个集群中心节点更加直观,实际案件分析中有助于快速找出重点嫌疑人。

边数据抽取

以“交易金额”(边参数)为例,在范围中设置40000-400000元后,经Gephi计算后,显示图10,揭示集合关系可以发现有6项(边)交易总额超过4万,有10个账号(节点)参与,相比图8的 1687个边,抽取后6条边结果更加直观。实际案件分析中有助于快速找出到案件大额资金流去向,确定“互联网+案件”的重点关系。


  1. 文本数据抽取

文本数据抽取方式可在Gephi的图界面或数据界面下抽取,可抽取单个点、单个边、相关点、相关边的文本数据,单个点、单个边、相关点(一个点或一个边与之有联系的点)、相关边(某个点连入或连出的边)的条件锁定方式灵活多样。

  • 61960b2d39a17_html_30555289362a712d.png


    图11:图界面查询节点参数文本值

    61960b2d39a17_html_baacc9a05938b866.png

    图12:数据界面查询边参数文本值

通过图界面查询文本信息,例如,在图中点选节点后,左侧窗口列出该节点的各项属性,如图11示,该节点的Id值为1088,同时可在此编辑节点的各项属性。实际办案中利用图11右侧工具可标记有待查证的嫌疑对象和线索(调整节点的颜色、形状和大小),标注待查证的蛛丝马迹,有利于查清“互联网+案件”。

通过数据界面查询文本信息,例如,查询目标节点Id为1073的交易文本,选择“目标”后,过滤条件设1073,即可出现两条边路径,weight值分别为45和22(双向边),平均交易金额为130.25和30.88,其中weight值为45的边交易信息详情如图12示,单数详情中列出45条详细记录。实际办案中可用于查证嫌疑人的每笔交易情况,提高办案效率、达到固定证据的目的,有利于查实“互联网+案件”。

五、总结与展望

使用Gephi以图形的视角观测案件协查数据,一是能从点的连入度、连出度来发现网络集群中心,突出“互联网+案件”的关键点。二是能单个点、单个边的调取数据,有利于查清案件事实。三是对于单向边,能直观地体现网络集群之间的迭代关系,直观地体现互联网+案件的跨区、跨省的广度。四是可以进行相关点、相关边的分析,有利于把复杂的案件拆分,使之简单化。五是数据筛选速度快、维度多,如过滤weight、交易金额、交易平均金额等,案侦办过程可灵活运用。实际应用表明:Gephi可应用于分析“互联网+案件”类的资金流分析,其可视化功能强大,在查证“互联网+案件”中,通过“边”识别网络关键成员,通过大额资金锁定主要成员,以可视化技术对该网络组织的层次结构进行呈现,决策依据明确。当然,Gephi对计算类数据的处理较弱,数据导入Gephi前,需要对数据进行清洗,需要分析人员有一定的计算机编程能力。


参考文献

[1]赵韶凡,龙佳楠,范晓伟,徐惠珍.基于Gephi的新零售模式研究可视化分析[2019-4-2].新营销

[2]邓君,马晓君,毕强.社会网络分析工具 Ucinet 和Gephi 的比较研究[2014-8-1]].情报理论与实践

[3]李学兰.基于 Gephi 的物流金融研究可视化[2017-7-1].牡丹江大学学报

[4]李学兰,王海元. 基于 Gephi 的制造业与物流业联动研究可视化分析[2017-9-1].重庆第二师范学院学报

[5]Gephi 中文教程 [EB /OL].[2013-02-18].https: / /www.Udemy.com/gephi /.


5