一种网络通信芯片RAM软失效的快速恢复方法

(整期优先)网络出版时间:2023-07-10
/ 2

一种网络通信芯片RAM软失效的快速恢复方法

曾敏

新华三半导体技术有限公司 江苏南京 210000

【摘要】本论文设计了一种网络芯片软失效的快速恢复的方法,将复位拆分为硬复位,软复位,接口复位,外部存储控制器复位四种类型。硬复位控制芯片的配置信息的复位,软复位控制芯片的数据通路的复位,接口复位控制芯片的外部接口部分的复位,外部存储控制器复位控制外部存储控制器部分的复位。当网络通信芯片发生软失效时,配置单元上报给上位机,上位机仲裁是否需要复位芯片。当芯片工作在硬件自动识别模式时,复位管理单元自动仲裁是否需要复位芯片。当需要复位芯片时,保持硬复位和接口复位处在释放状态,将软复位和外部存储控制器复位设置到复位状态。这种复位配置,可以保留芯片的配置,保持和其他芯片连接的接口的连续性,并将发生异常的数据通路或外部存储控制器同时复位。解复位时,先释放数据通路的复位,让数据流在50ms内恢复。然后释放外部存储控制器复位,待外部存储可以正常访问后,打开数据流到外部存储的通路。

【关键词】网络通信芯片;RAM软失效;快速恢复

一,背景技术

随着5G的广泛推广,网络高速发展已经成为趋势。5G的高速率、低时延和高连接密度等特点,将加速人们在各个领域的数码生活。提供高速和稳定的连接,使大规模数据传输、云计算、智慧城市等应用成为可能。同时,5G还将支持更高级别的无线数据服务,如新一代虚拟现实、无人驾驶和远程医疗等。因此,随着5G的不断推广,网络的高速发展将对人们带来更多的便利和创新机遇。随着网络高速发展的趋势,网络通信芯片也在不断地进行着高速发展。网络通信芯片可以说是互联网发展的核心,其高速化和先进化的发展趋势决定了网络通信技术的水平和未来方向。现在,随着5G技术的推广和全球范围内的互联网高速化,人们对网络通信芯片的需求也越来越高,因此针对高速传输、高速计算和低延迟等需求的高速网络通信芯片正在得到广泛的研发和应用。同时,随着人工智能技术的普及和发展,网络通信芯片也通过集成AI芯片来提高通信效率和智能化,推动了网络通信芯片的迅速发展,为网络通信技术的高速化提供了有力的支持。

网络通信芯片需要存储转发表项与缓存数据包,芯片内通常会集成大量片上RAM。同时网络通信芯片,为了缓存数据及各种表项,通常会使用外部缓存,例如DDR颗粒。然而,当系统出现异常时,通信芯片DDR控制器的复位后初始化,所需的时间通常会比内部RAM时间长。

网络通信芯片中的RAM软失效可能会对数据传输和存储产生各种影响,如数据错误、丢失,甚至死机。有的RAM是用于存储数据包,如果出现了RAM软失效,则是对应数据包有错,系统只是短暂丢包。如果是链表RAM出现了软失效错误,则会导致链表错乱,后续数据包都出错,需要执行复位恢复动作。所以因此需要根据出现软失效的RAM类型及位置判断是否需要执行复位恢复动作。

网络通信芯片是网络通信设备中最关键的组件之一,任何其发生异常都可能导致网络通信设备崩溃或无法正常工作,从而影响通信线路的可靠性和正常通信。由于网络通信设备通常在不间断地运行,因此快速恢复网络通信芯片对于保证网络通信设备正常工作的连续性和稳定性非常重要。

二,网络通信芯片软失效快速恢复的方法

网络通信芯片发生软失效时,希望能快速恢复数据流,通常保证上层网络协议报文丢失的个数小于3个,不会导致协议断链。为了保证协议报文不发生断链,恢复的时间一般要求在50ms以内。

启动一款网络通信芯片,需要下发大量的配置,这些配置会消耗大量的时间,启动时间会达到几十分钟。当配置下发完成后,芯片间要完成连接接口的握手建链,这个时间也比较长,超过了50ms的要求。外部存储的控制器和颗粒间的连接训练,时间也很长。为了将网络通信芯片软失效后,快速恢复的时间控制在50ms以内,就需要将上述这些耗时很长的过程规避掉。

本论文设计了一种网络芯片软失效的快速恢复的方法,将复位拆分为硬复位,软复位,接口复位,外部存储控制器复位四种类型。硬复位控制芯片的配置信息的复位,软复位控制芯片的数据通路的复位,接口复位控制芯片的外部接口部分的复位,外部存储控制器复位控制外部存储控制器部分的复位。当网络通信芯片发生软失效时,配置单元上报给上位机,上位机仲裁是否需要复位芯片。当芯片工作在硬件自动识别模式时,复位管理单元自动仲裁是否需要复位芯片。当需要复位芯片时,保持硬复位和接口复位处在释放状态,将软复位和外部存储控制器复位设置到复位状态。这种复位配置,可以保留芯片的配置,保持和其他芯片连接的接口的连续性,并将发生异常的数据通路或外部存储控制器同时复位。解复位时,先释放数据通路的复位,让数据流在50ms内恢复。然后释放外部存储控制器复位,待外部存储可以正常访问后,打开数据流到外部存储的通路。

三,网络通信芯片软失效快速恢复装置的组成

网络通信芯片软失效快速恢复装置由配置单元,复位管理单元,RAM软失效校验单元,数据通路单元,外部存储控制与存储单元,接口单元六部分组成。

配置单元,接收上位机下发的配置命令,完成网络通信芯片正常运行所需要的配置下发。同时记录系统运行中的一些工作状态,供上位机读取。

复位管理单元,接收配置单元的命令,完成复位和解复位的动作。当配置为硬件自动识别模式时,汇总RAM软失效校验单元的结果,当汇总结果有异常时,自动复位网路通信芯片。芯片的解复位需要上位机配置解除。

RAM软失效校验单元,完成RAM写入数据和读出数据一致性的检测,当校验数据不一致时,上报校验状态给配置单元和复位管理单元仲裁。

数据通路单元,完成网络通信芯片的查表和存储转发功能,是网络通信芯片的主体单元,也是网络通信芯片软失效发生时,需要复位的主体单元。

外部存储控制与存储单元,外部存储的控制器部分,完成和外部存储颗粒的连接交互。

接口单元,网络通信芯片和其他芯片连接的接口单元,在软失效发生时,一般不希望复位接口单元,保持芯片连接的连续性。

四,网络通信芯片软失效快速恢复装置的工作原理

网络通信芯片软失效快速恢复装置的工作原理如下所述。

  1. RAM软失效校验单元,在RAM写入数据时,通过ECC校验算法,计算出校验位,将原始写数据和校验位一起写入RAM中。在RAM读数据时,读出数据和校验位,通过ECC校验算法,计算数据和校验值是否一致,若不一致,说明在存储过程中,RAM发生了软失效。发生软失效时,将异常状态上报给配置单元和复位管理单元。
  2. 配置单元汇总各给RAM软失效校验单元的异常状态,上报给上位机,上位机仲裁是否需要复位芯片。当配置为硬件自动识别模式时,复位管理单元汇总RAM软失效校验单元的结果,当汇总结果有异常时,自动复位网路通信芯片,并上报给上位机。芯片的解复位需要上位机配置解除。
  3. 复位管理单元接收到芯片复位信号后,保持硬复位和接口复位处在释放状态,将软复位和外部存储控制器复位设置到复位状态。这种复位配置,可以保留芯片的配置,保持和其他芯片连接的接口的连续性,并将发生异常的数据通路或外部存储控制器同时复位。
  4. 配置单元,禁用数据单路单元从接口单元接收数据,并将数据存储从外部存储切换为仅使用内部存储。
  5. 解复位时,由上位机通过配置单元下发解复位信号。复位管理单元先释放数据通路单元的复位,待数据通路单元复位释放完成后,上位机通过配置单元打开数据通路单元和接口单元的连接,使数据流可以正常转发,让数据流在50ms内恢复。
  6. 上位机通过配置,释放外部存储控制器复位,待外部存储可以正常访问后,下发配置,打开数据流到外部存储的通路,使数据流可以正常使用内部存储和外部存储颗粒
  7. 通过上述过程,完成了网络通信芯片发生软失效时的快速恢复。RAM软失效校验单元持续检测RAM的失效状态,一旦再次发生软失效,可重复上述过程,快速恢复。

结束语

本论文设计了一种网络芯片软失效的快速恢复的方法,将复位拆分为硬复位,软复位,接口复位,外部存储控制器复位四种类型。在网络芯片发生软失效时,通过不同功能单元的复位差异控制,让数据流在50ms内快速恢复。

参考文献

[1]一种以太网交换机的软复位方法及系统[发明专利,申请号CN202110202044.2]