根据中国半导体行业协会IC设计分会的数据,2021年中国大陆有2810家芯片设计企业,同比增长了26.7%,广泛分布在消费电子、汽车、智慧城市等多个行业。
这些企业大多为中小微企业,且大多面临人手短缺,设计能力匮乏等问题。尽早实现芯片流片是企业实现生存发展的关键一环。要及时将产品交付客户,设计效率至关重要。
从前端设计到后端设计再到制造,我们以算力需求为出发点提取出了以下几个关键词:
同时我们分析了各个阶段的需求,总结了几个半导体行业面临的难题:
以一个为期18月的芯片设计为例,涉及前端,验证,后端三个周期:
前4周,只涉及到前端布局以及架构,对算力需求不高,因此月度需求较少。
从第5个月开始,前端,验证,后端均开始工作,算力开始逐步提升。
第16个月达算力最高峰
,月度调度峰值达到百万级核时以上;算力波峰和波谷的核数差距在20倍以上。
当业务增长进入高峰期,自建资源需要升级本地资源来应对业务高峰,随着增长放缓,运维成本逐渐凸显,资源闲置成本依然居高不下。
前端设计中涉及到高敏感数据,需要非常高的安全级别,后端的网表安全级别较低但对资源要求较高。
由于近年的疫情,
很多芯片设计
公司转向居家
办公
。
线上线下的协同
也成了一大难题。多团队,多地域团队协同办公时部署需求复杂。
弹性算力,本地计算资源不足时,灵活的将作业溢出到云上,云上计算资源多样,支持大规模并行,线性加速比,深度整合EDA软件特性,提供不改变设计师操作习惯的上云体验。
北鲲云针对传统部署模式无法满足算力的波峰波谷弹性需求的问题,充分发挥平台在资源管理和调度方面的优势。使出以下四招:
对SLURM开源集群调度系统进行二次开发:一个SLURM集群可同时使用多个地域的资源;按照设定的优先级进行资源调度, 防止由于单地域资源不足导致的Job Pending
指定周期锁定资源(Pre-alloc)防止Job Pending
用户也可以使
用SLURM命令提前
锁定资源,在资源锁定成功后,再运行任务,如salloc –N 100 –p c-32-2 –t 1-00:00:00 锁定100台32核64G资源,锁定期为1天
队列集(partition-set)支持大规模资源使用
在大规模资源调度的场景如千台规模时,单个实例类型(队列)容易缺货导致调度失败,北鲲云对SLURM进行二次开发,实现队列集功能,
可在一个Job中指定多个队列按优先级调度资源
在绝大部分场景下,
用户无需关注资源本身
,
只需要提交作业,平台会自动根据作业申请的资源数量,
自动弹性申请云上资源,并在作业结束后5分钟自动释放资源
北鲲云平台通过了等保三级、GDPR等多项安全认证,在EDA场景中,可以通过建立多个VPC,利用ACL网络控制策略来管理接入子网、管理子网、计算子网、存储子网,使用
双通道的安全网络隔离手段
,打造网络隔离安全区,保障数据安全。
多地域团队协同办公时,北鲲云可以为各地团队按需调用距离最近的云上资源,一个地域资源不足时,可以灵活地切换至临近地域地域,保障资源高可用性。
在广州VPC构建EDA广州计算区, 并将广州VPC同北京VPC通过云连接CC打通,此时云超算平台本身无需在广州地域重新部署,一套系统可管理多个地域的计算集群(北鲲云超算平台支持跨地域双活)。
两个计算区之间的数据可以互相通过如rsync进行备份,既可以确保数据安全,也能做到某地域中断后可在另一个地域使用;在某个地域中断的情况下,可以临时回退到另外一个地域做设计与仿真工作。
方案一:EDA仿真上云
解决峰值需求下本地算力不足的问题
方案二:EDA设计与仿真一体云平台
帮助企业更有效的控制成本,适应多样化的办公场景需求
方案三:EDA设计仿真多地域协同
一地部署,多地资源调度管控,效率与管理两手抓
以混合云为例,
国内某芯片设计企业存在以下业务挑战:
-
本地集群无法在业务高峰期(年底、年中)满足仿真计算需求,
作业排队情况严重
-
原有云上解决方案严重改变了芯片设计工程师线下操作方式,
降低了工作效率
-
云上资源调度策略不灵活,导致Job pending,
影响仿真工作稳定
-
-
-
将云上资源与virtuoso软件ade_L、ade_XL、maestro等提交作业方式深度整合,芯片设计工程师仅需切换环境变量即可无感化上云
-
LSF-Slurm Wrapper让工程师按原有命令习惯提交作业,不改变操作习惯,降低使用成本
-
多地域资源调度保证了业务高峰能够预留、随需调度充足的计算资源
北鲲云作为Cloud-HPC的先行者,致力于将技术、工程融合于科学中释放科研人员精力。为大家搭建
数字化全流程研发平台。
我们为您准备了更加全面的北鲲云EDA行业解决方案,欢迎添加大鱼了解详情!