龙8唯一官网，龙8中国官网唯一入口，龙8官方网站：高效低耗计算快，CEVA新推的DSP独领风骚

NEWS商会动态

发布日期：2024/09/05浏览次数：

本文摘要：深度自学的可编程 DSP，且就在今天，具有软件生态系统的新型 XM6 IP 也被发售，其效率更高，计算能力更加强劲，还有新的节约能源专利。

深度自学的可编程 DSP，且就在今天，具有软件生态系统的新型 XM6 IP 也被发售，其效率更高，计算能力更加强劲，还有新的节约能源专利。玩游戏 IP 游戏当 CEVA 宣告 XM4 DSP 推测定点算法中实训练的精度与全算法基本一样，误差将近 1 %时，它夺得了该领域许多的分析师奖项，CEVA 称之为高性能和功率效率让其从竞争，及软件框架的可行性进展中脱颖而出。IP 公告公布于 Q1 2015 季度，第二年取得了许可证，第一批用于 IP 生产的硅钢将于今年下线。此后，CEVA 公布了其 CDNN2 平台，它是一款一键编译器工具，训练网络，并将其转换成合适 CEVA XM IPS 的代码。

新一代 XM6 统合了历代 XM4 的特点，改良了配备，可以采访硬件加速器，还享有新型的硬件加速器，而且，它还保有着 CDNN2 平台的兼容性，这样的编码可相容 XM4，也可以在 XM6 上高性能运营。CEVA 归属于 IP 业务，如 ARM，并与半导体公司合作，然后卖给 OEMs。这一般来说必须很长的时间，来将新产品从构想实际跳入市场，特别是在是在安全性和汽车等行业于是以较慢发展时。

CEVA 将 XM6 改为了一种可拓展的、可编程的 DSP，它可以用单一的代码库跨越市场，同时利用额外的功能来提高功率、性能，并降低成本。今天的公告中，还包括新型 XM6 DSP，CEVA 新的系列的图像和视觉软件库，一套新的硬件加速器，并将其带入 CDNN2 生态系统。CDNN2 是一款一键编译器工具，检测卷积，并应用于高于逻辑块和加速器的最佳方法传输数据。

XM6 将反对 OpenCL 和 C++ 开发工具，以及软件元素还包括 CEVA 的计算机视觉、神经网络和具有第三方工具的视觉处置库。硬件为标准 XM6 核心的处置部分构建了AXI 相连，从而与加速器和内存交互。XM6 IP 里面有卷积的硬件加速器 CDNN 助手，它容许较低功率相同功能硬件，处置神经网络系统的疑难部分，如 GoogleNet，校正鱼眼上的图像或变形镜头，图像的杂讯未知，转换的函数是相同功能友好关系型的，以及其他的第三方硬件加速器。XM6 的两大新的硬件功能，将协助大多数图像处理和机器学习算法。

第一个是集中-挤满，或者说是读者一个周期中，L1 内存到向量寄存器中的 32 地址值的能力。CDNN2 编译器工具辨识串行代码读取，并构建矢量化来容许这一功能，当所需的数据通过记忆结构产于时，集中-挤满提升了数据读取时间。由于 XM6 是可配备的 IP，L1 数据储存的大小/相关性在硅设计水平是可调节的，CEVA 回应，这项功能对于给定尺寸的 L1 都有效地。

此级用作处置的向量寄存器是宽度为 8 的 VLIW 构建器，这样的配备才能满足要求。第二功能称作“滑动-窗口”数据处理，这项视觉处置的特定技术已被 CEVA 申请专利。有许多方法可以处理过程或智能中的图像，一般来说算法将马上用于平台所须要一块或大片像素。对于智能部分，这些块的数量将重合，造成有所不同区域的图像被有所不同的计算出来区域器重。

CEVA 的方法是保有这些数据，从而使下一步分析所须要信息量更加较少。听得一起否很非常简单，在 2009 年，我做到了类似于的三维微分方程分析，显然是这样，我很吃惊，它之前并没构建视觉/图像处理。如果你有地方存储的话，重复使用原始数据，就可以节省时间，节省能源。CEVA 称之为 XM6 在轻矢量工作量中的性能增益是 XM4 的 3 倍，同比重制内核平均值提高了 2 倍。

XM6 在编码方面也比 XM4 更容易配备，获取“ 50% 额外的掌控”。融合明确的 CDNN 硬件加速器（HWA），CEVA 认为，生态系统中的卷积层，如 GoogleNet 消耗了周期中的大部分时间。CDNN HWA 使用了此编码，后用 512MACs 为它构建了相同的硬件，用于 16 位反对构建了 8 倍的性能增益，且利用率为 95%。CEVA 提及用于 12 位的方法将节省芯片面积和成本，同时最小化精度损耗，但也有一些开发商拒绝用原始的 16 位方法，以反对未来的项目，因此，结果是自由选择了 16 位。

在该领域的汽车图像/视频处置方面，CEVA 有两大竞争对手，分别是 MobilEye 和 NVIDIA ，后者发售了 TX1 以增进神经网络的训练和推理小说。基于 690 MHz 情况下，TX1 在 TSMC 20nm 的平面处置技术，CEVA 说道，他们内部仿真得出的单体 XM6 在平台方面效率提高了 25 倍，而且，比 AlexNet 和 GoogleNet 速度快四倍。当然，尽管 XM6 也可以在 16nm 或 28nm 的 FinFET 运营，但这些都是其在 20nm 情况下运营的结果。这意味著，根据单批 TX1 发布的数据，XM6 在 FP16 用于 Alexnet ，比起 67帧/秒，它可以继续执行每秒运营 268 帧图像，比起于 5.1 w，它只要 800 mW。

在 16FF 中，功率的数值有可能更加较低，CEVA 告诉他我们，他们内部度量最初是在 28 nm / 16FF 情况下已完成的，但他们在 20 nm 情况下，用于了 TX1 对其各个方面新的展开了度量。应当认为的是，TX1 多出厂的数值指出，其效率比单出厂更佳，然而，它未能获取其他更好的对比值。CEVA 还用 DVFS 方案构建了功率门控，当 DSP 的各个部分或加速器空闲时，可减少功率。很显著，NVIDIA 的优势是其解决方案的可用性，和 CUDA/OpenCL 软件开发，这两方面 CEVA 都想要通过一键软件平台来构建，如 CDNN2 ，并提高硬件，如 XM6。

想到哪些半导体合作伙伴和未来的构建工具，能将这种图像处理与机器学习融合一起。CEVA 认为，智能手机、汽车、安全性和商业应用于，如无人机、自动化将是主要目标。Via：ANAND TECH引荐读者：微软公司 CEO 纳德纳：我们的 AI 之路将不会与众不同未来无人驾驶首秀，竟然不是自动驾驶轿车？原创文章，予以许可禁令刊登。下文闻刊登须知。

本文关键词：龙8唯一官网,龙8中国官网唯一入口,龙8官方网站

本文来源：龙8唯一官网，龙8中国官网唯一入口，龙8官方网站-www.zlqczl.com