我真不是法爷_第320章 AI芯片

　　

　　使用激活函数调节神经元参数活动。

　　如此一步接着一步，连绵不绝。

　　按理说，三个输入而只有两个神经元与一个单层神经网络的话，权重与输入便要六次乘法……

　　如此一来，矩阵里的乘片与取片，都需要大量的CPU周期与内存，而TPU这种芯片，便是为了减轻这种负荷而生。

　　林奇忍不住皱眉看了眼周围。

　　某种程度而言，计算量的负荷和电网的负荷很类似，最大的负荷便决定了整体的高峰所在（计算难度），也决定了接下来他完成“AI芯片”后所能够到达的高峰。

　　而供与求有需要平衡，不然的话，第一道崩溃的便是自身。

　　只是他很快又重新被TPU的构架所吸引而痴迷起来。

　　只有深入一个项目，才能彻底体会他的乐趣。

　　因此懂是第一步环节。

　　这也是棋类活动里，容易入门的象棋比起围棋受众要光，而五子棋又比起象棋还有光。

　　林奇越看，越发忍不住啧啧称奇。

　　这TPU的架构居然采用了量子技术，在预设的最大值和最小值与八位整数之间的任意值的近似过程里，TPU居然包含了足足六万五千五百三十六个八位整数乘法器，直接将32位或者16位的计算压缩成为8位。

　　实现了曲线的离散化。

　　完美地减少了神经网络预测的成本。

　　第二点，也是更关键的。

　　正如林奇最初所推崇的硬件。

　　TPU芯片直接封装了种种神经网络计算工具。

　　诸如矩阵乘法单元，统一缓冲区，激活单元等，它们以后十数个高级指令组成，集中完成神经网络推理所需要的数学计算。

　　同时它又采用了典型的RISC处理器为简单计算提供指令。它的矩阵乘法器单元而不是传统的标量处理器，得以在一个时钟周期内，以矩阵操作，完成数十万个操作。

　　打个比方，传统CPU是逐行打印，而TPU芯片则能够做到影印效果。

　　如此种种特性，让它在神经网络计算收敛方面拥有非凡的效果，曾经几天才能训练出的成功，现在一小时不到就能够完成。

　　林奇不禁感慨万分。

　　难怪说站在巨人的肩膀上就是爽。

　　让他自己来设计，如何能够突破看似最简单的加法器这个关卡？

　　万丈高楼平地起，曾经的林奇开发CPU时，第一步入门选择完成的模块便是加法器，因为它的原理最简单，也是最容易实现的操作。

　　然而整个TPU芯片，居然本质上也是做加法器？

　　它的核心便是由乘加器组合形成的256×256的运算器阵列：乘法矩阵。

　　这种冥冥中的呼应，也让林奇有些哭笑不得。

　　芯片，本质上便是一个一个模块搭建而成，区别在于有的人是3010片的20周年海德薇限定版，而有的则是630片的普通版。

　　随着最为核心的乘法矩阵模块成型，它周围的模块也一步一步成型。

　　林奇这一次彻底看懂这种结构后，也忍不住摇头惊叹，难怪只要4块TPU训练出来的人工智能棋手便能够大杀四方，让人类都在围棋这项技艺上都黯然失色。

　　要知道一步几千块的旗舰机动辄5nm工艺，而TPU的工艺不过是28nm！

　　甚至主频也才700Mhz，这种频率甚至得去上个世纪的486机子里寻找。

　　但真的合适的时候，对方便是一切。

　　请收藏：https://m.xiaoniu8.com