• Re: 【招聘】 DPU 初创公司云豹智能招聘--DPU 芯片编译器研发工

    能否给出一些为什么做dpu/智能网卡的原因和出发点?

    【 在 lsmushroom 的大作中提到: 】

    : DPU 芯片编译器研发工程师

    : 职位描述:

    :   1 负责 DPU 芯片基础编译器产品的研发,参与编译器的算法设计和实现,工具链的维护。

    : ...................

    星期一
  • 猪的基因与人类似,猪消化系统的营养成分人是否可以使用?

    rt

    现在猪可以培育人类的器官,器官的衰竭很大因素是食物消化吸收带来的各种问题,人的消化系统每天承担大量的能量转换工作,如果食物经过动物(猪)消化系统处理后,人类能直接吸收到营养,会减少很多疾病,因此猪或者其他动物可以帮助人类么?

    10月21日
  • intel 发布2025年数据中心CPU架构

    https://finance.sina.com.cn/tech/2021-08-21/doc-ikqciyzm2675592.shtml

    7年前,作为Intel的客户,我和我的团队向Intel提出了数据中心CPU微架构需求和建议,很高兴今天看到这个技术的落地

    09月02日
  • Re: [讨论]上次浙大linux 内核大会提的lock性能优化对cpu cache

    那时多谢版主的提醒

    【 在 tianbing1212 的大作中提到: 】

    : 大赞,竟然是14年就申请了专利

    : 那时候我还常常在版上喊 file a patent first,看来是多虑了

    09月01日
  • Re: [讨论]上次浙大linux 内核大会提的lock性能优化对cpu cache

    在锁方面的延迟很多还是来自于锁(cache line)的争抢产生的问题,这个专利是来解决这方面的问题。

    专利:https://www.patentguru.com/cn/CN112307067A

    虽然我们不断优化锁的性能,但是如果发现锁是性能的瓶颈,其实在告诉我们降低使用频率或者软件架构出现了问题,需要优化的是架构而不是锁,至少在芯片内部光传播技术普及之前无法解决RC delay,锁的本质属于物理问题。

    【 在 yupluo 的大作中提到: 】

    : 好像是阿里做kernel的专家, 提到x86 处理器cpu cache实现对lock性能有改进的地方。 当时没说具体细节。

    : 是atomic instructions支持的不好吗?我的理解 x86下没有arm的LL/SC的方式,只有atomic指令:建议实现上采用near atomic,而不是far atomic的方式?

    08月28日
  • Re: [讨论]上次浙大linux 内核大会提的lock性能优化对cpu cache

    据说要关掉。

    【 在 BigCarrot 的大作中提到: 】

    : 后面就没有了?

    08月28日
  • Re: [讨论]上次浙大linux 内核大会提的lock性能优化对cpu cache

    目前skylake还有,这个对于读写锁很好,尤其是读很频繁的场景。现有的读写锁即使只有读也会产生cache line ping-pong

    【 在 BigCarrot 的大作中提到: 】

    : Intel的 TSX 是不是不做了?

    08月27日
  • Re: [讨论]上次浙大linux 内核大会提的lock性能优化对cpu cache

    "cpu1提交 transactional memory成功后,主动把cache给flush到LLC,方便下一个cpu来访问?"

    Ling: 是

    “如果是这个思路,感觉普通atomic 指令完成write之后(spin_unlock()),然后cpu主动把自己的priviate cache给flush到LLC,这样是不是也有性能上提升?”

    Ling:是

    “但是假如push到LLC后,后面的cpu还是cpu1发起的访问,感觉这个优化就有点没必要了。是不是在典型的软件场景上,一般是其它cpu 。”

    Ling:这个CPU通过记住上次的更新是否来自相同的CPU1来操作,如果上次更新来自相同的CPU(cpu1)那么不用沉淀,如果不是那么推下去

    “transactional memory这一块实现不了解,这个专利需要好好阅读下。 假如一个transaction里面涉及到多个cacheline,按照你这个专利,是不是都要给clean & invalidate到LLC ?”

    Ling:是

    【 在 yupluo 的大作中提到: 】

    : 多谢,学习了。

    :   看概述专利的特点:

    :    cpu1提交 transactional memory成功后,主动把cache给flush到LLC,方便下一个cpu来访问? 如果是这个思路,感觉普通atomic 指令完成write之后(spin_unlock()),然后cpu主动把自己的priviate cache给flush到LLC,这样是不是也有性能上提升?

    : ...................

    08月27日
  • Re: [讨论]上次浙大linux 内核大会提的lock性能优化对cpu cache

    https://patents.google.com/patent/CN104951240B/zh?inventor=%E9%A9%AC%E5%87%8C&assignee=%E9%98%BF%E9%87%8C%E5%B7%B4%E5%B7%B4&oq=%E9%A9%AC%E5%87%8C+%E9%98%BF%E9%87%8C%E5%B7%B4%E5%B7%B4

    这种方法可以加快锁的访问

    【 在 yupluo 的大作中提到: 】

    : 好像是阿里做kernel的专家, 提到x86 处理器cpu cache实现对lock性能有改进的地方。 当时没说具体细节。

    : 是atomic instructions支持的不好吗?我的理解 x86下没有arm的LL/SC的方式,只有atomic指令:建议实现上采用near atomic,而不是far atomic的方式?

    08月26日
  • 从最速降线角度引入的性能优化
    loading ...

    相同的高度有N条路径从A点(高处)至B点(低处),将小球从A点放下,由于重力作用,其中有一条曲线(摆线)花费时间最短,这是著名的最速降线问题。最速降线遵循最小作用量原理 也就是 m*vds 的累加为最小值的轨道就是最速降线,而物体的实际状态由位置x, y, z, 和相应位置的速度Vx, Vy, Vz 这6个变量共同组成,mv*ds对应的最速降线也是状态变化量累加值最小的曲线,因此最速降线也就是最小熵增的曲线,这时候我们发现最速降线问题等同于高尔顿钉板(见附件图),其下方最大概率的落脚点是粒子坠落的时候状态改变的累加值最小的点/范围,也是大多数粒子降落的位置,该位置也是花费时间最小落到地面的位置。

    如果最速降线的问题与高尔顿钉板本质是同一个问题,我们开始通过高尔顿钉板来观察最速降线的特征,有以下结论:

    1. 最速问题与光的折射属于相同的问题(见约翰.伯努利描述),光的折射问题与光总是走最快路径的费马原理相同,所以光也是走熵变化最小的路径的背后原因,可以假设一个小球(光子)向下滚动,大概率走到最中间的范围,同时也是最快路径。

    2. 最速降线也可以解释为什么导线使用相同的电源情况下,电流总是走电阻最小的导线,因为电子在电阻小的导线会被碰撞的次数最少,状态改变最少,或者说平均自由程最长。由于常温下电子在导线中的定向移动与其他电子频繁碰撞(想象为非完全碰撞条件下的高尔顿钉板,且将重力场换成电场),所以CPU从内存读取8个字节到计算单元耗费1000pj, 而真正计算仅仅需要10pj。

    3. 最快路径就是熵增最少的路径,所以 减少状态的改变是优化性能的关键,状态的改变恰恰是热力学熵增的过程,这也是我们在https://www.mysmth.net/nForum/#!article/CSArch/61051 中提到的观点

    08月22日
  • Re: 从冰箱中拿到室温的冰淇淋瞬间其表面温度是否比内部更低?

    换个角度问,从室温将热的溶液拿到冰箱内瞬间其表面温度是否比内部更热?

    【 在 MaLing 的大作中提到: 】

    : rt

    08月13日
  • 从冰箱中拿到室温的冰淇淋瞬间其表面温度是否比内部更低?

    rt

    08月13日
  • Re: 1瓦功耗,5GHz频率 (转载)

    超导CPU理论值 770ghz

    【 在 hgoldfish 的大作中提到: 】

    : 芯片的频率有物理极限吗?能不能搞到 THz?

    08月07日
  • Re: 增加 gate voltage, 允许少许电流,但此时三级管状态保持不

    是的,我们先考虑制造最佳的服务器芯片。为了在广泛温度下能够有较大的成品率,现有的芯片频率都会选择较低。如果服务器环境能够提供最佳的温度,那么就会得到性价比最好的芯片

    【 在 csky007 的大作中提到: 】

    : 芯片的工作温度时刻都在变化的,目前工业界芯片一般可工作的温度是-40度到125度,在高温或者低温下芯片工作会变慢,你加冷却液是为了保持一个最佳的温度使得芯片工作在最佳状态,从来带来最佳的能效比吗?你这种也就服务器上适合干吧!

    08月06日
  • Re: 增加 gate voltage, 允许少许电流,但此时三级管状态保持不

    应该还没有,因为最佳的情况是需要考虑液冷带来的制程变化,而不仅仅是一个很大的范围

    【 在 csky007 的大作中提到: 】

    : 这个问题不是问题,大家都是这样做的

    08月03日
  • Re: 蚂蚁金服招聘

    https://i.antfin.com/market/service-market/common_datalink_10  我们超低延迟数据库承载的账务系统开始对外服务,吞吐能力比原有系统提升700倍

    正如做过的高频交易系统一样(穿透延迟<2us),我们只会将自己的系统与理论值比较,要么拿出理论值,要么拿出不能得到理论值的理由,期待您的加入

    【 在 MaLing 的大作中提到: 】

    : 蚂蚁金服过去四年发展迅猛,背后承载的存储计算在规模和速度上快速增加。在此挑战

    : 下,数据平台团队从零到一自主研发了下一代金融级计算平台,支持蚂蚁几乎所有核心业

    : 务,场景包括批处理,流处理,流图一体或混合计算场景。我们面对的计算,存储规模巨

    : ...................

    07月22日
  • Re: 基于协程的异步化内存访问优化

    : 理解了你的意思,还是希望硬件动态做预测,多谢解释。不过主要挑战应该会在这个预测器上,如果基于PC好预测的话,那么大概率这个信息在静态也能得到;

    Ling: 正如上面说的到的数据是否在缓存与动态运行的软硬件环境相关,这个与跳转预测(也是基于指令地址)的引入基本一致,大量取决于运行状态,而其主流也是用硬件完成,下面的三篇文章也都是使用硬件预测load-address 以及 cache Hit-Miss。文章《Load value prediction via path-based address prediction: avoiding mispredictions due to conflicting stores》和 《Correlated Load-Address Predictors》中预测load-address的准确率超过99%, 同样《Bloom Filtering Cache Misses for Accurate Data Speculation and Prefetching》使用load-address预测数据是否在缓存的准确率也超高99%,因此我们可以说在本文中的第一阶段预测,也就是通过指令地址预测数据是否在缓存中,理想情况下的准确率能接近达到 98%(0.99 * 0.99), 第二阶段通过地址预测准确率就可以达到99%。

    “如果是基于访存地址的bloom filter, 需要设计一种在cache evcition时能从bloom filter中“去掉一个项”这样的操作。”

    Ling:《Bloom Filtering Cache Misses for Accurate Data Speculation and Prefetching》相关内容文章中都有提到

    当然只有通过真实的仿真才能有可靠的结论,这方面我们需要进行验证。

    【 在 winfredsu 的大作中提到: 】

    : 理解了你的意思,还是希望硬件动态做预测,多谢解释。不过主要挑战应该会在这个预测器上,如果基于PC好预测的话,那么大概率这个信息在静态也能得到;如果是基于访存地址的bloom filter, 需要设计一种在cache evcition时能从bloom filter中“去掉一个项”这样的操作。

    07月20日
  • Re: 基于协程的异步化内存访问优化

    1. 这种能“较好预测LLC miss”的场景是否有很多?基于DRAM的数据库是一个好场景,但是还有没有更普遍的?

    Ling:不仅仅是数据库,根据我们计算CPI的公式显示,作为数据中心服务器的workload的瓶颈主要来自于L2 指令和数据的缺失,数据显示访问L3命中的延迟和缺失导致的内存访问延迟各占据CPI的30%,共有60%

    2. 本质上相当于在线程内部构建了一个状态机,并发处理多个请求,而这不用协程也是可以实现的(参考上面的论文)。用协程只是让编程更好看,还能得到不错的性能。

    Ling:不可以,虽然之前没有看过这篇论文,但是我们也考虑过用相同的方案,因为缓存(L2/L3)缺失与运行的软硬件环境紧密相关,随机性很大,如果使用静态的prefetch然后切换的方案,会做出很多无用的操作,尤其在云的需要不断迁移部署环境下。

    【 在 winfredsu 的大作中提到: 】

    : L2 miss的没见过,协程优化LLC miss的工作17年开始在VLDB上出现过,原理大概和你说的一样,发一个prefetch之后就yield, 可以参考这篇文章:https://infoscience.epfl.ch/record/231318

    : 这个方法对于几个GB的树结构访问情景,LLC miss概率较大,可以有明显收益;但是我感觉有两个问题:

    : 1. 这种能“较好预测LLC miss”的场景是否有很多?基于DRAM的数据库是一个好场景,但是还有没有更普遍的?

    : ...................

    07月15日
  • Re: 增加 gate voltage, 允许少许电流,但此时三级管状态保持不
    loading ...

    本次先观察到飞机的速度和阻力的关系如下图:

    也就是飞行阻力随着速度增加先变小,再变大。那么晶体管的翻转阻力也应该遵循同样的规律,文章 <<Study of Temperature Dependency on MOSFET Parameter using MATLAB>>说明当温度增长的时候,漏电流变大,vth变小,因此翻转阻力变低,但是随着温度增加,漏电流以指数形式增长,在source和drain之间的电阻增大,因此翻转阻力开始变大。

    翻转阻力随着翻转频率变化:先变小再变大

    结论:也许看似无关的事情,背后有着共同的推手。

    【 在 MaLing 的大作中提到: 】

    : 晶体管开始翻转时,速度越快阻力也越大,但是当速度到达一定程度,伴随着产生漏电流越多翻转的阻力开始降低,而飞机启动前随着速度的增加地面阻力也不断增多,但是达到某个速度时候就会起飞,速度产生质变,当飞机飞行速度继续增加,到达某一个阈值如果改变机器的形状(不改变质量),阻力应该继续降低?

    07月05日
  • Re: 增加 gate voltage, 允许少许电流,但此时三级管状态保持不

    纯粹猜测,也许背后的原理相同,另外已经跑题了,谢谢,哈哈。

    【 在 tianbing1212 的大作中提到: 】

    : 这里的阻力是电容性响应吧(影响充电时间),跟频率相关

    : 未必能适用飞机模型

    07月02日