2012-06-27

伪共享

近期对并发编程进行了研究，看到已经从jsr166y添加到java 7里的LinkedTransferQueue及Disruptor框架均有对伪共享(False Sharing)问题进行了单独的处理，于是，对此类问题进行了梳理：

目前典型的CPU架构有三级缓存，从读取速度由快而慢分别为L1 -> L2 ->L3。对于多核架构，L1，L2为单核独享，而L3为多核共享。CPU指令执行即从L1 cache开始读取，如果cache miss，便从下一级cache读取，直到内存。

为了高效利用cache，CPU不是简单地将单条数据(指令)写入cache，而是将一批数据指令(连续地)写入cache行中。即cache行是对cache进行读写操作的最小单位。对于目前典型的core，ivy，sandy等cpu，cache行大小为64bytes。

同时，对于多核系统，每个核有私有的L1，L2，多线程并发时，如果某个核需要修改的变量同时在另外一个核的cache中，为了保证数据的一致性，需要使当前核cache中变量失效(invalidate)，然后同步一致数据。这种操作是有硬件层级的缓存一致性协议来保证的，通常是M-E-S-I协议。其中M,E,S和I代表使用cache行所处的四个状态，协议通过四种状态的(复杂)迁移(类似状态机模型)来保证一致性。当发生上述不一致时，当前核会发出RFO(Request For Owner)请求来保证一致性，但是这个保证过程需要低层级cache或者内存的同步，会对性能造成很大的影响。
对于Java对象，相邻的成员变量被加载到同一个cache行中，当不同线程对成员变量分别操作时，就会导致RF0请求的发生，这种现象即伪共享。

上图为disruptor作者设计的示意图，x，y变量分别被load到c1，c2的cache行中，c1更新x，c2更新y，而x，y位于同一条cache行中，此时两个线程轮番发送RFO消息，占有cache行拥有权，获得拥有权线程对变量的更新会导致其他核中的cache行中的变量失效，进而通过L3进行变量同步，而此时如果L3 miss，还需要通过内存同步，对性能造成很大的影响。因此，虽然x，y被独立线程操作，彼此无任何关系，因为伪共享，性能有很大的问题。
比较悲催的是，上面的x，y变量的伪共享在生产者-消费者模式中比较常见。生产者-消费者模式中，生产者和消费者作为不同的线程不停地操作队列的首尾两端(通过head,tail指针)，而这两个指针对象定义在一起，加载head时，会将tail同时加载到同一个cache line中。

例如：Java j.u.c LinkedBlockingQueue的

 /** Head of linked list */
private transient Node<E> head;
 
/** Tail of linked list */
private transient Node<E> last;

head，last共占8bytes。两者被加载到同一个cache line。大量的生产者、消费者对queue进行读写时，会发生较大的性能问题

为了防止伪共享的发生，通常进行缓存行补齐(cache line padding)，即对对象进行填充，使其占用一个cache行。这样可以保证对象不处于同一缓存行。

对于Hotspot Java对象，Java程序的对象头固定占8字节(32位系统)，此时只需要填48bytes即可保证对象处于,不同的缓存行, 从而避免伪共享。(对于64位系统，对象头占用空间更大，多出也无所。)

例如：

在 LinkedTransferQueue中(早期的jsr166y版本，收录在早期的netty项目中)，队列的head，tail如下定义：

/** head of the queue */
    private final PaddedAtomicReference<QNode> head;
    /** tail of the queue */
    private final PaddedAtomicReference<QNode> tail;
 
 
    /**
     * Padded version of AtomicReference used for head, tail and
     * cleanMe, to alleviate contention across threads CASing one vs
     * the other.
     */
    private static final class PaddedAtomicReference<T> extends AtomicReference<T> {
        private static final long serialVersionUID = 4684288940772921317L;
 
        // enough padding for 64bytes with 4byte refs
        Object p0, p1, p2, p3, p4, p5, p6, p7, p8, p9, pa, pb, pc, pd, pe;
        PaddedAtomicReference(T r) { super(r); }
    }

PaddedAtomicReference通过15个4byte对象，对AtomicReference进行了填充，从避免了伪共享，LinkedTransferQueue后期版本对其设计进行了更新，但核心类似，只是方法更加优雅（还没有完全看懂）。

在Disruptor框架中，其核心数据结构RingBuffer的序号由Sequence对象来维护，Sequence对象，定义了

1	private final long[] paddedValue = new long[15];

通过15个long来填充。序号设置/获取时分别调用

public long get(){
    return unsafe.getLongVolatile(paddedValue, valueOffset);
}
 
public void set(final long value){
    unsafe.putOrderedLong(paddedValue, valueOffset, value);
}

这样通过sun unsafe的CAS操作，对序号进行填充，从而避免了伪共享。