MPP架构与MapReduce架构的深度对比

发表于 2024-03-21 分类于架构设计阅读次数：

架构概览

MPP (Massive Parallel Processing)

┌──────────────────────────────────────────────┐
│               MPP 架构                        │
│                                              │
│  ┌─────────┐   ┌─────────┐   ┌─────────┐    │
│  │ Node 1  │   │ Node 2  │   │ Node 3  │    │
│  │ CPU     │   │ CPU     │   │ CPU     │    │
│  │ Memory  │◄─►│ Memory  │◄─►│ Memory  │    │
│  │ Storage │   │ Storage │   │ Storage │    │
│  └─────────┘   └─────────┘   └─────────┘    │
│        ▲            ▲            ▲           │
│        └────────────┴────────────┘           │
│              高速互联网络                     │
└──────────────────────────────────────────────┘

MapReduce

┌──────────────────────────────────────────────┐
│             MapReduce 架构                    │
│                                              │
│  ┌─────────┐   ┌─────────┐   ┌─────────┐    │
│  │ Map 1   │   │ Map 2   │   │ Map 3   │    │
│  └────┬────┘   └────┬────┘   └────┬────┘    │
│       │             │              │         │
│  ┌────▼────┐   ┌────▼────┐   ┌────▼────┐    │
│  │Shuffle 1│   │Shuffle 2│   │Shuffle 3│    │
│  └────┬────┘   └────┬────┘   └────┬────┘    │
│       │             │              │         │
│  ┌────▼────┐   ┌────▼────┐   ┌────▼────┐    │
│  │Reduce 1 │   │Reduce 2 │   │Reduce 3 │    │
│  └─────────┘   └─────────┘   └─────────┘    │
└──────────────────────────────────────────────┘

核心区别

1. 数据处理模式

MPP

// MPP数据处理示例
public class MPPProcessor {
    public void processQuery(String sql) {
        // 1. 并行分发查询
        List<Node> nodes = getAvailableNodes();
        CompletableFuture<?>[] futures = nodes.stream()
            .map(node -> CompletableFuture.runAsync(() -> {
                // 每个节点并行执行相同的查询
                node.executeQuery(sql);
            }))
            .toArray(CompletableFuture[]::new);
        
        // 2. 等待所有节点执行完成
        CompletableFuture.allOf(futures).join();
        
        // 3. 合并结果
        mergeResults(nodes);
    }
}

MapReduce

// MapReduce处理示例
public class MapReduceProcessor {
    public void processData(List<String> input) {
        // 1. Map阶段
        Map<String, List<String>> mappedData = input.stream()
            .parallel()
            .map(this::mapFunction)
            .collect(Collectors.groupingBy(MapResult::getKey));
        
        // 2. Shuffle阶段
        shuffleData(mappedData);
        
        // 3. Reduce阶段
        List<String> result = mappedData.entrySet().stream()
            .parallel()
            .map(entry -> reduceFunction(entry.getKey(), entry.getValue()))
            .collect(Collectors.toList());
    }
}

2. 数据交互方式

MPP数据交互：
┌────────┐     ┌────────┐
│Node 1  │◄───►│Node 2  │  实时数据交换
└────────┘     └────────┘

MapReduce数据交互：
┌────────┐     ┌────────┐     ┌────────┐
│Map     │────►│Shuffle │────►│Reduce  │  阶段性数据传输
└────────┘     └────────┘     └────────┘

3. 资源管理

MPP

# MPP资源配置示例
cluster:
  nodes:
    - id: node1
      cpu: 16
      memory: 64GB
      storage: 2TB
      network: 10Gbps
  interconnect:
    type: InfiniBand
    bandwidth: 100Gbps

MapReduce

# MapReduce资源配置示例
job:
  mappers: 100
  reducers: 20
  resources:
    map:
      cpu: 2
      memory: 4GB
    reduce:
      cpu: 4
      memory: 8GB
  intermediate:
    compression: true
    storage: HDFS

性能对比

1. 延迟比较

响应时间对比：
MPP:        ├────────┤ (毫秒级)
MapReduce:  ├────────────────────┤ (分钟级)

适用场景：
MPP: 实时分析、交互式查询
MapReduce: 批量处理、大规模ETL

2. 扩展性对比

节点扩展效果：

MPP扩展：
性能 ─────────►
节点数 ─────────►
(近似线性扩展，但有上限)

MapReduce扩展：
性能 ─────────────►
节点数 ─────────────►
(可以持续线性扩展)

应用场景

MPP最适合：

OLAP分析场景
实时数据仓库
交互式查询
复杂SQL处理

MapReduce最适合：

大规模数据批处理
ETL作业
日志分析
数据清洗

选型建议

public class ArchitectureSelector {
    public String selectArchitecture(Requirements req) {
        if (req.needsRealTimeProcessing() && 
            req.dataSize() < 100_000_000 && 
            req.requiresComplexSQL()) {
            return "MPP";
        } else if (req.isBatchProcessing() && 
                   req.dataSize() > 1_000_000_000) {
            return "MapReduce";
        }
        return "Need further analysis";
    }
}

总结对比表

特性	MPP	MapReduce
处理模式	并行处理	分阶段处理
数据交互	实时	阶段性
延迟	毫秒级	分钟级
扩展性	有限制	近乎无限
适用场景	实时分析	批处理
数据规模	GB~TB	TB~PB
计算复杂度	高	中等
资源消耗	较大	可控