Как использовать многопоточный потребитель в kafka 0.9.0?

документ Кафки дает подход примерно со следующими описаниями:

один потребитель на поток:простой вариант-дать каждому потоку свой собственный потребитель > экземпляр.

мой код:

public class KafkaConsumerRunner implements Runnable {

    private final AtomicBoolean closed = new AtomicBoolean(false);
    private final CloudKafkaConsumer consumer;
    private final String topicName;

    public KafkaConsumerRunner(CloudKafkaConsumer consumer, String topicName) {
        this.consumer = consumer;
        this.topicName = topicName;
    }

    @Override
    public void run() {
        try {
            this.consumer.subscribe(topicName);
            ConsumerRecords<String, String> records;
            while (!closed.get()) {
                synchronized (consumer) {
                    records = consumer.poll(100);
                }
                for (ConsumerRecord<String, String> tmp : records) {
                    System.out.println(tmp.value());
                }
            }
        } catch (WakeupException e) {
            // Ignore exception if closing
            System.out.println(e);
            //if (!closed.get()) throw e;
        }
    }

    // Shutdown hook which can be called from a separate thread
    public void shutdown() {
        closed.set(true);
        consumer.wakeup();
    }

    public static void main(String[] args) {
        CloudKafkaConsumer kafkaConsumer = KafkaConsumerBuilder.builder()
                .withBootstrapServers("172.31.1.159:9092")
                .withGroupId("test")
                .build();
        ExecutorService executorService = Executors.newFixedThreadPool(5);
        executorService.execute(new KafkaConsumerRunner(kafkaConsumer, "log"));
        executorService.execute(new KafkaConsumerRunner(kafkaConsumer, "log.info"));
        executorService.shutdown();
    }
}

но это не работает и выдает исключение:

java.утиль.ConcurrentModificationException: KafkaConsumer небезопасен для многопоточного доступа

кроме того, я прочитал источник Flink (an платформа с открытым исходным кодом для распределенной потоковой и пакетной обработки данных). Flink, используя многопоточный потребитель, похож на мой.

long pollTimeout = Long.parseLong(flinkKafkaConsumer.properties.getProperty(KEY_POLL_TIMEOUT, Long.toString(DEFAULT_POLL_TIMEOUT)));
pollLoop: while (running) {
    ConsumerRecords<byte[], byte[]> records;
    //noinspection SynchronizeOnNonFinalField
    synchronized (flinkKafkaConsumer.consumer) {
        try {
            records = flinkKafkaConsumer.consumer.poll(pollTimeout);
        } catch (WakeupException we) {
            if (running) {
                throw we;
            }
            // leave loop
            continue;
        }
    }

flink код mutli-thread

Что случилось?

3 ответов


Кафка потребителя не потокобезопасными. Как вы указали в своем вопросе, в документе указано, что

простой вариант-дать каждому потоку свой собственный экземпляр потребителя

но в вашем коде у вас есть один и тот же потребительский экземпляр, обернутый разными экземплярами KafkaConsumerRunner. Таким образом, несколько потоков обращаются к одному экземпляру-потребителю. В документах Кафки ясно сказано:--3-->

Кафка потребитель не является потокобезопасным. Весь I/O сети случается в поток приложения, выполняющего вызов. Это ответственность пользователь, чтобы убедиться, что многопоточный доступ правильно синхронизированный. Несинхронизированный доступ приведет к ConcurrentModificationException.

Это именно то исключение, которое вы получили.


Он бросает исключение на ваш звонок, чтобы подписаться. this.consumer.subscribe(topicName);

переместите этот блок в синхронизированный блок следующим образом:

@Override
public void run() {
    try {
        synchronized (consumer) {
            this.consumer.subscribe(topicName);
        }
        ConsumerRecords<String, String> records;
        while (!closed.get()) {
            synchronized (consumer) {
                records = consumer.poll(100);
            }
            for (ConsumerRecord<String, String> tmp : records) {
                System.out.println(tmp.value());
            }
        }
    } catch (WakeupException e) {
        // Ignore exception if closing
        System.out.println(e);
        //if (!closed.get()) throw e;
    }
}

возможно, это не ваш случай, но если вы объединяете обработку данных серверных тем, то вы можете читать данные из нескольких тем с одним и тем же потребителем. Если нет, то предпочтительнее создавать отдельные задания, потребляющие каждую тему.