Как использовать многопоточный потребитель в kafka 0.9.0?
документ Кафки дает подход примерно со следующими описаниями:
один потребитель на поток:простой вариант-дать каждому потоку свой собственный потребитель > экземпляр.
мой код:
public class KafkaConsumerRunner implements Runnable {
private final AtomicBoolean closed = new AtomicBoolean(false);
private final CloudKafkaConsumer consumer;
private final String topicName;
public KafkaConsumerRunner(CloudKafkaConsumer consumer, String topicName) {
this.consumer = consumer;
this.topicName = topicName;
}
@Override
public void run() {
try {
this.consumer.subscribe(topicName);
ConsumerRecords<String, String> records;
while (!closed.get()) {
synchronized (consumer) {
records = consumer.poll(100);
}
for (ConsumerRecord<String, String> tmp : records) {
System.out.println(tmp.value());
}
}
} catch (WakeupException e) {
// Ignore exception if closing
System.out.println(e);
//if (!closed.get()) throw e;
}
}
// Shutdown hook which can be called from a separate thread
public void shutdown() {
closed.set(true);
consumer.wakeup();
}
public static void main(String[] args) {
CloudKafkaConsumer kafkaConsumer = KafkaConsumerBuilder.builder()
.withBootstrapServers("172.31.1.159:9092")
.withGroupId("test")
.build();
ExecutorService executorService = Executors.newFixedThreadPool(5);
executorService.execute(new KafkaConsumerRunner(kafkaConsumer, "log"));
executorService.execute(new KafkaConsumerRunner(kafkaConsumer, "log.info"));
executorService.shutdown();
}
}
но это не работает и выдает исключение:
java.утиль.ConcurrentModificationException: KafkaConsumer небезопасен для многопоточного доступа
кроме того, я прочитал источник Flink (an платформа с открытым исходным кодом для распределенной потоковой и пакетной обработки данных). Flink, используя многопоточный потребитель, похож на мой.
long pollTimeout = Long.parseLong(flinkKafkaConsumer.properties.getProperty(KEY_POLL_TIMEOUT, Long.toString(DEFAULT_POLL_TIMEOUT)));
pollLoop: while (running) {
ConsumerRecords<byte[], byte[]> records;
//noinspection SynchronizeOnNonFinalField
synchronized (flinkKafkaConsumer.consumer) {
try {
records = flinkKafkaConsumer.consumer.poll(pollTimeout);
} catch (WakeupException we) {
if (running) {
throw we;
}
// leave loop
continue;
}
}
Что случилось?
3 ответов
Кафка потребителя не потокобезопасными. Как вы указали в своем вопросе, в документе указано, что
простой вариант-дать каждому потоку свой собственный экземпляр потребителя
но в вашем коде у вас есть один и тот же потребительский экземпляр, обернутый разными экземплярами KafkaConsumerRunner. Таким образом, несколько потоков обращаются к одному экземпляру-потребителю. В документах Кафки ясно сказано:--3-->
Кафка потребитель не является потокобезопасным. Весь I/O сети случается в поток приложения, выполняющего вызов. Это ответственность пользователь, чтобы убедиться, что многопоточный доступ правильно синхронизированный. Несинхронизированный доступ приведет к ConcurrentModificationException.
Это именно то исключение, которое вы получили.
Он бросает исключение на ваш звонок, чтобы подписаться. this.consumer.subscribe(topicName);
переместите этот блок в синхронизированный блок следующим образом:
@Override
public void run() {
try {
synchronized (consumer) {
this.consumer.subscribe(topicName);
}
ConsumerRecords<String, String> records;
while (!closed.get()) {
synchronized (consumer) {
records = consumer.poll(100);
}
for (ConsumerRecord<String, String> tmp : records) {
System.out.println(tmp.value());
}
}
} catch (WakeupException e) {
// Ignore exception if closing
System.out.println(e);
//if (!closed.get()) throw e;
}
}
возможно, это не ваш случай, но если вы объединяете обработку данных серверных тем, то вы можете читать данные из нескольких тем с одним и тем же потребителем. Если нет, то предпочтительнее создавать отдельные задания, потребляющие каждую тему.