📖 개발 공부/kafka
-
[Kafka] Spring Kafka JSON Batch📖 개발 공부/kafka 2023. 3. 26. 16:21
Spring Kafka에서 제공하는 JSON Batch 모드는 Kafka에서 메시지를 읽어올 때, 여러 메시지를 한 번에 읽어와서 처리하는 방식이다. 이를 통해 처리량을 향상시킬 수 있다. JSON Batch 모드를 사용할 경우, Spring Kafka는 지정한 배치 크기만큼 메시지를 읽어와서 리스트로 만들어 준다. 처리가 완료되면, 마지막으로 읽은 메시지의 오프셋을 커밋한다. @KafkaListener( id = "컨슈머 이름", topics = "컨슘할 토픽명 리스트", groupId = "컨슈머 그룹명", containerFactory = "사용할 containerFactory" ) fun consume(messages: List) { // 처리 로직 } JSON Batch 모드를 설정한 conta..
-
[Kafka] Commit📖 개발 공부/kafka 2023. 3. 26. 15:11
컨슈머가 poll() 을 호출할 때마다 컨슈머 그룹은 저장되어 있는 아직 읽지 않은 메시지를 가져온다. 컨슈머 그룹이 메시지를 어디까지 가져갔는지 알 수 있기 때문이다.오프셋 : 컨슈머들이 각각의 파티션에 자신이 가져간 메시지의 위치 정보커밋 : 각 파티션에 대해 현재 위치를 업데이트하는 동작카프카 내에 별도로 내부에서 사용하는 토픽(__comsumer_offsets)을 만들고, 그 토픽에 오프셋 정보를 저장하고 있다. (이전 카프카에서는 이 오프셋 정보를 주키퍼에 저장했다.)자동 커밋 (enable.auto.commit=true)auto.commit: 시간단위 5초(기본값)마다 컨슈머는 poll()을 호출할 때 가장 마지막 오프셋을 커밋한다. 컨슈머는 poll을 요청할 때마다 커밋할 시간인지 아닌지 체..
-
[Kafka] reset offset📖 개발 공부/kafka 2023. 2. 25. 20:15
reset offset 테스트를 하면서 consumer group의 offset을 reset 해야 하는 경우도 있고, 데이터 마이그레이션으로 데이터 누락 가능성을 방지하기 위해 offset을 reset 해야 하는 경우 등이 있다. consumer group의 offset을 reset 하기 위해서는 해당 consumer group이 inactive 상태여야 가능하다. 즉, consumer group의 모든 consumer application을 종료해야 한다. (신규로 생성될 consumer group인 경우는 상관 없다.) command kafka-consumer-groups.sh --bootstrap-server \\ {kafka broker endpoint} --group {consumer group..
-
[Kafka] Rebalancing (리밸런싱)📖 개발 공부/kafka 2023. 1. 31. 00:16
리밸런싱 (Rebalancing) 컨슈머 그룹 내의 컨슈머들은 자신들이 읽는 파티션의 소유권을 공유한다. 컨슈머 A가 담당하던 파티션 읽기 작업을 컨슈머 B가 이관받아 작업할 수 있음. 이를 리밸런싱이라고 한다. 컨슈머 그룹 내의 컨슈머 인스턴스끼리 파티션을 적절히 분배하는 프로세스 파티션 소유권 조정이 가능하기 때문에 컨슈머 그룹의 확장성과 가용성을 높여준다. 리밸런싱이 발생하는 경우: 특정 토픽의 파티션 수 변화 || 컨슈머 그룹의 멤버십 변화 예시 상황: 1개의 컨슈머 그룹(3개의 컨슈머 인스턴스), 토픽에 생성된 3개의 파티션 ㄴ 컨슈머-1이 셧다운 되었을 때, 컨슈머-1에 할당되어 있던 파티션은 재할당 필요 컨슈머 그룹 구성 정리하고, 파티션 재할당 작업을 진행 ⇒ 리밸런싱 리밸런싱이 발생하면 ..
-
[Kafka] Partition 딥다이브📖 개발 공부/kafka 2023. 1. 18. 01:10
카프카의 토픽들은 여러 파티션으로 나뉘어진다. 토픽이 카프카에서 일종의 논리적인 개념이라면, 파티션은 토픽에 속한 레코드를 실제 저장소에 저장하는 가장 작은 단위다. 각각의 파티션은 Append-Only 방식으로 기록되는 하나의 로그 파일(물리적 파일)이다. 파티션의 특징은 병렬로 처리 가능하다는 것이다. 많은 양의 메시지 처리를 위해 파티션 수를 더 늘릴 수 있다.파티션의 레코드는 각각 offset 정보를 가진다. 이는 파티션 내에서 고유한 레코드의 순서를 의미하는 식별자다. 하나의 파티션 내에서는 메시지 순서가 보장된다. (메시지 순서 보장의 단위라 할 수 있다.) 하지만 하나의 토픽이 여러 파티션으로 구성되는 경우, 토픽 단위의 메시지 순서는 보장할 수 없다. 이는 파티션 내부에서의 순서는 보장되지..
-
[Kafka] Kafka Architecture📖 개발 공부/kafka 2023. 1. 14. 01:46
카프카란? 스트리밍 데이터를 다루기 위한 미들웨어와 그 주변 생태계 분산형 스트리밍 플랫폼(A distributed streaming platform)으로써 분산환경에 특화되어 있는 특징이 있다. 메시지를 특정 수신자에게 직접적으로 보내는 것이 아닌, 메시지를 받기 원하는 곳에서 해당 토픽을 구독함으로써 메시지를 읽는다. 카프카의 구성 Broker(브로커) Kafka에서 데이터를 수신, 전달하는 서비스이자 실행되는 Kafka Application Server 카프카 애플리케이션이 설치되어 있는 서버 또는 노드다. 하나의 Server 당 하나의 데몬 프로세스로 동작한다. 보통 가용성을 위해 3 Node Broker로 구성한다. Zookeeper(주키퍼) 자세히 보기 분산 코디네이션 시스템, Broker와 ..