Insights18 min read
모델과 하드웨어 사이에 있어야 할 데이터 계층이 파편화되어 있고, 온디바이스에서는 거의 존재하지 않습니다. 이것이 왜 구조적 문제인지, 현재의 해법들이 왜 진짜 해법이 아닌지, 그리고 올바른 해법이 갖춰야 할 조건은 무엇인지 분석합니다. 이 조건들에 대한 하나의 구체적 응답으로 UQA와 Cognica 엔진을 제시합니다.

Read Post

Tech4 min read
그래프 데이터베이스는 관계 중심 문제를 효과적으로 해결하지만, 관계형 데이터베이스와 별도로 운영하면 운영 복잡성이 증가합니다. Cognica가 그래프 쿼리를 통합 대수에 어떻게 통합하여, 데이터 중복 없이 Cypher와 SQL을 하나의 트랜잭션으로 합성하는지 설명합니다.

Read Post

Research5 min read
코사인 유사도 0.85는 각도이지, 확률이 아닙니다. ANN 인덱스가 이미 계산하는 분포 통계를 활용하여 벡터 유사도 점수를 보정된 적합성 확률로 변환하는 방법을 설명합니다. 텍스트와 벡터 검색의 확률적 통합을 완성합니다.

Read Post

Research9 min read
Sigmoid는 설계 결정이 아니라 수학적 정리입니다. BM25 점수를 확률로 변환하는 유일하게 유효한 함수가 왜 sigmoid인지를 보이고, Robertson의 확률적 순위 원리(PRP)가 50년 만에 어떻게 완성되었는지를 설명합니다.

Read Post

Tech15 min read
현대 검색 시스템에서 어휘 매칭과 의미적 이해를 결합하는 것은 근본적인 과제입니다. Cognica Database에서 BM25 점수를 보정된 확률로 변환하여 텍스트 검색과 벡터 검색 결과의 근본적인 결합을 가능하게 하는 확률적 랭킹 프레임워크를 어떻게 구축했는지 살펴봅니다.

Read Post

Tech18 min read
Copy-and-Patch JIT 개발과 디버깅을 실용적으로 만드는 필수 인프라를 소개합니다. 검증을 위한 다중 아키텍처 디스어셈블러와 크로스 플랫폼 테스트 및 디버깅을 위한 소프트웨어 CPU 에뮬레이터를 살펴봅니다.

Read Post

Tech16 min read
Cognica 데이터베이스 엔진이 JIT 컴파일의 지연 시간 장벽을 허무는 방법을 살펴봅니다. 바이트코드 킬로바이트당 1밀리초 미만의 컴파일 시간을 유지하면서 인터프리터 대비 2-10배의 속도 향상을 달성하는 Copy-and-Patch JIT 컴파일 기술을 소개합니다.

Read Post

Insights4 min read
온디바이스 AI가 요구하는 데이터베이스 아키텍처의 변화를 살펴봅니다. SQLite가 온디바이스 컴퓨팅의 해답이었던 것처럼, 온디바이스 AI에는 트랜잭션, 분석, 전문 검색, 벡터 검색을 통합한 새로운 데이터베이스가 필요합니다. Cognica가 온디바이스와 서버에서 동일하게 동작하는 이유를 설명합니다.

Read Post

Insights4 min read
법률 서비스 시장에서 판례 검색이 어려운 이유를 기술적으로 분석합니다. 판례 데이터의 구조적 특성과 기존 분산 아키텍처(RDB + ElasticSearch + Vector DB)의 한계를 살펴보고, 단일 데이터베이스 기반의 통합 검색이 왜 필요한지 설명합니다.

Read Post

Engineering11 min read

LLM으로 PDF 재무제표를 자동 추출하기

by Cognica Team | November 18, 2025
대규모 언어 모델(LLM)을 활용하여 다양한 형식의 PDF 재무제표를 자동으로 추출하고 정규화하는 시스템 구축 과정을 소개합니다. Structured Output과 Pydantic을 활용한 데이터 모델 설계, Google Gemini API를 통한 추출 프로세스, 그리고 실무에 적용 가능한 후처리 방법까지 200줄의 코드로 구현하는 방법을 다룹니다.

Read Post

1 / 3