AI SystemsDelivered

AI Times Korea

뉴스 자동화 플랫폼

Python 크롤러가 30+ 국내외 AI 매체를 매일 5회 수집·정규화하고 GPT-4가 요약·카테고리 분류 후 Redis에 캐싱. 형태소 분석 기반 트렌드 키워드 추출과 개인화 피드 알고리즘 탑재. Google AdSense + 쿠팡 파트너스 수익화 레이어와 React Native 앱을 동일 API 위에 운영.

2025·1개월
View Live

Architecture Overview

Python 크롤러 서비스가 파서 레지스트리로 30+ 매체를 일 5회 수집. FastAPI 백엔드가 요약·분류·트렌드 분석 처리. Next.js 웹과 React Native 앱이 동일 REST API 공유. Redis가 핫 기사를 캐싱.

매체별 파서 레지스트리 · GPT 2-tier 비용 최적화 · Redis TTL 캐시 · 조건부 GET 앱 동기화

Technical Problems

01

30+ 매체 이종 HTML 구조 크롤링 안정성

각 뉴스 매체마다 HTML 구조와 본문 선택자가 다르고 자주 바뀐다. 단일 파서로는 모든 매체를 커버하지 못하고, 레이아웃 변경 시 전체 크롤러가 멈춘다.

02

GPT-4 요약 API 비용 최적화

30+ 매체 × 일 5회 × 기사당 평균 800 토큰 = 일 수천 건의 GPT-4 호출. GPT-4 단독 사용 시 월 API 비용이 초기 서비스 수익을 초과했다.

03

웹·앱 실시간 콘텐츠 동기화 서버 부하

뉴스 특성상 웹과 앱에서 일관성 있는 콘텐츠를 제공해야 한다. React Native 앱이 단순 폴링을 하면 서버 부하가 집중된다.

Engineering Approach

01

매체별 파서 레지스트리 + density-based 폴백

`parsers/{domain}.py`로 매체별 선택자 격리. 미등록 도메인은 BeautifulSoup density-based 본문 추출 알고리즘으로 폴백. KoNLPy 형태소 분석으로 광고·메뉴 텍스트 필터링. 파서 실패 시 Slack 알림.

02

GPT-3.5 Turbo 1차 요약 + GPT-4 인기 기사 재처리

전체 기사를 GPT-3.5 Turbo로 1차 처리(25x 저렴). 사용자 클릭·체류 시간 기반 인기 기사 상위 10%만 GPT-4로 재처리해 품질 향상. 비용 GPT-4 단독 대비 68% 절감.

03

Redis 1시간 TTL 캐시 + If-Modified-Since 조건부 GET

핫 기사(조회수 상위 20%)를 Redis에 1시간 TTL로 캐싱, DB 쿼리 80% 감소. React Native 앱은 `If-Modified-Since` 헤더 기반 조건부 GET으로 변경 없을 때 304 반환, 웹소켓 서버 비용 제거.

Measurable Outcomes

< 1.2%

파서 실패율

30+ 매체 파서 레지스트리

−68%

API 비용

GPT 2-tier 최적화

2,400명

초기 MAU

런칭 1개월 자연 유입

일 5회

수집 빈도

자동 크롤링 + Redis 캐시

Tech Stack

Crawler
PythonBeautifulSoupKoNLPyParser Registry
AI
GPT-4GPT-3.5 Turbo2-tier Pipeline
Backend
FastAPIPostgreSQLRedis
Frontend
Next.jsReact NativeGoogle AdSense
AI Times Korea - Image 1

Project Specs

Year

2025

Duration

1개월

Capability

AI Systems

Status

Delivered

Technologies

Next.jsReact NativePythonBeautifulSoupGPT-4RedisPostgreSQLGoogle AdSense

Have a similar project?

Let's build
something real.

Start a Conversation
AI Times Korea 뉴스 자동화 플랫폼 | 달파몬 포트폴리오 | 달파몬 Dalpamon