해커 뉴스 완전 아카이브 - 4,700만+ 항목, Parquet 형식, 5분마다 업데이트

Show HN: Hacker News archive (47M+ items, 11.6GB) as Parquet, updated every 5m

요약

2006년부터 2026년 현재까지의 해커 뉴스 전체 데이터(4,736만 개 항목)를 Parquet 형식으로 제공하는 데이터셋으로, 5분마다 자동 업데이트된다. DuckDB, pandas 등 다양한 도구로 쿼리 가능하며 HuggingFace에서 직접 접근할 수 있다.

핵심 포인트

  • 2006년부터 현재까지 모든 해커 뉴스 항목(스토리, 댓글, Ask HN, Show HN 등) 포함
  • 월별 Parquet 파일 + 5분 단위 실시간 블록으로 구성, DuckDB와 datasets 라이브러리 지원
  • stats.csv로 완성도 검증 가능하며 자동화된 라이브 파이프라인으로 항상 최신 상태 유지

왜 중요한가

기술 커뮤니티의 역사적 데이터를 대규모로 분석하고 싶은 개발자와 연구자에게 귀중한 리소스다.

📄 전문 번역

해커뉴스 완전 아카이브 데이터셋 소개

이게 뭐예요?

이 데이터셋은 2006년부터 현재까지 해커뉴스에 올라온 모든 글, 댓글, Ask HN, Show HN, 채용공고, 투표까지 포함한 완전한 아카이브입니다. Y Combinator가 2007년부터 운영해온 해커뉴스는 기술 커뮤니티 중 가장 오래되고 영향력 있는 곳입니다. 창업가, 엔지니어, 연구자, 기술자들이 모여 기술의 트렌드를 공유하고 논의하는 사실상의 중심지가 되었죠.

현재 아카이브는 2006년 10월부터 2026년 3월 16일까지 약 4,736만 개의 항목을 담고 있습니다. 5분마다 새로운 항목을 자동으로 수집해서 Parquet 파일로 저장하기 때문에 항상 최신 상태를 유지합니다. 저희는 이것이 Hugging Face에서 가장 완전하고 자주 업데이트되는 해커뉴스 데이터 미러라고 생각합니다. 데이터는 월별 Parquet 파일로 정렬되어 있어서 DuckDB, datasets 라이브러리, 또는 Parquet을 읽을 수 있는 어떤 도구로든 쉽게 쿼리할 수 있어요.

뭐가 공개되나요?

데이터셋은 월별로 하나의 Parquet 파일로 구성되어 있고, 오늘의 활동은 5분 단위 파일로 따로 관리됩니다.

매 5분마다 새로운 항목을 수집해서 별도의 Parquet 블록으로 저장하죠. 자정(UTC)이 되면 현재 월의 모든 데이터를 원본에서 다시 한 번 수집해서 하나의 완전한 Parquet 파일로 저장한 다음, 오늘 폴더의 5분 단위 블록들은 삭제합니다.

data/
├── 2006/2006-10.parquet (HN 데이터 첫 달)
├── 2006/2006-12.parquet
├── 2007/2007-01.parquet
├── ...
├── 2026/2026-03.parquet (가장 최근 완료된 달)
└── 2026/2026-03.parquet (진행 중인 현재 달)

today/
├── 2026/03/16/00/00.parquet (5분 단위 라이브 블록)
├── 2026/03/16/00/05.parquet
└── ...
└── 2026/03/16/23/55.parquet (가장 최근 커밋된 블록)

stats.csv와 stats_today.csv도 함께 제공됩니다. stats.csv는 커밋된 매달의 항목 수, ID 범위, 파일 크기, 수집 소요 시간, 커밋 타임스탬프를 추적합니다. 이를 통해 데이터의 완성도를 확인하고 파이프라인의 진행 상황을 모니터링할 수 있어요.

오늘의 데이터 분포

아래 차트는 오늘(2026년 3월 16일) 시간대별 커밋된 항목 수입니다. 총 24시간에 걸쳐 24,549개 항목이 기록되었습니다(마지막 업데이트: 2026년 3월 18일 23:10 UTC).

00:00 ████████████████████░░░░░░░░░░ 976
01:00 █████████████████████░░░░░░░░░ 1.0K
02:00 ██████████████████████░░░░░░░░ 1.1K
...
23:00 ██████████░░░░░░░░░░░░░░░░░░░░ 519

피크 시간대는 정오부터 오후 4시 사이로, 약 1,400개 정도의 항목이 커밋되었네요.

연도별 데이터 분포

아래 차트는 연도별 누적 항목 수입니다.

2006 █░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ 62
2007 █░░░░░░░░░░░░░░░░░░░░░░░░░░░░░ 93.8K
...
2023 ██████████████████████████████ 4.6M
2024 ████████████████████░░░░░░░░░░ 3.7M

해커뉴스는 2010년대부터 가파른 성장세를 보이다가 최근 몇 년간 연간 370만 개에서 460만 개 정도의 항목을 유지하고 있습니다.

데이터셋 다운로드 및 사용하기

전체 데이터셋을 받거나, 특정 연도, 또는 단일 월의 데이터만 골라서 받을 수 있습니다. Hugging Face의 표준 Parquet 포맷으로 저장되어 있어서 DuckDB, datasets 라이브러리, pandas, huggingface_hub 모두에서 바로 사용할 수 있어요.

DuckDB로 사용하기

DuckDB는 Hugging Face에 있는 Parquet 파일을 다운로드 없이 직접 읽을 수 있습니다. 데이터를 탐색하는 가장 빠른 방법이죠.

SELECT * FROM read_parquet('hf://datasets/...')

type 컬럼은 작은 정수 값으로 저장되어 있는데요, 1 = story, 2 = comment, 3 = poll, 4 = pollopt, 5 = job을 의미합니다. "by" 컬럼은 작성자의 사용자명을 나타냅니다.