C.W.K.
Stream
Lesson 03 of 08 · published

Pandas, Arrow, 뷰어로 탐색

~22 min · datasets, explore

Level 0스카우트
0 XP0/50 lessons0/10 achievements
0/120 XP to next level120 XP to go0% complete

같은 테이블, 렌즈 셋

Dataset 은 Arrow-backed. peek 하려고 pandas 변환 안 해도 됨 — 근데 pandas 원하면 한 콜 (ds.to_pandas()), 스키마 허락하면 zero-copy. 컬럼 selection 은 ds.with_format("arrow")pa.Table 가능.

Hub 뷰어

모든 데이터셋 페이지에 Parquet 변환을 auto-쿼리하는 Data Studio 뷰어 있어. 수천 행 빠르게 스캔하는 가장 빠른 방법. 뒤에서 Dataset Viewer API 호출 — 직접 콜 가능: https://datasets-server.huggingface.co/rows?dataset=...&config=...&split=...&offset=0&length=100. 데이터셋 다운 X 하고 sampling 하기 좋음.

Code

Pandas + Arrow 변환·python
from datasets import load_dataset

ds = load_dataset("stanfordnlp/imdb", split="train")

# Pandas — ad-hoc 분석에 편함
df = ds.to_pandas()
print(df.label.value_counts())
print(df.text.str.len().describe())

# Arrow — 다운스트림 zero-copy path 위해
arrow_tbl = ds.with_format("arrow").select(range(10))[:]
print(type(arrow_tbl))  # pyarrow.lib.Table
데이터셋 뷰어 API 직접 치기·bash
curl -s "https://datasets-server.huggingface.co/rows?dataset=stanfordnlp%2Fimdb&config=plain_text&split=train&offset=0&length=2" | python -m json.tool | head -40

External links

Exercise

도메인 다른 데이터셋 셋 (text, audio, image) 골라. 각각 dataset viewer API 로 처음 50 행 hit. JSON 저장. 어떤 필드가 scalar, 어떤 게 파일 URL, 어떤 게 inline binary embed 됐는지 메모.

Progress

Progress is local-only — sign in to sync across devices.
이 페이지에서 버그를 발견하셨거나 피드백이 있으세요?문제 신고

댓글 0

🔔 답글 알림 (로그인 필요)
로그인댓글을 남기려면 로그인해 주세요.

아직 댓글이 없어요. 첫 댓글을 남겨보세요.