『비전공자도 이해할 수 있는 챗GPT』,
『비전공자도 이해할 수 있는 AI 지식』
10만 베스트셀러를 기록한
세상에서 가장 이해하기 쉬운 챗GPT 교양서

HOME » WIKI » 데이터 검증

데이터 검증

load_dataset

from datasets import load_dataset

def load(dataset):
    return load_dataset('parquet', data_files=f'{dataset}/train.parquet', split='train')

def d(start, count):
    for i in range(start, start + count):
        conversations = dataset[i]['conversations']
        for idx, item in enumerate(conversations):
            print(item['from'])
            print(item['value'])
            if idx < len(conversations) - 1:
                print('-' * 20)
        print('=' * 100)

dataset = load('xxx')

지원 데이터 타입:

_PACKAGED_DATASETS_MODULES = {
    "csv",
    "json",
    "pandas",
    "parquet",
    "arrow",
    "text",
    "imagefolder",
    "audiofolder",
    "webdataset",
}

중국어 체크:

import re
import tqdm

def has_chinese(text):
    # 중국어 유니코드 범위: u4e00 ~ u9fff
    pattern = re.compile(r'[\u4e00-\u9fff]')
    return bool(pattern.search(text))

c = 0
for i in tqdm.tqdm(range(len(dataset) - 1)):
    if has_chinese(dataset[i]['conversations'][0]['value']):
        c += 1
print(c / len(dataset))
Last Modified: 2025/10/18 20:54:25
자바 알고리즘 인터뷰 파이썬 알고리즘 인터뷰

카카오 코딩 테스트 출제위원이 직접 집필한,
리트코드(LeetCode) 문제로 풀어보는,
구글, 마이크로소프트, 네이버, 카카오
코딩 테스트 완벽 가이드
『자바 알고리즘 인터뷰』,
『파이썬 알고리즘 인터뷰』

이 사이트의 운영 비용을 후원할 수 있으며, 후원자에게 혜택을 제공할 예정입니다.

© 2000 - Sang Park Except where otherwise noted, content on this site is licensed under a CC BY-NC 4.0.
This site design was brought from Distill. Logo and wiki background image was brought from Bear.