HOME » WIKI » 데이터 검증

데이터 검증

load_dataset

load_dataset

from datasets import load_dataset

def load(dataset):
    return load_dataset('parquet', data_files=f'{dataset}/train.parquet', split='train')

def d(start, count):
    for i in range(start, start + count):
        conversations = dataset[i]['conversations']
        for idx, item in enumerate(conversations):
            print(item['from'])
            print(item['value'])
            if idx < len(conversations) - 1:
                print('-' * 20)
        print('=' * 100)

dataset = load('xxx')

지원 데이터 타입:

_PACKAGED_DATASETS_MODULES = {
    "csv",
    "json",
    "pandas",
    "parquet",
    "arrow",
    "text",
    "imagefolder",
    "audiofolder",
    "webdataset",
}

중국어 체크:

import re
import tqdm

def has_chinese(text):
    # 중국어 유니코드 범위: u4e00 ~ u9fff
    pattern = re.compile(r'[\u4e00-\u9fff]')
    return bool(pattern.search(text))

c = 0
for i in tqdm.tqdm(range(len(dataset) - 1)):
    if has_chinese(dataset[i]['conversations'][0]['value']):
        c += 1
print(c / len(dataset))