데이터 검증
load_dataset
from datasets import load_dataset
def load(dataset):
return load_dataset('parquet', data_files=f'{dataset}/train.parquet', split='train')
def d(start, count):
for i in range(start, start + count):
conversations = dataset[i]['conversations']
for idx, item in enumerate(conversations):
print(item['from'])
print(item['value'])
if idx < len(conversations) - 1:
print('-' * 20)
print('=' * 100)
dataset = load('xxx')
지원 데이터 타입:
_PACKAGED_DATASETS_MODULES = {
"csv",
"json",
"pandas",
"parquet",
"arrow",
"text",
"imagefolder",
"audiofolder",
"webdataset",
}
중국어 체크:
import re
import tqdm
def has_chinese(text):
# 중국어 유니코드 범위: u4e00 ~ u9fff
pattern = re.compile(r'[\u4e00-\u9fff]')
return bool(pattern.search(text))
c = 0
for i in tqdm.tqdm(range(len(dataset) - 1)):
if has_chinese(dataset[i]['conversations'][0]['value']):
c += 1
print(c / len(dataset))