为了账号安全,请及时绑定邮箱和手机立即绑定

用于多类目标检测的分层 K 折?

用于多类目标检测的分层 K 折?

qq_笑_17 2023-09-26 17:09:48
更新我已经上传了一个虚拟数据集,df.head():它总共有4 个类df.object.value_counts():human    23car      13cat       5dog       3我想对K-Fold多类对象检测数据集进行正确的验证分割。初步方法为了实现正确的 k 倍验证分割,我考虑了object counts和 的数量bounding box。据我了解,K-fold拆分策略主要取决于数据集(元信息)。但现在对于这些数据集,我尝试了如下操作:skf = StratifiedKFold(n_splits=3, shuffle=True, random_state=101)df_folds = main_df[['image_id']].copy()df_folds.loc[:, 'bbox_count'] = 1df_folds = df_folds.groupby('image_id').count()df_folds.loc[:, 'object_count'] = main_df.groupby('image_id')['object'].nunique()df_folds.loc[:, 'stratify_group'] = np.char.add(    df_folds['object_count'].values.astype(str),    df_folds['bbox_count'].apply(lambda x: f'_{x // 15}').values.astype(str))df_folds.loc[:, 'fold'] = 0for fold_number, (train_index, val_index) in enumerate(skf.split(X=df_folds.index, y=df_folds['stratify_group'])):    df_folds.loc[df_folds.iloc[val_index].index, 'fold'] = fold_number拆分后,我检查了它是否正常工作。到目前为止看起来还不错。所有的褶皱都包含分层k-fold样本,len(df_folds[df_folds['fold'] == fold_number].index)并且彼此之间没有交集,set(A).intersection(B)其中A和B是两个褶皱的指数值(image_id)。但问题似乎是这样的:Fold 0 has total: 18 + 2 + 3 = 23 bbox Fold 1 has total: 2 + 11 = 13 bbox Fold 2 has total: 5 + 3 = 8 bbox忧虑但是,我无法确定这是否是完成此类任务的正确方法。我想要一些建议。上面的方法可以吗?或者有什么问题吗?或者有更好的方法!任何形式的建议将不胜感激。谢谢。
查看完整描述

3 回答

?
三国纷争

TA贡献1804条经验 获得超7个赞

您可以直接使用 StratifiedKFold() 或 StratifiedShuffleSplit() 来根据某些分类列使用分层采样来分割数据集。


虚拟数据:


import pandas as pd

import numpy as np


np.random.seed(43)

df = pd.DataFrame({'ID': (1,1,2,2,3,3),

               'Object': ('bus', 'car', 'bus', 'bus', 'bus', 'car'),

               'X' : np.random.randint(0, 10, 6),

               'Y' : np.random.randn(6)


})



df

使用 StratifiedKFold()


from sklearn.model_selection import StratifiedKFold


skf = StratifiedKFold(n_splits=2)


for train_index, test_index in skf.split(df, df["Object"]):

        strat_train_set_1 = df.loc[test_index]

        strat_test_set_1 = df.loc[test_index]


print('train_set :', strat_train_set_1, '\n' , 'test_set :', strat_test_set_1)

同样,如果您选择使用 StratifiedShuffleSplit(),您可以


from sklearn.model_selection import StratifiedShuffleSplit


sss = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)

# n_splits = Number of re-shuffling & splitting iterations.


for train_index, test_index in sss.split(df, df["Object"]):

 # split(X, y[, groups]) Generates indices to split data into training and test set.


        strat_train_set = df.loc[train_index]

        strat_test_set = df.loc[test_index]


print('train_set :', strat_train_set, '\n' , 'test_set :', strat_test_set)


查看完整回答
反对 回复 2023-09-26
?
弑天下

TA贡献1818条经验 获得超8个赞

我会简单地使用KFoldpython 的 scikit-learn 方法来做到这一点


from numpy import array

from sklearn.model_selection import KFold

data = array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6])

kfold = KFold(3, True, 1)

for train, test in kfold.split(data):

    print('train: %s, test: %s' % (data[train], data[test]))

查看完整回答
反对 回复 2023-09-26
?
繁星coding

TA贡献1797条经验 获得超4个赞

创建交叉验证拆分时,我们关心创建的折叠,这些折叠对数据中遇到的各种“案例”具有良好的分布。

就您而言,您决定根据汽车数量和边界框数量进行折叠,这是一个不错但有限的选择。因此,如果您可以使用数据/元数据识别特定情况,您可以尝试使用它创建更智能的折叠。

最明显的选择是平衡折叠中的对象类型(类),但您可以走得更远。

这是主要思想,假设您有主要在法国遇到的汽车的图像,以及主要在美国遇到的其他汽车的图像,它可以用于创建良好的折叠,每个折叠中法国和美国汽车的数量保持平衡。天气条件等也可以这样做。因此,每次折叠都将包含可供学习的代表性数据,以便您的网络不会对您的任务产生偏见。因此,您的模型对于现实生活中数据的潜在变化将更加稳健。

那么,您可以在交叉验证策略中添加一些元数据来创建更好的简历吗?如果不是这种情况,您能否使用数据集的 x、y、w、h 列获取有关潜在极端情况的信息?

然后,您应该尝试在样本方面进行平衡折叠,以便在相同的样本大小上评估您的分数,这将减少方差并最终提供更好的评估。


查看完整回答
反对 回复 2023-09-26
  • 3 回答
  • 0 关注
  • 167 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号