为了账号安全,请及时绑定邮箱和手机立即绑定

python中蛋白质序列的一种热编码

python中蛋白质序列的一种热编码

侃侃尔雅 2022-06-07 19:06:22
我需要将序列作为训练数据,将输出列作为标签。但在我必须对序列应用一种热编码之前,如您所见,序列的长度各不相同 请建议我如何对所有氨基酸应用一种热编码以分配不同的整数值
查看完整描述

1 回答

?
呼如林

TA贡献1798条经验 获得超3个赞

没有其他人可以确定对您的数据集进行分类的最佳方法。这个决定只能由对目标和数据集有很好理解的人做出。φ(x)——你的特征向量——总是非常特定于你的数据。

例如,如果您有 DNA,您可能具有特定密码子是否存在的特征,或腺嘌呤数量的箱等,这是非常主观的,即使有很好的理解,调整也是一项不平凡的任务。

您必须非常小心,因为如果您错误地生成特征向量,您可能会在您的数据中创建某些类别的偏差,使其具有一定的长度、某些氨基酸的数量等,这些偏差并不能真正代表您所分类的内容。这可能会导致测试和训练错误率具有欺骗性并产生错误的结论。

老实说,如果你在上大学,我建议你请计算机科学系或其他类似部门的人来帮助你的项目。虽然使用预烘焙的 sklearn 编码似乎很诱人,但它对于您的情况并不是一个好的解决方案。由于数据量有限,您很可能会在序列长度方面出现异常情况,并且尝试将每个字符变成它自己的特征会导致拟合性能不佳。

至于实际将您的数据读入 python,它是一个 csv,因此您可以使用 open() 和 split(',') 手动解析它,或者您可以使用一些流行的库来解析 csv 格式。YMMV


查看完整回答
反对 回复 2022-06-07
  • 1 回答
  • 0 关注
  • 266 浏览
慕课专栏
更多

添加回答

举报

0/150
提交
取消
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号