这是问题所在:在实验室中,会创建非常大的显微镜数据(每个文件从 1GB 到 200GB)。我们将元数据作为 JSONS 存储在 MongoDB 中。但是我们找不到合适的本地/开源平台来存储这些文件。我们尝试过 Hadoop,但它是一个非常复杂的框架,我们不需要很多特性。我们只需要一个 BLOB / 对象存储,如果可能的话,使用 Python API 通过自建的 GUI 读取和写入数据。已经评估过 Ceph、OpenStack Swift、OwnCloud、Gluster 等,但由于 max_limit_size_of_file 的原因,我们每个都失败了。其中许多提到的每个文件的最大限制为 5GB。存储这些文件的最佳方式是什么?我们需要以下功能:Python(和 REST)API没有最大限制大小开源/本地软件对象/Blob 存储如果可能的话,复制数据不幸的是,出于合规性原因,云解决方案不是一种选择。
4 回答

一只萌萌小番薯
TA贡献1795条经验 获得超7个赞
您需要保留多少个文件?具有文件共享的普通文件系统非常适合存储大型二进制数据。您可以将元数据以及目录路径存储在 mongoDB 中。
您可能需要或不需要担心的一件事是您需要存储多少文件。根据我的经验,如果您要存储数千个文件,那么您需要弄清楚如何跨文件夹分发文件。如果您存储对象的哈希值,您可以创建一个函数,该函数根据哈希值计算存储文件的目录。如果您熟悉 git,这正是它存储对象的方式。

幕布斯7119047
TA贡献1794条经验 获得超8个赞
添加回答
举报
0/150
提交
取消