从搜狗问问上扒数据
简单计算了下,扒了10多万的数据下来了
1条记录大概有10KB.
10多万数据从2007-05开始,大概跑了20天左右。
算下。一年18.25个10万,1825,000 .
再乘上9年(至今2007-2016年)。
16,425,000
当然这里的是理想状态我乱算的,按照这个数量乘上每条占用的空间
16425000*10=164250000KB
164250000/1024=160400.390625MB
160400.390625MB/1024=156.6410064697266 GB
理想状态下数据量也不是很大嘛
再排除掉一些无用的数据。
另外把整体的数据量再翻几翻。
我估计要翻个4-5倍
另外占了10KB这个是简单的文本存储。还没有涉及到数据库。如果涉及到数据库的话,可以通过范式进行减小表容量。
===2018-08-07 09:26
我后面发现,实际下载后,大小大大超过了156GB.。。。
本文来自:从搜狗问问上扒数据-小码农,转载请保留本条链接,感谢!
温馨提示:
本文最后更新于 2021年01月26日,已超过 1,425 天没有更新。若文章内的图片失效(无法正常加载),请留言反馈或直接联系我。
正文到此结束
- 本文标签: 爬虫 大数据
- 本文链接: https://djc8.cn/archives/sogou-ask-from-the-data-on-the-grill.html
- 版权声明: 本文由小码农原创发布,转载请遵循《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权
热门推荐
该篇文章的评论功能已被站长关闭