数据员个人工作总结三篇

VIP专免
3.0 littered 2024-09-20 999+ 47.12KB 15 页 6贝壳 海报
侵权投诉
数据员个人工作总结三篇
一、数据量过大,数据中什么情况都可能存在。
如果说有 10 条数据,那么大不了每条去逐一检查,人为处
理,如果有上百条数据,也可以考虑,如果数据上到千万级别,
甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行
处理,尤其海量的数据中,什么情况都可能存在,例如,数据中
某处格式出了问题,尤其在程序处理时,前面还能正常处理,突
然到了某个地方问题出现了,程序终止了。
二、软硬件要求高,系统资源占用率高。
对海量的数据进行处理,除了好的方法,最重要的就是合理
使用工具,合理分配系统资源。一般情况,如果处理的数据过 TB
级,小型机是要考虑的,普通的机子如果有好的方法可以考虑,
不过也必须加大 CPU 和内存,就象面对着千军万马,光有勇气没
有一兵一卒是很难取胜的。
三、要求很高的处理方法和技巧。
这也是本文的写作目的所在,好的处理方法是一位工程师长
期工作经验的积累,也是个人的经验的总结。没有通用的处理方
法,但有通用的原理和规则。
下面我们来详细介绍一下处理海量数据的经验和技巧:
一、选用优秀的数据库工具
现在的数据库工具厂家比较多,对海量数据的处理对所使用
的数据库工具要求比较高,一般使用 Oracle 或者 DB2,微软公司
最近发布的 SQLServer20xx 性能也不错。另外在 BI 领域:数据
1
库,数据仓库,多维数据库,数据挖掘等相关工具也要进行选
择,象好的 ETL 工具和好的 OLAP 工具都十分必要,例如
Informatic,Eassbase 等。笔者在实际数据分析项目中,对每天
6000 万条的日志数据进行处理,使用 SQLServer20xx 需要花费 6
小时,而使用 SQLServer20xx 则只需要花费 3 小时。
二、编写优良的程序代码
处理数据离不开优秀的程序代码,尤其在进行复杂数据处理
时,必须使用程序。好的程序代码对数据的处理至关重要,这不
仅仅是数据处理准确度的问题,是数据处理率的问题。良好
的程序代码应该包含好的法,包含好的处理程,包含好的
率,包含好的常处理机等。
三、对海量数据进行分区操
对海量数据进行分区操作十分必要,例如按年份存取的
数据,我们可以按年进行分,不的数据库有不的分
式,不过处理机。例如 SQLServer 的数据库分
的数据存的文件下,而不的文件
下,这样将数据分开,磁盘 I/O,小了系统
,而还可以日志,索引放于的分下。
建立广泛索引
对海量的数据处理,对大表建立索引是必行的,建立索引
考虑到具情况,例如对大的分序等字段,都要建立
应索引,一般还可以建立复索引,对经常插入建立索
时要小,笔者在处理数据时,经在一个 ETL 程中,当插
2
入表时,首先删索引,然后插入完毕建立索引施聚
作,完成后再次插入前还是索引,所以索引要用到
好的时机,索引填充因子和聚集非聚集索引都要考虑。
建立缓存机
数据量加时,一般的处理工具都要考虑到存问题。
存大小设置的好也关系到数据处理的成败,例如,笔者在处理
2 亿条数据作时,设置为 100000 条/Buffer,这对
个级别的数据量是可行的。
、加大虚拟内存
如果系统资源有,内存提示,则可以靠增虚拟内存
来解决。笔者在实际项目中对 18亿条的数据进行处
理,内存为 1GB,1 个 P42.4G 的 CPU,对这么大的数据量进行
作是有问题的,提示内存不,那么用了加大虚拟内存的方
法来解决,在 6 块磁盘上分别建立了6个4096M磁盘
,用于虚拟内存,这样虚拟的内存则加为
4096*6+1024=25600M,解决了数据处理中的内存不问题。
、分处理
海量数据处理难为数据量大,那么解决海量数据处理难的
问题其中一个技巧是减少数据量。可以对海量数据分处理,然
处理的数据进行合并操作,这逐个击破,有利于小数据
量的处理,不至面对大数据量来的问题,不过这方法也要
因势进行,如果不允许拆分数据,还需要另想办法。不过一
3
摘要:

数据员个人工作总结三篇一、数据量过大,数据中什么情况都可能存在。如果说有10条数据,那么大不了每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,尤其海量的数据中,什么情况都可能存在,例如,数据中某处格式出了问题,尤其在程序处理时,前面还能正常处理,突然到了某个地方问题出现了,程序终止了。二、软硬件要求高,系统资源占用率高。对海量的数据进行处理,除了好的方法,最重要的就是合理使用工具,合理分配系统资源。一般情况,如果处理的数据过TB级,小型机是要考虑的,普通的机子如果有好的方法可以考虑,不过也必须加大CPU...

展开>> 收起<<
数据员个人工作总结三篇.docx

共15页,预览5页

还剩页未读, 继续阅读

声明:本文档由网友提供,仅限参考学习,如有不妥或产生版权问题,请联系我们及时删除。 客服请联系: fanwenhaiwang@163.com 微信:fanwenhai2012
作者:littere... 分类:个人总结 价格:6贝壳 属性:15 页 大小:47.12KB 格式:DOCX 时间:2024-09-20

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 15
客服
关注