数据的搜集是挖掘数据价值的第一步,当数据量越来越大时,可提取出来的有用数据必然也就更多。只需善用数据化处理渠道,便能够确保数据剖析结果的有效性,助力企业实现数据驱动。那么,大数据搜集方法分为哪几类呢?
1ã离线æéï¼
å·¥å ·ï¼ETL;
å¨æ°æ®ä»åºçè¯å¢ä¸ï¼ETLåºæ¬ä¸ä¾¿æ¯æ°æ®æéç代表ï¼å æ¬æ°æ®çæå(Extract)ã转æ¢(Transform)åå è½½(Load)ãå¨è½¬æ¢çè¿ç¨ä¸ï¼éæ±éå¯¹å ·ä½çäºå¡åºæ¯å¯¹æ°æ®è¿è¡æ²»çï¼ä¾å¦è¿è¡ä¸åæ³æ°æ®çæµä¸è¿æ»¤ãæ ¼å¼è½¬æ¢ä¸æ°æ®è§èåãæ°æ®æ¿æ¢ãç¡®ä¿æ°æ®å®æ´æ§çã
2ãå®æ¶æéï¼
å·¥å ·ï¼Flume/Kafka;
å®æ¶æéé¦è¦ç¨å¨èèæµå¤ççäºå¡åºæ¯ï¼æ¯æ¹ï¼ç¨äºè®°å½æ°æ®æºçå±¥è¡çåç§æä½æ´»å¨ï¼æ¯æ¹ç½ç»çæ§çæµéåçãéèè¿ç¨çè¡ç¥¨è®°è´¦å web æå¡å¨è®°å½çç¨æ·è®¿é®è¡ä¸ºãå¨æµå¤çåºæ¯ï¼æ°æ®æéä¼æ为Kafkaç顾客ï¼å°±åä¸ä¸ªæ°´åä¸è¬å°ä¸æ¸¸æºæºä¸æçæ°æ®æ¦æªä½ï¼ç¶åä¾æ®äºå¡åºæ¯å对åºçå¤ç(ä¾å¦å»éãå»åªãä¸å¿æ ¸ç®ç)ï¼ä¹åååå ¥å°å¯¹åºçæ°æ®åå¨ä¸ã
3ãäºèç½æéï¼
å·¥å ·ï¼Crawler, DPIç;
Scribeæ¯Facebookå¼åçæ°æ®(æ¥å¿)æéä½ç³»ãå被称为ç½é¡µèèï¼ç½ç»æºå¨äººï¼æ¯ä¸ç§æç §ä¸å®çè§ç©ï¼èªå¨å°æåä¸ç»´ç½ä¿¡æ¯çç¨åºæè èæ¬ï¼å®æ¯æå¾çãé³é¢ãè§é¢çæ件æé件çæéã
é¤äºç½ç»ä¸å å«çå 容ä¹å¤ï¼å ³äºç½ç»æµéçæéè½å¤è¿ç¨DPIæDFIç带宽åçææ¯è¿è¡å¤çã
4ãå ¶ä»æ°æ®æéæ¹æ³
å ³äºä¼ä¸ç产ç»è¥æ°æ®ä¸ç客æ·æ°æ®ï¼è´¢å¡æ°æ®çä¿å¯æ§è¦æ±è¾é«çæ°æ®ï¼è½å¤éè¿ä¸æ°æ®ææ¯æå¡ååä½ï¼è¿ç¨ç¹å®ä½ç³»æ¥å£çç¸å ³æ¹å¼æéæ°æ®ãæ¯æ¹å «åº¦äºæ ¸ç®çæ°ä¼BDSaaSï¼æ 论æ¯æ°æ®æéææ¯ãBIæ°æ®åæï¼è¿æ¯æ°æ®çå®å ¨æ§åä¿å¯æ§ï¼é½åå¾å¾å¥½ã
å ³äºå¤§æ°æ®ééæ¹æ³å为åªå ç±»ï¼éè¤å°ç¼å°±åæ¨å享å°è¿éäºãå¦æä½ å¯¹å¤§æ°æ®å·¥ç¨ææµåçå ´è¶£ï¼å¸æè¿ç¯æç« è½å¤å¯¹ä½ ææ帮å©ãå¦ææ¨è¿æ³äºè§£æ´å¤æ°æ®åæå¸ã大æ°æ®å·¥ç¨å¸çæå·§åç´ æçå 容ï¼å¯ä»¥ç¹å»æ¬ç«çå ¶ä»æç« è¿è¡å¦ä¹ ã