上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

非结构化数据在MaxCompute上的处理(18页).pdf

编号:91471 PDF 18页 2.76MB 下载积分:VIP专享
下载报告请您先登录!

非结构化数据在MaxCompute上的处理(18页).pdf

1、应答阿里云数据事业部 高级专家非结构化数据在MaxCompute上的处理数据无边界:MaxCompute2.0DT时代:海量数据的加速产生MaxCompute2.0结构化数据 vs 非结构化数据每天产生的80%+数据是非结构化的-视频,音频,图像-文本文件:log,csv,html等-特殊二进制格式:e.g.,基因数据MaxCompute2.0打造大数据生态:计算与数据的互联互通理想:现状:MaxCompute2.0MaxCompute:阿里云核心分布式计算平台-阿里集团内部大规模数据处理需求锤炼出的大数据平台-10,000+台物理机/集群,多集群-服务集团内部淘宝,蚂蚁等BU的分布式处理:每

2、天百万级别作业数-基于阿里云飞天分布式系统,成熟的高可用分布数据处理平台,安全易用-MaxCompute SQL:通过简明语义,实现复杂数据处理逻辑-语言:SQL具有良好的可扩展性,表达性强-架构:MaxCompute 2.0提供了强大的灵活度-分布式作业中85%+为分布式SQL(v.s.9/15/2014;通过外部表(EXTERNAL TABLE),描述数据的存储位置(oss)和处理方式(csv)1,46.81006,-92.78787,9/14/2014,S 1,45.78782,-91.56735,9/14/2014,NE。8,46.97878,-87.03234,9/16/2014,N

3、E7,47.67866,-87.78989,9/17/2014,W直接对数据进行读取,抽取出的数据可直接参与SQL运算,无缝连接vehicleId|locationLongtitute_|_8|46.97878inputquery resultMaxCompute内置csv文件handler处理该oss位置上的所有csv文件指定csv读取的schema范例 1:处理存储OSS上的CSV文件MaxCompute2.0SELECT vehicleId,locationLongtitue FROM AmbulanceDataExternal WHERE direction=NE AND record

4、Time 9/15/2014;1|46.81006|-92.78787|9/14/2014|S 1|45.78782|-91.56735|9/14/2014|NE。8|46.97878|-87.03234|9/16/2014|NE7|47.67866|-87.78989|9/17/2014|WvehicleId|locationLongtitute_|_8|46.97878CREATE EXTERNAL TABLE IF NOT EXISTS AmbulanceDataExternal(vehicleId int,locationLatitute double,locationLongtitu

5、e double,recordTime string,direction string)STORED BY com.aliyun.odps.example.TextStorageHandler WITH SERDEPROPERTIES(delimiter=|)LOCATION oss:/oss-cn-hangzhou- odps-example.jar;通过Java SDK实现的特殊文本handlerJava代码包名用户传参接口inputquery result范例 2:处理存储OSS上的特殊格式文本MaxCompute2.0用户Java SDK接口:StorageHandler/*Base

6、StorageHandler class,user-defined StorageHandler shall extend from this class.*The class provides interfaces to reason about Extractor/Outputer implemented by user,*for converting raw byte stream into records and vice versa.*/public abstract class OdpsStorageHandler /*Getter for underlying extractor

7、 class *return Class description for the extractor class */public abstract Class getExtractorClass();/*Getter for underlying outputer class *return Class description for the outputer class */public abstract Class getOutputerClass();轻量级的用户代码接入口指定用户对输入数据处理的实现方式指定用户对输出数据处理的实现方式MaxCompute2.0/*Base extra

8、ctor class,user-defined extractors shall extend from this class */public abstract class Extractor /*Interface for setting up the extractor,implementation can be a no-op *param ctx:the ExecutionContext which contains context information may be useful *for setting up user code execution environment *p

9、aram inputs:set of input streams,each corresponding to one input file *param attributes:encapsulate any attributes needed that describe associated input */public abstract void setup(ExecutionContext ctx,InputStreamSet inputs,DataAttributes attributes);/*Interface for extracting a schematized record

10、from an input stream *return:the extracted record */public abstract Record extract()throws IOException;/*Interface for operations upon extractor exit,implementation can be no-op */public abstract void close();框架根据外部数据(e.g.,OSS)准备的InputStream输入集用户指定参数用户代码处理输入数据流,输出recordMaxCompute2.0系统框架设计-由MaxComput

11、e框架负责分析指定OSS地址上所有文件,将不同TB甚至PB级别以上的数据,拆分成子集分配给不同计算节点并行处理(split/failover/longtail)-依托MaxCompute2.0高效调度与计算框架,同时对常见数据格式(CSV,TSV,Apache ORC等)提供built-in处理方法-在用户需要对特殊数据(音视图等)指定解析/处理方式,可通过SDK实现。-非结构化框架-负责核心分布式系统逻辑-用户逻辑-对接InputStream数据流MaxCompute2.0CREATE EXTERNAL TABLE IF NOT EXISTS speech_snr_external(sent

12、ence_snr DOUBLE,id STRING)STORED BY com.aliyun.odps.speech.SpeechStorageHandlerWITHSERDEPROPERTIES(mlfFileName=sm_random_5_utterance.text.label,speechSampleRateInKHz=16)LOCATION oss:/oss-cn-hangzhou- speechStorageHandler.jar,sm_random_5_utterance.text.label;-内含SpeechExtractor对语音wav文件进行分析,计算平均语句的信噪比(

13、SNR),与文件id一起作为抽取出的信息返回-语音模型可作为resource一起发放到每个计算节点-所有的语音数据的处理在extractor中完成:beyond deserializationSELECT sentence_snr,id FROM speech_snr_externalWHERE sentence_snr 10.0;SELECT操作触发对语音文件的分布式处理,抽取出的信息直接参与SQL语义计算范例 3:处理存储OSS上的语音数据MaxCompute2.0流行音乐分析SELECT count(*)as popSongsCount FROM rawMp3Files WHERE la

14、bel=Pop AND singer=Female;商业前景:对各种非结构化数据的分布式处理图像/视频解析CREATE TABLE analysis_result AS SELECT FROM internalTab JOIN (SELECT imageCategory,imageId FROM rawImagedData WHERE objectsInImage 5)externalTab ON internalTab.imageCategory=externalTab.imageCategory GROUP BY imageCategory;网页(新闻)信息抽取CREATE TABLE k

15、eywordCat AS SELECT category,keywords FROM rawWebDocuments WHERE publisher=NewYorkTimes AND popularity 1000;MaxCompute2.0商业前景:开启大数据的无限可能-气象数据(netcdf/grib)-各类科学数值(double/int etc.)-根据气象观测流程及特性组合压缩成的特殊存储格式-基因数据(FASTQ/EMBL/FASTA)-基因碱基表现方式-根据基因处理需求(e.g.,基因测序)和不同算法而衍生的不同编码存储格式and many more MaxCompute2.0商业前景:建立与各种分布式系统的生态连接MaxCompute2.0总结与展望-MaxCompute2.0的非结构化数据处理框架:建立于成熟可靠的分布式计算平台之上,打通云上的数据生态-改变“云”间互相隔离的现状,改变单一数据格式局限,真正实现计算与数据的互联互通-这里主要以读取OSS上数据为范例,框架同时将支持其他数据源,包括在MaxCompute中处理TableStore(OTS)上的kv数据等,敬请期待-整合音频,视频,图像,天气,基因各种数据,实现与传统关系式数据的无缝连接,开拓新的应用领域-提供针对各种特殊数据格式的整套解决方案:建立丰富生态,赋能商业伙伴

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(非结构化数据在MaxCompute上的处理(18页).pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部