上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

经济学及金融学实证研究中的大数据处理:基于Python和PostgreSQL(34页).pdf

编号:86241 PDF 34页 2MB 下载积分:VIP专享
下载报告请您先登录!

经济学及金融学实证研究中的大数据处理:基于Python和PostgreSQL(34页).pdf

1、并行大数据处理:基于Python、PostgreSQL及其他 预计:2022年出版;前期视频课程2022年1月上线B站账号:山人一枚也站账号:山人一枚也目录C O N T E N T S01实证研究中的大数据化B i gD a t ai nE m p i r i c a lR e s e a r c h02为何选择Python&PostgreSQLW h yP y t h o n&P o s t g r e S Q L03服务器配置S e r v e rC o n f i g u r a t i o n04并行计算方案P a r a l l e lC o m p u t i n gS o l

2、u t i o n s05应用举例A p p l i c a t i o ne x a m p l e s4“经济学-金融学”-科学研究的普遍规律 科学研究的目标齐一性的解释:表象-意志简单-普遍 科学革命的结构:范式转换科学革命的结构 托马斯.库恩科学与假设庞加莱(Poincare;中译别名:彭家勒)方法,主题?56目标解释(理论),预测(实务,如量化投资)数据宏观-微观,低频-高频结构化-非结构化方法因果推断,结构方程,机器学习(实证)优化-动力系统-线性展开-校准(理论)结构各类“经济学-金融学”主题乃至“社会学-政治学-法学-心理学”主题“经济学-金融学”-“主题导向研究”的典型范式7

3、 领域的“可理论化程度”是否存在统一、完备结构?是长成一颗树?还是一片草?论文所在“节点”根部-主干-分枝-叶-叶上的灰“经济学-金融学”-“结构”分布8 顶端:“意志”,最具一般性(普适、持续)的抽象事实和结构 中部:蕴于数据中的重要、典型事实 底部数据之后,纷繁复杂到并非一猜就准的个体、组织真实行为(机制,及竞争性解释之源;需去了解、核实,跟实务人士畅聊)“经济学-金融学”实证研究的抽象阶梯9 论文工作节点:想法-数据-回归-文字-销售 单干:全程靠自己,一个人活得像一支队伍 师生师:想法,文字打磨,销售生:数据,回归,文字初稿 外部合作上游:数据中游:回归,文字初稿下游:文字打磨,销售“

4、经济学-金融学”实证研究的生态系统10 经济学Raj Chetty(美国Internal Revenue Service全量数据)金融学张晓燕(上交所账户级数据)James Simons(文艺复兴基金)国内量化私募机构:幻方、明汯“经济学-金融学”大数据实证研究的榜样11 早期数据宏观及个人微观:宏观数据,微观调查数据,人口普查与抽样调查数据企业微观:工业企业数据库,海关数据库,专利数据库经济史:CHGIS,CBDB,方志数据 新兴数据裁判文书数据:10000W+工商企业数据:10000W+招聘网站简历数据:3000W+“经济学”实证研究中的大数据化“金融学”实证研究中的大数据化 早期数据上市

5、公司财务数据股票交易日数据(国泰安、万德、同花顺)新兴数据网贷平台借贷数据(人人贷,已泛滥矣)分钟级、三秒级,乃至逐笔的股票成交、委托数据股票论坛帖子及评论数据(股吧、雪球)27000W+/70000W+1213“经济学”-“金融学”大数据的特点 规模庞大:动辄100G+,甚至Tb+结构复杂:变量(字段)多,有多张表 形式非规范:文本、空间地理、网页、JSON 多来源关联 所涉主题广泛为何要学“Python+PostgreSQL”?前提:拥抱超大规模数据,是个人成长之需要,也是范式转换之必然 艰难而耗时的任务:数据处理 专用工具不敷用:各种现有工具,多为数据分析而生,不适合数据处理(缝缝补补易

6、,改头换面难)目标:扩展研究主题的范围;提高数据处理效率1415 早期:机器码-汇编-Fortran 多种范式:面向过程、面向对象、函数式编程 走向高级语言:底层逻辑自动化,提高编码效率 多进程:自带多进程 新希望:Julia(2012),Kotlin(2011,2016),Rust(2015),Golang(2009)编程语言的发展简史16为何选Python(1994;Java,1996;JavaScript,1996)语言设计合理:面向对象、具有多态和动态特性 庞大社区资源:爬虫,requests,urllib,BeautifulSoup4数据分析,numpy,Pandas可视化,matp

7、lotlib,Seaborn,plotly建网站,Django机器学习,Scikit-Learn,TensorFlow,Pytorch数值模拟与优化,Scipy,cvxpy公式推导,sympy 高度流行:辛苦一个月,安心用十年!17 Python版本:Python3(尽量选最新版,性能有改进)编程环境(IDE):选Anaconda用里面的Jupyter Notebook 和 Spyder(写短代码)(写长代码)(其他备选工具:Pycharm,VsCode)Python版本与编程环境选择18 可管理超大规模数据:Tb甚至更高级别,也轻松搞定 更合理的安排数据:分表存储,通过表连接实现关联查询 降

8、低数据分析代码复杂度:存储数据与分析数据同构 便于并行处理:数据量大时,可通过并行提速为何用数据库19 概念模型:网络型关系型对象型文档型图数据库 基本概念:事务(Transaction)Atomic-Consistency-Isolation-Duration,ACIDTuple-Page-Table-Schema-Database-Server-Machine 节点分布:单节点(单体)分布式 业务类型:OLTP OLAP HTAP数据库发展简史为何选PostgreSQL 简单易用,稳定,性能优越,版本迭代快 扩展性好:地理数据,PostGIS(用QGIS作为图形化工具)时序数据,TimeS

9、caleDB,InfluxDB(排第一)分析型分布式,GreenPlum 纯正开源,社区强大2021PostgreSQL安装环境选择 Windows:PostgreSQL(服务器)+pgAdmin(图形化管理工具)MacOS:PostgreSQL.app +pgAdmin Docker:官方镜像+pgAdmin Python包(连库工具):psycopg2,sqlalchemy服务器配置 业务类型:OLAP(OLTP OLAP HTAP)硬件要求:I/O:PCIe盘(Mac),移动硬盘(三星,X5,最高2T)内存:32G/64G存储容量:数据库规模2倍以上(便于用 vacuum full)服务

10、器配置:端口转发,DDNS,允许远程访问,最大连接数(具体参见实例)22服务器的外网访问 网络配置:华硕路由器(路由器拨号,配置DDNS、端口转发)网速是命门:OLAP业务模式,需要高流量,尤其是服务器所在网络的上行流量。举例:北京联通,500/1000M宽带,上行流量都是30M(上传速度极值:30/8=3.75M Byte)23数据表的布局及设置 布局:1.注意拆表,在存储空间与表的复杂度之间做权衡2.以一张表为主表,其他表均与该表做联结,避免查询时链式联结一串表 设置1.超大型的表,设置分区,并对SQL语句做包装,简单的增、删、改、查直接操作分区表2.凡是出现在查询语句中的WHERE条件中

11、的字段,均设索引24基于数据库的并行方案1:适用于单台服务器数据表调整设置待计算数据表:增设两列,一列写入序号;一列记录处理状态,标记为(0,1)并行处理流程首次启动阶段:在“待计算数据表”中增设序号列;并增设处理状态列,且写入初始状态0重新启动阶段:无需特别处理计算开始阶段:随机获取多行数据,对其序号(针对并行进程数量)求余,如与进程编号相同,则保留对应数据,并用于后续处理计算阶段:歇着计算结束阶段:写入计算结果,且将对应各行状态修改为1全部结束阶段:删除待计算数据表中的状态列2526 数据表调整设置待计算数据表:增设一列,分组序号分组表:设两列,分组序号、处理状态(0,1,2)并行处理流程

12、首次启动阶段:在“待计算数据表”中增设分组序号列;创建“分组表”,写入分组序号和初始处理状态0重新启动阶段:将“分组表”中所有状态为1的,都改为0计算开始阶段:随机获取分组,并在“分组表”中将该组的状态修改为1计算阶段:歇着计算结束阶段:写入计算结果,而后将该组状态修改为2全部结束阶段:删除“分组表”,删除“待计算数据表”中的分组序号列基于数据库的并行方案2:适用于服务器集群27编程理念:编码过程 先设计,再写代码 基于测试的开发 迭代开发28编程理念:最终代码标准 功能 性能:速度、资源占用与利用率(CPU/GPU,内存,磁盘,IO)风格:提高可读性 设计29码农的基本素养 专注、投入:长期持续投入,短期集中精力于一点 主动性:主动学习,主动解决问题,别当鸵鸟,别绕路 抗挫折、抗压:5分钟写的代码,30分钟查bug;扛过去 精神洁癖:形成正确审美,对代码的要求,要像有精神洁癖 创造性思考:自主思考,给出解决方案30 正则表达式(Regular Expression)Docker,Kubernetes Git(Github,Gitee)TeamViewer几个有用的工具应用场景举例1:裁判文书数据31应用场景举例2:股票论坛数据32应用场景举例3:分钟级股票市场数据3334应用场景举例4:工商数据

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(经济学及金融学实证研究中的大数据处理:基于Python和PostgreSQL(34页).pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部