经济学及金融学实证研究中的大数据处理：基于Python和PostgreSQL（34页）.pdf

编号：86241

PDF 34页 2MB 下载积分：VIP专享

下载报告请您先登录！

经济学及金融学实证研究中的大数据处理：基于Python和PostgreSQL（34页）.pdf

1、并行大数据处理：基于Python、PostgreSQL及其他预计：2022年出版；前期视频课程2022年1月上线B站账号：山人一枚也站账号：山人一枚也目录C O N T E N T S01实证研究中的大数据化B i gD a t ai nE m p i r i c a lR e s e a r c h02为何选择Python&PostgreSQLW h yP y t h o n&P o s t g r e S Q L03服务器配置S e r v e rC o n f i g u r a t i o n04并行计算方案P a r a l l e lC o m p u t i n gS o l

2、u t i o n s05应用举例A p p l i c a t i o ne x a m p l e s4“经济学-金融学”-科学研究的普遍规律科学研究的目标齐一性的解释：表象-意志简单-普遍科学革命的结构：范式转换科学革命的结构托马斯.库恩科学与假设庞加莱（Poincare；中译别名：彭家勒）方法，主题？56目标解释（理论），预测（实务，如量化投资）数据宏观-微观，低频-高频结构化-非结构化方法因果推断，结构方程，机器学习（实证）优化-动力系统-线性展开-校准（理论）结构各类“经济学-金融学”主题乃至“社会学-政治学-法学-心理学”主题“经济学-金融学”-“主题导向研究”的典型范式7

3、领域的“可理论化程度”是否存在统一、完备结构？是长成一颗树？还是一片草？论文所在“节点”根部-主干-分枝-叶-叶上的灰“经济学-金融学”-“结构”分布8 顶端：“意志”，最具一般性（普适、持续）的抽象事实和结构中部：蕴于数据中的重要、典型事实底部数据之后，纷繁复杂到并非一猜就准的个体、组织真实行为（机制，及竞争性解释之源；需去了解、核实，跟实务人士畅聊）“经济学-金融学”实证研究的抽象阶梯9 论文工作节点：想法-数据-回归-文字-销售单干：全程靠自己，一个人活得像一支队伍师生师：想法，文字打磨，销售生：数据，回归，文字初稿外部合作上游：数据中游：回归，文字初稿下游：文字打磨，销售“

4、经济学-金融学”实证研究的生态系统10 经济学Raj Chetty(美国Internal Revenue Service全量数据)金融学张晓燕（上交所账户级数据）James Simons（文艺复兴基金）国内量化私募机构：幻方、明汯“经济学-金融学”大数据实证研究的榜样11 早期数据宏观及个人微观：宏观数据，微观调查数据，人口普查与抽样调查数据企业微观：工业企业数据库，海关数据库，专利数据库经济史：CHGIS，CBDB，方志数据新兴数据裁判文书数据：10000W+工商企业数据：10000W+招聘网站简历数据：3000W+“经济学”实证研究中的大数据化“金融学”实证研究中的大数据化早期数据上市

5、公司财务数据股票交易日数据（国泰安、万德、同花顺）新兴数据网贷平台借贷数据（人人贷，已泛滥矣）分钟级、三秒级，乃至逐笔的股票成交、委托数据股票论坛帖子及评论数据（股吧、雪球）27000W+/70000W+1213“经济学”-“金融学”大数据的特点规模庞大：动辄100G+，甚至Tb+结构复杂：变量（字段）多，有多张表形式非规范：文本、空间地理、网页、JSON 多来源关联所涉主题广泛为何要学“Python+PostgreSQL”？前提：拥抱超大规模数据，是个人成长之需要，也是范式转换之必然艰难而耗时的任务：数据处理专用工具不敷用：各种现有工具，多为数据分析而生，不适合数据处理（缝缝补补易

6、，改头换面难）目标：扩展研究主题的范围；提高数据处理效率1415 早期：机器码-汇编-Fortran 多种范式：面向过程、面向对象、函数式编程走向高级语言：底层逻辑自动化，提高编码效率多进程：自带多进程新希望：Julia(2012)，Kotlin(2011,2016),Rust(2015)，Golang(2009)编程语言的发展简史16为何选Python(1994;Java,1996;JavaScript,1996)语言设计合理：面向对象、具有多态和动态特性庞大社区资源：爬虫，requests,urllib,BeautifulSoup4数据分析，numpy,Pandas可视化，matp

7、lotlib,Seaborn,plotly建网站，Django机器学习，Scikit-Learn,TensorFlow,Pytorch数值模拟与优化，Scipy，cvxpy公式推导，sympy 高度流行：辛苦一个月，安心用十年！17 Python版本：Python3（尽量选最新版，性能有改进）编程环境（IDE）：选Anaconda用里面的Jupyter Notebook 和 Spyder(写短代码）（写长代码）（其他备选工具：Pycharm,VsCode）Python版本与编程环境选择18 可管理超大规模数据：Tb甚至更高级别，也轻松搞定更合理的安排数据：分表存储，通过表连接实现关联查询降

8、低数据分析代码复杂度：存储数据与分析数据同构便于并行处理：数据量大时，可通过并行提速为何用数据库19 概念模型：网络型关系型对象型文档型图数据库基本概念：事务（Transaction）Atomic-Consistency-Isolation-Duration,ACIDTuple-Page-Table-Schema-Database-Server-Machine 节点分布：单节点（单体）分布式业务类型：OLTP OLAP HTAP数据库发展简史为何选PostgreSQL 简单易用，稳定，性能优越，版本迭代快扩展性好：地理数据，PostGIS（用QGIS作为图形化工具）时序数据，TimeS

9、caleDB,InfluxDB(排第一）分析型分布式，GreenPlum 纯正开源，社区强大2021PostgreSQL安装环境选择 Windows：PostgreSQL（服务器）+pgAdmin（图形化管理工具）MacOS：PostgreSQL.app +pgAdmin Docker：官方镜像+pgAdmin Python包（连库工具）：psycopg2,sqlalchemy服务器配置业务类型：OLAP(OLTP OLAP HTAP)硬件要求：I/O：PCIe盘（Mac），移动硬盘（三星，X5，最高2T）内存：32G/64G存储容量：数据库规模2倍以上（便于用 vacuum full）服务

10、器配置：端口转发，DDNS，允许远程访问，最大连接数（具体参见实例）22服务器的外网访问网络配置：华硕路由器（路由器拨号，配置DDNS、端口转发）网速是命门：OLAP业务模式，需要高流量，尤其是服务器所在网络的上行流量。举例：北京联通，500/1000M宽带，上行流量都是30M（上传速度极值：30/8=3.75M Byte）23数据表的布局及设置布局：1.注意拆表，在存储空间与表的复杂度之间做权衡2.以一张表为主表，其他表均与该表做联结，避免查询时链式联结一串表设置1.超大型的表，设置分区，并对SQL语句做包装，简单的增、删、改、查直接操作分区表2.凡是出现在查询语句中的WHERE条件中

11、的字段，均设索引24基于数据库的并行方案1：适用于单台服务器数据表调整设置待计算数据表：增设两列，一列写入序号；一列记录处理状态，标记为（0，1）并行处理流程首次启动阶段：在“待计算数据表”中增设序号列；并增设处理状态列，且写入初始状态0重新启动阶段：无需特别处理计算开始阶段：随机获取多行数据，对其序号（针对并行进程数量）求余，如与进程编号相同，则保留对应数据，并用于后续处理计算阶段：歇着计算结束阶段：写入计算结果，且将对应各行状态修改为1全部结束阶段：删除待计算数据表中的状态列2526 数据表调整设置待计算数据表：增设一列，分组序号分组表：设两列，分组序号、处理状态（0，1，2）并行处理流程

12、首次启动阶段：在“待计算数据表”中增设分组序号列；创建“分组表”，写入分组序号和初始处理状态0重新启动阶段：将“分组表”中所有状态为1的，都改为0计算开始阶段：随机获取分组，并在“分组表”中将该组的状态修改为1计算阶段：歇着计算结束阶段：写入计算结果，而后将该组状态修改为2全部结束阶段：删除“分组表”，删除“待计算数据表”中的分组序号列基于数据库的并行方案2：适用于服务器集群27编程理念：编码过程先设计，再写代码基于测试的开发迭代开发28编程理念：最终代码标准功能性能：速度、资源占用与利用率（CPU/GPU，内存，磁盘，IO）风格：提高可读性设计29码农的基本素养专注、投入：长期持续投入，短期集中精力于一点主动性：主动学习，主动解决问题，别当鸵鸟，别绕路抗挫折、抗压：5分钟写的代码，30分钟查bug；扛过去精神洁癖：形成正确审美，对代码的要求，要像有精神洁癖创造性思考：自主思考，给出解决方案30 正则表达式（Regular Expression）Docker，Kubernetes Git(Github,Gitee)TeamViewer几个有用的工具应用场景举例1：裁判文书数据31应用场景举例2：股票论坛数据32应用场景举例3：分钟级股票市场数据3334应用场景举例4：工商数据

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（经济学及金融学实证研究中的大数据处理：基于Python和PostgreSQL（34页）.pdf）为本站（云闲）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。