SparkSQL(Spark用于处理结构化数据的模块) 通过SparkSQL导入的数据可以来自MySQL数据库、Json数据、Csv数据等,通过load这些数据可以对其做一系列计算 下面通过程序代码来详细查看SparkSQL导入数据并写...
阅读(8) 评论(0)
当对同一个rdd多次执行action时,如果在磁盘上则每次执行action都会从磁盘将数据加载,如果将其缓存到内存中会提高再次action的读取速度,Spark缓存主要有cache()和persist()两种,当缓存一个rdd时,每一个...
阅读(17) 评论(0)
groupByKey把相同的key的数据分组到一个集合序列当中: [("hello",1), ("world",1), ("hello",1), ("fly",1), ("hello",1), ("world",1)] --> [...
阅读(7) 评论(0)
1.安装项目环境 系统环境:ubuntu16.04 python环境:python3.5.2 Django版本:django1.11.7 nginx环境:nginx_1.10.3 虚拟环境:virtualenv15.1.0 uwsgi版...
阅读(17) 评论(0)
 python中ThreadPoolExecutor(线程池)与ProcessPoolExecutor(进程池)都是concurrent.futures模块下的,主线程(或进程)中可以获取某一个线程(进程)执行的状态或者某一个...
阅读(14) 评论(0)
线程执行 join与setDaemon 子线程在主线程运行结束后,会继续执行完,如果给子线程设置为守护线程(setDaemon=True),主线程运行结束子线程即结束; 如果join()线程,那么主线程会等待子线程执行完再执行。 &nb...
阅读(9) 评论(0)
元类(metaclass) 简单地说,元类就是一个能创建类的类,而类class 是由type创建的,class可以创建对象 type与object的关系详见:python中type和object 1.type动态创建类: def __...
阅读(21) 评论(0)
python的requests库是一个非常强大的库,requests的安装方法十分简单,用: pip install requests 即可安装requests,安装成功后: import requests 即可导入reques...
阅读(102) 评论(0)
快一年没更新博客了,现在总结一下这大半年来研究、学习的知识。 这个爬虫项目是去年4、5月份做的,主要技术是BeautifulSoup、select、requests、MongoDB、highchart 首先,我们登陆赶集网可以看到二手商...
阅读(70) 评论(0)
1.Spark Streaming是什么 Spark Streaming是在Spark上建立的可扩展的高吞吐量实时处理流数据的框架,数据可以是来自多种不同的源,例如kafka,Flume,Twitter,ZeroMQ或者TCP Soc...
阅读(101) 评论(0)
首先介绍阻塞与非阻塞:阻塞是个什么概念呢?比如某个时候你在等快递,但是你不知道快递什么时候过来,而且你没有别的事可以干(或者说接下来的事要等快递来了才能做);那么你可以去睡觉了,因为你知道快递把货送来时一定会给你打个电话(假定一定能...
阅读(96) 评论(0)
转载或借鉴请注明转自 http://www.cnblogs.com/FG123/p/5101733.html  谢谢! 1.安装Spark之前需要先安装Java,Scala及Python(个人喜欢用pys...
阅读(95) 评论(0)
---恢复内容开始--- 通过面向对象的方法实现多线程,其核心是继承threading.Thread类。我们自己定义了一个类BoothThread, 这个类继承自thread.Threading类,通过修改Thread类的run()方...
阅读(82) 评论(0)
我们使用mutex(Python中的Lock类对象)来实现线程的同步: lock.acquire() 相当于P操作,得到一个锁,lock.release()相当于V操作,释放一个锁 1 # -*- coding: cp936...
阅读(104) 评论(0)