程序员的自我修养

Java并发编程学习笔记(1)——线程基础

0条评论1,154次浏览

写在前面

发现现在学Java的,要是对IO、多线程、并发不熟悉都不好意思出去找工作。现在的新技术日新月异,一味的追求新技术不但沉淀不下多少东西,还得迟早累死。当然不是说不用学新技术,能快速掌握新技术毫无疑问可以增加自己的竞争力,但我觉得打好基础才能以不变应万变,也能更加快速的掌握新技术。其实很多新技术,如Hadoop、HBase等都是前人结合自己的经验写出的框架,真正底层的还是那些基础的东西。

IO、多线程、并发毫无疑问是Java基础中的基础。回想自己做过的项目和产品,要么用的SSH架构,要么是Hadoop这样产品,做开发也快3年了,却一直对IO、多线程、并发不了解,现在开始学习并发编程,并写下学习笔记。

线程基础

创建线程

继承Thread父类

阅读全文>>

标签:,

HBase Filter - Dedicated Filters

0条评论1,810次浏览

接着上一篇HBase Filter – Comparision Filters继续进行HBase Filter的学习和了解。Dedicated Filters,专用过滤器,其实现的功能大部分可以通过对Comparision Filters进行一层包装来实现。

数据准备和代码准备同HBase Filter – Comparision Filters

Dedicated Filters(专用过滤器)

SingleColumnValueFilter

代码示例

阅读全文>>

分类:Apache HBase
标签:

HBase Filter - Comparision Filters

0条评论2,192次浏览

HBase的Get和Scan实例可以调用setFilter()来设置过滤器,HBase的过滤器种类繁多,以满足不同的过滤需求。Filter作用于各个RegionServer,通过使用过滤器可以高效的获取数据。HBase Filter主要分为三大类,用户也可以通过继承FilterBase或实现Filter接口来自定义Filter。若需要多个Filter结合使用,可以通过FilterList来满足。

以下主要对各个Filter进行简单的了解。

数据准备

rowkey cf1:col1 cf1:col2 cf2:col1 cf2:col2
101 10086 qwe1 1352288xxxx wer1
102 10000 sdf2 1820160xxxx ert2
103 10001 cxv3 1531308xxxx mnb3
104 12306 jhg4 1387223xxxx kji4
105 12580 nju5 1580101xxxx nbv5

阅读全文>>

分类:Apache HBase
标签:

HBase的一些基础概念

2条评论4,856次浏览

关于HBase MapReduce

正确进行参数传递

MapReduce中传递参数必须通过configuration.set..()一系列函数来设置。如果通过属性来传递参数,那么必然会报空指针的错误。如下为经典错误示例:

运行的结果会是输出10和20吗?单机情况下确实如此,但是若在集群上跑,则会发现a为null,b=0。至于为什么,很简单:集群、分布式、JobTracker、TaskTracker

善用setup()和cleanup()

  • 对于需要传递的参数,最好在setup()中进行初始化,不要在map()中频繁的获取
  • setup()和cleanup()也可以进行输出,输出的内容同样会经过排序,并不会因为从setup()中输出而排在最前面,也不会因为从cleanup()输出而排在最后面

阅读全文>>

分类:Apache HBase
标签:

Win8 Ubuntu 64位双系统安装

1条评论4,808次浏览

Ubuntu下载地址:http://mirrors.163.com/ubuntu-releases/

用到的工具:

第一步 制作启动Ubuntu U盘

  1. 打开UltraISO,点击“文件-打开”,选择下载下来的Ubuntu镜像文件
  2. 点击“启动-写入硬盘镜像...”,选择已插入的U盘,若U盘未格式化过选择格式化
  3. 点击“便携启动-写入新的驱动器引导扇区-Syslinux”,然后一路确定
  4. 若上一步执行不成功说U盘被占用也无所谓,确定确实没有程序占用U盘后,可以直接点击写入
  5. 写入完毕,则制作成功

阅读全文>>

分类:Ubuntu
标签:

Java自动适配读取Hdfs和本地文件

1条评论3,068次浏览

开发MR程序通常是在本地跑local MapReduce进行测试,等测试完毕后则将mapred-site.xml放入src下打包成jar放在集群上进行测试。MR若需要读取文件作为数据源,则FileInputFormat.addInputPath(job, new Path(args[0]) );。但有时会出现需要读取Hdfs文件内容但又不能作为数据源输入的场景,比如写HBase MapReduce的时候,输入数据源为HBase的表,但是需要读取Hdfs上某文件的数据来进行操作。

单纯的读取本地文件内容实现起来十分简单,但读取本地文件内容的代码放在集群上是无法使用的。是否有方法能自动适配本地和集群两种模式下的文件读取?通过查找Hadoop API发现可通过FileSystem来实现。具体实现代码如下:

如是本地测试,项目中不包含mapred-site.xml文件(或将其中集群的配置信息注掉),则根据传入的conf则读取本地的文件;反之,添加mapred-site.xml文件,则读取Hdfs上的文件。本地测试时,getResult(conf, "/home/yurnom/data")将读取本地文件or文件夹/home/yurnom/data下面的内容;集群测试时,getResult(conf, "/home/yurnom/data")将读取hdfs://master:9000/home/yurnom/data文件or文件夹下面的内容。

标签:,

HBase CRUD

0条评论1,588次浏览

连接HBase

Create

进入HBase Shell,scan一下:

HBase写过程

  1. client向region server提交写请求
  2. region server找到目标region
  3. region检查数据是否与schema一致
  4. 如果客户端没有指定版本,则获取当前系统时间作为数据版本
  5. 将更新写入WAL log
  6. 将更新写入Memstore
  7. 判断Memstore的是否需要flush为Store文件

阅读全文>>

分类:Apache HBase
标签:

HBase表结构设计

3条评论8,999次浏览

概念视图与物理视图

BigTable论文HBase官网上的示例

概念视图

Row Key Time Stamp ColumnFamily contents ColumnFamily anchor
"com.cnn.www" t1 anchor:cnnsi.com = "CNN"
"com.cnn.www" t2 anchor:my.look.ca = "CNN.com"
"com.cnn.www" t3 contents:html = "..."
"com.cnn.www" t4 contents:html = "..."
"com.cnn.www" t5 contents:html = "..."

物理视图

ColumnFamily anchor

Row Key Time Stamp Column Family anchor
"com.cnn.www" t1 anchor:cnnsi.com = "CNN"
"com.cnn.www" t2 anchor:my.look.ca = "CNN.com"

阅读全文>>

分类:Apache HBase
标签:

Lombok

0条评论4,307次浏览

简介

通过注解形式帮助生成常用的getter、setter等方法,在消除冗长的Java代码上有不错的效果。而且,看起来比较炫酷。

lombok官方网址

原理

没有看过源码,不过想必是通过asm来操控字节码实现的。

对字节码感兴趣的同学可以看看

安装

  • 为何要安装

为了IDE的支持,不然IDE可不知道相应的显示setter、getter方法,编译的时候也不会调用lombok。

  • 安装方式

不同的IDE安装方式不同,详见官网。

此外,我在IntelliJ Idea上安装使用lombok时遇到了一个比较头疼的问题:安装成功了但编译出来的.class文件中却没有相应的方法。若你也遇到了这样的问题,详见

阅读全文>>

分类:Java语言
标签:,

关于Apache Pig

0条评论4,840次浏览

网上关于介绍pig、安装Pig以及pig原理的文章够多了。以下记录一些入门时遇到的一些问题,算是一些实战经验吧。

关于脏数据过滤

Pig除了用FILTER进行按条件过滤数据以外,还有一种脏数据无法处理。如,我的数据共29个字段,以“,”分隔。现在有一部分的数据,缺失了部分字段,导致以“,”分隔后,数组长度小于29。因为不知道到底缺失的是哪个字段,这样的数据已经毫无意义。在Pig中如何过滤掉呢?翻遍了Pig的Document,去各种社区提问也没人能回答。最后尽然在FAQ中看到了答案,可以用ARTIY(*)来进行过滤。如:

关于PigStorage

PigStorage可以自定义分隔符,如PigStorage(','),PigStorage('|')。但上次遇到一个奇葩的csv文件,里面的所有数据全部加上的引号,导致数据大小直接变大了1倍不说,而且以','分隔后的数据全部是"1352288xxxx"这样带着引号无法转换为chararray以外类型的数据。数据样例:

"1","2","3","4"

后来想尝试使用'\",\"'来进行分隔,然后对第一个和最后一个字段进行SUBSTRING处理,结果却报错了。具体错误没保存下来,意思好像是PigStorage只能以char为分隔符。

无奈,只能用shell命令替换掉所有的引号再进行下一步处理。

遇到这样的文件,除了祈祷文件不要太大以外,最好的处理方式是给数据发送方上一课。you see see your po data!!!

阅读全文>>

分类:Apache Pig
标签:
profile
  • 文章总数:81篇
  • 评论总数:247条
  • 分类总数:32个
  • 标签总数:45个
  • 运行时间:1250天

大家好,欢迎来到selfup.cn。

这不是一个只谈技术的博客,这里记录我成长的点点滴滴,coding、riding and everthing!

最新评论
  • Anonymous: :?: :razz: :sad:
  • Anonymous: 牛
  • Anonymous: 楼主你好,我偶尔也会 遇到Reconnect due to socket error: java.nio.channels.ClosedCha...
  • Anonymous: sdfs
  • Anonymous: :arrow: :neutral: :cry:
  • Anonymous: java.io.NotSerializableExcepti on: DStream checkpointing has been enabled but the DStreams with their...
  • wick: HI,请问一下,U,S,V得到 ,怎么得到近似矩阵 (用spark java),谢谢。
  • Michael Whitaker: Thank you for this blog, it was very helpful in troubleshooting my own issues. It seems that no...
  • Anonymous: :mad:
  • Anonymous: :???:
  • Anonymous: :mad: :mad: :mad:
  • 洋流: 哥们,我问个问题,你 把testOnborrow去掉了。。 如果得到的jedis资源...
  • 洋流: 哥们,我问个问题,你 把testOnborrow去掉了。。 如果得到的jedis资源...
  • Anonymous: :razz: :evil: :grin:
  • 张瑞昌: 有很多,比较常见的是 Jacob迭代法,一次迭代O (n^3),迭代次数不清楚 ...
  • Anonymous: :mrgreen:
  • lc277: 你好 我想问下一般删除节点 要多久,要删除的datano de大概用了1t,解除...
  • Anonymous: 你好 我想问下一般删除节点 要多久,要删除的datano de大概用了1t,解除...
  • Anonymous: :smile: :grin: :eek:
  • 李雪璇: 想要完整代码,可以帮 忙发给我吗