程序员的自我修养
Home » 分类目录 » Java语言

gc老生常谈

0条评论1,511次浏览

算是笔记吧。看了很多次的jvm、gc,但都没记住。这次遇到了自己写得线上服务出现了oom+死锁+频繁full gc(扶额),总算是记住了jvm和gc的基础知识。也是醉了。

jvm模型

主要分3个模块吧:堆、栈、本地方法栈。

堆=young(eden + survivor(from + to)) + tenured + permanent,也有说permanent不属于堆的,不过从gc日志来看我更倾向前者,但从gc参数来看应该是后者。

结合java8的gc来看:

young

par new generation就是新生代young,其大小等于eden区+from/to区,注意这里不是eden+from+to。为什么呢?因为你永远不能同时使用from和to。eden、from和to的比例默认是8:1:1,可以通过参数-XX:SurvivorRatio调节。

新对象的分配发生eden区域内,当新对象(非大对象)无法在该区域分配时便引发Minor GC。大对象放不下的时候直接去tenured区分配。Minor GC就是将eden+from/to的存活对象copy到to/from中去,顺带存活了若干次的会放到tenured区,而且放不下的也会去old区。
(更多…)

分类:Java语言
标签:,

mapreduce二次排序

0条评论1,085次浏览

之前离职的哥们的mr任务留了一堆的坑,他把value当成排序过的,于是reduce里面全部是如此统计dau、设备数的:

心好累,手动微笑。

正所谓前人挖坑后人填,我不入地狱谁入地狱。于是开始一个个mr的改代码。

方法一:用set统计

用set的好处就是改动极小,但存在oom的风险。实际跑了下线上的数据,果然oom了。摔!

方法二:bloom filter

好处是改动也不大,也不会oom,但就统计的结果可能会比实际的值要小。考虑到数据量也没有大到要用bloom filter的地步,且希望数据尽量的精准,放弃!

方法三:mr二次排序

(更多…)

标签:,

战5渣系列——还是String的split方法

3条评论5,688次浏览

发现最近弱爆了,说多了都是泪,不想说了,因为我是战5渣。

背景简介

今天写MR程序发现一直报数组越界的错误。这么简单的异常还不是分分钟解决?结果,恩,改了10次以后,发现还是不对。具体出错的代码已经可以确定,如下:

原因排查

显然单纯的看代码是没有问题的,结合具体的数据才可能出错,比如分隔后的数组长度不到4——这是我的第一反应。更准确的说,是我编码的时候就想到了,所以采用了value.toString().split("\t",4)这个方法。根据我的第一篇博文中记录的经验,String的split方法会将数组后面为空的字符串截取掉,需要采用split(String regex, int limit)方法才能正确的获取到想要的长度。

所以若是经验正确无误,那怎么也不会报数组越界的错误吧,顶多会在parseLong的地方报无法转换的错。但事实就是一直报数据越界的错误,改了10次其它地方都无果。
(更多…)

分类:Java语言, 战5渣
标签:,

LeetCode编程练习(2)

7条评论10,058次浏览

Max Points on a Line

题目

Given n points on a 2D plane, find the maximum number of points that lie on the same straight line.

答案

思路:时间复杂度O(n^3)的情况下是肯定可以算出结果的,那么意味着通过空间换时间应该是可以让时间复杂度达到O(n^2),这是我自己发明的定律。首先定义静态内部类Line,用于表示两点计算出来的直线,考虑到Double类型的精度损失问题,Line采用三个属性来保证精度上的完整性。然后重写hashCode()equals(..)方法,使得同一条直线相等,且在Hash值上相等。如此通过2个 \(n(n-1)\over 2\) 次循环即可获取到结果,时间复杂度为O(n^2)。
(更多…)

分类:Java语言
标签:,

LeetCode编程练习(1)

1条评论10,851次浏览

看到Leetcode 编程训练这篇文章,于是也开始尝试扫题。上面的题目基本是毫无实际用处的,但是训练下编程还是可以的。做题过程中感受到了一些平常没有的感觉(不要问我是不是查克拉流动的感觉,我还没具体的感受到),反正感觉应该对自己挺有用的。不过,也出现了很多让人想吐槽的bug(或者是我太弱了,还无法理解原因)。

Min Stack

题目

Design a stack that supports push, pop, top, and retrieving the minimum element in constant time.

  • push(x) -- Push element x onto stack.
  • pop() -- Removes the element on top of the stack.
  • top() -- Get the top element.
  • getMin() -- Retrieve the minimum element in the stack.

答案V1

采用一个TreeMap来保证随时可以获取到最小值(好处是最大值也能获取到,虽然题目中没有这个要求),提交答案后得到结果:Memory Limit Exceeded
(更多…)

分类:Java语言
标签:,

设计模式之命令模式

0条评论1,582次浏览

命令模式算是我在过往项目中除了单例模式模版模式等简单的模式以外用的最频繁的一个设计模式。

个人感觉命令模式的魅力就在于把一个个request封装成一个个的object,非常方便扩展。命令模式类似Javascript中的回调函数一样,可以进行callback处理。当然最大的缺点就是当request过多时,Command类也会膨胀的厉害。

最近编码时想用命令模式,看书复习了下,却总感觉书上讲的没有我以前设计的一个命名模式框架好用。经过翻箱倒柜终于找出了以前设计的命令模式,这里记录下,方便以后使用。

Command接口

不再使用抽象类,改用接口。同样只有一个execute(..)方法,但需要传递一个Context上下文类。

Context类

Context类可以处理很多事情,比如类似SpringContext,比如结合策略模式状态模式等,可以根据具体的需求来实现不同的Context类。

阅读全文>>

标签:

一个简单的OO问题

0条评论1,865次浏览

问题

一个同事发来的题目:学校有三种人员,第一种为教师,属性包括名字、教工号、电话、地址;第二种为学生,属性包括名字、学号、电话、地址、平均成绩;第三种为辅工,属性包括名字、辅工号、电话、地址、工种。使用你学到的面向对象设计的方法,实现这三种人员的类表示,并实现三种人员的添加、修改、删除,可在内存进行增删改的操作,不需要永久保存。

注,可使用List保存人员,如没有使用OO设计方法,本期作业不通过,仅使用类不是OO设计。

答案v1

大致扫了一眼题目,是一个简单的OO设计问题。于是第一版答案很快出来了。

抽象父类Staff

阅读全文>>

标签:, ,

MapReduce库类

0条评论2,001次浏览

FieldSelection

FieldSelection包含FieldSelectionMapper、FieldSelectionReducer和FieldSelectionHelper,根据字面意思就可以了解其作用:用于选择field。直接上示例:

测试数据

代码示例

其中第三行用于选择输出的field。冒号之前的为key的field,之后为value的field。"0,3:1,2,4-"的意思为:选择第1、4列为key,选择第2、3、5及其以后的列为value。此外还可以使用类似“4-7”这样的方式来选择一个范围。为了直观的区分key和value,第五行将key和value的分隔符设置为“|”。

阅读全文>>

标签:,

Trie树

0条评论4,293次浏览

前几天与学弟聊到他最近的面试题中有一题需要计算两个字符串的最长公共子字符串。当时想到了KMP算法可能可以解决,但仔细想想可能是个比较复杂的任务。后来在网上看到有不少人说用trie树来解决。然后我就糊涂了,记忆中trie树貌似只能解决最长公共前缀的问题吧。于是复习一遍Trie树。

简介

Trie树百度百科解释如下:又称单词查找树,字典树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希表高。

Trie树的直观结构如图所示:
trie tree

图中红色的点代表此处有字符串在此结束,上图中共有7个字符串:abc、abcd、abd、b、bcd、efg、hij(百科中的图,空白边就算作j好了)。

Trie树的使用场景

  • 字符串检索,词频统计,搜索引擎的热门查询。
  • 字符串最长公共前缀。
  • 字符串排序。
  • 作为其他数据结构和算法的辅助结构,如后缀树,AC自动机等。

至于“计算两个字符串的最长公共子字符串”这样的需求无法采用trie树实现,就算能实现也需要大量的改变。

阅读全文>>

标签:,

Levenshtein距离

0条评论2,442次浏览

Levenshtein距离,又称为编辑距离,或者成为字符串相似度,意思是一个字符串转换为另一个字符串所需要的最小编辑次数。编辑包含:插入、删除和替换三种操作。例如字符串:yurnom和yunum的编辑距离为2,因为需要插入一个r和将u替换为o两次操作。

Levenshtein算法由俄罗斯科学家Vladimir Levenshtein在1965年提出,该算法现在广泛用于DNA匹配、字符串纠错、实体共指等领域。

算法简介

将2个字符串转换为一个矩阵,为了简单起见,采用字符串heqi和hoi。转换后进行初始化,如下所示:

h e q i
0 1 2 3 4
h 1 A
o 2
i 3

其中数字部分为初始化的值,现计算绿色格子A处的值,其算法为:

  1. 若A所对应的两个字符相同,则左上角蓝色格子的值+0,否则+1,结果记为R1
  2. 选取上方和左方紫色格子中较小的值,并+1,结果记为R2
  3. 选取R1和R2中的较小值为绿色格子A处的值

经过计算可以得出A处的值为0,当A处计算完毕后,其右方和下方的值可以接着进行计算了,如此整个矩阵的值将可全部计算出来。最后矩阵右下方红色格子的值即为两个字符串的编辑距离。

至于为何左方和上方的值加1、左上角的值根据不同的情况加0或1的原因(也就是这么算的原理)比较简单,在此不再详述。

阅读全文>>

标签:,
212
profile
  • 文章总数:81篇
  • 评论总数:247条
  • 分类总数:32个
  • 标签总数:45个
  • 运行时间:1250天

大家好,欢迎来到selfup.cn。

这不是一个只谈技术的博客,这里记录我成长的点点滴滴,coding、riding and everthing!

最新评论
  • Anonymous: :?: :razz: :sad:
  • Anonymous: 牛
  • Anonymous: 楼主你好,我偶尔也会 遇到Reconnect due to socket error: java.nio.channels.ClosedCha...
  • Anonymous: sdfs
  • Anonymous: :arrow: :neutral: :cry:
  • Anonymous: java.io.NotSerializableExcepti on: DStream checkpointing has been enabled but the DStreams with their...
  • wick: HI,请问一下,U,S,V得到 ,怎么得到近似矩阵 (用spark java),谢谢。
  • Michael Whitaker: Thank you for this blog, it was very helpful in troubleshooting my own issues. It seems that no...
  • Anonymous: :mad:
  • Anonymous: :???:
  • Anonymous: :mad: :mad: :mad:
  • 洋流: 哥们,我问个问题,你 把testOnborrow去掉了。。 如果得到的jedis资源...
  • 洋流: 哥们,我问个问题,你 把testOnborrow去掉了。。 如果得到的jedis资源...
  • Anonymous: :razz: :evil: :grin:
  • 张瑞昌: 有很多,比较常见的是 Jacob迭代法,一次迭代O (n^3),迭代次数不清楚 ...
  • Anonymous: :mrgreen:
  • lc277: 你好 我想问下一般删除节点 要多久,要删除的datano de大概用了1t,解除...
  • Anonymous: 你好 我想问下一般删除节点 要多久,要删除的datano de大概用了1t,解除...
  • Anonymous: :smile: :grin: :eek:
  • 李雪璇: 想要完整代码,可以帮 忙发给我吗