总算解决go语言编码问题

本身用golang语言编写的获取网页代码,输出的字节流,使用code.google.com/p/mahonia的话,输出成utf-8是这样的

网页的编码是gbk的话,就要转换了.

laststr:= 获取网页后的字节流
enc:= mahonia.NewDecoder(“gbk”)

fmt.Println(enc.ConvertString(laststr))

假设需要查找字符串的话,原来的字符串也先要转换成utf-8.

enc2:= mahonia.NewEncoder(“UTF-8”)
aa:= enc2.ConvertString(“论坛”)

这样再查找aa, 才会找到的.

要注意的是mahonia.NewDecoder和mahonia.NewEncoder使用场合.

发表在 技术生活 | 留下评论

go语言编码麻烦

刚刚搞定go语言编码问题,麻烦,获取网页,然后根据网页源码的“charset=”字符串来确认编码,然后在使用七牛的iconv模块来转换到utf-8, code.google.com/p/mahonia这模块搞不定转换呢,还有的就是这个iconv模块只能在linux下用,windows不行,至少我的win7不行呢,还是决心搞个go语言的爬虫处理, 为了效率…a

现在正在下载MinGW来试试可不可以用那模块呢.

发表在 一般生活 | 一条评论

gevent还是不够threading来

昨晚改了python爬虫代码使用gevent, 结果今天比较了一下原来的threading线程版,慢很多呢,我的爬虫属于密集型IO模型,又要读mysql数据库,慢了很多呢,完全感觉像个普通循环完成任务一样,算了,继续使用原来的,继续发展go语言版本爬虫吧,不浪费时间在gevent上边了.

发表在 一般生活 | 留下评论

python的gevent好用

今天搞一个代理的python获取程序,由单线程改成异步协程的程序好容易,用上gevent就是了,其实可以改成多线程的,但现在感觉用gevent异步并行来处理也不错啊,速度快了N倍,而且容易改造呢,python真是容易操作啊.

到现在还未弄懂node js的流程控制,还有的就是用做采集的话,居然有些网页获取后输入是空白页面,发觉还是python比较成熟,先处理了现在的工作,再慢慢改造成node js的,这语言是需要学习的啊.

前阵子改成go语言的爬虫还未有完成呢,等有时间再改过去,编译后的性能应该比node js好吧.

发表在 一般生活 | 留下评论

昨晚又出去了

其实应该说晚晚都出去走走,昨晚和那个她一起,在大信新装修的M记吃吃蛋糕和冰沙,无无聊聊的废话,认真无聊啊。

发表在 一般生活 | 留下评论

正在补鞋,yishion以纯的鞋子不怎么样

这个是应该昨天写的文章的,但突然忘记了,所以继续写:正在补鞋,yishion以纯的鞋子不怎么样,猜不到100多元的鞋子,穿了大半年,就穿鞋底了,脚跟那位置破得厉害,相比我那对同样100多元的安踏鞋子,质量简直差得远啊,这鞋子确实不怎么样啊,不过我都决定修补一下,应该还可以再穿一会呢.

yision鞋底

yishion鞋底

yishion鞋底

记得好久之前,穿这样的格子鞋底是很容易脚痛的,应该是承托不平稳吧,看来以纯的鞋子都好山寨啊,还是本来的鞋底的架构是这样呢!以后还是不买这个牌子的鞋子了。

还有我记得,这鞋子曾经特价过,好像卖70元一对呢…
买鞋还是买正统点的牌子好啊.

发表在 一般生活 | 留下评论