放牧代码和思想
专注自然语言处理、机器学习算法

关于

算法初心者,海外修业中。

白天生存,晚上生活。

没有任何光鲜的经历,也没有任何过去的回忆。无论是互联网还是现实中,都不会保留任何“过去”的东西。

喜欢有思想深度的事物,讨厌浮躁、拜金与安逸的人。

对外面的世界失去了兴趣,希望一直活在“心境”里。

 

  1. 看了一下博主的一些东西,感觉您真是太牛叉了,c++ java php android 算法都有研究,你的这个网站也做得很好,用了很多网站的API接口,你还写过chrome浏览器插件…..一个语言专业能做到这些真的是大神,我还是计算机专业的,比起来真是相差太远。你可不可以写一遍文章来分享一下您的学习经验啊!

    • 我这网站都是花里胡哨的皮毛罢了,别人做了这么一套api,我就伸手拿过来用了,用完了也就结束了。平时多看看书(学),做做小项目(用)就能轻松掌握了,花不了多少时间。
      数学(算法)和架构(操作系统底层)才是真正牛叉的东西,这方面我简直弱爆了,现在正在往这方面走,不知道能走多远呢,可能得花一辈子。
      我太水了,没有经验,就说上面几句个人看法吧。

      • 说得对。算法方面我也是很欠缺,目前只看了一本数据结构的书,了解广度搜索,深度搜索,递归是怎么调用和返回的。现在我想提高算法方面的能力,请问有什么好的方法或者你就推荐一本书呗

        • 没有什么比亲手写一写进步更快了,特别是刷各大OJ趣味十足啊。看书的话,我推荐Sahni《数据结构算法与应用-C++语言描述》,公式少比较具体。不知道你有没有兴趣刷ACM之类,《挑战编程-程序设计竞赛训练手册》和《挑战程序设计竞赛(第2版)》都很有意思。

  2. あの、こんにちは。

    ここではいろいろ勉強になりまして、本当にありがとうございます。

    ちょっと聞きたいですが、今学んででいるのは日本語なの?

      • 哦,感谢回复。最近我也想用WordPress搭建一个站,一方面可以查看自己记录的文章,另一方面也可以分享出来引起大家探讨共同进步。请问一下这些布局(包括导航条,以及左右布局)都是WP可以提供的吗,还是说得自己写呢?不知道楼主方不方便告诉我,这个网站的布局是怎么一步一步在WP平台下搭建起来的?

        • 当然可以,布局是通过主题实现的,准确来讲是通过CSS控制外观和位置,Php控制内容的。你可以自己写一个主题或者直接改改别人写的现成的,WP中的确有“菜单”“侧边栏”“小工具”的概念,菜单和侧边栏直接用原生的(位置自己控制),小工具继承WP_Widget,WP提供了很多方便的函数,查查官方文档写改一个主题并非难事。

  3. 已将楼主的链接加入到我的wordpress站,来学习学习,最近刚搭成的站 对于读者墙和最近访客,楼主自己写的吗?? 还有,报告一个bug哦,这个评论框是多说的吧,然后,按表情选择的时候,有一部分被掩盖了,右边的分类目录也是……..小小的发现 楼主用一年时间写了这么多文章??

    • 这个是多说自带的,我对前端一知半解。底部栏的z-index是最高的,其他小一些,感谢反馈 。嘛,不过有滚动条还可以忍受。我的博客导入了2010年以前的文章,所以现在看起来很多的样子。

  4. 博主您好!感叹您的才华!
    今有两个问题请教:
    1 在知乎上看到有讲bae不太稳定,不知博主的使用效果如何?目前日ip多少?wordpress开启了哪些耗资源的插件没有?
    2 据说已经备案的网站,当更换空间时需要重新备案,不知是否这样?
    谢谢!

  5. 真佩服博主的毅力。你学习的坚持连我这个计算机专业的人都自愧不如。一般的人只是学来玩玩,没想到你能这么深入。连c++,java都啃。还深入到了算法等应用数学这些高深的东西。真是了不起。看到我要向博主学习了。能不能分享一下您学习的方法?感激不尽!谢谢!

    • 过奖了,我学得比较杂,但是都不深。我也谈不上什么学习方法啦,编程是爱好,打打算法的基本功,一些NLP的模型要用到数学我就学一点,基本上随兴所至吧

  6. 楼主毅力不错呢,看你的进度《挑战程序设计竞赛》现在应该是刚看完第三章在刷背后的习题吧!
    这本书我刚开始五天,我也要把每道题思考敲一遍,向你学习下。

  7. 楼主我是一名计算机专业的学生,看到你的博文之后才发觉自己有多无知,自己有多浮躁,向你学习

  8. 博主,无意间发现你的博客,作为一个计算机专业的研究生我好惭愧,你是怎么做到的,业余兴趣也能做这么棒,赞赞赞

  9. 在本女校还有如此厉害的大神!学长你成为我偶像了!某学英语却想当码农的妹子留…不知道学长对非专业入门有没有什么建议?

    • 学妹说笑了,野路子而已。如果想晚成大器的话,得从C入门然后C++或Java面向对象,内修数据结构算法设计模式,外修操作系统数据库网络,练成软件架构师、算法工程师、系统工程师等。如果时间有限的话,买本HTML、CSS、JavaScript的书,做一名安静的前端工程师也未尝不可~

  10. 博主你好,我照着你的下载编译WebRTC一文,下载了WebRTC,但是最后提示:ImportError: No mudule named gyp_chromium,生成不了工程文件,不知博主有何建议。我看了下载的目录中是有chromium目录的,下载的目录体积有6.06G。而且我反复试过不下10次,每次都是完全重新下载的,都是提示这个错误。所以我想问下你有没有遇到过这个问题,或者对这个问题有没有什么建议。

  11. 女神!!!那篇关于支持AMD的MAC OS虚拟机文章里的“目前最新的OS X Mavericks(10.9版本)VMware镜像 下载地址:百度网盘”能重新补档吗? [太开心] 我还在寻找虚拟机替换内核的方法,因为想用10.10 能指点一下吗?

  12. 现在被 挑战程序设计竞赛 那本书困扰,无意间发现了这里!博主接触计算机多久了啊?很厉害了啊,现在在日本准大二,都一年过去了,除了c语言的一些语法,感觉没什么进步。现在在啃书

    • 《挑战程序设计竞赛》是本好书,不过难度很大,未必适合做算法入门用。我自学有六七年了,不过大部分时间都花在工作生存等琐事上了。语法、语言都是末节,思想才是本质的。你本科能在国外读工科是非常难得的条件,请好好珍惜吧。如果你在东京的话,说不定十月份可以碰到我。

  13. 博主有空的话能写一篇 挑战程序设计竞赛 p68的 多重集组合数 那道例题的说明吗?书上的跳跃幅度太大,今天看了一天还是没明白那个递推式是如何转变的。

  14. 博主佩服佩服···这才发现是一个个人博客。博主加油加油

    想请教博主对于微博爬虫有研究吗?有类似可以直接上手的工具或者代码指导分享供学习一下的吗?

  15. 看完楼主的博客,感觉压力好大啊, 做了十年各种端上的程序, 目前30多岁了,想转行做nlp。
    是不是太晚呢。楼主给个建议吧。

  16. 从我的博客的访问记录点到这里,看了下留言,忍不住惭愧。我一cs的研究生,即将入职的码农,对code的兴趣完全不及楼主的万分之一。。。

  17. 膜拜博主orz……大一菜鸟一枚路过, 搜挑战程序设计题解发现这里的,,居然只是一个个人博客。

  18. 博主,你好,我AMD的本捣鼓苹果系统很久都没成功,看了你的《支持AMD/Intel OS X Mountain Lion 10.8.3 VMware镜像 下载即用》,终于成功了,非常感谢博主!然后,我看到你帖子里的10.9,手痒就下了,但是运行不了,提示:客户机操作系统已禁用 CPU,请关闭或重置虚拟机 请问怎么破?是不是也需要相应的amd-kernel.cmd,我不懂这个,尝试把里面的OS X Mountain Lion.nvram换成OS X Mavericks.nvram,提示:找不到文件-OS X Mavericks.nvram,能帮忙做一个吗?如果可以,就太好了,再次感谢!

  19. 我曾经也有过博主类似的梦想,只不过没有坚持下来,最后来是投奔了美帝。
    兄弟加油!

  20. 你好,我也是一个 程序猿,,,很高兴来到你这,希望 能和你加下友情链接,我的博客:www.liuzk.com

  21. 大神,您好,无意间看到您的这篇博客,内心十分激动,我以前读研究生的时候也是学习自然语言处理的,看了您的这篇文章收益匪浅,我也是一名程序员,热爱技术,崇拜您!

  22. 博主您好,我是江苏省某大学的一名学生。最近在刷POJ。遇到不会的题目经常看您的题解。您是非计算机专业的,算法搞得这么厉害。我也想攻算法,您能否分享一下您是如何从非专业人员到将算法学的如此好呢

    • 你好,1.2.4版中没有问题:
      String text = "嗷嗷嗷嗷~正好防晒霜快完啦快接上嗷嗷嗷嗷~人民的好伙伴啊嗷嗷嗷~";
      System.out.println(HanLP.segment(text));
      输出:
      [嗷嗷/o, 嗷嗷/o, ~/nx, 正好/z, 防晒霜/n, 快/a, 完/v, 啦/y, 快/a, 接/v, 上/f, 嗷嗷/o, 嗷嗷/o, ~/nx, 人民/n, 的/uj, 好/a, 伙伴/n, 啊/y, 嗷嗷/o, 嗷/n, ~/nx]

      我记得1.2.2优化过度,可能产生图不连通的问题。

    • 你好,抱歉现在才看到。我现在这个时间点的兴趣是挑战更复杂的模型,而不是将一个模型应用到特定的领域,不知道能否满足你的项目。

      • 我现在在做的是简历解析引擎,底层用的hannlp的分词和词性识别,再在上层搭建分类等功能,项目测试网站在p.talentbot.cn。现在收到的数据很多都是有缺失的,不好处理,这个在hannlp里是否可以进行预测,对缺失的时间日期地点等补充,

  23. 博主技术的背后是情怀,请教一下,HanLP是否会加情感分析和信息分类的模块,如果有需要的话,我这情感分析词库博主审阅一下

  24. Aho-Corasick算法的Java实现与分析这篇文章建议参考http://www.cnblogs.com/xudong-bupt/p/3433506.html重新写吧,你这个太难理解了

  25. 博主只有在晚上才敲代码吗??这样熬夜第二天身体不会不舒服吗??我也想晚上学习来着,因为比较安静,但是第二天特别不舒服,哪里都是肿的。。

  26. 大神你好,我对NLP很感兴趣,尤其是看了《数学之美》之后,现在在读宗版《统计自然语言处理》,但是迄今都是看到的理论,请问实践写一些关于NLP的东西应该是怎么样个循序渐进的过程呢?哪些地方哪些模型需要我动手写一写加深理解呢?

  27. 你好,我学的时候倒没想那么多,是由需求驱动的,按时间先后写过BiGram、HMM-Viterbi、TextRank、CRF、MaxEnt之类的,也没写出什么新东西。《统计自然语言处理》太偏理论了,我是当成论文目录大全扫一遍的,而且NLP实际上是机器学习的应用,深入模型实现的话可能还是李航老师的《统计学习方法》搭配《机器学习实战》更好。

  28. 大神你好,我最近在用“TextRank关键词提取”,发现还是会提取一些不想要的词,比如我提取的一组词:“汤二至,影子,二月,鞣质,那是”,里面“那是”这个词除去加到停用词里面,可以自定义词性吗,比如我只要词性是n,nr的关键词

  29. 有应用场景,比如做seo优化的,现在很多文章重复度太高,如果文章内容一样就不容易被搜索引擎收录,如果通过同义词修改标题和内容,对内容有所编辑就容易被收录。

  30. clion安装了minGW之后,就是这样,不知道是什么意思。求博主指导。博主有QQ吗?我也是大学生。
    Error:Configuration MinSizeRel
    The C compiler “D:/MinGW/bin/gcc.exe” is not able to compile a simple test program.
    It fails with the following output:
    Change Dir: C:/Users/璧垫櫒瓒�/.CLion12/system/cmake/generated/212b9a/212b9a/MinSizeRel/CMakeFiles/CMakeTmp
    Run Build Command:”D:/MinGW/bin/mingw32-make.exe” “cmTC_20a94/fast”
    D:/MinGW/bin/mingw32-make.exe -f CMakeFilescmTC_20a94.dirbuild.make CMakeFiles/cmTC_20a94.dir/build
    mingw32-make.exe[1]: Entering directory ‘C:/Users/赵晨越/.CLion12/system/cmake/generated/212b9a/212b9a/MinSizeRel/CMakeFiles/CMakeTmp’
    Building C object CMakeFiles/cmTC_20a94.dir/testCCompiler.c.obj
    D:MinGWbingcc.exe -o CMakeFilescmTC_20a94.dirtestCCompiler.c.obj -c C:Users璧垫櫒瓒奬.CLion12systemcmakegenerated212b9a212b9aMinSizeRelCMakeFilesCMakeTmptestCCompiler.c
    gcc.exe: error: C:Users璧垫櫒瓒奬.CLion12systemcmakegenerated212b9a212b9aMinSizeRelCMakeFilesCMakeTmptestCCompiler.c: No such file or directory
    gcc.exe: fatal error: no input files
    compilation terminated.
    CMakeFilescmTC_20a94.dirbuild.make:64: recipe for target ‘CMakeFiles/cmTC_20a94.dir/testCCompiler.c.obj’ failed
    mingw32-make.exe[1]: *** [CMakeFiles/cmTC_20a94.dir/testCCompiler.c.obj] Error 1
    mingw32-make.exe[1]: Leaving directory ‘C:/Users/赵晨越/.CLion12/system/cmake/generated/212b9a/212b9a/MinSizeRel/CMakeFiles/CMakeTmp’
    Makefile:125: recipe for target ‘cmTC_20a94/fast’ failed
    mingw32-make.exe: *** [cmTC_20a94/fast] Error 2
    CMake will not be able to correctly generate this project.

  31. 嗯,比我们很多专业的人还要写的好,确实像是John Carmak的感觉。追随自己的爱好倾尽全力,也喜欢这样追求极致的自己,有空会常来看看的。
    PS:配乐很好听,空之轨迹3rd没有玩过,看着不错,小寺可南子在双星物语2的ボクラの未来也很不错,“広がる空は 仆らを待ってる 未来 眩しくて”~

    • 感谢支持,3rd是三部曲中剧情最佳的一作,如同碧之轨迹的地位一样。双星物语2没有通关,大概主角家乡被烧毁后就中断了,后来不记得前面的剧情了。

  32. 你好,我再用汉字转换成拼音的功能,在本地测试没事,上传到服务器就包这样的异常,我怀疑是不是中文乱码的问题

    java代码:
    HanLP.convertToPinyinString(“你好”, “”, false);

    异常:
    Exception in thread “main” java.lang.ExceptionInInitializerError
    at com.hankcs.hanlp.HanLP.convertToPinyinString(HanLP.java:341)
    at com.uanhao.es.UpLoadMain.getSaveHealth(UpLoadMain.java:147)
    at com.uanhao.es.UpLoadMain.upHealth(UpLoadMain.java:91)
    at com.uanhao.es.UpLoadMain.main(UpLoadMain.java:67)
    Caused by: java.lang.ArrayIndexOutOfBoundsException: 85062
    at com.hankcs.hanlp.utility.ByteUtil.bytesHighFirstToInt(ByteUtil.java:240)
    at com.hankcs.hanlp.corpus.io.ByteArray.nextInt(ByteArray.java:62)
    at com.hankcs.hanlp.dictionary.py.PinyinDictionary.loadDat(PinyinDictionary.java:98)
    at com.hankcs.hanlp.dictionary.py.PinyinDictionary.load(PinyinDictionary.java:56)
    at com.hankcs.hanlp.dictionary.py.PinyinDictionary.(PinyinDictionary.java:41)

  33. 君は凄い 君を見ると自分がどれほど弱いのか自覚しますた もどもどかんばらないとね

  34. 一个线段树去除重叠部分的问题。
    如下代码:
    Trie trie = new Trie();
    trie.addKeyword(“she”);
    trie.addKeyword(“he”);
    trie.addKeyword(“hers”);
    trie.addKeyword(“his”);
    trie.addKeyword(“is”);
    System.out.println(trie.parseText(“uisishers”));
    trie.removeOverlaps();
    System.out.println(trie.parseText(“ushers”));
    给出结果:
    [1:2=is, 3:4=is, 5:6=he, 4:6=she, 5:8=hers]
    [2:5=hers]
    这样的输出结果是正确的吗?

  35. mafling ,我完全同意你说“为啥你会觉得是学姐? = = 妥妥的男生吧?” ,你够敏锐!为啥大部分人都认为上海外语学院是女校? 只不过男的少而已!

    • 之前用Ansj,现刚发现HanLP,还不熟悉,但觉得HanLP非常不错,盼大神提供实现两篇文章相似度的大概思路,感激不尽~

  36. 博主大人,我看了您rfc5766-turn-server和ice4j广域网通讯的帖子,我是在虚拟机ubuntu中配置运行的,我也没有公网IP,用自己电脑PC的IP来配的,在turnserver.conf中加external-ip=172.16.13.84(PC电脑ip)运行不管,改为172.16.13.84:3478也不行,把external-ip=172.16.13.84改为external-ip=192.168.61.129 (ubuntu中ifconfig的ip)还是不行,还有turnserver.conf中每条语句前的#号表示注释符吗?恳请博主大人明示,谢谢!!

  37. 最近开始学习HanLP,感觉好强大,但是可以的话,博主能否分享下model的下载地址?运行CRF分词时出错,尝试按git版本model里的readme.txt步骤未找到model下载地址。

  38. 非常感谢极具分享精神的博主!!!代码也写得真溜!

    我目前在基于博主的代码拓展一些功能,比如像添加歌曲名这样的词性。请问做法是不是应该如下:
    1)在Nature里面添加一个新词性为歌曲名(例:nq)
    2)维护一个歌曲名列表;
    3)对CustomDictionary在应用启动时动态加载好这个歌曲名列表同时标注其词性为nq;
    4)最后对相应的语句分词,获得其中的歌曲名。

  39. 求问一下为什么我用HanLP里面的CRFModel读取Crf++训练出来的模型,计算出来的结果与crf++自带的crf_test算出来的结果不一样呢?crf_test算出来的结果要好和很多,CRFModel算出来的不准?

  40. 聴解ストラテジー(上).pdf
    聴解ストラテジー(上)解答.pdf
    聴解ストラテジー(下).pdf
    聴解ストラテジー(下)解答.pdf

    请问还有这个资源咩?

  41. 像“明天上午九点” 这样的语句分词效果好像很差呢。

    如何把它映射成一个日期呢?

    谢谢~

  42. crf en OT
    + null TH
    + null TH
    是 v TH
    由 p TH
    c en TH
    + null TH
    + null TH
    语言 n TH
    编写 v TH
    的 uj TH
    条件 n TH
    随 v TH
    机场 n TH
    工具 n TH

    在 p OT
    系统 n TH
    主体 n TH
    的 uj TH
    java en TH
    程序 n TH
    中 f TH
    使用 v TH

    敢问博主,像上面的crf模型,该如何解析呢?你集成到HanLP中的模型解析及测试方法,没怎么看懂,能帮帮忙么

  43. 博主您好,请问在 com.hankcs.hanlp.summary.TextRankKeyword第156行 这代码是什么意思?
    m.put(key, m.get(key) + d / size * (score.get(element) == null ? 0 : score.get(element)));

  44. 楼主,你的语料是怎么训练的,为啥我在用CRF++训练2000万行大规模语料的时候中途被中断,不管是windows还是linux下。求教

  45. 楼主,你的语料是怎么训练的,为啥我在用CRF++训练2000万行大规模语料的时候中途被中断,不管是windows还是linux下。求教

我的开源项目

HanLP自然语言处理包基于DoubleArrayTrie的Aho Corasick自动机