From 91a102802e101dd2d82867d425c3cbc76200d9cf Mon Sep 17 00:00:00 2001 From: Memect Date: Thu, 31 Jul 2014 01:17:42 -0700 Subject: [PATCH 001/485] Update README.md --- README.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/README.md b/README.md index 49ff6bb..c9210f5 100644 --- a/README.md +++ b/README.md @@ -21,6 +21,8 @@ ## 最近的问答 +* 知识图谱的构建离不开人的参与,众包作为一种新兴的方式来获取廉价的标注,评测甚至群体智慧会发挥越来越重要的作用。国内这领域的权威专家 @昊奋 推荐了一组必读文章,有概述、医疗领域知识库众包、众包的链接数据管理、概率推理和众包结合、考虑用户模式的众包、实体链接的众包 http://t.cn/RPI33jW [ [微博](http://www.weibo.com/5220650532/Bg7zDv1UR) ] + * 2014-07-31 @认知计算_Watson 推荐IBM Watson系统最新的介绍文章:Watson在医疗的应用,Watson中的关系提取,多尺度流形学习(Manifold Learning)方法 http://t.cn/RPIxcVY [流形学习两篇文章也供@uso小驴酱 参考] 大数据专区现在有93篇Watson的论文和报导。http://t.cn/RPIxcVl [ [讨论](https://github.com/memect/hao/issues/26) ] [ [微博](http://www.weibo.com/5220650532/Bg4PA3tOC) ] * 2014-07-30 @noavailableAccount 问:**有没有KVM(kernel-based Virtual Machine)的学习资料** 答:http://t.cn/RPfGM0H 有个cmu课程(24~27)覆盖了虚拟化的重要文献。最相关的有两篇经典论文;几个幻灯片与短教程;一个英文社区。几个中文博客的对比类概述。还有一本国内风评不错的教科书 [ [讨论](https://github.com/memect/hao/issues/21) ] [ [微博](http://www.weibo.com/5220650532/BfW1Su1ou) ] From 82013968aee1d7eff0ef1c2e2fc5dd4811aa22b6 Mon Sep 17 00:00:00 2001 From: Memect Date: Thu, 31 Jul 2014 01:18:24 -0700 Subject: [PATCH 002/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index c9210f5..8028901 100644 --- a/README.md +++ b/README.md @@ -21,7 +21,7 @@ ## 最近的问答 -* 知识图谱的构建离不开人的参与,众包作为一种新兴的方式来获取廉价的标注,评测甚至群体智慧会发挥越来越重要的作用。国内这领域的权威专家 @昊奋 推荐了一组必读文章,有概述、医疗领域知识库众包、众包的链接数据管理、概率推理和众包结合、考虑用户模式的众包、实体链接的众包 http://t.cn/RPI33jW [ [微博](http://www.weibo.com/5220650532/Bg7zDv1UR) ] +* 2014-07-31 **知识图谱的构建离不开人的参与,众包**作为一种新兴的方式来获取廉价的标注,评测甚至群体智慧会发挥越来越重要的作用。国内这领域的权威专家 @昊奋 推荐了一组必读文章,有概述、医疗领域知识库众包、众包的链接数据管理、概率推理和众包结合、考虑用户模式的众包、实体链接的众包 http://t.cn/RPI33jW [ [微博](http://www.weibo.com/5220650532/Bg7zDv1UR) ] * 2014-07-31 @认知计算_Watson 推荐IBM Watson系统最新的介绍文章:Watson在医疗的应用,Watson中的关系提取,多尺度流形学习(Manifold Learning)方法 http://t.cn/RPIxcVY [流形学习两篇文章也供@uso小驴酱 参考] 大数据专区现在有93篇Watson的论文和报导。http://t.cn/RPIxcVl [ [讨论](https://github.com/memect/hao/issues/26) ] [ [微博](http://www.weibo.com/5220650532/Bg4PA3tOC) ] From e43486f5319026cf2a079834a392e9a18d0bea8c Mon Sep 17 00:00:00 2001 From: Memect Date: Thu, 31 Jul 2014 01:20:28 -0700 Subject: [PATCH 003/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 8028901..6e07cba 100644 --- a/README.md +++ b/README.md @@ -23,7 +23,7 @@ * 2014-07-31 **知识图谱的构建离不开人的参与,众包**作为一种新兴的方式来获取廉价的标注,评测甚至群体智慧会发挥越来越重要的作用。国内这领域的权威专家 @昊奋 推荐了一组必读文章,有概述、医疗领域知识库众包、众包的链接数据管理、概率推理和众包结合、考虑用户模式的众包、实体链接的众包 http://t.cn/RPI33jW [ [微博](http://www.weibo.com/5220650532/Bg7zDv1UR) ] -* 2014-07-31 @认知计算_Watson 推荐IBM Watson系统最新的介绍文章:Watson在医疗的应用,Watson中的关系提取,多尺度流形学习(Manifold Learning)方法 http://t.cn/RPIxcVY [流形学习两篇文章也供@uso小驴酱 参考] 大数据专区现在有93篇Watson的论文和报导。http://t.cn/RPIxcVl [ [讨论](https://github.com/memect/hao/issues/26) ] [ [微博](http://www.weibo.com/5220650532/Bg4PA3tOC) ] +* 2014-07-31 @认知计算_Watson 推荐**IBM Watson系统最新**的介绍文章:Watson在医疗的应用,Watson中的关系提取,多尺度流形学习(Manifold Learning)方法 http://t.cn/RPIxcVY [流形学习两篇文章也供@uso小驴酱 参考] 大数据专区现在有93篇Watson的论文和报导。http://t.cn/RPIxcVl [ [讨论](https://github.com/memect/hao/issues/26) ] [ [微博](http://www.weibo.com/5220650532/Bg4PA3tOC) ] * 2014-07-30 @noavailableAccount 问:**有没有KVM(kernel-based Virtual Machine)的学习资料** 答:http://t.cn/RPfGM0H 有个cmu课程(24~27)覆盖了虚拟化的重要文献。最相关的有两篇经典论文;几个幻灯片与短教程;一个英文社区。几个中文博客的对比类概述。还有一本国内风评不错的教科书 [ [讨论](https://github.com/memect/hao/issues/21) ] [ [微博](http://www.weibo.com/5220650532/BfW1Su1ou) ] From ada3b4e2365c90e125c007858e03d437390caf38 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 31 Jul 2014 15:44:55 -0700 Subject: [PATCH 004/485] Update README.md --- README.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/README.md b/README.md index 6e07cba..74514f2 100644 --- a/README.md +++ b/README.md @@ -21,6 +21,8 @@ ## 最近的问答 +* 2014-08-01 @瀟灑小弟 问:**有木有深度学习在文本挖掘或者自然语言处理(NLP)方面的好的资源**? @panjf1987 提供答案:被推荐过最多是Richard Socher 的Deep Learning for Natural Language Processing (without Magic) 这个tutorial在NAACL 2013和ACL 2012都做过。讲稿,视频,参考文献整理如下http://t.cn/RPMSxHq [ [讨论](https://github.com/memect/hao/issues/30) ] [ [微博](http://www.weibo.com/5220650532/BgdnWpEmo) ] + * 2014-07-31 **知识图谱的构建离不开人的参与,众包**作为一种新兴的方式来获取廉价的标注,评测甚至群体智慧会发挥越来越重要的作用。国内这领域的权威专家 @昊奋 推荐了一组必读文章,有概述、医疗领域知识库众包、众包的链接数据管理、概率推理和众包结合、考虑用户模式的众包、实体链接的众包 http://t.cn/RPI33jW [ [微博](http://www.weibo.com/5220650532/Bg7zDv1UR) ] * 2014-07-31 @认知计算_Watson 推荐**IBM Watson系统最新**的介绍文章:Watson在医疗的应用,Watson中的关系提取,多尺度流形学习(Manifold Learning)方法 http://t.cn/RPIxcVY [流形学习两篇文章也供@uso小驴酱 参考] 大数据专区现在有93篇Watson的论文和报导。http://t.cn/RPIxcVl [ [讨论](https://github.com/memect/hao/issues/26) ] [ [微博](http://www.weibo.com/5220650532/Bg4PA3tOC) ] From c40490c92abdc0ba733d32dc637967629c05b4b9 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 31 Jul 2014 16:31:57 -0700 Subject: [PATCH 005/485] Update README.md --- README.md | 1 + 1 file changed, 1 insertion(+) diff --git a/README.md b/README.md index 74514f2..b3abd93 100644 --- a/README.md +++ b/README.md @@ -18,6 +18,7 @@
+## [@TechCrunch中国 国际创新北京峰会VIP票大pk](https://github.com/memect/hao/issues/38) ## 最近的问答 From 19e10f30e4d0ac13c7235a0ba05de301df785e5f Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 31 Jul 2014 17:57:38 -0700 Subject: [PATCH 006/485] Update README.md --- README.md | 3 +++ 1 file changed, 3 insertions(+) diff --git a/README.md b/README.md index b3abd93..3a371af 100644 --- a/README.md +++ b/README.md @@ -22,6 +22,9 @@ ## 最近的问答 +* 2014-08-01 **社会机器Social Machine**是Web发明人Berners-Lee和语义网领袖Hendler提出的概念:人与机器/人工智能如何协同工作,完成复杂问题?中国的人肉搜索是他们认为最好的例子,与中国学者合作做了大量研究。@QPCN 教授提供了该主题精炼导读 http://t.cn/RPMNDa5 并列出最重要的文献与讲义http://t.cn/RPMNDaq [ [微博](http://www.weibo.com/5220650532/BgeheoG89) ] + + * 2014-08-01 @瀟灑小弟 问:**有木有深度学习在文本挖掘或者自然语言处理(NLP)方面的好的资源**? @panjf1987 提供答案:被推荐过最多是Richard Socher 的Deep Learning for Natural Language Processing (without Magic) 这个tutorial在NAACL 2013和ACL 2012都做过。讲稿,视频,参考文献整理如下http://t.cn/RPMSxHq [ [讨论](https://github.com/memect/hao/issues/30) ] [ [微博](http://www.weibo.com/5220650532/BgdnWpEmo) ] * 2014-07-31 **知识图谱的构建离不开人的参与,众包**作为一种新兴的方式来获取廉价的标注,评测甚至群体智慧会发挥越来越重要的作用。国内这领域的权威专家 @昊奋 推荐了一组必读文章,有概述、医疗领域知识库众包、众包的链接数据管理、概率推理和众包结合、考虑用户模式的众包、实体链接的众包 http://t.cn/RPI33jW [ [微博](http://www.weibo.com/5220650532/Bg7zDv1UR) ] From 9a6491360d566a102f17bcb678663d8e977051dd Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 31 Jul 2014 23:08:37 -0700 Subject: [PATCH 007/485] Update README.md --- README.md | 1 + 1 file changed, 1 insertion(+) diff --git a/README.md b/README.md index 3a371af..f65fb6c 100644 --- a/README.md +++ b/README.md @@ -4,6 +4,7 @@ * 关注微博 http://www.weibo.com/haoawesome/ * 微信号:好东西传送门 * 网站 http://hao.memect.com/ +* Github https://github.com/memect/hao 还没有回答的问题,欢迎认领 https://github.com/memect/hao/issues From 52effb7e88fb1b148985b731ec18ff7ee145392f Mon Sep 17 00:00:00 2001 From: Li Ding Date: Fri, 1 Aug 2014 00:08:30 -0700 Subject: [PATCH 008/485] add awesome folder --- awesome/query-intent.md | 0 1 file changed, 0 insertions(+), 0 deletions(-) create mode 100644 awesome/query-intent.md diff --git a/awesome/query-intent.md b/awesome/query-intent.md new file mode 100644 index 0000000..e69de29 From cd025b0a8af8b1e44deec32de094bdc721e335c8 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 1 Aug 2014 00:09:28 -0700 Subject: [PATCH 009/485] Update query-intent.md --- awesome/query-intent.md | 13 +++++++++++++ 1 file changed, 13 insertions(+) diff --git a/awesome/query-intent.md b/awesome/query-intent.md index e69de29..5c5b228 100644 --- a/awesome/query-intent.md +++ b/awesome/query-intent.md @@ -0,0 +1,13 @@ +http://www.cnblogs.com/yangxudong/p/3750358.html Query意图分析:记一次完整的机器学习过程(scikit learn library学习笔记) + +http://www.tao-sou.com/740.html 淘宝搜索Query的15个类型(500个query样本)以及与百度谷歌的比较 + +http://searchnewscentral.com/20110531166/Technical/query-classification-understanding-user-intent.html Query classification; understanding user intent + +http://dl.acm.org/citation.cfm?id=1351372 Determining the informational, navigational, and transactional intent of Web queries + +http://dl.acm.org/citation.cfm?id=1507510 Survey and evaluation of query intent detection methods + +http://www.slideshare.net/daniel.gayo/survey-and-evaluation-of-query-intent-detection-methods + +http://www.ijarce.com/downloads/may-2014/IJARCE-13201416.pdf Survey and Analysis for User Intention Refined Internet Image Search From 29987f9f9cadc752f07f5d531ddaa554b38afec7 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 1 Aug 2014 00:21:01 -0700 Subject: [PATCH 010/485] Update query-intent.md --- awesome/query-intent.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/awesome/query-intent.md b/awesome/query-intent.md index 5c5b228..611fc5b 100644 --- a/awesome/query-intent.md +++ b/awesome/query-intent.md @@ -11,3 +11,5 @@ http://dl.acm.org/citation.cfm?id=1507510 Survey and evaluation of query intent http://www.slideshare.net/daniel.gayo/survey-and-evaluation-of-query-intent-detection-methods http://www.ijarce.com/downloads/may-2014/IJARCE-13201416.pdf Survey and Analysis for User Intention Refined Internet Image Search + +http://gesterling.wordpress.com/2010/03/03/local-queries-vs-local-intent/ Local Queries vs. ‘Local Intent’ From 4f109632a99d12974a91628af36003ffe762f9f9 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 1 Aug 2014 00:47:07 -0700 Subject: [PATCH 011/485] Update README.md --- README.md | 8 ++++++++ 1 file changed, 8 insertions(+) diff --git a/README.md b/README.md index f65fb6c..70c339f 100644 --- a/README.md +++ b/README.md @@ -23,6 +23,14 @@ ## 最近的问答 +* 2014-08-01 问:wechat:泡泡龙: 我想知道**query意图分析(query分类)有哪些方法**? 答:搜索关键词: query意图分析 ,query intent,query classification,user intent。 2009 年的一个综述(有幻灯片)。淘宝搜索Query的15个类型;本地搜索(微软专家);图像搜索(雅虎专家)。卡片合集:http://t.cn/RPxPp13 [ [讨论](https://github.com/memect/hao/issues/40) ] [ [微博](http://www.weibo.com/5220650532/BggTn4qtw?mod=weibotime) ] + + +* 2014-08-01 @小77you 问:**关于graph DB有哪些开源的东东**。@昊奋 答:Graph DB有两个分支,一个来自SW,以RDF triple store起家,括Jena, Virtuoso, AllegroGraph等 。另一个分支来自NoSQL,以Property Graph作为底层数据模型,包括Neo4J,Titan等,导读http://t.cn/RPxPAnt 15个数据库 http://t.cn/RPxPAn5 [ [讨论](https://github.com/memect/hao/issues/37) ] [ [微博](http://www.weibo.com/5220650532/BggQIrfwF?mod=weibotime) ] + + +* 2014-08-01 讲一下Facebook新的开源Javascript类库immutable.js http://t.cn/RPMDhro 此项目受David Nolen (ClojureScript大神)的Mori影响,支持多种Immutable数据结构(如哈希映射)并超出目前很火的react.js ,支持微软的TypeScript。immutable数据结构在javascript中利于降低存储代价,提高数据版本控制的效率 [ [微博](http://www.weibo.com/5220650532/Bggnuc9sC?mod=weibotime) ] + * 2014-08-01 **社会机器Social Machine**是Web发明人Berners-Lee和语义网领袖Hendler提出的概念:人与机器/人工智能如何协同工作,完成复杂问题?中国的人肉搜索是他们认为最好的例子,与中国学者合作做了大量研究。@QPCN 教授提供了该主题精炼导读 http://t.cn/RPMNDa5 并列出最重要的文献与讲义http://t.cn/RPMNDaq [ [微博](http://www.weibo.com/5220650532/BgeheoG89) ] From faba0ce7b2e162c13cf6d553da27fd886dd47033 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 1 Aug 2014 00:47:58 -0700 Subject: [PATCH 012/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 70c339f..d46dc68 100644 --- a/README.md +++ b/README.md @@ -29,7 +29,7 @@ * 2014-08-01 @小77you 问:**关于graph DB有哪些开源的东东**。@昊奋 答:Graph DB有两个分支,一个来自SW,以RDF triple store起家,括Jena, Virtuoso, AllegroGraph等 。另一个分支来自NoSQL,以Property Graph作为底层数据模型,包括Neo4J,Titan等,导读http://t.cn/RPxPAnt 15个数据库 http://t.cn/RPxPAn5 [ [讨论](https://github.com/memect/hao/issues/37) ] [ [微博](http://www.weibo.com/5220650532/BggQIrfwF?mod=weibotime) ] -* 2014-08-01 讲一下Facebook新的开源Javascript类库immutable.js http://t.cn/RPMDhro 此项目受David Nolen (ClojureScript大神)的Mori影响,支持多种Immutable数据结构(如哈希映射)并超出目前很火的react.js ,支持微软的TypeScript。immutable数据结构在javascript中利于降低存储代价,提高数据版本控制的效率 [ [微博](http://www.weibo.com/5220650532/Bggnuc9sC?mod=weibotime) ] +* 2014-08-01 讲一下**Facebook新的开源Javascript类库immutable.js** http://t.cn/RPMDhro 此项目受David Nolen (ClojureScript大神)的Mori影响,支持多种Immutable数据结构(如哈希映射)并超出目前很火的react.js ,支持微软的TypeScript。immutable数据结构在javascript中利于降低存储代价,提高数据版本控制的效率 [ [微博](http://www.weibo.com/5220650532/Bggnuc9sC?mod=weibotime) ] * 2014-08-01 **社会机器Social Machine**是Web发明人Berners-Lee和语义网领袖Hendler提出的概念:人与机器/人工智能如何协同工作,完成复杂问题?中国的人肉搜索是他们认为最好的例子,与中国学者合作做了大量研究。@QPCN 教授提供了该主题精炼导读 http://t.cn/RPMNDa5 并列出最重要的文献与讲义http://t.cn/RPMNDaq [ [微博](http://www.weibo.com/5220650532/BgeheoG89) ] From bc103fda5ba58d027a285e7756691c8118b0ffdb Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 1 Aug 2014 09:41:47 -0700 Subject: [PATCH 013/485] Create ocr-tools.md --- awesome/ocr-tools.md | 22 ++++++++++++++++++++++ 1 file changed, 22 insertions(+) create mode 100644 awesome/ocr-tools.md diff --git a/awesome/ocr-tools.md b/awesome/ocr-tools.md new file mode 100644 index 0000000..54aaf27 --- /dev/null +++ b/awesome/ocr-tools.md @@ -0,0 +1,22 @@ +# Top reading +https://code.google.com/p/tesseract-ocr/ mostly used open source ocr software. apache 2.0. It has been improved extensively by Google + +http://finereader.abbyy.com/ one of the best commercial product + +http://www.wintone.com.cn/en/ one of the best commercial product for Chinese + +# comparison +http://lifehacker.com/5624781/five-best-text-recognition-tools + +http://www.zhihu.com/question/19593313 + +http://www.perfectgeeks.com/list/top-best-free-ocr-software/13 + +# Tesseract related applications +https://github.com/gali8/Tesseract-OCR-iOS + +https://github.com/rmtheis/android-ocr + +https://github.com/rmtheis/tess-two + +http://benschmidt.org/dighist13/?page_id=129 From 8b47ecffa216273573b7d9ecf6f581f915477dc5 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 1 Aug 2014 09:58:47 -0700 Subject: [PATCH 014/485] add image and link to card flow --- awesome/ocr-tools.md | 22 ++++++++++++++++------ 1 file changed, 16 insertions(+), 6 deletions(-) diff --git a/awesome/ocr-tools.md b/awesome/ocr-tools.md index 54aaf27..6c92c1b 100644 --- a/awesome/ocr-tools.md +++ b/awesome/ocr-tools.md @@ -1,17 +1,23 @@ -# Top reading -https://code.google.com/p/tesseract-ocr/ mostly used open source ocr software. apache 2.0. It has been improved extensively by Google - -http://finereader.abbyy.com/ one of the best commercial product +Tesseract 是目前应用最广泛的免费开源OCR工具(背后有Google的支持)。商业产品有ABBYY的finereader,还有Adobe;国产的有文通和汉王。除了常规电脑的应用,Tesseract也被移植到智能手机上。资料卡片流: http://hao.memect.com/?tag=ocr-tools -http://www.wintone.com.cn/en/ one of the best commercial product for Chinese +[![Tesseract](http://img.memect.com/oUIxHRW73dnQAGhE1yegF_Pxy5o=/400x0/t/152cea1252fb8d0606873ab38b61b1be8bacba3bc21aaaec78171c241dd42371)](http://hao.memect.com/?tag=ocr-tools) -# comparison +# Top Reading - Market Survey http://lifehacker.com/5624781/five-best-text-recognition-tools http://www.zhihu.com/question/19593313 http://www.perfectgeeks.com/list/top-best-free-ocr-software/13 + +# best OCR tools +https://code.google.com/p/tesseract-ocr/ mostly used open source ocr software. apache 2.0. It has been improved extensively by Google + +http://finereader.abbyy.com/ one of the best commercial product + +http://www.wintone.com.cn/en/ one of the best commercial product for Chinese + + # Tesseract related applications https://github.com/gali8/Tesseract-OCR-iOS @@ -20,3 +26,7 @@ https://github.com/rmtheis/android-ocr https://github.com/rmtheis/tess-two http://benschmidt.org/dighist13/?page_id=129 + +# misc + +https://developer.vuforia.com/resources/sample-apps/text-recognition From 033e7b36aa48f64ccb2736a7b3100a8c01ec95a1 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 1 Aug 2014 10:00:19 -0700 Subject: [PATCH 015/485] Update ocr-tools.md --- awesome/ocr-tools.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/ocr-tools.md b/awesome/ocr-tools.md index 6c92c1b..00e5c6d 100644 --- a/awesome/ocr-tools.md +++ b/awesome/ocr-tools.md @@ -1,6 +1,6 @@ Tesseract 是目前应用最广泛的免费开源OCR工具(背后有Google的支持)。商业产品有ABBYY的finereader,还有Adobe;国产的有文通和汉王。除了常规电脑的应用,Tesseract也被移植到智能手机上。资料卡片流: http://hao.memect.com/?tag=ocr-tools -[![Tesseract](http://img.memect.com/oUIxHRW73dnQAGhE1yegF_Pxy5o=/400x0/t/152cea1252fb8d0606873ab38b61b1be8bacba3bc21aaaec78171c241dd42371)](http://hao.memect.com/?tag=ocr-tools) +[![Tesseract](http://img.memect.com/05jtNcF8k5Kgc3Euvqf5rfZCinM=/400x0/t/1b014ddddc07c435ce3775f3ba85199e706d69456870b9fcb24b5d8ce8c684da)](http://hao.memect.com/?tag=ocr-tools) # Top Reading - Market Survey http://lifehacker.com/5624781/five-best-text-recognition-tools From e579a0233fe8564142324cb21418d9f5a272b6f7 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 1 Aug 2014 10:01:54 -0700 Subject: [PATCH 016/485] Update ocr-tools.md --- awesome/ocr-tools.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/ocr-tools.md b/awesome/ocr-tools.md index 00e5c6d..63b6661 100644 --- a/awesome/ocr-tools.md +++ b/awesome/ocr-tools.md @@ -1,4 +1,4 @@ -Tesseract 是目前应用最广泛的免费开源OCR工具(背后有Google的支持)。商业产品有ABBYY的finereader,还有Adobe;国产的有文通和汉王。除了常规电脑的应用,Tesseract也被移植到智能手机上。资料卡片流: http://hao.memect.com/?tag=ocr-tools +极客杨出品:Tesseract 是目前应用最广泛的免费开源OCR工具(背后有Google的支持)。商业产品有ABBYY的finereader,还有Adobe;国产的有文通和汉王。除了常规电脑的应用,Tesseract也被移植到智能手机上。资料卡片流: http://hao.memect.com/?tag=ocr-tools [![Tesseract](http://img.memect.com/05jtNcF8k5Kgc3Euvqf5rfZCinM=/400x0/t/1b014ddddc07c435ce3775f3ba85199e706d69456870b9fcb24b5d8ce8c684da)](http://hao.memect.com/?tag=ocr-tools) From 415ce50ce34d7c60e12023d30c4371c450340a3c Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 1 Aug 2014 10:02:52 -0700 Subject: [PATCH 017/485] Update ocr-tools.md --- awesome/ocr-tools.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/ocr-tools.md b/awesome/ocr-tools.md index 63b6661..4e2914b 100644 --- a/awesome/ocr-tools.md +++ b/awesome/ocr-tools.md @@ -1,4 +1,4 @@ -极客杨出品:Tesseract 是目前应用最广泛的免费开源OCR工具(背后有Google的支持)。商业产品有ABBYY的finereader,还有Adobe;国产的有文通和汉王。除了常规电脑的应用,Tesseract也被移植到智能手机上。资料卡片流: http://hao.memect.com/?tag=ocr-tools +极客杨的OCR工具箱:Tesseract 是目前应用最广泛的免费开源OCR工具(背后有Google的支持)。商业产品有ABBYY的finereader,还有Adobe;国产的有文通和汉王。除了常规电脑的应用,Tesseract也被移植到智能手机上。资料卡片流: http://hao.memect.com/?tag=ocr-tools [![Tesseract](http://img.memect.com/05jtNcF8k5Kgc3Euvqf5rfZCinM=/400x0/t/1b014ddddc07c435ce3775f3ba85199e706d69456870b9fcb24b5d8ce8c684da)](http://hao.memect.com/?tag=ocr-tools) From d61e731bb405ed8bfc289fc410d9b9e269bf61ef Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 1 Aug 2014 10:06:39 -0700 Subject: [PATCH 018/485] Update ocr-tools.md --- awesome/ocr-tools.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/ocr-tools.md b/awesome/ocr-tools.md index 4e2914b..0be7ffb 100644 --- a/awesome/ocr-tools.md +++ b/awesome/ocr-tools.md @@ -1,4 +1,4 @@ -极客杨的OCR工具箱:Tesseract 是目前应用最广泛的免费开源OCR工具(背后有Google的支持)。商业产品有ABBYY的finereader,还有Adobe;国产的有文通和汉王。除了常规电脑的应用,Tesseract也被移植到智能手机上。资料卡片流: http://hao.memect.com/?tag=ocr-tools +极客杨的OCR工具箱:Tesseract 是目前应用最广泛的免费开源OCR工具(背后有Google的支持)。商业产品有ABBYY的finereader,还有Adobe;国产的有文通和汉王。除了常规电脑的应用,Tesseract也被移植到智能手机(IOS 和 Android)。高通也发布了API 可以直接识别文字。资料卡片流: http://hao.memect.com/?tag=ocr-tools [![Tesseract](http://img.memect.com/05jtNcF8k5Kgc3Euvqf5rfZCinM=/400x0/t/1b014ddddc07c435ce3775f3ba85199e706d69456870b9fcb24b5d8ce8c684da)](http://hao.memect.com/?tag=ocr-tools) From 1de09a18438ec1402dd4c1fc3167564c931d249b Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 1 Aug 2014 14:44:42 -0700 Subject: [PATCH 019/485] Update README.md --- README.md | 3 +++ 1 file changed, 3 insertions(+) diff --git a/README.md b/README.md index d46dc68..1a2aabd 100644 --- a/README.md +++ b/README.md @@ -23,6 +23,9 @@ ## 最近的问答 +* 2014-08-02 世界级专家精选讲义第一组,今天推出RPI的James Hendler (维基百科介绍 http://t.cn/RPxlN6p )研究领域人工智能和Web科学,前IEEE Intelligent Systems主编。合集有40个讲义 http://t.cn/RPxlN60 17个视频 http://t.cn/RPxlN6W 特别推荐3个 http://t.cn/RPxlN6O 全集 http://t.cn/RPxlN6l [ [微博](http://www.weibo.com/5220650532/Bgmqdh2r2?ref=home) ] + + * 2014-08-01 问:wechat:泡泡龙: 我想知道**query意图分析(query分类)有哪些方法**? 答:搜索关键词: query意图分析 ,query intent,query classification,user intent。 2009 年的一个综述(有幻灯片)。淘宝搜索Query的15个类型;本地搜索(微软专家);图像搜索(雅虎专家)。卡片合集:http://t.cn/RPxPp13 [ [讨论](https://github.com/memect/hao/issues/40) ] [ [微博](http://www.weibo.com/5220650532/BggTn4qtw?mod=weibotime) ] From 7d76ae9326d5c77fca59c172087210d7f8d61996 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 1 Aug 2014 14:46:51 -0700 Subject: [PATCH 020/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 1a2aabd..32ac55a 100644 --- a/README.md +++ b/README.md @@ -23,7 +23,7 @@ ## 最近的问答 -* 2014-08-02 世界级专家精选讲义第一组,今天推出RPI的James Hendler (维基百科介绍 http://t.cn/RPxlN6p )研究领域人工智能和Web科学,前IEEE Intelligent Systems主编。合集有40个讲义 http://t.cn/RPxlN60 17个视频 http://t.cn/RPxlN6W 特别推荐3个 http://t.cn/RPxlN6O 全集 http://t.cn/RPxlN6l [ [微博](http://www.weibo.com/5220650532/Bgmqdh2r2?ref=home) ] +* 2014-08-02 世界级专家精选讲义第一组,今天推出RPI的**James Hendler** (维基百科介绍 http://t.cn/RPxlN6p )**研究领域人工智能和Web科学**,前IEEE Intelligent Systems主编。合集有40个讲义 http://t.cn/RPxlN60 17个视频 http://t.cn/RPxlN6W 特别推荐3个 http://t.cn/RPxlN6O 全集 http://t.cn/RPxlN6l [ [微博](http://www.weibo.com/5220650532/Bgmqdh2r2?ref=home) ] * 2014-08-01 问:wechat:泡泡龙: 我想知道**query意图分析(query分类)有哪些方法**? 答:搜索关键词: query意图分析 ,query intent,query classification,user intent。 2009 年的一个综述(有幻灯片)。淘宝搜索Query的15个类型;本地搜索(微软专家);图像搜索(雅虎专家)。卡片合集:http://t.cn/RPxPp13 [ [讨论](https://github.com/memect/hao/issues/40) ] [ [微博](http://www.weibo.com/5220650532/BggTn4qtw?mod=weibotime) ] From ab8f8db18f7be8d00030b932e290530dc5161bba Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 1 Aug 2014 14:55:21 -0700 Subject: [PATCH 021/485] Update README.md --- README.md | 3 +++ 1 file changed, 3 insertions(+) diff --git a/README.md b/README.md index 32ac55a..5ef3141 100644 --- a/README.md +++ b/README.md @@ -25,6 +25,9 @@ * 2014-08-02 世界级专家精选讲义第一组,今天推出RPI的**James Hendler** (维基百科介绍 http://t.cn/RPxlN6p )**研究领域人工智能和Web科学**,前IEEE Intelligent Systems主编。合集有40个讲义 http://t.cn/RPxlN60 17个视频 http://t.cn/RPxlN6W 特别推荐3个 http://t.cn/RPxlN6O 全集 http://t.cn/RPxlN6l [ [微博](http://www.weibo.com/5220650532/Bgmqdh2r2?ref=home) ] +* 2014-08-02 [求援] @zbyufei 问:基于python开发的Code online系统有哪些。类似于Cloud9 IDE的。进展:主页君找到了9个支持Python的在线IDE,如ideone, repl.it, codepad http://t.cn/RPxOOPE 但没有发现基于python开发的开源系统。向社区达人求援!更新汇报 http://t.cn/RPxOOPn [ [讨论](https://github.com/memect/hao/issues/22) ] [ [微博](http://www.weibo.com/5220650532/BglNC5j9G?mod=weibotime) ] + +* 2014-08-02 推荐一个emacs的很长长长长长长长长....的英文迷你教程,有无数小动画,非常容易懂,看得出是下了功夫的。进去看两眼您就赶紧藏转发吧,这还只是第一部。我怎么觉得这跟一口气看完某韩国连续剧一样一样的呀。http://t.cn/RPxLa51 同意它是有史以来最长的emacs教程请举手! [ [微博](http://www.weibo.com/5220650532/BghEm0kZ8?mod=weibotime) ] * 2014-08-01 问:wechat:泡泡龙: 我想知道**query意图分析(query分类)有哪些方法**? 答:搜索关键词: query意图分析 ,query intent,query classification,user intent。 2009 年的一个综述(有幻灯片)。淘宝搜索Query的15个类型;本地搜索(微软专家);图像搜索(雅虎专家)。卡片合集:http://t.cn/RPxPp13 [ [讨论](https://github.com/memect/hao/issues/40) ] [ [微博](http://www.weibo.com/5220650532/BggTn4qtw?mod=weibotime) ] From 9acf9d2f8839f53dba3d97614b44f7cfd81cc66b Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 1 Aug 2014 16:41:11 -0700 Subject: [PATCH 022/485] Update README.md --- README.md | 7 ++++++- 1 file changed, 6 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index 5ef3141..299bb7e 100644 --- a/README.md +++ b/README.md @@ -23,9 +23,14 @@ ## 最近的问答 +* 2014-08-02 @理想主义de患者 问:有没有垃圾邮件检测的项目啊。答:比较有效的方法都是结合机器学习与人工知识的。最有名的开源项目是SpamAssassin,可以从很多语言调用如Python 。另有个开源项目Stopspam也值得关注。更早基于机器学习的项目合集中也有个列表 http://t.cn/RPxTJgO [ [讨论](https://github.com/memect/hao/issues/44) ] [ [微博](http://www.weibo.com/5220650532/BgnagiCeE?mod=weibotime) ] + +* 2014-08-02 @羊_o羊o羊爱小破厂 问:需要tornado的资料。答:Tornado是一个非阻塞式Python网络框架,并发性能优于大多数其他Python框架。这组资料是基本介绍,中英文都有 http://t.cn/RPxYjIs 更多见Python精华区Tornado资料 http://t.cn/RPxYjMv 稍后我们会分期介绍它与Gevent, Nodejs, Flask的比较 [ [讨论](https://github.com/memect/hao/issues/24) ] [ [微博](http://www.weibo.com/5220650532/Bgn0l5KPA?mod=weibotime) ] + + * 2014-08-02 世界级专家精选讲义第一组,今天推出RPI的**James Hendler** (维基百科介绍 http://t.cn/RPxlN6p )**研究领域人工智能和Web科学**,前IEEE Intelligent Systems主编。合集有40个讲义 http://t.cn/RPxlN60 17个视频 http://t.cn/RPxlN6W 特别推荐3个 http://t.cn/RPxlN6O 全集 http://t.cn/RPxlN6l [ [微博](http://www.weibo.com/5220650532/Bgmqdh2r2?ref=home) ] -* 2014-08-02 [求援] @zbyufei 问:基于python开发的Code online系统有哪些。类似于Cloud9 IDE的。进展:主页君找到了9个支持Python的在线IDE,如ideone, repl.it, codepad http://t.cn/RPxOOPE 但没有发现基于python开发的开源系统。向社区达人求援!更新汇报 http://t.cn/RPxOOPn [ [讨论](https://github.com/memect/hao/issues/22) ] [ [微博](http://www.weibo.com/5220650532/BglNC5j9G?mod=weibotime) ] +* 2014-08-02 [求援] @zbyufei 问:**基于python开发的Code online系统有哪些。类似于Cloud9 IDE的**。进展:主页君找到了9个支持Python的在线IDE,如ideone, repl.it, codepad http://t.cn/RPxOOPE 但没有发现基于python开发的开源系统。向社区达人求援!更新汇报 http://t.cn/RPxOOPn [ [讨论](https://github.com/memect/hao/issues/22) ] [ [微博](http://www.weibo.com/5220650532/BglNC5j9G?mod=weibotime) ] * 2014-08-02 推荐一个emacs的很长长长长长长长长....的英文迷你教程,有无数小动画,非常容易懂,看得出是下了功夫的。进去看两眼您就赶紧藏转发吧,这还只是第一部。我怎么觉得这跟一口气看完某韩国连续剧一样一样的呀。http://t.cn/RPxLa51 同意它是有史以来最长的emacs教程请举手! [ [微博](http://www.weibo.com/5220650532/BghEm0kZ8?mod=weibotime) ] From 701fda63b8142a71b28fea2c2af5cad64d65ce19 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 1 Aug 2014 16:41:39 -0700 Subject: [PATCH 023/485] Update README.md --- README.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index 299bb7e..1fe3968 100644 --- a/README.md +++ b/README.md @@ -23,9 +23,9 @@ ## 最近的问答 -* 2014-08-02 @理想主义de患者 问:有没有垃圾邮件检测的项目啊。答:比较有效的方法都是结合机器学习与人工知识的。最有名的开源项目是SpamAssassin,可以从很多语言调用如Python 。另有个开源项目Stopspam也值得关注。更早基于机器学习的项目合集中也有个列表 http://t.cn/RPxTJgO [ [讨论](https://github.com/memect/hao/issues/44) ] [ [微博](http://www.weibo.com/5220650532/BgnagiCeE?mod=weibotime) ] +* 2014-08-02 @理想主义de患者 问:**有没有垃圾邮件检测的项目啊**。答:比较有效的方法都是结合机器学习与人工知识的。最有名的开源项目是SpamAssassin,可以从很多语言调用如Python 。另有个开源项目Stopspam也值得关注。更早基于机器学习的项目合集中也有个列表 http://t.cn/RPxTJgO [ [讨论](https://github.com/memect/hao/issues/44) ] [ [微博](http://www.weibo.com/5220650532/BgnagiCeE?mod=weibotime) ] -* 2014-08-02 @羊_o羊o羊爱小破厂 问:需要tornado的资料。答:Tornado是一个非阻塞式Python网络框架,并发性能优于大多数其他Python框架。这组资料是基本介绍,中英文都有 http://t.cn/RPxYjIs 更多见Python精华区Tornado资料 http://t.cn/RPxYjMv 稍后我们会分期介绍它与Gevent, Nodejs, Flask的比较 [ [讨论](https://github.com/memect/hao/issues/24) ] [ [微博](http://www.weibo.com/5220650532/Bgn0l5KPA?mod=weibotime) ] +* 2014-08-02 @羊_o羊o羊爱小破厂 问:**需要tornado的资料**。答:Tornado是一个非阻塞式Python网络框架,并发性能优于大多数其他Python框架。这组资料是基本介绍,中英文都有 http://t.cn/RPxYjIs 更多见Python精华区Tornado资料 http://t.cn/RPxYjMv 稍后我们会分期介绍它与Gevent, Nodejs, Flask的比较 [ [讨论](https://github.com/memect/hao/issues/24) ] [ [微博](http://www.weibo.com/5220650532/Bgn0l5KPA?mod=weibotime) ] * 2014-08-02 世界级专家精选讲义第一组,今天推出RPI的**James Hendler** (维基百科介绍 http://t.cn/RPxlN6p )**研究领域人工智能和Web科学**,前IEEE Intelligent Systems主编。合集有40个讲义 http://t.cn/RPxlN60 17个视频 http://t.cn/RPxlN6W 特别推荐3个 http://t.cn/RPxlN6O 全集 http://t.cn/RPxlN6l [ [微博](http://www.weibo.com/5220650532/Bgmqdh2r2?ref=home) ] From 22e9c9b01ad9f36a16aa811a7c1cbf9f4a414d6d Mon Sep 17 00:00:00 2001 From: haoawesome Date: Sun, 3 Aug 2014 12:20:44 -0700 Subject: [PATCH 024/485] Update README.md --- README.md | 6 ++++++ 1 file changed, 6 insertions(+) diff --git a/README.md b/README.md index 1fe3968..41adc7a 100644 --- a/README.md +++ b/README.md @@ -23,6 +23,12 @@ ## 最近的问答 +* 2014-08-03 @孙明明_SmarterChina 特别推荐@李航博士 和@徐君_ 的新书《Semantic Matching in Search》该书阐述了搜索中语义匹配的基本方法,如查询重写,关键词依赖,翻译,主题模型, 潜在空间模型Latent Space Model, 学习匹配Learning to Matching等。作者提供了电子版下载。预览与目录 http://t.cn/RPiq2hc [ [微博](http://www.weibo.com/5220650532/BgAwzD3LJ?mod=weibotime) ] + +* 2014-08-03 [微综述] 搜索专家 @孙明明_SmarterChina 在"知识图谱与搜索引擎"中推荐了建立知识图谱和利用知识图谱的12篇重要文献,涵盖利用百科数据,挖掘生成知识图谱,搜索引擎页面排序,利用实体标注、语义匹配,查询中的实体映射等前沿话题。导读 http://t.cn/RPiGS3l 文献列表 http://t.cn/RPiGS3O [ [微博](http://www.weibo.com/5220650532/BgArxBPIn?mod=weibotime) ] + +* 2014-08-02 产品设计的死循环(参见高尔定律第二原则)。附:高尔定律(Gall's law) 1、成功复杂系统是从已经成功的简单系统演进而来;2、凭空设计出来的复杂系统不会成功、再怎么打补丁也不行,只能推倒重来;3,简单系统未必成功。 [ [微博](http://www.weibo.com/5220650532/BgshmzO5g?mod=weibotime) ] + * 2014-08-02 @理想主义de患者 问:**有没有垃圾邮件检测的项目啊**。答:比较有效的方法都是结合机器学习与人工知识的。最有名的开源项目是SpamAssassin,可以从很多语言调用如Python 。另有个开源项目Stopspam也值得关注。更早基于机器学习的项目合集中也有个列表 http://t.cn/RPxTJgO [ [讨论](https://github.com/memect/hao/issues/44) ] [ [微博](http://www.weibo.com/5220650532/BgnagiCeE?mod=weibotime) ] * 2014-08-02 @羊_o羊o羊爱小破厂 问:**需要tornado的资料**。答:Tornado是一个非阻塞式Python网络框架,并发性能优于大多数其他Python框架。这组资料是基本介绍,中英文都有 http://t.cn/RPxYjIs 更多见Python精华区Tornado资料 http://t.cn/RPxYjMv 稍后我们会分期介绍它与Gevent, Nodejs, Flask的比较 [ [讨论](https://github.com/memect/hao/issues/24) ] [ [微博](http://www.weibo.com/5220650532/Bgn0l5KPA?mod=weibotime) ] From b4a79c6b9b2ea9252a79fcad8cdfcaad8e474c88 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Sun, 3 Aug 2014 12:21:16 -0700 Subject: [PATCH 025/485] Update README.md --- README.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index 41adc7a..5b33751 100644 --- a/README.md +++ b/README.md @@ -23,9 +23,9 @@ ## 最近的问答 -* 2014-08-03 @孙明明_SmarterChina 特别推荐@李航博士 和@徐君_ 的新书《Semantic Matching in Search》该书阐述了搜索中语义匹配的基本方法,如查询重写,关键词依赖,翻译,主题模型, 潜在空间模型Latent Space Model, 学习匹配Learning to Matching等。作者提供了电子版下载。预览与目录 http://t.cn/RPiq2hc [ [微博](http://www.weibo.com/5220650532/BgAwzD3LJ?mod=weibotime) ] +* 2014-08-03 @孙明明_SmarterChina 特别推荐@李航博士 和@徐君_ 的新书**《Semantic Matching in Search》该书阐述了搜索中语义匹配的基本方法**,如查询重写,关键词依赖,翻译,主题模型, 潜在空间模型Latent Space Model, 学习匹配Learning to Matching等。作者提供了电子版下载。预览与目录 http://t.cn/RPiq2hc [ [微博](http://www.weibo.com/5220650532/BgAwzD3LJ?mod=weibotime) ] -* 2014-08-03 [微综述] 搜索专家 @孙明明_SmarterChina 在"知识图谱与搜索引擎"中推荐了建立知识图谱和利用知识图谱的12篇重要文献,涵盖利用百科数据,挖掘生成知识图谱,搜索引擎页面排序,利用实体标注、语义匹配,查询中的实体映射等前沿话题。导读 http://t.cn/RPiGS3l 文献列表 http://t.cn/RPiGS3O [ [微博](http://www.weibo.com/5220650532/BgArxBPIn?mod=weibotime) ] +* 2014-08-03 [微综述] 搜索专家 @孙明明_SmarterChina **在"知识图谱与搜索引擎"中推荐了建立知识图谱和利用知识图谱的12篇重要文献**,涵盖利用百科数据,挖掘生成知识图谱,搜索引擎页面排序,利用实体标注、语义匹配,查询中的实体映射等前沿话题。导读 http://t.cn/RPiGS3l 文献列表 http://t.cn/RPiGS3O [ [微博](http://www.weibo.com/5220650532/BgArxBPIn?mod=weibotime) ] * 2014-08-02 产品设计的死循环(参见高尔定律第二原则)。附:高尔定律(Gall's law) 1、成功复杂系统是从已经成功的简单系统演进而来;2、凭空设计出来的复杂系统不会成功、再怎么打补丁也不行,只能推倒重来;3,简单系统未必成功。 [ [微博](http://www.weibo.com/5220650532/BgshmzO5g?mod=weibotime) ] From 01c35db2eb645bc7c9e98837e1d6252888bd27ad Mon Sep 17 00:00:00 2001 From: haoawesome Date: Sun, 3 Aug 2014 12:26:09 -0700 Subject: [PATCH 026/485] Update README.md --- README.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/README.md b/README.md index 5b33751..2e85b78 100644 --- a/README.md +++ b/README.md @@ -29,6 +29,8 @@ * 2014-08-02 产品设计的死循环(参见高尔定律第二原则)。附:高尔定律(Gall's law) 1、成功复杂系统是从已经成功的简单系统演进而来;2、凭空设计出来的复杂系统不会成功、再怎么打补丁也不行,只能推倒重来;3,简单系统未必成功。 [ [微博](http://www.weibo.com/5220650532/BgshmzO5g?mod=weibotime) ] +* 2014-08-02 Sibyl是Google正在使用的分布式机器学习平台。它于2010年在大规模分布系统论坛(LADIS)就做过主题报告,今年又到DSN做了一次主题报告(视频林大原则讲得很清楚)。到底这四年有什么变化,看看下图(含四个关键幻灯片)就明白了。相关资料合集传送门: http://t.cn/RPxQZIN [ [微博](http://www.weibo.com/5220650532/BgnsoEEqV?mod=weibotime) ] + * 2014-08-02 @理想主义de患者 问:**有没有垃圾邮件检测的项目啊**。答:比较有效的方法都是结合机器学习与人工知识的。最有名的开源项目是SpamAssassin,可以从很多语言调用如Python 。另有个开源项目Stopspam也值得关注。更早基于机器学习的项目合集中也有个列表 http://t.cn/RPxTJgO [ [讨论](https://github.com/memect/hao/issues/44) ] [ [微博](http://www.weibo.com/5220650532/BgnagiCeE?mod=weibotime) ] * 2014-08-02 @羊_o羊o羊爱小破厂 问:**需要tornado的资料**。答:Tornado是一个非阻塞式Python网络框架,并发性能优于大多数其他Python框架。这组资料是基本介绍,中英文都有 http://t.cn/RPxYjIs 更多见Python精华区Tornado资料 http://t.cn/RPxYjMv 稍后我们会分期介绍它与Gevent, Nodejs, Flask的比较 [ [讨论](https://github.com/memect/hao/issues/24) ] [ [微博](http://www.weibo.com/5220650532/Bgn0l5KPA?mod=weibotime) ] From f5307e750b2ce4f27b5a911aa4b2b7791a0b9020 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Sun, 3 Aug 2014 12:26:49 -0700 Subject: [PATCH 027/485] Update README.md --- README.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index 2e85b78..54861aa 100644 --- a/README.md +++ b/README.md @@ -27,9 +27,9 @@ * 2014-08-03 [微综述] 搜索专家 @孙明明_SmarterChina **在"知识图谱与搜索引擎"中推荐了建立知识图谱和利用知识图谱的12篇重要文献**,涵盖利用百科数据,挖掘生成知识图谱,搜索引擎页面排序,利用实体标注、语义匹配,查询中的实体映射等前沿话题。导读 http://t.cn/RPiGS3l 文献列表 http://t.cn/RPiGS3O [ [微博](http://www.weibo.com/5220650532/BgArxBPIn?mod=weibotime) ] -* 2014-08-02 产品设计的死循环(参见高尔定律第二原则)。附:高尔定律(Gall's law) 1、成功复杂系统是从已经成功的简单系统演进而来;2、凭空设计出来的复杂系统不会成功、再怎么打补丁也不行,只能推倒重来;3,简单系统未必成功。 [ [微博](http://www.weibo.com/5220650532/BgshmzO5g?mod=weibotime) ] +* 2014-08-02 产品设计的死循环(参见高尔定律第二原则)。附:**高尔定律(Gall's law)** 1、成功复杂系统是从已经成功的简单系统演进而来;2、凭空设计出来的复杂系统不会成功、再怎么打补丁也不行,只能推倒重来;3,简单系统未必成功。 [ [微博](http://www.weibo.com/5220650532/BgshmzO5g?mod=weibotime) ] -* 2014-08-02 Sibyl是Google正在使用的分布式机器学习平台。它于2010年在大规模分布系统论坛(LADIS)就做过主题报告,今年又到DSN做了一次主题报告(视频林大原则讲得很清楚)。到底这四年有什么变化,看看下图(含四个关键幻灯片)就明白了。相关资料合集传送门: http://t.cn/RPxQZIN [ [微博](http://www.weibo.com/5220650532/BgnsoEEqV?mod=weibotime) ] +* 2014-08-02 **Sibyl是Google正在使用的分布式机器学习平台**。它于2010年在大规模分布系统论坛(LADIS)就做过主题报告,今年又到DSN做了一次主题报告(视频林大原则讲得很清楚)。到底这四年有什么变化,看看下图(含四个关键幻灯片)就明白了。相关资料合集传送门: http://t.cn/RPxQZIN [ [微博](http://www.weibo.com/5220650532/BgnsoEEqV?mod=weibotime) ] * 2014-08-02 @理想主义de患者 问:**有没有垃圾邮件检测的项目啊**。答:比较有效的方法都是结合机器学习与人工知识的。最有名的开源项目是SpamAssassin,可以从很多语言调用如Python 。另有个开源项目Stopspam也值得关注。更早基于机器学习的项目合集中也有个列表 http://t.cn/RPxTJgO [ [讨论](https://github.com/memect/hao/issues/44) ] [ [微博](http://www.weibo.com/5220650532/BgnagiCeE?mod=weibotime) ] From 749d6eb6230613e2c2cc9a7821adb874c7e71f74 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Sun, 3 Aug 2014 12:37:57 -0700 Subject: [PATCH 028/485] Update README.md --- README.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/README.md b/README.md index 54861aa..d2d5db7 100644 --- a/README.md +++ b/README.md @@ -14,6 +14,8 @@ * [最近的问答](README.md#最近的问答) * [文摘](README.md#文摘) +### 许可证 + 本站内容许可证:[Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License](http://creativecommons.org/licenses/by-nc-sa/4.0/) Creative Commons License From b2aee5f91045e9100098ec0ff1e450337f09310f Mon Sep 17 00:00:00 2001 From: haoawesome Date: Sun, 3 Aug 2014 12:47:49 -0700 Subject: [PATCH 029/485] Update README.md --- README.md | 21 ++++++++++++++++++++- 1 file changed, 20 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index d2d5db7..0ea758b 100644 --- a/README.md +++ b/README.md @@ -13,6 +13,8 @@ 目录 * [最近的问答](README.md#最近的问答) * [文摘](README.md#文摘) +* [声明](README.md#声明) + ### 许可证 @@ -281,5 +283,22 @@ Probabilistic Programming summer school 在Portland顺利结束 教学资料见 * 2013-09-20 @developerWorks 免费电子书《面向程序员的数据挖掘实战指南》,侧重实例,以 Python 语言讲解。目前已完成6章,仍在更新中,并且提供 PDF 下载。http://t.cn/zWQEQH8 作者:Ron Zacharski cc @ResysChina [ [微博](http://www.weibo.com/1894238970/Aai5HCiWx) ] - * 2013-01-28 @陈利人 【机器学习中的数学系列】回归、梯度下降 http://t.cn/hDoULu ;线性回归,偏差、方差权衡 http://t.cn/Sxppf2 ;模型组合之Boosting与Gradient Boosting http://t.cn/SP05f3 ;线性判别分析, 主成分分析 http://t.cn/SAeY2U ;强大的矩阵奇异值分解及其应用 http://t.cn/akJxgj [ [微博](http://www.weibo.com/1915548291/zgzoTcvzL) ] + +## 声明 + +* 2014-08-04 @好东西传送门 开源5天,已经有了88颗星。这里解释一下开源政策:为了鼓励好东西的传播,我们采用了Creative Commons Attribution-NonCommercial-ShareAlike 4.0许可证:Github上的内容可以被自由分享和改编,但需用同样的许可证发布,致谢@好东西传送门 并不得用于商用 http://t.cn/RPiYr2f [ [微博](http://www.weibo.com/5220650532/BgEucqeEz?ref=) ] + +* 2014-07-31 开源的好东西传送门:今天我们已经把所有的问答和文摘都整理到Github上了,查看别人已经问过的问题更加容易。你可以一键复制,拥有自己不会丢失的好东西列表。也可以关注项目获得更新通知。如果你关心大数据、机器学习、数据库、Web、Python(话题增长中)去加星收藏吧 http://t.cn/RPfAgNg [ [微博](http://www.weibo.com/5220650532/Bg436jjPL?mod=weibotime) ] + +* 2014-07-31 这样认领问题:去Github Issue列表下面 http://t.cn/RPI5jaZ 找一个感兴趣的问题,回复你想分享的资源链接,也可附简单评语。请留下你的微博帐号(或其他联系方式),好东西传送门会整理后贴出你的答案并注明贡献者是你 [ [微博](http://www.weibo.com/5220650532/Bg3zxFnR5?mod=weibotime) ] + +* 2014-07-30 传送门也有微信了,去扫描吧。或者按名字直接加“好东西传送门”。微信会更多承载每日精华整理的功能。如果错过了微博上的好东西,微信上还会看到。转发一下,让更多人看到最精彩的技术好东西! [ [微博](http://www.weibo.com/5220650532/BfXB5Esip?mod=weibotime) ] + +* 2014-07-30 http://t.cn/RPfAgNg 好东西传送门所有问答和推荐资源合集现在都放在Github上了!每个问题都有自己的讨论页,可讨论增补。目前还有十多条未完成问题,欢迎各位专家帮忙认领回答!8月5日前转发最多的两条答案将获赠 @TechCrunch中国 国际创新北京峰会双日VIP票,本来3200一张哦! [ [微博](http://www.weibo.com/5220650532/BfVwN1Q2a?mod=weibotime) ] + +* 2014-07-28 回复@silverhawk_ny:轻问答就是相对知乎这样的“重”问答工具而言,利用机器生成大量的知识卡片,问答时回答问题的人只要利用自己的知识,快速组织卡片。一般这个过程不需要写长文,几分钟就可以完成,所以叫“轻”//@silverhawk_ny:轻问答是什么意思? [ [微博](http://www.weibo.com/5220650532/BfE4rFyXR?mod=weibotime) ] + +* 2014-07-28 《好东西传送门到底是什么?》 很多人问这个帐号到底是什么?答:它是一个网上资料的人肉搜索引擎。它集成了一群微博上的好人,以最简练的方式,帮大家找到最精华的资源。达到这个目的手段有三:知识卡片,人肉知识桥梁,轻问答。这是不是你想要的“好东西传送门”?欢迎讨论!http://t.cn/RPtMEmu [ [微博](http://www.weibo.com/5220650532/BfCrt3FO2?mod=weibotime) ] + + From 7536eb6e51ad0336b382f9b130c00c75a55abd85 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Sun, 3 Aug 2014 12:51:05 -0700 Subject: [PATCH 030/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 0ea758b..fe23bf3 100644 --- a/README.md +++ b/README.md @@ -1,6 +1,6 @@ -好东西传送门: 微博上的轻问答 +好东西传送门: 微博上的轻问答 Crowd-sourced LiteQA * 关注微博 http://www.weibo.com/haoawesome/ * 微信号:好东西传送门 * 网站 http://hao.memect.com/ From 87e2d0f4cea4a6bbfbabdf33372ce9fab58ba664 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Sun, 3 Aug 2014 13:37:00 -0700 Subject: [PATCH 031/485] Update README.md --- README.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/README.md b/README.md index fe23bf3..d97f0d4 100644 --- a/README.md +++ b/README.md @@ -27,6 +27,8 @@ ## 最近的问答 +* 2014-08-04 @zbyufei 问:基于python开发的Code online系统有哪些。类似于Cloud9 IDE的。@登州知府 答:开源Online IDE的开发语言比较常见的是Node.js, Java和PHP,python的真没怎么见过。支持Python的IDE,@南京话zen好听 推荐 koding.com @康积华_绩点侠 推荐codeskulptor,所有IDE列表见 http://t.cn/RPxOOPE [讨论](https://github.com/memect/hao/issues/22) ] [ [微博](http://www.weibo.com/5220650532/BgEQUaeo2?ref=) ] + * 2014-08-03 @孙明明_SmarterChina 特别推荐@李航博士 和@徐君_ 的新书**《Semantic Matching in Search》该书阐述了搜索中语义匹配的基本方法**,如查询重写,关键词依赖,翻译,主题模型, 潜在空间模型Latent Space Model, 学习匹配Learning to Matching等。作者提供了电子版下载。预览与目录 http://t.cn/RPiq2hc [ [微博](http://www.weibo.com/5220650532/BgAwzD3LJ?mod=weibotime) ] * 2014-08-03 [微综述] 搜索专家 @孙明明_SmarterChina **在"知识图谱与搜索引擎"中推荐了建立知识图谱和利用知识图谱的12篇重要文献**,涵盖利用百科数据,挖掘生成知识图谱,搜索引擎页面排序,利用实体标注、语义匹配,查询中的实体映射等前沿话题。导读 http://t.cn/RPiGS3l 文献列表 http://t.cn/RPiGS3O [ [微博](http://www.weibo.com/5220650532/BgArxBPIn?mod=weibotime) ] From cf03c73c3cd7d819e91a111d0a89b926530466b5 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Sun, 3 Aug 2014 13:37:55 -0700 Subject: [PATCH 032/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index d97f0d4..c3a2ff0 100644 --- a/README.md +++ b/README.md @@ -27,7 +27,7 @@ ## 最近的问答 -* 2014-08-04 @zbyufei 问:基于python开发的Code online系统有哪些。类似于Cloud9 IDE的。@登州知府 答:开源Online IDE的开发语言比较常见的是Node.js, Java和PHP,python的真没怎么见过。支持Python的IDE,@南京话zen好听 推荐 koding.com @康积华_绩点侠 推荐codeskulptor,所有IDE列表见 http://t.cn/RPxOOPE [讨论](https://github.com/memect/hao/issues/22) ] [ [微博](http://www.weibo.com/5220650532/BgEQUaeo2?ref=) ] +* 2014-08-04 @zbyufei 问:**基于python开发的Code online系统有哪些。类似于Cloud9 IDE的**。@登州知府 答:开源Online IDE的开发语言比较常见的是Node.js, Java和PHP,python的真没怎么见过。支持Python的IDE,@南京话zen好听 推荐 koding.com @康积华_绩点侠 推荐codeskulptor,所有IDE列表见 http://t.cn/RPxOOPE [ [讨论](https://github.com/memect/hao/issues/22) ] [ [微博](http://www.weibo.com/5220650532/BgEQUaeo2?ref=) ] * 2014-08-03 @孙明明_SmarterChina 特别推荐@李航博士 和@徐君_ 的新书**《Semantic Matching in Search》该书阐述了搜索中语义匹配的基本方法**,如查询重写,关键词依赖,翻译,主题模型, 潜在空间模型Latent Space Model, 学习匹配Learning to Matching等。作者提供了电子版下载。预览与目录 http://t.cn/RPiq2hc [ [微博](http://www.weibo.com/5220650532/BgAwzD3LJ?mod=weibotime) ] From 88aade89c0bd6f503c7ebace6b57a487e3a96edf Mon Sep 17 00:00:00 2001 From: haoawesome Date: Sun, 3 Aug 2014 15:31:21 -0700 Subject: [PATCH 033/485] Update ocr-tools.md --- awesome/ocr-tools.md | 1 + 1 file changed, 1 insertion(+) diff --git a/awesome/ocr-tools.md b/awesome/ocr-tools.md index 0be7ffb..c4706be 100644 --- a/awesome/ocr-tools.md +++ b/awesome/ocr-tools.md @@ -30,3 +30,4 @@ http://benschmidt.org/dighist13/?page_id=129 # misc https://developer.vuforia.com/resources/sample-apps/text-recognition +https://www.youtube.com/watch?v=KLqFQ2u52iU From 314532530c3b769c14d0566939bebacda17a439c Mon Sep 17 00:00:00 2001 From: haoawesome Date: Sun, 3 Aug 2014 15:51:43 -0700 Subject: [PATCH 034/485] Update ocr-tools.md --- awesome/ocr-tools.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/ocr-tools.md b/awesome/ocr-tools.md index c4706be..bd5f601 100644 --- a/awesome/ocr-tools.md +++ b/awesome/ocr-tools.md @@ -1,4 +1,4 @@ -极客杨的OCR工具箱:Tesseract 是目前应用最广泛的免费开源OCR工具(背后有Google的支持)。商业产品有ABBYY的finereader,还有Adobe;国产的有文通和汉王。除了常规电脑的应用,Tesseract也被移植到智能手机(IOS 和 Android)。高通也发布了API 可以直接识别文字。资料卡片流: http://hao.memect.com/?tag=ocr-tools +极客杨的OCR工具箱:Tesseract 是目前应用最广泛的免费开源OCR工具(背后有Google的支持)。商业产品有ABBYY的finereader,还有Adobe;国产的有文通和汉王。当前热点是将OCR移植到智能手机上拓展新的输入渠道、IOS有基于Tesseract的实现,Android有高通vuforia API。资料卡片流: http://hao.memect.com/?tag=ocr-tools [![Tesseract](http://img.memect.com/05jtNcF8k5Kgc3Euvqf5rfZCinM=/400x0/t/1b014ddddc07c435ce3775f3ba85199e706d69456870b9fcb24b5d8ce8c684da)](http://hao.memect.com/?tag=ocr-tools) From 1a81230b6b47dc8b9d962c5849d6ab8df4d29957 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Sun, 3 Aug 2014 16:24:16 -0700 Subject: [PATCH 035/485] Update ocr-tools.md --- awesome/ocr-tools.md | 5 +++++ 1 file changed, 5 insertions(+) diff --git a/awesome/ocr-tools.md b/awesome/ocr-tools.md index bd5f601..1aa5f50 100644 --- a/awesome/ocr-tools.md +++ b/awesome/ocr-tools.md @@ -3,6 +3,11 @@ [![Tesseract](http://img.memect.com/05jtNcF8k5Kgc3Euvqf5rfZCinM=/400x0/t/1b014ddddc07c435ce3775f3ba85199e706d69456870b9fcb24b5d8ce8c684da)](http://hao.memect.com/?tag=ocr-tools) # Top Reading - Market Survey +http://lib.psnc.pl/Content/358/PSNC_Tesseract-FineReader-report.pdf Report on the comparison of Tesseract and +ABBYY FineReader OCR engines (2012) + +https://tesseract-ocr.googlecode.com/files/TesseractOSCON.pdf Tesseract features and key issues (2007) + http://lifehacker.com/5624781/five-best-text-recognition-tools http://www.zhihu.com/question/19593313 From 964758197224a66524a1d39e12cf42dd4b16914a Mon Sep 17 00:00:00 2001 From: haoawesome Date: Sun, 3 Aug 2014 16:30:59 -0700 Subject: [PATCH 036/485] Update ocr-tools.md --- awesome/ocr-tools.md | 11 +++++++---- 1 file changed, 7 insertions(+), 4 deletions(-) diff --git a/awesome/ocr-tools.md b/awesome/ocr-tools.md index 1aa5f50..ff3ac00 100644 --- a/awesome/ocr-tools.md +++ b/awesome/ocr-tools.md @@ -3,17 +3,20 @@ [![Tesseract](http://img.memect.com/05jtNcF8k5Kgc3Euvqf5rfZCinM=/400x0/t/1b014ddddc07c435ce3775f3ba85199e706d69456870b9fcb24b5d8ce8c684da)](http://hao.memect.com/?tag=ocr-tools) # Top Reading - Market Survey -http://lib.psnc.pl/Content/358/PSNC_Tesseract-FineReader-report.pdf Report on the comparison of Tesseract and -ABBYY FineReader OCR engines (2012) - https://tesseract-ocr.googlecode.com/files/TesseractOSCON.pdf Tesseract features and key issues (2007) -http://lifehacker.com/5624781/five-best-text-recognition-tools +http://www.assistivetechnology.vcu.edu/files/2013/09/pxc3882784.pdf Optical Character Recognition by Open Source OCR +Tool Tesseract: A Case Study + +http://lifehacker.com/5624781/five-best-text-recognition-tools http://www.zhihu.com/question/19593313 http://www.perfectgeeks.com/list/top-best-free-ocr-software/13 +http://lib.psnc.pl/Content/358/PSNC_Tesseract-FineReader-report.pdf Report on the comparison of Tesseract and +ABBYY FineReader OCR engines (2012) + # best OCR tools https://code.google.com/p/tesseract-ocr/ mostly used open source ocr software. apache 2.0. It has been improved extensively by Google From 268bc35d0a100983f152a4753689c21a2d5dce2b Mon Sep 17 00:00:00 2001 From: haoawesome Date: Sun, 3 Aug 2014 16:31:15 -0700 Subject: [PATCH 037/485] Update ocr-tools.md --- awesome/ocr-tools.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/ocr-tools.md b/awesome/ocr-tools.md index ff3ac00..32dc7d8 100644 --- a/awesome/ocr-tools.md +++ b/awesome/ocr-tools.md @@ -6,7 +6,7 @@ https://tesseract-ocr.googlecode.com/files/TesseractOSCON.pdf Tesseract features and key issues (2007) http://www.assistivetechnology.vcu.edu/files/2013/09/pxc3882784.pdf Optical Character Recognition by Open Source OCR -Tool Tesseract: A Case Study +Tool Tesseract: A Case Study (2012) http://lifehacker.com/5624781/five-best-text-recognition-tools From 99f38d1433821ac028921dde4ee80f1311024033 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Sun, 3 Aug 2014 16:46:52 -0700 Subject: [PATCH 038/485] Update ocr-tools.md --- awesome/ocr-tools.md | 7 ++++++- 1 file changed, 6 insertions(+), 1 deletion(-) diff --git a/awesome/ocr-tools.md b/awesome/ocr-tools.md index 32dc7d8..1d6a922 100644 --- a/awesome/ocr-tools.md +++ b/awesome/ocr-tools.md @@ -1,4 +1,9 @@ -极客杨的OCR工具箱:Tesseract 是目前应用最广泛的免费开源OCR工具(背后有Google的支持)。商业产品有ABBYY的finereader,还有Adobe;国产的有文通和汉王。当前热点是将OCR移植到智能手机上拓展新的输入渠道、IOS有基于Tesseract的实现,Android有高通vuforia API。资料卡片流: http://hao.memect.com/?tag=ocr-tools +极客杨的OCR工具箱:Tesseract 是目前应用最广泛的免费开源OCR工具(背后有Google的支持)。商业产品有ABBYY的finereader,还有Adobe;国产的有文通和汉王。当前热点是将OCR移植到智能手机上拓展新的输入渠道、IOS有基于Tesseract的实现,Android有高通vuforia API。 + +识别效率高低的关键还是调参数,主要两点:不同的语言有不同的初始设置; 有颜色或渐进的背景会极大降低识别准确率,需要先转换成黑白/灰度模式(可以试试OpenCV)。 推荐看两篇文章,一篇是Tesseract简介(2007),另一篇报告了Tesseract在处理彩色图片中遇到的问题。 + +资料卡片流: http://hao.memect.com/?tag=ocr-tools + [![Tesseract](http://img.memect.com/05jtNcF8k5Kgc3Euvqf5rfZCinM=/400x0/t/1b014ddddc07c435ce3775f3ba85199e706d69456870b9fcb24b5d8ce8c684da)](http://hao.memect.com/?tag=ocr-tools) From b6027eb0ce9f00292b874bb436d0cbda9d272fcc Mon Sep 17 00:00:00 2001 From: haoawesome Date: Sun, 3 Aug 2014 16:50:06 -0700 Subject: [PATCH 039/485] Update ocr-tools.md --- awesome/ocr-tools.md | 13 ++++++++++++- 1 file changed, 12 insertions(+), 1 deletion(-) diff --git a/awesome/ocr-tools.md b/awesome/ocr-tools.md index 1d6a922..506eca5 100644 --- a/awesome/ocr-tools.md +++ b/awesome/ocr-tools.md @@ -30,6 +30,16 @@ http://finereader.abbyy.com/ one of the best commercial product http://www.wintone.com.cn/en/ one of the best commercial product for Chinese +# Tesseract in action and Q/A +http://benschmidt.org/dighist13/?page_id=129 + +http://stackoverflow.com/questions/13511102/ios-tesseract-ocr-image-preperation + +http://stackoverflow.com/questions/9480013/image-processing-to-improve-tesseract-ocr-accuracy?rq=1 + +http://www.sk-spell.sk.cx/tesseract-ocr-parameters-in-302-version + + # Tesseract related applications https://github.com/gali8/Tesseract-OCR-iOS @@ -38,9 +48,10 @@ https://github.com/rmtheis/android-ocr https://github.com/rmtheis/tess-two -http://benschmidt.org/dighist13/?page_id=129 # misc https://developer.vuforia.com/resources/sample-apps/text-recognition https://www.youtube.com/watch?v=KLqFQ2u52iU + +http://blog.ayoungprogrammer.com/2013/01/equation-ocr-part-1-using-contours-to.html From ebbba6911077d5e01e0427c0dfcf2c91a18d06ba Mon Sep 17 00:00:00 2001 From: haoawesome Date: Sun, 3 Aug 2014 17:56:31 -0700 Subject: [PATCH 040/485] Update README.md --- README.md | 6 ++++++ 1 file changed, 6 insertions(+) diff --git a/README.md b/README.md index c3a2ff0..cd35395 100644 --- a/README.md +++ b/README.md @@ -27,6 +27,12 @@ ## 最近的问答 + +* 2014-08-04 **SSDB是一个高性能 NoSQL 数据库**, 支持哈希表,集合,列表等数据结构。它作为redis的替代或补充,可以用很小的内存代价实现十亿级别数据的存储。工具与生态系统生长非常迅速,已为众多互联网企业所使用。核心推荐资源 http://t.cn/RPi1q47 所有资源http://t.cn/RPi1q4h 作者是@ideawu [ [微博](http://www.weibo.com/5220650532/BgGtV6K6H?mod=weibotime) ] + +* 2014-08-04 **极客杨的OCR工具箱**:Tesseract 是目前应用最广泛的免费开源OCR工具(背后有Google的支持)。商业产品有ABBYY的finereader,还有Adobe;国产的有文通和汉王。当前热点是将OCR移植到智能手机上拓展新的输入渠道、IOS有基于Tesseract的实现,Android有高通vuforia API。资料卡片流: http://t.cn/RPiRyYc [ [讨论](https://github.com/memect/hao/issues/43) ] [ [微博](http://www.weibo.com/5220650532/BgFEdjQG7?mod=weibotime) ] + + * 2014-08-04 @zbyufei 问:**基于python开发的Code online系统有哪些。类似于Cloud9 IDE的**。@登州知府 答:开源Online IDE的开发语言比较常见的是Node.js, Java和PHP,python的真没怎么见过。支持Python的IDE,@南京话zen好听 推荐 koding.com @康积华_绩点侠 推荐codeskulptor,所有IDE列表见 http://t.cn/RPxOOPE [ [讨论](https://github.com/memect/hao/issues/22) ] [ [微博](http://www.weibo.com/5220650532/BgEQUaeo2?ref=) ] * 2014-08-03 @孙明明_SmarterChina 特别推荐@李航博士 和@徐君_ 的新书**《Semantic Matching in Search》该书阐述了搜索中语义匹配的基本方法**,如查询重写,关键词依赖,翻译,主题模型, 潜在空间模型Latent Space Model, 学习匹配Learning to Matching等。作者提供了电子版下载。预览与目录 http://t.cn/RPiq2hc [ [微博](http://www.weibo.com/5220650532/BgAwzD3LJ?mod=weibotime) ] From 466cf59dd24c54c2646cf2bbebec68eb97d52c4e Mon Sep 17 00:00:00 2001 From: haoawesome Date: Sun, 3 Aug 2014 18:00:23 -0700 Subject: [PATCH 041/485] Update README.md --- README.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/README.md b/README.md index cd35395..8ff09d6 100644 --- a/README.md +++ b/README.md @@ -32,6 +32,7 @@ * 2014-08-04 **极客杨的OCR工具箱**:Tesseract 是目前应用最广泛的免费开源OCR工具(背后有Google的支持)。商业产品有ABBYY的finereader,还有Adobe;国产的有文通和汉王。当前热点是将OCR移植到智能手机上拓展新的输入渠道、IOS有基于Tesseract的实现,Android有高通vuforia API。资料卡片流: http://t.cn/RPiRyYc [ [讨论](https://github.com/memect/hao/issues/43) ] [ [微博](http://www.weibo.com/5220650532/BgFEdjQG7?mod=weibotime) ] +* 2014-08-04 @AOzil 问:**可否推荐一些创意自适应的资料** 答:Creative Optimization是一种面向用户自动优化广告内容与展示的技术。斯坦福大学计算广告学入门 http://t.cn/RPiQ6Zn 阐述了基本概念 10个相关厂家从不同侧面的介绍与宣传 http://t.cn/RPiQ6Zm 新闻 和国内专家@刘铁岩 的评论 http://t.cn/RPiQ6ZR [ [讨论](https://github.com/memect/hao/issues/23) ] [ [微博](http://www.weibo.com/5220650532/BgFbclmQD?mod=weibotime) ] * 2014-08-04 @zbyufei 问:**基于python开发的Code online系统有哪些。类似于Cloud9 IDE的**。@登州知府 答:开源Online IDE的开发语言比较常见的是Node.js, Java和PHP,python的真没怎么见过。支持Python的IDE,@南京话zen好听 推荐 koding.com @康积华_绩点侠 推荐codeskulptor,所有IDE列表见 http://t.cn/RPxOOPE [ [讨论](https://github.com/memect/hao/issues/22) ] [ [微博](http://www.weibo.com/5220650532/BgEQUaeo2?ref=) ] @@ -47,6 +48,7 @@ * 2014-08-02 @羊_o羊o羊爱小破厂 问:**需要tornado的资料**。答:Tornado是一个非阻塞式Python网络框架,并发性能优于大多数其他Python框架。这组资料是基本介绍,中英文都有 http://t.cn/RPxYjIs 更多见Python精华区Tornado资料 http://t.cn/RPxYjMv 稍后我们会分期介绍它与Gevent, Nodejs, Flask的比较 [ [讨论](https://github.com/memect/hao/issues/24) ] [ [微博](http://www.weibo.com/5220650532/Bgn0l5KPA?mod=weibotime) ] +* 2014-08-02 @钱知易 问有没有机器学习和深度学习在多媒体信息检索领域的资源?答:机器学习应用太广,本条只涉及深度学习。其中图像检索@姚鹏鹏YPP 已问过,见答案http://t.cn/RPxj0Y6 语音检索,Google语音组和微软邓力等是领先的,他们主页上的文章基本代表了前沿,一些教程在此 http://t.cn/RPxj0Yi [ [讨论](https://github.com/memect/hao/issues/39) ] [ [微博](http://www.weibo.com/5220650532/BgmM3uZBv?mod=weibotime) ] * 2014-08-02 世界级专家精选讲义第一组,今天推出RPI的**James Hendler** (维基百科介绍 http://t.cn/RPxlN6p )**研究领域人工智能和Web科学**,前IEEE Intelligent Systems主编。合集有40个讲义 http://t.cn/RPxlN60 17个视频 http://t.cn/RPxlN6W 特别推荐3个 http://t.cn/RPxlN6O 全集 http://t.cn/RPxlN6l [ [微博](http://www.weibo.com/5220650532/Bgmqdh2r2?ref=home) ] From 338eaf208f58ec462198c221163aa342fc905a4d Mon Sep 17 00:00:00 2001 From: haoawesome Date: Sun, 3 Aug 2014 18:03:15 -0700 Subject: [PATCH 042/485] Updated README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 8ff09d6..84dba4b 100644 --- a/README.md +++ b/README.md @@ -48,7 +48,7 @@ * 2014-08-02 @羊_o羊o羊爱小破厂 问:**需要tornado的资料**。答:Tornado是一个非阻塞式Python网络框架,并发性能优于大多数其他Python框架。这组资料是基本介绍,中英文都有 http://t.cn/RPxYjIs 更多见Python精华区Tornado资料 http://t.cn/RPxYjMv 稍后我们会分期介绍它与Gevent, Nodejs, Flask的比较 [ [讨论](https://github.com/memect/hao/issues/24) ] [ [微博](http://www.weibo.com/5220650532/Bgn0l5KPA?mod=weibotime) ] -* 2014-08-02 @钱知易 问有没有机器学习和深度学习在多媒体信息检索领域的资源?答:机器学习应用太广,本条只涉及深度学习。其中图像检索@姚鹏鹏YPP 已问过,见答案http://t.cn/RPxj0Y6 语音检索,Google语音组和微软邓力等是领先的,他们主页上的文章基本代表了前沿,一些教程在此 http://t.cn/RPxj0Yi [ [讨论](https://github.com/memect/hao/issues/39) ] [ [微博](http://www.weibo.com/5220650532/BgmM3uZBv?mod=weibotime) ] +* 2014-08-02 @钱知易 问有没有**机器学习和深度学习在多媒体信息检索领域的资源**?答:机器学习应用太广,本条只涉及深度学习。其中图像检索@姚鹏鹏YPP 已问过,见答案http://t.cn/RPxj0Y6 语音检索,Google语音组和微软邓力等是领先的,他们主页上的文章基本代表了前沿,一些教程在此 http://t.cn/RPxj0Yi [ [讨论](https://github.com/memect/hao/issues/39) ] [ [微博](http://www.weibo.com/5220650532/BgmM3uZBv?mod=weibotime) ] * 2014-08-02 世界级专家精选讲义第一组,今天推出RPI的**James Hendler** (维基百科介绍 http://t.cn/RPxlN6p )**研究领域人工智能和Web科学**,前IEEE Intelligent Systems主编。合集有40个讲义 http://t.cn/RPxlN60 17个视频 http://t.cn/RPxlN6W 特别推荐3个 http://t.cn/RPxlN6O 全集 http://t.cn/RPxlN6l [ [微博](http://www.weibo.com/5220650532/Bgmqdh2r2?ref=home) ] From 9c72a29896c22af83d890fb696610a16181dfe31 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Sun, 3 Aug 2014 18:35:49 -0700 Subject: [PATCH 043/485] Updated README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 84dba4b..db80e57 100644 --- a/README.md +++ b/README.md @@ -28,7 +28,7 @@ ## 最近的问答 -* 2014-08-04 **SSDB是一个高性能 NoSQL 数据库**, 支持哈希表,集合,列表等数据结构。它作为redis的替代或补充,可以用很小的内存代价实现十亿级别数据的存储。工具与生态系统生长非常迅速,已为众多互联网企业所使用。核心推荐资源 http://t.cn/RPi1q47 所有资源http://t.cn/RPi1q4h 作者是@ideawu [ [微博](http://www.weibo.com/5220650532/BgGtV6K6H?mod=weibotime) ] +* 2014-08-04 **SSDB是一个高性能 NoSQL 数据库**, 支持哈希表,集合,列表等数据结构。它作为redis的替代或补充,可以用很小的内存代价实现十亿级别数据的存储。工具与生态系统生长非常迅速,已为众多互联网企业所使用。核心推荐资源 http://t.cn/RPi1q47 所有资源http://t.cn/RPi1q4h 作者是@ideawu [ [讨论](https://github.com/memect/hao/issues/51) ] [ [微博](http://www.weibo.com/5220650532/BgGtV6K6H?mod=weibotime) ] * 2014-08-04 **极客杨的OCR工具箱**:Tesseract 是目前应用最广泛的免费开源OCR工具(背后有Google的支持)。商业产品有ABBYY的finereader,还有Adobe;国产的有文通和汉王。当前热点是将OCR移植到智能手机上拓展新的输入渠道、IOS有基于Tesseract的实现,Android有高通vuforia API。资料卡片流: http://t.cn/RPiRyYc [ [讨论](https://github.com/memect/hao/issues/43) ] [ [微博](http://www.weibo.com/5220650532/BgFEdjQG7?mod=weibotime) ] From 21982b5d6cf55c2725ef1a07f15a48cf4148a9ea Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 5 Aug 2014 17:51:30 -0700 Subject: [PATCH 044/485] Create rdb-rdf.md --- awesome/rdb-rdf.md | 39 +++++++++++++++++++++++++++++++++++++++ 1 file changed, 39 insertions(+) create mode 100644 awesome/rdb-rdf.md diff --git a/awesome/rdb-rdf.md b/awesome/rdb-rdf.md new file mode 100644 index 0000000..24069e0 --- /dev/null +++ b/awesome/rdb-rdf.md @@ -0,0 +1,39 @@ +# Relational Databases to RDF (RDB2RDF) + +editor(s): @wwumit @haoawesome + +# Overview +http://www.csee.umbc.edu/courses/graduate/691/spring14/01/notes/20_rdbs/20r2r.pdf Short story - RDB and RDF 1, Tim Finin's class notes - CMSC 491/691 Special Topics: A Web of Data http://www.csee.umbc.edu/courses/graduate/691/spring14/01/ + +http://www.slideshare.net/juansequeda/rdb2-rdf-tutorial-iswc2013 Longer story, the Relational Databases to RDF (RDB2RDF) Tutorial at the 2013 International Semantic Web Conference (ISWC2013) + +http://www.w3.org/2001/sw/wiki/RDB2RDF + + +# W3C Recommendations + +http://www.w3.org/TR/r2rml/ R2RDF, W3C Recommendation 2012 + +http://www.w3.org/TR/rdb-direct-mapping/ Direct Mapping, W3C Recommendation 2012 + +# Tools + +## Academic Research + +https://github.com/nkons/r2rml-parser + +https://github.com/antidot/db2triples + +http://d2rq.org/ + +http://www.capsenta.com/ + +http://www.dblab.ntua.gr/~bikakis/SPARQL-RW.html + +http://www.dblab.ntua.gr/~bikakis/SPARQL2XQuery.html + +## Commerial Rools +OpenLink Virtuoso: http://virtuoso.openlinksw.com/dataspace/doc/dav/wiki/Main/VirtR2RML + +Oracle database: http://docs.oracle.com/database/121/RDFRM/sem_relational_views.htm + From fba7f25c3ecc5cd16cb08998083b16cc92f06bf9 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 5 Aug 2014 17:55:35 -0700 Subject: [PATCH 045/485] add abstract --- awesome/rdb-rdf.md | 4 +++- 1 file changed, 3 insertions(+), 1 deletion(-) diff --git a/awesome/rdb-rdf.md b/awesome/rdb-rdf.md index 24069e0..d65c0f0 100644 --- a/awesome/rdb-rdf.md +++ b/awesome/rdb-rdf.md @@ -1,6 +1,8 @@ # Relational Databases to RDF (RDB2RDF) +摘要:[经典收藏]如何将关系数据库数据映射到语义万维网RDF表达方式并支持SPARQL查询语言。 + +editor(s): [Wu Wei](https://github.com/wwumit) [@haoawesome](https://github.com/haoawesome) -editor(s): @wwumit @haoawesome # Overview http://www.csee.umbc.edu/courses/graduate/691/spring14/01/notes/20_rdbs/20r2r.pdf Short story - RDB and RDF 1, Tim Finin's class notes - CMSC 491/691 Special Topics: A Web of Data http://www.csee.umbc.edu/courses/graduate/691/spring14/01/ From 8c15bc01147dd249898e945cb57f50f5722e2ddd Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 5 Aug 2014 17:56:11 -0700 Subject: [PATCH 046/485] Update rdb-rdf.md --- awesome/rdb-rdf.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/rdb-rdf.md b/awesome/rdb-rdf.md index d65c0f0..65cd8ce 100644 --- a/awesome/rdb-rdf.md +++ b/awesome/rdb-rdf.md @@ -1,7 +1,7 @@ # Relational Databases to RDF (RDB2RDF) 摘要:[经典收藏]如何将关系数据库数据映射到语义万维网RDF表达方式并支持SPARQL查询语言。 -editor(s): [Wu Wei](https://github.com/wwumit) [@haoawesome](https://github.com/haoawesome) +editor(s): [吴伟](https://github.com/wwumit), [好东西传送门](https://github.com/haoawesome) # Overview From 9cd6602a4fc9e9f4ce838e36ecc5653f0e99c7e7 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 5 Aug 2014 17:56:54 -0700 Subject: [PATCH 047/485] Update rdb-rdf.md --- awesome/rdb-rdf.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/rdb-rdf.md b/awesome/rdb-rdf.md index 65cd8ce..7d3d67e 100644 --- a/awesome/rdb-rdf.md +++ b/awesome/rdb-rdf.md @@ -5,7 +5,7 @@ editor(s): [吴伟](https://github.com/wwumit), [好东西传送门](https://git # Overview -http://www.csee.umbc.edu/courses/graduate/691/spring14/01/notes/20_rdbs/20r2r.pdf Short story - RDB and RDF 1, Tim Finin's class notes - CMSC 491/691 Special Topics: A Web of Data http://www.csee.umbc.edu/courses/graduate/691/spring14/01/ +http://www.csee.umbc.edu/courses/graduate/691/spring14/01/notes/20_rdbs/20r2r.pdf Short story - RDB and RDF 1, Tim Finin's class notes - [CMSC 491/691 Special Topics: A Web of Data]( http://www.csee.umbc.edu/courses/graduate/691/spring14/01/) http://www.slideshare.net/juansequeda/rdb2-rdf-tutorial-iswc2013 Longer story, the Relational Databases to RDF (RDB2RDF) Tutorial at the 2013 International Semantic Web Conference (ISWC2013) From 309377c853df39de638be1aa33228b4de34ccc49 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 5 Aug 2014 17:57:13 -0700 Subject: [PATCH 048/485] Update rdb-rdf.md --- awesome/rdb-rdf.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/rdb-rdf.md b/awesome/rdb-rdf.md index 7d3d67e..ab5357b 100644 --- a/awesome/rdb-rdf.md +++ b/awesome/rdb-rdf.md @@ -7,7 +7,7 @@ editor(s): [吴伟](https://github.com/wwumit), [好东西传送门](https://git # Overview http://www.csee.umbc.edu/courses/graduate/691/spring14/01/notes/20_rdbs/20r2r.pdf Short story - RDB and RDF 1, Tim Finin's class notes - [CMSC 491/691 Special Topics: A Web of Data]( http://www.csee.umbc.edu/courses/graduate/691/spring14/01/) -http://www.slideshare.net/juansequeda/rdb2-rdf-tutorial-iswc2013 Longer story, the Relational Databases to RDF (RDB2RDF) Tutorial at the 2013 International Semantic Web Conference (ISWC2013) +http://www.slideshare.net/juansequeda/rdb2-rdf-tutorial-iswc2013 Long story - the Relational Databases to RDF (RDB2RDF) Tutorial at the 2013 International Semantic Web Conference (ISWC2013) http://www.w3.org/2001/sw/wiki/RDB2RDF From cfdbd2172a368bceeaa313e15e665507258e2fb2 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 5 Aug 2014 17:57:50 -0700 Subject: [PATCH 049/485] Update rdb-rdf.md --- awesome/rdb-rdf.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/awesome/rdb-rdf.md b/awesome/rdb-rdf.md index ab5357b..17498c2 100644 --- a/awesome/rdb-rdf.md +++ b/awesome/rdb-rdf.md @@ -35,7 +35,7 @@ http://www.dblab.ntua.gr/~bikakis/SPARQL-RW.html http://www.dblab.ntua.gr/~bikakis/SPARQL2XQuery.html ## Commerial Rools -OpenLink Virtuoso: http://virtuoso.openlinksw.com/dataspace/doc/dav/wiki/Main/VirtR2RML +http://virtuoso.openlinksw.com/dataspace/doc/dav/wiki/Main/VirtR2RML OpenLink Virtuoso -Oracle database: http://docs.oracle.com/database/121/RDFRM/sem_relational_views.htm +http://docs.oracle.com/database/121/RDFRM/sem_relational_views.htm Oracle database From 4cdc3c8d2efe0eb4daaf52ab85f7a10e6be74034 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 5 Aug 2014 21:05:56 -0700 Subject: [PATCH 050/485] Update README.md --- README.md | 12 ++++++++++++ 1 file changed, 12 insertions(+) diff --git a/README.md b/README.md index db80e57..998377f 100644 --- a/README.md +++ b/README.md @@ -28,6 +28,18 @@ ## 最近的问答 +* 2014-08-06 @昊奋 推荐:在这个机器学习大行其道的年代,了解规则系统,以及他们之间的结合是很有必要的。推荐纽约州立大学Stonybrook分校Senlin Liang的工作**OpenRuleBench:比较了5种不同类型的规则系统**,演绎数据库, 语义规则引擎, 基于Prolog系统等,如jena, dlv jess xsb owlim http://t.cn/RPaGJHV [ [微博](http://www.weibo.com/5220650532/BgZ9CtRHL?mod=weibotime) ] + +* 2014-08-06 [经典资料] **Google云计算的7个里程碑**: GFS(文件系统), MapReduce(计算模型), BigTable(结构数据存储NoSQL), Dremel(大数据查询分析), Colossus(GFS第2版), Spanner(BigTable+分布式事务管理), Compute Engine(云计算平台,AWS竞争对手)。含原论文、幻灯片、短教程以及业内风评 http://t.cn/RPaU89N [ [微博](http://www.weibo.com/5220650532/BgYHoimrP?mod=weibotime) ] + +* 2014-08-05 [公开课] **斯坦福的计算广告学入门**。整个教程一共9讲,包括市场设计、文字广告、上下文广告、展示广告、广告定向、广告推荐、和新形式广告。这是网上为数不多的计算广告学公开教程,由两位Yahoo科学家Andrei Broder和Vanja Josifovski,主讲,乃多年实战经验总结。http://t.cn/RPX0423 [ [微博](http://www.weibo.com/5220650532/BgT8YwOqI?mod=weibotime) ] + +* 2014-08-05 **回答集编程(Answer Set Programming)是一种强大的规则推理语言**。它可以用于解决那些困难(例如NP-hard)的问题。从数据库查询,自然语言理解,生物信息学,到石油勘探,ASP有非常广泛的应用。@Logician_wolfel 推荐了一组最新的ASP教程 http://t.cn/RP6kRm4 有逻辑的问题请教他没错 [ [微博](http://www.weibo.com/5220650532/BgPw08I4B?mod=weibotime) ] + +* 2014-08-04 @昊奋 **关于知识图谱的第二组推荐**:知识图谱的构建及其应用,介绍了probabilisic KB(Google) KnowledgeVault,Sonya, Satori/Probase (Microsoft),YAGO,LOD2等重要的知识图谱系统。知识库构建,实体抽取、实体链接,查询理解和扩展, 语义搜索,等基础技术汇集在10篇核心文献http://t.cn/RP6JCGn [ [微博](http://www.weibo.com/5220650532/BgJPZo8jJ?mod=weibotime) ] + +* 2014-08-04 @西瓜大丸子汤 问:**识别水贴(微博,回复,留言)和有价值的贴**。这个各路英雄有没有能指点一下的? @刘知远THU 答:刚看到 软件学报 上有篇研究综述:网络水军识别研究。 @QPCN 答:今年www有个tutorial,utah state的lee,关键词crowdturfing 汇总如下: http://t.cn/RP6MOOV 欢迎增补 [ [微博](http://www.weibo.com/5220650532/BgJEbslQz?mod=weibotime) ] + * 2014-08-04 **SSDB是一个高性能 NoSQL 数据库**, 支持哈希表,集合,列表等数据结构。它作为redis的替代或补充,可以用很小的内存代价实现十亿级别数据的存储。工具与生态系统生长非常迅速,已为众多互联网企业所使用。核心推荐资源 http://t.cn/RPi1q47 所有资源http://t.cn/RPi1q4h 作者是@ideawu [ [讨论](https://github.com/memect/hao/issues/51) ] [ [微博](http://www.weibo.com/5220650532/BgGtV6K6H?mod=weibotime) ] * 2014-08-04 **极客杨的OCR工具箱**:Tesseract 是目前应用最广泛的免费开源OCR工具(背后有Google的支持)。商业产品有ABBYY的finereader,还有Adobe;国产的有文通和汉王。当前热点是将OCR移植到智能手机上拓展新的输入渠道、IOS有基于Tesseract的实现,Android有高通vuforia API。资料卡片流: http://t.cn/RPiRyYc [ [讨论](https://github.com/memect/hao/issues/43) ] [ [微博](http://www.weibo.com/5220650532/BgFEdjQG7?mod=weibotime) ] From 5fa3e3a5cf2032a78124ddfcdfd566c7df1f2596 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 5 Aug 2014 21:51:46 -0700 Subject: [PATCH 051/485] Update rdb-rdf.md --- awesome/rdb-rdf.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/rdb-rdf.md b/awesome/rdb-rdf.md index 17498c2..f92d5fb 100644 --- a/awesome/rdb-rdf.md +++ b/awesome/rdb-rdf.md @@ -34,7 +34,7 @@ http://www.dblab.ntua.gr/~bikakis/SPARQL-RW.html http://www.dblab.ntua.gr/~bikakis/SPARQL2XQuery.html -## Commerial Rools +## Commerial Tools http://virtuoso.openlinksw.com/dataspace/doc/dav/wiki/Main/VirtR2RML OpenLink Virtuoso http://docs.oracle.com/database/121/RDFRM/sem_relational_views.htm Oracle database From a15c138175656a2d0b58309fb0b0b5dd976f7472 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 01:09:41 -0700 Subject: [PATCH 052/485] Create sparser-representation-cv.md --- awesome/sparser-representation-cv.md | 8 ++++++++ 1 file changed, 8 insertions(+) create mode 100644 awesome/sparser-representation-cv.md diff --git a/awesome/sparser-representation-cv.md b/awesome/sparser-representation-cv.md new file mode 100644 index 0000000..97ad5fb --- /dev/null +++ b/awesome/sparser-representation-cv.md @@ -0,0 +1,8 @@ +http://www.eecs.berkeley.edu/~yang/software/l1benchmark/index.html sparse Optimization +http://perception.csl.illinois.edu/matrix-rank/ Low-Rank Representation +http://www.eecs.berkeley.edu/%7Eyang/courses/ECCV2012/ECCV12-lecture1.pdf Introduction to Sparse Representation and Low-Rank Representation +http://www.eecs.berkeley.edu/%7Eyang/courses/ECCV2012/ECCV12-lecture2.pdf Variations of Sparse Optimization and Their Numerical Implementation +http://www.eecs.berkeley.edu/%7Eyang/courses/ECCV2012/ECCV12-lecture3.pdf Finding and Harnessing Low-Dimensional Structure of High-Dimensional Data +http://www.eecs.berkeley.edu/~yang/ Allen Y. Yang +http://www.columbia.edu/~jw2966/ John Wright +http://yima.csl.illinois.edu/ Yi Ma From ccb8fc58f5bbd9ef65b76fc624741ff94cffe67b Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 01:10:10 -0700 Subject: [PATCH 053/485] Update sparser-representation-cv.md --- awesome/sparser-representation-cv.md | 7 +++++++ 1 file changed, 7 insertions(+) diff --git a/awesome/sparser-representation-cv.md b/awesome/sparser-representation-cv.md index 97ad5fb..dbc57cb 100644 --- a/awesome/sparser-representation-cv.md +++ b/awesome/sparser-representation-cv.md @@ -1,8 +1,15 @@ http://www.eecs.berkeley.edu/~yang/software/l1benchmark/index.html sparse Optimization + http://perception.csl.illinois.edu/matrix-rank/ Low-Rank Representation + http://www.eecs.berkeley.edu/%7Eyang/courses/ECCV2012/ECCV12-lecture1.pdf Introduction to Sparse Representation and Low-Rank Representation + http://www.eecs.berkeley.edu/%7Eyang/courses/ECCV2012/ECCV12-lecture2.pdf Variations of Sparse Optimization and Their Numerical Implementation + http://www.eecs.berkeley.edu/%7Eyang/courses/ECCV2012/ECCV12-lecture3.pdf Finding and Harnessing Low-Dimensional Structure of High-Dimensional Data + http://www.eecs.berkeley.edu/~yang/ Allen Y. Yang + http://www.columbia.edu/~jw2966/ John Wright + http://yima.csl.illinois.edu/ Yi Ma From b8c8912711d9899f2d8e76287f76b88f2b619013 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 01:30:56 -0700 Subject: [PATCH 054/485] Rename sparser-representation-cv.md to sparse-representation-cv.md --- .../{sparser-representation-cv.md => sparse-representation-cv.md} | 0 1 file changed, 0 insertions(+), 0 deletions(-) rename awesome/{sparser-representation-cv.md => sparse-representation-cv.md} (100%) diff --git a/awesome/sparser-representation-cv.md b/awesome/sparse-representation-cv.md similarity index 100% rename from awesome/sparser-representation-cv.md rename to awesome/sparse-representation-cv.md From ad29bc7dd293f75e927d0ccd7bb1b4670976249c Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 15:08:26 -0700 Subject: [PATCH 055/485] Update README.md --- README.md | 3 +-- 1 file changed, 1 insertion(+), 2 deletions(-) diff --git a/README.md b/README.md index 998377f..d73262d 100644 --- a/README.md +++ b/README.md @@ -1,5 +1,4 @@ - - +
好东西传送门: 微博上的轻问答 Crowd-sourced LiteQA * 关注微博 http://www.weibo.com/haoawesome/ * 微信号:好东西传送门 From b098f747258c59379fc474349df1606b1cccea2b Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 15:09:06 -0700 Subject: [PATCH 056/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index d73262d..8b54a8e 100644 --- a/README.md +++ b/README.md @@ -1,4 +1,4 @@ -
+ 好东西传送门: 微博上的轻问答 Crowd-sourced LiteQA * 关注微博 http://www.weibo.com/haoawesome/ * 微信号:好东西传送门 From 13a04b6684db3c6e174ceca818fda967730d3893 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 15:09:20 -0700 Subject: [PATCH 057/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 8b54a8e..209cba4 100644 --- a/README.md +++ b/README.md @@ -1,4 +1,4 @@ - + 好东西传送门: 微博上的轻问答 Crowd-sourced LiteQA * 关注微博 http://www.weibo.com/haoawesome/ * 微信号:好东西传送门 From 2bfc83f34ccd9f0aa113e339b6b7ec9bfe618202 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 15:12:25 -0700 Subject: [PATCH 058/485] Update README.md --- README.md | 1 + 1 file changed, 1 insertion(+) diff --git a/README.md b/README.md index 209cba4..e1216a6 100644 --- a/README.md +++ b/README.md @@ -1,4 +1,5 @@ +![好东西传送门Logo](http://u.memect.com/shared/image/hao.png =100x100) 好东西传送门: 微博上的轻问答 Crowd-sourced LiteQA * 关注微博 http://www.weibo.com/haoawesome/ * 微信号:好东西传送门 From eedfb94d4954d15608d373b90cb99896b03aab8d Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 15:15:46 -0700 Subject: [PATCH 059/485] Update README.md --- README.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index e1216a6..e8d4e53 100644 --- a/README.md +++ b/README.md @@ -1,11 +1,11 @@ -![好东西传送门Logo](http://u.memect.com/shared/image/hao.png =100x100) +
    好东西传送门: 微博上的轻问答 Crowd-sourced LiteQA * 关注微博 http://www.weibo.com/haoawesome/ * 微信号:好东西传送门 * 网站 http://hao.memect.com/ * Github https://github.com/memect/hao - +
还没有回答的问题,欢迎认领 https://github.com/memect/hao/issues [给我们提建议](https://github.com/memect/hao/issues/new) From 0d48e6ccd18c88a1b14e46d62e8d12d69a787c1b Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 15:17:49 -0700 Subject: [PATCH 060/485] Update README.md --- README.md | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/README.md b/README.md index e8d4e53..f4e8f27 100644 --- a/README.md +++ b/README.md @@ -1,11 +1,11 @@ -
    + 好东西传送门: 微博上的轻问答 Crowd-sourced LiteQA * 关注微博 http://www.weibo.com/haoawesome/ * 微信号:好东西传送门 * 网站 http://hao.memect.com/ * Github https://github.com/memect/hao -
+ 还没有回答的问题,欢迎认领 https://github.com/memect/hao/issues [给我们提建议](https://github.com/memect/hao/issues/new) @@ -28,7 +28,7 @@ ## 最近的问答 -* 2014-08-06 @昊奋 推荐:在这个机器学习大行其道的年代,了解规则系统,以及他们之间的结合是很有必要的。推荐纽约州立大学Stonybrook分校Senlin Liang的工作**OpenRuleBench:比较了5种不同类型的规则系统**,演绎数据库, 语义规则引擎, 基于Prolog系统等,如jena, dlv jess xsb owlim http://t.cn/RPaGJHV [ [微博](http://www.weibo.com/5220650532/BgZ9CtRHL?mod=weibotime) ] + 2014-08-06 @昊奋 推荐:在这个机器学习大行其道的年代,了解规则系统,以及他们之间的结合是很有必要的。推荐纽约州立大学Stonybrook分校Senlin Liang的工作**OpenRuleBench:比较了5种不同类型的规则系统**,演绎数据库, 语义规则引擎, 基于Prolog系统等,如jena, dlv jess xsb owlim http://t.cn/RPaGJHV [ [微博](http://www.weibo.com/5220650532/BgZ9CtRHL?mod=weibotime) ] * 2014-08-06 [经典资料] **Google云计算的7个里程碑**: GFS(文件系统), MapReduce(计算模型), BigTable(结构数据存储NoSQL), Dremel(大数据查询分析), Colossus(GFS第2版), Spanner(BigTable+分布式事务管理), Compute Engine(云计算平台,AWS竞争对手)。含原论文、幻灯片、短教程以及业内风评 http://t.cn/RPaU89N [ [微博](http://www.weibo.com/5220650532/BgYHoimrP?mod=weibotime) ] From 70b2e297e85fa551daa0548cb672a0997405d5cb Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 15:18:41 -0700 Subject: [PATCH 061/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index f4e8f27..080bfa5 100644 --- a/README.md +++ b/README.md @@ -1,4 +1,4 @@ - + 好东西传送门: 微博上的轻问答 Crowd-sourced LiteQA * 关注微博 http://www.weibo.com/haoawesome/ From ab7976fd9a5d237b5a7d6c13aa4a264c0d7fbcd5 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 15:19:50 -0700 Subject: [PATCH 062/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 080bfa5..91cb01e 100644 --- a/README.md +++ b/README.md @@ -28,7 +28,7 @@ ## 最近的问答 - 2014-08-06 @昊奋 推荐:在这个机器学习大行其道的年代,了解规则系统,以及他们之间的结合是很有必要的。推荐纽约州立大学Stonybrook分校Senlin Liang的工作**OpenRuleBench:比较了5种不同类型的规则系统**,演绎数据库, 语义规则引擎, 基于Prolog系统等,如jena, dlv jess xsb owlim http://t.cn/RPaGJHV [ [微博](http://www.weibo.com/5220650532/BgZ9CtRHL?mod=weibotime) ] + 2014-08-06 @昊奋 推荐:在这个机器学习大行其道的年代,了解规则系统,以及他们之间的结合是很有必要的。推荐纽约州立大学Stonybrook分校Senlin Liang的工作**OpenRuleBench:比较了5种不同类型的规则系统**,演绎数据库, 语义规则引擎, 基于Prolog系统等,如jena, dlv jess xsb owlim http://t.cn/RPaGJHV [ [微博](http://www.weibo.com/5220650532/BgZ9CtRHL?mod=weibotime) ] * 2014-08-06 [经典资料] **Google云计算的7个里程碑**: GFS(文件系统), MapReduce(计算模型), BigTable(结构数据存储NoSQL), Dremel(大数据查询分析), Colossus(GFS第2版), Spanner(BigTable+分布式事务管理), Compute Engine(云计算平台,AWS竞争对手)。含原论文、幻灯片、短教程以及业内风评 http://t.cn/RPaU89N [ [微博](http://www.weibo.com/5220650532/BgYHoimrP?mod=weibotime) ] From 23c973a104dd928902e4ce5436eb88f7e7fa75d4 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 15:21:13 -0700 Subject: [PATCH 063/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 91cb01e..78f54d1 100644 --- a/README.md +++ b/README.md @@ -28,7 +28,7 @@ ## 最近的问答 - 2014-08-06 @昊奋 推荐:在这个机器学习大行其道的年代,了解规则系统,以及他们之间的结合是很有必要的。推荐纽约州立大学Stonybrook分校Senlin Liang的工作**OpenRuleBench:比较了5种不同类型的规则系统**,演绎数据库, 语义规则引擎, 基于Prolog系统等,如jena, dlv jess xsb owlim http://t.cn/RPaGJHV [ [微博](http://www.weibo.com/5220650532/BgZ9CtRHL?mod=weibotime) ] + 2014-08-06 @昊奋 推荐:在这个机器学习大行其道的年代,了解规则系统,以及他们之间的结合是很有必要的。推荐纽约州立大学Stonybrook分校Senlin Liang的工作**OpenRuleBench:比较了5种不同类型的规则系统**,演绎数据库, 语义规则引擎, 基于Prolog系统等,如jena, dlv jess xsb owlim http://t.cn/RPaGJHV [ [微博](http://www.weibo.com/5220650532/BgZ9CtRHL?mod=weibotime) ] * 2014-08-06 [经典资料] **Google云计算的7个里程碑**: GFS(文件系统), MapReduce(计算模型), BigTable(结构数据存储NoSQL), Dremel(大数据查询分析), Colossus(GFS第2版), Spanner(BigTable+分布式事务管理), Compute Engine(云计算平台,AWS竞争对手)。含原论文、幻灯片、短教程以及业内风评 http://t.cn/RPaU89N [ [微博](http://www.weibo.com/5220650532/BgYHoimrP?mod=weibotime) ] From caca6b7c61f04e804eff954aa42505cf788df28f Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 15:24:51 -0700 Subject: [PATCH 064/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 78f54d1..feef746 100644 --- a/README.md +++ b/README.md @@ -28,7 +28,7 @@ ## 最近的问答 - 2014-08-06 @昊奋 推荐:在这个机器学习大行其道的年代,了解规则系统,以及他们之间的结合是很有必要的。推荐纽约州立大学Stonybrook分校Senlin Liang的工作**OpenRuleBench:比较了5种不同类型的规则系统**,演绎数据库, 语义规则引擎, 基于Prolog系统等,如jena, dlv jess xsb owlim http://t.cn/RPaGJHV [ [微博](http://www.weibo.com/5220650532/BgZ9CtRHL?mod=weibotime) ] + 2014-08-06 @昊奋 推荐:在这个机器学习大行其道的年代,了解规则系统,以及他们之间的结合是很有必要的。推荐纽约州立大学Stonybrook分校Senlin Liang的工作**OpenRuleBench:比较了5种不同类型的规则系统**,演绎数据库, 语义规则引擎, 基于Prolog系统等,如jena, dlv jess xsb owlim http://t.cn/RPaGJHV [ [微博](http://www.weibo.com/5220650532/BgZ9CtRHL?mod=weibotime) ] * 2014-08-06 [经典资料] **Google云计算的7个里程碑**: GFS(文件系统), MapReduce(计算模型), BigTable(结构数据存储NoSQL), Dremel(大数据查询分析), Colossus(GFS第2版), Spanner(BigTable+分布式事务管理), Compute Engine(云计算平台,AWS竞争对手)。含原论文、幻灯片、短教程以及业内风评 http://t.cn/RPaU89N [ [微博](http://www.weibo.com/5220650532/BgYHoimrP?mod=weibotime) ] From 0d8c746eb1bf6737772727f5eeb0c2a6d3bf4b6a Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 15:26:19 -0700 Subject: [PATCH 065/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index feef746..64b622c 100644 --- a/README.md +++ b/README.md @@ -28,7 +28,7 @@ ## 最近的问答 - 2014-08-06 @昊奋 推荐:在这个机器学习大行其道的年代,了解规则系统,以及他们之间的结合是很有必要的。推荐纽约州立大学Stonybrook分校Senlin Liang的工作**OpenRuleBench:比较了5种不同类型的规则系统**,演绎数据库, 语义规则引擎, 基于Prolog系统等,如jena, dlv jess xsb owlim http://t.cn/RPaGJHV [ [微博](http://www.weibo.com/5220650532/BgZ9CtRHL?mod=weibotime) ] +
2014-08-06 @昊奋 推荐:在这个机器学习大行其道的年代,了解规则系统,以及他们之间的结合是很有必要的。推荐纽约州立大学Stonybrook分校Senlin Liang的工作**OpenRuleBench:比较了5种不同类型的规则系统**,演绎数据库, 语义规则引擎, 基于Prolog系统等,如jena, dlv jess xsb owlim http://t.cn/RPaGJHV [ [微博](http://www.weibo.com/5220650532/BgZ9CtRHL?mod=weibotime) ] * 2014-08-06 [经典资料] **Google云计算的7个里程碑**: GFS(文件系统), MapReduce(计算模型), BigTable(结构数据存储NoSQL), Dremel(大数据查询分析), Colossus(GFS第2版), Spanner(BigTable+分布式事务管理), Compute Engine(云计算平台,AWS竞争对手)。含原论文、幻灯片、短教程以及业内风评 http://t.cn/RPaU89N [ [微博](http://www.weibo.com/5220650532/BgYHoimrP?mod=weibotime) ] From f2096a29c84113f3d926befddeec9a8499bae2ac Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 15:32:38 -0700 Subject: [PATCH 066/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 64b622c..6c13184 100644 --- a/README.md +++ b/README.md @@ -28,7 +28,7 @@ ## 最近的问答 -
2014-08-06 @昊奋 推荐:在这个机器学习大行其道的年代,了解规则系统,以及他们之间的结合是很有必要的。推荐纽约州立大学Stonybrook分校Senlin Liang的工作**OpenRuleBench:比较了5种不同类型的规则系统**,演绎数据库, 语义规则引擎, 基于Prolog系统等,如jena, dlv jess xsb owlim http://t.cn/RPaGJHV [ [微博](http://www.weibo.com/5220650532/BgZ9CtRHL?mod=weibotime) ] +
2014-08-06 @昊奋 推荐:在这个机器学习大行其道的年代,了解规则系统,以及他们之间的结合是很有必要的。推荐纽约州立大学Stonybrook分校Senlin Liang的工作**OpenRuleBench:比较了5种不同类型的规则系统**,演绎数据库, 语义规则引擎, 基于Prolog系统等,如jena, dlv jess xsb owlim http://t.cn/RPaGJHV [ [微博](http://www.weibo.com/5220650532/BgZ9CtRHL?mod=weibotime) ] * 2014-08-06 [经典资料] **Google云计算的7个里程碑**: GFS(文件系统), MapReduce(计算模型), BigTable(结构数据存储NoSQL), Dremel(大数据查询分析), Colossus(GFS第2版), Spanner(BigTable+分布式事务管理), Compute Engine(云计算平台,AWS竞争对手)。含原论文、幻灯片、短教程以及业内风评 http://t.cn/RPaU89N [ [微博](http://www.weibo.com/5220650532/BgYHoimrP?mod=weibotime) ] From e7aeaf665232f3d73ac259b34c911079056bd50c Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 15:34:48 -0700 Subject: [PATCH 067/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 6c13184..a2d2c2d 100644 --- a/README.md +++ b/README.md @@ -28,7 +28,7 @@ ## 最近的问答 -
2014-08-06 @昊奋 推荐:在这个机器学习大行其道的年代,了解规则系统,以及他们之间的结合是很有必要的。推荐纽约州立大学Stonybrook分校Senlin Liang的工作**OpenRuleBench:比较了5种不同类型的规则系统**,演绎数据库, 语义规则引擎, 基于Prolog系统等,如jena, dlv jess xsb owlim http://t.cn/RPaGJHV [ [微博](http://www.weibo.com/5220650532/BgZ9CtRHL?mod=weibotime) ] +
    2014-08-06 @昊奋 推荐:在这个机器学习大行其道的年代,了解规则系统,以及他们之间的结合是很有必要的。推荐纽约州立大学Stonybrook分校Senlin Liang的工作**OpenRuleBench:比较了5种不同类型的规则系统**,演绎数据库, 语义规则引擎, 基于Prolog系统等,如jena, dlv jess xsb owlim http://t.cn/RPaGJHV [ [微博](http://www.weibo.com/5220650532/BgZ9CtRHL?mod=weibotime) ]
* 2014-08-06 [经典资料] **Google云计算的7个里程碑**: GFS(文件系统), MapReduce(计算模型), BigTable(结构数据存储NoSQL), Dremel(大数据查询分析), Colossus(GFS第2版), Spanner(BigTable+分布式事务管理), Compute Engine(云计算平台,AWS竞争对手)。含原论文、幻灯片、短教程以及业内风评 http://t.cn/RPaU89N [ [微博](http://www.weibo.com/5220650532/BgYHoimrP?mod=weibotime) ] From 2b0dd39f8a5ce822e2bb9ea0ef21f5478de85a50 Mon Sep 17 00:00:00 2001 From: Jie Bao Date: Wed, 6 Aug 2014 15:45:52 -0700 Subject: [PATCH 068/485] Update README.md --- README.md | 5 +++-- 1 file changed, 3 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index a2d2c2d..0d60170 100644 --- a/README.md +++ b/README.md @@ -27,8 +27,9 @@ ## 最近的问答 - -
    2014-08-06 @昊奋 推荐:在这个机器学习大行其道的年代,了解规则系统,以及他们之间的结合是很有必要的。推荐纽约州立大学Stonybrook分校Senlin Liang的工作**OpenRuleBench:比较了5种不同类型的规则系统**,演绎数据库, 语义规则引擎, 基于Prolog系统等,如jena, dlv jess xsb owlim http://t.cn/RPaGJHV [ [微博](http://www.weibo.com/5220650532/BgZ9CtRHL?mod=weibotime) ]
+ + +2014-08-06 @昊奋 推荐:在这个机器学习大行其道的年代,了解规则系统,以及他们之间的结合是很有必要的。推荐纽约州立大学Stonybrook分校Senlin Liang的工作**OpenRuleBench:比较了5种不同类型的规则系统**,演绎数据库, 语义规则引擎, 基于Prolog系统等,如jena, dlv jess xsb owlim http://t.cn/RPaGJHV [ [微博](http://www.weibo.com/5220650532/BgZ9CtRHL?mod=weibotime) ] * 2014-08-06 [经典资料] **Google云计算的7个里程碑**: GFS(文件系统), MapReduce(计算模型), BigTable(结构数据存储NoSQL), Dremel(大数据查询分析), Colossus(GFS第2版), Spanner(BigTable+分布式事务管理), Compute Engine(云计算平台,AWS竞争对手)。含原论文、幻灯片、短教程以及业内风评 http://t.cn/RPaU89N [ [微博](http://www.weibo.com/5220650532/BgYHoimrP?mod=weibotime) ] From 886393de8e1f3643624bf03db44b32113179614b Mon Sep 17 00:00:00 2001 From: Jie Bao Date: Wed, 6 Aug 2014 15:47:51 -0700 Subject: [PATCH 069/485] Update README.md --- README.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/README.md b/README.md index 0d60170..35ecac8 100644 --- a/README.md +++ b/README.md @@ -31,6 +31,8 @@ 2014-08-06 @昊奋 推荐:在这个机器学习大行其道的年代,了解规则系统,以及他们之间的结合是很有必要的。推荐纽约州立大学Stonybrook分校Senlin Liang的工作**OpenRuleBench:比较了5种不同类型的规则系统**,演绎数据库, 语义规则引擎, 基于Prolog系统等,如jena, dlv jess xsb owlim http://t.cn/RPaGJHV [ [微博](http://www.weibo.com/5220650532/BgZ9CtRHL?mod=weibotime) ] + + * 2014-08-06 [经典资料] **Google云计算的7个里程碑**: GFS(文件系统), MapReduce(计算模型), BigTable(结构数据存储NoSQL), Dremel(大数据查询分析), Colossus(GFS第2版), Spanner(BigTable+分布式事务管理), Compute Engine(云计算平台,AWS竞争对手)。含原论文、幻灯片、短教程以及业内风评 http://t.cn/RPaU89N [ [微博](http://www.weibo.com/5220650532/BgYHoimrP?mod=weibotime) ] * 2014-08-05 [公开课] **斯坦福的计算广告学入门**。整个教程一共9讲,包括市场设计、文字广告、上下文广告、展示广告、广告定向、广告推荐、和新形式广告。这是网上为数不多的计算广告学公开教程,由两位Yahoo科学家Andrei Broder和Vanja Josifovski,主讲,乃多年实战经验总结。http://t.cn/RPX0423 [ [微博](http://www.weibo.com/5220650532/BgT8YwOqI?mod=weibotime) ] From ae1391bed78cc17ba4a40825eefb8ffdf0ad88cc Mon Sep 17 00:00:00 2001 From: Jie Bao Date: Wed, 6 Aug 2014 15:48:10 -0700 Subject: [PATCH 070/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 35ecac8..a841360 100644 --- a/README.md +++ b/README.md @@ -33,7 +33,7 @@ -* 2014-08-06 [经典资料] **Google云计算的7个里程碑**: GFS(文件系统), MapReduce(计算模型), BigTable(结构数据存储NoSQL), Dremel(大数据查询分析), Colossus(GFS第2版), Spanner(BigTable+分布式事务管理), Compute Engine(云计算平台,AWS竞争对手)。含原论文、幻灯片、短教程以及业内风评 http://t.cn/RPaU89N [ [微博](http://www.weibo.com/5220650532/BgYHoimrP?mod=weibotime) ] +2014-08-06 [经典资料] **Google云计算的7个里程碑**: GFS(文件系统), MapReduce(计算模型), BigTable(结构数据存储NoSQL), Dremel(大数据查询分析), Colossus(GFS第2版), Spanner(BigTable+分布式事务管理), Compute Engine(云计算平台,AWS竞争对手)。含原论文、幻灯片、短教程以及业内风评 http://t.cn/RPaU89N [ [微博](http://www.weibo.com/5220650532/BgYHoimrP?mod=weibotime) ] * 2014-08-05 [公开课] **斯坦福的计算广告学入门**。整个教程一共9讲,包括市场设计、文字广告、上下文广告、展示广告、广告定向、广告推荐、和新形式广告。这是网上为数不多的计算广告学公开教程,由两位Yahoo科学家Andrei Broder和Vanja Josifovski,主讲,乃多年实战经验总结。http://t.cn/RPX0423 [ [微博](http://www.weibo.com/5220650532/BgT8YwOqI?mod=weibotime) ] From 4ef345fbde3d22c4db6e3b37a9fd97ee36d55fa1 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 16:11:59 -0700 Subject: [PATCH 071/485] Update README.md --- README.md | 5 +++++ 1 file changed, 5 insertions(+) diff --git a/README.md b/README.md index a841360..4268d1d 100644 --- a/README.md +++ b/README.md @@ -27,6 +27,11 @@ ## 最近的问答 + + +2014-08-06 @uso小驴酱 问sparse representation for computer vision CV领域教授Lyu回答: ECCV2012有计算机视觉稀疏表示的教程 。主讲人Yi Ma, Allen Yang, John Wright均是该领域核心专家。讲座包括了理论基础与实践。合集中还包括相关的Fast l-1和Convex Optimization方法 http://t.cn/RPam664 [ [讨论](https://github.com/memect/hao/issues/25) ] [ [微博](http://www.weibo.com/5220650532/Bh2vHlUlG?mod=weibotime) ] + + 2014-08-06 @昊奋 推荐:在这个机器学习大行其道的年代,了解规则系统,以及他们之间的结合是很有必要的。推荐纽约州立大学Stonybrook分校Senlin Liang的工作**OpenRuleBench:比较了5种不同类型的规则系统**,演绎数据库, 语义规则引擎, 基于Prolog系统等,如jena, dlv jess xsb owlim http://t.cn/RPaGJHV [ [微博](http://www.weibo.com/5220650532/BgZ9CtRHL?mod=weibotime) ] From 48baba30d212856abfd6fca14ffa76c7d2e04c30 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 16:16:17 -0700 Subject: [PATCH 072/485] Update README.md --- README.md | 4 ++++ 1 file changed, 4 insertions(+) diff --git a/README.md b/README.md index 4268d1d..826417c 100644 --- a/README.md +++ b/README.md @@ -317,6 +317,10 @@ Probabilistic Programming summer school 在Portland顺利结束 教学资料见 ## 声明 + + +2014-08-06 @好东西传送门 是开源的,任何人都可以贡献好的文献、代码或商业产品。你可以fork一份github库,并在awesome目录下建立一个文件,内容就是链接(文字描述可选)例 http://t.cn/RPal5fW 提交一个pull请求,剩下的就交给传送门了。您的贡献会被署名 [ [微博](http://www.weibo.com/5220650532/Bh2oIc33V?mod=weibotime) ] + * 2014-08-04 @好东西传送门 开源5天,已经有了88颗星。这里解释一下开源政策:为了鼓励好东西的传播,我们采用了Creative Commons Attribution-NonCommercial-ShareAlike 4.0许可证:Github上的内容可以被自由分享和改编,但需用同样的许可证发布,致谢@好东西传送门 并不得用于商用 http://t.cn/RPiYr2f [ [微博](http://www.weibo.com/5220650532/BgEucqeEz?ref=) ] * 2014-07-31 开源的好东西传送门:今天我们已经把所有的问答和文摘都整理到Github上了,查看别人已经问过的问题更加容易。你可以一键复制,拥有自己不会丢失的好东西列表。也可以关注项目获得更新通知。如果你关心大数据、机器学习、数据库、Web、Python(话题增长中)去加星收藏吧 http://t.cn/RPfAgNg [ [微博](http://www.weibo.com/5220650532/Bg436jjPL?mod=weibotime) ] From dfb3a1975e388edcba08426c277d289dd7fc6420 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 16:16:52 -0700 Subject: [PATCH 073/485] Update README.md --- README.md | 4 +++- 1 file changed, 3 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index 826417c..9fa0a06 100644 --- a/README.md +++ b/README.md @@ -321,7 +321,9 @@ Probabilistic Programming summer school 在Portland顺利结束 教学资料见 2014-08-06 @好东西传送门 是开源的,任何人都可以贡献好的文献、代码或商业产品。你可以fork一份github库,并在awesome目录下建立一个文件,内容就是链接(文字描述可选)例 http://t.cn/RPal5fW 提交一个pull请求,剩下的就交给传送门了。您的贡献会被署名 [ [微博](http://www.weibo.com/5220650532/Bh2oIc33V?mod=weibotime) ] -* 2014-08-04 @好东西传送门 开源5天,已经有了88颗星。这里解释一下开源政策:为了鼓励好东西的传播,我们采用了Creative Commons Attribution-NonCommercial-ShareAlike 4.0许可证:Github上的内容可以被自由分享和改编,但需用同样的许可证发布,致谢@好东西传送门 并不得用于商用 http://t.cn/RPiYr2f [ [微博](http://www.weibo.com/5220650532/BgEucqeEz?ref=) ] + + +2014-08-04 @好东西传送门 开源5天,已经有了88颗星。这里解释一下开源政策:为了鼓励好东西的传播,我们采用了Creative Commons Attribution-NonCommercial-ShareAlike 4.0许可证:Github上的内容可以被自由分享和改编,但需用同样的许可证发布,致谢@好东西传送门 并不得用于商用 http://t.cn/RPiYr2f [ [微博](http://www.weibo.com/5220650532/BgEucqeEz?ref=) ] * 2014-07-31 开源的好东西传送门:今天我们已经把所有的问答和文摘都整理到Github上了,查看别人已经问过的问题更加容易。你可以一键复制,拥有自己不会丢失的好东西列表。也可以关注项目获得更新通知。如果你关心大数据、机器学习、数据库、Web、Python(话题增长中)去加星收藏吧 http://t.cn/RPfAgNg [ [微博](http://www.weibo.com/5220650532/Bg436jjPL?mod=weibotime) ] From 056143e24be595ca1461b35ee0e109a7eb6308a7 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 16:17:40 -0700 Subject: [PATCH 074/485] Update README.md --- README.md | 1 + 1 file changed, 1 insertion(+) diff --git a/README.md b/README.md index 9fa0a06..42be2a7 100644 --- a/README.md +++ b/README.md @@ -321,6 +321,7 @@ Probabilistic Programming summer school 在Portland顺利结束 教学资料见 2014-08-06 @好东西传送门 是开源的,任何人都可以贡献好的文献、代码或商业产品。你可以fork一份github库,并在awesome目录下建立一个文件,内容就是链接(文字描述可选)例 http://t.cn/RPal5fW 提交一个pull请求,剩下的就交给传送门了。您的贡献会被署名 [ [微博](http://www.weibo.com/5220650532/Bh2oIc33V?mod=weibotime) ] +
2014-08-04 @好东西传送门 开源5天,已经有了88颗星。这里解释一下开源政策:为了鼓励好东西的传播,我们采用了Creative Commons Attribution-NonCommercial-ShareAlike 4.0许可证:Github上的内容可以被自由分享和改编,但需用同样的许可证发布,致谢@好东西传送门 并不得用于商用 http://t.cn/RPiYr2f [ [微博](http://www.weibo.com/5220650532/BgEucqeEz?ref=) ] From 116e7ea84d9a93de206bf0d32d976950d218ff10 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 16:21:29 -0700 Subject: [PATCH 075/485] Update README.md --- README.md | 11 +++++++++-- 1 file changed, 9 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index 42be2a7..258cc1a 100644 --- a/README.md +++ b/README.md @@ -27,15 +27,22 @@ ## 最近的问答 +
2014-08-06 @uso小驴酱 问sparse representation for computer vision CV领域教授Lyu回答: ECCV2012有计算机视觉稀疏表示的教程 。主讲人Yi Ma, Allen Yang, John Wright均是该领域核心专家。讲座包括了理论基础与实践。合集中还包括相关的Fast l-1和Convex Optimization方法 http://t.cn/RPam664 [ [讨论](https://github.com/memect/hao/issues/25) ] [ [微博](http://www.weibo.com/5220650532/Bh2vHlUlG?mod=weibotime) ] - +
+ + +2014-08-06 W3C研究员@吴伟1st 推荐: 关系数据库RDB转RDF的工具。RDF是网页元数据交换的国际标准,是知识图谱和链数据发布的首选语言。从传统的关系数据库到互联、有丰富语义的数据,已有大量转化和查询工具。这一组推荐包括了Oracle和Virtuoso工业实现和很多开源、研究项目、R2ML语言 http://t.cn/RPaNM6h + +
2014-08-06 @昊奋 推荐:在这个机器学习大行其道的年代,了解规则系统,以及他们之间的结合是很有必要的。推荐纽约州立大学Stonybrook分校Senlin Liang的工作**OpenRuleBench:比较了5种不同类型的规则系统**,演绎数据库, 语义规则引擎, 基于Prolog系统等,如jena, dlv jess xsb owlim http://t.cn/RPaGJHV [ [微博](http://www.weibo.com/5220650532/BgZ9CtRHL?mod=weibotime) ] +
2014-08-06 [经典资料] **Google云计算的7个里程碑**: GFS(文件系统), MapReduce(计算模型), BigTable(结构数据存储NoSQL), Dremel(大数据查询分析), Colossus(GFS第2版), Spanner(BigTable+分布式事务管理), Compute Engine(云计算平台,AWS竞争对手)。含原论文、幻灯片、短教程以及业内风评 http://t.cn/RPaU89N [ [微博](http://www.weibo.com/5220650532/BgYHoimrP?mod=weibotime) ] @@ -317,7 +324,7 @@ Probabilistic Programming summer school 在Portland顺利结束 教学资料见 ## 声明 - + 2014-08-06 @好东西传送门 是开源的,任何人都可以贡献好的文献、代码或商业产品。你可以fork一份github库,并在awesome目录下建立一个文件,内容就是链接(文字描述可选)例 http://t.cn/RPal5fW 提交一个pull请求,剩下的就交给传送门了。您的贡献会被署名 [ [微博](http://www.weibo.com/5220650532/Bh2oIc33V?mod=weibotime) ] From 526ace0f5434d2bc9bdf3e95157ca17bbcefcd0c Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 16:22:49 -0700 Subject: [PATCH 076/485] Update README.md --- README.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index 258cc1a..835ea70 100644 --- a/README.md +++ b/README.md @@ -30,12 +30,12 @@
-2014-08-06 @uso小驴酱 问sparse representation for computer vision CV领域教授Lyu回答: ECCV2012有计算机视觉稀疏表示的教程 。主讲人Yi Ma, Allen Yang, John Wright均是该领域核心专家。讲座包括了理论基础与实践。合集中还包括相关的Fast l-1和Convex Optimization方法 http://t.cn/RPam664 [ [讨论](https://github.com/memect/hao/issues/25) ] [ [微博](http://www.weibo.com/5220650532/Bh2vHlUlG?mod=weibotime) ] +2014-08-06 @uso小驴酱 问**sparse representation for computer vision** CV领域教授Lyu回答: ECCV2012有计算机视觉稀疏表示的教程 。主讲人Yi Ma, Allen Yang, John Wright均是该领域核心专家。讲座包括了理论基础与实践。合集中还包括相关的Fast l-1和Convex Optimization方法 http://t.cn/RPam664 [ [讨论](https://github.com/memect/hao/issues/25) ] [ [微博](http://www.weibo.com/5220650532/Bh2vHlUlG?mod=weibotime) ]
-2014-08-06 W3C研究员@吴伟1st 推荐: 关系数据库RDB转RDF的工具。RDF是网页元数据交换的国际标准,是知识图谱和链数据发布的首选语言。从传统的关系数据库到互联、有丰富语义的数据,已有大量转化和查询工具。这一组推荐包括了Oracle和Virtuoso工业实现和很多开源、研究项目、R2ML语言 http://t.cn/RPaNM6h +2014-08-06 W3C研究员@吴伟1st 推荐: **关系数据库RDB转RDF的工具**。RDF是网页元数据交换的国际标准,是知识图谱和链数据发布的首选语言。从传统的关系数据库到互联、有丰富语义的数据,已有大量转化和查询工具。这一组推荐包括了Oracle和Virtuoso工业实现和很多开源、研究项目、R2ML语言 http://t.cn/RPaNM6h
From f10e76ff4d47fbc7579503bf79bac6d4a658d9a5 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 16:24:16 -0700 Subject: [PATCH 077/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 835ea70..c194335 100644 --- a/README.md +++ b/README.md @@ -35,7 +35,7 @@
-2014-08-06 W3C研究员@吴伟1st 推荐: **关系数据库RDB转RDF的工具**。RDF是网页元数据交换的国际标准,是知识图谱和链数据发布的首选语言。从传统的关系数据库到互联、有丰富语义的数据,已有大量转化和查询工具。这一组推荐包括了Oracle和Virtuoso工业实现和很多开源、研究项目、R2ML语言 http://t.cn/RPaNM6h +2014-08-06 W3C研究员@吴伟1st 推荐: **关系数据库RDB转RDF的工具**。RDF是网页元数据交换的国际标准,是知识图谱和链数据发布的首选语言。从传统的关系数据库到互联、有丰富语义的数据,已有大量转化和查询工具。这一组推荐包括了Oracle和Virtuoso工业实现和很多开源、研究项目、R2ML语言 http://t.cn/RPaNM6h [ [讨论](https://github.com/memect/hao/issues/52) ] [微博](http://www.weibo.com/5220650532/Bh173BPZf?mod=weibotime) ]
From cb89ec631cf9cdf547e599c0f4d2db64c3ba4123 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 16:28:42 -0700 Subject: [PATCH 078/485] Create health-data.md --- awesome/health-data.md | 13 +++++++++++++ 1 file changed, 13 insertions(+) create mode 100644 awesome/health-data.md diff --git a/awesome/health-data.md b/awesome/health-data.md new file mode 100644 index 0000000..0e08449 --- /dev/null +++ b/awesome/health-data.md @@ -0,0 +1,13 @@ +国际组织相关卫生统计数据 +http://t.cn/8FDT5pG +http://t.cn/RPSIhDv +http://t.cn/RPSIhDZ +http://t.cn/RPSIhDP +美国卫生统计数据是分散在各个部门 +http://t.cn/RPSIhDh +http://t.cn/RPSIhDz +http://t.cn/RPSIhD7 +中国的卫生统计数据 +http://t.cn/zYK9zeF +芝加哥大学有个主页搜集了一些卫生统计数据 +http://t.cn/RPSIhDw From 8e769f03c101867bd96b1297643f7affd5baa369 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 16:29:04 -0700 Subject: [PATCH 079/485] Update health-data.md --- awesome/health-data.md | 11 +++++++++++ 1 file changed, 11 insertions(+) diff --git a/awesome/health-data.md b/awesome/health-data.md index 0e08449..0a8e980 100644 --- a/awesome/health-data.md +++ b/awesome/health-data.md @@ -1,13 +1,24 @@ 国际组织相关卫生统计数据 + http://t.cn/8FDT5pG + http://t.cn/RPSIhDv + http://t.cn/RPSIhDZ + http://t.cn/RPSIhDP + 美国卫生统计数据是分散在各个部门 + http://t.cn/RPSIhDh + http://t.cn/RPSIhDz + http://t.cn/RPSIhD7 + 中国的卫生统计数据 + http://t.cn/zYK9zeF + 芝加哥大学有个主页搜集了一些卫生统计数据 http://t.cn/RPSIhDw From 009b18381fc13cd89474fd47b20a2e1b9cde9d1f Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 16:29:11 -0700 Subject: [PATCH 080/485] Update health-data.md --- awesome/health-data.md | 1 + 1 file changed, 1 insertion(+) diff --git a/awesome/health-data.md b/awesome/health-data.md index 0a8e980..ef57d73 100644 --- a/awesome/health-data.md +++ b/awesome/health-data.md @@ -21,4 +21,5 @@ http://t.cn/RPSIhD7 http://t.cn/zYK9zeF 芝加哥大学有个主页搜集了一些卫生统计数据 + http://t.cn/RPSIhDw From 955f9430855b68e9bfbce60ddbb3fc2b9e81b21a Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 16:42:19 -0700 Subject: [PATCH 081/485] Update README.md --- README.md | 5 +++++ 1 file changed, 5 insertions(+) diff --git a/README.md b/README.md index c194335..5de421a 100644 --- a/README.md +++ b/README.md @@ -27,6 +27,11 @@ ## 最近的问答 +
+ + +2014-08-07 美国疾病控制与预防中心卫生经济学家 @陈茁博士_Adam 提供:准确的卫生统计数据是卫生经济政策的基础。这里提供了一组最重要的数据站点,包括国际组织(WHO, OECD, Worldbank, UNICEF)、美国政府部门(CDC, CMS,AHRQ)、中国的卫生计生统计。更多参芝加哥大学卫生统计数据门户 http://t.cn/RPSa7hk [ [微博](http://www.weibo.com/5220650532/Bh8lRehxo?ref=) ] +
From 7fb752370ceccb63200ea82f631df1c67c4c534a Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 16:42:49 -0700 Subject: [PATCH 082/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 5de421a..f45c72f 100644 --- a/README.md +++ b/README.md @@ -30,7 +30,7 @@
-2014-08-07 美国疾病控制与预防中心卫生经济学家 @陈茁博士_Adam 提供:准确的卫生统计数据是卫生经济政策的基础。这里提供了一组最重要的数据站点,包括国际组织(WHO, OECD, Worldbank, UNICEF)、美国政府部门(CDC, CMS,AHRQ)、中国的卫生计生统计。更多参芝加哥大学卫生统计数据门户 http://t.cn/RPSa7hk [ [微博](http://www.weibo.com/5220650532/Bh8lRehxo?ref=) ] +2014-08-07 美国疾病控制与预防中心卫生经济学家 @陈茁博士_Adam 提供:准确的**卫生统计数据**是卫生经济政策的基础。这里提供了一组最重要的数据站点,包括国际组织(WHO, OECD, Worldbank, UNICEF)、美国政府部门(CDC, CMS,AHRQ)、中国的卫生计生统计。更多参芝加哥大学卫生统计数据门户 http://t.cn/RPSa7hk [ [微博](http://www.weibo.com/5220650532/Bh8lRehxo?ref=) ]
From 142ca8152d2c0798eee36e28db73105cad7458d2 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 6 Aug 2014 17:23:57 -0700 Subject: [PATCH 083/485] Create fenci.md --- awesome/fenci.md | 38 ++++++++++++++++++++++++++++++++++++++ 1 file changed, 38 insertions(+) create mode 100644 awesome/fenci.md diff --git a/awesome/fenci.md b/awesome/fenci.md new file mode 100644 index 0000000..2ba7647 --- /dev/null +++ b/awesome/fenci.md @@ -0,0 +1,38 @@ +Ansj中文分词  java + +http://t.cn/zWDqIRw + +python 结巴分词 + +http://t.cn/zlfOaMU + +结巴"中文分词的C++版本 + +http://t.cn/RPICG0o + +技术文章: + +基础类(这两个选一个就可以): + +http://t.cn/RPICqae  + +http://t.cn/zHm2KHK + +常用的算法 +CRF + +http://t.cn/RPIC5fy + +HMM + +http://t.cn/zOec8CW + +数据结构 + +tire树 + +http://t.cn/RPIC5mA + +双数组 + +http://t.cn/ar6lK9 From 0c20a8ff117d3dd6cc91c8df6ff1718c4e7390ce Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:13:10 -0700 Subject: [PATCH 084/485] Create multiclass-boosting.md --- awesome/multiclass-boosting.md | 25 +++++++++++++++++++++++++ 1 file changed, 25 insertions(+) create mode 100644 awesome/multiclass-boosting.md diff --git a/awesome/multiclass-boosting.md b/awesome/multiclass-boosting.md new file mode 100644 index 0000000..3f31967 --- /dev/null +++ b/awesome/multiclass-boosting.md @@ -0,0 +1,25 @@ +# keywords +multiclass boosting survey + + +# overview +http://papers.nips.cc/paper/4450-multiclass-boosting-theory-and-algorithms.pdf Multiclass Boosting: Theory and Algorithms, Mohammad J. Saberian, Nuno Vasconcelos, NIPS, 2011 + +http://classes.soe.ucsc.edu/cmps242/Fall09/proj/Mario_Rodriguez_Multiclass_Boosting_talk.pdf Multi-class boosting (slides), Mario Rodriguez, 2009 + +http://cmp.felk.cvut.cz/~sochmj1/adaboost_talk.pdf presentation summarizing AdaBoost + +# classical paper +http://www.cs.princeton.edu/~imukherj/nips10.pdf A Theory of Multiclass Boosting, Indraneel Mukherjee, Robert E. Schapire, NIPS 2010 + + +# tools +http://www.multiboost.org/ a fast C++ implementation of multi-class/multi-label/multi-task boosting algorithms. It is based on AdaBoost.MH but also implements popular cascade classifiers and FilterBoost along with a batch of common multi-class base learners (stumps, trees, products, Haar filters). + +http://scikit-learn.org/stable/auto_examples/ensemble/plot_adaboost_multiclass.html + +https://github.com/cshen/fast-multiboost-cw + +https://github.com/pengsun/AOSOLogitBoost + +https://github.com/circlingthesun/omclboost From 5d2051112049af3b85f4972549031549da8dc4fd Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:17:52 -0700 Subject: [PATCH 085/485] Update README.md --- README.md | 34 ++++++++++++++++++++++++++++++++++ 1 file changed, 34 insertions(+) diff --git a/README.md b/README.md index f45c72f..2a367eb 100644 --- a/README.md +++ b/README.md @@ -27,6 +27,39 @@ ## 最近的问答 +
+ + +2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第六组:一些大的数据仓库,如data350.org, R datasets Package, Google Public Data, Infochimps, datamob [ [微博](http://www.weibo.com/5220650532/Bhbllse6Y?mod=weibotime) ] + +
+ + +2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第五组:理工科数据8类,包括地理、航天、癌症、气候、农业、生物等 http://t.cn/RPSkuaV 社会科学5类,包括GSS社会调查、劳动就业、Pew Research研究所的数据、UCLA数据门户 http://t.cn/RPSkuac [ [微博](http://www.weibo.com/5220650532/Bhbj57moY?mod=weibotime) ] + +
+ + +2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第四组:SNAP斯坦福的网络数据集 http://t.cn/RPSkGc9 ,Time Series Data Library近800个时间序列数据(经济、水文、气象、农业各种)http://t.cn/RPSkGci 一些大学实验室的数据集,如OSU金融、CMU统计、UCLA SOCR概率 http://t.cn/RPSkGc6 [ [微博](http://www.weibo.com/5220650532/BhbfM2eN5?mod=weibotime) ] + +
+ + +2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第三组:政府数据,有美国的data.gov,英国的data.gov.uk、澳大利亚数据、加拿大数据、联合国数据、三藩市、纽约市、伦敦市数据。用DataMarket搜索和可视化数据 http://t.cn/RPSDceG [ [微博](http://www.weibo.com/5220650532/Bhbaxj6xo?mod=weibotime) ] + +
+ + +2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第二组:机器学习数据源20+,包括Amazon Public Data(一共56个超大数据,如人类基因组,Common Crawl全球网页, Freebase,Wikipedia等各种宝贝)、航空、天气、医疗、音乐、电影、社交网络,Web点击 http://t.cn/RPSev91 [ [微博](http://www.weibo.com/5220650532/Bhb3qqHUg?mod=weibotime) ] + +
+ + +2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第一组:经济数据4个http://t.cn/RPSgSkR 世界银行Indictors, EconData, AEA(美国经济协会)RFE, GapMinder 金融数据8个:CBOE Futures Exchange, St Louis Fed, NASDAQ, OANDA, Quandl,Google/Yahoo http://t.cn/RPSgSkE [ [微博](http://www.weibo.com/5220650532/Bhb0wrN4O?mod=weibotime) ] + + + +
@@ -123,6 +156,7 @@ * 2014-07-29 @LDL_BIT 问:**有哪些文章讲了多层感知器MLP的拟合能力问题?尤其是拟合多项式的能力**?答:当使用非线性的激活函数,MLP是图灵完备的,可以模拟任何函数,当然包括多项式函数。这称为普适逼近原理(Universal approximation theorem)。深度学习则提高了逼近的效率。经典论文见 http://t.cn/RPVAYZ4 [ [讨论](https://github.com/memect/hao/issues/34) ] [ [微博](http://www.weibo.com/5220650532/BfO8hcCYx?mod=weibotime) ] + * @LDL_BIT 增补:最近就这个问题设计了个小实验,今天也看到一篇讲多项式学习问题的论文,见我的博客http://t.cn/RPSAXV0 注:文章是ICML 2014 “Learning Polynomials with Neural Networks” http://t.cn/RPSnyZi [ [微博](http://www.weibo.com/5220650532/BhahP5biF?mod=weibotime) ] * 2014-07-27 [续http://t.cn/RP5WYnt ] @小飞鱼_露 问:**能否推荐一些关于 Learning to Rank 的相关论文,教程,应用呢**?答2:前次推荐了25篇文章,主要是相关算法。@刘知远THU 和 @老师木 进一步推荐了 @刘铁岩 和 @李航博士 的综述和专著,更适合入门 http://t.cn/RP5WYn5 全部LTR资源 http://t.cn/RP5WYnc [ [讨论](https://github.com/memect/hao/issues/17) ] [ [微博](http://www.weibo.com/5220650532/Bfvpro1Kq) ] From 8ba521a3ede6358ec638628697697877fe9fdf77 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:17:53 -0700 Subject: [PATCH 086/485] Update multiclass-boosting.md --- awesome/multiclass-boosting.md | 7 ++++--- 1 file changed, 4 insertions(+), 3 deletions(-) diff --git a/awesome/multiclass-boosting.md b/awesome/multiclass-boosting.md index 3f31967..c4c57af 100644 --- a/awesome/multiclass-boosting.md +++ b/awesome/multiclass-boosting.md @@ -1,6 +1,5 @@ -# keywords -multiclass boosting survey - +问:@图像视觉研究 有没有经典的Multi-Class boosting的相关资料推荐推荐? +答: # overview http://papers.nips.cc/paper/4450-multiclass-boosting-theory-and-algorithms.pdf Multiclass Boosting: Theory and Algorithms, Mohammad J. Saberian, Nuno Vasconcelos, NIPS, 2011 @@ -10,6 +9,8 @@ http://classes.soe.ucsc.edu/cmps242/Fall09/proj/Mario_Rodriguez_Multiclass_Boost http://cmp.felk.cvut.cz/~sochmj1/adaboost_talk.pdf presentation summarizing AdaBoost # classical paper +http://web.stanford.edu/~hastie/Papers/samme.pdf Multi-class AdaBoost, 2006 + http://www.cs.princeton.edu/~imukherj/nips10.pdf A Theory of Multiclass Boosting, Indraneel Mukherjee, Robert E. Schapire, NIPS 2010 From 2b70869482b5ce306c10287987f27d3e181e893e Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:18:45 -0700 Subject: [PATCH 087/485] Update README.md --- README.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index 2a367eb..cc33788 100644 --- a/README.md +++ b/README.md @@ -27,10 +27,11 @@ ## 最近的问答 -
+
2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第六组:一些大的数据仓库,如data350.org, R datasets Package, Google Public Data, Infochimps, datamob [ [微博](http://www.weibo.com/5220650532/Bhbllse6Y?mod=weibotime) ] +
From d8e5ee24000a175da7747671e799db85fa096599 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:19:03 -0700 Subject: [PATCH 088/485] Update multiclass-boosting.md --- awesome/multiclass-boosting.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/multiclass-boosting.md b/awesome/multiclass-boosting.md index c4c57af..2021063 100644 --- a/awesome/multiclass-boosting.md +++ b/awesome/multiclass-boosting.md @@ -9,7 +9,7 @@ http://classes.soe.ucsc.edu/cmps242/Fall09/proj/Mario_Rodriguez_Multiclass_Boost http://cmp.felk.cvut.cz/~sochmj1/adaboost_talk.pdf presentation summarizing AdaBoost # classical paper -http://web.stanford.edu/~hastie/Papers/samme.pdf Multi-class AdaBoost, 2006 +http://dept.stat.lsa.umich.edu/~jizhu/pubs/Zhu-SII09.pdf Multi-class AdaBoost, Ji Zhu†, Hui Zou, Saharon Rosset and Trevor Hastie, 2009 http://www.cs.princeton.edu/~imukherj/nips10.pdf A Theory of Multiclass Boosting, Indraneel Mukherjee, Robert E. Schapire, NIPS 2010 From ddadfab3cea694ddfc719c8291352c7121351ae7 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:19:06 -0700 Subject: [PATCH 089/485] Update README.md --- README.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index cc33788..db342f8 100644 --- a/README.md +++ b/README.md @@ -33,10 +33,11 @@ 2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第六组:一些大的数据仓库,如data350.org, R datasets Package, Google Public Data, Infochimps, datamob [ [微博](http://www.weibo.com/5220650532/Bhbllse6Y?mod=weibotime) ] -
+
2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第五组:理工科数据8类,包括地理、航天、癌症、气候、农业、生物等 http://t.cn/RPSkuaV 社会科学5类,包括GSS社会调查、劳动就业、Pew Research研究所的数据、UCLA数据门户 http://t.cn/RPSkuac [ [微博](http://www.weibo.com/5220650532/Bhbj57moY?mod=weibotime) ] +
From 9032765c202d5c43b90f1cb2419b3e4880606331 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:20:51 -0700 Subject: [PATCH 090/485] Update multiclass-boosting.md --- awesome/multiclass-boosting.md | 5 ++++- 1 file changed, 4 insertions(+), 1 deletion(-) diff --git a/awesome/multiclass-boosting.md b/awesome/multiclass-boosting.md index 2021063..01fe240 100644 --- a/awesome/multiclass-boosting.md +++ b/awesome/multiclass-boosting.md @@ -9,7 +9,10 @@ http://classes.soe.ucsc.edu/cmps242/Fall09/proj/Mario_Rodriguez_Multiclass_Boost http://cmp.felk.cvut.cz/~sochmj1/adaboost_talk.pdf presentation summarizing AdaBoost # classical paper -http://dept.stat.lsa.umich.edu/~jizhu/pubs/Zhu-SII09.pdf Multi-class AdaBoost, Ji Zhu†, Hui Zou, Saharon Rosset and Trevor Hastie, 2009 +http://web.mit.edu/torralba/www/cvpr2004.pdf Sharing features: efficient boosting procedures for multiclass object detection, Antonio Torralba Kevin P. Murphy William T. Freeman, CVPR 2004 + + +http://dept.stat.lsa.umich.edu/~jizhu/pubs/Zhu-SII09.pdf Multi-class AdaBoost, Ji Zhu†, Hui Zou, Saharon Rosset and Trevor Hastie, Statistics and Its Interface, 2009 http://www.cs.princeton.edu/~imukherj/nips10.pdf A Theory of Multiclass Boosting, Indraneel Mukherjee, Robert E. Schapire, NIPS 2010 From 41318a8ae092b66736ab161d8b7281c25c085ee5 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:21:30 -0700 Subject: [PATCH 091/485] Update README.md --- README.md | 7 +------ 1 file changed, 1 insertion(+), 6 deletions(-) diff --git a/README.md b/README.md index db342f8..4837643 100644 --- a/README.md +++ b/README.md @@ -27,19 +27,14 @@ ## 最近的问答 -
2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第六组:一些大的数据仓库,如data350.org, R datasets Package, Google Public Data, Infochimps, datamob [ [微博](http://www.weibo.com/5220650532/Bhbllse6Y?mod=weibotime) ] -
- -
+

2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第五组:理工科数据8类,包括地理、航天、癌症、气候、农业、生物等 http://t.cn/RPSkuaV 社会科学5类,包括GSS社会调查、劳动就业、Pew Research研究所的数据、UCLA数据门户 http://t.cn/RPSkuac [ [微博](http://www.weibo.com/5220650532/Bhbj57moY?mod=weibotime) ] -

-
2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第四组:SNAP斯坦福的网络数据集 http://t.cn/RPSkGc9 ,Time Series Data Library近800个时间序列数据(经济、水文、气象、农业各种)http://t.cn/RPSkGci 一些大学实验室的数据集,如OSU金融、CMU统计、UCLA SOCR概率 http://t.cn/RPSkGc6 [ [微博](http://www.weibo.com/5220650532/BhbfM2eN5?mod=weibotime) ] From 2f8d3323b3e4a94695e45ca0b57425bbabcfab76 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:21:56 -0700 Subject: [PATCH 092/485] Update README.md --- README.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index 4837643..dc28a2a 100644 --- a/README.md +++ b/README.md @@ -30,7 +30,8 @@ 2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第六组:一些大的数据仓库,如data350.org, R datasets Package, Google Public Data, Infochimps, datamob [ [微博](http://www.weibo.com/5220650532/Bhbllse6Y?mod=weibotime) ] -

+


+ 2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第五组:理工科数据8类,包括地理、航天、癌症、气候、农业、生物等 http://t.cn/RPSkuaV 社会科学5类,包括GSS社会调查、劳动就业、Pew Research研究所的数据、UCLA数据门户 http://t.cn/RPSkuac [ [微博](http://www.weibo.com/5220650532/Bhbj57moY?mod=weibotime) ] From 9eafdf2c86203331a10fb34a94f0f8f70eff2264 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:22:18 -0700 Subject: [PATCH 093/485] Update multiclass-boosting.md --- awesome/multiclass-boosting.md | 4 ++++ 1 file changed, 4 insertions(+) diff --git a/awesome/multiclass-boosting.md b/awesome/multiclass-boosting.md index 01fe240..dbdc71b 100644 --- a/awesome/multiclass-boosting.md +++ b/awesome/multiclass-boosting.md @@ -8,6 +8,10 @@ http://classes.soe.ucsc.edu/cmps242/Fall09/proj/Mario_Rodriguez_Multiclass_Boost http://cmp.felk.cvut.cz/~sochmj1/adaboost_talk.pdf presentation summarizing AdaBoost +https://www.youtube.com/watch?v=L6BlpGnCYVg "A Theory of Multiclass Boosting", Rob Schapire, Partha Niyogi Memorial Conference: Computer Science + +December 4, 2011 + # classical paper http://web.mit.edu/torralba/www/cvpr2004.pdf Sharing features: efficient boosting procedures for multiclass object detection, Antonio Torralba Kevin P. Murphy William T. Freeman, CVPR 2004 From 1771b449a1d46974e8fe8da4c21bf19c21800432 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:25:19 -0700 Subject: [PATCH 094/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index dc28a2a..ab0247f 100644 --- a/README.md +++ b/README.md @@ -30,7 +30,7 @@ 2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第六组:一些大的数据仓库,如data350.org, R datasets Package, Google Public Data, Infochimps, datamob [ [微博](http://www.weibo.com/5220650532/Bhbllse6Y?mod=weibotime) ] -


+

From d4d265050f4b4dd2cc6c71cd7bf8fcc51fbf862c Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:26:13 -0700 Subject: [PATCH 095/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index ab0247f..f02f39e 100644 --- a/README.md +++ b/README.md @@ -29,7 +29,7 @@ -2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第六组:一些大的数据仓库,如data350.org, R datasets Package, Google Public Data, Infochimps, datamob [ [微博](http://www.weibo.com/5220650532/Bhbllse6Y?mod=weibotime) ] +|2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第六组:一些大的数据仓库,如data350.org, R datasets Package, Google Public Data, Infochimps, datamob [ [微博](http://www.weibo.com/5220650532/Bhbllse6Y?mod=weibotime) ]

From f22d5472297426728054366f024ff0f2596c15f8 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:28:34 -0700 Subject: [PATCH 096/485] Update README.md --- README.md | 8 +++++++- 1 file changed, 7 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index f02f39e..bea7325 100644 --- a/README.md +++ b/README.md @@ -1,4 +1,10 @@ - + + 好东西传送门: 微博上的轻问答 Crowd-sourced LiteQA * 关注微博 http://www.weibo.com/haoawesome/ From 191e1f989dbd82bc879b8628d5bd4d9ef7b5300a Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:31:50 -0700 Subject: [PATCH 097/485] Update README.md --- README.md | 10 ++-------- 1 file changed, 2 insertions(+), 8 deletions(-) diff --git a/README.md b/README.md index bea7325..5f13889 100644 --- a/README.md +++ b/README.md @@ -1,10 +1,4 @@ - - + 好东西传送门: 微博上的轻问答 Crowd-sourced LiteQA * 关注微博 http://www.weibo.com/haoawesome/ @@ -36,7 +30,7 @@ thumbnail { |2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第六组:一些大的数据仓库,如data350.org, R datasets Package, Google Public Data, Infochimps, datamob [ [微博](http://www.weibo.com/5220650532/Bhbllse6Y?mod=weibotime) ] -

+


From 0fa725a639f1ca231729673784ea2955efe7af06 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:32:54 -0700 Subject: [PATCH 098/485] Update README.md --- README.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index 5f13889..3c95637 100644 --- a/README.md +++ b/README.md @@ -30,11 +30,12 @@ |2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第六组:一些大的数据仓库,如data350.org, R datasets Package, Google Public Data, Infochimps, datamob [ [微博](http://www.weibo.com/5220650532/Bhbllse6Y?mod=weibotime) ] -


+ 2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第五组:理工科数据8类,包括地理、航天、癌症、气候、农业、生物等 http://t.cn/RPSkuaV 社会科学5类,包括GSS社会调查、劳动就业、Pew Research研究所的数据、UCLA数据门户 http://t.cn/RPSkuac [ [微博](http://www.weibo.com/5220650532/Bhbj57moY?mod=weibotime) ] +
From cadbb37fb8d4ae0f0fe1e72a29d2f7e43a2befd5 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:33:09 -0700 Subject: [PATCH 099/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 3c95637..48caac0 100644 --- a/README.md +++ b/README.md @@ -30,7 +30,7 @@ |2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第六组:一些大的数据仓库,如data350.org, R datasets Package, Google Public Data, Infochimps, datamob [ [微博](http://www.weibo.com/5220650532/Bhbllse6Y?mod=weibotime) ] - +
From 650d050dcbd46dc52c38c44cb15647269301fe74 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:33:26 -0700 Subject: [PATCH 100/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 48caac0..95f825a 100644 --- a/README.md +++ b/README.md @@ -30,7 +30,7 @@ |2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第六组:一些大的数据仓库,如data350.org, R datasets Package, Google Public Data, Infochimps, datamob [ [微博](http://www.weibo.com/5220650532/Bhbllse6Y?mod=weibotime) ] -
+

From 42907284757390e50a116bb613eb29404e99f742 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:36:02 -0700 Subject: [PATCH 101/485] Update README.md --- README.md | 13 ++++--------- 1 file changed, 4 insertions(+), 9 deletions(-) diff --git a/README.md b/README.md index 95f825a..242cf76 100644 --- a/README.md +++ b/README.md @@ -41,40 +41,35 @@ 2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第四组:SNAP斯坦福的网络数据集 http://t.cn/RPSkGc9 ,Time Series Data Library近800个时间序列数据(经济、水文、气象、农业各种)http://t.cn/RPSkGci 一些大学实验室的数据集,如OSU金融、CMU统计、UCLA SOCR概率 http://t.cn/RPSkGc6 [ [微博](http://www.weibo.com/5220650532/BhbfM2eN5?mod=weibotime) ] -

2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第三组:政府数据,有美国的data.gov,英国的data.gov.uk、澳大利亚数据、加拿大数据、联合国数据、三藩市、纽约市、伦敦市数据。用DataMarket搜索和可视化数据 http://t.cn/RPSDceG [ [微博](http://www.weibo.com/5220650532/Bhbaxj6xo?mod=weibotime) ] -
+ 2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第二组:机器学习数据源20+,包括Amazon Public Data(一共56个超大数据,如人类基因组,Common Crawl全球网页, Freebase,Wikipedia等各种宝贝)、航空、天气、医疗、音乐、电影、社交网络,Web点击 http://t.cn/RPSev91 [ [微博](http://www.weibo.com/5220650532/Bhb3qqHUg?mod=weibotime) ] -
2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第一组:经济数据4个http://t.cn/RPSgSkR 世界银行Indictors, EconData, AEA(美国经济协会)RFE, GapMinder 金融数据8个:CBOE Futures Exchange, St Louis Fed, NASDAQ, OANDA, Quandl,Google/Yahoo http://t.cn/RPSgSkE [ [微博](http://www.weibo.com/5220650532/Bhb0wrN4O?mod=weibotime) ] + + +2014-08-07 ansj分词的作者@ansj 为我们介绍中文分词。工具有Java的Ansj分词、结巴分词Python版与C++版。基础文章《中文分词的原理与实践》。常用的算法:条件随机场CRF, 隐马尔科夫模型HMM。常用数据结构:Trie树和双数组 http://t.cn/RPSQlCE @ansj发起了nlpcn.org开放自由的NLP平台,NLPer都该去瞅瞅 [ [微博](http://www.weibo.com/5220650532/Bh9WGeljD?mod=weibotime) ] - - -
2014-08-07 美国疾病控制与预防中心卫生经济学家 @陈茁博士_Adam 提供:准确的**卫生统计数据**是卫生经济政策的基础。这里提供了一组最重要的数据站点,包括国际组织(WHO, OECD, Worldbank, UNICEF)、美国政府部门(CDC, CMS,AHRQ)、中国的卫生计生统计。更多参芝加哥大学卫生统计数据门户 http://t.cn/RPSa7hk [ [微博](http://www.weibo.com/5220650532/Bh8lRehxo?ref=) ] -
2014-08-06 @uso小驴酱 问**sparse representation for computer vision** CV领域教授Lyu回答: ECCV2012有计算机视觉稀疏表示的教程 。主讲人Yi Ma, Allen Yang, John Wright均是该领域核心专家。讲座包括了理论基础与实践。合集中还包括相关的Fast l-1和Convex Optimization方法 http://t.cn/RPam664 [ [讨论](https://github.com/memect/hao/issues/25) ] [ [微博](http://www.weibo.com/5220650532/Bh2vHlUlG?mod=weibotime) ] -
2014-08-06 W3C研究员@吴伟1st 推荐: **关系数据库RDB转RDF的工具**。RDF是网页元数据交换的国际标准,是知识图谱和链数据发布的首选语言。从传统的关系数据库到互联、有丰富语义的数据,已有大量转化和查询工具。这一组推荐包括了Oracle和Virtuoso工业实现和很多开源、研究项目、R2ML语言 http://t.cn/RPaNM6h [ [讨论](https://github.com/memect/hao/issues/52) ] [微博](http://www.weibo.com/5220650532/Bh173BPZf?mod=weibotime) ] -
2014-08-06 @昊奋 推荐:在这个机器学习大行其道的年代,了解规则系统,以及他们之间的结合是很有必要的。推荐纽约州立大学Stonybrook分校Senlin Liang的工作**OpenRuleBench:比较了5种不同类型的规则系统**,演绎数据库, 语义规则引擎, 基于Prolog系统等,如jena, dlv jess xsb owlim http://t.cn/RPaGJHV [ [微博](http://www.weibo.com/5220650532/BgZ9CtRHL?mod=weibotime) ] From b63f7c3b4ce4931e4df1256cfad83b0a32444a0d Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:36:35 -0700 Subject: [PATCH 102/485] Update multiclass-boosting.md --- awesome/multiclass-boosting.md | 10 +++++++--- 1 file changed, 7 insertions(+), 3 deletions(-) diff --git a/awesome/multiclass-boosting.md b/awesome/multiclass-boosting.md index dbdc71b..a51b329 100644 --- a/awesome/multiclass-boosting.md +++ b/awesome/multiclass-boosting.md @@ -1,16 +1,18 @@ 问:@图像视觉研究 有没有经典的Multi-Class boosting的相关资料推荐推荐? -答: +答:找到几篇经典论文和几个工具包 [资料卡片](http://bigdata.memect.com/?tag=MultiClassBoosting) # overview -http://papers.nips.cc/paper/4450-multiclass-boosting-theory-and-algorithms.pdf Multiclass Boosting: Theory and Algorithms, Mohammad J. Saberian, Nuno Vasconcelos, NIPS, 2011 +http://www.svcl.ucsd.edu/projects/mcboost/ http://classes.soe.ucsc.edu/cmps242/Fall09/proj/Mario_Rodriguez_Multiclass_Boosting_talk.pdf Multi-class boosting (slides), Mario Rodriguez, 2009 http://cmp.felk.cvut.cz/~sochmj1/adaboost_talk.pdf presentation summarizing AdaBoost +#video lectures + https://www.youtube.com/watch?v=L6BlpGnCYVg "A Theory of Multiclass Boosting", Rob Schapire, Partha Niyogi Memorial Conference: Computer Science -December 4, 2011 +http://techtalks.tv/talks/multiclass-boosting-with-hinge-loss-based-on-output-coding/54338/ Multiclass Boosting with Hinge Loss based on Output Coding, Tianshi Gao; Daphne Koller, ICML 2011 # classical paper http://web.mit.edu/torralba/www/cvpr2004.pdf Sharing features: efficient boosting procedures for multiclass object detection, Antonio Torralba Kevin P. Murphy William T. Freeman, CVPR 2004 @@ -20,6 +22,8 @@ http://dept.stat.lsa.umich.edu/~jizhu/pubs/Zhu-SII09.pdf Multi-class AdaBoost, http://www.cs.princeton.edu/~imukherj/nips10.pdf A Theory of Multiclass Boosting, Indraneel Mukherjee, Robert E. Schapire, NIPS 2010 +http://papers.nips.cc/paper/4450-multiclass-boosting-theory-and-algorithms.pdf Multiclass Boosting: Theory and Algorithms, Mohammad J. Saberian, Nuno Vasconcelos, NIPS, 2011 + # tools http://www.multiboost.org/ a fast C++ implementation of multi-class/multi-label/multi-task boosting algorithms. It is based on AdaBoost.MH but also implements popular cascade classifiers and FilterBoost along with a batch of common multi-class base learners (stumps, trees, products, Haar filters). From 9bf0ae32a91996a2b4bcc72ee682a32bc0b17e6d Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:37:17 -0700 Subject: [PATCH 103/485] Update README.md --- README.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index 242cf76..e16599a 100644 --- a/README.md +++ b/README.md @@ -30,7 +30,7 @@ |2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第六组:一些大的数据仓库,如data350.org, R datasets Package, Google Public Data, Infochimps, datamob [ [微博](http://www.weibo.com/5220650532/Bhbllse6Y?mod=weibotime) ] -

+


@@ -44,6 +44,7 @@ 2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第三组:政府数据,有美国的data.gov,英国的data.gov.uk、澳大利亚数据、加拿大数据、联合国数据、三藩市、纽约市、伦敦市数据。用DataMarket搜索和可视化数据 http://t.cn/RPSDceG [ [微博](http://www.weibo.com/5220650532/Bhbaxj6xo?mod=weibotime) ] +
From 6ad9ec6e892c516896a3144287b297bc372ec2bf Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:38:18 -0700 Subject: [PATCH 104/485] Update README.md --- README.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index e16599a..62a15a3 100644 --- a/README.md +++ b/README.md @@ -30,12 +30,12 @@ |2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第六组:一些大的数据仓库,如data350.org, R datasets Package, Google Public Data, Infochimps, datamob [ [微博](http://www.weibo.com/5220650532/Bhbllse6Y?mod=weibotime) ] -


+

2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第五组:理工科数据8类,包括地理、航天、癌症、气候、农业、生物等 http://t.cn/RPSkuaV 社会科学5类,包括GSS社会调查、劳动就业、Pew Research研究所的数据、UCLA数据门户 http://t.cn/RPSkuac [ [微博](http://www.weibo.com/5220650532/Bhbj57moY?mod=weibotime) ] -
+ From 31b7e937a5b9aad2d8b5a5d546dff54e43016456 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:40:33 -0700 Subject: [PATCH 105/485] Update multiclass-boosting.md --- awesome/multiclass-boosting.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/awesome/multiclass-boosting.md b/awesome/multiclass-boosting.md index a51b329..7da1818 100644 --- a/awesome/multiclass-boosting.md +++ b/awesome/multiclass-boosting.md @@ -1,5 +1,5 @@ 问:@图像视觉研究 有没有经典的Multi-Class boosting的相关资料推荐推荐? -答:找到几篇经典论文和几个工具包 [资料卡片](http://bigdata.memect.com/?tag=MultiClassBoosting) +答:找到几篇经典论文和几个工具包。早期研究在MIT,Stanford, 当前CSCD的专门有一个项目。软件有C++,Pythton 实现,也有几个国内学者开发的GITHUB开源软件。 [资料卡片](http://bigdata.memect.com/?tag=MultiClassBoosting) # overview http://www.svcl.ucsd.edu/projects/mcboost/ @@ -18,7 +18,7 @@ http://techtalks.tv/talks/multiclass-boosting-with-hinge-loss-based-on-output-co http://web.mit.edu/torralba/www/cvpr2004.pdf Sharing features: efficient boosting procedures for multiclass object detection, Antonio Torralba Kevin P. Murphy William T. Freeman, CVPR 2004 -http://dept.stat.lsa.umich.edu/~jizhu/pubs/Zhu-SII09.pdf Multi-class AdaBoost, Ji Zhu†, Hui Zou, Saharon Rosset and Trevor Hastie, Statistics and Its Interface, 2009 +http://dept.stat.lsa.umich.edu/~jizhu/pubs/Zhu-SII09.pdf Multi-class AdaBoost, Ji Zhu, Hui Zou, Saharon Rosset and Trevor Hastie, Statistics and Its Interface, 2009 http://www.cs.princeton.edu/~imukherj/nips10.pdf A Theory of Multiclass Boosting, Indraneel Mukherjee, Robert E. Schapire, NIPS 2010 From b78860e2b7f201802deb26a9cc9424db5fb8a2dc Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:41:53 -0700 Subject: [PATCH 106/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 62a15a3..209f83f 100644 --- a/README.md +++ b/README.md @@ -29,7 +29,7 @@ -|2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第六组:一些大的数据仓库,如data350.org, R datasets Package, Google Public Data, Infochimps, datamob [ [微博](http://www.weibo.com/5220650532/Bhbllse6Y?mod=weibotime) ] +2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第六组:一些大的数据仓库,如data360.org, R datasets Package, Google Public Data, Infochimps, datamob http://data.memect.com/?tag=publicdomain+hao60 [ [微博](http://www.weibo.com/5220650532/Bhbllse6Y?mod=weibotime) ]

From cea7beb1706ee77819bb1c2733ce91c921b0d1ad Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:41:57 -0700 Subject: [PATCH 107/485] Update multiclass-boosting.md --- awesome/multiclass-boosting.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/multiclass-boosting.md b/awesome/multiclass-boosting.md index 7da1818..444d440 100644 --- a/awesome/multiclass-boosting.md +++ b/awesome/multiclass-boosting.md @@ -1,5 +1,5 @@ 问:@图像视觉研究 有没有经典的Multi-Class boosting的相关资料推荐推荐? -答:找到几篇经典论文和几个工具包。早期研究在MIT,Stanford, 当前CSCD的专门有一个项目。软件有C++,Pythton 实现,也有几个国内学者开发的GITHUB开源软件。 [资料卡片](http://bigdata.memect.com/?tag=MultiClassBoosting) +答:找到几篇经典论文,几个幻灯片、工具包。早期研究在MIT, 目前研究在UCSD和Stanford 。软件有C++,Pythton 实现,也有几个国内学者开发的GITHUB开源软件。 [资料卡片](http://bigdata.memect.com/?tag=MultiClassBoosting) # overview http://www.svcl.ucsd.edu/projects/mcboost/ From 4999c24dc9c6cdd93da27ab522d37acb438bde89 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:42:21 -0700 Subject: [PATCH 108/485] Update multiclass-boosting.md --- awesome/multiclass-boosting.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/multiclass-boosting.md b/awesome/multiclass-boosting.md index 444d440..3112bb1 100644 --- a/awesome/multiclass-boosting.md +++ b/awesome/multiclass-boosting.md @@ -1,5 +1,5 @@ 问:@图像视觉研究 有没有经典的Multi-Class boosting的相关资料推荐推荐? -答:找到几篇经典论文,几个幻灯片、工具包。早期研究在MIT, 目前研究在UCSD和Stanford 。软件有C++,Pythton 实现,也有几个国内学者开发的GITHUB开源软件。 [资料卡片](http://bigdata.memect.com/?tag=MultiClassBoosting) +答:找到几篇经典论文,几个幻灯片、录像以及工具包。早期研究在MIT, 目前研究在UCSD和Stanford 。软件有C++,Pythton 实现,也有几个国内学者开发的GITHUB开源软件。 [资料卡片](http://bigdata.memect.com/?tag=MultiClassBoosting) # overview http://www.svcl.ucsd.edu/projects/mcboost/ From 9242553a6e8aa4ee0c273e6143c4fe38e154f8ad Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:45:24 -0700 Subject: [PATCH 109/485] Update README.md --- README.md | 14 +++++++------- 1 file changed, 7 insertions(+), 7 deletions(-) diff --git a/README.md b/README.md index 209f83f..9988451 100644 --- a/README.md +++ b/README.md @@ -27,35 +27,35 @@ ## 最近的问答 - + 2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第六组:一些大的数据仓库,如data360.org, R datasets Package, Google Public Data, Infochimps, datamob http://data.memect.com/?tag=publicdomain+hao60 [ [微博](http://www.weibo.com/5220650532/Bhbllse6Y?mod=weibotime) ]

- + 2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第五组:理工科数据8类,包括地理、航天、癌症、气候、农业、生物等 http://t.cn/RPSkuaV 社会科学5类,包括GSS社会调查、劳动就业、Pew Research研究所的数据、UCLA数据门户 http://t.cn/RPSkuac [ [微博](http://www.weibo.com/5220650532/Bhbj57moY?mod=weibotime) ] - + 2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第四组:SNAP斯坦福的网络数据集 http://t.cn/RPSkGc9 ,Time Series Data Library近800个时间序列数据(经济、水文、气象、农业各种)http://t.cn/RPSkGci 一些大学实验室的数据集,如OSU金融、CMU统计、UCLA SOCR概率 http://t.cn/RPSkGc6 [ [微博](http://www.weibo.com/5220650532/BhbfM2eN5?mod=weibotime) ] - + 2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第三组:政府数据,有美国的data.gov,英国的data.gov.uk、澳大利亚数据、加拿大数据、联合国数据、三藩市、纽约市、伦敦市数据。用DataMarket搜索和可视化数据 http://t.cn/RPSDceG [ [微博](http://www.weibo.com/5220650532/Bhbaxj6xo?mod=weibotime) ]
- + 2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第二组:机器学习数据源20+,包括Amazon Public Data(一共56个超大数据,如人类基因组,Common Crawl全球网页, Freebase,Wikipedia等各种宝贝)、航空、天气、医疗、音乐、电影、社交网络,Web点击 http://t.cn/RPSev91 [ [微博](http://www.weibo.com/5220650532/Bhb3qqHUg?mod=weibotime) ] - + 2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第一组:经济数据4个http://t.cn/RPSgSkR 世界银行Indictors, EconData, AEA(美国经济协会)RFE, GapMinder 金融数据8个:CBOE Futures Exchange, St Louis Fed, NASDAQ, OANDA, Quandl,Google/Yahoo http://t.cn/RPSgSkE [ [微博](http://www.weibo.com/5220650532/Bhb0wrN4O?mod=weibotime) ] - + 2014-08-07 ansj分词的作者@ansj 为我们介绍中文分词。工具有Java的Ansj分词、结巴分词Python版与C++版。基础文章《中文分词的原理与实践》。常用的算法:条件随机场CRF, 隐马尔科夫模型HMM。常用数据结构:Trie树和双数组 http://t.cn/RPSQlCE @ansj发起了nlpcn.org开放自由的NLP平台,NLPer都该去瞅瞅 [ [微博](http://www.weibo.com/5220650532/Bh9WGeljD?mod=weibotime) ] From 5b8cb788fbc47cba09e1f29287d9f88f155ec574 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 13:52:08 -0700 Subject: [PATCH 110/485] Update multiclass-boosting.md --- awesome/multiclass-boosting.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/multiclass-boosting.md b/awesome/multiclass-boosting.md index 3112bb1..433cda4 100644 --- a/awesome/multiclass-boosting.md +++ b/awesome/multiclass-boosting.md @@ -1,5 +1,5 @@ 问:@图像视觉研究 有没有经典的Multi-Class boosting的相关资料推荐推荐? -答:找到几篇经典论文,几个幻灯片、录像以及工具包。早期研究在MIT, 目前研究在UCSD和Stanford 。软件有C++,Pythton 实现,也有几个国内学者开发的GITHUB开源软件。 [资料卡片](http://bigdata.memect.com/?tag=MultiClassBoosting) +答:找到几篇经典论文,几个幻灯片、录像以及工具包, 目前研究在UCSD和Stanford 。软件有C++,Pythton 实现,也有几个学者开发的GITHUB开源软件。 [资料卡片](http://bigdata.memect.com/?tag=MultiClassBoosting) # overview http://www.svcl.ucsd.edu/projects/mcboost/ From 0a8c6fbfe0c3542a0559d1361d1724f8e8fda43d Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 14:01:08 -0700 Subject: [PATCH 111/485] Update multiclass-boosting.md --- awesome/multiclass-boosting.md | 3 +-- 1 file changed, 1 insertion(+), 2 deletions(-) diff --git a/awesome/multiclass-boosting.md b/awesome/multiclass-boosting.md index 433cda4..b589594 100644 --- a/awesome/multiclass-boosting.md +++ b/awesome/multiclass-boosting.md @@ -1,5 +1,4 @@ -问:@图像视觉研究 有没有经典的Multi-Class boosting的相关资料推荐推荐? -答:找到几篇经典论文,几个幻灯片、录像以及工具包, 目前研究在UCSD和Stanford 。软件有C++,Pythton 实现,也有几个学者开发的GITHUB开源软件。 [资料卡片](http://bigdata.memect.com/?tag=MultiClassBoosting) +问:@图像视觉研究 有没有经典的Multi-Class boosting的相关资料推荐推荐? 答:找到几篇经典论文,几个幻灯片、录像以及工具包。相关学校有MIT,UCSD,Stanford,umich等。软件有C++, Pythton (scikit-learn) 实现,也有几个GITHUB开源软件。 [资料卡片](http://bigdata.memect.com/?tag=MultiClassBoosting) # overview http://www.svcl.ucsd.edu/projects/mcboost/ From 03a85a8a07f34b58b0d10a9eafdb0b4bad5d87d6 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 14:02:11 -0700 Subject: [PATCH 112/485] Update multiclass-boosting.md --- awesome/multiclass-boosting.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/awesome/multiclass-boosting.md b/awesome/multiclass-boosting.md index b589594..ebfafb7 100644 --- a/awesome/multiclass-boosting.md +++ b/awesome/multiclass-boosting.md @@ -1,5 +1,7 @@ 问:@图像视觉研究 有没有经典的Multi-Class boosting的相关资料推荐推荐? 答:找到几篇经典论文,几个幻灯片、录像以及工具包。相关学校有MIT,UCSD,Stanford,umich等。软件有C++, Pythton (scikit-learn) 实现,也有几个GITHUB开源软件。 [资料卡片](http://bigdata.memect.com/?tag=MultiClassBoosting) +https://github.com/memect/hao/blob/master/awesome/multiclass-boosting.md + # overview http://www.svcl.ucsd.edu/projects/mcboost/ From 6ad6159eb37c8d79d444f60cfb3ce8cfa019be1b Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 14:09:55 -0700 Subject: [PATCH 113/485] Update multiclass-boosting.md --- awesome/multiclass-boosting.md | 9 ++++++++- 1 file changed, 8 insertions(+), 1 deletion(-) diff --git a/awesome/multiclass-boosting.md b/awesome/multiclass-boosting.md index ebfafb7..3fc91d3 100644 --- a/awesome/multiclass-boosting.md +++ b/awesome/multiclass-boosting.md @@ -1,4 +1,11 @@ -问:@图像视觉研究 有没有经典的Multi-Class boosting的相关资料推荐推荐? 答:找到几篇经典论文,几个幻灯片、录像以及工具包。相关学校有MIT,UCSD,Stanford,umich等。软件有C++, Pythton (scikit-learn) 实现,也有几个GITHUB开源软件。 [资料卡片](http://bigdata.memect.com/?tag=MultiClassBoosting) +#Awesome Multi-class Boosting Resources + +abstract: classic papers, slides and overviews, plus Github code. + +![Multi-class boosting](http://emma.memect.com/t/e7c2d6935a3a0e92486bee03cca3797954f8833ecb60ca4348b6fa32dba345f7) +(image source http://www.svcl.ucsd.edu/projects/) + +chinese abstract: 问:@图像视觉研究 有没有经典的Multi-Class boosting的相关资料推荐推荐? 答:找到几篇经典论文,几个幻灯片、录像以及工具包。相关学校有MIT,UCSD,Stanford,umich等。软件有C++, Pythton (scikit-learn) 实现,也有几个GITHUB开源软件。 [资料卡片](http://bigdata.memect.com/?tag=MultiClassBoosting) https://github.com/memect/hao/blob/master/awesome/multiclass-boosting.md From e86e1cf0ce2f4cd2f2e517eb31f4eef71a23f40e Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 14:10:06 -0700 Subject: [PATCH 114/485] Update multiclass-boosting.md --- awesome/multiclass-boosting.md | 1 + 1 file changed, 1 insertion(+) diff --git a/awesome/multiclass-boosting.md b/awesome/multiclass-boosting.md index 3fc91d3..137f032 100644 --- a/awesome/multiclass-boosting.md +++ b/awesome/multiclass-boosting.md @@ -3,6 +3,7 @@ abstract: classic papers, slides and overviews, plus Github code. ![Multi-class boosting](http://emma.memect.com/t/e7c2d6935a3a0e92486bee03cca3797954f8833ecb60ca4348b6fa32dba345f7) + (image source http://www.svcl.ucsd.edu/projects/) chinese abstract: 问:@图像视觉研究 有没有经典的Multi-Class boosting的相关资料推荐推荐? 答:找到几篇经典论文,几个幻灯片、录像以及工具包。相关学校有MIT,UCSD,Stanford,umich等。软件有C++, Pythton (scikit-learn) 实现,也有几个GITHUB开源软件。 [资料卡片](http://bigdata.memect.com/?tag=MultiClassBoosting) From 54f2fc2146d79af608122d45ec4c6561f4d623ad Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 14:16:19 -0700 Subject: [PATCH 115/485] Update README.md --- README.md | 5 +++++ 1 file changed, 5 insertions(+) diff --git a/README.md b/README.md index 9988451..d4b7993 100644 --- a/README.md +++ b/README.md @@ -26,6 +26,11 @@ ## [@TechCrunch中国 国际创新北京峰会VIP票大pk](https://github.com/memect/hao/issues/38) ## 最近的问答 + + +2014-08-07 问:@图像视觉研究 有没有经典的Multi-Class boosting的相关资料推荐推荐? 答:找到几篇经典论文,几个幻灯片、录像以及工具包。相关学校有MIT,UCSD,Stanford,umich等。软件有C++, Pythton (scikit-learn) 实现,也有几个GITHUB开源软件。http://memect.co/fVshb4Z [ [微博]http://www.weibo.com/5220650532/BhgJ0hHvLY?mod=weibotime) ] +

+ From 45fc02aea18eee5e0ced29ea63d81c76bfd57055 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 14:16:46 -0700 Subject: [PATCH 116/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index d4b7993..4a9ac97 100644 --- a/README.md +++ b/README.md @@ -28,7 +28,7 @@ ## 最近的问答 -2014-08-07 问:@图像视觉研究 有没有经典的Multi-Class boosting的相关资料推荐推荐? 答:找到几篇经典论文,几个幻灯片、录像以及工具包。相关学校有MIT,UCSD,Stanford,umich等。软件有C++, Pythton (scikit-learn) 实现,也有几个GITHUB开源软件。http://memect.co/fVshb4Z [ [微博]http://www.weibo.com/5220650532/BhgJ0hHvLY?mod=weibotime) ] +2014-08-07 问:@图像视觉研究 有没有经典的Multi-Class boosting的相关资料推荐推荐? 答:找到几篇经典论文,几个幻灯片、录像以及工具包。相关学校有MIT,UCSD,Stanford,umich等。软件有C++, Pythton (scikit-learn) 实现,也有几个GITHUB开源软件。http://memect.co/fVshb4Z [ [微博](http://www.weibo.com/5220650532/BhgJ0hHvLY?mod=weibotime) ]

From 399c29d0ffa69f978d966d19b51f4183ba9ebcdd Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 14:17:21 -0700 Subject: [PATCH 117/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 4a9ac97..ed2a5ea 100644 --- a/README.md +++ b/README.md @@ -28,7 +28,7 @@ ## 最近的问答 -2014-08-07 问:@图像视觉研究 有没有经典的Multi-Class boosting的相关资料推荐推荐? 答:找到几篇经典论文,几个幻灯片、录像以及工具包。相关学校有MIT,UCSD,Stanford,umich等。软件有C++, Pythton (scikit-learn) 实现,也有几个GITHUB开源软件。http://memect.co/fVshb4Z [ [微博](http://www.weibo.com/5220650532/BhgJ0hHvLY?mod=weibotime) ] +2014-08-08 问:@图像视觉研究 有没有经典的Multi-Class boosting的相关资料推荐推荐? 答:找到几篇经典论文,几个幻灯片、录像以及工具包。相关学校有MIT,UCSD,Stanford,umich等。软件有C++, Pythton (scikit-learn) 实现,也有几个GITHUB开源软件。http://memect.co/fVshb4Z [ [微博](http://www.weibo.com/5220650532/BhgJ0hHvLY?mod=weibotime) ]

From de266564b8262ffd71b5e24b2df9f7377def576e Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 14:21:30 -0700 Subject: [PATCH 118/485] Update multiclass-boosting.md --- awesome/multiclass-boosting.md | 6 ++++++ 1 file changed, 6 insertions(+) diff --git a/awesome/multiclass-boosting.md b/awesome/multiclass-boosting.md index 137f032..8878c21 100644 --- a/awesome/multiclass-boosting.md +++ b/awesome/multiclass-boosting.md @@ -17,6 +17,12 @@ http://classes.soe.ucsc.edu/cmps242/Fall09/proj/Mario_Rodriguez_Multiclass_Boost http://cmp.felk.cvut.cz/~sochmj1/adaboost_talk.pdf presentation summarizing AdaBoost + +# people + +http://dept.stat.lsa.umich.edu/~jizhu/ check his contribution on SAMME + + #video lectures https://www.youtube.com/watch?v=L6BlpGnCYVg "A Theory of Multiclass Boosting", Rob Schapire, Partha Niyogi Memorial Conference: Computer Science From 75f5fe75ed62362c03ddaf7f2e280e3e0e294f1d Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 14:41:46 -0700 Subject: [PATCH 119/485] Create manifold learning.md --- awesome/manifold learning.md | 25 +++++++++++++++++++++++++ 1 file changed, 25 insertions(+) create mode 100644 awesome/manifold learning.md diff --git a/awesome/manifold learning.md b/awesome/manifold learning.md new file mode 100644 index 0000000..e77e537 --- /dev/null +++ b/awesome/manifold learning.md @@ -0,0 +1,25 @@ +## Introduction + +http://blog.sina.com.cn/s/blog_eccca60e0101h1d6.html @cmdyz 流形学习 (Manifold Learning) + +http://blog.pluskid.org/?p=533 浅谈流形学习 + +http://blog.csdn.net/chl033/article/details/6107042 流形学习(manifold learning)综述 + + +# Advanced Introduction + +https://www.cs.cmu.edu/~efros/courses/AP06/presentations/ThompsonDimensionalityReduction.pdf + +http://mlsp2012.conwiz.dk/fileadmin/lectures/mlsp2012_raich.pdf MLSP2012 Tutorial: Manifold Learning: Modeling and. Algorithms + +# Additional Tutorials + +http://www2.imm.dtu.dk/projects/manifold/Syllabus.html Summer School on Manifold Learning in Image and Signal Analysis + +## Implementation + +http://scikit-learn.org/stable/modules/manifold.html + +谁还关注这个话题: @王斌_ICTIR @丕子 @JianHsiao + From 65432f38de4545c553dfb960c80744b00e8a17d0 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 14:43:36 -0700 Subject: [PATCH 120/485] Update and rename manifold learning.md to manifold-learning.md --- awesome/{manifold learning.md => manifold-learning.md} | 7 ++++++- 1 file changed, 6 insertions(+), 1 deletion(-) rename awesome/{manifold learning.md => manifold-learning.md} (77%) diff --git a/awesome/manifold learning.md b/awesome/manifold-learning.md similarity index 77% rename from awesome/manifold learning.md rename to awesome/manifold-learning.md index e77e537..6f3505e 100644 --- a/awesome/manifold learning.md +++ b/awesome/manifold-learning.md @@ -6,8 +6,13 @@ http://blog.pluskid.org/?p=533 浅谈流形学习 http://blog.csdn.net/chl033/article/details/6107042 流形学习(manifold learning)综述 +http://colah.github.io/posts/2014-03-NN-Manifolds-Topology/ Neural Networks, Manifolds, and Topology -# Advanced Introduction +# Tutorial + +http://www.cad.zju.edu.cn/reports/%C1%F7%D0%CE%D1%A7%CF%B0.pdf + +# Advanced Tutorial 何晓飞 流形学习 https://www.cs.cmu.edu/~efros/courses/AP06/presentations/ThompsonDimensionalityReduction.pdf From f718215117a0ed7f9cc9ea438fd2597fda68b4c0 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 14:45:57 -0700 Subject: [PATCH 121/485] Update manifold-learning.md --- awesome/manifold-learning.md | 4 +--- 1 file changed, 1 insertion(+), 3 deletions(-) diff --git a/awesome/manifold-learning.md b/awesome/manifold-learning.md index 6f3505e..6e7ef84 100644 --- a/awesome/manifold-learning.md +++ b/awesome/manifold-learning.md @@ -10,9 +10,7 @@ http://colah.github.io/posts/2014-03-NN-Manifolds-Topology/ Neural Networks, Man # Tutorial -http://www.cad.zju.edu.cn/reports/%C1%F7%D0%CE%D1%A7%CF%B0.pdf - -# Advanced Tutorial 何晓飞 流形学习 +http://www.cad.zju.edu.cn/reports/%C1%F7%D0%CE%D1%A7%CF%B0.pdf 何晓飞 流形学习 https://www.cs.cmu.edu/~efros/courses/AP06/presentations/ThompsonDimensionalityReduction.pdf From 52b24840bee13e00963981b78b53955ee88c035d Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 7 Aug 2014 14:51:01 -0700 Subject: [PATCH 122/485] Update manifold-learning.md --- awesome/manifold-learning.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/manifold-learning.md b/awesome/manifold-learning.md index 6e7ef84..5a33a79 100644 --- a/awesome/manifold-learning.md +++ b/awesome/manifold-learning.md @@ -24,5 +24,5 @@ http://www2.imm.dtu.dk/projects/manifold/Syllabus.html Summer School on Manifold http://scikit-learn.org/stable/modules/manifold.html -谁还关注这个话题: @王斌_ICTIR @丕子 @JianHsiao +谁还关注这个话题: @王斌_ICTIR @丕子 From da71654f2d20a39777d2ea147c5782958b9ca2ee Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 8 Aug 2014 09:23:14 -0700 Subject: [PATCH 123/485] Update README.md --- README.md | 9 +++++++++ 1 file changed, 9 insertions(+) diff --git a/README.md b/README.md index ed2a5ea..1d0cd65 100644 --- a/README.md +++ b/README.md @@ -26,6 +26,15 @@ ## [@TechCrunch中国 国际创新北京峰会VIP票大pk](https://github.com/memect/hao/issues/38) ## 最近的问答 + + + + +2014-08-08 问: @ 红星照大龙 有没有机器学习对具体设备(比如四轴,双足机器人,运动控制)在控制性能方面提升(稳定性,响应速度)的工具或者资料? +答:是不是Robot Learning或Adaptive Control,请看综述,工具,研究组和学会。两篇维基的参考资料都挺好。http://memect.co/Ehc3uFo [ [微博](http://www.weibo.com/5220650532/Bhl75C7mP) ] +

+ + 2014-08-08 问:@图像视觉研究 有没有经典的Multi-Class boosting的相关资料推荐推荐? 答:找到几篇经典论文,几个幻灯片、录像以及工具包。相关学校有MIT,UCSD,Stanford,umich等。软件有C++, Pythton (scikit-learn) 实现,也有几个GITHUB开源软件。http://memect.co/fVshb4Z [ [微博](http://www.weibo.com/5220650532/BhgJ0hHvLY?mod=weibotime) ] From ca7c9721e82af732270a147fa18f3bb63b90a4f1 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 8 Aug 2014 09:44:07 -0700 Subject: [PATCH 124/485] Update README.md --- README.md | 7 +++++++ 1 file changed, 7 insertions(+) diff --git a/README.md b/README.md index 1d0cd65..18838dd 100644 --- a/README.md +++ b/README.md @@ -34,6 +34,13 @@ 答:是不是Robot Learning或Adaptive Control,请看综述,工具,研究组和学会。两篇维基的参考资料都挺好。http://memect.co/Ehc3uFo [ [微博](http://www.weibo.com/5220650532/Bhl75C7mP) ]

+ + +2014-08-08 问: @ai_东沂 木有关于社会化标签挖掘的相关资料? +答: 社会化标签(folksonomy)在十年前很热了一阵,相关研究也主要集中在那一段时间(印第安那的一个博士生整理了一个文献清单)。还有两个综述论文(KDD那篇来自韩家伟的学生,另一篇KER来自一个语义Web的研究组)。不太全面,欢迎指正。http://memect.co/eOcfnQA [ [微博](http://www.weibo.com/5220650532/Bhl1QAnEn) ] +

+ + From 15b943a58e144d16f605b98b800742272dd9fb4c Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 8 Aug 2014 09:47:39 -0700 Subject: [PATCH 125/485] Update README.md --- README.md | 6 ++++++ 1 file changed, 6 insertions(+) diff --git a/README.md b/README.md index 18838dd..1688f9b 100644 --- a/README.md +++ b/README.md @@ -47,6 +47,12 @@ 2014-08-08 问:@图像视觉研究 有没有经典的Multi-Class boosting的相关资料推荐推荐? 答:找到几篇经典论文,几个幻灯片、录像以及工具包。相关学校有MIT,UCSD,Stanford,umich等。软件有C++, Pythton (scikit-learn) 实现,也有几个GITHUB开源软件。http://memect.co/fVshb4Z [ [微博](http://www.weibo.com/5220650532/BhgJ0hHvLY?mod=weibotime) ]

+ + +2014-08-08 问:@andeguangshaqianwanjian 求python做神经网络的资料 答:找到十个工具,pythonWiki5个,Github里2个,其他(好像比前两类常用)3个。http://memect.co/no0jyMY + [ [微博](http://www.weibo.com/5220650532/BhkMjyL4g?mod=weibotime) ] +

+ From a02c82b884ed1796e69dc7618172e231f76c8810 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 8 Aug 2014 09:48:03 -0700 Subject: [PATCH 126/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 1688f9b..b5adcbc 100644 --- a/README.md +++ b/README.md @@ -62,7 +62,7 @@ 2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第五组:理工科数据8类,包括地理、航天、癌症、气候、农业、生物等 http://t.cn/RPSkuaV 社会科学5类,包括GSS社会调查、劳动就业、Pew Research研究所的数据、UCLA数据门户 http://t.cn/RPSkuac [ [微博](http://www.weibo.com/5220650532/Bhbj57moY?mod=weibotime) ] - +

From 49cf484baac0ea25a901bc4c5bcf39a341766976 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 8 Aug 2014 09:49:11 -0700 Subject: [PATCH 127/485] Update README.md --- README.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index b5adcbc..899665e 100644 --- a/README.md +++ b/README.md @@ -67,11 +67,12 @@ 2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第四组:SNAP斯坦福的网络数据集 http://t.cn/RPSkGc9 ,Time Series Data Library近800个时间序列数据(经济、水文、气象、农业各种)http://t.cn/RPSkGci 一些大学实验室的数据集,如OSU金融、CMU统计、UCLA SOCR概率 http://t.cn/RPSkGc6 [ [微博](http://www.weibo.com/5220650532/BhbfM2eN5?mod=weibotime) ] +

2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第三组:政府数据,有美国的data.gov,英国的data.gov.uk、澳大利亚数据、加拿大数据、联合国数据、三藩市、纽约市、伦敦市数据。用DataMarket搜索和可视化数据 http://t.cn/RPSDceG [ [微博](http://www.weibo.com/5220650532/Bhbaxj6xo?mod=weibotime) ] -
+

From 97df2cbb056f3ffc2a843bda3b193d70875ae357 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 8 Aug 2014 09:49:49 -0700 Subject: [PATCH 128/485] Update README.md --- README.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index 899665e..dfb581d 100644 --- a/README.md +++ b/README.md @@ -57,7 +57,8 @@ 2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第六组:一些大的数据仓库,如data360.org, R datasets Package, Google Public Data, Infochimps, datamob http://data.memect.com/?tag=publicdomain+hao60 [ [微博](http://www.weibo.com/5220650532/Bhbllse6Y?mod=weibotime) ] -

+



+ From 0dd68f8eafee63ba21faea2baf557c52ea12c366 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 8 Aug 2014 09:50:43 -0700 Subject: [PATCH 129/485] Update README.md --- README.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index dfb581d..64c40d9 100644 --- a/README.md +++ b/README.md @@ -51,13 +51,13 @@ 2014-08-08 问:@andeguangshaqianwanjian 求python做神经网络的资料 答:找到十个工具,pythonWiki5个,Github里2个,其他(好像比前两类常用)3个。http://memect.co/no0jyMY [ [微博](http://www.weibo.com/5220650532/BhkMjyL4g?mod=weibotime) ] -

+



2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第六组:一些大的数据仓库,如data360.org, R datasets Package, Google Public Data, Infochimps, datamob http://data.memect.com/?tag=publicdomain+hao60 [ [微博](http://www.weibo.com/5220650532/Bhbllse6Y?mod=weibotime) ] -



+

From 54a9d599d78d12ab2574c833da007accb3dca54a Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 8 Aug 2014 12:24:21 -0700 Subject: [PATCH 130/485] Create image-cbr --- awesome/image-cbr | 6 ++++++ 1 file changed, 6 insertions(+) create mode 100644 awesome/image-cbr diff --git a/awesome/image-cbr b/awesome/image-cbr new file mode 100644 index 0000000..6cf7474 --- /dev/null +++ b/awesome/image-cbr @@ -0,0 +1,6 @@ +http://www.openimaj.org/ +http://www.openimaj.org/tutorial-pdf.pdf +https://code.google.com/p/lire/ +http://demo-itec.uni-klu.ac.at/liredemo/ +http://www.phash.org/ +http://www.phash.org/docs/pubs/thesis_zauner.pdf From 9c335914e80ab03bc1efcefbbf4c2eecd3a7b371 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 8 Aug 2014 12:27:07 -0700 Subject: [PATCH 131/485] Update and rename image-cbr to image-cbr.md --- awesome/{image-cbr => image-cbr.md} | 5 +++++ 1 file changed, 5 insertions(+) rename awesome/{image-cbr => image-cbr.md} (97%) diff --git a/awesome/image-cbr b/awesome/image-cbr.md similarity index 97% rename from awesome/image-cbr rename to awesome/image-cbr.md index 6cf7474..7351472 100644 --- a/awesome/image-cbr +++ b/awesome/image-cbr.md @@ -1,6 +1,11 @@ http://www.openimaj.org/ + http://www.openimaj.org/tutorial-pdf.pdf + https://code.google.com/p/lire/ + http://demo-itec.uni-klu.ac.at/liredemo/ + http://www.phash.org/ + http://www.phash.org/docs/pubs/thesis_zauner.pdf From d2d567a35b8a52fde39beb77998cdea1fe7424d7 Mon Sep 17 00:00:00 2001 From: Li Ding Date: Mon, 11 Aug 2014 16:27:07 -0700 Subject: [PATCH 132/485] Update README.md --- README.md | 8 ++++++++ 1 file changed, 8 insertions(+) diff --git a/README.md b/README.md index 64c40d9..daad230 100644 --- a/README.md +++ b/README.md @@ -28,6 +28,14 @@ ## 最近的问答 + + +2014-08-12 问:@all_shuffle cassandra调优的资料 +答:可以去datastax和cassandra wiki去找资料。优化点含数据建模、读写I/O、存储压缩、JVM。要注意cassandra版本。也可以看看Ebay, Netflix的应用案例。http://memect.co/ioPLBIK [ [微博](http://www.weibo.com/5220650532/BhTnSbw2s) ] +

+ + + 2014-08-08 问: @ 红星照大龙 有没有机器学习对具体设备(比如四轴,双足机器人,运动控制)在控制性能方面提升(稳定性,响应速度)的工具或者资料? From 8f36b56630b56d5e3601f8583fae66cb280293cd Mon Sep 17 00:00:00 2001 From: Li Ding Date: Mon, 11 Aug 2014 16:27:55 -0700 Subject: [PATCH 133/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index daad230..8ce6311 100644 --- a/README.md +++ b/README.md @@ -36,7 +36,7 @@ - + 2014-08-08 问: @ 红星照大龙 有没有机器学习对具体设备(比如四轴,双足机器人,运动控制)在控制性能方面提升(稳定性,响应速度)的工具或者资料? 答:是不是Robot Learning或Adaptive Control,请看综述,工具,研究组和学会。两篇维基的参考资料都挺好。http://memect.co/Ehc3uFo [ [微博](http://www.weibo.com/5220650532/Bhl75C7mP) ] From c813a0262cc0e3b7154684b72098db72fc019f14 Mon Sep 17 00:00:00 2001 From: Li Ding Date: Mon, 11 Aug 2014 16:28:56 -0700 Subject: [PATCH 134/485] Update README.md --- README.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index 8ce6311..e78c54f 100644 --- a/README.md +++ b/README.md @@ -28,7 +28,7 @@ ## 最近的问答 - + 2014-08-12 问:@all_shuffle cassandra调优的资料 答:可以去datastax和cassandra wiki去找资料。优化点含数据建模、读写I/O、存储压缩、JVM。要注意cassandra版本。也可以看看Ebay, Netflix的应用案例。http://memect.co/ioPLBIK [ [微博](http://www.weibo.com/5220650532/BhTnSbw2s) ] @@ -36,7 +36,7 @@ - + 2014-08-08 问: @ 红星照大龙 有没有机器学习对具体设备(比如四轴,双足机器人,运动控制)在控制性能方面提升(稳定性,响应速度)的工具或者资料? 答:是不是Robot Learning或Adaptive Control,请看综述,工具,研究组和学会。两篇维基的参考资料都挺好。http://memect.co/Ehc3uFo [ [微博](http://www.weibo.com/5220650532/Bhl75C7mP) ] From a347f9a62be8f97d4af75ae31c171666481793bb Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 12 Aug 2014 18:52:52 -0700 Subject: [PATCH 135/485] Create chinese-nlp.md --- awesome/chinese-nlp.md | 4 ++++ 1 file changed, 4 insertions(+) create mode 100644 awesome/chinese-nlp.md diff --git a/awesome/chinese-nlp.md b/awesome/chinese-nlp.md new file mode 100644 index 0000000..3a69ad5 --- /dev/null +++ b/awesome/chinese-nlp.md @@ -0,0 +1,4 @@ + +## 综述 +http://www.zhihu.com/question/19929473 + From 29474e0524ff49e77b7f5897ac36fbf75a05a24b Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 12 Aug 2014 18:57:38 -0700 Subject: [PATCH 136/485] Update chinese-nlp.md --- awesome/chinese-nlp.md | 1 + 1 file changed, 1 insertion(+) diff --git a/awesome/chinese-nlp.md b/awesome/chinese-nlp.md index 3a69ad5..785a417 100644 --- a/awesome/chinese-nlp.md +++ b/awesome/chinese-nlp.md @@ -2,3 +2,4 @@ ## 综述 http://www.zhihu.com/question/19929473 +http://www.52nlp.cn/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%85%A5%E9%97%A8%E4%B9%8B%E8%B5%84%E6%BA%90 中文分词 From c4822953a5e0a9a8c2559db75547c08e6feb9066 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 12 Aug 2014 19:02:20 -0700 Subject: [PATCH 137/485] Update chinese-nlp.md --- awesome/chinese-nlp.md | 8 ++++++++ 1 file changed, 8 insertions(+) diff --git a/awesome/chinese-nlp.md b/awesome/chinese-nlp.md index 785a417..8835571 100644 --- a/awesome/chinese-nlp.md +++ b/awesome/chinese-nlp.md @@ -2,4 +2,12 @@ ## 综述 http://www.zhihu.com/question/19929473 +## 专题 + http://www.52nlp.cn/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%85%A5%E9%97%A8%E4%B9%8B%E8%B5%84%E6%BA%90 中文分词 + +http://www.google.com/patents/US20100306139 google专利,中文姓名识别 + +https://github.com/fxsjy/jieba 中文分词 + +http://nlp.stanford.edu/software/CRF-NER.shtml stanford named entity recognition From 85be8dce14a06597b7fa87ddabaa216173d577d5 Mon Sep 17 00:00:00 2001 From: Han Wang Date: Wed, 13 Aug 2014 11:40:51 -0400 Subject: [PATCH 138/485] Create entity-linking Added Heng Ji's ACL 2014 wikification tutorial. --- awesome/entity-linking | 1 + 1 file changed, 1 insertion(+) create mode 100644 awesome/entity-linking diff --git a/awesome/entity-linking b/awesome/entity-linking new file mode 100644 index 0000000..6ba59b2 --- /dev/null +++ b/awesome/entity-linking @@ -0,0 +1 @@ +Prof. Heng Ji (http://nlp.cs.rpi.edu/hengji.html)'s wikification tutorial at ACL 2014. http://nlp.cs.rpi.edu/paper/wikificationtutorial.pdf From 15d406ee3e3c55e356d75409922b2a1e3d610547 Mon Sep 17 00:00:00 2001 From: Han Wang Date: Wed, 13 Aug 2014 12:16:01 -0400 Subject: [PATCH 139/485] Update entity-linking --- awesome/entity-linking | 4 +++- 1 file changed, 3 insertions(+), 1 deletion(-) diff --git a/awesome/entity-linking b/awesome/entity-linking index 6ba59b2..8081eee 100644 --- a/awesome/entity-linking +++ b/awesome/entity-linking @@ -1 +1,3 @@ -Prof. Heng Ji (http://nlp.cs.rpi.edu/hengji.html)'s wikification tutorial at ACL 2014. http://nlp.cs.rpi.edu/paper/wikificationtutorial.pdf +Entity linking paper reading list: http://nlp.cs.rpi.edu/kbp/2014/elreading.html by Heng Ji. + +ACL 2014 wikification tutorial by Dan Roth (UIUC), Heng Ji (RPI), Ming-Wei Chang (MSR), Taylor Cassidy (ARL, IBM): http://nlp.cs.rpi.edu/paper/wikificationtutorial.pdf From f1906841ecf597aec09373ced1c66b4c2d792630 Mon Sep 17 00:00:00 2001 From: Han Wang Date: Wed, 13 Aug 2014 12:16:47 -0400 Subject: [PATCH 140/485] Update entity-linking --- awesome/entity-linking | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/entity-linking b/awesome/entity-linking index 8081eee..2b76485 100644 --- a/awesome/entity-linking +++ b/awesome/entity-linking @@ -1,3 +1,3 @@ Entity linking paper reading list: http://nlp.cs.rpi.edu/kbp/2014/elreading.html by Heng Ji. -ACL 2014 wikification tutorial by Dan Roth (UIUC), Heng Ji (RPI), Ming-Wei Chang (MSR), Taylor Cassidy (ARL, IBM): http://nlp.cs.rpi.edu/paper/wikificationtutorial.pdf +ACL 2014 wikification tutorial by Dan Roth (UIUC), Heng Ji (RPI), Ming-Wei Chang (MSR), and Taylor Cassidy (ARL, IBM): http://nlp.cs.rpi.edu/paper/wikificationtutorial.pdf From 1ecea0b65d1d3453ef8876ed15266c7b69f17745 Mon Sep 17 00:00:00 2001 From: Li Ding Date: Wed, 13 Aug 2014 12:29:18 -0700 Subject: [PATCH 141/485] update format --- awesome/entity-linking | 6 ++++-- 1 file changed, 4 insertions(+), 2 deletions(-) diff --git a/awesome/entity-linking b/awesome/entity-linking index 2b76485..8f347fa 100644 --- a/awesome/entity-linking +++ b/awesome/entity-linking @@ -1,3 +1,5 @@ -Entity linking paper reading list: http://nlp.cs.rpi.edu/kbp/2014/elreading.html by Heng Ji. +# reading lists +http://nlp.cs.rpi.edu/kbp/2014/elreading.html Entity linking paper reading list, by Heng Ji. -ACL 2014 wikification tutorial by Dan Roth (UIUC), Heng Ji (RPI), Ming-Wei Chang (MSR), and Taylor Cassidy (ARL, IBM): http://nlp.cs.rpi.edu/paper/wikificationtutorial.pdf +# tutorial +http://nlp.cs.rpi.edu/paper/wikificationtutorial.pdf ACL 2014 wikification tutorial by Dan Roth (UIUC), Heng Ji (RPI), Ming-Wei Chang (MSR), and Taylor Cassidy (ARL, IBM) From 83daf9ad7607af71824b6591a5fcfaeb752a6960 Mon Sep 17 00:00:00 2001 From: Li Ding Date: Wed, 13 Aug 2014 12:29:34 -0700 Subject: [PATCH 142/485] Rename entity-linking to entity-linking.md --- awesome/{entity-linking => entity-linking.md} | 0 1 file changed, 0 insertions(+), 0 deletions(-) rename awesome/{entity-linking => entity-linking.md} (100%) diff --git a/awesome/entity-linking b/awesome/entity-linking.md similarity index 100% rename from awesome/entity-linking rename to awesome/entity-linking.md From 29a0a0b395164f0d8694f59fcca0fd55dbd9069a Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 13 Aug 2014 20:03:51 -0700 Subject: [PATCH 143/485] Update README.md --- README.md | 37 +++++++++++++++++++++++++++++++++++-- 1 file changed, 35 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index e78c54f..1bce182 100644 --- a/README.md +++ b/README.md @@ -28,13 +28,48 @@ ## 最近的问答 +2014-08-13 最近我们推荐过四组深度学习的资源,分别为语音检索,文本挖掘/自然语言处理,图像检索,最热深度学习Github项目。为方便大家浏览/粘帖,现在制作成可下载的PPT,每页是一个推荐资源的预览。百度云盘 http://t.cn/RPWoSHq slideshare http://t.cn/RPWoSHb 原始PPT http://t.cn/RPWoSH4 +http://www.weibo.com/5220650532/Bi6AwyhV1?mod=weibotime + +2014-08-13 http://t.cn/RPW6muz ACL2014 Semantic Parsing Workshop的slides 感谢@老淘 @波多野丽猪 推荐 +http://www.weibo.com/5220650532/Bi6fQ8wYq?mod=weibotime + +2014-08-13 问:@VoidStars 请问想提取一段文本里的中文姓名(0~1个) 有好的开源库和教程吗 答: 常见方法就是分词,再利用姓名词库和上下文关系来确定。 知呼有一个综述。google有专利。 @52nlp 也有大量博文讲中文分词。开源工具比较有名的有jieba, snownlp, stanford-nlp-ner. http://t.cn/RPWP2h1 +http://www.weibo.com/5220650532/Bi3VHfSFP?mod=weibotime + +2014-08-13 问: @yongsun 有没有开源或者免费的英文语音识别软件/或项目?打算翻译一些冰球教学的视频,想结合识别结果来进行听译 答: Windows7/8 自带语音识别功能,Google Chrome有基于云端服务的识别插件,软件方面Nuaunce的Dragon很牛(SIRI就是靠它做语音识别). 开源软件列表看维基百科。http://t.cn/RPODalA +http://www.weibo.com/5220650532/Bi3ti7wAd?mod=weibotime + +2014-08-13 问: 做 logistic regression 有啥好用的库吗? 需要处理几十万个 features, 然后几十亿个training data的。 features 是极其稀疏的,Sparsity大概万分之一左右吧 答: 有不少开源库: Spark(MLlib), Mahout, R+Hadoop, Hadoop, Scalding(Conjecture)。有2014分析指出SPARK比较快。http://t.cn/RPOddon +http://www.weibo.com/5220650532/Bi3axDIR8?mod=weibotime + +2014-08-12 @刘知远THU 推荐:翟成祥老师(UIUC)的综述专著:Statistical Language Models for Information Retrieval(信息检索中的统计语言模式)(2008),从BM25到PLSA, LDA,回顾了领域发展并总结了未来的挑战。 +http://www.weibo.com/5220650532/BhWzutAft?mod=weibotime + +2014-08-12 [NLP讲义下载,125页,PDF] 翟成祥老师(UIUC)今年在澳大利亚数据库博士短训班的教程:"Statistical Methods for Mining Big Text Data" 介绍两种基于统计语言模型(Statistics Language Model)的基本话题模型(Topic Model): LDA和PLSA的原理及应用。最后列出六个未来研究课题。http://t.cn/RPO7vtW +http://www.weibo.com/5220650532/BhWo26Y93?mod=weibotime + +2014-08-12 @talkto廖华 请问有没有好用的中文词汇的语义相似度计算工具?答:多种分布式表示方法都可以计算语义相似度,中英文均可以处理。如近来的word2vec http://t.cn/RPOvesp 和glove。@刘知远THU 推荐ESA(Explicit semantic analysis),在稳定性上可能更优,一些开源项目和文章如下 http://t.cn/RPOvesj +http://www.weibo.com/5220650532/BhWdIDon6?mod=weibotime + + 2014-08-12 问:@all_shuffle cassandra调优的资料 答:可以去datastax和cassandra wiki去找资料。优化点含数据建模、读写I/O、存储压缩、JVM。要注意cassandra版本。也可以看看Ebay, Netflix的应用案例。http://memect.co/ioPLBIK [ [微博](http://www.weibo.com/5220650532/BhTnSbw2s) ]

+2014-08-10 @唐小sin 问:现在社交网络的研究焦点在哪? 答:感谢清华大学@唐杰THU 教授提供答案,在他与密歇根大学梅俏竹教授合写的综述《数据挖掘学科发展报告》第2.2 部分“社交网络分析和图挖掘研究”分析了诸多前沿方向,如网络结构分析、图模式挖掘、信息传播和影响力建模等,可供参考 http://t.cn/RPNVntW +http://www.weibo.com/5220650532/BhCrZ8DO1?mod=weibotime + +2014-08-10 http://t.cn/RPNLDbW 用Python打造图像分析应用你需要知道的15个软件包:计算基础Numpy Scipy 图像基础matoplotlib PIL/Pillow 图像进阶OpenCV SimpleCV mahotas scikit-learn ilastik 其他pprocess h5py scikit-image Medpy 完整列表 http://t.cn/RPNLDb0 +http://www.weibo.com/5220650532/BhBkrkfWg?mod=weibotime +2014-08-09 如何用Python打造高可用性网站?这组来自highscalability的文章展示了如何利用Python服务以亿计用户的网站,包括耳熟能详的Youtube(视频)、Reddit和Digg(新闻分享)、Dropbox(云存储)、Instagram和Pinterest(图片分享)等。下次有人疑问Python的性能,和ta分享这组文章吧 http://t.cn/RPCutKS +http://www.weibo.com/5220650532/BhxxQjtja?mod=weibotime + +2014-08-09 @我爱机器学习 问: 判断两张图片是否是同一内容(只考虑光照、倾斜、模糊、偏移等因素)的资料有否?答:@CD--挨踢民工巍然 推荐了lire,OpenIMAJ @申砾 推荐了pHash。lire和OpenIMAJ都是java的,openimag可以处理视频,关键点匹配,人脸识别等。pHash是C++的图像哈希软件 http://t.cn/RP9aFVz +http://www.weibo.com/5220650532/BhqBFulcq?mod=weibotime @@ -48,8 +83,6 @@ 答: 社会化标签(folksonomy)在十年前很热了一阵,相关研究也主要集中在那一段时间(印第安那的一个博士生整理了一个文献清单)。还有两个综述论文(KDD那篇来自韩家伟的学生,另一篇KER来自一个语义Web的研究组)。不太全面,欢迎指正。http://memect.co/eOcfnQA [ [微博](http://www.weibo.com/5220650532/Bhl1QAnEn) ]

- - 2014-08-08 问:@图像视觉研究 有没有经典的Multi-Class boosting的相关资料推荐推荐? 答:找到几篇经典论文,几个幻灯片、录像以及工具包。相关学校有MIT,UCSD,Stanford,umich等。软件有C++, Pythton (scikit-learn) 实现,也有几个GITHUB开源软件。http://memect.co/fVshb4Z [ [微博](http://www.weibo.com/5220650532/BhgJ0hHvLY?mod=weibotime) ] From 6629397996b99a2e61e170782b893a386dab58db Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 13 Aug 2014 20:04:24 -0700 Subject: [PATCH 144/485] Update README.md --- README.md | 2 -- 1 file changed, 2 deletions(-) diff --git a/README.md b/README.md index 1bce182..97f8d7a 100644 --- a/README.md +++ b/README.md @@ -23,8 +23,6 @@
-## [@TechCrunch中国 国际创新北京峰会VIP票大pk](https://github.com/memect/hao/issues/38) - ## 最近的问答 From 43476cd4cdcc1ff9d2a082267bec3fb8e9527c3c Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 14 Aug 2014 16:33:05 -0700 Subject: [PATCH 145/485] Create learn-big-data.md --- awesome/learn-big-data.md | 51 +++++++++++++++++++++++++++++++++++++++ 1 file changed, 51 insertions(+) create mode 100644 awesome/learn-big-data.md diff --git a/awesome/learn-big-data.md b/awesome/learn-big-data.md new file mode 100644 index 0000000..a1421e6 --- /dev/null +++ b/awesome/learn-big-data.md @@ -0,0 +1,51 @@ +# +大数据是一个内涵非常广泛的概念,涵盖了统计,数据科学,机器学习,数据挖掘,分布式数据库,分布式计算,云端存储,信息可视化等等诸多领域. +更详细的领域列表可以见Github上的 [Awesome Big Data](https://github.com/onurakpolat/awesome-bigdata) + +一般个人和中小企业学习大数据可以先了解一些大数据应用的案例,再基于自身拥有的数据与业务(不论大小)进行实践. +注意, 盲目上大数据技术很容易浪费学习时间,也能带来大量不必要的运营成本. + +http://www.planet-data.eu/sites/default/files/presentations/Big_Data_Tutorial_part4.pdf 这个大数据讲义(2012, 41页)综合了很多关于大数据的分析图表,也列举了不少关键技术用例. + + +# 应用流 + +从产品经理的角度来看, 首先要了解大数据的基本概念和特点,从而找到与自身业务流程相关的地方. + +下文 ["7 Key Drivers for the Big Data Market"](http://hortonworks.com/blog/7-key-drivers-for-the-big-data-market/)作者很概括地整理他在高盛云计算大会学习到的知识. +![](http://hortonworks.com/wp-content/uploads/2012/05/bigdata_diagram.png) + +此外, 要多看看大数据应用案例,注意这些应用的规模很有可能只能在500强企业中才会出现. 中小企业可以从中借鉴经验,但不必完全照搬技术框架. + +http://book.douban.com/review/6131027/ "大数据时代从入门到全面理解", 作者看法有些片面, 有很多吸引眼球的段子, 但与技术流结合地不够紧密. + +http://www.ibm.com/big-data/us/en/big-data-and-analytics/case-studies.html IBM的一些大数据分析案例 + +http://www.sas.com/resources/asset/Big-Data-in-Big-Companies.pdf SAS的大数据案例 + +http://www.teradata.com/big-data/use-cases/ Teradata的大数据案例 + +# 技术流 + +要想成为数据科学家, 通常可以选修网上相关课程,如coursera和小象学院. +这里我们面向Excel为基础的中小企业初学者设计一个极简版进阶方案. + +第0级:电子表格Excel -- 实现简单的数据分析与图表 + +第1级:关系数据库和SQL语言,例如Access和MySQL -- 利用数据库查询聚合大量业务数据纪录 + +第2级:基础的编程语言,例如Python/R,Java -- 通过程序将数据处理流程自动化 + +第3级:在程序中访问数据库,例如ODBC, JDBC -- 进一步提高数据处理自动化程度 + +第4级:学一个NoSQL数据库,例如redis,mongodb,neo4j,elasticsearch -- 针对大数据 *高速度*,*大容量* 特性寻找解决方案. 根据业务需要选择一个合用的就可以了. + +第5级:学一点数据分析常识,如线性回归,多项式拟合,逻辑回归,KNN聚类,决策树,Naive贝叶斯等.Python/R/Java都有现成实现 + +第6级:如果有变态的容量,计算要求,学如何使用云计算平台,如亚马逊的EC2, S3 + +第7级:如果有变态的分析要求,了解一点Hadoop和MapReduce的原理,然后用一个现成的实现,如Amazon Elastic MapReduce (Amazon EMR) + +第8级:如果有更变态的分析要求,学一点spark或任何一个SQL on Hadoop. + +这时候恭喜你,在任何一个"大数据群"都可以指点江山了. From 8850e36e174874cb9e592d0c9c4ffe4d7607f84d Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 14 Aug 2014 16:55:03 -0700 Subject: [PATCH 146/485] Update learn-big-data.md --- awesome/learn-big-data.md | 71 +++++++++++++++++++++++++++++---------- 1 file changed, 54 insertions(+), 17 deletions(-) diff --git a/awesome/learn-big-data.md b/awesome/learn-big-data.md index a1421e6..75acb90 100644 --- a/awesome/learn-big-data.md +++ b/awesome/learn-big-data.md @@ -1,4 +1,5 @@ -# +# 入门须知 + 大数据是一个内涵非常广泛的概念,涵盖了统计,数据科学,机器学习,数据挖掘,分布式数据库,分布式计算,云端存储,信息可视化等等诸多领域. 更详细的领域列表可以见Github上的 [Awesome Big Data](https://github.com/onurakpolat/awesome-bigdata) @@ -8,7 +9,7 @@ http://www.planet-data.eu/sites/default/files/presentations/Big_Data_Tutorial_part4.pdf 这个大数据讲义(2012, 41页)综合了很多关于大数据的分析图表,也列举了不少关键技术用例. -# 应用流 +## 应用流 从产品经理的角度来看, 首先要了解大数据的基本概念和特点,从而找到与自身业务流程相关的地方. @@ -17,15 +18,7 @@ http://www.planet-data.eu/sites/default/files/presentations/Big_Data_Tutorial_pa 此外, 要多看看大数据应用案例,注意这些应用的规模很有可能只能在500强企业中才会出现. 中小企业可以从中借鉴经验,但不必完全照搬技术框架. -http://book.douban.com/review/6131027/ "大数据时代从入门到全面理解", 作者看法有些片面, 有很多吸引眼球的段子, 但与技术流结合地不够紧密. - -http://www.ibm.com/big-data/us/en/big-data-and-analytics/case-studies.html IBM的一些大数据分析案例 - -http://www.sas.com/resources/asset/Big-Data-in-Big-Companies.pdf SAS的大数据案例 - -http://www.teradata.com/big-data/use-cases/ Teradata的大数据案例 - -# 技术流 +## 技术流 要想成为数据科学家, 通常可以选修网上相关课程,如coursera和小象学院. 这里我们面向Excel为基础的中小企业初学者设计一个极简版进阶方案. @@ -38,14 +31,58 @@ http://www.teradata.com/big-data/use-cases/ Teradata的大数据案例 第3级:在程序中访问数据库,例如ODBC, JDBC -- 进一步提高数据处理自动化程度 -第4级:学一个NoSQL数据库,例如redis,mongodb,neo4j,elasticsearch -- 针对大数据 *高速度*,*大容量* 特性寻找解决方案. 根据业务需要选择一个合用的就可以了. +第4级:了解一个NoSQL数据库,例如redis,mongodb,neo4j,elasticsearch -- 根据业务需要选择一个合用的就行,传统关系数据库的性能未必不够用. + +第5级:了解一点数据分析(含机器学习/数据挖掘)常识,如线性回归,多项式拟合,逻辑回归,KNN聚类,决策树,Naive贝叶斯等.Python/R/Java都有现成实现 + +第6级:如果要使用变态多的计算/存储资源,学习云计算平台,如亚马逊的EC2, S3, Google Compute Engine, Microsoft Azure + +第7级:如果要处理变态多的数据,学习分布式计算Hadoop和MapReduce的原理,然后使用一个现成的实现,如Amazon Elastic MapReduce (Amazon EMR) + +第8级:如果要在变态多的数据上做数据分析,学习spark, mahout 或任何一个SQL on Hadoop. + +到此恭喜你,在任何一个"大数据群"都可以指点江山了. + + +# 学习资源 + +## 应用案例分析 +http://www.ibm.com/big-data/us/en/big-data-and-analytics/case-studies.html IBM的一些大数据分析案例 + +http://www.sas.com/resources/asset/Big-Data-in-Big-Companies.pdf SAS的大数据案例 + +http://www.teradata.com/big-data/use-cases/ Teradata的大数据案例 + +http://book.douban.com/review/6131027/ "大数据时代从入门到全面理解", 作者看法有些片面, 有很多吸引眼球的段子, 但与技术流结合地不够紧密. + + +## 数据科学家 + +http://www.douban.com/note/247983915/ 数据科学家的各种资源 + +http://www.aboutyun.com/thread-7569-1-1.html 大数据入门:各种大数据技术介绍 + +https://class.coursera.org/datasci-001 coursera上的公开课 大数据科学入门 Introduction to Data Science -第5级:学一点数据分析常识,如线性回归,多项式拟合,逻辑回归,KNN聚类,决策树,Naive贝叶斯等.Python/R/Java都有现成实现 + +Part 0: Introduction +Examples, data science articulated, history and context, technology landscape -第6级:如果有变态的容量,计算要求,学如何使用云计算平台,如亚马逊的EC2, S3 +Part 1: Data Manipulation at Scale +Databases and the relational algebra +Parallel databases, parallel query processing, in-database analytics +MapReduce, Hadoop, relationship to databases, algorithms, extensions, languages +Key-value stores and NoSQL; tradeoffs of SQL and NoSQL -第7级:如果有变态的分析要求,了解一点Hadoop和MapReduce的原理,然后用一个现成的实现,如Amazon Elastic MapReduce (Amazon EMR) +Part 2: Analytics +Topics in statistical modeling: basic concepts, experiment design, pitfalls +Topics in machine learning: supervised learning (rules, trees, forests, nearest neighbor, regression), optimization (gradient descent and variants), unsupervised learning -第8级:如果有更变态的分析要求,学一点spark或任何一个SQL on Hadoop. +Part 3: Communicating Results +Visualization, data products, visual data analytics +Provenance, privacy, ethics, governance -这时候恭喜你,在任何一个"大数据群"都可以指点江山了. +Part 4: Special Topics +Graph Analytics: structure, traversals, analytics, PageRank, community detection, recursive queries, semantic web +Guest Lectures + From 144429295cabe1b71a7fe49cdc02271dfec08d5d Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 14 Aug 2014 16:55:28 -0700 Subject: [PATCH 147/485] Update learn-big-data.md --- awesome/learn-big-data.md | 23 ----------------------- 1 file changed, 23 deletions(-) diff --git a/awesome/learn-big-data.md b/awesome/learn-big-data.md index 75acb90..0887611 100644 --- a/awesome/learn-big-data.md +++ b/awesome/learn-big-data.md @@ -63,26 +63,3 @@ http://www.douban.com/note/247983915/ 数据科学家的各种资源 http://www.aboutyun.com/thread-7569-1-1.html 大数据入门:各种大数据技术介绍 https://class.coursera.org/datasci-001 coursera上的公开课 大数据科学入门 Introduction to Data Science - - -Part 0: Introduction -Examples, data science articulated, history and context, technology landscape - -Part 1: Data Manipulation at Scale -Databases and the relational algebra -Parallel databases, parallel query processing, in-database analytics -MapReduce, Hadoop, relationship to databases, algorithms, extensions, languages -Key-value stores and NoSQL; tradeoffs of SQL and NoSQL - -Part 2: Analytics -Topics in statistical modeling: basic concepts, experiment design, pitfalls -Topics in machine learning: supervised learning (rules, trees, forests, nearest neighbor, regression), optimization (gradient descent and variants), unsupervised learning - -Part 3: Communicating Results -Visualization, data products, visual data analytics -Provenance, privacy, ethics, governance - -Part 4: Special Topics -Graph Analytics: structure, traversals, analytics, PageRank, community detection, recursive queries, semantic web -Guest Lectures - From b1f0eb434500b4acd78656f3888a43916a08d194 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 14 Aug 2014 16:59:17 -0700 Subject: [PATCH 148/485] Update learn-big-data.md --- awesome/learn-big-data.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/awesome/learn-big-data.md b/awesome/learn-big-data.md index 0887611..792dd3c 100644 --- a/awesome/learn-big-data.md +++ b/awesome/learn-big-data.md @@ -1,4 +1,4 @@ -# 入门须知 +# 大数据入门 - 简版进阶方案 大数据是一个内涵非常广泛的概念,涵盖了统计,数据科学,机器学习,数据挖掘,分布式数据库,分布式计算,云端存储,信息可视化等等诸多领域. 更详细的领域列表可以见Github上的 [Awesome Big Data](https://github.com/onurakpolat/awesome-bigdata) @@ -21,7 +21,7 @@ http://www.planet-data.eu/sites/default/files/presentations/Big_Data_Tutorial_pa ## 技术流 要想成为数据科学家, 通常可以选修网上相关课程,如coursera和小象学院. -这里我们面向Excel为基础的中小企业初学者设计一个极简版进阶方案. +这里我们面向Excel为基础的中小企业初学者设计一个简版进阶方案. 第0级:电子表格Excel -- 实现简单的数据分析与图表 From ed775356bcc94a258099c5a6e96f34e132acbf03 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 14 Aug 2014 17:00:49 -0700 Subject: [PATCH 149/485] Update learn-big-data.md --- awesome/learn-big-data.md | 32 +++++++++++++++++--------------- 1 file changed, 17 insertions(+), 15 deletions(-) diff --git a/awesome/learn-big-data.md b/awesome/learn-big-data.md index 792dd3c..5ccd779 100644 --- a/awesome/learn-big-data.md +++ b/awesome/learn-big-data.md @@ -9,15 +9,6 @@ http://www.planet-data.eu/sites/default/files/presentations/Big_Data_Tutorial_part4.pdf 这个大数据讲义(2012, 41页)综合了很多关于大数据的分析图表,也列举了不少关键技术用例. -## 应用流 - -从产品经理的角度来看, 首先要了解大数据的基本概念和特点,从而找到与自身业务流程相关的地方. - -下文 ["7 Key Drivers for the Big Data Market"](http://hortonworks.com/blog/7-key-drivers-for-the-big-data-market/)作者很概括地整理他在高盛云计算大会学习到的知识. -![](http://hortonworks.com/wp-content/uploads/2012/05/bigdata_diagram.png) - -此外, 要多看看大数据应用案例,注意这些应用的规模很有可能只能在500强企业中才会出现. 中小企业可以从中借鉴经验,但不必完全照搬技术框架. - ## 技术流 要想成为数据科学家, 通常可以选修网上相关课程,如coursera和小象学院. @@ -44,17 +35,17 @@ http://www.planet-data.eu/sites/default/files/presentations/Big_Data_Tutorial_pa 到此恭喜你,在任何一个"大数据群"都可以指点江山了. -# 学习资源 +## 应用流 -## 应用案例分析 -http://www.ibm.com/big-data/us/en/big-data-and-analytics/case-studies.html IBM的一些大数据分析案例 +从产品经理的角度来看, 首先要了解大数据的基本概念和特点,从而找到与自身业务流程相关的地方. -http://www.sas.com/resources/asset/Big-Data-in-Big-Companies.pdf SAS的大数据案例 +下文 ["7 Key Drivers for the Big Data Market"](http://hortonworks.com/blog/7-key-drivers-for-the-big-data-market/)作者很概括地整理他在高盛云计算大会学习到的知识. +![](http://hortonworks.com/wp-content/uploads/2012/05/bigdata_diagram.png) -http://www.teradata.com/big-data/use-cases/ Teradata的大数据案例 +此外, 要多看看大数据应用案例,注意这些应用的规模很有可能只能在500强企业中才会出现. 中小企业可以从中借鉴经验,但不必完全照搬技术框架. -http://book.douban.com/review/6131027/ "大数据时代从入门到全面理解", 作者看法有些片面, 有很多吸引眼球的段子, 但与技术流结合地不够紧密. +# 学习资源 ## 数据科学家 @@ -63,3 +54,14 @@ http://www.douban.com/note/247983915/ 数据科学家的各种资源 http://www.aboutyun.com/thread-7569-1-1.html 大数据入门:各种大数据技术介绍 https://class.coursera.org/datasci-001 coursera上的公开课 大数据科学入门 Introduction to Data Science + + +## 应用案例分析 +http://www.ibm.com/big-data/us/en/big-data-and-analytics/case-studies.html IBM的一些大数据分析案例 + +http://www.sas.com/resources/asset/Big-Data-in-Big-Companies.pdf SAS的大数据案例 + +http://www.teradata.com/big-data/use-cases/ Teradata的大数据案例 + +http://book.douban.com/review/6131027/ "大数据时代从入门到全面理解", 作者看法有些片面, 有很多吸引眼球的段子, 但与技术流结合地不够紧密. + From 155a59cb6890068308e53e305fdb85f4021ffad8 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 14 Aug 2014 17:08:52 -0700 Subject: [PATCH 150/485] Update learn-big-data.md --- awesome/learn-big-data.md | 29 +++++++++++++---------------- 1 file changed, 13 insertions(+), 16 deletions(-) diff --git a/awesome/learn-big-data.md b/awesome/learn-big-data.md index 5ccd779..c1a6260 100644 --- a/awesome/learn-big-data.md +++ b/awesome/learn-big-data.md @@ -1,4 +1,4 @@ -# 大数据入门 - 简版进阶方案 +# 大数据应用与技术 - 入门资源汇编 大数据是一个内涵非常广泛的概念,涵盖了统计,数据科学,机器学习,数据挖掘,分布式数据库,分布式计算,云端存储,信息可视化等等诸多领域. 更详细的领域列表可以见Github上的 [Awesome Big Data](https://github.com/onurakpolat/awesome-bigdata) @@ -6,10 +6,18 @@ 一般个人和中小企业学习大数据可以先了解一些大数据应用的案例,再基于自身拥有的数据与业务(不论大小)进行实践. 注意, 盲目上大数据技术很容易浪费学习时间,也能带来大量不必要的运营成本. + +## 大数据应用 - 什么算大数据 + +作为产品经理, 要了解大数据的基本概念和特点,进而找到与自身业务流程相关的地方. 也要多看看大数据应用案例,鉴于这些应用的规模很有可能只能在500强企业中才会出现,中小企业应要灵活学习而不必照搬技术框架. + http://www.planet-data.eu/sites/default/files/presentations/Big_Data_Tutorial_part4.pdf 这个大数据讲义(2012, 41页)综合了很多关于大数据的分析图表,也列举了不少关键技术用例. +http://hortonworks.com/blog/7-key-drivers-for-the-big-data-market/ 该文整理了在高盛云计算大会学到的核心概念. +![](http://hortonworks.com/wp-content/uploads/2012/05/bigdata_diagram.png) -## 技术流 + +## 大数据技术 - 简版进阶方案 要想成为数据科学家, 通常可以选修网上相关课程,如coursera和小象学院. 这里我们面向Excel为基础的中小企业初学者设计一个简版进阶方案. @@ -35,19 +43,7 @@ http://www.planet-data.eu/sites/default/files/presentations/Big_Data_Tutorial_pa 到此恭喜你,在任何一个"大数据群"都可以指点江山了. -## 应用流 - -从产品经理的角度来看, 首先要了解大数据的基本概念和特点,从而找到与自身业务流程相关的地方. - -下文 ["7 Key Drivers for the Big Data Market"](http://hortonworks.com/blog/7-key-drivers-for-the-big-data-market/)作者很概括地整理他在高盛云计算大会学习到的知识. -![](http://hortonworks.com/wp-content/uploads/2012/05/bigdata_diagram.png) - -此外, 要多看看大数据应用案例,注意这些应用的规模很有可能只能在500强企业中才会出现. 中小企业可以从中借鉴经验,但不必完全照搬技术框架. - - -# 学习资源 - -## 数据科学家 +## 数据科学家学习资源 http://www.douban.com/note/247983915/ 数据科学家的各种资源 @@ -56,7 +52,8 @@ http://www.aboutyun.com/thread-7569-1-1.html 大数据入门:各种大数据 https://class.coursera.org/datasci-001 coursera上的公开课 大数据科学入门 Introduction to Data Science -## 应用案例分析 +## 应用案例资源 + http://www.ibm.com/big-data/us/en/big-data-and-analytics/case-studies.html IBM的一些大数据分析案例 http://www.sas.com/resources/asset/Big-Data-in-Big-Companies.pdf SAS的大数据案例 From 96a44beebb06146cc1044f5050fd5ea4fc72b61a Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 14 Aug 2014 17:12:02 -0700 Subject: [PATCH 151/485] Update learn-big-data.md --- awesome/learn-big-data.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/awesome/learn-big-data.md b/awesome/learn-big-data.md index c1a6260..c0dfc02 100644 --- a/awesome/learn-big-data.md +++ b/awesome/learn-big-data.md @@ -28,13 +28,13 @@ http://hortonworks.com/blog/7-key-drivers-for-the-big-data-market/ 该文整理 第2级:基础的编程语言,例如Python/R,Java -- 通过程序将数据处理流程自动化 -第3级:在程序中访问数据库,例如ODBC, JDBC -- 进一步提高数据处理自动化程度 +第3级:在程序中访问数据库,例如ORM, ODBC, JDBC -- 进一步提高数据处理自动化程度 第4级:了解一个NoSQL数据库,例如redis,mongodb,neo4j,elasticsearch -- 根据业务需要选择一个合用的就行,传统关系数据库的性能未必不够用. 第5级:了解一点数据分析(含机器学习/数据挖掘)常识,如线性回归,多项式拟合,逻辑回归,KNN聚类,决策树,Naive贝叶斯等.Python/R/Java都有现成实现 -第6级:如果要使用变态多的计算/存储资源,学习云计算平台,如亚马逊的EC2, S3, Google Compute Engine, Microsoft Azure +第6级:如果需要使用变态多的计算/存储资源,学习云计算平台,如亚马逊的EC2, S3, Google Compute Engine, Microsoft Azure 第7级:如果要处理变态多的数据,学习分布式计算Hadoop和MapReduce的原理,然后使用一个现成的实现,如Amazon Elastic MapReduce (Amazon EMR) From 62d94a1f7859c51d9b02ecffc193e6de7721030b Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 14 Aug 2014 17:16:50 -0700 Subject: [PATCH 152/485] Update learn-big-data.md --- awesome/learn-big-data.md | 11 ++++++++++- 1 file changed, 10 insertions(+), 1 deletion(-) diff --git a/awesome/learn-big-data.md b/awesome/learn-big-data.md index c0dfc02..bd256af 100644 --- a/awesome/learn-big-data.md +++ b/awesome/learn-big-data.md @@ -43,6 +43,15 @@ http://hortonworks.com/blog/7-key-drivers-for-the-big-data-market/ 该文整理 到此恭喜你,在任何一个"大数据群"都可以指点江山了. +## 傻瓜入门参考书 + +(英文) Big Data Glossary 大数据入门指导图书,主要讲解大数据处理技术及工具,内容涵盖了NoSql Database,各种MapReduce,Storage,Servers,数据清理阶段工具,NLP库与工具包,Machine learning机器学习工具包,数据可视化工具包,公共数据清洗,序列化指南等等。有点老(2011),不过重点推荐。有免费pdf +http://download.bigbata.com/ebook/oreilly/books/Big_Data_Glossary.pdf + +(英文) Big Data For Dummies 有免费pdf http://it-ebooks.info/book/2082/  + +"大数据时代从入门到全面理解" http://book.douban.com/review/6131027/.适合了解大数据的一些基本概念.不过作者看法有些片面, 有很多吸引眼球的段子, 但与技术流结合地不够紧密. + ## 数据科学家学习资源 http://www.douban.com/note/247983915/ 数据科学家的各种资源 @@ -60,5 +69,5 @@ http://www.sas.com/resources/asset/Big-Data-in-Big-Companies.pdf SAS的大数据 http://www.teradata.com/big-data/use-cases/ Teradata的大数据案例 -http://book.douban.com/review/6131027/ "大数据时代从入门到全面理解", 作者看法有些片面, 有很多吸引眼球的段子, 但与技术流结合地不够紧密. + From 8fe2ad3662bce6c56c675bca74df090ac684e32f Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 14 Aug 2014 17:19:39 -0700 Subject: [PATCH 153/485] Update learn-big-data.md --- awesome/learn-big-data.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/learn-big-data.md b/awesome/learn-big-data.md index bd256af..6085346 100644 --- a/awesome/learn-big-data.md +++ b/awesome/learn-big-data.md @@ -50,7 +50,7 @@ http://download.bigbata.com/ebook/oreilly/books/Big_Data_Glossary.pdf (英文) Big Data For Dummies 有免费pdf http://it-ebooks.info/book/2082/  -"大数据时代从入门到全面理解" http://book.douban.com/review/6131027/.适合了解大数据的一些基本概念.不过作者看法有些片面, 有很多吸引眼球的段子, 但与技术流结合地不够紧密. +"大数据时代从入门到全面理解" http://book.douban.com/review/6131027/ 适合了解大数据的一些基本概念.不过作者看法有些片面, 有很多吸引眼球的段子, 但与技术流结合地不够紧密. ## 数据科学家学习资源 From d688179a5b808058bbcb2c9387134d4f0c6e709e Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 09:53:29 -0700 Subject: [PATCH 154/485] Create recurrent-neural-networks.md --- awesome/recurrent-neural-networks.md | 16 ++++++++++++++++ 1 file changed, 16 insertions(+) create mode 100644 awesome/recurrent-neural-networks.md diff --git a/awesome/recurrent-neural-networks.md b/awesome/recurrent-neural-networks.md new file mode 100644 index 0000000..45a642e --- /dev/null +++ b/awesome/recurrent-neural-networks.md @@ -0,0 +1,16 @@ +# 学习资源 +http://en.wikipedia.org/wiki/Recurrent_neural_network 背景知识 + +http://minds.jacobs-university.de/sites/default/files/uploads/papers/ESNTutorialRev.pdf ( @ICT_朱亚东 推荐, 短教程) H. Jaeger (2002): Tutorial on training recurrent neural networks, covering BPPT,RTRL, EKF and the "echo state network" approach. GMD Report 159, German National Research Center for Information Technology, 2002 (48 pp.) + +http://www.cs.toronto.edu/~graves/preprint.pdf (@维尔茨 认证, 教科书) Supervised Sequence Labelling with Recurrent Neural Networks. Textbook, Studies in Computational Intelligence, Springer, 2012. + +http://www.idsia.ch/~juergen/rnn.html (资源列表) over 60 RNN papers by Jürgen Schmidhuber's group at IDSIA  + +# 专家 + +http://www.cs.toronto.edu/~graves/ Alex Graves + +http://www.idsia.ch/~juergen/ Jürgen Schmidhuber + +http://research.microsoft.com/en-us/projects/rnn/ Microsoft RNN group From ddf559b511359fa49b010c873bb3a4d47dd7ac59 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 09:55:22 -0700 Subject: [PATCH 155/485] Update recurrent-neural-networks.md --- awesome/recurrent-neural-networks.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/awesome/recurrent-neural-networks.md b/awesome/recurrent-neural-networks.md index 45a642e..995774d 100644 --- a/awesome/recurrent-neural-networks.md +++ b/awesome/recurrent-neural-networks.md @@ -1,3 +1,5 @@ +Editor(s): @ICT_朱亚东 @维尔茨 @好东西传送门 + # 学习资源 http://en.wikipedia.org/wiki/Recurrent_neural_network 背景知识 From 92212549220ee54b75855d10d77b531151e4d4cf Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 09:57:01 -0700 Subject: [PATCH 156/485] Update recurrent-neural-networks.md --- awesome/recurrent-neural-networks.md | 8 ++++++-- 1 file changed, 6 insertions(+), 2 deletions(-) diff --git a/awesome/recurrent-neural-networks.md b/awesome/recurrent-neural-networks.md index 995774d..4ca70a3 100644 --- a/awesome/recurrent-neural-networks.md +++ b/awesome/recurrent-neural-networks.md @@ -1,6 +1,6 @@ Editor(s): @ICT_朱亚东 @维尔茨 @好东西传送门 -# 学习资源 +## 学习资源 http://en.wikipedia.org/wiki/Recurrent_neural_network 背景知识 http://minds.jacobs-university.de/sites/default/files/uploads/papers/ESNTutorialRev.pdf ( @ICT_朱亚东 推荐, 短教程) H. Jaeger (2002): Tutorial on training recurrent neural networks, covering BPPT,RTRL, EKF and the "echo state network" approach. GMD Report 159, German National Research Center for Information Technology, 2002 (48 pp.) @@ -9,10 +9,14 @@ http://www.cs.toronto.edu/~graves/preprint.pdf (@维尔茨 认证, 教科书) Su http://www.idsia.ch/~juergen/rnn.html (资源列表) over 60 RNN papers by Jürgen Schmidhuber's group at IDSIA  -# 专家 +## 专家 http://www.cs.toronto.edu/~graves/ Alex Graves http://www.idsia.ch/~juergen/ Jürgen Schmidhuber http://research.microsoft.com/en-us/projects/rnn/ Microsoft RNN group + + +## 相关讨论 +@维尔茨 有木有关于循环神经网络在segmented sequence labeling方面的papers? https://github.com/memect/hao/issues/41 From e2226a723f3878834bc3d8d6f59940fe88c62022 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 10:30:20 -0700 Subject: [PATCH 157/485] Update recurrent-neural-networks.md --- awesome/recurrent-neural-networks.md | 1 + 1 file changed, 1 insertion(+) diff --git a/awesome/recurrent-neural-networks.md b/awesome/recurrent-neural-networks.md index 4ca70a3..96a3ed0 100644 --- a/awesome/recurrent-neural-networks.md +++ b/awesome/recurrent-neural-networks.md @@ -1,4 +1,5 @@ Editor(s): @ICT_朱亚东 @维尔茨 @好东西传送门 +card list: http://bigdata.memect.com/?tag=rnn ## 学习资源 http://en.wikipedia.org/wiki/Recurrent_neural_network 背景知识 From 94018c1fdeac647376b12395e99a8d99835c94ee Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 10:30:30 -0700 Subject: [PATCH 158/485] Update recurrent-neural-networks.md --- awesome/recurrent-neural-networks.md | 1 + 1 file changed, 1 insertion(+) diff --git a/awesome/recurrent-neural-networks.md b/awesome/recurrent-neural-networks.md index 96a3ed0..7bd1cbb 100644 --- a/awesome/recurrent-neural-networks.md +++ b/awesome/recurrent-neural-networks.md @@ -1,4 +1,5 @@ Editor(s): @ICT_朱亚东 @维尔茨 @好东西传送门 + card list: http://bigdata.memect.com/?tag=rnn ## 学习资源 From cf0c3d939e174828b60da885f57b2eb7abd9ab90 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 10:32:15 -0700 Subject: [PATCH 159/485] Update recurrent-neural-networks.md --- awesome/recurrent-neural-networks.md | 4 +++- 1 file changed, 3 insertions(+), 1 deletion(-) diff --git a/awesome/recurrent-neural-networks.md b/awesome/recurrent-neural-networks.md index 7bd1cbb..1cdac78 100644 --- a/awesome/recurrent-neural-networks.md +++ b/awesome/recurrent-neural-networks.md @@ -21,4 +21,6 @@ http://research.microsoft.com/en-us/projects/rnn/ Microsoft RNN group ## 相关讨论 -@维尔茨 有木有关于循环神经网络在segmented sequence labeling方面的papers? https://github.com/memect/hao/issues/41 + +问: @维尔茨 有木有关于循环神经网络在segmented sequence labeling方面的papers么?我希望用RNN label sequence本身而非sequence members +答: 多伦多大学的 Alex Graves 有专著研究此问题. 基于recurrent neural networks(RNN)研究: @ICT_朱亚东 推荐Herbert Jaeger的短教程(40多页). Jürgen Schmidhuber教授收集了60多相关论文, 微软研究院利用RNN做自然语言处理 From 784cebb10cc609e38b42c90ecca9436d17d7710a Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 10:32:26 -0700 Subject: [PATCH 160/485] Update recurrent-neural-networks.md --- awesome/recurrent-neural-networks.md | 1 + 1 file changed, 1 insertion(+) diff --git a/awesome/recurrent-neural-networks.md b/awesome/recurrent-neural-networks.md index 1cdac78..897e933 100644 --- a/awesome/recurrent-neural-networks.md +++ b/awesome/recurrent-neural-networks.md @@ -23,4 +23,5 @@ http://research.microsoft.com/en-us/projects/rnn/ Microsoft RNN group ## 相关讨论 问: @维尔茨 有木有关于循环神经网络在segmented sequence labeling方面的papers么?我希望用RNN label sequence本身而非sequence members + 答: 多伦多大学的 Alex Graves 有专著研究此问题. 基于recurrent neural networks(RNN)研究: @ICT_朱亚东 推荐Herbert Jaeger的短教程(40多页). Jürgen Schmidhuber教授收集了60多相关论文, 微软研究院利用RNN做自然语言处理 From 7d2f0a441f42590eed7e7f90b34bac628f4950d9 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 10:38:48 -0700 Subject: [PATCH 161/485] Update recurrent-neural-networks.md --- awesome/recurrent-neural-networks.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/recurrent-neural-networks.md b/awesome/recurrent-neural-networks.md index 897e933..b74270f 100644 --- a/awesome/recurrent-neural-networks.md +++ b/awesome/recurrent-neural-networks.md @@ -21,7 +21,7 @@ http://research.microsoft.com/en-us/projects/rnn/ Microsoft RNN group ## 相关讨论 - +### @维尔茨 RNN label sequence: https://github.com/memect/hao/issues/41 问: @维尔茨 有木有关于循环神经网络在segmented sequence labeling方面的papers么?我希望用RNN label sequence本身而非sequence members 答: 多伦多大学的 Alex Graves 有专著研究此问题. 基于recurrent neural networks(RNN)研究: @ICT_朱亚东 推荐Herbert Jaeger的短教程(40多页). Jürgen Schmidhuber教授收集了60多相关论文, 微软研究院利用RNN做自然语言处理 From 1fa079da8fb302aa43e8cceacb9a4dd34d936733 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 11:31:07 -0700 Subject: [PATCH 162/485] Create imbalanced-data-classification.md --- awesome/imbalanced-data-classification.md | 58 +++++++++++++++++++++++ 1 file changed, 58 insertions(+) create mode 100644 awesome/imbalanced-data-classification.md diff --git a/awesome/imbalanced-data-classification.md b/awesome/imbalanced-data-classification.md new file mode 100644 index 0000000..4fcef58 --- /dev/null +++ b/awesome/imbalanced-data-classification.md @@ -0,0 +1,58 @@ +Editor(s): 刘知远THU xierqi eacl_newsmth + + +## keywords + Positive only + Imbalanced data + classification + +## readings + +http://homes.cs.washington.edu/~pedrod/papers/kdd99.pdf (@xierqi 推荐) Domingo, MetaCost: A General Method for Making Classifiers Cost + +http://www.aclweb.org/anthology/P/P13/P13-2141.pdf (@eacl_newsmth 推荐) Towards Accurate Distant Supervision for Relational Facts Extraction + +http://cseweb.ucsd.edu/~elkan/posonly.pdf Learning Classifiers from Only Positive and Unlabeled Data + +http://www.ele.uri.edu/faculty/he/PDFfiles/ImbalancedLearning.pdf He and Haibo He, Edwardo A. Garcia . (2009). Learning from Imbalanced Data. IEEE Transactions on Knowledge and Data Engineering, 21(9), 1263-1284. + +http://www.computer.org/csdl/proceedings/icnc/2008/3304/04/3304d192-abs.html Guo, X., Yin, Y., Dong, C., Yang, G., & Zhou, G. (2008). On the Class Imbalance Problem. 2008 Fourth International Conference on Natural Computation (pp. 192-201). + + +## tools + +http://www.nltk.org/_modules/nltk/classify/positivenaivebayes.html nltk + +http://weka.wikispaces.com/MetaCost Weka + + +## datasets + +http://pages.cs.wisc.edu/~dpage/kddcup2001/ Prediction of Molecular Bioactivity for Drug Design -- Binding to Thrombin + +https://archive.ics.uci.edu/ml/datasets.html?format=&task=cla&att=&area=&numAtt=&numIns=&type=&sort=nameUp&view=table UCI dataset repo, classification category + +http://www.inf.ed.ac.uk/teaching/courses/dme/html/datasets0405.html dataset list + + +## discussion +### @eastone01 请问目前有木有关于不平衡数据分类(imbalance dataset classification)任务的人工二维toy dataset + +刘知远THU: 不平衡数据分类,尤其是标注正例特别多,几乎没有标注负例,但有大量未标注数据的话,应当怎么处理呢?这个问题在relation extraction中很普遍。现在只能在大量未标注数据中随机抽样作为负例。 + +xierqi: 有段调研过这方面,90%都是采样,最大问题是评估方法不适合真实场景。个人推荐domingos的meta-cost,非常实用,经验设下cost就好。http://t.cn/RPiexE9 + +eacl_newsmth: 在关系抽取中,是正例特别多? 没有负例么?我怎么觉得很多情况下是正例有限,但负例很多(当然你也可以argue说负例其实很难界定)。。。。 + +刘知远THU:回复@eacl_newsmth: 就像knowledge graph中可以提供很多正例,但负例需要通过随机替换正例中的entity来产生,这样容易把也是正确的样例当成负例来看。 + +eacl_newsmth:回复@刘知远THU:恩,我估计你就要说这个例子,所以我在后面说,看你怎么界定负例,哈哈,我也纠结过好久,后来觉得其实还是正例少,而且很多时候你能保证正例是对的么? + +刘知远THU:回复@eacl_newsmth: 正例基本是正确的,例如来自Freebase的,但负例对效果影响很大。:)今年AAAI有篇MSRA做的TransH的模型中,就提出一个负例选取的trick,效果拔群。 + +eacl_newsmth:回复@刘知远THU:恩,KB中的实例确实是正确的,但是依据这些实例去海量文档中寻找的那些样本未必是正确的啊。 就目前的工作来看,确实很多在负例上做文章的工作都能把效率提升一些,去年语言所的一个学生利用“关系”特性,优选训练样本,也确实能提升性能。但单就这个问题而言,不能回避正例的可靠性 + +刘知远THU:回复@eacl_newsmth: 你说的这篇文章能告诉一下题目么?我现在关注的还不是从文本中抽关系,而是做knowledge graph completion,有点类似于graph上的link prediction,但要预测的link是有不同类型的relation。 + +eacl_newsmth:回复@刘知远THU:http://t.cn/RPX75A3 恩,看了你们那里一个小伙的talk,感觉和sebastian之前的工作很相关啊,也许是他表述的问题?啥时候回北京?可以好好讨论一下。 + From e04eda90687b9ca19306d247552907a90cffee6b Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 11:38:42 -0700 Subject: [PATCH 163/485] Update imbalanced-data-classification.md --- awesome/imbalanced-data-classification.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/awesome/imbalanced-data-classification.md b/awesome/imbalanced-data-classification.md index 4fcef58..3cde918 100644 --- a/awesome/imbalanced-data-classification.md +++ b/awesome/imbalanced-data-classification.md @@ -8,9 +8,9 @@ Editor(s): 刘知远THU xierqi eacl_newsmth ## readings -http://homes.cs.washington.edu/~pedrod/papers/kdd99.pdf (@xierqi 推荐) Domingo, MetaCost: A General Method for Making Classifiers Cost +http://homes.cs.washington.edu/~pedrod/papers/kdd99.pdf (@xierqi 推荐) Domingo, MetaCost: A General Method for Making Classifiers Cost, KDD 1999 -http://www.aclweb.org/anthology/P/P13/P13-2141.pdf (@eacl_newsmth 推荐) Towards Accurate Distant Supervision for Relational Facts Extraction +http://www.aclweb.org/anthology/P/P13/P13-2141.pdf (@eacl_newsmth 推荐) Towards Accurate Distant Supervision for Relational Facts Extraction, acl 2013 http://cseweb.ucsd.edu/~elkan/posonly.pdf Learning Classifiers from Only Positive and Unlabeled Data From 1cd3e9b51361971c93a1a734ebcf4ef3e632126c Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 11:40:24 -0700 Subject: [PATCH 164/485] Update imbalanced-data-classification.md --- awesome/imbalanced-data-classification.md | 6 ++++-- 1 file changed, 4 insertions(+), 2 deletions(-) diff --git a/awesome/imbalanced-data-classification.md b/awesome/imbalanced-data-classification.md index 3cde918..97a19fb 100644 --- a/awesome/imbalanced-data-classification.md +++ b/awesome/imbalanced-data-classification.md @@ -1,10 +1,12 @@ -Editor(s): 刘知远THU xierqi eacl_newsmth - +Editor(s): 刘知远THU , xierqi , eacl_newsmth , 好东西传送门 ## keywords Positive only Imbalanced data classification + + link prediction + relation learning ## readings From 45da1d225e49c765380c1b89d3943fb3a00719c0 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 11:40:38 -0700 Subject: [PATCH 165/485] Update imbalanced-data-classification.md --- awesome/imbalanced-data-classification.md | 10 +++++----- 1 file changed, 5 insertions(+), 5 deletions(-) diff --git a/awesome/imbalanced-data-classification.md b/awesome/imbalanced-data-classification.md index 97a19fb..10b8913 100644 --- a/awesome/imbalanced-data-classification.md +++ b/awesome/imbalanced-data-classification.md @@ -1,12 +1,12 @@ Editor(s): 刘知远THU , xierqi , eacl_newsmth , 好东西传送门 ## keywords - Positive only - Imbalanced data - classification + Positive only, + Imbalanced data, + classification, - link prediction - relation learning + link prediction, + relation learning, ## readings From 277299c5bb97eaab1b5167f065984ae37fcf58b2 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 11:41:45 -0700 Subject: [PATCH 166/485] Update imbalanced-data-classification.md --- awesome/imbalanced-data-classification.md | 4 +++- 1 file changed, 3 insertions(+), 1 deletion(-) diff --git a/awesome/imbalanced-data-classification.md b/awesome/imbalanced-data-classification.md index 10b8913..7132d45 100644 --- a/awesome/imbalanced-data-classification.md +++ b/awesome/imbalanced-data-classification.md @@ -38,7 +38,9 @@ http://www.inf.ed.ac.uk/teaching/courses/dme/html/datasets0405.html dataset lis ## discussion -### @eastone01 请问目前有木有关于不平衡数据分类(imbalance dataset classification)任务的人工二维toy dataset +### @eastone01 不平衡数据分类数据集 https://github.com/memect/hao/issues/47 + +请问目前有木有关于不平衡数据分类(imbalance dataset classification)任务的人工二维toy dataset? 刘知远THU: 不平衡数据分类,尤其是标注正例特别多,几乎没有标注负例,但有大量未标注数据的话,应当怎么处理呢?这个问题在relation extraction中很普遍。现在只能在大量未标注数据中随机抽样作为负例。 From 8ef9217a181c021f9d20919062f9afb743fc5d01 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 11:45:28 -0700 Subject: [PATCH 167/485] Update imbalanced-data-classification.md --- awesome/imbalanced-data-classification.md | 5 +++++ 1 file changed, 5 insertions(+) diff --git a/awesome/imbalanced-data-classification.md b/awesome/imbalanced-data-classification.md index 7132d45..2568735 100644 --- a/awesome/imbalanced-data-classification.md +++ b/awesome/imbalanced-data-classification.md @@ -9,6 +9,8 @@ Editor(s): 刘知远THU , xierqi , eacl_newsmth , 好东西传送门 relation learning, ## readings +http://www.cs.cmu.edu/~qyj/IR-Lab/ImbalancedSummary.html Yanjun Qi, A Brief Literature Review of Class Imbalanced Problem + http://homes.cs.washington.edu/~pedrod/papers/kdd99.pdf (@xierqi 推荐) Domingo, MetaCost: A General Method for Making Classifiers Cost, KDD 1999 @@ -32,6 +34,9 @@ http://weka.wikispaces.com/MetaCost Weka http://pages.cs.wisc.edu/~dpage/kddcup2001/ Prediction of Molecular Bioactivity for Drug Design -- Binding to Thrombin +http://code.google.com/p/imbalanced-data-sampling/ Imbalanced Data Sampling Using Sample Subset Optimization + +#### dataset list https://archive.ics.uci.edu/ml/datasets.html?format=&task=cla&att=&area=&numAtt=&numIns=&type=&sort=nameUp&view=table UCI dataset repo, classification category http://www.inf.ed.ac.uk/teaching/courses/dme/html/datasets0405.html dataset list From df72f8e9c5a96b300ff237d30859191ac9cc4c61 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 11:47:48 -0700 Subject: [PATCH 168/485] Update imbalanced-data-classification.md --- awesome/imbalanced-data-classification.md | 1 + 1 file changed, 1 insertion(+) diff --git a/awesome/imbalanced-data-classification.md b/awesome/imbalanced-data-classification.md index 2568735..d7dd6ec 100644 --- a/awesome/imbalanced-data-classification.md +++ b/awesome/imbalanced-data-classification.md @@ -1,4 +1,5 @@ Editor(s): 刘知远THU , xierqi , eacl_newsmth , 好东西传送门 +https://github.com/memect/hao/blob/master/awesome/imbalanced-data-classification.md ## keywords Positive only, From 9de7d4b795a521b00fef11971b1cc89ad86de500 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 11:47:57 -0700 Subject: [PATCH 169/485] Update imbalanced-data-classification.md --- awesome/imbalanced-data-classification.md | 1 + 1 file changed, 1 insertion(+) diff --git a/awesome/imbalanced-data-classification.md b/awesome/imbalanced-data-classification.md index d7dd6ec..bc7576d 100644 --- a/awesome/imbalanced-data-classification.md +++ b/awesome/imbalanced-data-classification.md @@ -1,4 +1,5 @@ Editor(s): 刘知远THU , xierqi , eacl_newsmth , 好东西传送门 + https://github.com/memect/hao/blob/master/awesome/imbalanced-data-classification.md ## keywords From 51e5e34cb9102d3bf516615656d94e2d1e691ee2 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 11:51:54 -0700 Subject: [PATCH 170/485] Update imbalanced-data-classification.md --- awesome/imbalanced-data-classification.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/awesome/imbalanced-data-classification.md b/awesome/imbalanced-data-classification.md index bc7576d..74d4901 100644 --- a/awesome/imbalanced-data-classification.md +++ b/awesome/imbalanced-data-classification.md @@ -1,3 +1,5 @@ +# 不平衡数据分类(Imbalanced data classification) 研讨报告 + Editor(s): 刘知远THU , xierqi , eacl_newsmth , 好东西传送门 https://github.com/memect/hao/blob/master/awesome/imbalanced-data-classification.md From 51ffa06053071e21cbf0499a86b18c2cbc8ec828 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 11:52:06 -0700 Subject: [PATCH 171/485] Update imbalanced-data-classification.md --- awesome/imbalanced-data-classification.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/imbalanced-data-classification.md b/awesome/imbalanced-data-classification.md index 74d4901..a83a0d3 100644 --- a/awesome/imbalanced-data-classification.md +++ b/awesome/imbalanced-data-classification.md @@ -1,4 +1,4 @@ -# 不平衡数据分类(Imbalanced data classification) 研讨报告 +# 不平衡数据分类(Imbalanced data classification) Editor(s): 刘知远THU , xierqi , eacl_newsmth , 好东西传送门 From b1a0d084f66807868b11f5855394b98c8de6d124 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 12:07:02 -0700 Subject: [PATCH 172/485] Update imbalanced-data-classification.md --- awesome/imbalanced-data-classification.md | 4 +++- 1 file changed, 3 insertions(+), 1 deletion(-) diff --git a/awesome/imbalanced-data-classification.md b/awesome/imbalanced-data-classification.md index a83a0d3..44a596d 100644 --- a/awesome/imbalanced-data-classification.md +++ b/awesome/imbalanced-data-classification.md @@ -1,6 +1,6 @@ # 不平衡数据分类(Imbalanced data classification) -Editor(s): 刘知远THU , xierqi , eacl_newsmth , 好东西传送门 +Editor(s): AixinSG, 刘知远THU , xierqi , eacl_newsmth , 好东西传送门 https://github.com/memect/hao/blob/master/awesome/imbalanced-data-classification.md @@ -51,6 +51,8 @@ http://www.inf.ed.ac.uk/teaching/courses/dme/html/datasets0405.html dataset lis 请问目前有木有关于不平衡数据分类(imbalance dataset classification)任务的人工二维toy dataset? +AixinSG:Undersampling 总体上效果有限,个人理解 + 刘知远THU: 不平衡数据分类,尤其是标注正例特别多,几乎没有标注负例,但有大量未标注数据的话,应当怎么处理呢?这个问题在relation extraction中很普遍。现在只能在大量未标注数据中随机抽样作为负例。 xierqi: 有段调研过这方面,90%都是采样,最大问题是评估方法不适合真实场景。个人推荐domingos的meta-cost,非常实用,经验设下cost就好。http://t.cn/RPiexE9 From b2ae4e82c8a1f3b943a99a00ff6a64d79a4d6edd Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 12:16:06 -0700 Subject: [PATCH 173/485] Update imbalanced-data-classification.md --- awesome/imbalanced-data-classification.md | 3 +++ 1 file changed, 3 insertions(+) diff --git a/awesome/imbalanced-data-classification.md b/awesome/imbalanced-data-classification.md index 44a596d..9fcaa54 100644 --- a/awesome/imbalanced-data-classification.md +++ b/awesome/imbalanced-data-classification.md @@ -26,6 +26,8 @@ http://www.ele.uri.edu/faculty/he/PDFfiles/ImbalancedLearning.pdf He and Haibo http://www.computer.org/csdl/proceedings/icnc/2008/3304/04/3304d192-abs.html Guo, X., Yin, Y., Dong, C., Yang, G., & Zhou, G. (2008). On the Class Imbalance Problem. 2008 Fourth International Conference on Natural Computation (pp. 192-201). +https://www.jair.org/media/953/live-953-2037-jair.pdf SMOTE: Synthetic Minority Over-sampling Technique (2002) JAIR + ## tools @@ -33,6 +35,7 @@ http://www.nltk.org/_modules/nltk/classify/positivenaivebayes.html nltk http://weka.wikispaces.com/MetaCost Weka +http://tokestermw.github.io/posts/imbalanced-datasets-random-forests/ smote ## datasets From 2496191bbe9658229fb0045bfd5c554052efab9d Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 12:18:40 -0700 Subject: [PATCH 174/485] Update imbalanced-data-classification.md --- awesome/imbalanced-data-classification.md | 3 +++ 1 file changed, 3 insertions(+) diff --git a/awesome/imbalanced-data-classification.md b/awesome/imbalanced-data-classification.md index 9fcaa54..9d45c8f 100644 --- a/awesome/imbalanced-data-classification.md +++ b/awesome/imbalanced-data-classification.md @@ -28,6 +28,9 @@ http://www.computer.org/csdl/proceedings/icnc/2008/3304/04/3304d192-abs.html Guo https://www.jair.org/media/953/live-953-2037-jair.pdf SMOTE: Synthetic Minority Over-sampling Technique (2002) JAIR +### further readings +http://stackoverflow.com/questions/12877153/tools-for-multiclass-imbalanced-classification-in-statistical-packages + ## tools From 5eac3f16342b99e447f644dbfe10fd4c31dff2f1 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 12:19:14 -0700 Subject: [PATCH 175/485] Update imbalanced-data-classification.md --- awesome/imbalanced-data-classification.md | 6 ++---- 1 file changed, 2 insertions(+), 4 deletions(-) diff --git a/awesome/imbalanced-data-classification.md b/awesome/imbalanced-data-classification.md index 9d45c8f..d22b69f 100644 --- a/awesome/imbalanced-data-classification.md +++ b/awesome/imbalanced-data-classification.md @@ -4,14 +4,12 @@ Editor(s): AixinSG, 刘知远THU , xierqi , eacl_newsmth , 好东西传送门 https://github.com/memect/hao/blob/master/awesome/imbalanced-data-classification.md -## keywords +keywords: Positive only, Imbalanced data, classification, - link prediction, - relation learning, - + ## readings http://www.cs.cmu.edu/~qyj/IR-Lab/ImbalancedSummary.html Yanjun Qi, A Brief Literature Review of Class Imbalanced Problem From 4471b5d2ca1b5374dfb180e77887d1dddb845237 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 12:58:42 -0700 Subject: [PATCH 176/485] Create reverse-proxy-load-balancr.md --- awesome/reverse-proxy-load-balancr.md | 26 ++++++++++++++++++++++++++ 1 file changed, 26 insertions(+) create mode 100644 awesome/reverse-proxy-load-balancr.md diff --git a/awesome/reverse-proxy-load-balancr.md b/awesome/reverse-proxy-load-balancr.md new file mode 100644 index 0000000..a9c401e --- /dev/null +++ b/awesome/reverse-proxy-load-balancr.md @@ -0,0 +1,26 @@ +# 提高页面响应速度: 反向代理及负载均衡 +editors: BUPTGuo , 好东西传送门 , 情非得已小屋, 新世界_玉兔 , 52cs + +keywords: + 负载均衡(load balancer), + 反向映射 (reverse proxy), + + +## 资源 +http://webmasters.stackexchange.com/questions/10927/using-multiple-a-records-for-my-domain-do-web-browsers-ever-try-more-than-one 最简单的设置, DNS设置, 在一个域名下设置多个 "A" record, 即一个域名映射多个IP地址, 然后由域名服务器与浏览器共同选择其中的一个IP访问 + +http://yijiu.blog.51cto.com/433846/1408443 基于Nginx反向代理及负载均衡 + +http://fournines.wordpress.com/2011/12/02/improving-page-speed-cdn-vs-squid-varnish-nginx/ Improving page speed: CDN vs Squid/Varnish/nginx/mod_proxy + + + +## 讨论 + +BUPTGuo:负载均衡? (8月3日 17:17) + +好东西传送门:[求助] 欢迎大家到这里去解答 http://t.cn/RPi5Prc 小声说一句:应该是通过load balancer或reverse proxy //@龙星计划: 求科普 (8月3日 17:51) + +情非得已小屋:负载均衡+反向映射 (8月3日 19:24) + +新世界_玉兔:DNS提供负载均衡 (8月4日 16:05) From 1d5bb291b8fdd555c8b2d26951df8df95a5e2483 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 12:59:03 -0700 Subject: [PATCH 177/485] Rename reverse-proxy-load-balancr.md to reverse-proxy-load-balancer.md --- ...verse-proxy-load-balancr.md => reverse-proxy-load-balancer.md} | 0 1 file changed, 0 insertions(+), 0 deletions(-) rename awesome/{reverse-proxy-load-balancr.md => reverse-proxy-load-balancer.md} (100%) diff --git a/awesome/reverse-proxy-load-balancr.md b/awesome/reverse-proxy-load-balancer.md similarity index 100% rename from awesome/reverse-proxy-load-balancr.md rename to awesome/reverse-proxy-load-balancer.md From 9ad122c88303c31bcabe4a43fc69aeed31a4e320 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 13:01:44 -0700 Subject: [PATCH 178/485] Update reverse-proxy-load-balancer.md --- awesome/reverse-proxy-load-balancer.md | 4 +++- 1 file changed, 3 insertions(+), 1 deletion(-) diff --git a/awesome/reverse-proxy-load-balancer.md b/awesome/reverse-proxy-load-balancer.md index a9c401e..2b2cc1c 100644 --- a/awesome/reverse-proxy-load-balancer.md +++ b/awesome/reverse-proxy-load-balancer.md @@ -1,5 +1,5 @@ # 提高页面响应速度: 反向代理及负载均衡 -editors: BUPTGuo , 好东西传送门 , 情非得已小屋, 新世界_玉兔 , 52cs +editors: mahak, BUPTGuo , 好东西传送门 , 情非得已小屋, 新世界_玉兔 , 52cs keywords: 负载均衡(load balancer), @@ -17,6 +17,8 @@ http://fournines.wordpress.com/2011/12/02/improving-page-speed-cdn-vs-squid-varn ## 讨论 +mahak: 域名服务的A记录可以是多个ip做循环(round roubin),请求到了ip之后,可以是负载均衡设备,具体均衡策略可根据应用调整,比如是否会话保持等。 + BUPTGuo:负载均衡? (8月3日 17:17) 好东西传送门:[求助] 欢迎大家到这里去解答 http://t.cn/RPi5Prc 小声说一句:应该是通过load balancer或reverse proxy //@龙星计划: 求科普 (8月3日 17:51) From 5a73e51391264f8e48d791b34679fd08c33012fb Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 13:01:56 -0700 Subject: [PATCH 179/485] Update reverse-proxy-load-balancer.md --- awesome/reverse-proxy-load-balancer.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/reverse-proxy-load-balancer.md b/awesome/reverse-proxy-load-balancer.md index 2b2cc1c..da2f885 100644 --- a/awesome/reverse-proxy-load-balancer.md +++ b/awesome/reverse-proxy-load-balancer.md @@ -1,5 +1,5 @@ # 提高页面响应速度: 反向代理及负载均衡 -editors: mahak, BUPTGuo , 好东西传送门 , 情非得已小屋, 新世界_玉兔 , 52cs +editors: @mahak, BUPTGuo , 好东西传送门 , 情非得已小屋, 新世界_玉兔 , 52cs keywords: 负载均衡(load balancer), From aaff4cc8d04ba2353ea41a9bf3d9f1d1d7ad0f4f Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 13:10:17 -0700 Subject: [PATCH 180/485] Update reverse-proxy-load-balancer.md --- awesome/reverse-proxy-load-balancer.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/awesome/reverse-proxy-load-balancer.md b/awesome/reverse-proxy-load-balancer.md index da2f885..81fc6db 100644 --- a/awesome/reverse-proxy-load-balancer.md +++ b/awesome/reverse-proxy-load-balancer.md @@ -5,6 +5,8 @@ keywords: 负载均衡(load balancer), 反向映射 (reverse proxy), +https://github.com/memect/hao/blob/master/awesome/reverse-proxy-load-balancer.md + ## 资源 http://webmasters.stackexchange.com/questions/10927/using-multiple-a-records-for-my-domain-do-web-browsers-ever-try-more-than-one 最简单的设置, DNS设置, 在一个域名下设置多个 "A" record, 即一个域名映射多个IP地址, 然后由域名服务器与浏览器共同选择其中的一个IP访问 From f023971f5c5eab60dd000a2bbf4b2d522abbb920 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 13:10:46 -0700 Subject: [PATCH 181/485] Update reverse-proxy-load-balancer.md --- awesome/reverse-proxy-load-balancer.md | 1 + 1 file changed, 1 insertion(+) diff --git a/awesome/reverse-proxy-load-balancer.md b/awesome/reverse-proxy-load-balancer.md index 81fc6db..9a96725 100644 --- a/awesome/reverse-proxy-load-balancer.md +++ b/awesome/reverse-proxy-load-balancer.md @@ -18,6 +18,7 @@ http://fournines.wordpress.com/2011/12/02/improving-page-speed-cdn-vs-squid-varn ## 讨论 +@52cs 一个域名貌似只能绑定一个IP,这么多服务器怎么都可以被域名找到呢? mahak: 域名服务的A记录可以是多个ip做循环(round roubin),请求到了ip之后,可以是负载均衡设备,具体均衡策略可根据应用调整,比如是否会话保持等。 From daa1f28e951e2f8f9890181b86dc2cbe940c9e6a Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 13:47:12 -0700 Subject: [PATCH 182/485] Create speech-recognition.md --- awesome/speech-recognition.md | 49 +++++++++++++++++++++++++++++++++++ 1 file changed, 49 insertions(+) create mode 100644 awesome/speech-recognition.md diff --git a/awesome/speech-recognition.md b/awesome/speech-recognition.md new file mode 100644 index 0000000..5401a54 --- /dev/null +++ b/awesome/speech-recognition.md @@ -0,0 +1,49 @@ +#语音处理的资料 +editors: + +keywords: + speech processing, + speech recognition, + speaker recognition, + +## readings + +http://www.signalprocessingsociety.org/technical-committees/list/sl-tc/spl-nl/2013-05/ALIZE/ ALIZE 3.0 - Open-source platform for speaker recognition + +http://research.microsoft.com/pubs/217165/ICASSP_DeepTextLearning_v07.pdf Deep Learning for Natural Language Processing and Related Applications, Microsoft + +http://research.microsoft.com/pubs/189008/tasl-deng-2244083-x_2.pdf Li Deng, Xiao Li, Machine Learning Paradigms for Speech Recognition: An Overview + +http://research.google.com/pubs/SpeechProcessing.html Google Speech processing + +http://www.emory.edu/BUSINESS/speech/SpeechRecCase.pdf nuance white paper, business use cases + + +## pointers for exploration + +http://en.wikipedia.org/wiki/Speech_recognition + +http://www.technologyreview.com/news/427793/where-speech-recognition-is-going/ Where Speech Recognition Is Going + +http://technav.ieee.org/tag/1597/speaker-recognition 48 resources related to Speaker Recognition + +## conferences +Popular speech recognition conferences held each year or two include SpeechTEK and SpeechTEK Europe, ICASSP, Interspeech/Eurospeech, and the IEEE ASRU. Conferences in the field of natural language processing, such as ACL, NAACL, EMNLP, and HLT, are beginning to include papers on speech processing. Important journals include the IEEE Transactions on Speech and Audio Processing (now named IEEE Transactions on Audio, Speech and Language Processing), Computer Speech and Language, and Speech Communication. + +http://www.interspeech2014.org/public.php?page=tutorial.html tutorial of interspeech 2014 + +http://www.icassp2014.org/tutorials.html icassp 2014 + +http://www.speechtek.com/2014/ SpeechTek + +http://www.asru2013.org/ ASRU + +http://www.iscslp2014.org/public.php?page=keynote.html ISCSLP@INTERSPEECH 2014 - The 9th International Symposium on Chinese Spoken Language Processing + + +## discussion +@血色又残阳 问:需要语音处理的资料 要求 +1、论文最好有配套代码,可以跑; +2、当前学术界和工业界最新或者主流技术有哪些; +3、是否有跟深度学习结合的; +4、最好也有说话人鉴别的相关论文和代码。 From 2451af1bda4727287574c2146226a2f61051a7f2 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 13:48:09 -0700 Subject: [PATCH 183/485] Update speech-recognition.md --- awesome/speech-recognition.md | 7 +++++-- 1 file changed, 5 insertions(+), 2 deletions(-) diff --git a/awesome/speech-recognition.md b/awesome/speech-recognition.md index 5401a54..87fcb48 100644 --- a/awesome/speech-recognition.md +++ b/awesome/speech-recognition.md @@ -8,8 +8,6 @@ keywords: ## readings -http://www.signalprocessingsociety.org/technical-committees/list/sl-tc/spl-nl/2013-05/ALIZE/ ALIZE 3.0 - Open-source platform for speaker recognition - http://research.microsoft.com/pubs/217165/ICASSP_DeepTextLearning_v07.pdf Deep Learning for Natural Language Processing and Related Applications, Microsoft http://research.microsoft.com/pubs/189008/tasl-deng-2244083-x_2.pdf Li Deng, Xiao Li, Machine Learning Paradigms for Speech Recognition: An Overview @@ -19,6 +17,11 @@ http://research.google.com/pubs/SpeechProcessing.html Google Speech processing http://www.emory.edu/BUSINESS/speech/SpeechRecCase.pdf nuance white paper, business use cases +## code +http://www.signalprocessingsociety.org/technical-committees/list/sl-tc/spl-nl/2013-05/ALIZE/ ALIZE 3.0 - Open-source platform for speaker recognition + + + ## pointers for exploration http://en.wikipedia.org/wiki/Speech_recognition From b680246902ae34055d2b09875596651a6fb3bb97 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 13:54:00 -0700 Subject: [PATCH 184/485] Update speech-recognition.md --- awesome/speech-recognition.md | 24 +++++++++++++++++++++--- 1 file changed, 21 insertions(+), 3 deletions(-) diff --git a/awesome/speech-recognition.md b/awesome/speech-recognition.md index 87fcb48..9991cd8 100644 --- a/awesome/speech-recognition.md +++ b/awesome/speech-recognition.md @@ -17,20 +17,38 @@ http://research.google.com/pubs/SpeechProcessing.html Google Speech processing http://www.emory.edu/BUSINESS/speech/SpeechRecCase.pdf nuance white paper, business use cases -## code +## tools +http://en.wikipedia.org/wiki/List_of_speech_recognition_software +* quite some software leverage google speech api to provide online speech to text on mobile devices. + +### open source http://www.signalprocessingsociety.org/technical-committees/list/sl-tc/spl-nl/2013-05/ALIZE/ ALIZE 3.0 - Open-source platform for speaker recognition +https://github.com/taf2/speech2text + + +### products + +http://www.consumersearch.com/voice-recognition-software/review + +http://www.nuance.com/dragon/index.htm + +http://en.wikipedia.org/wiki/Windows_Speech_Recognition + +http://download.cnet.com/windows/voice-recognition-software/?tag=bc +http://www.labnol.org/internet/dictation-for-google-chrome/24719/ -## pointers for exploration +## pointers +### exploration http://en.wikipedia.org/wiki/Speech_recognition http://www.technologyreview.com/news/427793/where-speech-recognition-is-going/ Where Speech Recognition Is Going http://technav.ieee.org/tag/1597/speaker-recognition 48 resources related to Speaker Recognition -## conferences +### conferences Popular speech recognition conferences held each year or two include SpeechTEK and SpeechTEK Europe, ICASSP, Interspeech/Eurospeech, and the IEEE ASRU. Conferences in the field of natural language processing, such as ACL, NAACL, EMNLP, and HLT, are beginning to include papers on speech processing. Important journals include the IEEE Transactions on Speech and Audio Processing (now named IEEE Transactions on Audio, Speech and Language Processing), Computer Speech and Language, and Speech Communication. http://www.interspeech2014.org/public.php?page=tutorial.html tutorial of interspeech 2014 From ffe22c093efa21fcdfabef79829e39ca1e0d72e5 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 13:56:08 -0700 Subject: [PATCH 185/485] Update speech-recognition.md --- awesome/speech-recognition.md | 8 +++++++- 1 file changed, 7 insertions(+), 1 deletion(-) diff --git a/awesome/speech-recognition.md b/awesome/speech-recognition.md index 9991cd8..1b86b21 100644 --- a/awesome/speech-recognition.md +++ b/awesome/speech-recognition.md @@ -63,8 +63,14 @@ http://www.iscslp2014.org/public.php?page=keynote.html ISCSLP@INTERSPEECH 2014 ## discussion -@血色又残阳 问:需要语音处理的资料 要求 + @血色又残阳 问:需要语音处理的资料? 要求 1、论文最好有配套代码,可以跑; 2、当前学术界和工业界最新或者主流技术有哪些; 3、是否有跟深度学习结合的; 4、最好也有说话人鉴别的相关论文和代码。 + +https://github.com/memect/hao/issues/50 + + + yongsun :有没有开源或者免费的英文语音识别软件/或项目? 打算翻译一些冰球教学的视频,想结合识别结果来进行听译 +https://github.com/memect/hao/issues/53 From b7c673ed3265d7429df3c486b53d4fc2fdfe7d96 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 13:58:06 -0700 Subject: [PATCH 186/485] Update speech-recognition.md --- awesome/speech-recognition.md | 4 ++++ 1 file changed, 4 insertions(+) diff --git a/awesome/speech-recognition.md b/awesome/speech-recognition.md index 1b86b21..7b293a2 100644 --- a/awesome/speech-recognition.md +++ b/awesome/speech-recognition.md @@ -6,6 +6,10 @@ keywords: speech recognition, speaker recognition, +card lists: +* http://hao.memect.com/?tag=speechRecognition +* http://bigdata.memect.com/?tag=speech+deeplearning + ## readings http://research.microsoft.com/pubs/217165/ICASSP_DeepTextLearning_v07.pdf Deep Learning for Natural Language Processing and Related Applications, Microsoft From abacecf8dadc1e03ad88f85a638dfecffee0222d Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 13:58:46 -0700 Subject: [PATCH 187/485] Update speech-recognition.md --- awesome/speech-recognition.md | 4 +++- 1 file changed, 3 insertions(+), 1 deletion(-) diff --git a/awesome/speech-recognition.md b/awesome/speech-recognition.md index 7b293a2..433446b 100644 --- a/awesome/speech-recognition.md +++ b/awesome/speech-recognition.md @@ -1,5 +1,5 @@ #语音处理的资料 -editors: +editors: 好东西传送门 keywords: speech processing, @@ -10,6 +10,8 @@ card lists: * http://hao.memect.com/?tag=speechRecognition * http://bigdata.memect.com/?tag=speech+deeplearning +https://github.com/memect/hao/blob/master/awesome/speech-recognition.md + ## readings http://research.microsoft.com/pubs/217165/ICASSP_DeepTextLearning_v07.pdf Deep Learning for Natural Language Processing and Related Applications, Microsoft From 7d997649a7980ce6721e523522b7439c3909ec0b Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 14:35:36 -0700 Subject: [PATCH 188/485] Update recurrent-neural-networks.md --- awesome/recurrent-neural-networks.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/awesome/recurrent-neural-networks.md b/awesome/recurrent-neural-networks.md index b74270f..6525564 100644 --- a/awesome/recurrent-neural-networks.md +++ b/awesome/recurrent-neural-networks.md @@ -2,6 +2,8 @@ Editor(s): @ICT_朱亚东 @维尔茨 @好东西传送门 card list: http://bigdata.memect.com/?tag=rnn +https://github.com/memect/hao/blob/master/awesome/recurrent-neural-networks.md + ## 学习资源 http://en.wikipedia.org/wiki/Recurrent_neural_network 背景知识 From 2ef138494c97a4f3618ee088da2ac33fb55447b7 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 14:59:55 -0700 Subject: [PATCH 189/485] Create dataset.md --- awesome/dataset.md | 29 +++++++++++++++++++++++++++++ 1 file changed, 29 insertions(+) create mode 100644 awesome/dataset.md diff --git a/awesome/dataset.md b/awesome/dataset.md new file mode 100644 index 0000000..d34e86c --- /dev/null +++ b/awesome/dataset.md @@ -0,0 +1,29 @@ +## dataset catalogs + +https://snap.stanford.edu/data/ Stanford Large Network Dataset Collection + +http://www.rdatamining.com/resources/data Free Datasets for R + +http://aws.amazon.com/publicdatasets/ + +http://catalog.data.gov/dataset + +http://data.worldbank.org/ + +http://www.infochimps.com/datasets/ + +http://ckan.org/instances/# + +http://archive.ics.uci.edu/ml/datasets.html + +http://www.kdnuggets.com/datasets/index.html + + +## individual datasets +https://developers.google.com/freebase/data freebase + +https://archive.org/details/stackexchange stack overflow + +http://commoncrawl.org/data/accessing-the-data/ common crawl + +http://km.aifb.kit.edu/projects/btc-2012/ billion triple challenge (including dbpedia, dblp, tumbler ...) From 6951a7fb4bbbaccf14448d7857727318225f3a97 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 16:44:28 -0700 Subject: [PATCH 190/485] Create outlier_text_mining.md --- awesome/outlier_text_mining.md | 27 +++++++++++++++++++++++++++ 1 file changed, 27 insertions(+) create mode 100644 awesome/outlier_text_mining.md diff --git a/awesome/outlier_text_mining.md b/awesome/outlier_text_mining.md new file mode 100644 index 0000000..26001db --- /dev/null +++ b/awesome/outlier_text_mining.md @@ -0,0 +1,27 @@ +# Outlier Detection in Text Mining + +editor: 好东西传送门 + +keywords: + outlier detection, + anomaly detection, + text mining + +## Text mining and outlier/anomaly detection +https://perso.uclouvain.be/vincent.blondel/publications/08-textmining.pdf Survey of Text Mining: Clustering, Classification, and Retrieval, Second Edition , Michael W. Berry and Malu Castellanos, Editors 2007 (check part IV Part IV Anomaly Detection) + +http://arxiv.org/abs/1009.6119 A Comprehensive Survey of Data Mining-based Fraud Detection Research, Clifton Phua, Vincent Lee, Kate Smith, Ross Gayler 2010 + +http://cs.gmu.edu/~carlotta/publications/AlsumaitL_onlineLDA.pdf On-Line LDA: Adaptive Topic Models for Mining Text Streams with Applications to Topic Detection and Tracking, Loulwah AlSumait, Daniel Barbar´a, Carlotta Domeniconi + +http://www.mdpi.com/1999-4893/5/4/469 Contextual Anomaly Detection in Text Data 2012 + +## Outlier detection +http://en.wikipedia.org/wiki/Anomaly_detection + +http://www.siam.org/meetings/sdm10/tutorial3.pdf Outlier Detection Techniques - SIAM + +http://www.slideshare.net/HouwLiong/chapter-12-outlier + +## Text mining only +http://www.itee.uq.edu.au/dke/filething/get/855/text-mining-ChengXiangZhai.pdf Statistical Methods for Mining Big Text Data, ChengXiang Zhai 2014 From d7fac41703e3409d6904849722efe4fac314bfe8 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 16:44:48 -0700 Subject: [PATCH 191/485] Rename outlier_text_mining.md to outlier-text-mining.md --- awesome/{outlier_text_mining.md => outlier-text-mining.md} | 0 1 file changed, 0 insertions(+), 0 deletions(-) rename awesome/{outlier_text_mining.md => outlier-text-mining.md} (100%) diff --git a/awesome/outlier_text_mining.md b/awesome/outlier-text-mining.md similarity index 100% rename from awesome/outlier_text_mining.md rename to awesome/outlier-text-mining.md From b79942a0cee2c99d611ef92fe52914c79c3829b0 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 16:55:54 -0700 Subject: [PATCH 192/485] Update outlier-text-mining.md --- awesome/outlier-text-mining.md | 5 ++++- 1 file changed, 4 insertions(+), 1 deletion(-) diff --git a/awesome/outlier-text-mining.md b/awesome/outlier-text-mining.md index 26001db..8f3bce9 100644 --- a/awesome/outlier-text-mining.md +++ b/awesome/outlier-text-mining.md @@ -17,11 +17,14 @@ http://cs.gmu.edu/~carlotta/publications/AlsumaitL_onlineLDA.pdf On-Line LDA: Ad http://www.mdpi.com/1999-4893/5/4/469 Contextual Anomaly Detection in Text Data 2012 ## Outlier detection +http://info.mapr.com/resources_anewlook_anomalydetection_ty.html.html?aliId=7992403 +@ 郭惠礼 :刚看完一本书. Practical Machine Learning: A New Look At Anomaly Detection. " http://t.cn/RPJX4YT 一本免费的机器学习实践书。此书主要以Anomaly Detection与T-digest算法为主轴展开论述, 不涉及太深的知识。 比较简单,适合刚接触ML的初学者. + http://en.wikipedia.org/wiki/Anomaly_detection http://www.siam.org/meetings/sdm10/tutorial3.pdf Outlier Detection Techniques - SIAM http://www.slideshare.net/HouwLiong/chapter-12-outlier -## Text mining only +## Text mining http://www.itee.uq.edu.au/dke/filething/get/855/text-mining-ChengXiangZhai.pdf Statistical Methods for Mining Big Text Data, ChengXiang Zhai 2014 From 71c579525b825b242a84eea5cc9ff7c4e6da6e9a Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 16:58:00 -0700 Subject: [PATCH 193/485] Update outlier-text-mining.md --- awesome/outlier-text-mining.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/awesome/outlier-text-mining.md b/awesome/outlier-text-mining.md index 8f3bce9..344cfb1 100644 --- a/awesome/outlier-text-mining.md +++ b/awesome/outlier-text-mining.md @@ -20,6 +20,8 @@ http://www.mdpi.com/1999-4893/5/4/469 Contextual Anomaly Detection in Text Data http://info.mapr.com/resources_anewlook_anomalydetection_ty.html.html?aliId=7992403 @ 郭惠礼 :刚看完一本书. Practical Machine Learning: A New Look At Anomaly Detection. " http://t.cn/RPJX4YT 一本免费的机器学习实践书。此书主要以Anomaly Detection与T-digest算法为主轴展开论述, 不涉及太深的知识。 比较简单,适合刚接触ML的初学者. +http://www.kdnuggets.com/2014/05/book-outlier-detection-temporal-data.html Outlier Detection for Temporal Data (Book) + http://en.wikipedia.org/wiki/Anomaly_detection http://www.siam.org/meetings/sdm10/tutorial3.pdf Outlier Detection Techniques - SIAM From c08e98447e090efda708c8097833896e56f3356b Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 16:59:03 -0700 Subject: [PATCH 194/485] Update outlier-text-mining.md --- awesome/outlier-text-mining.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/outlier-text-mining.md b/awesome/outlier-text-mining.md index 344cfb1..876d251 100644 --- a/awesome/outlier-text-mining.md +++ b/awesome/outlier-text-mining.md @@ -1,6 +1,6 @@ # Outlier Detection in Text Mining -editor: 好东西传送门 +editor: 郭惠礼 , 许扬逸Dijkstra , phunter_lau , 好东西传送门 keywords: outlier detection, From 619aa23f5d80b7351c863a36e1fa5e41510574b6 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 17:03:55 -0700 Subject: [PATCH 195/485] Update outlier-text-mining.md --- awesome/outlier-text-mining.md | 6 ++++++ 1 file changed, 6 insertions(+) diff --git a/awesome/outlier-text-mining.md b/awesome/outlier-text-mining.md index 876d251..5bc13d8 100644 --- a/awesome/outlier-text-mining.md +++ b/awesome/outlier-text-mining.md @@ -30,3 +30,9 @@ http://www.slideshare.net/HouwLiong/chapter-12-outlier ## Text mining http://www.itee.uq.edu.au/dke/filething/get/855/text-mining-ChengXiangZhai.pdf Statistical Methods for Mining Big Text Data, ChengXiang Zhai 2014 + + +## 讨论 + +phunter_lau:也可以,并且对于非连通的情况可以随机加入连通,比如“你就是偷看那个妹子了”并继续分析有意想不到的结果//@妖僧老馮: 不。屬於 Linkage attack. //@phunter_lau:里面用到的技能也就是outlier detection然后根据outlier所在的几个表进行join,暴力搜索,这是常见手段,文科女生果然不太适合搞数据 +http://weibo.com/1770891687/B5Gs7xdqQ From 812f28075f0a6b3dc927e380c64f1550d984561c Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 17:11:15 -0700 Subject: [PATCH 196/485] Update outlier-text-mining.md --- awesome/outlier-text-mining.md | 6 ++++++ 1 file changed, 6 insertions(+) diff --git a/awesome/outlier-text-mining.md b/awesome/outlier-text-mining.md index 5bc13d8..b7523d5 100644 --- a/awesome/outlier-text-mining.md +++ b/awesome/outlier-text-mining.md @@ -36,3 +36,9 @@ http://www.itee.uq.edu.au/dke/filething/get/855/text-mining-ChengXiangZhai.pdf phunter_lau:也可以,并且对于非连通的情况可以随机加入连通,比如“你就是偷看那个妹子了”并继续分析有意想不到的结果//@妖僧老馮: 不。屬於 Linkage attack. //@phunter_lau:里面用到的技能也就是outlier detection然后根据outlier所在的几个表进行join,暴力搜索,这是常见手段,文科女生果然不太适合搞数据 http://weibo.com/1770891687/B5Gs7xdqQ + + + +许扬逸Dijkstra: 在antispam,multidimension outlier detection上也可以试试它 +@计兮 【金融数据挖掘之朴素贝叶斯】by@数说工作室网站:本文介绍了金融数据挖掘过程中的朴素贝叶斯模型,供大家参考。原文链接→http://t.cn/RPzhx7S + From b0536a6e69fc9401c3129fc70be849cd164df17d Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 17:11:35 -0700 Subject: [PATCH 197/485] Update outlier-text-mining.md --- awesome/outlier-text-mining.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/awesome/outlier-text-mining.md b/awesome/outlier-text-mining.md index b7523d5..e84bf13 100644 --- a/awesome/outlier-text-mining.md +++ b/awesome/outlier-text-mining.md @@ -32,7 +32,7 @@ http://www.slideshare.net/HouwLiong/chapter-12-outlier http://www.itee.uq.edu.au/dke/filething/get/855/text-mining-ChengXiangZhai.pdf Statistical Methods for Mining Big Text Data, ChengXiang Zhai 2014 -## 讨论 +## 相关点评 phunter_lau:也可以,并且对于非连通的情况可以随机加入连通,比如“你就是偷看那个妹子了”并继续分析有意想不到的结果//@妖僧老馮: 不。屬於 Linkage attack. //@phunter_lau:里面用到的技能也就是outlier detection然后根据outlier所在的几个表进行join,暴力搜索,这是常见手段,文科女生果然不太适合搞数据 http://weibo.com/1770891687/B5Gs7xdqQ @@ -41,4 +41,4 @@ http://weibo.com/1770891687/B5Gs7xdqQ 许扬逸Dijkstra: 在antispam,multidimension outlier detection上也可以试试它 @计兮 【金融数据挖掘之朴素贝叶斯】by@数说工作室网站:本文介绍了金融数据挖掘过程中的朴素贝叶斯模型,供大家参考。原文链接→http://t.cn/RPzhx7S - +http://www.weibo.com/1642083541/Be9vDxvyw From 6e07c41f463a497c078a7f88d95d28fcfb6166f0 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 17:30:47 -0700 Subject: [PATCH 198/485] Create chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 40 ++++++++++++++++++++++++++++++ 1 file changed, 40 insertions(+) create mode 100644 awesome/chinese-word-similarity.md diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md new file mode 100644 index 0000000..c550dce --- /dev/null +++ b/awesome/chinese-word-similarity.md @@ -0,0 +1,40 @@ +contributors: 杜振东_java , 刘知远THU , 昊奋 + +## readings +### glove + +http://blog.csdn.net/adooadoo/article/details/38505497 glove入门实战 + +@杜振东_java : +深夜总算完成了《glove入门实战》的码字工作,发出两张利用glove聚类的效果图,具体工作参考http://t.cn/RP0xXNx,代码在此http://t.cn/RP0xOx0,感谢@刘知远THU 老师提供关于glove的信息,并感谢@张成_ICT 的帮助,顺便@夏睿 老师和@章成志 老师,求下转发[哈哈] +http://www.weibo.com/1247953577/BhRfpyyJw + + +http://stanford.edu/~jpennin/papers/glove.pdf Richard Socher, EMNLP2014, GloVe: Global Vectors for Word Representation + +@刘知远THU : +斯坦福Richard Socher在EMNLP2014发表新作:GloVe: Global Vectors for Word Representation 粗看是融合LSA等算法的想法,利用global word co-occurrence信息提升word vector学习效果,很有意思,在word analogy task上准确率比word2vec提升了11%。 http://t.cn/RPohHyc +http://www.weibo.com/1464484735/BhbLD70wa + + +### ESA (Explicit Semantic Analysis) + +http://zhishi.me + +昊奋 : +对于ESA,如果单纯使用wikipedia,由于中文维基百科的语料相比英语小很多,所以其实不满足ESA本身需要有高覆盖率的好处,需要自行采用百度百科或互动百科进行处理。我们会考虑利用zhishi.me来为大家提供ESA的服务。 +http://www.weibo.com/2045933955/BhWfr2LYv?ref=atme + +### python gensim + +https://github.com/piskvorky/gensim/ + +@算文解字 : +基于分布的:Python gensim一般就够用了,包括了传统的bag-of-words (1-hot) vector representation基础上的模型,以及几种常见相似度表征,还有最新的word2vec都有。 +基于资源的:中文没有免费的类似wordnet的资源,hownet是要收费的。然而也许会有帮助的一个免费资源是哈工大的扩展板"同义词词林" + +### research efforts +http://cs.tju.edu.cn/szdw/jsfjs/fengwei/papers/ICASSP2013_Nie/icassp2013.pdf MEASURING SEMANTIC SIMILARITY BY CONTEXTUAL WORD CONNECTIONS IN CHINESE NEWS STORY SEGMENTATION + +http://www.cs.york.ac.uk/semeval-2012/task4/ Peng Jin, Yunfang Wu, Evaluating Chinese Word Similarity + From ac533f4259d9a3d960548c0dbbaa9c20ffd4bd6a Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 17:31:29 -0700 Subject: [PATCH 199/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index c550dce..88dd334 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -1,4 +1,5 @@ -contributors: 杜振东_java , 刘知远THU , 昊奋 +contributors: 杜振东_java , 刘知远THU , 昊奋, 算文解字 + ## readings ### glove From 91dbc292a6ae4498c6ce3031068b8c00baedb22b Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 17:37:31 -0700 Subject: [PATCH 200/485] Update recurrent-neural-networks.md --- awesome/recurrent-neural-networks.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/recurrent-neural-networks.md b/awesome/recurrent-neural-networks.md index 6525564..c963130 100644 --- a/awesome/recurrent-neural-networks.md +++ b/awesome/recurrent-neural-networks.md @@ -1,4 +1,4 @@ -Editor(s): @ICT_朱亚东 @维尔茨 @好东西传送门 +contributors: @ICT_朱亚东 @维尔茨 card list: http://bigdata.memect.com/?tag=rnn From 1428463cbe22a365b058b4b1f6907784a5c4cae5 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 17:47:27 -0700 Subject: [PATCH 201/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 8 ++++++-- 1 file changed, 6 insertions(+), 2 deletions(-) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index 88dd334..4a95d8b 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -1,5 +1,7 @@ contributors: 杜振东_java , 刘知远THU , 昊奋, 算文解字 - +card list: + * ESA: http://nlp.memect.com/?tag=esa + * ## readings ### glove @@ -20,7 +22,9 @@ http://www.weibo.com/1464484735/BhbLD70wa ### ESA (Explicit Semantic Analysis) -http://zhishi.me +刘知远THU : +可以考虑用传统的distributional representation/similarity的方法,即选取这些关键词出现的上下文的词来表示它,构建分类器。或者explicit semantic analysis(ESA),即用关键词在wikipedia文章中出现的情况来表示它。这些应该都比LDA的topic distribution更具区分能力。 + 昊奋 : 对于ESA,如果单纯使用wikipedia,由于中文维基百科的语料相比英语小很多,所以其实不满足ESA本身需要有高覆盖率的好处,需要自行采用百度百科或互动百科进行处理。我们会考虑利用zhishi.me来为大家提供ESA的服务。 From f5ae27dc6413e672a9955d68e3e45825c191da42 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 17:47:47 -0700 Subject: [PATCH 202/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index 4a95d8b..2749030 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -22,11 +22,11 @@ http://www.weibo.com/1464484735/BhbLD70wa ### ESA (Explicit Semantic Analysis) -刘知远THU : +@刘知远THU : 可以考虑用传统的distributional representation/similarity的方法,即选取这些关键词出现的上下文的词来表示它,构建分类器。或者explicit semantic analysis(ESA),即用关键词在wikipedia文章中出现的情况来表示它。这些应该都比LDA的topic distribution更具区分能力。 -昊奋 : +@昊奋 : 对于ESA,如果单纯使用wikipedia,由于中文维基百科的语料相比英语小很多,所以其实不满足ESA本身需要有高覆盖率的好处,需要自行采用百度百科或互动百科进行处理。我们会考虑利用zhishi.me来为大家提供ESA的服务。 http://www.weibo.com/2045933955/BhWfr2LYv?ref=atme From 60eb09e36f1acfb2b993cb1bb8d2e448c86a4953 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 17:50:07 -0700 Subject: [PATCH 203/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 5 +++-- 1 file changed, 3 insertions(+), 2 deletions(-) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index 2749030..9ed4a75 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -1,10 +1,11 @@ contributors: 杜振东_java , 刘知远THU , 昊奋, 算文解字 card list: + * Word2vector: http://bigdata.memect.com/?tag=word2vec * ESA: http://nlp.memect.com/?tag=esa - * + * python gensim: http://nlp.memect.com/?tag=gensim ## readings -### glove +### glove (word2vector) http://blog.csdn.net/adooadoo/article/details/38505497 glove入门实战 From 4e5d1335278fc20a7bc345c1ed75196f97f6e35a Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 18:09:17 -0700 Subject: [PATCH 204/485] Update outlier-text-mining.md --- awesome/outlier-text-mining.md | 13 ++++++++++++- 1 file changed, 12 insertions(+), 1 deletion(-) diff --git a/awesome/outlier-text-mining.md b/awesome/outlier-text-mining.md index e84bf13..ccaf96a 100644 --- a/awesome/outlier-text-mining.md +++ b/awesome/outlier-text-mining.md @@ -1,6 +1,6 @@ # Outlier Detection in Text Mining -editor: 郭惠礼 , 许扬逸Dijkstra , phunter_lau , 好东西传送门 +contributor: 郭惠礼 , 许扬逸Dijkstra , phunter_lau , ai_东沂 keywords: outlier detection, @@ -8,6 +8,13 @@ keywords: text mining ## Text mining and outlier/anomaly detection + +http://nlp.shef.ac.uk/Completed_PhD_Projects/guthrie.pdf David Guthrie, Unsupervised Detection of Anomalous Text +来自UK Shef大学的博士论文 + +http://link.springer.com/chapter/10.1007%2F978-1-4614-6396-2_7 Aggarwal的outlier analysis一书的chapter 7 Outlier Detection in Categorical, Text and Mixed Attribute Data + + https://perso.uclouvain.be/vincent.blondel/publications/08-textmining.pdf Survey of Text Mining: Clustering, Classification, and Retrieval, Second Edition , Michael W. Berry and Malu Castellanos, Editors 2007 (check part IV Part IV Anomaly Detection) http://arxiv.org/abs/1009.6119 A Comprehensive Survey of Data Mining-based Fraud Detection Research, Clifton Phua, Vincent Lee, Kate Smith, Ross Gayler 2010 @@ -42,3 +49,7 @@ http://weibo.com/1770891687/B5Gs7xdqQ 许扬逸Dijkstra: 在antispam,multidimension outlier detection上也可以试试它 @计兮 【金融数据挖掘之朴素贝叶斯】by@数说工作室网站:本文介绍了金融数据挖掘过程中的朴素贝叶斯模型,供大家参考。原文链接→http://t.cn/RPzhx7S http://www.weibo.com/1642083541/Be9vDxvyw + + +ai_东沂: 我补充一下之前搜到的资料,来自UK Shef大学的博士论文http://nlp.shef.ac.uk/Completed_PhD_Projects/guthrie.pdf +Aggarwal的outlier analysis一书的chapter 7 Outlier Detection in Categorical, Text and Mixed Attribute Data,http://link.springer.com/chapter/10.1007%2F978-1-4614-6396-2_7 From aa429571c94e84a5f9b9fa975f3f5178baddcf00 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 18:12:29 -0700 Subject: [PATCH 205/485] Update outlier-text-mining.md --- awesome/outlier-text-mining.md | 3 +++ 1 file changed, 3 insertions(+) diff --git a/awesome/outlier-text-mining.md b/awesome/outlier-text-mining.md index ccaf96a..696845d 100644 --- a/awesome/outlier-text-mining.md +++ b/awesome/outlier-text-mining.md @@ -2,6 +2,9 @@ contributor: 郭惠礼 , 许扬逸Dijkstra , phunter_lau , ai_东沂 +card list: + * http://bigdata.memect.com/?tag=outlierdetectionandtextmining + keywords: outlier detection, anomaly detection, From b74ef8a3f17975d467dcb7998703a2575b81cbdc Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 18:12:45 -0700 Subject: [PATCH 206/485] Update outlier-text-mining.md --- awesome/outlier-text-mining.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/outlier-text-mining.md b/awesome/outlier-text-mining.md index 696845d..d92ea86 100644 --- a/awesome/outlier-text-mining.md +++ b/awesome/outlier-text-mining.md @@ -3,7 +3,7 @@ contributor: 郭惠礼 , 许扬逸Dijkstra , phunter_lau , ai_东沂 card list: - * http://bigdata.memect.com/?tag=outlierdetectionandtextmining +* http://bigdata.memect.com/?tag=outlierdetectionandtextmining keywords: outlier detection, From 30c8433ab0e699c4c45c67eb093021ecae03ad5e Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 18:12:58 -0700 Subject: [PATCH 207/485] Update outlier-text-mining.md --- awesome/outlier-text-mining.md | 3 +-- 1 file changed, 1 insertion(+), 2 deletions(-) diff --git a/awesome/outlier-text-mining.md b/awesome/outlier-text-mining.md index d92ea86..ce65542 100644 --- a/awesome/outlier-text-mining.md +++ b/awesome/outlier-text-mining.md @@ -2,8 +2,7 @@ contributor: 郭惠礼 , 许扬逸Dijkstra , phunter_lau , ai_东沂 -card list: -* http://bigdata.memect.com/?tag=outlierdetectionandtextmining +card list: http://bigdata.memect.com/?tag=outlierdetectionandtextmining keywords: outlier detection, From 7b73734a4075491f3dd79ada035976e2e2d18d47 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 18:14:24 -0700 Subject: [PATCH 208/485] Update outlier-text-mining.md --- awesome/outlier-text-mining.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/awesome/outlier-text-mining.md b/awesome/outlier-text-mining.md index ce65542..cb1d0b9 100644 --- a/awesome/outlier-text-mining.md +++ b/awesome/outlier-text-mining.md @@ -4,6 +4,8 @@ contributor: 郭惠礼 , 许扬逸Dijkstra , phunter_lau , ai_东沂 card list: http://bigdata.memect.com/?tag=outlierdetectionandtextmining +https://github.com/memect/hao/blob/master/awesome/outlier-text-mining.md + keywords: outlier detection, anomaly detection, From 7606ecb02c6f5455f1efa602a6b279db65b8e1e7 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 22:31:50 -0700 Subject: [PATCH 209/485] Update outlier-text-mining.md --- awesome/outlier-text-mining.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/outlier-text-mining.md b/awesome/outlier-text-mining.md index cb1d0b9..c2df155 100644 --- a/awesome/outlier-text-mining.md +++ b/awesome/outlier-text-mining.md @@ -19,7 +19,7 @@ http://nlp.shef.ac.uk/Completed_PhD_Projects/guthrie.pdf David Guthrie, Unsuperv http://link.springer.com/chapter/10.1007%2F978-1-4614-6396-2_7 Aggarwal的outlier analysis一书的chapter 7 Outlier Detection in Categorical, Text and Mixed Attribute Data -https://perso.uclouvain.be/vincent.blondel/publications/08-textmining.pdf Survey of Text Mining: Clustering, Classification, and Retrieval, Second Edition , Michael W. Berry and Malu Castellanos, Editors 2007 (check part IV Part IV Anomaly Detection) +http://www.amazon.com/Survey-Text-Mining-Clustering-Classification/dp/1848000456 Survey of Text Mining: Clustering, Classification, and Retrieval, Second Edition , Michael W. Berry and Malu Castellanos, Editors 2007 (check part IV Part IV Anomaly Detection) https://perso.uclouvain.be/vincent.blondel/publications/08-textmining.pdf http://arxiv.org/abs/1009.6119 A Comprehensive Survey of Data Mining-based Fraud Detection Research, Clifton Phua, Vincent Lee, Kate Smith, Ross Gayler 2010 From 6b82dd5c247ef90dc4a9ea986fb3485b1eaca4d2 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 22:48:10 -0700 Subject: [PATCH 210/485] Update outlier-text-mining.md --- awesome/outlier-text-mining.md | 8 ++++---- 1 file changed, 4 insertions(+), 4 deletions(-) diff --git a/awesome/outlier-text-mining.md b/awesome/outlier-text-mining.md index c2df155..517f922 100644 --- a/awesome/outlier-text-mining.md +++ b/awesome/outlier-text-mining.md @@ -21,16 +21,14 @@ http://link.springer.com/chapter/10.1007%2F978-1-4614-6396-2_7 Aggarwal的outlie http://www.amazon.com/Survey-Text-Mining-Clustering-Classification/dp/1848000456 Survey of Text Mining: Clustering, Classification, and Retrieval, Second Edition , Michael W. Berry and Malu Castellanos, Editors 2007 (check part IV Part IV Anomaly Detection) https://perso.uclouvain.be/vincent.blondel/publications/08-textmining.pdf -http://arxiv.org/abs/1009.6119 A Comprehensive Survey of Data Mining-based Fraud Detection Research, Clifton Phua, Vincent Lee, Kate Smith, Ross Gayler 2010 - -http://cs.gmu.edu/~carlotta/publications/AlsumaitL_onlineLDA.pdf On-Line LDA: Adaptive Topic Models for Mining Text Streams with Applications to Topic Detection and Tracking, Loulwah AlSumait, Daniel Barbar´a, Carlotta Domeniconi - http://www.mdpi.com/1999-4893/5/4/469 Contextual Anomaly Detection in Text Data 2012 ## Outlier detection http://info.mapr.com/resources_anewlook_anomalydetection_ty.html.html?aliId=7992403 @ 郭惠礼 :刚看完一本书. Practical Machine Learning: A New Look At Anomaly Detection. " http://t.cn/RPJX4YT 一本免费的机器学习实践书。此书主要以Anomaly Detection与T-digest算法为主轴展开论述, 不涉及太深的知识。 比较简单,适合刚接触ML的初学者. +http://arxiv.org/abs/1009.6119 A Comprehensive Survey of Data Mining-based Fraud Detection Research, Clifton Phua, Vincent Lee, Kate Smith, Ross Gayler 2010 + http://www.kdnuggets.com/2014/05/book-outlier-detection-temporal-data.html Outlier Detection for Temporal Data (Book) http://en.wikipedia.org/wiki/Anomaly_detection @@ -42,6 +40,8 @@ http://www.slideshare.net/HouwLiong/chapter-12-outlier ## Text mining http://www.itee.uq.edu.au/dke/filething/get/855/text-mining-ChengXiangZhai.pdf Statistical Methods for Mining Big Text Data, ChengXiang Zhai 2014 +http://cs.gmu.edu/~carlotta/publications/AlsumaitL_onlineLDA.pdf On-Line LDA: Adaptive Topic Models for Mining Text Streams with Applications to Topic Detection and Tracking, Loulwah AlSumait, Daniel Barbar´a, Carlotta Domeniconi + ## 相关点评 From 69b9a47bd4bc03a3b91cbab50c152b18d5ad853d Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 22:59:42 -0700 Subject: [PATCH 211/485] Update outlier-text-mining.md --- awesome/outlier-text-mining.md | 30 ++++++++++++++++-------------- 1 file changed, 16 insertions(+), 14 deletions(-) diff --git a/awesome/outlier-text-mining.md b/awesome/outlier-text-mining.md index 517f922..16c6af6 100644 --- a/awesome/outlier-text-mining.md +++ b/awesome/outlier-text-mining.md @@ -11,19 +11,7 @@ keywords: anomaly detection, text mining -## Text mining and outlier/anomaly detection - -http://nlp.shef.ac.uk/Completed_PhD_Projects/guthrie.pdf David Guthrie, Unsupervised Detection of Anomalous Text -来自UK Shef大学的博士论文 - -http://link.springer.com/chapter/10.1007%2F978-1-4614-6396-2_7 Aggarwal的outlier analysis一书的chapter 7 Outlier Detection in Categorical, Text and Mixed Attribute Data - - -http://www.amazon.com/Survey-Text-Mining-Clustering-Classification/dp/1848000456 Survey of Text Mining: Clustering, Classification, and Retrieval, Second Edition , Michael W. Berry and Malu Castellanos, Editors 2007 (check part IV Part IV Anomaly Detection) https://perso.uclouvain.be/vincent.blondel/publications/08-textmining.pdf - -http://www.mdpi.com/1999-4893/5/4/469 Contextual Anomaly Detection in Text Data 2012 - -## Outlier detection +## Outlier detection survey http://info.mapr.com/resources_anewlook_anomalydetection_ty.html.html?aliId=7992403 @ 郭惠礼 :刚看完一本书. Practical Machine Learning: A New Look At Anomaly Detection. " http://t.cn/RPJX4YT 一本免费的机器学习实践书。此书主要以Anomaly Detection与T-digest算法为主轴展开论述, 不涉及太深的知识。 比较简单,适合刚接触ML的初学者. @@ -37,7 +25,21 @@ http://www.siam.org/meetings/sdm10/tutorial3.pdf Outlier Detection Techniques - http://www.slideshare.net/HouwLiong/chapter-12-outlier -## Text mining + +## outlier/anomaly detection in Text mining and + +http://nlp.shef.ac.uk/Completed_PhD_Projects/guthrie.pdf David Guthrie, Unsupervised Detection of Anomalous Text +来自UK Shef大学的博士论文 + +http://link.springer.com/chapter/10.1007%2F978-1-4614-6396-2_7 Aggarwal的outlier analysis一书的chapter 7 Outlier Detection in Categorical, Text and Mixed Attribute Data + + +http://www.amazon.com/Survey-Text-Mining-Clustering-Classification/dp/1848000456 Survey of Text Mining: Clustering, Classification, and Retrieval, Second Edition , Michael W. Berry and Malu Castellanos, Editors 2007 (check part IV Part IV Anomaly Detection) https://perso.uclouvain.be/vincent.blondel/publications/08-textmining.pdf + +http://www.mdpi.com/1999-4893/5/4/469 Contextual Anomaly Detection in Text Data 2012 + + +## Text mining (focus on topic models) http://www.itee.uq.edu.au/dke/filething/get/855/text-mining-ChengXiangZhai.pdf Statistical Methods for Mining Big Text Data, ChengXiang Zhai 2014 http://cs.gmu.edu/~carlotta/publications/AlsumaitL_onlineLDA.pdf On-Line LDA: Adaptive Topic Models for Mining Text Streams with Applications to Topic Detection and Tracking, Loulwah AlSumait, Daniel Barbar´a, Carlotta Domeniconi From de032b1ef1a5a64c4d21f215a403b6562d61557e Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 15 Aug 2014 23:00:08 -0700 Subject: [PATCH 212/485] Update outlier-text-mining.md --- awesome/outlier-text-mining.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/outlier-text-mining.md b/awesome/outlier-text-mining.md index 16c6af6..5264142 100644 --- a/awesome/outlier-text-mining.md +++ b/awesome/outlier-text-mining.md @@ -26,7 +26,7 @@ http://www.siam.org/meetings/sdm10/tutorial3.pdf Outlier Detection Techniques - http://www.slideshare.net/HouwLiong/chapter-12-outlier -## outlier/anomaly detection in Text mining and +## Outlier/anomaly detection in Text mining http://nlp.shef.ac.uk/Completed_PhD_Projects/guthrie.pdf David Guthrie, Unsupervised Detection of Anomalous Text 来自UK Shef大学的博士论文 From 8bfcdc0a8351ec94988798b651de3b03e377a2f3 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Sat, 16 Aug 2014 00:28:49 -0700 Subject: [PATCH 213/485] Update outlier-text-mining.md --- awesome/outlier-text-mining.md | 6 +++++- 1 file changed, 5 insertions(+), 1 deletion(-) diff --git a/awesome/outlier-text-mining.md b/awesome/outlier-text-mining.md index 5264142..a51b783 100644 --- a/awesome/outlier-text-mining.md +++ b/awesome/outlier-text-mining.md @@ -47,9 +47,13 @@ http://cs.gmu.edu/~carlotta/publications/AlsumaitL_onlineLDA.pdf On-Line LDA: Ad ## 相关点评 -phunter_lau:也可以,并且对于非连通的情况可以随机加入连通,比如“你就是偷看那个妹子了”并继续分析有意想不到的结果//@妖僧老馮: 不。屬於 Linkage attack. //@phunter_lau:里面用到的技能也就是outlier detection然后根据outlier所在的几个表进行join,暴力搜索,这是常见手段,文科女生果然不太适合搞数据 + +@phunter_lau:里面用到的技能也就是outlier detection然后根据outlier所在的几个表进行join,暴力搜索,这是常见手段 http://weibo.com/1770891687/B5Gs7xdqQ +phunter_lau:注意,下面这段话不是常规办法也没多少理论依据,不能误导大家: + "phunter_lau:也可以,并且对于非连通的情况可以随机加入连通,比如“你就是偷看那个妹子了”并继续分析有意想不到的结果" + 许扬逸Dijkstra: 在antispam,multidimension outlier detection上也可以试试它 From 3da9f1ca6549d9156ea51f6b7850d1fd8a795e33 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Sun, 17 Aug 2014 11:33:16 -0700 Subject: [PATCH 214/485] Create stanford-cs224w.md --- awesome/stanford-cs224w.md | 41 ++++++++++++++++++++++++++++++++++++++ 1 file changed, 41 insertions(+) create mode 100644 awesome/stanford-cs224w.md diff --git a/awesome/stanford-cs224w.md b/awesome/stanford-cs224w.md new file mode 100644 index 0000000..0f7d915 --- /dev/null +++ b/awesome/stanford-cs224w.md @@ -0,0 +1,41 @@ +http://web.stanford.edu/class/cs224w/ + + +#class notes +http://web.stanford.edu/class/cs224w/slides/01-intro.pdf + +http://web.stanford.edu/class/cs224w/slides/02-gnp.pdf + +http://web.stanford.edu/class/cs224w/slides/03-smallworld.pdf + +http://web.stanford.edu/class/cs224w/slides/04-navigation.pdf + +http://web.stanford.edu/class/cs224w/slides/05-evals.pdf + +http://web.stanford.edu/class/cs224w/slides/06-signed.pdf + +http://web.stanford.edu/class/cs224w/slides/07-cascading.pdf + +http://web.stanford.edu/class/cs224w/slides/08-cascades.pdf + +http://web.stanford.edu/class/cs224w/slides/09-influence.pdf + +http://web.stanford.edu/class/cs224w/slides/10-outbreak.pdf + +http://web.stanford.edu/class/cs224w/slides/11-powerlaws.pdf + +http://web.stanford.edu/class/cs224w/slides/12-evolution.pdf + +http://web.stanford.edu/class/cs224w/slides/13-pagerank.pdf + +http://web.stanford.edu/class/cs224w/slides/14-kronecker.pdf + +http://web.stanford.edu/class/cs224w/slides/15-weakties.pdf + +http://web.stanford.edu/class/cs224w/slides/16-spectral.pdf + +http://web.stanford.edu/class/cs224w/slides/17-overlapping.pdf + +http://web.stanford.edu/class/cs224w/slides/19-memes.pdf + +http://web.stanford.edu/class/cs224w/slides/20-review.pdf From dc1acc77932e9b9dab4ae5fa99d007abd2a01724 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 00:58:33 -0700 Subject: [PATCH 215/485] Create influential-user-social-network.md --- awesome/influential-user-social-network.md | 56 ++++++++++++++++++++++ 1 file changed, 56 insertions(+) create mode 100644 awesome/influential-user-social-network.md diff --git a/awesome/influential-user-social-network.md b/awesome/influential-user-social-network.md new file mode 100644 index 0000000..3fd4e34 --- /dev/null +++ b/awesome/influential-user-social-network.md @@ -0,0 +1,56 @@ +# Influential User Identification Techniques in Online Social Networks + +keywords: + 意见领袖 ( opinion leader), + user influence, + influential spreaders , + influential user , + twitter , + +## industry +http://mashable.com/2014/02/25/socialrank-brands/ SocialRank Tool Helps Brands Find Most Valuable Followers (2014) + +http://www.smallbusinesssem.com/find-interesting-influential-twitter-users/3974/ Quick Way to Find Interesting & Influential Twitter Users (2011) + +## readings + +### influential user/spreader identification/ranking +http://link.springer.com/chapter/10.1007/978-3-319-01778-5_37 Survey of Influential User Identification Techniques in Online Social Networks (2014) Advances in Intelligent Systems and Computing + +http://dl.acm.org/citation.cfm?id=1835935 Yu Wang, Gao Cong, Guojie Song, and Kunqing Xie. 2010. Community-based greedy algorithm for mining top-K influential nodes in mobile social networks. In Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining (KDD '10) + +http://ink.library.smu.edu.sg/cgi/viewcontent.cgi?article=1503&context=sis_research Twitterrank: Finding Topic-Sensitive Influential Twitterers 2010 +@唐小sin 推荐 + +http://www.anderson.ucla.edu/faculty/anand.bodapati/Determining-Influential-Users.pdf Determining Influential Users in Internet Social Networks + +http://polymer.bu.edu/hes/articles/kghlmsm10.pdf Identification of influential spreaders in complex networks +@善良的右行 推荐 + +http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0021202 Lü L, Zhang Y-C, Yeung CH, Zhou T (2011) Leaders in Social Networks, the Delicious Case. PLoS ONE 6(6) +@善良的右行 推荐 + +http://arxiv.org/pdf/1112.2239.pdf Absence of influential spreaders in rumor dynamics +@善良的右行 推荐 + +### measure influence + +http://blog.datalicious.com/awesome-new-research-measuring-twitter-user-influence-from-meeyoung-cha-max-planck-institute/ Awesome new research: Measuring twitter user influence from Meeyoung Cha, Max Planck Institute (2010) read the original paper below + +http://www.aaai.org/ocs/index.php/ICWSM/ICWSM10/paper/viewFile/1538%20Amit%20Goyal%2C%20Francesco%20Bonchi%2C%20Laks%20V.%20S.%20Lakshmanan%3A%20Approximation%20Analysis%20of%20Influence%20Spread%20in%20Social%20Networks%20CoRR%20abs/1826 Measuring User Influence in Twitter: The Million Follower Fallacy + +http://dl.acm.org/citation.cfm?id=2480726 +Mario Cataldi, Nupur Mittal, and Marie-Aude Aufaure. 2013. Estimating domain-based user influence in social networks. In Proceedings of the 28th Annual ACM Symposium on Applied Computing (SAC '13). + +http://dl.acm.org/citation.cfm?id=1935845 +Eytan Bakshy, Jake M. Hofman, Winter A. Mason, and Duncan J. Watts. 2011. Everyone's an influencer: quantifying influence on twitter. In Proceedings of the fourth ACM international conference on Web search and data mining (WSDM '11) + + + +## related +http://en.wikipedia.org/wiki/Opinion_leadership + +http://dl.acm.org/citation.cfm?id=2503797 +Adrien Guille, Hakim Hacid, Cecile Favre, and Djamel A. Zighed. 2013. Information diffusion in online social networks: a survey. SIGMOD Rec. 42, 2 (July 2013), 17-28. + +http://dl.acm.org/citation.cfm?id=2601412 Charu Aggarwal and Karthik Subbian. 2014. Evolutionary Network Analysis: A Survey. ACM Comput. Surv. 47, 1, Article 10 (May 2014), 36 pages. From ca3d6e6f8f79a0a4e382edbd1122e7d1aec5e4a1 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 00:59:43 -0700 Subject: [PATCH 216/485] Update influential-user-social-network.md --- awesome/influential-user-social-network.md | 5 ++++- 1 file changed, 4 insertions(+), 1 deletion(-) diff --git a/awesome/influential-user-social-network.md b/awesome/influential-user-social-network.md index 3fd4e34..49aa0fe 100644 --- a/awesome/influential-user-social-network.md +++ b/awesome/influential-user-social-network.md @@ -1,4 +1,7 @@ -# Influential User Identification Techniques in Online Social Networks +# Influential User Identification in Online Social Networks + +contributors: @唐小sin @善良的右行 +discussion: [@山东工商学院白建磊 有没有新媒体意见领袖领域方面的文献可以推荐?](https://github.com/memect/hao/issues/89) keywords: 意见领袖 ( opinion leader), From 18354d4bcee3feb08a9144c2218a527de52fb97b Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 01:00:09 -0700 Subject: [PATCH 217/485] Update influential-user-social-network.md --- awesome/influential-user-social-network.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/influential-user-social-network.md b/awesome/influential-user-social-network.md index 49aa0fe..c3f69db 100644 --- a/awesome/influential-user-social-network.md +++ b/awesome/influential-user-social-network.md @@ -1,7 +1,7 @@ # Influential User Identification in Online Social Networks contributors: @唐小sin @善良的右行 -discussion: [@山东工商学院白建磊 有没有新媒体意见领袖领域方面的文献可以推荐?](https://github.com/memect/hao/issues/89) +discussion: https://github.com/memect/hao/issues/89 keywords: 意见领袖 ( opinion leader), From 812ba74fef55ac1ff9b836ace17f8744794cfead Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 01:22:57 -0700 Subject: [PATCH 218/485] Update influential-user-social-network.md --- awesome/influential-user-social-network.md | 24 ++++++++++++++++++++++ 1 file changed, 24 insertions(+) diff --git a/awesome/influential-user-social-network.md b/awesome/influential-user-social-network.md index c3f69db..0fc90cb 100644 --- a/awesome/influential-user-social-network.md +++ b/awesome/influential-user-social-network.md @@ -1,6 +1,7 @@ # Influential User Identification in Online Social Networks contributors: @唐小sin @善良的右行 + discussion: https://github.com/memect/hao/issues/89 keywords: @@ -10,6 +11,27 @@ keywords: influential user , twitter , +# 微薄讨论精华 + +善良的右行:@好东西传送门 这几篇论文略旧……当然引用率是不用说的……貌似问题本质是重要节点挖掘……菜鸟冒泡一下……不知说的对不对…… (今天 14:45) + +唐小sin:任何influence的文章都可以哪来读读,而至于意见领袖不妨看看twitterrank (今天 15:13) + +好东西传送门:回复@唐小sin: 这篇文章很不错哦, 还对比了TunkRank, Topic-sensitive PageRank (TSPR) (44分钟前) + +善良的右行:@好东西传送门 惭愧,我也是菜鸟,当然很乐意共享:Identification of influentialspreaders in complex networks;Leaders in Social Networks, the Delicious Case; Absence of influential spreaders in rumor dynamics,都是牛人牛文…… + + +IT莲接://@好东西传送门: 回复@善良的右行: 这几个推荐文章都很好呀,第一篇引用率都快400了. 要不是了解领域,谁能想到这个关键词呢, influential spreaders . 意共享:Identification of influentialspreaders in complex networks;Leaders in Social Networks, the De + + +好东西传送门:发现重要节点一直是社交网络研究的重要问题, 研究热点大约在2007~2010社交媒体蓬勃发展的时候, 2014年已经有influential user identification的综述了.鉴于这类研究的算法并不困难,但数据量较大且较难获得,研究前沿已经逐渐从学术界转移到工业界/创业应用。http://t.cn/RPQfWRW (52分钟前) + +唐小sin:的确是这样,现在social influence这块需要一个很好的问题去解,感觉就是做得太多很难入手。 + + +# readings + ## industry http://mashable.com/2014/02/25/socialrank-brands/ SocialRank Tool Helps Brands Find Most Valuable Followers (2014) @@ -57,3 +79,5 @@ http://dl.acm.org/citation.cfm?id=2503797 Adrien Guille, Hakim Hacid, Cecile Favre, and Djamel A. Zighed. 2013. Information diffusion in online social networks: a survey. SIGMOD Rec. 42, 2 (July 2013), 17-28. http://dl.acm.org/citation.cfm?id=2601412 Charu Aggarwal and Karthik Subbian. 2014. Evolutionary Network Analysis: A Survey. ACM Comput. Surv. 47, 1, Article 10 (May 2014), 36 pages. + + From a1b02338b4a314cda323fe739382f30e0f54ea6a Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 01:23:12 -0700 Subject: [PATCH 219/485] Update influential-user-social-network.md --- awesome/influential-user-social-network.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/influential-user-social-network.md b/awesome/influential-user-social-network.md index 0fc90cb..16c5d2c 100644 --- a/awesome/influential-user-social-network.md +++ b/awesome/influential-user-social-network.md @@ -11,7 +11,7 @@ keywords: influential user , twitter , -# 微薄讨论精华 +# 微博讨论精华 善良的右行:@好东西传送门 这几篇论文略旧……当然引用率是不用说的……貌似问题本质是重要节点挖掘……菜鸟冒泡一下……不知说的对不对…… (今天 14:45) From 8e7e39b937d5ccd2cd88fcde8b7cfee7c5123f50 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 01:23:53 -0700 Subject: [PATCH 220/485] Update influential-user-social-network.md --- awesome/influential-user-social-network.md | 12 ++++++++---- 1 file changed, 8 insertions(+), 4 deletions(-) diff --git a/awesome/influential-user-social-network.md b/awesome/influential-user-social-network.md index 16c5d2c..f045871 100644 --- a/awesome/influential-user-social-network.md +++ b/awesome/influential-user-social-network.md @@ -15,19 +15,23 @@ keywords: 善良的右行:@好东西传送门 这几篇论文略旧……当然引用率是不用说的……貌似问题本质是重要节点挖掘……菜鸟冒泡一下……不知说的对不对…… (今天 14:45) +好东西传送门:发现重要节点一直是社交网络研究的重要问题, 研究热点大约在2007~2010社交媒体蓬勃发展的时候, 2014年已经有influential user identification的综述了.鉴于这类研究的算法并不困难,但数据量较大且较难获得,研究前沿已经逐渐从学术界转移到工业界/创业应用。http://t.cn/RPQfWRW (52分钟前) + +唐小sin:的确是这样,现在social influence这块需要一个很好的问题去解,感觉就是做得太多很难入手。 + + + 唐小sin:任何influence的文章都可以哪来读读,而至于意见领袖不妨看看twitterrank (今天 15:13) 好东西传送门:回复@唐小sin: 这篇文章很不错哦, 还对比了TunkRank, Topic-sensitive PageRank (TSPR) (44分钟前) + 善良的右行:@好东西传送门 惭愧,我也是菜鸟,当然很乐意共享:Identification of influentialspreaders in complex networks;Leaders in Social Networks, the Delicious Case; Absence of influential spreaders in rumor dynamics,都是牛人牛文…… -IT莲接://@好东西传送门: 回复@善良的右行: 这几个推荐文章都很好呀,第一篇引用率都快400了. 要不是了解领域,谁能想到这个关键词呢, influential spreaders . 意共享:Identification of influentialspreaders in complex networks;Leaders in Social Networks, the De +@好东西传送门: 回复@善良的右行: 这几个推荐文章都很好呀,第一篇引用率都快400了. 要不是了解领域,谁能想到这个关键词呢, influential spreaders . 意共享:Identification of influentialspreaders in complex networks;Leaders in Social Networks, the De -好东西传送门:发现重要节点一直是社交网络研究的重要问题, 研究热点大约在2007~2010社交媒体蓬勃发展的时候, 2014年已经有influential user identification的综述了.鉴于这类研究的算法并不困难,但数据量较大且较难获得,研究前沿已经逐渐从学术界转移到工业界/创业应用。http://t.cn/RPQfWRW (52分钟前) - -唐小sin:的确是这样,现在social influence这块需要一个很好的问题去解,感觉就是做得太多很难入手。 # readings From 58c89e2a150706a4872fe91bada8547e90b01744 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 02:11:10 -0700 Subject: [PATCH 221/485] Update influential-user-social-network.md --- awesome/influential-user-social-network.md | 3 +++ 1 file changed, 3 insertions(+) diff --git a/awesome/influential-user-social-network.md b/awesome/influential-user-social-network.md index f045871..7ed1c2b 100644 --- a/awesome/influential-user-social-network.md +++ b/awesome/influential-user-social-network.md @@ -71,6 +71,9 @@ http://www.aaai.org/ocs/index.php/ICWSM/ICWSM10/paper/viewFile/1538%20Amit%20Goy http://dl.acm.org/citation.cfm?id=2480726 Mario Cataldi, Nupur Mittal, and Marie-Aude Aufaure. 2013. Estimating domain-based user influence in social networks. In Proceedings of the 28th Annual ACM Symposium on Applied Computing (SAC '13). +http://www.cse.ust.hk/~qnature/pdf/globecom13.pdf Analyzing the Influential People in Sina Weibo +Dataset (2013) + http://dl.acm.org/citation.cfm?id=1935845 Eytan Bakshy, Jake M. Hofman, Winter A. Mason, and Duncan J. Watts. 2011. Everyone's an influencer: quantifying influence on twitter. In Proceedings of the fourth ACM international conference on Web search and data mining (WSDM '11) From b8e003ecaf7dbe9f14a26add1b7262eb89825875 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 17:32:03 -0700 Subject: [PATCH 222/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index 9ed4a75..da77ecf 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -10,7 +10,7 @@ card list: http://blog.csdn.net/adooadoo/article/details/38505497 glove入门实战 @杜振东_java : -深夜总算完成了《glove入门实战》的码字工作,发出两张利用glove聚类的效果图,具体工作参考http://t.cn/RP0xXNx,代码在此http://t.cn/RP0xOx0,感谢@刘知远THU 老师提供关于glove的信息,并感谢@张成_ICT 的帮助,顺便@夏睿 老师和@章成志 老师,求下转发[哈哈] +深夜总算完成了《glove入门实战》的码字工作,发出两张利用glove聚类的效果图,具体工作参考http://t.cn/RP0xXNx,代码在此http://t.cn/RP0xOx0 ,感谢@刘知远THU 老师提供关于glove的信息,并感谢@张成_ICT 的帮助,顺便@夏睿 老师和@章成志 老师,求下转发[哈哈] http://www.weibo.com/1247953577/BhRfpyyJw From 3b8d0ac78e75fd55a0f98a07279d2a4ec5e18521 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 17:32:25 -0700 Subject: [PATCH 223/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index da77ecf..cea88c6 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -10,7 +10,7 @@ card list: http://blog.csdn.net/adooadoo/article/details/38505497 glove入门实战 @杜振东_java : -深夜总算完成了《glove入门实战》的码字工作,发出两张利用glove聚类的效果图,具体工作参考http://t.cn/RP0xXNx,代码在此http://t.cn/RP0xOx0 ,感谢@刘知远THU 老师提供关于glove的信息,并感谢@张成_ICT 的帮助,顺便@夏睿 老师和@章成志 老师,求下转发[哈哈] +深夜总算完成了《glove入门实战》的码字工作,发出两张利用glove聚类的效果图,具体工作参考http://t.cn/RP0xXNx,代码在此http://t.cn/RP0xOx0 ,感谢@刘知远THU 老师提供关于glove的信息,并感谢@张成_ICT 的帮助,顺便@夏睿 老师和@章成志 老师,求下转发[哈哈] http://www.weibo.com/1247953577/BhRfpyyJw From 70bbe47d623e0dec117e1116e6acfe7eb7c1bffa Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 17:32:52 -0700 Subject: [PATCH 224/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index cea88c6..7398447 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -10,7 +10,7 @@ card list: http://blog.csdn.net/adooadoo/article/details/38505497 glove入门实战 @杜振东_java : -深夜总算完成了《glove入门实战》的码字工作,发出两张利用glove聚类的效果图,具体工作参考http://t.cn/RP0xXNx,代码在此http://t.cn/RP0xOx0 ,感谢@刘知远THU 老师提供关于glove的信息,并感谢@张成_ICT 的帮助,顺便@夏睿 老师和@章成志 老师,求下转发[哈哈] +深夜总算完成了《glove入门实战》的码字工作,发出两张利用glove聚类的效果图,具体工作参考http://t.cn/RP0xXNx,代码在此 http://t.cn/RP0xOx0 感谢@刘知远THU 老师提供关于glove的信息,并感谢@张成_ICT 的帮助,顺便@夏睿 老师和@章成志 老师,求下转发[哈哈] http://www.weibo.com/1247953577/BhRfpyyJw From e28b1dccfe51478dc0576965072fc6e4ad793ba8 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 17:33:03 -0700 Subject: [PATCH 225/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index 7398447..a4cbbb8 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -10,7 +10,7 @@ card list: http://blog.csdn.net/adooadoo/article/details/38505497 glove入门实战 @杜振东_java : -深夜总算完成了《glove入门实战》的码字工作,发出两张利用glove聚类的效果图,具体工作参考http://t.cn/RP0xXNx,代码在此 http://t.cn/RP0xOx0 感谢@刘知远THU 老师提供关于glove的信息,并感谢@张成_ICT 的帮助,顺便@夏睿 老师和@章成志 老师,求下转发[哈哈] +深夜总算完成了《glove入门实战》的码字工作,发出两张利用glove聚类的效果图,具体工作参考 http://t.cn/RP0xXNx ,代码在此 http://t.cn/RP0xOx0 感谢@刘知远THU 老师提供关于glove的信息,并感谢@张成_ICT 的帮助,顺便@夏睿 老师和@章成志 老师,求下转发[哈哈] http://www.weibo.com/1247953577/BhRfpyyJw From b71d78845fea4dedd08d7ce875f90603a2eaba92 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 17:33:57 -0700 Subject: [PATCH 226/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 3 +++ 1 file changed, 3 insertions(+) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index a4cbbb8..5fdf05d 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -20,6 +20,9 @@ http://stanford.edu/~jpennin/papers/glove.pdf Richard Socher, EMNLP2014, GloVe: 斯坦福Richard Socher在EMNLP2014发表新作:GloVe: Global Vectors for Word Representation 粗看是融合LSA等算法的想法,利用global word co-occurrence信息提升word vector学习效果,很有意思,在word analogy task上准确率比word2vec提升了11%。 http://t.cn/RPohHyc http://www.weibo.com/1464484735/BhbLD70wa +@董力at北航 : +Yoav Goldberg写了个测评文档,大致结论就是GloVe和word2vec如果正常比的话 效果差不多,没有宣称的11%这么大。。 链接:http://t.cn/RP0gMXB +http://www.weibo.com/1895401411/BhVDWofI5 ### ESA (Explicit Semantic Analysis) From b6349089a96e1717b92b0e1056b503ea95021aad Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 17:38:07 -0700 Subject: [PATCH 227/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index 5fdf05d..a76c35e 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -28,11 +28,11 @@ http://www.weibo.com/1895401411/BhVDWofI5 @刘知远THU : 可以考虑用传统的distributional representation/similarity的方法,即选取这些关键词出现的上下文的词来表示它,构建分类器。或者explicit semantic analysis(ESA),即用关键词在wikipedia文章中出现的情况来表示它。这些应该都比LDA的topic distribution更具区分能力。 - +http://www.weibo.com/1464484735/BfMxEh40q @昊奋 : 对于ESA,如果单纯使用wikipedia,由于中文维基百科的语料相比英语小很多,所以其实不满足ESA本身需要有高覆盖率的好处,需要自行采用百度百科或互动百科进行处理。我们会考虑利用zhishi.me来为大家提供ESA的服务。 -http://www.weibo.com/2045933955/BhWfr2LYv?ref=atme +http://www.weibo.com/2045933955/BhWfr2LYv ### python gensim From fd3b629b30e74732048dd930e90887b935481b7e Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 17:39:34 -0700 Subject: [PATCH 228/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index a76c35e..16c3499 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -42,7 +42,7 @@ https://github.com/piskvorky/gensim/ 基于分布的:Python gensim一般就够用了,包括了传统的bag-of-words (1-hot) vector representation基础上的模型,以及几种常见相似度表征,还有最新的word2vec都有。 基于资源的:中文没有免费的类似wordnet的资源,hownet是要收费的。然而也许会有帮助的一个免费资源是哈工大的扩展板"同义词词林" -### research efforts +### more readings http://cs.tju.edu.cn/szdw/jsfjs/fengwei/papers/ICASSP2013_Nie/icassp2013.pdf MEASURING SEMANTIC SIMILARITY BY CONTEXTUAL WORD CONNECTIONS IN CHINESE NEWS STORY SEGMENTATION http://www.cs.york.ac.uk/semeval-2012/task4/ Peng Jin, Yunfang Wu, Evaluating Chinese Word Similarity From 619bd31aef225b543f98284146055d8272dc4442 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 17:47:59 -0700 Subject: [PATCH 229/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 9 +++++++++ 1 file changed, 9 insertions(+) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index 16c3499..ce7d471 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -42,8 +42,17 @@ https://github.com/piskvorky/gensim/ 基于分布的:Python gensim一般就够用了,包括了传统的bag-of-words (1-hot) vector representation基础上的模型,以及几种常见相似度表征,还有最新的word2vec都有。 基于资源的:中文没有免费的类似wordnet的资源,hownet是要收费的。然而也许会有帮助的一个免费资源是哈工大的扩展板"同义词词林" +@西瓜大丸子汤 : +刚才说到python优化,举个具体的例子 Gensim的作者把word2vec(深度学习)做了几个经典优化:循环,numpy/BLAS,cython,多线程(真的可以)结果效率提高了上千倍,比Google开源出来的原始C版本还快3倍。他最近还写了个word2vec教程。无论是学习word2vec还是python优化,都不可不看 http://t.cn/Rvkt0Hk +http://www.weibo.com/1932835417/BcSwEc2iu + +@尘绳聋-SYSU:Sklearn没有LDA/LSA让我很郁闷,不过还好有好用的gensim: http://t.cn/8k2M2tU PS. Python搞NLP好方便! +http://www.weibo.com/1254062861/B8WGG8Yii + + ### more readings http://cs.tju.edu.cn/szdw/jsfjs/fengwei/papers/ICASSP2013_Nie/icassp2013.pdf MEASURING SEMANTIC SIMILARITY BY CONTEXTUAL WORD CONNECTIONS IN CHINESE NEWS STORY SEGMENTATION + http://www.cs.york.ac.uk/semeval-2012/task4/ Peng Jin, Yunfang Wu, Evaluating Chinese Word Similarity From a08beff6e16c944d9d408578299d47ebbdd083f8 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 17:51:56 -0700 Subject: [PATCH 230/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 18 ++++++++++++++---- 1 file changed, 14 insertions(+), 4 deletions(-) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index ce7d471..e8d5dc3 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -5,17 +5,27 @@ card list: * python gensim: http://nlp.memect.com/?tag=gensim ## readings -### glove (word2vector) +### word2vector +https://github.com/danielfrg/word2vec + +http://radimrehurek.com/2014/02/word2vec-tutorial/ + +http://radimrehurek.com/2013/10/parallelizing-word2vec-in-python/ + +http://radimrehurek.com/2013/09/word2vec-in-python-part-two-optimizing/ + +http://radimrehurek.com/2013/09/deep-learning-with-word2vec-and-gensim/ + +### glove http://blog.csdn.net/adooadoo/article/details/38505497 glove入门实战 +http://stanford.edu/~jpennin/papers/glove.pdf Richard Socher, EMNLP2014, GloVe: Global Vectors for Word Representation + @杜振东_java : 深夜总算完成了《glove入门实战》的码字工作,发出两张利用glove聚类的效果图,具体工作参考 http://t.cn/RP0xXNx ,代码在此 http://t.cn/RP0xOx0 感谢@刘知远THU 老师提供关于glove的信息,并感谢@张成_ICT 的帮助,顺便@夏睿 老师和@章成志 老师,求下转发[哈哈] http://www.weibo.com/1247953577/BhRfpyyJw - -http://stanford.edu/~jpennin/papers/glove.pdf Richard Socher, EMNLP2014, GloVe: Global Vectors for Word Representation - @刘知远THU : 斯坦福Richard Socher在EMNLP2014发表新作:GloVe: Global Vectors for Word Representation 粗看是融合LSA等算法的想法,利用global word co-occurrence信息提升word vector学习效果,很有意思,在word analogy task上准确率比word2vec提升了11%。 http://t.cn/RPohHyc http://www.weibo.com/1464484735/BhbLD70wa From 0a919a6f6553ec9e71c8588e0a228821890d989b Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 18:07:37 -0700 Subject: [PATCH 231/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 28 ++++++++++++++++++++++------ 1 file changed, 22 insertions(+), 6 deletions(-) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index e8d5dc3..0cce2b4 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -1,4 +1,4 @@ -contributors: 杜振东_java , 刘知远THU , 昊奋, 算文解字 +contributors: 杜振东_java , 刘知远THU , 昊奋, 算文解字, Mr_UnderWaterrrrrr, 朱鉴 card list: * Word2vector: http://bigdata.memect.com/?tag=word2vec * ESA: http://nlp.memect.com/?tag=esa @@ -8,20 +8,31 @@ card list: ### word2vector https://github.com/danielfrg/word2vec -http://radimrehurek.com/2014/02/word2vec-tutorial/ +http://radimrehurek.com/2013/09/deep-learning-with-word2vec-and-gensim/ + +http://radimrehurek.com/2013/09/word2vec-in-python-part-two-optimizing/ http://radimrehurek.com/2013/10/parallelizing-word2vec-in-python/ -http://radimrehurek.com/2013/09/word2vec-in-python-part-two-optimizing/ +http://radimrehurek.com/2014/02/word2vec-tutorial/ -http://radimrehurek.com/2013/09/deep-learning-with-word2vec-and-gensim/ +@Mr_UnderWaterrrrrr : +http://t.cn/8Fc67pF 如何用word2vector 去训练中文语料。获得词的距离 +http://www.weibo.com/1969853791/Atq0vz18S -### glove +@朱鉴 : +LDA or Word2Vec: http://t.cn/8DkHrFg +http://www.weibo.com/1656097544/AiJDZbfQ5 -http://blog.csdn.net/adooadoo/article/details/38505497 glove入门实战 +@朱鉴 : +这两天看了一下google的word2vec,目前看还是google的版本较容易理解,强调算法。这个算法的思想有点类似于latent factor model,假设设任何词可以用latent factor来表示,然后使用sgd算法去训练生成这个latent factor,假设非常棒! +http://www.weibo.com/1656097544/AhM49jMYL +### glove http://stanford.edu/~jpennin/papers/glove.pdf Richard Socher, EMNLP2014, GloVe: Global Vectors for Word Representation +http://blog.csdn.net/adooadoo/article/details/38505497 glove入门实战 + @杜振东_java : 深夜总算完成了《glove入门实战》的码字工作,发出两张利用glove聚类的效果图,具体工作参考 http://t.cn/RP0xXNx ,代码在此 http://t.cn/RP0xOx0 感谢@刘知远THU 老师提供关于glove的信息,并感谢@张成_ICT 的帮助,顺便@夏睿 老师和@章成志 老师,求下转发[哈哈] http://www.weibo.com/1247953577/BhRfpyyJw @@ -36,6 +47,11 @@ http://www.weibo.com/1895401411/BhVDWofI5 ### ESA (Explicit Semantic Analysis) +http://en.wikipedia.org/wiki/Explicit_semantic_analysis + +http://www.cs.technion.ac.il/~gabr/papers/ijcai-2007-sim.pdf Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis, (2007) IJCAI + + @刘知远THU : 可以考虑用传统的distributional representation/similarity的方法,即选取这些关键词出现的上下文的词来表示它,构建分类器。或者explicit semantic analysis(ESA),即用关键词在wikipedia文章中出现的情况来表示它。这些应该都比LDA的topic distribution更具区分能力。 http://www.weibo.com/1464484735/BfMxEh40q From 739de1ae443083ad451e1c12b3b21d06e8ff6b5b Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 18:11:45 -0700 Subject: [PATCH 232/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 4 ---- 1 file changed, 4 deletions(-) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index 0cce2b4..82a4829 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -10,10 +10,6 @@ https://github.com/danielfrg/word2vec http://radimrehurek.com/2013/09/deep-learning-with-word2vec-and-gensim/ -http://radimrehurek.com/2013/09/word2vec-in-python-part-two-optimizing/ - -http://radimrehurek.com/2013/10/parallelizing-word2vec-in-python/ - http://radimrehurek.com/2014/02/word2vec-tutorial/ @Mr_UnderWaterrrrrr : From 91d46142ca86cac7d673766861df3fa45110d320 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 18:12:18 -0700 Subject: [PATCH 233/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index 82a4829..7db24e1 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -30,7 +30,7 @@ http://stanford.edu/~jpennin/papers/glove.pdf Richard Socher, EMNLP2014, GloVe: http://blog.csdn.net/adooadoo/article/details/38505497 glove入门实战 @杜振东_java : -深夜总算完成了《glove入门实战》的码字工作,发出两张利用glove聚类的效果图,具体工作参考 http://t.cn/RP0xXNx ,代码在此 http://t.cn/RP0xOx0 感谢@刘知远THU 老师提供关于glove的信息,并感谢@张成_ICT 的帮助,顺便@夏睿 老师和@章成志 老师,求下转发[哈哈] +深夜总算完成了《glove入门实战》的码字工作,发出两张利用glove聚类的效果图,具体工作参考 http://t.cn/RP0xXNx ,代码在此 http://t.cn/RP0xOx0 感谢@刘知远THU 老师提供关于glove的信息,并感谢@张成_ICT 的帮助,顺便@夏睿 老师和@章成志 老师 http://www.weibo.com/1247953577/BhRfpyyJw @刘知远THU : From bd5a10cb9ef89c972d87e6aed472945b5e3a33fb Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 18:56:38 -0700 Subject: [PATCH 234/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 1 + 1 file changed, 1 insertion(+) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index 7db24e1..0e1372a 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -1,4 +1,5 @@ contributors: 杜振东_java , 刘知远THU , 昊奋, 算文解字, Mr_UnderWaterrrrrr, 朱鉴 + card list: * Word2vector: http://bigdata.memect.com/?tag=word2vec * ESA: http://nlp.memect.com/?tag=esa From 8cd908848fc0541752a5f9e90d1ad0e3db301280 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 18:58:07 -0700 Subject: [PATCH 235/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 6 ++++++ 1 file changed, 6 insertions(+) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index 0e1372a..567b8b1 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -1,3 +1,4 @@ +# Chinese Word Similarity contributors: 杜振东_java , 刘知远THU , 昊奋, 算文解字, Mr_UnderWaterrrrrr, 朱鉴 card list: @@ -5,6 +6,11 @@ card list: * ESA: http://nlp.memect.com/?tag=esa * python gensim: http://nlp.memect.com/?tag=gensim +discussion: https://github.com/memect/hao/issues/67 + +https://github.com/memect/hao/edit/master/awesome/chinese-word-similarity.md + + ## readings ### word2vector https://github.com/danielfrg/word2vec From 57f1105735f1fbdf386caa1b65327ad231f0e15d Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 19:02:53 -0700 Subject: [PATCH 236/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 1 + 1 file changed, 1 insertion(+) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index 567b8b1..14bd7ec 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -2,6 +2,7 @@ contributors: 杜振东_java , 刘知远THU , 昊奋, 算文解字, Mr_UnderWaterrrrrr, 朱鉴 card list: + * this post: http://hao.memect.com/?tag=ChineseWordSimilarity * Word2vector: http://bigdata.memect.com/?tag=word2vec * ESA: http://nlp.memect.com/?tag=esa * python gensim: http://nlp.memect.com/?tag=gensim From f21c9c8af1db8fd97f26956f5d4e4fca0a085ab1 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 19:04:29 -0700 Subject: [PATCH 237/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 5 +++-- 1 file changed, 3 insertions(+), 2 deletions(-) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index 14bd7ec..9a90a28 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -1,12 +1,13 @@ # Chinese Word Similarity contributors: 杜振东_java , 刘知远THU , 昊奋, 算文解字, Mr_UnderWaterrrrrr, 朱鉴 -card list: - * this post: http://hao.memect.com/?tag=ChineseWordSimilarity +card list: http://hao.memect.com/?tag=ChineseWordSimilarity +more to read: * Word2vector: http://bigdata.memect.com/?tag=word2vec * ESA: http://nlp.memect.com/?tag=esa * python gensim: http://nlp.memect.com/?tag=gensim + discussion: https://github.com/memect/hao/issues/67 https://github.com/memect/hao/edit/master/awesome/chinese-word-similarity.md From 17b02da42dafa8aebfbb1dc55213127fbd05c6ab Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 19:04:36 -0700 Subject: [PATCH 238/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 3 +-- 1 file changed, 1 insertion(+), 2 deletions(-) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index 9a90a28..5b295f9 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -10,8 +10,7 @@ more to read: discussion: https://github.com/memect/hao/issues/67 -https://github.com/memect/hao/edit/master/awesome/chinese-word-similarity.md - +https://github.com/memect/hao/blob/master/awesome/chinese-word-similarity.md ## readings ### word2vector From 8041ace465e7d01c311d5539e3f7f8ea20a56746 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 19:08:27 -0700 Subject: [PATCH 239/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index 5b295f9..5c098d9 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -37,6 +37,8 @@ http://stanford.edu/~jpennin/papers/glove.pdf Richard Socher, EMNLP2014, GloVe: http://blog.csdn.net/adooadoo/article/details/38505497 glove入门实战 +http://nlp.stanford.edu/projects/glove/ + @杜振东_java : 深夜总算完成了《glove入门实战》的码字工作,发出两张利用glove聚类的效果图,具体工作参考 http://t.cn/RP0xXNx ,代码在此 http://t.cn/RP0xOx0 感谢@刘知远THU 老师提供关于glove的信息,并感谢@张成_ICT 的帮助,顺便@夏睿 老师和@章成志 老师 http://www.weibo.com/1247953577/BhRfpyyJw From 4a7c1a9a6753ca6fd17629b4cb89580394b3ed05 Mon Sep 17 00:00:00 2001 From: Li Ding Date: Mon, 18 Aug 2014 19:29:55 -0700 Subject: [PATCH 240/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index 5c098d9..a48719b 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -1,4 +1,4 @@ -# Chinese Word Similarity +# 中文词汇的语义相似度计算方法与工具 (Chinese Word Similarity) contributors: 杜振东_java , 刘知远THU , 昊奋, 算文解字, Mr_UnderWaterrrrrr, 朱鉴 card list: http://hao.memect.com/?tag=ChineseWordSimilarity From b3c1992090a37518bee918d6f36afb1d77625f71 Mon Sep 17 00:00:00 2001 From: Li Ding Date: Mon, 18 Aug 2014 19:32:44 -0700 Subject: [PATCH 241/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index a48719b..51f0d66 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -4,7 +4,7 @@ contributors: 杜振东_java , 刘知远THU , 昊奋, 算文解字, Mr_UnderWat card list: http://hao.memect.com/?tag=ChineseWordSimilarity more to read: * Word2vector: http://bigdata.memect.com/?tag=word2vec - * ESA: http://nlp.memect.com/?tag=esa + * Explicit Semantic Analysis (ESA): http://nlp.memect.com/?tag=esa * python gensim: http://nlp.memect.com/?tag=gensim From a1fa788165923c8814c4df398dbb5af2bb4c59b1 Mon Sep 17 00:00:00 2001 From: Li Ding Date: Mon, 18 Aug 2014 19:33:19 -0700 Subject: [PATCH 242/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 1 + 1 file changed, 1 insertion(+) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index 51f0d66..38ef0e6 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -4,6 +4,7 @@ contributors: 杜振东_java , 刘知远THU , 昊奋, 算文解字, Mr_UnderWat card list: http://hao.memect.com/?tag=ChineseWordSimilarity more to read: * Word2vector: http://bigdata.memect.com/?tag=word2vec + * GloVe: http://hao.memect.com/?s=glove * Explicit Semantic Analysis (ESA): http://nlp.memect.com/?tag=esa * python gensim: http://nlp.memect.com/?tag=gensim From 1f64281c1123061db82b4abff1869ca10bee927a Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 19:38:38 -0700 Subject: [PATCH 243/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 11 ++++++++++- 1 file changed, 10 insertions(+), 1 deletion(-) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index 38ef0e6..283ba1b 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -1,5 +1,14 @@ # 中文词汇的语义相似度计算方法与工具 (Chinese Word Similarity) -contributors: 杜振东_java , 刘知远THU , 昊奋, 算文解字, Mr_UnderWaterrrrrr, 朱鉴 +contributors: + 杜振东_java , + 刘知远THU , + 昊奋, + 算文解字, + Mr_UnderWaterrrrrr, + 朱鉴, + 董力at北航, + 尘绳聋-SYSU, + 西瓜大丸子汤, card list: http://hao.memect.com/?tag=ChineseWordSimilarity more to read: From 7d2495bfa8e69cfa4b6884d7844b72d48569f21c Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 22:05:24 -0700 Subject: [PATCH 244/485] Update imbalanced-data-classification.md --- awesome/imbalanced-data-classification.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/imbalanced-data-classification.md b/awesome/imbalanced-data-classification.md index d22b69f..ada2348 100644 --- a/awesome/imbalanced-data-classification.md +++ b/awesome/imbalanced-data-classification.md @@ -1,6 +1,6 @@ # 不平衡数据分类(Imbalanced data classification) -Editor(s): AixinSG, 刘知远THU , xierqi , eacl_newsmth , 好东西传送门 +contributors: AixinSG, 刘知远THU , xierqi , eacl_newsmth https://github.com/memect/hao/blob/master/awesome/imbalanced-data-classification.md From f847ce1e7955aad29543a8f8b826cd1614fb81cd Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 22:11:37 -0700 Subject: [PATCH 245/485] Update imbalanced-data-classification.md --- awesome/imbalanced-data-classification.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/imbalanced-data-classification.md b/awesome/imbalanced-data-classification.md index ada2348..8c6015e 100644 --- a/awesome/imbalanced-data-classification.md +++ b/awesome/imbalanced-data-classification.md @@ -20,7 +20,7 @@ http://www.aclweb.org/anthology/P/P13/P13-2141.pdf (@eacl_newsmth 推荐) Towar http://cseweb.ucsd.edu/~elkan/posonly.pdf Learning Classifiers from Only Positive and Unlabeled Data -http://www.ele.uri.edu/faculty/he/PDFfiles/ImbalancedLearning.pdf He and Haibo He, Edwardo A. Garcia . (2009). Learning from Imbalanced Data. IEEE Transactions on Knowledge and Data Engineering, 21(9), 1263-1284. +http://www.ele.uri.edu/faculty/he/PDFfiles/ImbalancedLearning.pdf Haibo He, Edwardo A. Garcia . (2009). Learning from Imbalanced Data. IEEE Transactions on Knowledge and Data Engineering, 21(9), 1263-1284. http://www.computer.org/csdl/proceedings/icnc/2008/3304/04/3304d192-abs.html Guo, X., Yin, Y., Dong, C., Yang, G., & Zhou, G. (2008). On the Class Imbalance Problem. 2008 Fourth International Conference on Natural Computation (pp. 192-201). From bf52d33ab9cc413d3169f78967d9d385132dfa73 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 22:22:37 -0700 Subject: [PATCH 246/485] Update imbalanced-data-classification.md --- awesome/imbalanced-data-classification.md | 22 +++++++++++++++++++--- 1 file changed, 19 insertions(+), 3 deletions(-) diff --git a/awesome/imbalanced-data-classification.md b/awesome/imbalanced-data-classification.md index 8c6015e..57a97f2 100644 --- a/awesome/imbalanced-data-classification.md +++ b/awesome/imbalanced-data-classification.md @@ -11,20 +11,34 @@ keywords: ## readings + +### survey http://www.cs.cmu.edu/~qyj/IR-Lab/ImbalancedSummary.html Yanjun Qi, A Brief Literature Review of Class Imbalanced Problem +### classic http://homes.cs.washington.edu/~pedrod/papers/kdd99.pdf (@xierqi 推荐) Domingo, MetaCost: A General Method for Making Classifiers Cost, KDD 1999 -http://www.aclweb.org/anthology/P/P13/P13-2141.pdf (@eacl_newsmth 推荐) Towards Accurate Distant Supervision for Relational Facts Extraction, acl 2013 +https://www.jair.org/media/953/live-953-2037-jair.pdf SMOTE: Synthetic Minority Over-sampling Technique (2002) JAIR + -http://cseweb.ucsd.edu/~elkan/posonly.pdf Learning Classifiers from Only Positive and Unlabeled Data +http://cseweb.ucsd.edu/~elkan/posonly.pdf Learning Classifiers from Only Positive and Unlabeled Data (2008) http://www.ele.uri.edu/faculty/he/PDFfiles/ImbalancedLearning.pdf Haibo He, Edwardo A. Garcia . (2009). Learning from Imbalanced Data. IEEE Transactions on Knowledge and Data Engineering, 21(9), 1263-1284. http://www.computer.org/csdl/proceedings/icnc/2008/3304/04/3304d192-abs.html Guo, X., Yin, Y., Dong, C., Yang, G., & Zhou, G. (2008). On the Class Imbalance Problem. 2008 Fourth International Conference on Natural Computation (pp. 192-201). -https://www.jair.org/media/953/live-953-2037-jair.pdf SMOTE: Synthetic Minority Over-sampling Technique (2002) JAIR + + +### current +http://www.aclweb.org/anthology/P/P13/P13-2141.pdf (@eacl_newsmth 推荐) Towards Accurate Distant Supervision for Relational Facts Extraction, acl 2013 + +http://link.springer.com/article/10.1007/s10618-012-0295-5 Training and assessing classification rules with imbalanced data (2014) Data Mining and Knowledge Discovery + +http://www.aaai.org/ocs/index.php/AAAI/AAAI13/paper/viewFile/6353/6827 An Effective Approach for Imbalanced Classification: Unevenly Balanced Bagging (2013) AAAI + + + ### further readings http://stackoverflow.com/questions/12877153/tools-for-multiclass-imbalanced-classification-in-statistical-packages @@ -38,6 +52,8 @@ http://weka.wikispaces.com/MetaCost Weka http://tokestermw.github.io/posts/imbalanced-datasets-random-forests/ smote +https://github.com/fmfn/UnbalancedDataset based on SMOTE + ## datasets http://pages.cs.wisc.edu/~dpage/kddcup2001/ Prediction of Molecular Bioactivity for Drug Design -- Binding to Thrombin From 5277bcb616eaa35ba414a7641b720d2481524a97 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 22:33:41 -0700 Subject: [PATCH 247/485] Update imbalanced-data-classification.md --- awesome/imbalanced-data-classification.md | 4 ++++ 1 file changed, 4 insertions(+) diff --git a/awesome/imbalanced-data-classification.md b/awesome/imbalanced-data-classification.md index 57a97f2..9aee2e6 100644 --- a/awesome/imbalanced-data-classification.md +++ b/awesome/imbalanced-data-classification.md @@ -4,6 +4,10 @@ contributors: AixinSG, 刘知远THU , xierqi , eacl_newsmth https://github.com/memect/hao/blob/master/awesome/imbalanced-data-classification.md +card list: http://bigdata.memect.com/?tag=imbalanceddataclassification + +discussion: https://github.com/memect/hao/issues/47 + keywords: Positive only, Imbalanced data, From f860a761e12c9ea007b7e126793b5974ea87d0d1 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 22:41:38 -0700 Subject: [PATCH 248/485] Update imbalanced-data-classification.md --- awesome/imbalanced-data-classification.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/imbalanced-data-classification.md b/awesome/imbalanced-data-classification.md index 9aee2e6..334be83 100644 --- a/awesome/imbalanced-data-classification.md +++ b/awesome/imbalanced-data-classification.md @@ -18,7 +18,7 @@ keywords: ### survey http://www.cs.cmu.edu/~qyj/IR-Lab/ImbalancedSummary.html Yanjun Qi, A Brief Literature Review of Class Imbalanced Problem - +(2004) ### classic http://homes.cs.washington.edu/~pedrod/papers/kdd99.pdf (@xierqi 推荐) Domingo, MetaCost: A General Method for Making Classifiers Cost, KDD 1999 From b482a0c3a0ad3b776b7105d69e0f28b4b2596bb5 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 23:14:27 -0700 Subject: [PATCH 249/485] Update speech-recognition.md --- awesome/speech-recognition.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/awesome/speech-recognition.md b/awesome/speech-recognition.md index 433446b..be8e8d6 100644 --- a/awesome/speech-recognition.md +++ b/awesome/speech-recognition.md @@ -16,6 +16,8 @@ https://github.com/memect/hao/blob/master/awesome/speech-recognition.md http://research.microsoft.com/pubs/217165/ICASSP_DeepTextLearning_v07.pdf Deep Learning for Natural Language Processing and Related Applications, Microsoft +http://psych.stanford.edu/~jlm/pdfs/Hinton12IEEE_SignalProcessingMagazine.pdf Deep Neural Networks for Acoustic Modeling in Speech Recognition (2012) IEEE Signal Processing Magazine + http://research.microsoft.com/pubs/189008/tasl-deng-2244083-x_2.pdf Li Deng, Xiao Li, Machine Learning Paradigms for Speech Recognition: An Overview http://research.google.com/pubs/SpeechProcessing.html Google Speech processing From 8f6a7eb59dc6ae9ecd4c45f41733f2d8126d6a16 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 23:25:17 -0700 Subject: [PATCH 250/485] Update speech-recognition.md --- awesome/speech-recognition.md | 3 +++ 1 file changed, 3 insertions(+) diff --git a/awesome/speech-recognition.md b/awesome/speech-recognition.md index be8e8d6..0ec1597 100644 --- a/awesome/speech-recognition.md +++ b/awesome/speech-recognition.md @@ -16,6 +16,9 @@ https://github.com/memect/hao/blob/master/awesome/speech-recognition.md http://research.microsoft.com/pubs/217165/ICASSP_DeepTextLearning_v07.pdf Deep Learning for Natural Language Processing and Related Applications, Microsoft +http://www.cs.toronto.edu/~ndjaitly/techrep.pdf Application of Pretrained Deep Neural Networks to Large Vocabulary Conversational Speech Recognition (2012) interspeech + + http://psych.stanford.edu/~jlm/pdfs/Hinton12IEEE_SignalProcessingMagazine.pdf Deep Neural Networks for Acoustic Modeling in Speech Recognition (2012) IEEE Signal Processing Magazine http://research.microsoft.com/pubs/189008/tasl-deng-2244083-x_2.pdf Li Deng, Xiao Li, Machine Learning Paradigms for Speech Recognition: An Overview From 99de9412fa3ce6aa1b552fda1fe5e54384bf728e Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 23:25:46 -0700 Subject: [PATCH 251/485] Update speech-recognition.md --- awesome/speech-recognition.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/awesome/speech-recognition.md b/awesome/speech-recognition.md index 0ec1597..e5a46e2 100644 --- a/awesome/speech-recognition.md +++ b/awesome/speech-recognition.md @@ -16,8 +16,8 @@ https://github.com/memect/hao/blob/master/awesome/speech-recognition.md http://research.microsoft.com/pubs/217165/ICASSP_DeepTextLearning_v07.pdf Deep Learning for Natural Language Processing and Related Applications, Microsoft -http://www.cs.toronto.edu/~ndjaitly/techrep.pdf Application of Pretrained Deep Neural Networks to Large Vocabulary Conversational Speech Recognition (2012) interspeech - +http://www.cs.toronto.edu/~ndjaitly/techrep.pdf Application of Pretrained Deep Neural Networks to Large Vocabulary Conversational Speech Recognition (2012) interspeech +(work at Google) http://psych.stanford.edu/~jlm/pdfs/Hinton12IEEE_SignalProcessingMagazine.pdf Deep Neural Networks for Acoustic Modeling in Speech Recognition (2012) IEEE Signal Processing Magazine From a984a206cef9ff224fc0a55c400772646c48be34 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 23:30:55 -0700 Subject: [PATCH 252/485] Update speech-recognition.md --- awesome/speech-recognition.md | 24 ++++++++++++++++-------- 1 file changed, 16 insertions(+), 8 deletions(-) diff --git a/awesome/speech-recognition.md b/awesome/speech-recognition.md index e5a46e2..f36bf2f 100644 --- a/awesome/speech-recognition.md +++ b/awesome/speech-recognition.md @@ -1,10 +1,10 @@ -#语音处理的资料 -editors: 好东西传送门 +#深度学习在语音识别的研究,以及语音处理常用资源 keywords: speech processing, speech recognition, speaker recognition, + deep learning card lists: * http://hao.memect.com/?tag=speechRecognition @@ -14,25 +14,31 @@ https://github.com/memect/hao/blob/master/awesome/speech-recognition.md ## readings +Microsoft + http://research.microsoft.com/pubs/217165/ICASSP_DeepTextLearning_v07.pdf Deep Learning for Natural Language Processing and Related Applications, Microsoft http://www.cs.toronto.edu/~ndjaitly/techrep.pdf Application of Pretrained Deep Neural Networks to Large Vocabulary Conversational Speech Recognition (2012) interspeech (work at Google) -http://psych.stanford.edu/~jlm/pdfs/Hinton12IEEE_SignalProcessingMagazine.pdf Deep Neural Networks for Acoustic Modeling in Speech Recognition (2012) IEEE Signal Processing Magazine - http://research.microsoft.com/pubs/189008/tasl-deng-2244083-x_2.pdf Li Deng, Xiao Li, Machine Learning Paradigms for Speech Recognition: An Overview +Google + +http://psych.stanford.edu/~jlm/pdfs/Hinton12IEEE_SignalProcessingMagazine.pdf Deep Neural Networks for Acoustic Modeling in Speech Recognition (2012) IEEE Signal Processing Magazine + http://research.google.com/pubs/SpeechProcessing.html Google Speech processing -http://www.emory.edu/BUSINESS/speech/SpeechRecCase.pdf nuance white paper, business use cases -## tools + +## speech processing resources + +### tools and open source tools http://en.wikipedia.org/wiki/List_of_speech_recognition_software * quite some software leverage google speech api to provide online speech to text on mobile devices. -### open source + http://www.signalprocessingsociety.org/technical-committees/list/sl-tc/spl-nl/2013-05/ALIZE/ ALIZE 3.0 - Open-source platform for speaker recognition https://github.com/taf2/speech2text @@ -51,7 +57,6 @@ http://download.cnet.com/windows/voice-recognition-software/?tag=bc http://www.labnol.org/internet/dictation-for-google-chrome/24719/ -## pointers ### exploration http://en.wikipedia.org/wiki/Speech_recognition @@ -59,6 +64,9 @@ http://www.technologyreview.com/news/427793/where-speech-recognition-is-going/ http://technav.ieee.org/tag/1597/speaker-recognition 48 resources related to Speaker Recognition +http://www.emory.edu/BUSINESS/speech/SpeechRecCase.pdf nuance white paper, business use cases + + ### conferences Popular speech recognition conferences held each year or two include SpeechTEK and SpeechTEK Europe, ICASSP, Interspeech/Eurospeech, and the IEEE ASRU. Conferences in the field of natural language processing, such as ACL, NAACL, EMNLP, and HLT, are beginning to include papers on speech processing. Important journals include the IEEE Transactions on Speech and Audio Processing (now named IEEE Transactions on Audio, Speech and Language Processing), Computer Speech and Language, and Speech Communication. From 0f1c1c0b602b36545b69bfeeb586737de6d73360 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Mon, 18 Aug 2014 23:45:42 -0700 Subject: [PATCH 253/485] Update speech-recognition.md --- awesome/speech-recognition.md | 14 +++++++++++--- 1 file changed, 11 insertions(+), 3 deletions(-) diff --git a/awesome/speech-recognition.md b/awesome/speech-recognition.md index f36bf2f..c8a6fe2 100644 --- a/awesome/speech-recognition.md +++ b/awesome/speech-recognition.md @@ -12,9 +12,11 @@ card lists: https://github.com/memect/hao/blob/master/awesome/speech-recognition.md -## readings +## deep learning and speech recognition +###Microsoft -Microsoft +http://research.microsoft.com/en-us/people/deng/ +Li Deng (IEEE M'89;SM'92;F'04) received the Ph.D. degree from the University of Wisconsin-Madison. He was an assistant professor (1989-1992), tenured associate professor (1992-1996), and tenured Full Professor (1996-1999) at the University of Waterloo, Ontario, Canada. In 1999, he joined Microsoft Research, Redmond, WA, where he is currently Principal Researcher and Research Manager of the Deep Learning Technology Center. Since 2000, he has also been an Affiliate Full Professor and graduate committee member at the University of Washington, Seattle, teaching graduate course of Computer Speech Processing and serving on Ph.D. thesis committees. Prior to joining Microsoft, he also worked or/and taught at Massachusetts Institute of Technology, ATR Interpreting Telecom. Research Lab. (Kyoto, Japan), and HKUST. He has been granted over 60 US or international patents in acoustics/audio, speech/language technology, and machine learning. He received numerous awards/honors bestowed by IEEE, ISCA, ASA, Microsoft, and other organizations. http://research.microsoft.com/pubs/217165/ICASSP_DeepTextLearning_v07.pdf Deep Learning for Natural Language Processing and Related Applications, Microsoft @@ -23,7 +25,13 @@ http://www.cs.toronto.edu/~ndjaitly/techrep.pdf Application of Pretrained Deep N http://research.microsoft.com/pubs/189008/tasl-deng-2244083-x_2.pdf Li Deng, Xiao Li, Machine Learning Paradigms for Speech Recognition: An Overview -Google +### Google + +http://www.cs.toronto.edu/~hinton/ +Geoffrey Everest Hinton FRS (born 6 December 1947) is a British-born computer scientist and psychologist, most noted for his work on artificial neural networks. He is now partly working for Google.[1] He is the co-inventor of the backpropagation and contrastive divergence training algorithms and is an important figure in the deep learning movement. + +http://research.google.com/pubs/VincentVanhoucke.html +Vincent Vanhoucke is a Research Scientist at Google. He is a technical lead and manager in Google's deep learning infrastructure team. Prior to that, he lead the speech recognition quality effort for Google Search by Voice. He holds a Ph.D. in Electrical Engineering from Stanford University and a Diplôme d'Ingénieur from the Ecole Centrale Paris. http://psych.stanford.edu/~jlm/pdfs/Hinton12IEEE_SignalProcessingMagazine.pdf Deep Neural Networks for Acoustic Modeling in Speech Recognition (2012) IEEE Signal Processing Magazine From bbc1dbe7816942da5b0ed73b1a2dd24a7a1c7c15 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 19 Aug 2014 00:19:35 -0700 Subject: [PATCH 254/485] Update speech-recognition.md --- awesome/speech-recognition.md | 10 ++++++++++ 1 file changed, 10 insertions(+) diff --git a/awesome/speech-recognition.md b/awesome/speech-recognition.md index c8a6fe2..7aa1901 100644 --- a/awesome/speech-recognition.md +++ b/awesome/speech-recognition.md @@ -37,11 +37,21 @@ http://psych.stanford.edu/~jlm/pdfs/Hinton12IEEE_SignalProcessingMagazine.pdf D http://research.google.com/pubs/SpeechProcessing.html Google Speech processing +### other research groups +http://mi.eng.cam.ac.uk/Main/Speech/ Cambridge University +回复@黄浩XJU: 谢谢指正,剑桥的工作很全面,目前 http://t.cn/RP8YGTX Phil Woodland 有个中国学生 张超 在做深度学习研究 + + +http://www.speech.cs.cmu.edu/ CMU + +http://www.speech.sri.com/ SRI ## speech processing resources + + ### tools and open source tools http://en.wikipedia.org/wiki/List_of_speech_recognition_software * quite some software leverage google speech api to provide online speech to text on mobile devices. From c19af114b4d8e2d17825c40f91ea0375b888b606 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 19 Aug 2014 00:24:53 -0700 Subject: [PATCH 255/485] Update speech-recognition.md --- awesome/speech-recognition.md | 9 +++++++-- 1 file changed, 7 insertions(+), 2 deletions(-) diff --git a/awesome/speech-recognition.md b/awesome/speech-recognition.md index 7aa1901..edbf3bf 100644 --- a/awesome/speech-recognition.md +++ b/awesome/speech-recognition.md @@ -39,14 +39,15 @@ http://research.google.com/pubs/SpeechProcessing.html Google Speech processing ### other research groups http://mi.eng.cam.ac.uk/Main/Speech/ Cambridge University - -回复@黄浩XJU: 谢谢指正,剑桥的工作很全面,目前 http://t.cn/RP8YGTX Phil Woodland 有个中国学生 张超 在做深度学习研究 +* 回复@黄浩XJU: 谢谢指正,剑桥的工作很全面,目前 http://t.cn/RP8YGTX Phil Woodland 有个中国学生 张超 在做深度学习研究 http://www.speech.cs.cmu.edu/ CMU http://www.speech.sri.com/ SRI +http://www.clsp.jhu.edu/people/ Center for Language and Speech Processing at Johns Hopkins University + ## speech processing resources @@ -62,6 +63,10 @@ http://www.signalprocessingsociety.org/technical-committees/list/sl-tc/spl-nl/20 https://github.com/taf2/speech2text +http://kaldi.sourceforge.net/about.html Kaldi is a toolkit for speech recognition written in C++ and licensed under the Apache License v2.0. Kaldi is intended for use by speech recognition researchers. +* @黄浩XJU: 提一下Daniel Povey(http://www.danielpovey.com/) 的Kaldi吧,很好的工具 + + ### products http://www.consumersearch.com/voice-recognition-software/review From e829980ec9282d5c4f3fe820378f952c9aa57929 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 19 Aug 2014 08:17:53 -0700 Subject: [PATCH 256/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 4 ++++ 1 file changed, 4 insertions(+) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index 283ba1b..6713343 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -76,6 +76,10 @@ http://www.weibo.com/1464484735/BfMxEh40q 对于ESA,如果单纯使用wikipedia,由于中文维基百科的语料相比英语小很多,所以其实不满足ESA本身需要有高覆盖率的好处,需要自行采用百度百科或互动百科进行处理。我们会考虑利用zhishi.me来为大家提供ESA的服务。 http://www.weibo.com/2045933955/BhWfr2LYv +@Siegfried围脖: +我们也在做类似的工作,简单滴说,就是利用主题学习补充 既有概念体系的空缺。。。 +http://www.weibo.com/1578099090/Bj2N9kyhc?mod=weibotime + ### python gensim https://github.com/piskvorky/gensim/ From f5de69c3f2ccd79eede60f5640750a3db0241191 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 19 Aug 2014 16:01:27 -0700 Subject: [PATCH 257/485] Update reverse-proxy-load-balancer.md --- awesome/reverse-proxy-load-balancer.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/reverse-proxy-load-balancer.md b/awesome/reverse-proxy-load-balancer.md index 9a96725..868c22a 100644 --- a/awesome/reverse-proxy-load-balancer.md +++ b/awesome/reverse-proxy-load-balancer.md @@ -1,5 +1,5 @@ # 提高页面响应速度: 反向代理及负载均衡 -editors: @mahak, BUPTGuo , 好东西传送门 , 情非得已小屋, 新世界_玉兔 , 52cs +contributors @mahak, BUPTGuo , 情非得已小屋, 新世界_玉兔 , 52cs keywords: 负载均衡(load balancer), From 73ebd603c26fbded7d7b7b760a315550e0c2da2c Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 19 Aug 2014 16:02:23 -0700 Subject: [PATCH 258/485] Update reverse-proxy-load-balancer.md --- awesome/reverse-proxy-load-balancer.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/reverse-proxy-load-balancer.md b/awesome/reverse-proxy-load-balancer.md index 868c22a..a575e55 100644 --- a/awesome/reverse-proxy-load-balancer.md +++ b/awesome/reverse-proxy-load-balancer.md @@ -8,7 +8,7 @@ keywords: https://github.com/memect/hao/blob/master/awesome/reverse-proxy-load-balancer.md -## 资源 +## 解决方案 http://webmasters.stackexchange.com/questions/10927/using-multiple-a-records-for-my-domain-do-web-browsers-ever-try-more-than-one 最简单的设置, DNS设置, 在一个域名下设置多个 "A" record, 即一个域名映射多个IP地址, 然后由域名服务器与浏览器共同选择其中的一个IP访问 http://yijiu.blog.51cto.com/433846/1408443 基于Nginx反向代理及负载均衡 From 72ef0dd4e74a8a0e3a68576f5eb000f9a7c2789d Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 19 Aug 2014 16:06:13 -0700 Subject: [PATCH 259/485] Update reverse-proxy-load-balancer.md --- awesome/reverse-proxy-load-balancer.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/reverse-proxy-load-balancer.md b/awesome/reverse-proxy-load-balancer.md index a575e55..ad0cf27 100644 --- a/awesome/reverse-proxy-load-balancer.md +++ b/awesome/reverse-proxy-load-balancer.md @@ -1,4 +1,4 @@ -# 提高页面响应速度: 反向代理及负载均衡 +# 提高网站页面响应速度的解决方案: DNS A-Record, 反向代理及负载均衡 contributors @mahak, BUPTGuo , 情非得已小屋, 新世界_玉兔 , 52cs keywords: From 4244199d96d99734aa8405de03ca9b6fd895240f Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 19 Aug 2014 16:08:35 -0700 Subject: [PATCH 260/485] Update reverse-proxy-load-balancer.md --- awesome/reverse-proxy-load-balancer.md | 9 ++++++--- 1 file changed, 6 insertions(+), 3 deletions(-) diff --git a/awesome/reverse-proxy-load-balancer.md b/awesome/reverse-proxy-load-balancer.md index ad0cf27..fd98aae 100644 --- a/awesome/reverse-proxy-load-balancer.md +++ b/awesome/reverse-proxy-load-balancer.md @@ -1,15 +1,16 @@ # 提高网站页面响应速度的解决方案: DNS A-Record, 反向代理及负载均衡 + contributors @mahak, BUPTGuo , 情非得已小屋, 新世界_玉兔 , 52cs +discussion: https://github.com/memect/hao/issues/48 + keywords: 负载均衡(load balancer), 反向映射 (reverse proxy), -https://github.com/memect/hao/blob/master/awesome/reverse-proxy-load-balancer.md - ## 解决方案 -http://webmasters.stackexchange.com/questions/10927/using-multiple-a-records-for-my-domain-do-web-browsers-ever-try-more-than-one 最简单的设置, DNS设置, 在一个域名下设置多个 "A" record, 即一个域名映射多个IP地址, 然后由域名服务器与浏览器共同选择其中的一个IP访问 +http://webmasters.stackexchange.com/questions/10927/using-multiple-a-records-for-my-domain-do-web-browsers-ever-try-more-than-one 最简单的方案, DNS设置, 在一个域名下设置多个 "A" record, 即一个域名映射多个IP地址, 然后由域名服务器与浏览器共同选择其中的一个IP访问 http://yijiu.blog.51cto.com/433846/1408443 基于Nginx反向代理及负载均衡 @@ -29,3 +30,5 @@ BUPTGuo:负载均衡? (8月3日 17:17) 情非得已小屋:负载均衡+反向映射 (8月3日 19:24) 新世界_玉兔:DNS提供负载均衡 (8月4日 16:05) + + From 0e85e9e78160a925b43d0ddf6c00e29335280b3c Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 19 Aug 2014 16:08:55 -0700 Subject: [PATCH 261/485] Update reverse-proxy-load-balancer.md --- awesome/reverse-proxy-load-balancer.md | 1 + 1 file changed, 1 insertion(+) diff --git a/awesome/reverse-proxy-load-balancer.md b/awesome/reverse-proxy-load-balancer.md index fd98aae..ec64ba2 100644 --- a/awesome/reverse-proxy-load-balancer.md +++ b/awesome/reverse-proxy-load-balancer.md @@ -5,6 +5,7 @@ contributors @mahak, BUPTGuo , 情非得已小屋, 新世界_玉兔 , 52cs discussion: https://github.com/memect/hao/issues/48 keywords: + DNS A-Record, 负载均衡(load balancer), 反向映射 (reverse proxy), From 998e038c67e0bd04eb31f7b4e8d7025a50740fb2 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 19 Aug 2014 16:13:29 -0700 Subject: [PATCH 262/485] Update reverse-proxy-load-balancer.md --- awesome/reverse-proxy-load-balancer.md | 4 ++++ 1 file changed, 4 insertions(+) diff --git a/awesome/reverse-proxy-load-balancer.md b/awesome/reverse-proxy-load-balancer.md index ec64ba2..60739ea 100644 --- a/awesome/reverse-proxy-load-balancer.md +++ b/awesome/reverse-proxy-load-balancer.md @@ -17,6 +17,10 @@ http://yijiu.blog.51cto.com/433846/1408443 基于Nginx反向代理及负载均 http://fournines.wordpress.com/2011/12/02/improving-page-speed-cdn-vs-squid-varnish-nginx/ Improving page speed: CDN vs Squid/Varnish/nginx/mod_proxy +http://en.wikipedia.org/wiki/Reverse_proxy + + +http://en.wikipedia.org/wiki/Load_balancing_%28computing%29#Load_balancer_features ## 讨论 From f875863c3c165394295822819a63c967a324d218 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 20 Aug 2014 16:40:23 -0700 Subject: [PATCH 263/485] Create multitask-learning.md --- awesome/multitask-learning.md | 97 +++++++++++++++++++++++++++++++++++ 1 file changed, 97 insertions(+) create mode 100644 awesome/multitask-learning.md diff --git a/awesome/multitask-learning.md b/awesome/multitask-learning.md new file mode 100644 index 0000000..500de41 --- /dev/null +++ b/awesome/multitask-learning.md @@ -0,0 +1,97 @@ +keywords + multi-task learning + +## 微博讨论 +问: @唐小sin 有没有multi-task learning的相关学习资料呢? +答: 维基百科上有不少经典文献。AAAI和ICML都有论文(北大/清华)。找到今年Honglak Lee (U Michigan 教授)的短教程。Lan Žagar 博士论文(2014) Ranking by Multitask Learning. 问答追踪: #93 求补充 + +http://www.weibo.com/5220650532/BiZl47k80?ref= + + + +王威廉:今年SIGKDD最佳博士论文颁给了CMU计算机系金光熹同学的论文 Reconstruction and Applications of Collective Storylines from Web Photo Collections http://t.cn/RPNmgEw 还有一个优胜奖也由CMU的multitask learning论文(Mladen Kolar,现芝大教授)获得。 +http://weibo.com/1657470871/BhG9eDbcm + +黄厝海滨:可以说说他的导师啊,因为这两者的导师都是Eric Xing (8月10日 22:42) + + + + +李航博士 :#WSDM2014# Best paper award: Amr Ahmed, Abhimanyu Das, Alex Smola, Hierarchical multitask learning: scalable algorithms and an application to conversion optimization in display advertising +http://weibo.com/2060750830/AyJKFeZmQ + +李沐M :恭喜小伙伴和老板。这篇文章先被拒了一次,然后狠下心好好改了改写作。然后就happy ending了。老板然后眨着眼说,你懂了吗?我问懂神码?一呢,写作很重要,二呢,我写作很糟糕,你不能太依靠了。。。 (2月28日 03:53) + + +Copper_PKU:six NLP Task from Ronan Collobert, Jason Weston. A Unified Architecture for Natural Language Processing:Deep Neural Networks with Multitask Learning. ICML. 2008....畅读版【http://t.cn/8FOioh1】 +http://weibo.com/1758509357/AwFYMa0ot + + +复旦李斌:最右说的应该就是vowpal wabbit中使用的feature hash方法,Ping Li每篇论文都会提到这个,Smola在ICML-09把这个方法用multitask learning,我也把这个方法用于graph控制特征维度。//@鲁东东胖: 有没有具体一点的描述啊 //@夏粉_百度: 在那次Adworkshop上,yahoo介绍了另外一种降维方法,通过hash的方法 +http://weibo.com/2303649634/A83kaktRT + + +eeyangc:从生物角度,你可以说是共同的遗传作用;从machine learning角度看,你可以看成multitask learning;从统计学角度看,你可以说是random-effects and hierarchical structures。横看成岭侧成峰,远近高低各不同。 +http://weibo.com/2107700352/A4CuScVmV + + + +李晗littlefool:deep learning造冗余特征的思路不错,boosted decision tree 和 kernel svm 现在有用但是有其局限性。坚持我的观点 基于deep learning的无监督特征工程,和现有的非线性模型。配以online learning的实时特征抽取和模型更新,并借用multitask和transfer learning的知识来进行信息扩展和加强问题适用性。 +http://weibo.com/1489962750/zp3daxlC6 + +李亚超NLP:A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learninghttp://t.cn/aued1i +http://weibo.com/1732906091/zjTJ94IaH + +lby9:1) Deep learning在文本中的应用比较有意思的是这篇《A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning》。基本上网络结构是底层的low level features是共享的,上层的任务(POS, Chunking, NER等)共享部分的底层feature。网络结构如图。 +http://weibo.com/1873273890/zhvrbkS8c + + +## overview and survey +http://en.wikipedia.org/wiki/Multi-task_learning + +https://sites.google.com/site/deeplearningcvpr2014/DL-Multimodal_multitask_learning.pdf Multimodal learning and multitask learning (2014) + +http://www.siam.org/meetings/sdm12/zhou_chen_ye.pdf Multi-Task Learning: Theory, Algorithms, and Applications (2012, SDM tutorial) + +http://jcse.kiise.org/files/JCSE-V5N3-09.pdf A Survey of Transfer and Multitask Learning in Bioinformatics (2009, JCSE) + +http://www.cse.wustl.edu/~kilian/research/multitasklearning/multitasklearning.html +Multitask Learning / Domain Adaptation related publications, maintained by Prof. Kilian Q. Weinberger + +## classic paper +http://www.eecs.berkeley.edu/~russell/classes/cs294/f05/papers/caruana-1997.pdf Caruana, R. (1997). Multitask learning: A knowledge-based source of inductive bias. Machine Learning + +http://www.thespermwhale.com/jaseweston/papers/unified_nlp.pdf +Ronan Collobert and Jason Weston. 2008. A unified architecture for natural language processing: deep neural networks with multitask learning. In Proceedings of the 25th international conference on Machine learning (ICML '08) +* Copper_PKU 推荐 + +## current +http://research.microsoft.com/pubs/210041/wsdm2014-multitask.pdf +Amr Ahmed, Abhimanyu Das, Alex Smola, Hierarchical multitask learning: scalable algorithms and an application to conversion optimization in display advertising +* 李航博士 :#WSDM2014# Best paper award + +http://www.aaai.org/ocs/index.php/AAAI/AAAI14/paper/download/8486/8820 Encoding Tree Sparsity in Multi-Task Learning: A Probabilistic Framework (2014) AAAI + +http://machinelearning.wustl.edu/mlpapers/paper_files/icml2014c2_lic14.pdf Bayesian Max-margin Multi-Task Learning with Data Augmentation , (2014) ICML + +http://link.springer.com/chapter/10.1007/978-3-642-37331-2_1 Beyond Dataset Bias: Multi-task Unaligned Shared Knowledge Transfer (2013) + +## thesis +http://repository.cmu.edu/dissertations/229/ +Uncovering Structure in High-Dimensions: Networks and Multi-task Learning Problems +(2013) Mladen Kolar, PhD Thesis +* 王威廉 推荐, KDD 2014 dissertation award Honorable mention http://www.kdd.org/blog/2014-doctoral-dissertation-award + +http://eprints.fri.uni-lj.si/2486/ +Lan Žagar (2014) Ranking by Multitask Learning. PhD thesis. + +http://gogoshen.org/ml/Research%20Paper%20Library/caruana97multitask2.pdf +Caruana, (1997) Multitask Learning, PhD Thesis +* 唐小sin:补充下吧,刚自己也找了一遍classic paper里面的Caruana的博士论文就是Multitask Learning,他是Tom Mitchell的学生。 + +## related +http://burrsettles.com/pub/settles.activelearning.pdf Active Learning Literature Survey, Burr Settles (2010) 1000+ citation + +http://bigdata.memect.com/?s=multitask + + From 64a9a26d26b86d7a398784d1c699dec78c945595 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 20 Aug 2014 16:40:51 -0700 Subject: [PATCH 264/485] Update multitask-learning.md --- awesome/multitask-learning.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/multitask-learning.md b/awesome/multitask-learning.md index 500de41..0e429ac 100644 --- a/awesome/multitask-learning.md +++ b/awesome/multitask-learning.md @@ -39,7 +39,7 @@ http://weibo.com/2107700352/A4CuScVmV 李晗littlefool:deep learning造冗余特征的思路不错,boosted decision tree 和 kernel svm 现在有用但是有其局限性。坚持我的观点 基于deep learning的无监督特征工程,和现有的非线性模型。配以online learning的实时特征抽取和模型更新,并借用multitask和transfer learning的知识来进行信息扩展和加强问题适用性。 http://weibo.com/1489962750/zp3daxlC6 -李亚超NLP:A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learninghttp://t.cn/aued1i +李亚超NLP:A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning http://t.cn/aued1i http://weibo.com/1732906091/zjTJ94IaH lby9:1) Deep learning在文本中的应用比较有意思的是这篇《A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning》。基本上网络结构是底层的low level features是共享的,上层的任务(POS, Chunking, NER等)共享部分的底层feature。网络结构如图。 From 3dfe81931eb04e884cbfd07834adb3d966bc7999 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 20 Aug 2014 16:43:59 -0700 Subject: [PATCH 265/485] Update multitask-learning.md --- awesome/multitask-learning.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/awesome/multitask-learning.md b/awesome/multitask-learning.md index 0e429ac..9d259a8 100644 --- a/awesome/multitask-learning.md +++ b/awesome/multitask-learning.md @@ -1,3 +1,5 @@ +contributors: 唐小sin 王威廉 李沐M 李航博士 李沐M Copper_PKU 复旦李斌 eeyangc 李晗littlefool 李亚超NLP lby9 + keywords multi-task learning From 2a119281d24d5247974488fd7370fbb7f45ac742 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 20 Aug 2014 16:46:09 -0700 Subject: [PATCH 266/485] Update multitask-learning.md --- awesome/multitask-learning.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/multitask-learning.md b/awesome/multitask-learning.md index 9d259a8..8f69df3 100644 --- a/awesome/multitask-learning.md +++ b/awesome/multitask-learning.md @@ -65,7 +65,7 @@ http://www.eecs.berkeley.edu/~russell/classes/cs294/f05/papers/caruana-1997.pdf http://www.thespermwhale.com/jaseweston/papers/unified_nlp.pdf Ronan Collobert and Jason Weston. 2008. A unified architecture for natural language processing: deep neural networks with multitask learning. In Proceedings of the 25th international conference on Machine learning (ICML '08) -* Copper_PKU 推荐 +* Copper_PKU, 李亚超NLP, lby9 共同推荐 ## current http://research.microsoft.com/pubs/210041/wsdm2014-multitask.pdf From 19dd775505961aa570a7b2aafef8da297524ac29 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 20 Aug 2014 16:56:51 -0700 Subject: [PATCH 267/485] Update multitask-learning.md --- awesome/multitask-learning.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/multitask-learning.md b/awesome/multitask-learning.md index 8f69df3..af4c2e5 100644 --- a/awesome/multitask-learning.md +++ b/awesome/multitask-learning.md @@ -6,9 +6,9 @@ keywords ## 微博讨论 问: @唐小sin 有没有multi-task learning的相关学习资料呢? 答: 维基百科上有不少经典文献。AAAI和ICML都有论文(北大/清华)。找到今年Honglak Lee (U Michigan 教授)的短教程。Lan Žagar 博士论文(2014) Ranking by Multitask Learning. 问答追踪: #93 求补充 - http://www.weibo.com/5220650532/BiZl47k80?ref= +唐小sin:补充下吧,刚自己也找了一遍classic paper里面的Caruana的博士论文就是Multitask Learning,他是Tom Mitchell的学生。 王威廉:今年SIGKDD最佳博士论文颁给了CMU计算机系金光熹同学的论文 Reconstruction and Applications of Collective Storylines from Web Photo Collections http://t.cn/RPNmgEw 还有一个优胜奖也由CMU的multitask learning论文(Mladen Kolar,现芝大教授)获得。 From 38c09a281e0e745dd7baad2b55d4ad71ce6cde27 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 20 Aug 2014 16:58:18 -0700 Subject: [PATCH 268/485] Update multitask-learning.md --- awesome/multitask-learning.md | 3 +++ 1 file changed, 3 insertions(+) diff --git a/awesome/multitask-learning.md b/awesome/multitask-learning.md index af4c2e5..859984c 100644 --- a/awesome/multitask-learning.md +++ b/awesome/multitask-learning.md @@ -1,3 +1,5 @@ +# MultiTask Learning 资源合集 + contributors: 唐小sin 王威廉 李沐M 李航博士 李沐M Copper_PKU 复旦李斌 eeyangc 李晗littlefool 李亚超NLP lby9 keywords @@ -11,6 +13,7 @@ http://www.weibo.com/5220650532/BiZl47k80?ref= 唐小sin:补充下吧,刚自己也找了一遍classic paper里面的Caruana的博士论文就是Multitask Learning,他是Tom Mitchell的学生。 + 王威廉:今年SIGKDD最佳博士论文颁给了CMU计算机系金光熹同学的论文 Reconstruction and Applications of Collective Storylines from Web Photo Collections http://t.cn/RPNmgEw 还有一个优胜奖也由CMU的multitask learning论文(Mladen Kolar,现芝大教授)获得。 http://weibo.com/1657470871/BhG9eDbcm From f267f42bbee4c61e9c54e80cf85a033bd6d6f6f3 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 20 Aug 2014 17:03:31 -0700 Subject: [PATCH 269/485] Update multitask-learning.md --- awesome/multitask-learning.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/multitask-learning.md b/awesome/multitask-learning.md index 859984c..3af64fd 100644 --- a/awesome/multitask-learning.md +++ b/awesome/multitask-learning.md @@ -1,6 +1,6 @@ # MultiTask Learning 资源合集 -contributors: 唐小sin 王威廉 李沐M 李航博士 李沐M Copper_PKU 复旦李斌 eeyangc 李晗littlefool 李亚超NLP lby9 +contributors: 唐小sin 王威廉 黄厝海滨 李航博士 李沐M Copper_PKU 复旦李斌 eeyangc 李晗littlefool 李亚超NLP lby9 keywords multi-task learning From a5d7af6c0485a5cc0eaa130e891745d2267223c0 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 20 Aug 2014 17:18:23 -0700 Subject: [PATCH 270/485] Update multitask-learning.md --- awesome/multitask-learning.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/awesome/multitask-learning.md b/awesome/multitask-learning.md index 3af64fd..4ede970 100644 --- a/awesome/multitask-learning.md +++ b/awesome/multitask-learning.md @@ -2,6 +2,8 @@ contributors: 唐小sin 王威廉 黄厝海滨 李航博士 李沐M Copper_PKU 复旦李斌 eeyangc 李晗littlefool 李亚超NLP lby9 +discussion: https://github.com/memect/hao/issues/93 + keywords multi-task learning From 7564adef0a3b9e72cf84518c091cfa9ca94b2340 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 20 Aug 2014 23:07:38 -0700 Subject: [PATCH 271/485] Update README.md --- README.md | 6 +++++- 1 file changed, 5 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index 97f8d7a..880d5a3 100644 --- a/README.md +++ b/README.md @@ -23,7 +23,11 @@
-## 最近的问答 +## 如何提问 + 发一条微博提问,里面加上 @好东西传送门 + + +## 问答案例 2014-08-13 最近我们推荐过四组深度学习的资源,分别为语音检索,文本挖掘/自然语言处理,图像检索,最热深度学习Github项目。为方便大家浏览/粘帖,现在制作成可下载的PPT,每页是一个推荐资源的预览。百度云盘 http://t.cn/RPWoSHq slideshare http://t.cn/RPWoSHb 原始PPT http://t.cn/RPWoSH4 From c2c080269d314db6e49356d5542d3d70bbc4cbc4 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 21 Aug 2014 19:19:47 -0700 Subject: [PATCH 272/485] Create piecewise-linear-regression.md --- awesome/piecewise-linear-regression.md | 52 ++++++++++++++++++++++++++ 1 file changed, 52 insertions(+) create mode 100644 awesome/piecewise-linear-regression.md diff --git a/awesome/piecewise-linear-regression.md b/awesome/piecewise-linear-regression.md new file mode 100644 index 0000000..d83bf5e --- /dev/null +++ b/awesome/piecewise-linear-regression.md @@ -0,0 +1,52 @@ +分段线性模型资料与软件-入门篇 + + +关键词: + 分段线性模型, + Piecewise linear regression, + Segmented linear regression, + +## 教程 + +https://onlinecourses.science.psu.edu/stat501/node/77 Piecewise linear regression models + +http://www.fs.fed.us/rm/pubs/rmrs_gtr189.pdf A Tutorial on the Piecewise Regression Approach Applied to Bedload Transport Data, Sandra E. Ryan, Laurie S. Porth +* @禅系一之花 我喜欢这个指南 + +http://www.ee.ucla.edu/ee236a/lectures/pwl.pdf UCLA, (2013) Lecture 2 Piecewise-linear optimization +* 补充了一个UCLA 的偏理论的教程幻灯片 + +## 统计软件, 都支持这个功能 + +http://people.ucalgary.ca/~aniknafs/index_files/TR%2094%202011.pdf RapidMiner (这个有免费版,用户挺多) + +http://mathematica.stackexchange.com/questions/45745/fitting-piecewise-functions Mathematica + + * http://forums.wolfram.com/student-support/topics/22308 "piecewise linear fit" + * "Mathematica Navigator: Mathematics, Statistics and Graphics" page 516 + * http://dsp.stackexchange.com/questions/1227/fit-piecewise-linear-data + * http://coen.boisestate.edu/bknowlton/files/2011/12/Mathematica-Tutorial-Megan-Frary.pdf Mathematica Tutorial + +http://mobiusfunction.wordpress.com/2012/06/26/piece-wise-linear-regression-from-two-dimensional-data-multiple-break-points/ matlab + +http://www.ats.ucla.edu/stat/sas/faq/nlin_optimal_knots.htm SAS + +http://stats.stackexchange.com/questions/18468/how-to-do-piecewise-linear-regression-with-multiple-unknown-knots 提到R + +http://climateecology.wordpress.com/2012/08/19/r-for-ecologists-putting-together-a-piecewise-regression/ R +* "Piecewise or segmented regression for when your data has two different linear patterns. Again, comments here are good" source: https://twitter.com/statsforbios/status/378163948740026368 + +https://github.com/scikit-learn/scikit-learn/blob/master/doc/modules/linear_model.rst python + + +## 网友评论 +@视觉动物晴木明川 :分段线性是众多非线性处理方法的本质!//@机器学习那些事儿:你上次说的MLR的分片思想本以为是基于LR-based adaboost 看来要好好学习你的论文了 //@heavenfireray:给个好玩的,我之前演示分段线性的菱形数据,LR-based adaboost的准确率超不过55%(分片线性模型能到99%以上) +http://weibo.com/1718403260/ADrUnChqt + +http://arxiv.org/abs/1401.6413 Online Piecewise Linear Regression via Infinite Depth Context Trees N. Denizcan Vanli, Muhammed O. Sayin, Suleyman S. Kozat + + +## 相关的阅读 +http://www.eccf.ukim.edu.mk/ArticleContents/JCEBI/03%20Miodrag%20Lovric,%20Marina%20Milanovic%20and%20Milan%20Stamenkovic.pdf 时间序列分析 + + From cf83dd9e6bbba7576a1fdee130b46e1a5af52483 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 21 Aug 2014 22:31:55 -0700 Subject: [PATCH 273/485] Update piecewise-linear-regression.md --- awesome/piecewise-linear-regression.md | 5 +++-- 1 file changed, 3 insertions(+), 2 deletions(-) diff --git a/awesome/piecewise-linear-regression.md b/awesome/piecewise-linear-regression.md index d83bf5e..ec304f4 100644 --- a/awesome/piecewise-linear-regression.md +++ b/awesome/piecewise-linear-regression.md @@ -29,9 +29,10 @@ http://mathematica.stackexchange.com/questions/45745/fitting-piecewise-functions http://mobiusfunction.wordpress.com/2012/06/26/piece-wise-linear-regression-from-two-dimensional-data-multiple-break-points/ matlab -http://www.ats.ucla.edu/stat/sas/faq/nlin_optimal_knots.htm SAS +http://stats.stackexchange.com/questions/18468/how-to-do-piecewise-linear-regression-with-multiple-unknown-knots +matlab -http://stats.stackexchange.com/questions/18468/how-to-do-piecewise-linear-regression-with-multiple-unknown-knots 提到R +http://www.ats.ucla.edu/stat/sas/faq/nlin_optimal_knots.htm SAS http://climateecology.wordpress.com/2012/08/19/r-for-ecologists-putting-together-a-piecewise-regression/ R * "Piecewise or segmented regression for when your data has two different linear patterns. Again, comments here are good" source: https://twitter.com/statsforbios/status/378163948740026368 From 796ee0df55a2c1e23a91442be350381c25fd4490 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 21 Aug 2014 22:32:54 -0700 Subject: [PATCH 274/485] Update piecewise-linear-regression.md --- awesome/piecewise-linear-regression.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/awesome/piecewise-linear-regression.md b/awesome/piecewise-linear-regression.md index ec304f4..9899b2f 100644 --- a/awesome/piecewise-linear-regression.md +++ b/awesome/piecewise-linear-regression.md @@ -1,5 +1,6 @@ -分段线性模型资料与软件-入门篇 +# 分段线性模型资料与软件-入门篇 +contributors: @视觉动物晴木明川 @heavenfireray @禅系一之花 关键词: 分段线性模型, From df29beadcac00c6c48c3f156236c13967bceff86 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 22 Aug 2014 00:53:34 -0700 Subject: [PATCH 275/485] Update piecewise-linear-regression.md --- awesome/piecewise-linear-regression.md | 4 +++- 1 file changed, 3 insertions(+), 1 deletion(-) diff --git a/awesome/piecewise-linear-regression.md b/awesome/piecewise-linear-regression.md index 9899b2f..6493e1e 100644 --- a/awesome/piecewise-linear-regression.md +++ b/awesome/piecewise-linear-regression.md @@ -2,11 +2,13 @@ contributors: @视觉动物晴木明川 @heavenfireray @禅系一之花 -关键词: +keywords: 分段线性模型, Piecewise linear regression, Segmented linear regression, +license: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License + ## 教程 https://onlinecourses.science.psu.edu/stat501/node/77 Piecewise linear regression models From 09a57f93dda6d449f54ab157d5bfb9a8a301c7bc Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 22 Aug 2014 01:09:57 -0700 Subject: [PATCH 276/485] Update piecewise-linear-regression.md --- awesome/piecewise-linear-regression.md | 5 +++++ 1 file changed, 5 insertions(+) diff --git a/awesome/piecewise-linear-regression.md b/awesome/piecewise-linear-regression.md index 6493e1e..22e80cc 100644 --- a/awesome/piecewise-linear-regression.md +++ b/awesome/piecewise-linear-regression.md @@ -9,6 +9,11 @@ keywords: license: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License +card box: http://bigdata.memect.com/?tag=piecewiselinearregression + +https://github.com/memect/hao/blob/master/awesome/piecewise-linear-regression.md + + ## 教程 https://onlinecourses.science.psu.edu/stat501/node/77 Piecewise linear regression models From 6b75fc56da2a3aed4ba8628066dac0e40846dbe5 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 22 Aug 2014 01:16:57 -0700 Subject: [PATCH 277/485] Update piecewise-linear-regression.md --- awesome/piecewise-linear-regression.md | 15 +++++---------- 1 file changed, 5 insertions(+), 10 deletions(-) diff --git a/awesome/piecewise-linear-regression.md b/awesome/piecewise-linear-regression.md index 22e80cc..44b6e00 100644 --- a/awesome/piecewise-linear-regression.md +++ b/awesome/piecewise-linear-regression.md @@ -1,15 +1,10 @@ # 分段线性模型资料与软件-入门篇 -contributors: @视觉动物晴木明川 @heavenfireray @禅系一之花 - -keywords: - 分段线性模型, - Piecewise linear regression, - Segmented linear regression, - -license: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License - -card box: http://bigdata.memect.com/?tag=piecewiselinearregression +* contributors: @视觉动物晴木明川 @heavenfireray @禅系一之花 +* keywords: 分段线性模型, Piecewise linear regression, Segmented linear regression, +* license: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License +* cardbox: http://bigdata.memect.com/?tag=piecewiselinearregression +* discussion: https://github.com/memect/hao/issues/70 https://github.com/memect/hao/blob/master/awesome/piecewise-linear-regression.md From 35f6c28e65a83bdcf4587be620e98aaf68841a7a Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 22 Aug 2014 10:07:17 -0700 Subject: [PATCH 278/485] Create opendata-gbif.md --- awesome/opendata-gbif.md | 10 ++++++++++ 1 file changed, 10 insertions(+) create mode 100644 awesome/opendata-gbif.md diff --git a/awesome/opendata-gbif.md b/awesome/opendata-gbif.md new file mode 100644 index 0000000..8682121 --- /dev/null +++ b/awesome/opendata-gbif.md @@ -0,0 +1,10 @@ +http://www.gbif.org/mendeley/usecases research papers + +http://www.gbif.org/newsroom/uses showcases using aggregated data + +http://imsgbif.gbif.org/CMS_ORC/?doc_id=2613&download=1 2014 overview + +http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0066559 research paper on grey squirrel + +http://www.gbif.org/ homepage + From 0084090fdfb8dad439e7487daae4cabb7a509c3c Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 26 Aug 2014 17:02:58 -0700 Subject: [PATCH 279/485] Rename chinese-nlp.md to chinese-word-segmentation.md --- awesome/{chinese-nlp.md => chinese-word-segmentation.md} | 0 1 file changed, 0 insertions(+), 0 deletions(-) rename awesome/{chinese-nlp.md => chinese-word-segmentation.md} (100%) diff --git a/awesome/chinese-nlp.md b/awesome/chinese-word-segmentation.md similarity index 100% rename from awesome/chinese-nlp.md rename to awesome/chinese-word-segmentation.md From d1bedf624d1250c27b3048c5b7465f1e6085f1cb Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 28 Aug 2014 20:24:42 -0700 Subject: [PATCH 280/485] Create nlp.md --- awesome/nlp.md | 150 +++++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 150 insertions(+) create mode 100644 awesome/nlp.md diff --git a/awesome/nlp.md b/awesome/nlp.md new file mode 100644 index 0000000..229bed6 --- /dev/null +++ b/awesome/nlp.md @@ -0,0 +1,150 @@ +# NLP常用信息资源 +contributors: 孔牧 + +## resource portal + +http://www.ldc.upenn.edu/ LDC: The Linguistic Data Consortium + +http://www.clt.gu.se/wiki/nlp-resources NLP Resources + +http://www.aaai.org/AITopics/html/natlang.html AAAI Topics on NLP + +http://www-nlp.stanford.edu/links/statnlp.html Statistical natural language processing and corpus-based computational linguistics: An annotated list of resources + +http://wordnet.princeton.edu/ WordNet + +http://www.keenage.com/ 知网 + + +## group + +http://www-nlp.stanford.edu/ Stanford NLP group + +http://nlp.cs.berkeley.edu/ berkeley NLP group + +http://nlp.ict.ac.cn/index_zh.php 中科院计算所自然语言处理研究组 + +http://www.sogou.com/labs/ Sogou实验室 + +http://linguistics.georgetown.edu/ Department of Linguistics, Georgetown University + +http://ir.hit.edu.cn/ 哈工大社会计算与信息检索研究中心 + + +## people +http://www.umiacs.umd.edu/~hal/ http://nlpers.blogspot.com/ + +http://mimno.infosci.cornell.edu/ David Mimno +* maintainer of MALLET + +# Tools +## NLP Toolbox +http://gate.ac.uk GATE +* 孔牧: 你可以按照它的要求向其中添加组件, 完成自己的nlp任务. 我在的项目组曾经尝试过使用, 虽然它指出组件开发, 但是灵活性还是不高, 所以我们自己又开发了一套流水线。 + +http://nltk.org Natural Language Toolkit(NLTK) + +http://mallet.cs.umass.edu MALLET MAchine Learning for LanguagE Toolkit + + +http://opennlp.apache.org/ OpenNLP + +http://www.ltp-cloud.com/ “语言技术平台云”(LTP-Cloud) +* 孔牧: 这个是一个较完善的流水线了, 不说质量怎么样, 它提供分词、语义标注、 句法依赖、 实体识别。 虽然会出现错误的结果, 但是, 找不到更好的了。 + +https://github.com/xpqiu/fnlp/ 中文自然语言处理工具包 +* 邱锡鹏: 推荐自家的FudanNLP + +## English Stemmer +http://snowball.tartarus.org/ Snowball + +## English POS Tagger +http://nlp.stanford.edu/software/tagger.shtml Stanford POS Tagger + +http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/ TreeTagger + +http://www.coli.uni-saarland.de/~thorsten/tnt/ TnT + +## Parser +http://nlp.stanford.edu/software/lex-parser.shtml Stanford Parser + +http://nlp.cs.berkeley.edu/software.shtml Berkeley Parser + +## English Keyphrase Extractor +http://www.nzdl.org/Kea/index_old.html KEA keyphrase extraction + +## English Name Entity Recognizer +http://nlp.stanford.edu/software/CRF-NER.shtml Stanford NER + +## Chinese Word Segmentation +http://nlp.stanford.edu/software/segmenter.shtml Stanford Word Segmenter + +https://github.com/fxsjy/jieba 中文分词 + +http://ictclas.org/ 中科院分词ICTCLAS +* 孔牧: 一个比较权威的分词器, 相信你最后会选择它作为项目的分词工具, 虽然本身存在很多问题, 但是我找不到更好的开源项目了。 + +http://msdn.microsoft.com/zh-cn/library/jj163981.aspx +* 孔牧: 当然这个是不开源的, 但是分词非常准, 但是悲剧的是它将分词和实体识别同时完成了, 而且分词(在它提供的工具中)不提供词性标注。 + +https://github.com/ansjsun/ansj_seg ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典 + +## speech recognition +http://cmusphinx.sourceforge.net/ CMU Sphinx + + +## Topic Modeling Tools +http://psiexp.ss.uci.edu/research/programs_data/toolbox.htm Matlab Topic Modeling Toolbox 1.4 + +http://gibbslda.sourceforge.net/ GibbsLDA++ + +http://code.google.com/p/glda/ GLDA GPU-accelerated Latent Dirichlet allocation training + +## Search Engines +http://lucene.apache.org/ Lucene + +## jobs +https://nlppeople.com/ + +# classic papers + + +## Chinese Word Segmentaion +http://zhangkaixu.github.io/bibpage/cws.html 张开旭同学整理的文献列表 + +## Information Extraction +(2008) Sunita Sarawagi. Information extraction. Foundations and Trends in Databases. + +## Language Model +(2000) Rosenfeld, R. Two decades of statistical language modeling: where do we go from here?. Proc. IEEE. +(2009) Chengxiang Zhai. Statistical Language Models For information Retrieval. Lecture Notes. +http://www.cs.cmu.edu/~roni/papers/survey-slm-IEEE-PROC-0004.pdf Two decades of Statistical Language Models + +## Parsing +(2009) Sandra Kubler, Ryan McDonald, Joakim Nivre. Dependency Parsing. Synthesis Lectures on Human Language Technologies. + +## Sentiment Analysis and Opinion Mining +(2008) Bo Pang and Lillian Lee. Opinion mining and sentiment analysis. Foundations and Trends in Information Retrieval . + +## Word Sense Disambiguation +(2009) Navigli, R. Word sense disambiguation: A survey. ACM Computing Surveys. + +## Topic Models +http://mimno.infosci.cornell.edu/topics.html Topic modeling bibliography + + +# Reference +1. http://www.newsmth.net/nForum/#!article/NLP/43 zibuyu (得之我幸失之我命), NLP常用信息资源, 水木社区 (Wed Mar 14 23:56:43 2007) + +2. http://www.newsmth.net/nForum/#!article/NLP/3849 zibuyu (得之我幸失之我命), NLP常用开源/免费工具, 水木社区 (Wed Mar 14 23:56:43 2007) + +3. http://www.newsmth.net/nForum/#!article/NLP/5461 zibuyu (得之我幸失之我命), NLP领域经典综述, 水木社区 (Tue Feb 24 11:13:53 2009) + +4. http://www.zhihu.com/question/19929473 "目前常用的自然语言处理开源项目/开发包有哪些?" 孔牧, 邱锡鹏 + + + + + + + From c7628a283314d7d5d6efe89939f29886fdce678a Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 28 Aug 2014 20:27:49 -0700 Subject: [PATCH 281/485] Update nlp.md --- awesome/nlp.md | 4 ++++ 1 file changed, 4 insertions(+) diff --git a/awesome/nlp.md b/awesome/nlp.md index 229bed6..2d82fbf 100644 --- a/awesome/nlp.md +++ b/awesome/nlp.md @@ -2,6 +2,7 @@ contributors: 孔牧 ## resource portal +http://nlp.hivefire.com/ NLP News http://www.ldc.upenn.edu/ LDC: The Linguistic Data Consortium @@ -49,6 +50,9 @@ http://mallet.cs.umass.edu MALLET MAchine Learning for LanguagE Toolkit http://opennlp.apache.org/ OpenNLP +http://alias-i.com/lingpipe/ LingPipe is tool kit for processing text using computational linguistics. + + http://www.ltp-cloud.com/ “语言技术平台云”(LTP-Cloud) * 孔牧: 这个是一个较完善的流水线了, 不说质量怎么样, 它提供分词、语义标注、 句法依赖、 实体识别。 虽然会出现错误的结果, 但是, 找不到更好的了。 From f050877c7b61792405f0990b510943b40c646eba Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 28 Aug 2014 20:28:32 -0700 Subject: [PATCH 282/485] Update nlp.md --- awesome/nlp.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/nlp.md b/awesome/nlp.md index 2d82fbf..5137db1 100644 --- a/awesome/nlp.md +++ b/awesome/nlp.md @@ -1,5 +1,5 @@ # NLP常用信息资源 -contributors: 孔牧 +contributors: zibuyu 算文解字 孔牧 ## resource portal http://nlp.hivefire.com/ NLP News From b3a688955b1ac99f28407c98439217274e08830f Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 28 Aug 2014 20:32:03 -0700 Subject: [PATCH 283/485] Update nlp.md --- awesome/nlp.md | 6 ++++-- 1 file changed, 4 insertions(+), 2 deletions(-) diff --git a/awesome/nlp.md b/awesome/nlp.md index 5137db1..0729fbc 100644 --- a/awesome/nlp.md +++ b/awesome/nlp.md @@ -1,5 +1,5 @@ # NLP常用信息资源 -contributors: zibuyu 算文解字 孔牧 +contributors: zibuyu 算文解字 孔牧 邱锡鹏 裴飞 贺一帆 武博文 ## resource portal http://nlp.hivefire.com/ NLP News @@ -52,6 +52,7 @@ http://opennlp.apache.org/ OpenNLP http://alias-i.com/lingpipe/ LingPipe is tool kit for processing text using computational linguistics. +https://textblob.readthedocs.org/en/dev/ TextBlob: Simplified Text Processing (python) http://www.ltp-cloud.com/ “语言技术平台云”(LTP-Cloud) * 孔牧: 这个是一个较完善的流水线了, 不说质量怎么样, 它提供分词、语义标注、 句法依赖、 实体识别。 虽然会出现错误的结果, 但是, 找不到更好的了。 @@ -59,6 +60,7 @@ http://www.ltp-cloud.com/ “语言技术平台云”(LTP-Cloud) https://github.com/xpqiu/fnlp/ 中文自然语言处理工具包 * 邱锡鹏: 推荐自家的FudanNLP + ## English Stemmer http://snowball.tartarus.org/ Snowball @@ -144,7 +146,7 @@ http://mimno.infosci.cornell.edu/topics.html Topic modeling bibliography 3. http://www.newsmth.net/nForum/#!article/NLP/5461 zibuyu (得之我幸失之我命), NLP领域经典综述, 水木社区 (Tue Feb 24 11:13:53 2009) -4. http://www.zhihu.com/question/19929473 "目前常用的自然语言处理开源项目/开发包有哪些?" 孔牧, 邱锡鹏 +4. http://www.zhihu.com/question/19929473 "目前常用的自然语言处理开源项目/开发包有哪些?" 孔牧, 邱锡鹏, 裴飞, 贺一帆 武博文 From 996ed7c52996ae4da312d369a56faf95373825b0 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 28 Aug 2014 20:33:05 -0700 Subject: [PATCH 284/485] Update nlp.md --- awesome/nlp.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/awesome/nlp.md b/awesome/nlp.md index 0729fbc..0675244 100644 --- a/awesome/nlp.md +++ b/awesome/nlp.md @@ -4,6 +4,8 @@ contributors: zibuyu 算文解字 孔牧 邱锡鹏 裴飞 贺一帆 武博文 ## resource portal http://nlp.hivefire.com/ NLP News +https://nlppeople.com/ NLP Jobs + http://www.ldc.upenn.edu/ LDC: The Linguistic Data Consortium http://www.clt.gu.se/wiki/nlp-resources NLP Resources @@ -109,8 +111,6 @@ http://code.google.com/p/glda/ GLDA GPU-accelerated Latent Dirichlet allocation ## Search Engines http://lucene.apache.org/ Lucene -## jobs -https://nlppeople.com/ # classic papers From d005e9ee1de7af0182cc7bfb0e24762b58dc21b0 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 28 Aug 2014 20:34:31 -0700 Subject: [PATCH 285/485] Update nlp.md --- awesome/nlp.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/nlp.md b/awesome/nlp.md index 0675244..46cd60e 100644 --- a/awesome/nlp.md +++ b/awesome/nlp.md @@ -149,7 +149,7 @@ http://mimno.infosci.cornell.edu/topics.html Topic modeling bibliography 4. http://www.zhihu.com/question/19929473 "目前常用的自然语言处理开源项目/开发包有哪些?" 孔牧, 邱锡鹏, 裴飞, 贺一帆 武博文 - +5. http://www.zhihu.com/question/19895141 "自然语言处理怎么最快入门?" From 3a95860e7e44effd071c4872cbdc7094b34a2d4b Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 28 Aug 2014 21:00:29 -0700 Subject: [PATCH 286/485] Update nlp.md --- awesome/nlp.md | 1 + 1 file changed, 1 insertion(+) diff --git a/awesome/nlp.md b/awesome/nlp.md index 46cd60e..214497f 100644 --- a/awesome/nlp.md +++ b/awesome/nlp.md @@ -18,6 +18,7 @@ http://wordnet.princeton.edu/ WordNet http://www.keenage.com/ 知网 +http://www.corpus4u.org/ 语料库语言学在线 ## group From 46b95116ad3170a5e334497e6c183d6e88b1f7cd Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 29 Aug 2014 09:24:58 -0700 Subject: [PATCH 287/485] Update nlp.md --- awesome/nlp.md | 114 +++++++++++++++++++++++++++++++++++++++++++++++-- 1 file changed, 111 insertions(+), 3 deletions(-) diff --git a/awesome/nlp.md b/awesome/nlp.md index 214497f..d3f9442 100644 --- a/awesome/nlp.md +++ b/awesome/nlp.md @@ -6,6 +6,8 @@ http://nlp.hivefire.com/ NLP News https://nlppeople.com/ NLP Jobs +http://www.cs.rochester.edu/~tetreaul/conferences.html Computational Linguistics / NLP Conferences + http://www.ldc.upenn.edu/ LDC: The Linguistic Data Consortium http://www.clt.gu.se/wiki/nlp-resources NLP Resources @@ -20,11 +22,55 @@ http://www.keenage.com/ 知网 http://www.corpus4u.org/ 语料库语言学在线 + +http://trec.nist.gov/ TREC +* The Text REtrieval Conference (TREC), co-sponsored by the National Institute of Standards and Technology (NIST) and U.S. Department of Defense, was started in 1992 as part of the TIPSTER Text program. + +## tutorial +http://nlp.cs.berkeley.edu/tutorials/variational-tutorial-slides.pdf Variational Inference in Structured NLP Models, Presented at NAACL 2012 with David Burkett. + +http://pages.cs.wisc.edu/~jerryzhu/pub/ZhuCCFADL46.pdf Tutorial on Statistical Machine Learning for NLP 2013 + + +## courses +http://www.stanford.edu/class/cs224n/ CS 224N / Ling 284 — Natural Language Processing + +http://www.cs.berkeley.edu/~klein/cs288/sp10/ CS 288: Statistical Natural Language Processing, Spring 2010 + + +http://demo.clab.cs.cmu.edu/fa2013-11711/index.php/Main_Page Algorithms for NLP: Basic Information (Fall 2013) + +http://www.cs.colorado.edu/~martin/csci5832/lectures_and_readings.html Natural Language Processing, CSCI 5832 FALL 2013 + +http://www1.cs.columbia.edu/~julia/courses/CS4705/syllabus10.htm COMS 4705: Natural Language Processing, Fall 2010 + +http://www1.cs.columbia.edu/~julia/courses/CS4706/syllabus12.htm CS4706: Spoken Language Processing, Spring 2012 + +http://www.cs.cornell.edu/courses/cs4740/2014sp/ CS 4740/5740 - Introduction to Natural Language Processing, Spring 2014 + +http://l2r.cs.uiuc.edu/~danr/Teaching/CS546-13/ Machine Learning and Natural Language Spring 2013 + +http://www.cs.jhu.edu/~jason/465/ Natural Language Processing Course # 600.465 — Fall 2013 + +http://web.stanford.edu/class/cs224s/ CS 224S/LINGUIST 285 Spoken Language Processing + +http://www.umiacs.umd.edu/~resnik/ling773_sp2014/ Ling773/CMSC773/INST728C, Spring 2014 Computational Linguistics II + +http://cs.nyu.edu/courses/spring13/CSCI-GA.2590-001/index.html + +http://www.cis.upenn.edu/~cis530/ CIS 530 Fall 2013 Computational Linguistics + +http://pages.cs.wisc.edu/~jerryzhu/cs769.html CS 769: Advanced Natural Language Processing Spring 2010 + +http://pages.cs.wisc.edu/~bsnyder/cs769.html + + ## group +http://nlp.stanford.edu/ Stanford NLP group -http://www-nlp.stanford.edu/ Stanford NLP group +http://nlp.cs.berkeley.edu/ Berkeley NLP group -http://nlp.cs.berkeley.edu/ berkeley NLP group +http://www.lti.cs.cmu.edu/ CMU Language Technologies Institute http://nlp.ict.ac.cn/index_zh.php 中科院计算所自然语言处理研究组 @@ -34,13 +80,73 @@ http://linguistics.georgetown.edu/ Department of Linguistics, Georgetown Univer http://ir.hit.edu.cn/ 哈工大社会计算与信息检索研究中心 +http://www.childrenshospital.org/research-and-innovation/research-labs/natural-language-processing-lab + +https://wiki.umiacs.umd.edu/clip/index.php/Main_Page + +http://nlp.cs.nyu.edu/ + +http://nlp.cis.upenn.edu/ + +http://www.eng.utah.edu/~cs5340/ + + +## Textbook +http://www.cs.colorado.edu/~martin/slp2.html SPEECH and LANGUAGE PROCESSING 2nd edition 2009 + +http://cognet.mit.edu/library/books/view?isbn=0262133601 Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999. +* http://www.csd.uwo.ca/~olga/Courses//Winter2010//CS4442_9542b/Books/StatNatLangProc/ + ## people -http://www.umiacs.umd.edu/~hal/ http://nlpers.blogspot.com/ +http://nlp.stanford.edu/~manning/ + +http://www.umiacs.umd.edu/~hal/ http://mimno.infosci.cornell.edu/ David Mimno * maintainer of MALLET + +http://www.cs.berkeley.edu/~klein/ Dan Klein + +http://cs.brown.edu/people/ec/home.html Eugene Charniak + +http://www.cs.colorado.edu/~martin/ + +http://www1.cs.columbia.edu/~julia/ + +http://www.cs.cornell.edu/home/cardie/ + +http://www.eecs.harvard.edu/shieber/ +* computational Linguistics + +http://l2r.cs.uiuc.edu/~danr/ + +http://www.cs.jhu.edu/~jason/ + +http://www.stanford.edu/~jurafsky/ + +http://www.umiacs.umd.edu/~resnik/ + +http://cs.nyu.edu/grishman/ + +http://homes.cs.washington.edu/~taskar/ + +http://www.cis.upenn.edu/~nenkova/ + +http://www.cs.utah.edu/~riloff/ + +http://pages.cs.wisc.edu/~jerryzhu/ + +http://pages.cs.wisc.edu/~bsnyder/ + +http://www.cs.cmu.edu/~nasmith/ + +http://www.cs.cmu.edu/~alavie/ + +http://www.cs.cmu.edu/~yiming/ + + # Tools ## NLP Toolbox http://gate.ac.uk GATE @@ -79,6 +185,8 @@ http://nlp.stanford.edu/software/lex-parser.shtml Stanford Parser http://nlp.cs.berkeley.edu/software.shtml Berkeley Parser +https://github.com/BLLIP/bllip-parser Copyright Mark Johnson, Eugene Charniak, 24th November 2005 --- August 2006 + ## English Keyphrase Extractor http://www.nzdl.org/Kea/index_old.html KEA keyphrase extraction From b7961bedbf77ff3ea5417ad2ca72c0aa871c6aed Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 29 Aug 2014 11:17:34 -0700 Subject: [PATCH 288/485] Update nlp.md --- awesome/nlp.md | 1 - 1 file changed, 1 deletion(-) diff --git a/awesome/nlp.md b/awesome/nlp.md index d3f9442..632e3e6 100644 --- a/awesome/nlp.md +++ b/awesome/nlp.md @@ -144,7 +144,6 @@ http://www.cs.cmu.edu/~nasmith/ http://www.cs.cmu.edu/~alavie/ -http://www.cs.cmu.edu/~yiming/ # Tools From 3e91ee6246891a832d464e0c539117d5817ec708 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 29 Aug 2014 11:21:31 -0700 Subject: [PATCH 289/485] Update nlp.md --- awesome/nlp.md | 5 +++++ 1 file changed, 5 insertions(+) diff --git a/awesome/nlp.md b/awesome/nlp.md index 632e3e6..d62585b 100644 --- a/awesome/nlp.md +++ b/awesome/nlp.md @@ -42,6 +42,8 @@ http://demo.clab.cs.cmu.edu/fa2013-11711/index.php/Main_Page Algorithms for NLP: http://www.cs.colorado.edu/~martin/csci5832/lectures_and_readings.html Natural Language Processing, CSCI 5832 FALL 2013 +http://www.cs.columbia.edu/~cs4705/ COMS W4705: Natural Language Processing 2013 + http://www1.cs.columbia.edu/~julia/courses/CS4705/syllabus10.htm COMS 4705: Natural Language Processing, Fall 2010 http://www1.cs.columbia.edu/~julia/courses/CS4706/syllabus12.htm CS4706: Spoken Language Processing, Spring 2012 @@ -65,6 +67,7 @@ http://pages.cs.wisc.edu/~jerryzhu/cs769.html CS 769: Advanced Natural Language http://pages.cs.wisc.edu/~bsnyder/cs769.html + ## group http://nlp.stanford.edu/ Stanford NLP group @@ -113,6 +116,8 @@ http://cs.brown.edu/people/ec/home.html Eugene Charniak http://www.cs.colorado.edu/~martin/ +http://www.cs.columbia.edu/~mcollins/ + http://www1.cs.columbia.edu/~julia/ http://www.cs.cornell.edu/home/cardie/ From 6ceaeeaa4c34e885a60a379367fcec2abd472fd5 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 29 Aug 2014 11:22:44 -0700 Subject: [PATCH 290/485] Update nlp.md --- awesome/nlp.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/awesome/nlp.md b/awesome/nlp.md index d62585b..2b15752 100644 --- a/awesome/nlp.md +++ b/awesome/nlp.md @@ -167,7 +167,8 @@ http://alias-i.com/lingpipe/ LingPipe is tool kit for processing text using comp https://textblob.readthedocs.org/en/dev/ TextBlob: Simplified Text Processing (python) -http://www.ltp-cloud.com/ “语言技术平台云”(LTP-Cloud) +https://github.com/HIT-SCIR/ltp 语言技术平台(Language Technology Platform,LTP)是哈工大社会计算与信息检索研究中心历时十年开发的一整套中文语言处理系统。 +* http://www.ltp-cloud.com/ “语言技术平台云”(LTP-Cloud) * 孔牧: 这个是一个较完善的流水线了, 不说质量怎么样, 它提供分词、语义标注、 句法依赖、 实体识别。 虽然会出现错误的结果, 但是, 找不到更好的了。 https://github.com/xpqiu/fnlp/ 中文自然语言处理工具包 From 1b158dba17491054fa37e3f4d42cd3bf6506bc63 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 29 Aug 2014 11:25:16 -0700 Subject: [PATCH 291/485] Update nlp.md --- awesome/nlp.md | 41 ++++++++++++++++++++++++++++++++++++++++- 1 file changed, 40 insertions(+), 1 deletion(-) diff --git a/awesome/nlp.md b/awesome/nlp.md index 2b15752..c16de3c 100644 --- a/awesome/nlp.md +++ b/awesome/nlp.md @@ -1,5 +1,5 @@ # NLP常用信息资源 -contributors: zibuyu 算文解字 孔牧 邱锡鹏 裴飞 贺一帆 武博文 +contributors: zibuyu 算文解字 孔牧 邱锡鹏 裴飞 贺一帆 武博文 浔雨 ## resource portal http://nlp.hivefire.com/ NLP News @@ -96,6 +96,7 @@ http://www.eng.utah.edu/~cs5340/ ## Textbook http://www.cs.colorado.edu/~martin/slp2.html SPEECH and LANGUAGE PROCESSING 2nd edition 2009 +* 浔雨: "自然语言处理综论" 这本书的权威自不用说,译者是冯志伟老师和孙乐老师,当年读这本书的时候,还不知道冯老师是谁,但是读起来感觉非常好,想想如果没有在这个领域积攒多年的实力,是不可能翻译的这么顺畅的。这本书在国内外的评价都比较好,对自然语言处理的两个学派(语言学派和统计学派)所关注的内容都有所包含,但因此也失去一些侧重点。从我的角度来说更偏向于统计部分,所以需要了解统计 http://cognet.mit.edu/library/books/view?isbn=0262133601 Chris Manning and Hinrich Schütze, Foundations of Statistical Natural Language Processing, MIT Press. Cambridge, MA: May 1999. * http://www.csd.uwo.ca/~olga/Courses//Winter2010//CS4442_9542b/Books/StatNatLangProc/ @@ -253,6 +254,44 @@ http://www.cs.cmu.edu/~roni/papers/survey-slm-IEEE-PROC-0004.pdf Two decades of http://mimno.infosci.cornell.edu/topics.html Topic modeling bibliography +Parsing(句法结构分析~语言学知识多,会比较枯燥) + + Klein & Manning: "Accurate Unlexicalized Parsing" ( ) + Klein & Manning: "Corpus-Based Induction of Syntactic Structure: Models of Dependency and Constituency" (革命性的用非监督学习的方法做了parser) + Nivre "Deterministic Dependency Parsing of English Text" (shows that deterministic parsing actually works quite well) + McDonald et al. "Non-Projective Dependency Parsing using Spanning-Tree Algorithms" (the other main method of dependency parsing, MST parsing) + + +Machine Translation(机器翻译,如果不做机器翻译就可以跳过了,不过翻译模型在其他领域也有应用) + + Knight "A statistical MT tutorial workbook" (easy to understand, use instead of the original Brown paper) + Och "The Alignment-Template Approach to Statistical Machine Translation" (foundations of phrase based systems) + Wu "Inversion Transduction Grammars and the Bilingual Parsing of Parallel Corpora" (arguably the first realistic method for biparsing, which is used in many systems) + Chiang "Hierarchical Phrase-Based Translation" (significantly improves accuracy by allowing for gappy phrases) + + +Language Modeling (语言模型) + + Goodman "A bit of progress in language modeling" (describes just about everything related to n-gram language models 这是一个survey,这个survey写了几乎所有和n-gram有关的东西,包括平滑 聚类) + Teh "A Bayesian interpretation of Interpolated Kneser-Ney" (shows how to get state-of-the art accuracy in a Bayesian framework, opening the path for other applications) + + +Machine Learning for NLP + + Sutton & McCallum "An introduction to conditional random fields for relational learning" (CRF实在是在NLP中太好用了!!!!!而且我们大家都知道有很多现成的tool实现这个,而这个就是一个很简单的论文讲述CRF的,不过其实还是蛮数学= =。。。) + Knight "Bayesian Inference with Tears" (explains the general idea of bayesian techniques quite well) + Berg-Kirkpatrick et al. "Painless Unsupervised Learning with Features" (this is from this year and thus a bit of a gamble, but this has the potential to bring the power of discriminative methods to unsupervised learning) + +Information Extraction + + Hearst. Automatic Acquisition of Hyponyms from Large Text Corpora. COLING 1992. (The very first paper for all the bootstrapping methods for NLP. It is a hypothetical work in a sense that it doesn't give experimental results, but it influenced it's followers a lot.) + Collins and Singer. Unsupervised Models for Named Entity Classification. EMNLP 1999. (It applies several variants of co-training like IE methods to NER task and gives the motivation why they did so. Students can learn the logic from this work for writing a good research paper in NLP.) + +Computational Semantics + + Gildea and Jurafsky. Automatic Labeling of Semantic Roles. Computational Linguistics 2002. (It opened up the trends in NLP for semantic role labeling, followed by several CoNLL shared tasks dedicated for SRL. It shows how linguistics and engineering can collaborate with each other. It has a shorter version in ACL 2000.) + Pantel and Lin. Discovering Word Senses from Text. KDD 2002. (Supervised WSD has been explored a lot in the early 00's thanks to the senseval workshop, but a few system actually benefits from WSD because manually crafted sense mappings are hard to obtain. These days we see a lot of evidence that unsupervised clustering improves NLP tasks such as NER, parsing, SRL, etc, + # Reference 1. http://www.newsmth.net/nForum/#!article/NLP/43 zibuyu (得之我幸失之我命), NLP常用信息资源, 水木社区 (Wed Mar 14 23:56:43 2007) From eb126c44bf2fc7360171514cd5b64d2b74eadfec Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 29 Aug 2014 12:57:55 -0700 Subject: [PATCH 292/485] Update nlp.md --- awesome/nlp.md | 1 - 1 file changed, 1 deletion(-) diff --git a/awesome/nlp.md b/awesome/nlp.md index c16de3c..8c4d580 100644 --- a/awesome/nlp.md +++ b/awesome/nlp.md @@ -1,5 +1,4 @@ # NLP常用信息资源 -contributors: zibuyu 算文解字 孔牧 邱锡鹏 裴飞 贺一帆 武博文 浔雨 ## resource portal http://nlp.hivefire.com/ NLP News From b19f44bcbf3eba4fe1f8f9f5a9f80d0851bc5420 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 2 Sep 2014 12:17:18 -0700 Subject: [PATCH 293/485] Update README.md --- README.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index 880d5a3..e6ba6d3 100644 --- a/README.md +++ b/README.md @@ -256,10 +256,10 @@ http://www.weibo.com/5220650532/BhqBFulcq?mod=weibotime * 2014-07-23 http://t.cn/RPUxwc6 **万维网科学暑期学校的PPT上线了** Web Science Summer School 2014: Age of Data 院士级巨头Wendy Hall (ACM前主席),Nigel Shadbolt (英国政府公开数据领导者),Jim Hendler(语义网之父)等主讲。内容涉及链接数据,开放数据,数据分析等。共41个资源 感谢@lidingpku 推荐 [ [微博](http://www.weibo.com/5220650532/BeRusDWdT?mod=weibotime) ] * 2014-07-22 @呯呀么呯 问:**识别交通标志,怎么确定图片里有交通标志,具体在哪里**?答:这个应该算目标识别和物体识别,CV的经典教程都有object recognition的内容可以参考。具体到交通标志识别,Github上有些开源代码 Matlab C++ Java的都有http://t.cn/RPLR99i 计算机视觉@DeepGlint赵勇 是专家,推荐关注 [ [讨论](https://github.com/memect/hao/issues/12) ] [ [微博](http://www.weibo.com/5220650532/BeFSRtUKj) ] - ** @朝花夕拾录: 正好发现一篇学术界的综述文,An overview of traffic sign detection methods http://t.cn/RPLdXUw [ [微博](http://www.weibo.com/3204614242/BeHKUs2la) ] + * @朝花夕拾录: 正好发现一篇学术界的综述文,An overview of traffic sign detection methods http://t.cn/RPLdXUw [ [微博](http://www.weibo.com/3204614242/BeHKUs2la) ] * 2014-07-22 问:@北冥渔翁:**日常维护管理的有吗?dba方面**? 答:oracle dba在学习官方文档外,可以跟踪大神的博客,篇幅都不长且能很快掌握很多有用的实战经验。此外面试问题也反映了dba的技术要点。合集传送门 http://t.cn/RPLRu9v 推荐资深dba微博 @yangtingkun 有很多好文摘 http://t.cn/RPLRu9P [ [讨论](https://github.com/memect/hao/issues/10) ] [ [微博](http://www.weibo.com/5220650532/BeFY0AW0V) ] - ** @老熊的三分地 (Jun Xiong) 也是Oracle DBA的资深专家,特别推荐他的同名的中文博客 laoxiong.net http://t.cn/a9OBev 很多干货 [ [微博](http://www.weibo.com/5220650532/BeHz6bKWo?mod=weibotime) ] + * @老熊的三分地 (Jun Xiong) 也是Oracle DBA的资深专家,特别推荐他的同名的中文博客 laoxiong.net http://t.cn/a9OBev 很多干货 [ [微博](http://www.weibo.com/5220650532/BeHz6bKWo?mod=weibotime) ] * 2014-07-21 @AixinSG 昨天推荐了**CommonCrawl** .这是Google Adsense之父Gil Elbaz离开Google后,为了实现开放数据的理想创立的(他另一个项目是Factual)项目理想是解决大搜索引擎对数据的垄断,鼓励中小企业利用Web数据创业.最新的数据有50亿页面,541T.这里搜集CC相关资源 http://t.cn/RP2Hwxp 待续 [ [微博](http://www.weibo.com/5220650532/BexYIu4TO?mod=weibotime) ] * 续1 这么大的数据显然没法下载处理 好在AWS提供了存储 http://t.cn/RP2Hn6t 可以直接跑Elastic MapReduce http://t.cn/RP2Hn6c 这里有示范代码 [ [微博](http://www.weibo.com/5220650532/Bey6WuG8B?mod=weibotime) ] From 054aed314ae9ffc89facb500841735fdb9fff458 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 2 Sep 2014 13:35:15 -0700 Subject: [PATCH 294/485] Update README.md --- README.md | 221 ++++++++++++++++++++++++++++++++++++++++++++++++++---- 1 file changed, 205 insertions(+), 16 deletions(-) diff --git a/README.md b/README.md index e6ba6d3..2f92d0d 100644 --- a/README.md +++ b/README.md @@ -30,29 +30,218 @@ ## 问答案例 -2014-08-13 最近我们推荐过四组深度学习的资源,分别为语音检索,文本挖掘/自然语言处理,图像检索,最热深度学习Github项目。为方便大家浏览/粘帖,现在制作成可下载的PPT,每页是一个推荐资源的预览。百度云盘 http://t.cn/RPWoSHq slideshare http://t.cn/RPWoSHb 原始PPT http://t.cn/RPWoSH4 -http://www.weibo.com/5220650532/Bi6AwyhV1?mod=weibotime +2014-08-30 半夜推荐 Leetcode 资源整理合集。 它目前有150道题,是程序员肉身翻墙的好东西,也适合快速提高自我修养。精选资料在我的卡片盒子里 http://t.cn/RhwwCGL 现在有6项: @灵魂机器 (Frank Dai) 的刷题宝典,若干人的涮题体验。这是一个会成长的卡片盒子,欢迎添加好东西。 [ [微博]({http://www.weibo.com/5220650532/BkJheojHW}) ] -2014-08-13 http://t.cn/RPW6muz ACL2014 Semantic Parsing Workshop的slides 感谢@老淘 @波多野丽猪 推荐 -http://www.weibo.com/5220650532/Bi6fQ8wYq?mod=weibotime -2014-08-13 问:@VoidStars 请问想提取一段文本里的中文姓名(0~1个) 有好的开源库和教程吗 答: 常见方法就是分词,再利用姓名词库和上下文关系来确定。 知呼有一个综述。google有专利。 @52nlp 也有大量博文讲中文分词。开源工具比较有名的有jieba, snownlp, stanford-nlp-ner. http://t.cn/RPWP2h1 -http://www.weibo.com/5220650532/Bi3VHfSFP?mod=weibotime +2014-08-30 SAS base 今年KDnudgget数据分析常用工具民意调查( http://t.cn/RhZ0HjY )排名第9,而排名靠前的都有免费版。现在SAS推这个免费版,很好奇它明年的排名 //@刘政-SAS: 回复@侯广_充电ing:大学免费版跟我要,有base, graph, miner, or, 计量经济学和时间序列。//@侯广_充电ing:全国数学建模马上就要开始 [ [微博]({http://www.weibo.com/5220650532/BkFytfb9v}) ] -2014-08-13 问: @yongsun 有没有开源或者免费的英文语音识别软件/或项目?打算翻译一些冰球教学的视频,想结合识别结果来进行听译 答: Windows7/8 自带语音识别功能,Google Chrome有基于云端服务的识别插件,软件方面Nuaunce的Dragon很牛(SIRI就是靠它做语音识别). 开源软件列表看维基百科。http://t.cn/RPODalA -http://www.weibo.com/5220650532/Bi3ti7wAd?mod=weibotime +2014-08-30 问: @小磊_DM_中二青年 在学搜索,请问有Nutch的相关资料吗? 答: nutch主要做网络爬虫,可以和solr结合做搜索引擎。问答进展: http://t.cn/RhZN72R (卡片盒子 http://t.cn/RhZN72E 6个资源): nutch 的中英文安装短教程(此外看Nutch wiki); nutch工作流程; 最近很火的CommonCrawl也转用nutch [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BkFg8v2lw}) ] -2014-08-13 问: 做 logistic regression 有啥好用的库吗? 需要处理几十万个 features, 然后几十亿个training data的。 features 是极其稀疏的,Sparsity大概万分之一左右吧 答: 有不少开源库: Spark(MLlib), Mahout, R+Hadoop, Hadoop, Scalding(Conjecture)。有2014分析指出SPARK比较快。http://t.cn/RPOddon -http://www.weibo.com/5220650532/Bi3axDIR8?mod=weibotime +2014-08-30 回复@icanswimwell: 美国的数据前几天才发过 http://t.cn/RhZJNoM (卡片盒子现有19项 http://t.cn/RhZJNox ) 美国政府在data.gov开放了十多万个免费、免版权的公开数据集 //@icanswimwell:感谢分享~~要有美国的就更好啦[挖鼻屎][挖鼻屎] [ [微博]({http://www.weibo.com/5220650532/BkEg1kOpm}) ] -2014-08-12 @刘知远THU 推荐:翟成祥老师(UIUC)的综述专著:Statistical Language Models for Information Retrieval(信息检索中的统计语言模式)(2008),从BM25到PLSA, LDA,回顾了领域发展并总结了未来的挑战。 -http://www.weibo.com/5220650532/BhWzutAft?mod=weibotime +2014-08-30 回复@山雨清新: 原帖就是一个卡片盒子,链接可以在那里找到,现在已经16项了。同附链接 (200k book,1M rating)书籍 http://t.cn/RhZMPWc (10k movie, 10M rating)电影 http://t.cn/RhZMPWt //@山雨清新:请问新增补的两个评论数据集的链接? 找了下,没找到 //@好东西传送门:回复@好东西传送 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BkDZfdlu2}) ] -2014-08-12 [NLP讲义下载,125页,PDF] 翟成祥老师(UIUC)今年在澳大利亚数据库博士短训班的教程:"Statistical Methods for Mining Big Text Data" 介绍两种基于统计语言模型(Statistics Language Model)的基本话题模型(Topic Model): LDA和PLSA的原理及应用。最后列出六个未来研究课题。http://t.cn/RPO7vtW -http://www.weibo.com/5220650532/BhWo26Y93?mod=weibotime +2014-08-30 回复@好东西传送门: 又增补了两个评论数据集: (10k movie, 10M rating)电影; (200k book,1M rating)书籍 //@好东西传送门:回复@海中的沙粒: 感谢提醒,这一次主要是针对该问题的资源整理,目前列表里原来有12项,现在有增补了CMU的ClueWeb2009网页数据集(10亿页),NIST TREC的测试数据 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BkDzbsk24}) ] -2014-08-12 @talkto廖华 请问有没有好用的中文词汇的语义相似度计算工具?答:多种分布式表示方法都可以计算语义相似度,中英文均可以处理。如近来的word2vec http://t.cn/RPOvesp 和glove。@刘知远THU 推荐ESA(Explicit semantic analysis),在稳定性上可能更优,一些开源项目和文章如下 http://t.cn/RPOvesj -http://www.weibo.com/5220650532/BhWdIDon6?mod=weibotime +2014-08-30 [资料整理] @鱼片的小露宝 我正在学习hadoop,我想知道从哪里可以获取一些原始数据样本(就好像hadoop权威指南里面所说的NCDC的气象数据日志)来做数据分析的练习? 答: 一些大数据与目录: http://t.cn/RhZqcq9 气象遥感数据因有图片通常比较大;政府数据包罗万象;(社交)网络数据边多。 [ [微博]({http://www.weibo.com/5220650532/BkD1Yu1WE}) ] + +2014-08-30 [数据资源] 日本政治、经济、地理数据大全(免费,可下载)http://t.cn/RhZb561 日本开放政府数据网站测试版(www.data.gov.jp)于2014年发布,现有来自21个政府部门的10,411个数据集。 其他数据源:历年人口、工业、经济普查数据; 政府预算数据; 地理信息数据;1947-2003议会选举数据 等 [ [微博]({http://www.weibo.com/5220650532/BkCwfoJ0Y}) ] + +2014-08-29 [好文略读|机器学习] Big data opportunities and challenges: Discussions from data analytics perspectives (综述,@南大周志华 等著)http://t.cn/Rh7IH66 感谢推荐人 @刘知远THU @RAYMOND__WU 等 [ [微博]({http://www.weibo.com/5220650532/BkuQ30GSA}) ] + +2014-08-29 Google2014 KDD 的文章,讲他们自动知识图谱提取项目Knowledge Vault的最新进展,比较了人肉众包生成的知识图谱(dbpedia, freebase,...): http://t.cn/RhhjLVe Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion [ [微博]({http://www.weibo.com/5220650532/Bkt39dyDU}) ] + +2014-08-28 问: @钱知易: 能不能帮我找找大规模图像检索方面的资料以及这个领域的牛人(国内国外)? 答: 初步结果:http://t.cn/RPe5HBt 中科大 杨晓冬有一个很全面的计算机视觉领域资料整理。兰晓松 在科学网上著有专家列表,2014年9月自动化所有一个“计算机视觉前沿研讨会” ,列举了许多国内著名专家 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BklQZALi7}) ] + +2014-08-28 问: @Don0719 有没有做正电子无损检测的大佬或者相关的书籍、文献啊? 答: 欢迎材料学问题。 问答进展看这里 http://t.cn/RPsI3yE 推荐R. Krause Rehberg 2010年的幻灯片。正电子湮没研究论文很多,还有专门国际会议。无损检测相关找到6篇。欢迎专家补充指正。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BklhZul43}) ] + +2014-08-27 问:@月光馆果果妈 请问从语音和视频资源共同进行学习的算法谁比较有研究啊 答: 深度学习是当前趋势(斯坦福,微软,谷歌都这样)。专家 Andrew Ng, Geoffrey Hinton, Li Deng, Louis-Philippe Morency, Ruslan Salakhutdinov, 微博技术控:@言语挖挖 欢迎补充指正 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BkdhGpY4d}) ] + +2014-08-27 传送一个关于学术笑话: 论文评审分两类,一种呢是评审截止日期早就过了,另一种是还没过期的。“There are two types of manuscript reviews. Those that are overdue, and those that are not overdue yet.” 如果看数据分布的话,估计最常见的是“明天就是评审截止日了,咋一篇都没审呢?” [ [微博]({http://www.weibo.com/5220650532/BkctZ33Iu}) ] + +2014-08-27 非常感谢 @董力at北航 他本科时候做的一个KDD2012demo http://t.cn/RPDwF8S (情感细分为厌恶、愤怒、高兴、悲伤四类 )很好玩,分析各省人民的情绪彼岸花,小心地图炮呦?能下载数据。 此外他以前还推荐过 http://t.cn/Sc68lv Sentiment Symposium Tutorial [ [微博]({http://www.weibo.com/5220650532/Bkco7lkJU}) ] + +2014-08-27 非常感谢 @posa88 推荐 lingpipe的影评数据(基于IMDB)由康奈尔的 Lillian Lee 和 Bo Pang 提供 //@posa88:大连理工这个库用过,还行:http://t.cn/RPesat2 ,http://t.cn/bln2a [ [微博]({http://www.weibo.com/5220650532/BkcgExrKL}) ] + +2014-08-27 问: @蒋宁平 求推荐中文情感计算资源,包括中文情感词库,尤其是细分情感种类的(比如喜爱,愤怒,悲伤…等)。 答:问答进展:http://t.cn/RPeutqb 初步答案:斯坦福有公开课和基于深度学习的成果。知乎有资源列表。刘兵教授有综述。数据看 NTUSD, 知网。微博问 @TT小和子 @黠之大者 欢迎指正补充 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BkbzO54pR}) ] + +2014-08-27 回复@DataMooc: 有相关问答,整理中,参见 http://t.cn/RPmIw2I //@DataMooc:有没有Python版的中文分词开源工具? //@好东西传送门:搭车再次推荐ansj, 孙健写的很有用的中文分词工具。http://weibo.com/5220650532/Bh9WGeljD //@ansj: 应该不是[衰] //@好东西传送门:@夏二货爱吃 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bkb1stYmh}) ] + +2014-08-27 搭车再次推荐ansj, 孙健写的很有用的中文分词工具。http://weibo.com/5220650532/Bh9WGeljD //@ansj: 应该不是[衰] //@好东西传送门:@夏二货爱吃胡萝卜: 万恶的微软官网居然用自动翻译!是孙剑 //@夏二货爱吃胡萝卜:@图像视觉研究:的确是说错了。是孙剑。 //@严浩RB:这个孙健是写ansj的那个吗? [ [微博]({http://www.weibo.com/5220650532/Bk8kLotLu}) ] + +2014-08-26 问:@pkuxkxjason 求推荐靠谱的自动摘要软件/服务。特别是针对科技类内容的。答: 问题进展 http://t.cn/RPg0Dkn 两个quora回答但实用工具可靠性低。还要请 @算文解字 指点迷津,他说过 “单文档summerization不是被snippet判死刑了么?” 找到相关文章 http://t.cn/RPg0DkH [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bk4hHahVS}) ] + +2014-08-26 问答进展:http://t.cn/RPgpH65 有不少IEEE Fellow, 华人还有 UIUC马毅(现在上海) 微软亚洲研究院:孙健 。到CVPR, ICCV上多看看能找到不少当打的大小牛 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bk4aUlKJi}) ] + +2014-08-26 问: @杨洋MQ Social Network 中 Spammer Detection 方面 都有哪些 中文、英文的数据集?答: 初步回答:http://t.cn/RPgtKAl 公开的大多是email,中文较老有2006 TREC , 2005 CCERT;英文有Twitter数据集和Spammer列表。近年未公开:Berkeley, ASU有Twitter研究; 国内要联系上交大。求更多链接 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bk2BaFaY2}) ] + +2014-08-25 //@昊奋: 这个之前通过@好东西传送门 介绍知识图谱时,介绍过这个probabilistic kb。其实离真正大规模可用还有很长路要走。所谓的可信大部分可在freebase中找到,也就是说freebase的质量和规模决定了很多 [ [微博]({http://www.weibo.com/5220650532/BjVr9tH7z}) ] + +2014-08-25 //@velvel2: 1)首位华人AAAI fellow杨强博士研究转移学习很多年了。多任务学习是其中一种 http://t.cn/aepeZn 2)Bengio的深度学习新书有一章也是关于转移学习和多任务学习的 http://t.cn/RPdxFds [ [微博]({http://www.weibo.com/5220650532/BjVr0j8uQ}) ] + +2014-08-24 回复@phunter_lau: 感谢有爱心的专家 传送理由: 面试官的面经 //@phunter_lau:回复@好东西传送门:复制粘贴一下“我都是国外面经,都是谈谈你之前做过啥,你就做过啥讲了就行了。我们一般不测试面试人什么问题,默认他简历上说的都是真实的,然后拿几个实际问题看看他的看法和解决方向如何就基本上知道 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BjLGK2IJe}) ] + +2014-08-24 问: @尘绳聋-SYSU 大大ML面经来一发?急需 答:假设需要的是软件工程师求职,寻找机器学习(machine learning)面经。建议多看题,把自己的知识强化。很多问答系统都有常见面试问题列表, 初步有 reddit, stackoverflow, quora, 知乎 等。问答进展: http://t.cn/RPB1Sxf 欢迎补充指正,尤其是具体面经 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BjLqu8Kw0}) ] + +2014-08-24 回复@AixinSG: 多谢补充,NUS 在这方面做的很不错,链接传送 http://t.cn/RPB3zgO 还有一篇相关的是 Addressing cold-start in app recommendation: latent user models constructed from twitter followers //@AixinSG:SIGIR14 有一篇 New and Improved: Modeling Versions to Improve App Recom [ [微博]({http://www.weibo.com/5220650532/BjLil85H7}) ] + +2014-08-24 问: @应豪超 :有关于手机app推荐的文章吗 答: 就是找论文,关键词 Recommender Systems that Suggest Mobile Applications 。 初步结果 找到一个2011年移动推荐讨论班的幻灯片(领域综述),一篇IUI2013 (列举feature), 一篇SIGIR 2013, 还有若干相关, 问答进展: http://t.cn/RPBuvdZ 欢迎指正补充 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BjLc4frgA}) ] + +2014-08-24 传送理由:清晰的解题思路。补充一下,Haijie Gu 是GraphLab的联合创始人,现在CMU读博士。GraphLab 2013年融资6百多万美元。 (原文格式更好看一些,http://t.cn/RPBR5pm) [ [微博]({http://www.weibo.com/5220650532/BjKQej5rE}) ] + +2014-08-24 转发理由: 你懂的 //@何_登成: //@传媒老跟班:@设定控 做过一个谷歌专题 http://t.cn/RvnDzSG ,提供了多种访问谷歌的方式,大家可以看看。尤其推荐其中提到的#美国在线# http://t.cn/hVO8E ,该站搜索结果就是谷歌的结果,速度很快。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BjKjCjeBa}) ] + +2014-08-24 回复@MD_1stUP锐之翼: 全是野生的,所有物种活动活动观察记录网上都有,这是一条荷兰阿姆斯特丹的观察记录: http://t.cn/RPB5AWt 超市里只卖养殖的,野生的恐怕只能依律就地销毁 //@MD_1stUP锐之翼:是入侵华人超市吧[哼] [ [微博]({http://www.weibo.com/5220650532/BjHn5uCyE}) ] + +2014-08-24 问: @十月伤感wb 可否推荐些基于社交网络的推荐算法的资料,以及数据集,特别是数据集的下载地址谢谢了做推荐的很多都需要 答: [初步传送] 关于数据集: 斯坦福大规模网络数据集大全 (SNAP) http://t.cn/RPBqrcJ 关于推荐系统:看这里 http://t.cn/RPBqrci 问答进展: http://t.cn/RPBqrc6 求指点 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BjHkmuGpo}) ] + +2014-08-24 @斯库里 传送理由:为广泛传播的社交媒体消息提供严谨的科学依据 http://weibo.com/1820578701/Be7W6AouY [ [微博]({http://www.weibo.com/5220650532/BjHe7o3sj}) ] + +2014-08-24 大闸蟹来了。近年来全国满街都是阳澄湖大闸蟹的招牌,可你知道吗,大闸蟹也正在入侵欧美呢! 早上查了全球生物多样性信息库(GBIF, 5亿条带GPS定位的物种活动记录), Eriocheir sinensis (Chinese mitten crab)找到3400+记录: 分布在欧洲沿海,北美东部与五大湖区。当然, 阳澄湖不算 http://t.cn/RPBGJ8y [ [微博]({http://www.weibo.com/5220650532/BjH4ksrJq}) ] + +2014-08-24 网站上的数据早已分门别类整理好了,生物学者都可以直接查询使用。待会整个关于大闸蟹的 //@珏黛佳人GenderIT: WOW //@玛酷嘟纳噜多昕之张: 怎麼處理這些數據..? //@黠之大者://@浙大陈为: //@好东西传送门: 在论文后面的507,825,517 (5亿) 条免费开放的带GPS坐标的全球物种观察记录才是关键 [ [微博]({http://www.weibo.com/5220650532/BjGVc2pNI}) ] + +2014-08-23 说起松鼠,就想起著名的 @科学松鼠会 这里的松鼠其实只是一个引子,在论文后面的507,825,517 (5亿) 条免费开放的带GPS坐标的全球物种观察记录才是关键,用到数据的800篇论文证明了数据的重要价值,值得传播 //@Coder_Chenzhi: 还是红松鼠好看,一直对云大的灰松鼠无感,总感觉灰松鼠的尾巴像锅刷。。 [ [微博]({http://www.weibo.com/5220650532/BjBpWuJFO}) ] + +2014-08-23 问:@七哥爱吃山楂片 能帮忙收集一下,国内外机器学习领域大牛的主页吗? 答:这是一个不完整的名单,仅限于美国 http://t.cn/RP1Pp3s (资料卡片:http://t.cn/RP1Pp1v )有不少资深院士级大拿,也有冉冉升起的助理教授。一家之言,欢迎补充指正。 图推中国教授 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bjzxm9LTz}) ] + +2014-08-23 可爱的灰松鼠竟然是入侵者, 占领了土著红松鼠的家园!如何估测外来物种与土著物种的分布范围呢?全球生物多样性信息库(GBIF)已为1百多万物种建立了5亿条活动记录, 此开放数据被800余专业论文使用。某论文用大量松鼠活动记录, 分析出气候因素与分布范围的相关性。GBIF资料: http://t.cn/RP3FuVI [ [微博]({http://www.weibo.com/5220650532/BjzcTAdjn}) ] + +2014-08-22 问: @蓝莲斯基:有没有关于uplift建模的资料? 最好先是具体案例,然后是论文讲解,希望能看到近来综述总结的论文 答:增量建模(uplift)可用来寻找“可说服”的人群,属于市场推广。找到 一些关于美国的银行的用例,还有保险业中的应用论文。初步问答进展 http://t.cn/RP3A4IC ,欢迎补充指正 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bjtl15SUk}) ] + +2014-08-22 问: @AOzil 计算广告学的基本问题,如何以最小的代价,去评估一个媒体或是交易所的流量是否有价值?现在做法是各种投放,发现成本较高。 答: riverliu81 "以最小的代价去评估一个广告渠道为投放者带来的价值", copy成熟竞争对手; 小成本投放, 比较转化率; 电子邮件为王。问答进展 http://t.cn/RP3wGuN [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BjtgulxuW}) ] + +2014-08-22 [资料整理] 分段线性模型资料与软件 -- 入门篇 http://t.cn/RP3zJLu (cardbox http://t.cn/RP3zJL1 两个基本教程,一个进阶教程;各种编程语言的例子Mathematica, SAS, Matlab, R, python, RapidMinder 关键词: Piecewise linear regression 贡献者: @视觉动物晴木明川 @heavenfireray @禅系一之花 [ [微博]({http://www.weibo.com/5220650532/Bjt7Oy7lt}) ] + +2014-08-22 基于维基百科的统计:用一张地图把各国家/地区同与其相关的英文单词关联起来 http://t.cn/RPuKQqo 中国是dynasty和china。有好几个国家都是“World”: 英国,法国、德国还有日本。 越南倒是和French连上了,很有喜感。 [ [微博]({http://www.weibo.com/5220650532/BjqGFkQTm}) ] + +2014-08-21 [求传送] @isnowfy 问一下有没有免费的能用的中文的分词,标注,树库的数据呢,好多数据一个是不能免费获取,做为爱好者不知道哪里能得到数据自己来搞搞呢。初步线索:分词参@ansj 的推荐 http://t.cn/RPmMfFk 和@刘邵博 的词库 http://t.cn/RPmMfFD 免费中文树库求推荐 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BjjvY9yPu}) ] + +2014-08-21 小知识:电影海报里最常用的颜色是橙色和蓝色 。MoviePosterDB里有最全的电影海报数据库 http://t.cn/hqtlge 想想拿它能做什么有趣的应用吧? [ [微博]({http://www.weibo.com/5220650532/BjiJE9Nku}) ] + +2014-08-21 问:@chico2011 @leo_lq 求推荐金融交易风险评估方面的paper 答: 找到 Financial Engineering and Risk Management Part I (Columbia University on Coursera),但风险评估相关的只简单的介绍了一下VaR。还找到bitcoin和real estate相关论文 问答进展: http://t.cn/RPn8foN 求进一步传送 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BjgMzsOJi}) ] + +2014-08-21 [资源整理] MultiTask Learning资源合集 http://t.cn/RPnTjps 2014KDD最佳博士论文提名, WSDM2014最佳论文, 及与深度学习的结合。传送来自微博的优秀中文评论 @唐小sin @王威廉 @黄厝海滨 @李航博士 @李沐M@Copper_PKU @复旦李斌 @eeyangc @李晗littlefool @李亚超NLP @lby9 http://t.cn/RPnTj0v [ [微博]({http://www.weibo.com/5220650532/Bjgysd9gF}) ] + +2014-08-21 [资源整理]MultiTask Learning 资源合集。传送:#SIGKDD#2014最佳博士论文提名,#WSDM2014# 最佳论文,#ICML#2008 经典论文,以及如何与深度学习的结合。并传送大量优秀中文评论 @唐小sin @王威廉 @黄厝海滨 @李航博士 @李沐M@Copper_PKU @复旦李斌 @eeyangc @李晗littlefool @李亚超NLP @lby9 [ [微博]({http://www.weibo.com/5220650532/BjgwRvPbW}) ] + +2014-08-21 问:@理想主义de患者 有没有音视频流媒体方面的资料啊? 例如g729, g726 答:找到博达(broadcom)的对比贴(Codec Comparision) 问答进展: http://t.cn/RPnYhXO ....... 传送第一站完成,求大家帮忙继续传送,门也会继续帮助把问题澄清。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bjgoro55J}) ] + +2014-08-21 问: (微信用户) 谁能推荐一个免费的网上会议系统(国内也能连的)? webex什么都要收费 答: 朋友推荐: uberconference, freeconferencecall,Moxtra。hackernews 推荐五个。看看开源 BigBlueButton http://t.cn/RPnWKl6。此外 bluejeans视频会议很牛但很贵。问答记录:http://t.cn/RPnWKlX 欢迎补充指正 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bjg6j2sTY}) ] + +2014-08-20 问: @sxhfut 能否推荐一下英文论文的学术不端检测系统或网站,免费的或者收费的靠谱的 答: 关键词Plagiarism, 初步答案与进展: http://t.cn/RPn5uwR Turnitin收费,有很多学校用户; Viper 有免费windows单机版; Plagium 免费在线不限长度, 上了两个排行榜,可以同时用几个交叉检测。欢迎补充指正。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bjdaxhu6s}) ] + +2014-08-20 http://t.cn/RPEIus6 "Brewing Deep Networks With Caffe" 补一个他前段时间在CVPR关于Caffe的讲座 //@我爱机器学习: Caffe作者,学习 [ [微博]({http://www.weibo.com/5220650532/Bj90I5mWA}) ] + +2014-08-20 图片一向是知识产权斗争中的一个重要领域,英国的GettyImage 提供免费图片引用服务 http://t.cn/RPELwwS "You can embed a Getty Images photo on a website, social media site or blog for free and without having to buy a licence, as long as the photo is not used for commercial purposes" [ [微博]({http://www.weibo.com/5220650532/Bj88Q5yfS}) ] + +2014-08-20 谢谢补充 The repository has been designed in 2009 by Reza Zafarani and Huan Liu. Huan Liu 是ASU的资深教授,各种院士 AAAI, ACM (Distinguished Scientist), AAAS, ASEE, IEEE (Fellow), SIAM; http://t.cn/zHsb5qk 回复 @唐小sin:http://t.cn/zjBLh8P ASU的一些数据,貌似还有豆瓣的 //@好东西 [ [微博]({http://www.weibo.com/5220650532/Bj819a13Z}) ] + +2014-08-20 这是一个学术讨论贴,@郑梓豪爱文艺 在这里 http://t.cn/RPRegxF 更详细地描述了他遇到的研究问题,和初步想法,很希望能得到指点,并且与同学们讨论研究。先代他谢过了。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bj7IFeAHf}) ] + +2014-08-20 回复@CodeColorist: 非常感谢,这个数据集非常好 http://t.cn/RPEhoMR “Collection and sharing of data for scientific analysis of Internet traffic, topology, routing, performance, and security-related events” 适合科研 //@CodeColorist:这个项目里自治系统(ASN)的数据是20 [ [微博]({http://www.weibo.com/5220650532/Bj7HbCJiI}) ] + +2014-08-20 问: @andeguangshaqianwanjian 传送门啊,有python做神经网络(时间序列预测方面)的资料没 答: 准备一些入门知识 http://t.cn/RPRFdBG 基于神经网络的方案:试试Pandas; Github上有 theano-rnn 开源演示; 常规python时间序列分析 可以用scikit timeseries; 此外还有一些背景知识供你参考。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bj7qMhxSx}) ] + +2014-08-20 [求指点] @郑梓豪爱文艺 网络媒体上发现热门话题的方法,如何在一个小「话题」,比如「机器学习」中发现新动态。 我想改进现有的热度函数heat算法,例如采用新参数(讨论者属性的混乱程度), 或分析用户行为在时间轴上的异常分布。 问题进展: http://t.cn/RPRegxF 找到的一些相关文献, 但都比较旧 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bj7aZ0hZj}) ] + +2014-08-20 斯坦福大规模网络数据集大全(Stanford Large Network Dataset Collection, SNAP) http://t.cn/RPRgvZQ 由斯坦福教授Jure Leskovec整理。免费,清理过,可下载。十多种不同类型的网络数据集(社交;在线社区;电子邮件;引用;Web, ...)。 Friendster数据集有6千5百万节点,18亿条边。 [ [微博]({http://www.weibo.com/5220650532/Bj6Zvszak}) ] + +2014-08-20 [资源整理] 提高网站页面响应速度的解决方案 http://t.cn/RPRrPLn : 最简单用DNS A-Record, 反向代理及负载均衡 可以先考虑ngix, 进一步可用proxy分流 感谢贡献者: mahak(github), @BUPTGuo , @情非得已小屋, @新世界_玉兔 , @52cs [ [微博]({http://www.weibo.com/5220650532/Bj6Lajkko}) ] + +2014-08-20 [推荐] Google研究员贾扬清 @fs_Yangqing 分享GoogLeNet在2014大规模视觉识别挑战赛的经验(Large Scale Visual Recognition Challenge 2014)。"个人觉得,更有意思的是 how to get the number 而不是 what the number is。我从classification和detection两个track分别聊一下" http://t.cn/RPR1pLX [ [微博]({http://www.weibo.com/5220650532/Bj6zoraCR}) ] + +2014-08-20 [续求助] 问: @杜威Dewey 比较 nextenta、nutanix? 答: 讨论与进展 http://t.cn/RPRunNs 有一篇不错的谷歌话题热度分析: http://t.cn/RPR3wtD 1.nutanix 与nextenta分类不同, 前者是 Boxed Storage, 后者是 Software-only Storage; 2.nutanix在增长,也有很多对手, nextenta 在下降, 仍占绝对优势 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bj6ntaatp}) ] + +2014-08-20 [求助] 问: @杜威Dewey 互联网应用的分布式数据库存储使用网络存储有什么好方案吗?相对于昂贵的FC-SAN,性能一般的NAS,IP-SAN是不是比较好的选择。Nexenta、OpenFiler这些开源软件能上生产环境吗?有人说nextenta不合适用于互联网架构,说nutanix不错, 怎么看? 讨论与进展: http://t.cn/RPRunNs [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bj6kAEAn4}) ] + +2014-08-20 [知识]"星系动物园"(GalaxyZoo, http://t.cn/RPRnHTO )是邀请公众协助在网络上为上百万个星系在线上进行分类的天文学计划。2007年上线, 第一版两年分类了90万星系,免费数据下载 http://t.cn/RPRnHTl ; 2014 Kaggle Galaxy Zoo challenge头名用深度学习自动分类(RMSE 0.07467) http://t.cn/RPRnHTW [ [微博]({http://www.weibo.com/5220650532/Bj60Vsc3k}) ] + +2014-08-20 罗马帝国的40张地图 http://t.cn/RPRnTsJ 罗马的兴起,罗马的对外战争,罗马内战,罗马与中国和印度的贸易,罗马的衰落与遗产,尽在图中。 [ [微博]({http://www.weibo.com/5220650532/Bj60OmI1b}) ] + +2014-08-20 原来GIF小动画也这么有用又好玩,果然是数据结构入门利器。 里面的例子里给的代码不熟悉,貌似伪码。 [ [微博]({http://www.weibo.com/5220650532/Bj5wH9EYO}) ] + +2014-08-20 http://t.cn/RPRHgdY 补充树木计划链接 [good]//@复旦大学星空讲坛: 几天前星空还转过港中大的树木计划,希望旦旦也可以有自己的植物库[可怜] [ [微博]({http://www.weibo.com/5220650532/Bj5fV5r3d}) ] + +2014-08-19 生物百科全书 Encyclopedia of Life(EOL) 是一个免费在线全球物种档案馆。它自2008年上线就涵盖了3万物种,到2011年九月已经达到70万物种, 目标是在10年内为1百90万余已知的物种建立档案。http://t.cn/RP8mYWn @陆浑戎 推荐的《中国植物志》在线版、台湾生命大百科 都可以算是全球EOL联盟的一部分 [ [微博]({http://www.weibo.com/5220650532/Bj16laqQn}) ] + +2014-08-19 问: @jimmy_000 卷积神经网络CNN的“卷积”是一个什么样的过程? 它是怎样将图像的编码从像素level 上升到NxN区块的 答: 初步答案 http://t.cn/RP8QjNH 看看Andrew Ng 写的短教程Convolutional Neural Network, 中文有bzjia的Deep Learning学习随记。@赵家平USC 讲了不少深度学习在图像处理的前沿成果 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bj0JM11rm}) ] + +2014-08-19 [资料整理] 深度学习在语音识别的应用,入门篇: http://t.cn/RP8ll1s 向 @李开复 在CMU做的Sphinx(1988)致敬。介绍几个牛人和顶级团队: 微软 (邓力 Li Deng )和谷歌 (Vincent Vanhoucke, Geoffrey E. Hinton)。 [ [微博]({http://www.weibo.com/5220650532/Bj0jOqW9v}) ] + +2014-08-19 [资源整理] 不平衡数据分类(Imbalanced data classification): http://t.cn/RP8NM2s 经典文献 MetaCost (Domingo, 1999), SMOTE(2002 Chawla), 以及2004 CMU Yanjun Qi 的综述(现UVA教授);工具与数据集(WEKA,NLTK), GITHUB SMOTE的实现。感谢 @AixinSG @刘知远THU @xierqi @eacl_newsmth [ [微博]({http://www.weibo.com/5220650532/BiZQEloKK}) ] + +2014-08-19 问: @唐小sin 有没有multi-task learning的相关学习资料呢? 答: 维基百科上有不少经典文献。AAAI和ICML都有论文(北大/清华)。找到今年Honglak Lee (U Michigan 教授)的短教程。Lan Žagar 博士论文(2014) Ranking by Multitask Learning. 问答追踪: http://t.cn/RP8a3Ax 求补充 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BiZl47k80}) ] + +2014-08-19 [资源整理 ] 中文词汇语义相似度计算方法与工具 http://t.cn/RP8IYvH 包括:python gensim,word2vector, GloVe, Explicit Semantic Analysis 资料卡片: http://t.cn/RP8IYvT 感谢 @杜振东_java @刘知远THU @昊奋 @算文解字 @Mr_UnderWaterrrrrr @朱鉴 @西瓜大丸子汤 @董力at北航 @尘绳聋-SYSU [ [微博]({http://www.weibo.com/5220650532/BiYH4E1Gw}) ] + +2014-08-18 搭车推荐 @赵家平USC 的微博 "Sebastian Seung 用CNN重建了老鼠视网膜里的plexiform layer;UCI的学者在nature上撰文说DL用于发现 希格斯玻色子"; Jeff Hinton组deep CNN(CovNets)在ImageNet; Fei-Fei组的 video classification with CNN 看问答进展:http://t.cn/RPQxZNF [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BiUmllrLL}) ] + +2014-08-18 非常感谢,身边的图像拼接/全景图应用:谷歌街景, iphone拍照, 汽车摄像头//@图像视觉研究: Lowe的Automatic Panoramic Image Stitching using Invariant Features绝对经典,OpenCV的拼接就是基于这个框架。另外沈向洋的Construction of Panoramic Image Mosaics with Global and Local Alignment也经典 [ [微博]({http://www.weibo.com/5220650532/BiU6AsAmL}) ] + +2014-08-18 问: @思考中的芦苇 有没有视频图像配准相关的资料呢?比如说卫星拍了一段地面上的遥感视频,如何从这段视频中提取出许多帧图像,然后进行图像配准,组成一幅地图呢? 答: 关键词Image Alignment and Stitching, remote sensing, 问答进展见http://t.cn/RPQ63GQ 求交流指点 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BiRyc2QGH}) ] + +2014-08-18 阶段小结: 感谢热心专家 @唐小sin @善良的右行 推荐的好东西, 现在问答追踪 ( http://t.cn/RPQXlim )里已经有十几条相关文献了. 整理了一个总结, http://t.cn/RPQXliQ 看看行不行,欢迎参与编辑 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BiRkGCx0v}) ] + +2014-08-18 回复@善良的右行: 这几个推荐文章都很好呀,第一篇引用率都快400了. 要不是了解领域,谁能想到这个关键词呢, influential spreaders . //@善良的右行:@好东西传送门 惭愧,我也是菜鸟,当然很乐意共享:Identification of influentialspreaders in complex networks;Leaders in Social Networks, the De [ [微博]({http://www.weibo.com/5220650532/BiRevEmzM}) ] + +2014-08-18 回复@唐小sin: 这篇文章很不错哦, 还对比了TunkRank, Topic-sensitive PageRank (TSPR) //@唐小sin:任何influence的文章都可以哪来读读,而至于意见领袖不妨看看twitterrank [ [微博]({http://www.weibo.com/5220650532/BiRagmjE9}) ] + +2014-08-18 发现重要节点一直是社交网络研究的重要问题, 研究热点大约在2007~2010社交媒体蓬勃发展的时候, 2014年已经有influential user identification的综述了.鉴于这类研究的算法并不困难,但数据量较大且较难获得,研究前沿已经逐渐从学术界转移到工业界/创业应用。http://t.cn/RPQfWRW [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BiR72BfHw}) ] + +2014-08-18 感谢指正, 能不能推荐几个好东西, 咱也找找 social network analysis 的文献 回复@善良的右行: 这几篇论文略旧……当然引用率是不用说的……貌似问题本质是重要节点挖掘 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BiQWI1oD2}) ] + +2014-08-18 问: @马辰The_answer:主页君能否推荐一些用深度学习做推荐的文章资料 答: 问答进展 http://t.cn/RPQMg7Q 找到一篇今年8月新鲜出炉, Spotify的实习生博文: Recommending music on Spotify with deep learning .今年2月有人讲Netflix的电影推荐. 欢迎补充指正 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BiQUcxKod}) ] + +2014-08-18 问: @山东工商学院白建磊 有没有新媒体意见领袖领域方面的文献可以推荐? 答: 问答进展 http://t.cn/RPQfWRW . 初步推荐: 意见领袖 (opinion leader), user influence, twitter, 有几篇引用率很高的论文分析了Twitter用户影响力. 还有, 社交媒体信息传播综述. 欢迎补充指正. [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BiQH4deoc}) ] + +2014-08-17 //@见习烟酒生:出轨检测。。居然还有这么实用的案例//@西瓜大丸子汤:里面有一篇“女人是如何发现另一半出轨的” [哈哈] [ [微博]({http://www.weibo.com/5220650532/BiGM9wr1F}) ] + +2014-08-16 [求指点] @小白_小可乐:能帮忙找点"背景建模"的资料么?就是图像前景提取的方法. 关键词: 图像前景提取(Foreground Extraction), 视频分析, 背景建模(background object detection) 问答进展看这里: http://t.cn/RPTWX7w [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BiBA9tX99}) ] + +2014-08-16 大家一定要看韩家伟老师的异常检测讲义(是他数据挖掘教材第三版的第12章),就56页. 简明扼要! 直接给个讲义PPT 下载传送门 http://t.cn/RPTLh7M [ [微博]({http://www.weibo.com/5220650532/BixYpiSEk}) ] + +2014-08-16 问:@ai_东沂 异常检测应用在文本挖掘 答: 异常检测(outlier/anomaly detection)和文本挖掘(text mining)都是大课题。几篇异常检测综述(如韩家伟的讲义) 与应用(如发现金融欺诈); 几个异常检测用在文本挖掘的综述(如在对话流中发现新话题),以及话题模型的文献(如翟成祥的讲义) http://t.cn/RPYnZD8 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BixPQANza}) ] + +2014-08-16 @维尔茨 问:有木有关于循环神经网络在segmented sequence labeling方面的papers? 答:多伦多大学Alex Graves有专著. 基于recurrent neural networks(RNN)研究, @ICT_朱亚东 推荐Herbert Jaeger的短教程. Jürgen Schmidhuber教授收集了60多相关论文, 微软研究院用RNN做自然语言处理 http://t.cn/RPYQVsY [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BiuoeCGpy}) ] + +2014-08-15 [实事求是学大数据] @猴山寨主找夫人 问:是否能提供一个入门级的大数据指导方案.答:盲目上大数据技术很容易浪费学习时间和运营成本。这里我们列了一个极简版,面向的是普通基础、需要从一般数据处理任务逐步扩展到大数据的用户,见长微博。完整导读见本文文字版 http://t.cn/RPjCbl7 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BimdAmKqK}) ] + +2014-08-15 [good]//@孙明明_SmarterChina:这些资料都没有提到manifold Learning中的一篇非常重要的文献:Yoshua Bengio 的 Non-Local Estimation of Manifold Structure http://t.cn/RPj5iYv。 这个文章揭示了LLE/ISOMap代表的一类流形学习方法无法直接广泛应用的宿命。 [ [微博]({http://www.weibo.com/5220650532/BijiQaRyl}) ] + +2014-08-15 Apex出品 [good]//@zwner:个人觉得最普适有效的经典算法是SVD++ http://t.cn/RPjLPjx,在推荐模型本身上最有深度的是MF-GBRT http://t.cn/RPjLPjM。如果你想用一个code快速实现不少推荐算法,那请毫不犹豫使用我们的SVDFeature http://t.cn/zYRnUMA [ [微博]({http://www.weibo.com/5220650532/BiiWGqD5P}) ] + +2014-08-14 这个例子很合适送给@oyyNyanCat “机器学习数据挖掘方面的简单有趣应用” http://t.cn/RPlYDZx [ [微博]({http://www.weibo.com/5220650532/BifsXvfQC}) ] + +2014-08-14 特别推荐。最优化,逻辑回归,最大熵,主题模型,深度学习,相似度,搜索,一脉下来,整理的深入浅出,非常清晰。传送门君以前读过前一半,现在终于写全了! [ [微博]({http://www.weibo.com/5220650532/BidtPx8pa}) ] + +2014-08-13 最新数据显示: 美国Snapchat的用户渗透率稳步上升,在18-34岁的消费者市场首次超过Twitter。主要动力来自18-24岁人群的追捧。 http://t.cn/RPWBC1c [ [微博]({http://www.weibo.com/5220650532/Bi90saK6K}) ] + +2014-08-13 最近我们推荐过四组深度学习的资源,分别为语音检索,文本挖掘/自然语言处理,图像检索,最热深度学习Github项目。为方便大家浏览/粘帖,现在制作成可下载的PPT,每页是一个推荐资源的预览。百度云盘 http://t.cn/RPWoSHq slideshare http://t.cn/RPWoSHb 原始PPT http://t.cn/RPWoSH4 [ [微博]({http://www.weibo.com/5220650532/Bi6AwyhV1}) ] + +2014-08-13 http://t.cn/RPW6muz ACL2014 Semantic Parsing Workshop的slides 感谢@老淘 @波多野丽猪 推荐 [ [微博]({http://www.weibo.com/5220650532/Bi6fQ8wYq}) ] + +2014-08-13 //@ansj: @52nlp @好东西传送门 @v_小峰_v 墙裂推荐.应该是史上公开的最大最完整的中文词库了 [ [微博]({http://www.weibo.com/5220650532/Bi65w5qIN}) ] + +2014-08-13 回复@Liufool: 非常感谢,这个补充太专业了,果然是windows高手。话说微软的语音识别还是很牛的,你看这个当入门文档行吗? http://t.cn/RPWwj0A 顺带说一句, 曾经亲眼看见一个盲人科学家用语音操控windows笔记本。 //@Liufool:microsoft speech platform是服务器版windows可免费应用的语音识别, [ [微博]({http://www.weibo.com/5220650532/Bi4olbouK}) ] + +2014-08-13 问:@VoidStars 请问想提取一段文本里的中文姓名(0~1个) 有好的开源库和教程吗 答: 常见方法就是分词,再利用姓名词库和上下文关系来确定。 知呼有一个综述。google有专利。 @52nlp 也有大量博文讲中文分词。开源工具比较有名的有jieba, snownlp, stanford-nlp-ner. http://t.cn/RPWP2h1 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bi3VHfSFP}) ] + +2014-08-13 问: @yongsun 有没有开源或者免费的英文语音识别软件/或项目?打算翻译一些冰球教学的视频,想结合识别结果来进行听译 答: Windows7/8 自带语音识别功能,Google Chrome有基于云端服务的识别插件,软件方面Nuaunce的Dragon很牛(SIRI就是靠它做语音识别). 开源软件列表看维基百科。http://t.cn/RPODalA [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bi3ti7wAd}) ] + +2014-08-13 问: 做 logistic regression 有啥好用的库吗? 需要处理几十万个 features, 然后几十亿个training data的。 features 是极其稀疏的,Sparsity大概万分之一左右吧 答: 有不少开源库: Spark(MLlib), Mahout, R+Hadoop, Hadoop, Scalding(Conjecture)。有2014分析指出SPARK比较快。http://t.cn/RPOddon [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bi3axDIR8}) ] + +2014-08-13 [问题求领养] @不非否nonono:请问有没有关于causality与Bayesian Network有关的资料?http://t.cn/RPOR7Iv。除了Judea Pearl的书,大家有什么推荐?有没有你觉得比较好的教程?BTW, 以前在Python站上有过不少和贝叶斯相关的推荐资源 http://t.cn/RPOrpGD [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bi2Z7mgEI}) ] + +2014-08-12 @刘知远THU 推荐:翟成祥老师(UIUC)的综述专著:Statistical Language Models for Information Retrieval(信息检索中的统计语言模式)(2008),从BM25到PLSA, LDA,回顾了领域发展并总结了未来的挑战。 [ [微博]({http://www.weibo.com/5220650532/BhWzutAft}) ] + +2014-08-12 [NLP讲义下载,125页,PDF] 翟成祥老师(UIUC)今年在澳大利亚数据库博士短训班的教程:"Statistical Methods for Mining Big Text Data" 介绍两种基于统计语言模型(Statistics Language Model)的基本话题模型(Topic Model): LDA和PLSA的原理及应用。最后列出六个未来研究课题。http://t.cn/RPO7vtW [ [微博]({http://www.weibo.com/5220650532/BhWo26Y93}) ] + +2014-08-12 //@昊奋: 对于ESA,如果单纯使用wikipedia,由于中文维基百科的语料相比英语小很多,所以其实不满足ESA本身需要有高覆盖率的好处,需要自行采用百度百科或互动百科进行处理。我们会考虑利用zhishi.me来为大家提供ESA的服务。 [ [微博]({http://www.weibo.com/5220650532/BhWfVt47c}) ] + +2014-08-12 这个问题还有很多其他选择方案,如知网。一些正在issue 67下讨论 http://t.cn/RP0pPIt 欢迎去那增补(留言请留下你的微博号) [ [讨论](https://github.com/memect/hao/issues/67) ] [ [微博]({http://www.weibo.com/5220650532/BhWeO3CJx}) ] + +2014-08-12 @talkto廖华 请问有没有好用的中文词汇的语义相似度计算工具?答:多种分布式表示方法都可以计算语义相似度,中英文均可以处理。如近来的word2vec http://t.cn/RPOvesp 和glove。@刘知远THU 推荐ESA(Explicit semantic analysis),在稳定性上可能更优,一些开源项目和文章如下 http://t.cn/RPOvesj [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BhWdIDon6}) ] From 39cc6ac57bd5b9e7c3cd462c05bf7df9bd90b03c Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 2 Sep 2014 13:38:01 -0700 Subject: [PATCH 295/485] Update README.md --- README.md | 214 +++++++++++++++++++++++++++--------------------------- 1 file changed, 107 insertions(+), 107 deletions(-) diff --git a/README.md b/README.md index 2f92d0d..b18ea14 100644 --- a/README.md +++ b/README.md @@ -30,219 +30,219 @@ ## 问答案例 -2014-08-30 半夜推荐 Leetcode 资源整理合集。 它目前有150道题,是程序员肉身翻墙的好东西,也适合快速提高自我修养。精选资料在我的卡片盒子里 http://t.cn/RhwwCGL 现在有6项: @灵魂机器 (Frank Dai) 的刷题宝典,若干人的涮题体验。这是一个会成长的卡片盒子,欢迎添加好东西。 [ [微博]({http://www.weibo.com/5220650532/BkJheojHW}) ] +2014-08-30 半夜推荐 Leetcode 资源整理合集。 它目前有150道题,是程序员肉身翻墙的好东西,也适合快速提高自我修养。精选资料在我的卡片盒子里 http://t.cn/RhwwCGL 现在有6项: @灵魂机器 (Frank Dai) 的刷题宝典,若干人的涮题体验。这是一个会成长的卡片盒子,欢迎添加好东西。 [ [微博](http://www.weibo.com/5220650532/BkJheojHW) ] -2014-08-30 SAS base 今年KDnudgget数据分析常用工具民意调查( http://t.cn/RhZ0HjY )排名第9,而排名靠前的都有免费版。现在SAS推这个免费版,很好奇它明年的排名 //@刘政-SAS: 回复@侯广_充电ing:大学免费版跟我要,有base, graph, miner, or, 计量经济学和时间序列。//@侯广_充电ing:全国数学建模马上就要开始 [ [微博]({http://www.weibo.com/5220650532/BkFytfb9v}) ] +2014-08-30 SAS base 今年KDnudgget数据分析常用工具民意调查( http://t.cn/RhZ0HjY )排名第9,而排名靠前的都有免费版。现在SAS推这个免费版,很好奇它明年的排名 //@刘政-SAS: 回复@侯广_充电ing:大学免费版跟我要,有base, graph, miner, or, 计量经济学和时间序列。//@侯广_充电ing:全国数学建模马上就要开始 [ [微博](http://www.weibo.com/5220650532/BkFytfb9v) ] -2014-08-30 问: @小磊_DM_中二青年 在学搜索,请问有Nutch的相关资料吗? 答: nutch主要做网络爬虫,可以和solr结合做搜索引擎。问答进展: http://t.cn/RhZN72R (卡片盒子 http://t.cn/RhZN72E 6个资源): nutch 的中英文安装短教程(此外看Nutch wiki); nutch工作流程; 最近很火的CommonCrawl也转用nutch [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BkFg8v2lw}) ] +2014-08-30 问: @小磊_DM_中二青年 在学搜索,请问有Nutch的相关资料吗? 答: nutch主要做网络爬虫,可以和solr结合做搜索引擎。问答进展: http://t.cn/RhZN72R (卡片盒子 http://t.cn/RhZN72E 6个资源): nutch 的中英文安装短教程(此外看Nutch wiki); nutch工作流程; 最近很火的CommonCrawl也转用nutch [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BkFg8v2lw) ] -2014-08-30 回复@icanswimwell: 美国的数据前几天才发过 http://t.cn/RhZJNoM (卡片盒子现有19项 http://t.cn/RhZJNox ) 美国政府在data.gov开放了十多万个免费、免版权的公开数据集 //@icanswimwell:感谢分享~~要有美国的就更好啦[挖鼻屎][挖鼻屎] [ [微博]({http://www.weibo.com/5220650532/BkEg1kOpm}) ] +2014-08-30 回复@icanswimwell: 美国的数据前几天才发过 http://t.cn/RhZJNoM (卡片盒子现有19项 http://t.cn/RhZJNox ) 美国政府在data.gov开放了十多万个免费、免版权的公开数据集 //@icanswimwell:感谢分享~~要有美国的就更好啦[挖鼻屎][挖鼻屎] [ [微博](http://www.weibo.com/5220650532/BkEg1kOpm) ] -2014-08-30 回复@山雨清新: 原帖就是一个卡片盒子,链接可以在那里找到,现在已经16项了。同附链接 (200k book,1M rating)书籍 http://t.cn/RhZMPWc (10k movie, 10M rating)电影 http://t.cn/RhZMPWt //@山雨清新:请问新增补的两个评论数据集的链接? 找了下,没找到 //@好东西传送门:回复@好东西传送 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BkDZfdlu2}) ] +2014-08-30 回复@山雨清新: 原帖就是一个卡片盒子,链接可以在那里找到,现在已经16项了。同附链接 (200k book,1M rating)书籍 http://t.cn/RhZMPWc (10k movie, 10M rating)电影 http://t.cn/RhZMPWt //@山雨清新:请问新增补的两个评论数据集的链接? 找了下,没找到 //@好东西传送门:回复@好东西传送 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BkDZfdlu2) ] -2014-08-30 回复@好东西传送门: 又增补了两个评论数据集: (10k movie, 10M rating)电影; (200k book,1M rating)书籍 //@好东西传送门:回复@海中的沙粒: 感谢提醒,这一次主要是针对该问题的资源整理,目前列表里原来有12项,现在有增补了CMU的ClueWeb2009网页数据集(10亿页),NIST TREC的测试数据 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BkDzbsk24}) ] +2014-08-30 回复@好东西传送门: 又增补了两个评论数据集: (10k movie, 10M rating)电影; (200k book,1M rating)书籍 //@好东西传送门:回复@海中的沙粒: 感谢提醒,这一次主要是针对该问题的资源整理,目前列表里原来有12项,现在有增补了CMU的ClueWeb2009网页数据集(10亿页),NIST TREC的测试数据 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BkDzbsk24) ] -2014-08-30 [资料整理] @鱼片的小露宝 我正在学习hadoop,我想知道从哪里可以获取一些原始数据样本(就好像hadoop权威指南里面所说的NCDC的气象数据日志)来做数据分析的练习? 答: 一些大数据与目录: http://t.cn/RhZqcq9 气象遥感数据因有图片通常比较大;政府数据包罗万象;(社交)网络数据边多。 [ [微博]({http://www.weibo.com/5220650532/BkD1Yu1WE}) ] +2014-08-30 [资料整理] @鱼片的小露宝 我正在学习hadoop,我想知道从哪里可以获取一些原始数据样本(就好像hadoop权威指南里面所说的NCDC的气象数据日志)来做数据分析的练习? 答: 一些大数据与目录: http://t.cn/RhZqcq9 气象遥感数据因有图片通常比较大;政府数据包罗万象;(社交)网络数据边多。 [ [微博](http://www.weibo.com/5220650532/BkD1Yu1WE) ] -2014-08-30 [数据资源] 日本政治、经济、地理数据大全(免费,可下载)http://t.cn/RhZb561 日本开放政府数据网站测试版(www.data.gov.jp)于2014年发布,现有来自21个政府部门的10,411个数据集。 其他数据源:历年人口、工业、经济普查数据; 政府预算数据; 地理信息数据;1947-2003议会选举数据 等 [ [微博]({http://www.weibo.com/5220650532/BkCwfoJ0Y}) ] +2014-08-30 [数据资源] 日本政治、经济、地理数据大全(免费,可下载)http://t.cn/RhZb561 日本开放政府数据网站测试版(www.data.gov.jp)于2014年发布,现有来自21个政府部门的10,411个数据集。 其他数据源:历年人口、工业、经济普查数据; 政府预算数据; 地理信息数据;1947-2003议会选举数据 等 [ [微博](http://www.weibo.com/5220650532/BkCwfoJ0Y) ] -2014-08-29 [好文略读|机器学习] Big data opportunities and challenges: Discussions from data analytics perspectives (综述,@南大周志华 等著)http://t.cn/Rh7IH66 感谢推荐人 @刘知远THU @RAYMOND__WU 等 [ [微博]({http://www.weibo.com/5220650532/BkuQ30GSA}) ] +2014-08-29 [好文略读|机器学习] Big data opportunities and challenges: Discussions from data analytics perspectives (综述,@南大周志华 等著)http://t.cn/Rh7IH66 感谢推荐人 @刘知远THU @RAYMOND__WU 等 [ [微博](http://www.weibo.com/5220650532/BkuQ30GSA) ] -2014-08-29 Google2014 KDD 的文章,讲他们自动知识图谱提取项目Knowledge Vault的最新进展,比较了人肉众包生成的知识图谱(dbpedia, freebase,...): http://t.cn/RhhjLVe Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion [ [微博]({http://www.weibo.com/5220650532/Bkt39dyDU}) ] +2014-08-29 Google2014 KDD 的文章,讲他们自动知识图谱提取项目Knowledge Vault的最新进展,比较了人肉众包生成的知识图谱(dbpedia, freebase,...): http://t.cn/RhhjLVe Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion [ [微博](http://www.weibo.com/5220650532/Bkt39dyDU) ] -2014-08-28 问: @钱知易: 能不能帮我找找大规模图像检索方面的资料以及这个领域的牛人(国内国外)? 答: 初步结果:http://t.cn/RPe5HBt 中科大 杨晓冬有一个很全面的计算机视觉领域资料整理。兰晓松 在科学网上著有专家列表,2014年9月自动化所有一个“计算机视觉前沿研讨会” ,列举了许多国内著名专家 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BklQZALi7}) ] +2014-08-28 问: @钱知易: 能不能帮我找找大规模图像检索方面的资料以及这个领域的牛人(国内国外)? 答: 初步结果:http://t.cn/RPe5HBt 中科大 杨晓冬有一个很全面的计算机视觉领域资料整理。兰晓松 在科学网上著有专家列表,2014年9月自动化所有一个“计算机视觉前沿研讨会” ,列举了许多国内著名专家 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BklQZALi7) ] -2014-08-28 问: @Don0719 有没有做正电子无损检测的大佬或者相关的书籍、文献啊? 答: 欢迎材料学问题。 问答进展看这里 http://t.cn/RPsI3yE 推荐R. Krause Rehberg 2010年的幻灯片。正电子湮没研究论文很多,还有专门国际会议。无损检测相关找到6篇。欢迎专家补充指正。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BklhZul43}) ] +2014-08-28 问: @Don0719 有没有做正电子无损检测的大佬或者相关的书籍、文献啊? 答: 欢迎材料学问题。 问答进展看这里 http://t.cn/RPsI3yE 推荐R. Krause Rehberg 2010年的幻灯片。正电子湮没研究论文很多,还有专门国际会议。无损检测相关找到6篇。欢迎专家补充指正。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BklhZul43) ] -2014-08-27 问:@月光馆果果妈 请问从语音和视频资源共同进行学习的算法谁比较有研究啊 答: 深度学习是当前趋势(斯坦福,微软,谷歌都这样)。专家 Andrew Ng, Geoffrey Hinton, Li Deng, Louis-Philippe Morency, Ruslan Salakhutdinov, 微博技术控:@言语挖挖 欢迎补充指正 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BkdhGpY4d}) ] +2014-08-27 问:@月光馆果果妈 请问从语音和视频资源共同进行学习的算法谁比较有研究啊 答: 深度学习是当前趋势(斯坦福,微软,谷歌都这样)。专家 Andrew Ng, Geoffrey Hinton, Li Deng, Louis-Philippe Morency, Ruslan Salakhutdinov, 微博技术控:@言语挖挖 欢迎补充指正 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BkdhGpY4d) ] -2014-08-27 传送一个关于学术笑话: 论文评审分两类,一种呢是评审截止日期早就过了,另一种是还没过期的。“There are two types of manuscript reviews. Those that are overdue, and those that are not overdue yet.” 如果看数据分布的话,估计最常见的是“明天就是评审截止日了,咋一篇都没审呢?” [ [微博]({http://www.weibo.com/5220650532/BkctZ33Iu}) ] +2014-08-27 传送一个关于学术笑话: 论文评审分两类,一种呢是评审截止日期早就过了,另一种是还没过期的。“There are two types of manuscript reviews. Those that are overdue, and those that are not overdue yet.” 如果看数据分布的话,估计最常见的是“明天就是评审截止日了,咋一篇都没审呢?” [ [微博](http://www.weibo.com/5220650532/BkctZ33Iu) ] -2014-08-27 非常感谢 @董力at北航 他本科时候做的一个KDD2012demo http://t.cn/RPDwF8S (情感细分为厌恶、愤怒、高兴、悲伤四类 )很好玩,分析各省人民的情绪彼岸花,小心地图炮呦?能下载数据。 此外他以前还推荐过 http://t.cn/Sc68lv Sentiment Symposium Tutorial [ [微博]({http://www.weibo.com/5220650532/Bkco7lkJU}) ] +2014-08-27 非常感谢 @董力at北航 他本科时候做的一个KDD2012demo http://t.cn/RPDwF8S (情感细分为厌恶、愤怒、高兴、悲伤四类 )很好玩,分析各省人民的情绪彼岸花,小心地图炮呦?能下载数据。 此外他以前还推荐过 http://t.cn/Sc68lv Sentiment Symposium Tutorial [ [微博](http://www.weibo.com/5220650532/Bkco7lkJU) ] -2014-08-27 非常感谢 @posa88 推荐 lingpipe的影评数据(基于IMDB)由康奈尔的 Lillian Lee 和 Bo Pang 提供 //@posa88:大连理工这个库用过,还行:http://t.cn/RPesat2 ,http://t.cn/bln2a [ [微博]({http://www.weibo.com/5220650532/BkcgExrKL}) ] +2014-08-27 非常感谢 @posa88 推荐 lingpipe的影评数据(基于IMDB)由康奈尔的 Lillian Lee 和 Bo Pang 提供 //@posa88:大连理工这个库用过,还行:http://t.cn/RPesat2 ,http://t.cn/bln2a [ [微博](http://www.weibo.com/5220650532/BkcgExrKL) ] -2014-08-27 问: @蒋宁平 求推荐中文情感计算资源,包括中文情感词库,尤其是细分情感种类的(比如喜爱,愤怒,悲伤…等)。 答:问答进展:http://t.cn/RPeutqb 初步答案:斯坦福有公开课和基于深度学习的成果。知乎有资源列表。刘兵教授有综述。数据看 NTUSD, 知网。微博问 @TT小和子 @黠之大者 欢迎指正补充 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BkbzO54pR}) ] +2014-08-27 问: @蒋宁平 求推荐中文情感计算资源,包括中文情感词库,尤其是细分情感种类的(比如喜爱,愤怒,悲伤…等)。 答:问答进展:http://t.cn/RPeutqb 初步答案:斯坦福有公开课和基于深度学习的成果。知乎有资源列表。刘兵教授有综述。数据看 NTUSD, 知网。微博问 @TT小和子 @黠之大者 欢迎指正补充 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BkbzO54pR) ] -2014-08-27 回复@DataMooc: 有相关问答,整理中,参见 http://t.cn/RPmIw2I //@DataMooc:有没有Python版的中文分词开源工具? //@好东西传送门:搭车再次推荐ansj, 孙健写的很有用的中文分词工具。http://weibo.com/5220650532/Bh9WGeljD //@ansj: 应该不是[衰] //@好东西传送门:@夏二货爱吃 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bkb1stYmh}) ] +2014-08-27 回复@DataMooc: 有相关问答,整理中,参见 http://t.cn/RPmIw2I //@DataMooc:有没有Python版的中文分词开源工具? //@好东西传送门:搭车再次推荐ansj, 孙健写的很有用的中文分词工具。http://weibo.com/5220650532/Bh9WGeljD //@ansj: 应该不是[衰] //@好东西传送门:@夏二货爱吃 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bkb1stYmh) ] -2014-08-27 搭车再次推荐ansj, 孙健写的很有用的中文分词工具。http://weibo.com/5220650532/Bh9WGeljD //@ansj: 应该不是[衰] //@好东西传送门:@夏二货爱吃胡萝卜: 万恶的微软官网居然用自动翻译!是孙剑 //@夏二货爱吃胡萝卜:@图像视觉研究:的确是说错了。是孙剑。 //@严浩RB:这个孙健是写ansj的那个吗? [ [微博]({http://www.weibo.com/5220650532/Bk8kLotLu}) ] +2014-08-27 搭车再次推荐ansj, 孙健写的很有用的中文分词工具。http://weibo.com/5220650532/Bh9WGeljD //@ansj: 应该不是[衰] //@好东西传送门:@夏二货爱吃胡萝卜: 万恶的微软官网居然用自动翻译!是孙剑 //@夏二货爱吃胡萝卜:@图像视觉研究:的确是说错了。是孙剑。 //@严浩RB:这个孙健是写ansj的那个吗? [ [微博](http://www.weibo.com/5220650532/Bk8kLotLu) ] -2014-08-26 问:@pkuxkxjason 求推荐靠谱的自动摘要软件/服务。特别是针对科技类内容的。答: 问题进展 http://t.cn/RPg0Dkn 两个quora回答但实用工具可靠性低。还要请 @算文解字 指点迷津,他说过 “单文档summerization不是被snippet判死刑了么?” 找到相关文章 http://t.cn/RPg0DkH [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bk4hHahVS}) ] +2014-08-26 问:@pkuxkxjason 求推荐靠谱的自动摘要软件/服务。特别是针对科技类内容的。答: 问题进展 http://t.cn/RPg0Dkn 两个quora回答但实用工具可靠性低。还要请 @算文解字 指点迷津,他说过 “单文档summerization不是被snippet判死刑了么?” 找到相关文章 http://t.cn/RPg0DkH [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bk4hHahVS) ] -2014-08-26 问答进展:http://t.cn/RPgpH65 有不少IEEE Fellow, 华人还有 UIUC马毅(现在上海) 微软亚洲研究院:孙健 。到CVPR, ICCV上多看看能找到不少当打的大小牛 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bk4aUlKJi}) ] +2014-08-26 问答进展:http://t.cn/RPgpH65 有不少IEEE Fellow, 华人还有 UIUC马毅(现在上海) 微软亚洲研究院:孙健 。到CVPR, ICCV上多看看能找到不少当打的大小牛 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bk4aUlKJi) ] -2014-08-26 问: @杨洋MQ Social Network 中 Spammer Detection 方面 都有哪些 中文、英文的数据集?答: 初步回答:http://t.cn/RPgtKAl 公开的大多是email,中文较老有2006 TREC , 2005 CCERT;英文有Twitter数据集和Spammer列表。近年未公开:Berkeley, ASU有Twitter研究; 国内要联系上交大。求更多链接 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bk2BaFaY2}) ] +2014-08-26 问: @杨洋MQ Social Network 中 Spammer Detection 方面 都有哪些 中文、英文的数据集?答: 初步回答:http://t.cn/RPgtKAl 公开的大多是email,中文较老有2006 TREC , 2005 CCERT;英文有Twitter数据集和Spammer列表。近年未公开:Berkeley, ASU有Twitter研究; 国内要联系上交大。求更多链接 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bk2BaFaY2) ] -2014-08-25 //@昊奋: 这个之前通过@好东西传送门 介绍知识图谱时,介绍过这个probabilistic kb。其实离真正大规模可用还有很长路要走。所谓的可信大部分可在freebase中找到,也就是说freebase的质量和规模决定了很多 [ [微博]({http://www.weibo.com/5220650532/BjVr9tH7z}) ] +2014-08-25 //@昊奋: 这个之前通过@好东西传送门 介绍知识图谱时,介绍过这个probabilistic kb。其实离真正大规模可用还有很长路要走。所谓的可信大部分可在freebase中找到,也就是说freebase的质量和规模决定了很多 [ [微博](http://www.weibo.com/5220650532/BjVr9tH7z) ] -2014-08-25 //@velvel2: 1)首位华人AAAI fellow杨强博士研究转移学习很多年了。多任务学习是其中一种 http://t.cn/aepeZn 2)Bengio的深度学习新书有一章也是关于转移学习和多任务学习的 http://t.cn/RPdxFds [ [微博]({http://www.weibo.com/5220650532/BjVr0j8uQ}) ] +2014-08-25 //@velvel2: 1)首位华人AAAI fellow杨强博士研究转移学习很多年了。多任务学习是其中一种 http://t.cn/aepeZn 2)Bengio的深度学习新书有一章也是关于转移学习和多任务学习的 http://t.cn/RPdxFds [ [微博](http://www.weibo.com/5220650532/BjVr0j8uQ) ] -2014-08-24 回复@phunter_lau: 感谢有爱心的专家 传送理由: 面试官的面经 //@phunter_lau:回复@好东西传送门:复制粘贴一下“我都是国外面经,都是谈谈你之前做过啥,你就做过啥讲了就行了。我们一般不测试面试人什么问题,默认他简历上说的都是真实的,然后拿几个实际问题看看他的看法和解决方向如何就基本上知道 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BjLGK2IJe}) ] +2014-08-24 回复@phunter_lau: 感谢有爱心的专家 传送理由: 面试官的面经 //@phunter_lau:回复@好东西传送门:复制粘贴一下“我都是国外面经,都是谈谈你之前做过啥,你就做过啥讲了就行了。我们一般不测试面试人什么问题,默认他简历上说的都是真实的,然后拿几个实际问题看看他的看法和解决方向如何就基本上知道 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BjLGK2IJe) ] -2014-08-24 问: @尘绳聋-SYSU 大大ML面经来一发?急需 答:假设需要的是软件工程师求职,寻找机器学习(machine learning)面经。建议多看题,把自己的知识强化。很多问答系统都有常见面试问题列表, 初步有 reddit, stackoverflow, quora, 知乎 等。问答进展: http://t.cn/RPB1Sxf 欢迎补充指正,尤其是具体面经 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BjLqu8Kw0}) ] +2014-08-24 问: @尘绳聋-SYSU 大大ML面经来一发?急需 答:假设需要的是软件工程师求职,寻找机器学习(machine learning)面经。建议多看题,把自己的知识强化。很多问答系统都有常见面试问题列表, 初步有 reddit, stackoverflow, quora, 知乎 等。问答进展: http://t.cn/RPB1Sxf 欢迎补充指正,尤其是具体面经 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BjLqu8Kw0) ] -2014-08-24 回复@AixinSG: 多谢补充,NUS 在这方面做的很不错,链接传送 http://t.cn/RPB3zgO 还有一篇相关的是 Addressing cold-start in app recommendation: latent user models constructed from twitter followers //@AixinSG:SIGIR14 有一篇 New and Improved: Modeling Versions to Improve App Recom [ [微博]({http://www.weibo.com/5220650532/BjLil85H7}) ] +2014-08-24 回复@AixinSG: 多谢补充,NUS 在这方面做的很不错,链接传送 http://t.cn/RPB3zgO 还有一篇相关的是 Addressing cold-start in app recommendation: latent user models constructed from twitter followers //@AixinSG:SIGIR14 有一篇 New and Improved: Modeling Versions to Improve App Recom [ [微博](http://www.weibo.com/5220650532/BjLil85H7) ] -2014-08-24 问: @应豪超 :有关于手机app推荐的文章吗 答: 就是找论文,关键词 Recommender Systems that Suggest Mobile Applications 。 初步结果 找到一个2011年移动推荐讨论班的幻灯片(领域综述),一篇IUI2013 (列举feature), 一篇SIGIR 2013, 还有若干相关, 问答进展: http://t.cn/RPBuvdZ 欢迎指正补充 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BjLc4frgA}) ] +2014-08-24 问: @应豪超 :有关于手机app推荐的文章吗 答: 就是找论文,关键词 Recommender Systems that Suggest Mobile Applications 。 初步结果 找到一个2011年移动推荐讨论班的幻灯片(领域综述),一篇IUI2013 (列举feature), 一篇SIGIR 2013, 还有若干相关, 问答进展: http://t.cn/RPBuvdZ 欢迎指正补充 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BjLc4frgA) ] -2014-08-24 传送理由:清晰的解题思路。补充一下,Haijie Gu 是GraphLab的联合创始人,现在CMU读博士。GraphLab 2013年融资6百多万美元。 (原文格式更好看一些,http://t.cn/RPBR5pm) [ [微博]({http://www.weibo.com/5220650532/BjKQej5rE}) ] +2014-08-24 传送理由:清晰的解题思路。补充一下,Haijie Gu 是GraphLab的联合创始人,现在CMU读博士。GraphLab 2013年融资6百多万美元。 (原文格式更好看一些,http://t.cn/RPBR5pm) [ [微博](http://www.weibo.com/5220650532/BjKQej5rE) ] -2014-08-24 转发理由: 你懂的 //@何_登成: //@传媒老跟班:@设定控 做过一个谷歌专题 http://t.cn/RvnDzSG ,提供了多种访问谷歌的方式,大家可以看看。尤其推荐其中提到的#美国在线# http://t.cn/hVO8E ,该站搜索结果就是谷歌的结果,速度很快。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BjKjCjeBa}) ] +2014-08-24 转发理由: 你懂的 //@何_登成: //@传媒老跟班:@设定控 做过一个谷歌专题 http://t.cn/RvnDzSG ,提供了多种访问谷歌的方式,大家可以看看。尤其推荐其中提到的#美国在线# http://t.cn/hVO8E ,该站搜索结果就是谷歌的结果,速度很快。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BjKjCjeBa) ] -2014-08-24 回复@MD_1stUP锐之翼: 全是野生的,所有物种活动活动观察记录网上都有,这是一条荷兰阿姆斯特丹的观察记录: http://t.cn/RPB5AWt 超市里只卖养殖的,野生的恐怕只能依律就地销毁 //@MD_1stUP锐之翼:是入侵华人超市吧[哼] [ [微博]({http://www.weibo.com/5220650532/BjHn5uCyE}) ] +2014-08-24 回复@MD_1stUP锐之翼: 全是野生的,所有物种活动活动观察记录网上都有,这是一条荷兰阿姆斯特丹的观察记录: http://t.cn/RPB5AWt 超市里只卖养殖的,野生的恐怕只能依律就地销毁 //@MD_1stUP锐之翼:是入侵华人超市吧[哼] [ [微博](http://www.weibo.com/5220650532/BjHn5uCyE) ] -2014-08-24 问: @十月伤感wb 可否推荐些基于社交网络的推荐算法的资料,以及数据集,特别是数据集的下载地址谢谢了做推荐的很多都需要 答: [初步传送] 关于数据集: 斯坦福大规模网络数据集大全 (SNAP) http://t.cn/RPBqrcJ 关于推荐系统:看这里 http://t.cn/RPBqrci 问答进展: http://t.cn/RPBqrc6 求指点 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BjHkmuGpo}) ] +2014-08-24 问: @十月伤感wb 可否推荐些基于社交网络的推荐算法的资料,以及数据集,特别是数据集的下载地址谢谢了做推荐的很多都需要 答: [初步传送] 关于数据集: 斯坦福大规模网络数据集大全 (SNAP) http://t.cn/RPBqrcJ 关于推荐系统:看这里 http://t.cn/RPBqrci 问答进展: http://t.cn/RPBqrc6 求指点 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BjHkmuGpo) ] -2014-08-24 @斯库里 传送理由:为广泛传播的社交媒体消息提供严谨的科学依据 http://weibo.com/1820578701/Be7W6AouY [ [微博]({http://www.weibo.com/5220650532/BjHe7o3sj}) ] +2014-08-24 @斯库里 传送理由:为广泛传播的社交媒体消息提供严谨的科学依据 http://weibo.com/1820578701/Be7W6AouY [ [微博](http://www.weibo.com/5220650532/BjHe7o3sj) ] -2014-08-24 大闸蟹来了。近年来全国满街都是阳澄湖大闸蟹的招牌,可你知道吗,大闸蟹也正在入侵欧美呢! 早上查了全球生物多样性信息库(GBIF, 5亿条带GPS定位的物种活动记录), Eriocheir sinensis (Chinese mitten crab)找到3400+记录: 分布在欧洲沿海,北美东部与五大湖区。当然, 阳澄湖不算 http://t.cn/RPBGJ8y [ [微博]({http://www.weibo.com/5220650532/BjH4ksrJq}) ] +2014-08-24 大闸蟹来了。近年来全国满街都是阳澄湖大闸蟹的招牌,可你知道吗,大闸蟹也正在入侵欧美呢! 早上查了全球生物多样性信息库(GBIF, 5亿条带GPS定位的物种活动记录), Eriocheir sinensis (Chinese mitten crab)找到3400+记录: 分布在欧洲沿海,北美东部与五大湖区。当然, 阳澄湖不算 http://t.cn/RPBGJ8y [ [微博](http://www.weibo.com/5220650532/BjH4ksrJq) ] -2014-08-24 网站上的数据早已分门别类整理好了,生物学者都可以直接查询使用。待会整个关于大闸蟹的 //@珏黛佳人GenderIT: WOW //@玛酷嘟纳噜多昕之张: 怎麼處理這些數據..? //@黠之大者://@浙大陈为: //@好东西传送门: 在论文后面的507,825,517 (5亿) 条免费开放的带GPS坐标的全球物种观察记录才是关键 [ [微博]({http://www.weibo.com/5220650532/BjGVc2pNI}) ] +2014-08-24 网站上的数据早已分门别类整理好了,生物学者都可以直接查询使用。待会整个关于大闸蟹的 //@珏黛佳人GenderIT: WOW //@玛酷嘟纳噜多昕之张: 怎麼處理這些數據..? //@黠之大者://@浙大陈为: //@好东西传送门: 在论文后面的507,825,517 (5亿) 条免费开放的带GPS坐标的全球物种观察记录才是关键 [ [微博](http://www.weibo.com/5220650532/BjGVc2pNI) ] -2014-08-23 说起松鼠,就想起著名的 @科学松鼠会 这里的松鼠其实只是一个引子,在论文后面的507,825,517 (5亿) 条免费开放的带GPS坐标的全球物种观察记录才是关键,用到数据的800篇论文证明了数据的重要价值,值得传播 //@Coder_Chenzhi: 还是红松鼠好看,一直对云大的灰松鼠无感,总感觉灰松鼠的尾巴像锅刷。。 [ [微博]({http://www.weibo.com/5220650532/BjBpWuJFO}) ] +2014-08-23 说起松鼠,就想起著名的 @科学松鼠会 这里的松鼠其实只是一个引子,在论文后面的507,825,517 (5亿) 条免费开放的带GPS坐标的全球物种观察记录才是关键,用到数据的800篇论文证明了数据的重要价值,值得传播 //@Coder_Chenzhi: 还是红松鼠好看,一直对云大的灰松鼠无感,总感觉灰松鼠的尾巴像锅刷。。 [ [微博](http://www.weibo.com/5220650532/BjBpWuJFO) ] -2014-08-23 问:@七哥爱吃山楂片 能帮忙收集一下,国内外机器学习领域大牛的主页吗? 答:这是一个不完整的名单,仅限于美国 http://t.cn/RP1Pp3s (资料卡片:http://t.cn/RP1Pp1v )有不少资深院士级大拿,也有冉冉升起的助理教授。一家之言,欢迎补充指正。 图推中国教授 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bjzxm9LTz}) ] +2014-08-23 问:@七哥爱吃山楂片 能帮忙收集一下,国内外机器学习领域大牛的主页吗? 答:这是一个不完整的名单,仅限于美国 http://t.cn/RP1Pp3s (资料卡片:http://t.cn/RP1Pp1v )有不少资深院士级大拿,也有冉冉升起的助理教授。一家之言,欢迎补充指正。 图推中国教授 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bjzxm9LTz) ] -2014-08-23 可爱的灰松鼠竟然是入侵者, 占领了土著红松鼠的家园!如何估测外来物种与土著物种的分布范围呢?全球生物多样性信息库(GBIF)已为1百多万物种建立了5亿条活动记录, 此开放数据被800余专业论文使用。某论文用大量松鼠活动记录, 分析出气候因素与分布范围的相关性。GBIF资料: http://t.cn/RP3FuVI [ [微博]({http://www.weibo.com/5220650532/BjzcTAdjn}) ] +2014-08-23 可爱的灰松鼠竟然是入侵者, 占领了土著红松鼠的家园!如何估测外来物种与土著物种的分布范围呢?全球生物多样性信息库(GBIF)已为1百多万物种建立了5亿条活动记录, 此开放数据被800余专业论文使用。某论文用大量松鼠活动记录, 分析出气候因素与分布范围的相关性。GBIF资料: http://t.cn/RP3FuVI [ [微博](http://www.weibo.com/5220650532/BjzcTAdjn) ] -2014-08-22 问: @蓝莲斯基:有没有关于uplift建模的资料? 最好先是具体案例,然后是论文讲解,希望能看到近来综述总结的论文 答:增量建模(uplift)可用来寻找“可说服”的人群,属于市场推广。找到 一些关于美国的银行的用例,还有保险业中的应用论文。初步问答进展 http://t.cn/RP3A4IC ,欢迎补充指正 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bjtl15SUk}) ] +2014-08-22 问: @蓝莲斯基:有没有关于uplift建模的资料? 最好先是具体案例,然后是论文讲解,希望能看到近来综述总结的论文 答:增量建模(uplift)可用来寻找“可说服”的人群,属于市场推广。找到 一些关于美国的银行的用例,还有保险业中的应用论文。初步问答进展 http://t.cn/RP3A4IC ,欢迎补充指正 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bjtl15SUk) ] -2014-08-22 问: @AOzil 计算广告学的基本问题,如何以最小的代价,去评估一个媒体或是交易所的流量是否有价值?现在做法是各种投放,发现成本较高。 答: riverliu81 "以最小的代价去评估一个广告渠道为投放者带来的价值", copy成熟竞争对手; 小成本投放, 比较转化率; 电子邮件为王。问答进展 http://t.cn/RP3wGuN [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BjtgulxuW}) ] +2014-08-22 问: @AOzil 计算广告学的基本问题,如何以最小的代价,去评估一个媒体或是交易所的流量是否有价值?现在做法是各种投放,发现成本较高。 答: riverliu81 "以最小的代价去评估一个广告渠道为投放者带来的价值", copy成熟竞争对手; 小成本投放, 比较转化率; 电子邮件为王。问答进展 http://t.cn/RP3wGuN [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BjtgulxuW) ] -2014-08-22 [资料整理] 分段线性模型资料与软件 -- 入门篇 http://t.cn/RP3zJLu (cardbox http://t.cn/RP3zJL1 两个基本教程,一个进阶教程;各种编程语言的例子Mathematica, SAS, Matlab, R, python, RapidMinder 关键词: Piecewise linear regression 贡献者: @视觉动物晴木明川 @heavenfireray @禅系一之花 [ [微博]({http://www.weibo.com/5220650532/Bjt7Oy7lt}) ] +2014-08-22 [资料整理] 分段线性模型资料与软件 -- 入门篇 http://t.cn/RP3zJLu (cardbox http://t.cn/RP3zJL1 两个基本教程,一个进阶教程;各种编程语言的例子Mathematica, SAS, Matlab, R, python, RapidMinder 关键词: Piecewise linear regression 贡献者: @视觉动物晴木明川 @heavenfireray @禅系一之花 [ [微博](http://www.weibo.com/5220650532/Bjt7Oy7lt) ] -2014-08-22 基于维基百科的统计:用一张地图把各国家/地区同与其相关的英文单词关联起来 http://t.cn/RPuKQqo 中国是dynasty和china。有好几个国家都是“World”: 英国,法国、德国还有日本。 越南倒是和French连上了,很有喜感。 [ [微博]({http://www.weibo.com/5220650532/BjqGFkQTm}) ] +2014-08-22 基于维基百科的统计:用一张地图把各国家/地区同与其相关的英文单词关联起来 http://t.cn/RPuKQqo 中国是dynasty和china。有好几个国家都是“World”: 英国,法国、德国还有日本。 越南倒是和French连上了,很有喜感。 [ [微博](http://www.weibo.com/5220650532/BjqGFkQTm) ] -2014-08-21 [求传送] @isnowfy 问一下有没有免费的能用的中文的分词,标注,树库的数据呢,好多数据一个是不能免费获取,做为爱好者不知道哪里能得到数据自己来搞搞呢。初步线索:分词参@ansj 的推荐 http://t.cn/RPmMfFk 和@刘邵博 的词库 http://t.cn/RPmMfFD 免费中文树库求推荐 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BjjvY9yPu}) ] +2014-08-21 [求传送] @isnowfy 问一下有没有免费的能用的中文的分词,标注,树库的数据呢,好多数据一个是不能免费获取,做为爱好者不知道哪里能得到数据自己来搞搞呢。初步线索:分词参@ansj 的推荐 http://t.cn/RPmMfFk 和@刘邵博 的词库 http://t.cn/RPmMfFD 免费中文树库求推荐 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BjjvY9yPu) ] -2014-08-21 小知识:电影海报里最常用的颜色是橙色和蓝色 。MoviePosterDB里有最全的电影海报数据库 http://t.cn/hqtlge 想想拿它能做什么有趣的应用吧? [ [微博]({http://www.weibo.com/5220650532/BjiJE9Nku}) ] +2014-08-21 小知识:电影海报里最常用的颜色是橙色和蓝色 。MoviePosterDB里有最全的电影海报数据库 http://t.cn/hqtlge 想想拿它能做什么有趣的应用吧? [ [微博](http://www.weibo.com/5220650532/BjiJE9Nku) ] -2014-08-21 问:@chico2011 @leo_lq 求推荐金融交易风险评估方面的paper 答: 找到 Financial Engineering and Risk Management Part I (Columbia University on Coursera),但风险评估相关的只简单的介绍了一下VaR。还找到bitcoin和real estate相关论文 问答进展: http://t.cn/RPn8foN 求进一步传送 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BjgMzsOJi}) ] +2014-08-21 问:@chico2011 @leo_lq 求推荐金融交易风险评估方面的paper 答: 找到 Financial Engineering and Risk Management Part I (Columbia University on Coursera),但风险评估相关的只简单的介绍了一下VaR。还找到bitcoin和real estate相关论文 问答进展: http://t.cn/RPn8foN 求进一步传送 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BjgMzsOJi) ] -2014-08-21 [资源整理] MultiTask Learning资源合集 http://t.cn/RPnTjps 2014KDD最佳博士论文提名, WSDM2014最佳论文, 及与深度学习的结合。传送来自微博的优秀中文评论 @唐小sin @王威廉 @黄厝海滨 @李航博士 @李沐M@Copper_PKU @复旦李斌 @eeyangc @李晗littlefool @李亚超NLP @lby9 http://t.cn/RPnTj0v [ [微博]({http://www.weibo.com/5220650532/Bjgysd9gF}) ] +2014-08-21 [资源整理] MultiTask Learning资源合集 http://t.cn/RPnTjps 2014KDD最佳博士论文提名, WSDM2014最佳论文, 及与深度学习的结合。传送来自微博的优秀中文评论 @唐小sin @王威廉 @黄厝海滨 @李航博士 @李沐M@Copper_PKU @复旦李斌 @eeyangc @李晗littlefool @李亚超NLP @lby9 http://t.cn/RPnTj0v [ [微博](http://www.weibo.com/5220650532/Bjgysd9gF) ] -2014-08-21 [资源整理]MultiTask Learning 资源合集。传送:#SIGKDD#2014最佳博士论文提名,#WSDM2014# 最佳论文,#ICML#2008 经典论文,以及如何与深度学习的结合。并传送大量优秀中文评论 @唐小sin @王威廉 @黄厝海滨 @李航博士 @李沐M@Copper_PKU @复旦李斌 @eeyangc @李晗littlefool @李亚超NLP @lby9 [ [微博]({http://www.weibo.com/5220650532/BjgwRvPbW}) ] +2014-08-21 [资源整理]MultiTask Learning 资源合集。传送:#SIGKDD#2014最佳博士论文提名,#WSDM2014# 最佳论文,#ICML#2008 经典论文,以及如何与深度学习的结合。并传送大量优秀中文评论 @唐小sin @王威廉 @黄厝海滨 @李航博士 @李沐M@Copper_PKU @复旦李斌 @eeyangc @李晗littlefool @李亚超NLP @lby9 [ [微博](http://www.weibo.com/5220650532/BjgwRvPbW) ] -2014-08-21 问:@理想主义de患者 有没有音视频流媒体方面的资料啊? 例如g729, g726 答:找到博达(broadcom)的对比贴(Codec Comparision) 问答进展: http://t.cn/RPnYhXO ....... 传送第一站完成,求大家帮忙继续传送,门也会继续帮助把问题澄清。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bjgoro55J}) ] +2014-08-21 问:@理想主义de患者 有没有音视频流媒体方面的资料啊? 例如g729, g726 答:找到博达(broadcom)的对比贴(Codec Comparision) 问答进展: http://t.cn/RPnYhXO ....... 传送第一站完成,求大家帮忙继续传送,门也会继续帮助把问题澄清。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bjgoro55J) ] -2014-08-21 问: (微信用户) 谁能推荐一个免费的网上会议系统(国内也能连的)? webex什么都要收费 答: 朋友推荐: uberconference, freeconferencecall,Moxtra。hackernews 推荐五个。看看开源 BigBlueButton http://t.cn/RPnWKl6。此外 bluejeans视频会议很牛但很贵。问答记录:http://t.cn/RPnWKlX 欢迎补充指正 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bjg6j2sTY}) ] +2014-08-21 问: (微信用户) 谁能推荐一个免费的网上会议系统(国内也能连的)? webex什么都要收费 答: 朋友推荐: uberconference, freeconferencecall,Moxtra。hackernews 推荐五个。看看开源 BigBlueButton http://t.cn/RPnWKl6。此外 bluejeans视频会议很牛但很贵。问答记录:http://t.cn/RPnWKlX 欢迎补充指正 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bjg6j2sTY) ] -2014-08-20 问: @sxhfut 能否推荐一下英文论文的学术不端检测系统或网站,免费的或者收费的靠谱的 答: 关键词Plagiarism, 初步答案与进展: http://t.cn/RPn5uwR Turnitin收费,有很多学校用户; Viper 有免费windows单机版; Plagium 免费在线不限长度, 上了两个排行榜,可以同时用几个交叉检测。欢迎补充指正。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bjdaxhu6s}) ] +2014-08-20 问: @sxhfut 能否推荐一下英文论文的学术不端检测系统或网站,免费的或者收费的靠谱的 答: 关键词Plagiarism, 初步答案与进展: http://t.cn/RPn5uwR Turnitin收费,有很多学校用户; Viper 有免费windows单机版; Plagium 免费在线不限长度, 上了两个排行榜,可以同时用几个交叉检测。欢迎补充指正。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bjdaxhu6s) ] -2014-08-20 http://t.cn/RPEIus6 "Brewing Deep Networks With Caffe" 补一个他前段时间在CVPR关于Caffe的讲座 //@我爱机器学习: Caffe作者,学习 [ [微博]({http://www.weibo.com/5220650532/Bj90I5mWA}) ] +2014-08-20 http://t.cn/RPEIus6 "Brewing Deep Networks With Caffe" 补一个他前段时间在CVPR关于Caffe的讲座 //@我爱机器学习: Caffe作者,学习 [ [微博](http://www.weibo.com/5220650532/Bj90I5mWA) ] -2014-08-20 图片一向是知识产权斗争中的一个重要领域,英国的GettyImage 提供免费图片引用服务 http://t.cn/RPELwwS "You can embed a Getty Images photo on a website, social media site or blog for free and without having to buy a licence, as long as the photo is not used for commercial purposes" [ [微博]({http://www.weibo.com/5220650532/Bj88Q5yfS}) ] +2014-08-20 图片一向是知识产权斗争中的一个重要领域,英国的GettyImage 提供免费图片引用服务 http://t.cn/RPELwwS "You can embed a Getty Images photo on a website, social media site or blog for free and without having to buy a licence, as long as the photo is not used for commercial purposes" [ [微博](http://www.weibo.com/5220650532/Bj88Q5yfS) ] -2014-08-20 谢谢补充 The repository has been designed in 2009 by Reza Zafarani and Huan Liu. Huan Liu 是ASU的资深教授,各种院士 AAAI, ACM (Distinguished Scientist), AAAS, ASEE, IEEE (Fellow), SIAM; http://t.cn/zHsb5qk 回复 @唐小sin:http://t.cn/zjBLh8P ASU的一些数据,貌似还有豆瓣的 //@好东西 [ [微博]({http://www.weibo.com/5220650532/Bj819a13Z}) ] +2014-08-20 谢谢补充 The repository has been designed in 2009 by Reza Zafarani and Huan Liu. Huan Liu 是ASU的资深教授,各种院士 AAAI, ACM (Distinguished Scientist), AAAS, ASEE, IEEE (Fellow), SIAM; http://t.cn/zHsb5qk 回复 @唐小sin:http://t.cn/zjBLh8P ASU的一些数据,貌似还有豆瓣的 //@好东西 [ [微博](http://www.weibo.com/5220650532/Bj819a13Z) ] -2014-08-20 这是一个学术讨论贴,@郑梓豪爱文艺 在这里 http://t.cn/RPRegxF 更详细地描述了他遇到的研究问题,和初步想法,很希望能得到指点,并且与同学们讨论研究。先代他谢过了。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bj7IFeAHf}) ] +2014-08-20 这是一个学术讨论贴,@郑梓豪爱文艺 在这里 http://t.cn/RPRegxF 更详细地描述了他遇到的研究问题,和初步想法,很希望能得到指点,并且与同学们讨论研究。先代他谢过了。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bj7IFeAHf) ] -2014-08-20 回复@CodeColorist: 非常感谢,这个数据集非常好 http://t.cn/RPEhoMR “Collection and sharing of data for scientific analysis of Internet traffic, topology, routing, performance, and security-related events” 适合科研 //@CodeColorist:这个项目里自治系统(ASN)的数据是20 [ [微博]({http://www.weibo.com/5220650532/Bj7HbCJiI}) ] +2014-08-20 回复@CodeColorist: 非常感谢,这个数据集非常好 http://t.cn/RPEhoMR “Collection and sharing of data for scientific analysis of Internet traffic, topology, routing, performance, and security-related events” 适合科研 //@CodeColorist:这个项目里自治系统(ASN)的数据是20 [ [微博](http://www.weibo.com/5220650532/Bj7HbCJiI) ] -2014-08-20 问: @andeguangshaqianwanjian 传送门啊,有python做神经网络(时间序列预测方面)的资料没 答: 准备一些入门知识 http://t.cn/RPRFdBG 基于神经网络的方案:试试Pandas; Github上有 theano-rnn 开源演示; 常规python时间序列分析 可以用scikit timeseries; 此外还有一些背景知识供你参考。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bj7qMhxSx}) ] +2014-08-20 问: @andeguangshaqianwanjian 传送门啊,有python做神经网络(时间序列预测方面)的资料没 答: 准备一些入门知识 http://t.cn/RPRFdBG 基于神经网络的方案:试试Pandas; Github上有 theano-rnn 开源演示; 常规python时间序列分析 可以用scikit timeseries; 此外还有一些背景知识供你参考。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bj7qMhxSx) ] -2014-08-20 [求指点] @郑梓豪爱文艺 网络媒体上发现热门话题的方法,如何在一个小「话题」,比如「机器学习」中发现新动态。 我想改进现有的热度函数heat算法,例如采用新参数(讨论者属性的混乱程度), 或分析用户行为在时间轴上的异常分布。 问题进展: http://t.cn/RPRegxF 找到的一些相关文献, 但都比较旧 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bj7aZ0hZj}) ] +2014-08-20 [求指点] @郑梓豪爱文艺 网络媒体上发现热门话题的方法,如何在一个小「话题」,比如「机器学习」中发现新动态。 我想改进现有的热度函数heat算法,例如采用新参数(讨论者属性的混乱程度), 或分析用户行为在时间轴上的异常分布。 问题进展: http://t.cn/RPRegxF 找到的一些相关文献, 但都比较旧 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bj7aZ0hZj) ] -2014-08-20 斯坦福大规模网络数据集大全(Stanford Large Network Dataset Collection, SNAP) http://t.cn/RPRgvZQ 由斯坦福教授Jure Leskovec整理。免费,清理过,可下载。十多种不同类型的网络数据集(社交;在线社区;电子邮件;引用;Web, ...)。 Friendster数据集有6千5百万节点,18亿条边。 [ [微博]({http://www.weibo.com/5220650532/Bj6Zvszak}) ] +2014-08-20 斯坦福大规模网络数据集大全(Stanford Large Network Dataset Collection, SNAP) http://t.cn/RPRgvZQ 由斯坦福教授Jure Leskovec整理。免费,清理过,可下载。十多种不同类型的网络数据集(社交;在线社区;电子邮件;引用;Web, ...)。 Friendster数据集有6千5百万节点,18亿条边。 [ [微博](http://www.weibo.com/5220650532/Bj6Zvszak) ] -2014-08-20 [资源整理] 提高网站页面响应速度的解决方案 http://t.cn/RPRrPLn : 最简单用DNS A-Record, 反向代理及负载均衡 可以先考虑ngix, 进一步可用proxy分流 感谢贡献者: mahak(github), @BUPTGuo , @情非得已小屋, @新世界_玉兔 , @52cs [ [微博]({http://www.weibo.com/5220650532/Bj6Lajkko}) ] +2014-08-20 [资源整理] 提高网站页面响应速度的解决方案 http://t.cn/RPRrPLn : 最简单用DNS A-Record, 反向代理及负载均衡 可以先考虑ngix, 进一步可用proxy分流 感谢贡献者: mahak(github), @BUPTGuo , @情非得已小屋, @新世界_玉兔 , @52cs [ [微博](http://www.weibo.com/5220650532/Bj6Lajkko) ] -2014-08-20 [推荐] Google研究员贾扬清 @fs_Yangqing 分享GoogLeNet在2014大规模视觉识别挑战赛的经验(Large Scale Visual Recognition Challenge 2014)。"个人觉得,更有意思的是 how to get the number 而不是 what the number is。我从classification和detection两个track分别聊一下" http://t.cn/RPR1pLX [ [微博]({http://www.weibo.com/5220650532/Bj6zoraCR}) ] +2014-08-20 [推荐] Google研究员贾扬清 @fs_Yangqing 分享GoogLeNet在2014大规模视觉识别挑战赛的经验(Large Scale Visual Recognition Challenge 2014)。"个人觉得,更有意思的是 how to get the number 而不是 what the number is。我从classification和detection两个track分别聊一下" http://t.cn/RPR1pLX [ [微博](http://www.weibo.com/5220650532/Bj6zoraCR) ] -2014-08-20 [续求助] 问: @杜威Dewey 比较 nextenta、nutanix? 答: 讨论与进展 http://t.cn/RPRunNs 有一篇不错的谷歌话题热度分析: http://t.cn/RPR3wtD 1.nutanix 与nextenta分类不同, 前者是 Boxed Storage, 后者是 Software-only Storage; 2.nutanix在增长,也有很多对手, nextenta 在下降, 仍占绝对优势 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bj6ntaatp}) ] +2014-08-20 [续求助] 问: @杜威Dewey 比较 nextenta、nutanix? 答: 讨论与进展 http://t.cn/RPRunNs 有一篇不错的谷歌话题热度分析: http://t.cn/RPR3wtD 1.nutanix 与nextenta分类不同, 前者是 Boxed Storage, 后者是 Software-only Storage; 2.nutanix在增长,也有很多对手, nextenta 在下降, 仍占绝对优势 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bj6ntaatp) ] -2014-08-20 [求助] 问: @杜威Dewey 互联网应用的分布式数据库存储使用网络存储有什么好方案吗?相对于昂贵的FC-SAN,性能一般的NAS,IP-SAN是不是比较好的选择。Nexenta、OpenFiler这些开源软件能上生产环境吗?有人说nextenta不合适用于互联网架构,说nutanix不错, 怎么看? 讨论与进展: http://t.cn/RPRunNs [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bj6kAEAn4}) ] +2014-08-20 [求助] 问: @杜威Dewey 互联网应用的分布式数据库存储使用网络存储有什么好方案吗?相对于昂贵的FC-SAN,性能一般的NAS,IP-SAN是不是比较好的选择。Nexenta、OpenFiler这些开源软件能上生产环境吗?有人说nextenta不合适用于互联网架构,说nutanix不错, 怎么看? 讨论与进展: http://t.cn/RPRunNs [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bj6kAEAn4) ] -2014-08-20 [知识]"星系动物园"(GalaxyZoo, http://t.cn/RPRnHTO )是邀请公众协助在网络上为上百万个星系在线上进行分类的天文学计划。2007年上线, 第一版两年分类了90万星系,免费数据下载 http://t.cn/RPRnHTl ; 2014 Kaggle Galaxy Zoo challenge头名用深度学习自动分类(RMSE 0.07467) http://t.cn/RPRnHTW [ [微博]({http://www.weibo.com/5220650532/Bj60Vsc3k}) ] +2014-08-20 [知识]"星系动物园"(GalaxyZoo, http://t.cn/RPRnHTO )是邀请公众协助在网络上为上百万个星系在线上进行分类的天文学计划。2007年上线, 第一版两年分类了90万星系,免费数据下载 http://t.cn/RPRnHTl ; 2014 Kaggle Galaxy Zoo challenge头名用深度学习自动分类(RMSE 0.07467) http://t.cn/RPRnHTW [ [微博](http://www.weibo.com/5220650532/Bj60Vsc3k) ] -2014-08-20 罗马帝国的40张地图 http://t.cn/RPRnTsJ 罗马的兴起,罗马的对外战争,罗马内战,罗马与中国和印度的贸易,罗马的衰落与遗产,尽在图中。 [ [微博]({http://www.weibo.com/5220650532/Bj60OmI1b}) ] +2014-08-20 罗马帝国的40张地图 http://t.cn/RPRnTsJ 罗马的兴起,罗马的对外战争,罗马内战,罗马与中国和印度的贸易,罗马的衰落与遗产,尽在图中。 [ [微博](http://www.weibo.com/5220650532/Bj60OmI1b) ] -2014-08-20 原来GIF小动画也这么有用又好玩,果然是数据结构入门利器。 里面的例子里给的代码不熟悉,貌似伪码。 [ [微博]({http://www.weibo.com/5220650532/Bj5wH9EYO}) ] +2014-08-20 原来GIF小动画也这么有用又好玩,果然是数据结构入门利器。 里面的例子里给的代码不熟悉,貌似伪码。 [ [微博](http://www.weibo.com/5220650532/Bj5wH9EYO) ] -2014-08-20 http://t.cn/RPRHgdY 补充树木计划链接 [good]//@复旦大学星空讲坛: 几天前星空还转过港中大的树木计划,希望旦旦也可以有自己的植物库[可怜] [ [微博]({http://www.weibo.com/5220650532/Bj5fV5r3d}) ] +2014-08-20 http://t.cn/RPRHgdY 补充树木计划链接 [good]//@复旦大学星空讲坛: 几天前星空还转过港中大的树木计划,希望旦旦也可以有自己的植物库[可怜] [ [微博](http://www.weibo.com/5220650532/Bj5fV5r3d) ] -2014-08-19 生物百科全书 Encyclopedia of Life(EOL) 是一个免费在线全球物种档案馆。它自2008年上线就涵盖了3万物种,到2011年九月已经达到70万物种, 目标是在10年内为1百90万余已知的物种建立档案。http://t.cn/RP8mYWn @陆浑戎 推荐的《中国植物志》在线版、台湾生命大百科 都可以算是全球EOL联盟的一部分 [ [微博]({http://www.weibo.com/5220650532/Bj16laqQn}) ] +2014-08-19 生物百科全书 Encyclopedia of Life(EOL) 是一个免费在线全球物种档案馆。它自2008年上线就涵盖了3万物种,到2011年九月已经达到70万物种, 目标是在10年内为1百90万余已知的物种建立档案。http://t.cn/RP8mYWn @陆浑戎 推荐的《中国植物志》在线版、台湾生命大百科 都可以算是全球EOL联盟的一部分 [ [微博](http://www.weibo.com/5220650532/Bj16laqQn) ] -2014-08-19 问: @jimmy_000 卷积神经网络CNN的“卷积”是一个什么样的过程? 它是怎样将图像的编码从像素level 上升到NxN区块的 答: 初步答案 http://t.cn/RP8QjNH 看看Andrew Ng 写的短教程Convolutional Neural Network, 中文有bzjia的Deep Learning学习随记。@赵家平USC 讲了不少深度学习在图像处理的前沿成果 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bj0JM11rm}) ] +2014-08-19 问: @jimmy_000 卷积神经网络CNN的“卷积”是一个什么样的过程? 它是怎样将图像的编码从像素level 上升到NxN区块的 答: 初步答案 http://t.cn/RP8QjNH 看看Andrew Ng 写的短教程Convolutional Neural Network, 中文有bzjia的Deep Learning学习随记。@赵家平USC 讲了不少深度学习在图像处理的前沿成果 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bj0JM11rm) ] -2014-08-19 [资料整理] 深度学习在语音识别的应用,入门篇: http://t.cn/RP8ll1s 向 @李开复 在CMU做的Sphinx(1988)致敬。介绍几个牛人和顶级团队: 微软 (邓力 Li Deng )和谷歌 (Vincent Vanhoucke, Geoffrey E. Hinton)。 [ [微博]({http://www.weibo.com/5220650532/Bj0jOqW9v}) ] +2014-08-19 [资料整理] 深度学习在语音识别的应用,入门篇: http://t.cn/RP8ll1s 向 @李开复 在CMU做的Sphinx(1988)致敬。介绍几个牛人和顶级团队: 微软 (邓力 Li Deng )和谷歌 (Vincent Vanhoucke, Geoffrey E. Hinton)。 [ [微博](http://www.weibo.com/5220650532/Bj0jOqW9v) ] -2014-08-19 [资源整理] 不平衡数据分类(Imbalanced data classification): http://t.cn/RP8NM2s 经典文献 MetaCost (Domingo, 1999), SMOTE(2002 Chawla), 以及2004 CMU Yanjun Qi 的综述(现UVA教授);工具与数据集(WEKA,NLTK), GITHUB SMOTE的实现。感谢 @AixinSG @刘知远THU @xierqi @eacl_newsmth [ [微博]({http://www.weibo.com/5220650532/BiZQEloKK}) ] +2014-08-19 [资源整理] 不平衡数据分类(Imbalanced data classification): http://t.cn/RP8NM2s 经典文献 MetaCost (Domingo, 1999), SMOTE(2002 Chawla), 以及2004 CMU Yanjun Qi 的综述(现UVA教授);工具与数据集(WEKA,NLTK), GITHUB SMOTE的实现。感谢 @AixinSG @刘知远THU @xierqi @eacl_newsmth [ [微博](http://www.weibo.com/5220650532/BiZQEloKK) ] -2014-08-19 问: @唐小sin 有没有multi-task learning的相关学习资料呢? 答: 维基百科上有不少经典文献。AAAI和ICML都有论文(北大/清华)。找到今年Honglak Lee (U Michigan 教授)的短教程。Lan Žagar 博士论文(2014) Ranking by Multitask Learning. 问答追踪: http://t.cn/RP8a3Ax 求补充 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BiZl47k80}) ] +2014-08-19 问: @唐小sin 有没有multi-task learning的相关学习资料呢? 答: 维基百科上有不少经典文献。AAAI和ICML都有论文(北大/清华)。找到今年Honglak Lee (U Michigan 教授)的短教程。Lan Žagar 博士论文(2014) Ranking by Multitask Learning. 问答追踪: http://t.cn/RP8a3Ax 求补充 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BiZl47k80) ] -2014-08-19 [资源整理 ] 中文词汇语义相似度计算方法与工具 http://t.cn/RP8IYvH 包括:python gensim,word2vector, GloVe, Explicit Semantic Analysis 资料卡片: http://t.cn/RP8IYvT 感谢 @杜振东_java @刘知远THU @昊奋 @算文解字 @Mr_UnderWaterrrrrr @朱鉴 @西瓜大丸子汤 @董力at北航 @尘绳聋-SYSU [ [微博]({http://www.weibo.com/5220650532/BiYH4E1Gw}) ] +2014-08-19 [资源整理 ] 中文词汇语义相似度计算方法与工具 http://t.cn/RP8IYvH 包括:python gensim,word2vector, GloVe, Explicit Semantic Analysis 资料卡片: http://t.cn/RP8IYvT 感谢 @杜振东_java @刘知远THU @昊奋 @算文解字 @Mr_UnderWaterrrrrr @朱鉴 @西瓜大丸子汤 @董力at北航 @尘绳聋-SYSU [ [微博](http://www.weibo.com/5220650532/BiYH4E1Gw) ] -2014-08-18 搭车推荐 @赵家平USC 的微博 "Sebastian Seung 用CNN重建了老鼠视网膜里的plexiform layer;UCI的学者在nature上撰文说DL用于发现 希格斯玻色子"; Jeff Hinton组deep CNN(CovNets)在ImageNet; Fei-Fei组的 video classification with CNN 看问答进展:http://t.cn/RPQxZNF [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BiUmllrLL}) ] +2014-08-18 搭车推荐 @赵家平USC 的微博 "Sebastian Seung 用CNN重建了老鼠视网膜里的plexiform layer;UCI的学者在nature上撰文说DL用于发现 希格斯玻色子"; Jeff Hinton组deep CNN(CovNets)在ImageNet; Fei-Fei组的 video classification with CNN 看问答进展:http://t.cn/RPQxZNF [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BiUmllrLL) ] -2014-08-18 非常感谢,身边的图像拼接/全景图应用:谷歌街景, iphone拍照, 汽车摄像头//@图像视觉研究: Lowe的Automatic Panoramic Image Stitching using Invariant Features绝对经典,OpenCV的拼接就是基于这个框架。另外沈向洋的Construction of Panoramic Image Mosaics with Global and Local Alignment也经典 [ [微博]({http://www.weibo.com/5220650532/BiU6AsAmL}) ] +2014-08-18 非常感谢,身边的图像拼接/全景图应用:谷歌街景, iphone拍照, 汽车摄像头//@图像视觉研究: Lowe的Automatic Panoramic Image Stitching using Invariant Features绝对经典,OpenCV的拼接就是基于这个框架。另外沈向洋的Construction of Panoramic Image Mosaics with Global and Local Alignment也经典 [ [微博](http://www.weibo.com/5220650532/BiU6AsAmL) ] -2014-08-18 问: @思考中的芦苇 有没有视频图像配准相关的资料呢?比如说卫星拍了一段地面上的遥感视频,如何从这段视频中提取出许多帧图像,然后进行图像配准,组成一幅地图呢? 答: 关键词Image Alignment and Stitching, remote sensing, 问答进展见http://t.cn/RPQ63GQ 求交流指点 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BiRyc2QGH}) ] +2014-08-18 问: @思考中的芦苇 有没有视频图像配准相关的资料呢?比如说卫星拍了一段地面上的遥感视频,如何从这段视频中提取出许多帧图像,然后进行图像配准,组成一幅地图呢? 答: 关键词Image Alignment and Stitching, remote sensing, 问答进展见http://t.cn/RPQ63GQ 求交流指点 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BiRyc2QGH) ] -2014-08-18 阶段小结: 感谢热心专家 @唐小sin @善良的右行 推荐的好东西, 现在问答追踪 ( http://t.cn/RPQXlim )里已经有十几条相关文献了. 整理了一个总结, http://t.cn/RPQXliQ 看看行不行,欢迎参与编辑 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BiRkGCx0v}) ] +2014-08-18 阶段小结: 感谢热心专家 @唐小sin @善良的右行 推荐的好东西, 现在问答追踪 ( http://t.cn/RPQXlim )里已经有十几条相关文献了. 整理了一个总结, http://t.cn/RPQXliQ 看看行不行,欢迎参与编辑 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BiRkGCx0v) ] -2014-08-18 回复@善良的右行: 这几个推荐文章都很好呀,第一篇引用率都快400了. 要不是了解领域,谁能想到这个关键词呢, influential spreaders . //@善良的右行:@好东西传送门 惭愧,我也是菜鸟,当然很乐意共享:Identification of influentialspreaders in complex networks;Leaders in Social Networks, the De [ [微博]({http://www.weibo.com/5220650532/BiRevEmzM}) ] +2014-08-18 回复@善良的右行: 这几个推荐文章都很好呀,第一篇引用率都快400了. 要不是了解领域,谁能想到这个关键词呢, influential spreaders . //@善良的右行:@好东西传送门 惭愧,我也是菜鸟,当然很乐意共享:Identification of influentialspreaders in complex networks;Leaders in Social Networks, the De [ [微博](http://www.weibo.com/5220650532/BiRevEmzM) ] -2014-08-18 回复@唐小sin: 这篇文章很不错哦, 还对比了TunkRank, Topic-sensitive PageRank (TSPR) //@唐小sin:任何influence的文章都可以哪来读读,而至于意见领袖不妨看看twitterrank [ [微博]({http://www.weibo.com/5220650532/BiRagmjE9}) ] +2014-08-18 回复@唐小sin: 这篇文章很不错哦, 还对比了TunkRank, Topic-sensitive PageRank (TSPR) //@唐小sin:任何influence的文章都可以哪来读读,而至于意见领袖不妨看看twitterrank [ [微博](http://www.weibo.com/5220650532/BiRagmjE9) ] -2014-08-18 发现重要节点一直是社交网络研究的重要问题, 研究热点大约在2007~2010社交媒体蓬勃发展的时候, 2014年已经有influential user identification的综述了.鉴于这类研究的算法并不困难,但数据量较大且较难获得,研究前沿已经逐渐从学术界转移到工业界/创业应用。http://t.cn/RPQfWRW [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BiR72BfHw}) ] +2014-08-18 发现重要节点一直是社交网络研究的重要问题, 研究热点大约在2007~2010社交媒体蓬勃发展的时候, 2014年已经有influential user identification的综述了.鉴于这类研究的算法并不困难,但数据量较大且较难获得,研究前沿已经逐渐从学术界转移到工业界/创业应用。http://t.cn/RPQfWRW [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BiR72BfHw) ] -2014-08-18 感谢指正, 能不能推荐几个好东西, 咱也找找 social network analysis 的文献 回复@善良的右行: 这几篇论文略旧……当然引用率是不用说的……貌似问题本质是重要节点挖掘 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BiQWI1oD2}) ] +2014-08-18 感谢指正, 能不能推荐几个好东西, 咱也找找 social network analysis 的文献 回复@善良的右行: 这几篇论文略旧……当然引用率是不用说的……貌似问题本质是重要节点挖掘 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BiQWI1oD2) ] -2014-08-18 问: @马辰The_answer:主页君能否推荐一些用深度学习做推荐的文章资料 答: 问答进展 http://t.cn/RPQMg7Q 找到一篇今年8月新鲜出炉, Spotify的实习生博文: Recommending music on Spotify with deep learning .今年2月有人讲Netflix的电影推荐. 欢迎补充指正 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BiQUcxKod}) ] +2014-08-18 问: @马辰The_answer:主页君能否推荐一些用深度学习做推荐的文章资料 答: 问答进展 http://t.cn/RPQMg7Q 找到一篇今年8月新鲜出炉, Spotify的实习生博文: Recommending music on Spotify with deep learning .今年2月有人讲Netflix的电影推荐. 欢迎补充指正 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BiQUcxKod) ] -2014-08-18 问: @山东工商学院白建磊 有没有新媒体意见领袖领域方面的文献可以推荐? 答: 问答进展 http://t.cn/RPQfWRW . 初步推荐: 意见领袖 (opinion leader), user influence, twitter, 有几篇引用率很高的论文分析了Twitter用户影响力. 还有, 社交媒体信息传播综述. 欢迎补充指正. [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BiQH4deoc}) ] +2014-08-18 问: @山东工商学院白建磊 有没有新媒体意见领袖领域方面的文献可以推荐? 答: 问答进展 http://t.cn/RPQfWRW . 初步推荐: 意见领袖 (opinion leader), user influence, twitter, 有几篇引用率很高的论文分析了Twitter用户影响力. 还有, 社交媒体信息传播综述. 欢迎补充指正. [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BiQH4deoc) ] -2014-08-17 //@见习烟酒生:出轨检测。。居然还有这么实用的案例//@西瓜大丸子汤:里面有一篇“女人是如何发现另一半出轨的” [哈哈] [ [微博]({http://www.weibo.com/5220650532/BiGM9wr1F}) ] +2014-08-17 //@见习烟酒生:出轨检测。。居然还有这么实用的案例//@西瓜大丸子汤:里面有一篇“女人是如何发现另一半出轨的” [哈哈] [ [微博](http://www.weibo.com/5220650532/BiGM9wr1F) ] -2014-08-16 [求指点] @小白_小可乐:能帮忙找点"背景建模"的资料么?就是图像前景提取的方法. 关键词: 图像前景提取(Foreground Extraction), 视频分析, 背景建模(background object detection) 问答进展看这里: http://t.cn/RPTWX7w [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BiBA9tX99}) ] +2014-08-16 [求指点] @小白_小可乐:能帮忙找点"背景建模"的资料么?就是图像前景提取的方法. 关键词: 图像前景提取(Foreground Extraction), 视频分析, 背景建模(background object detection) 问答进展看这里: http://t.cn/RPTWX7w [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BiBA9tX99) ] -2014-08-16 大家一定要看韩家伟老师的异常检测讲义(是他数据挖掘教材第三版的第12章),就56页. 简明扼要! 直接给个讲义PPT 下载传送门 http://t.cn/RPTLh7M [ [微博]({http://www.weibo.com/5220650532/BixYpiSEk}) ] +2014-08-16 大家一定要看韩家伟老师的异常检测讲义(是他数据挖掘教材第三版的第12章),就56页. 简明扼要! 直接给个讲义PPT 下载传送门 http://t.cn/RPTLh7M [ [微博](http://www.weibo.com/5220650532/BixYpiSEk) ] -2014-08-16 问:@ai_东沂 异常检测应用在文本挖掘 答: 异常检测(outlier/anomaly detection)和文本挖掘(text mining)都是大课题。几篇异常检测综述(如韩家伟的讲义) 与应用(如发现金融欺诈); 几个异常检测用在文本挖掘的综述(如在对话流中发现新话题),以及话题模型的文献(如翟成祥的讲义) http://t.cn/RPYnZD8 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BixPQANza}) ] +2014-08-16 问:@ai_东沂 异常检测应用在文本挖掘 答: 异常检测(outlier/anomaly detection)和文本挖掘(text mining)都是大课题。几篇异常检测综述(如韩家伟的讲义) 与应用(如发现金融欺诈); 几个异常检测用在文本挖掘的综述(如在对话流中发现新话题),以及话题模型的文献(如翟成祥的讲义) http://t.cn/RPYnZD8 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BixPQANza) ] -2014-08-16 @维尔茨 问:有木有关于循环神经网络在segmented sequence labeling方面的papers? 答:多伦多大学Alex Graves有专著. 基于recurrent neural networks(RNN)研究, @ICT_朱亚东 推荐Herbert Jaeger的短教程. Jürgen Schmidhuber教授收集了60多相关论文, 微软研究院用RNN做自然语言处理 http://t.cn/RPYQVsY [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BiuoeCGpy}) ] +2014-08-16 @维尔茨 问:有木有关于循环神经网络在segmented sequence labeling方面的papers? 答:多伦多大学Alex Graves有专著. 基于recurrent neural networks(RNN)研究, @ICT_朱亚东 推荐Herbert Jaeger的短教程. Jürgen Schmidhuber教授收集了60多相关论文, 微软研究院用RNN做自然语言处理 http://t.cn/RPYQVsY [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BiuoeCGpy) ] -2014-08-15 [实事求是学大数据] @猴山寨主找夫人 问:是否能提供一个入门级的大数据指导方案.答:盲目上大数据技术很容易浪费学习时间和运营成本。这里我们列了一个极简版,面向的是普通基础、需要从一般数据处理任务逐步扩展到大数据的用户,见长微博。完整导读见本文文字版 http://t.cn/RPjCbl7 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BimdAmKqK}) ] +2014-08-15 [实事求是学大数据] @猴山寨主找夫人 问:是否能提供一个入门级的大数据指导方案.答:盲目上大数据技术很容易浪费学习时间和运营成本。这里我们列了一个极简版,面向的是普通基础、需要从一般数据处理任务逐步扩展到大数据的用户,见长微博。完整导读见本文文字版 http://t.cn/RPjCbl7 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BimdAmKqK) ] -2014-08-15 [good]//@孙明明_SmarterChina:这些资料都没有提到manifold Learning中的一篇非常重要的文献:Yoshua Bengio 的 Non-Local Estimation of Manifold Structure http://t.cn/RPj5iYv。 这个文章揭示了LLE/ISOMap代表的一类流形学习方法无法直接广泛应用的宿命。 [ [微博]({http://www.weibo.com/5220650532/BijiQaRyl}) ] +2014-08-15 [good]//@孙明明_SmarterChina:这些资料都没有提到manifold Learning中的一篇非常重要的文献:Yoshua Bengio 的 Non-Local Estimation of Manifold Structure http://t.cn/RPj5iYv。 这个文章揭示了LLE/ISOMap代表的一类流形学习方法无法直接广泛应用的宿命。 [ [微博](http://www.weibo.com/5220650532/BijiQaRyl) ] -2014-08-15 Apex出品 [good]//@zwner:个人觉得最普适有效的经典算法是SVD++ http://t.cn/RPjLPjx,在推荐模型本身上最有深度的是MF-GBRT http://t.cn/RPjLPjM。如果你想用一个code快速实现不少推荐算法,那请毫不犹豫使用我们的SVDFeature http://t.cn/zYRnUMA [ [微博]({http://www.weibo.com/5220650532/BiiWGqD5P}) ] +2014-08-15 Apex出品 [good]//@zwner:个人觉得最普适有效的经典算法是SVD++ http://t.cn/RPjLPjx,在推荐模型本身上最有深度的是MF-GBRT http://t.cn/RPjLPjM。如果你想用一个code快速实现不少推荐算法,那请毫不犹豫使用我们的SVDFeature http://t.cn/zYRnUMA [ [微博](http://www.weibo.com/5220650532/BiiWGqD5P) ] -2014-08-14 这个例子很合适送给@oyyNyanCat “机器学习数据挖掘方面的简单有趣应用” http://t.cn/RPlYDZx [ [微博]({http://www.weibo.com/5220650532/BifsXvfQC}) ] +2014-08-14 这个例子很合适送给@oyyNyanCat “机器学习数据挖掘方面的简单有趣应用” http://t.cn/RPlYDZx [ [微博](http://www.weibo.com/5220650532/BifsXvfQC) ] -2014-08-14 特别推荐。最优化,逻辑回归,最大熵,主题模型,深度学习,相似度,搜索,一脉下来,整理的深入浅出,非常清晰。传送门君以前读过前一半,现在终于写全了! [ [微博]({http://www.weibo.com/5220650532/BidtPx8pa}) ] +2014-08-14 特别推荐。最优化,逻辑回归,最大熵,主题模型,深度学习,相似度,搜索,一脉下来,整理的深入浅出,非常清晰。传送门君以前读过前一半,现在终于写全了! [ [微博](http://www.weibo.com/5220650532/BidtPx8pa) ] -2014-08-13 最新数据显示: 美国Snapchat的用户渗透率稳步上升,在18-34岁的消费者市场首次超过Twitter。主要动力来自18-24岁人群的追捧。 http://t.cn/RPWBC1c [ [微博]({http://www.weibo.com/5220650532/Bi90saK6K}) ] +2014-08-13 最新数据显示: 美国Snapchat的用户渗透率稳步上升,在18-34岁的消费者市场首次超过Twitter。主要动力来自18-24岁人群的追捧。 http://t.cn/RPWBC1c [ [微博](http://www.weibo.com/5220650532/Bi90saK6K) ] -2014-08-13 最近我们推荐过四组深度学习的资源,分别为语音检索,文本挖掘/自然语言处理,图像检索,最热深度学习Github项目。为方便大家浏览/粘帖,现在制作成可下载的PPT,每页是一个推荐资源的预览。百度云盘 http://t.cn/RPWoSHq slideshare http://t.cn/RPWoSHb 原始PPT http://t.cn/RPWoSH4 [ [微博]({http://www.weibo.com/5220650532/Bi6AwyhV1}) ] +2014-08-13 最近我们推荐过四组深度学习的资源,分别为语音检索,文本挖掘/自然语言处理,图像检索,最热深度学习Github项目。为方便大家浏览/粘帖,现在制作成可下载的PPT,每页是一个推荐资源的预览。百度云盘 http://t.cn/RPWoSHq slideshare http://t.cn/RPWoSHb 原始PPT http://t.cn/RPWoSH4 [ [微博](http://www.weibo.com/5220650532/Bi6AwyhV1) ] -2014-08-13 http://t.cn/RPW6muz ACL2014 Semantic Parsing Workshop的slides 感谢@老淘 @波多野丽猪 推荐 [ [微博]({http://www.weibo.com/5220650532/Bi6fQ8wYq}) ] +2014-08-13 http://t.cn/RPW6muz ACL2014 Semantic Parsing Workshop的slides 感谢@老淘 @波多野丽猪 推荐 [ [微博](http://www.weibo.com/5220650532/Bi6fQ8wYq) ] -2014-08-13 //@ansj: @52nlp @好东西传送门 @v_小峰_v 墙裂推荐.应该是史上公开的最大最完整的中文词库了 [ [微博]({http://www.weibo.com/5220650532/Bi65w5qIN}) ] +2014-08-13 //@ansj: @52nlp @好东西传送门 @v_小峰_v 墙裂推荐.应该是史上公开的最大最完整的中文词库了 [ [微博](http://www.weibo.com/5220650532/Bi65w5qIN) ] -2014-08-13 回复@Liufool: 非常感谢,这个补充太专业了,果然是windows高手。话说微软的语音识别还是很牛的,你看这个当入门文档行吗? http://t.cn/RPWwj0A 顺带说一句, 曾经亲眼看见一个盲人科学家用语音操控windows笔记本。 //@Liufool:microsoft speech platform是服务器版windows可免费应用的语音识别, [ [微博]({http://www.weibo.com/5220650532/Bi4olbouK}) ] +2014-08-13 回复@Liufool: 非常感谢,这个补充太专业了,果然是windows高手。话说微软的语音识别还是很牛的,你看这个当入门文档行吗? http://t.cn/RPWwj0A 顺带说一句, 曾经亲眼看见一个盲人科学家用语音操控windows笔记本。 //@Liufool:microsoft speech platform是服务器版windows可免费应用的语音识别, [ [微博](http://www.weibo.com/5220650532/Bi4olbouK) ] -2014-08-13 问:@VoidStars 请问想提取一段文本里的中文姓名(0~1个) 有好的开源库和教程吗 答: 常见方法就是分词,再利用姓名词库和上下文关系来确定。 知呼有一个综述。google有专利。 @52nlp 也有大量博文讲中文分词。开源工具比较有名的有jieba, snownlp, stanford-nlp-ner. http://t.cn/RPWP2h1 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bi3VHfSFP}) ] +2014-08-13 问:@VoidStars 请问想提取一段文本里的中文姓名(0~1个) 有好的开源库和教程吗 答: 常见方法就是分词,再利用姓名词库和上下文关系来确定。 知呼有一个综述。google有专利。 @52nlp 也有大量博文讲中文分词。开源工具比较有名的有jieba, snownlp, stanford-nlp-ner. http://t.cn/RPWP2h1 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bi3VHfSFP) ] -2014-08-13 问: @yongsun 有没有开源或者免费的英文语音识别软件/或项目?打算翻译一些冰球教学的视频,想结合识别结果来进行听译 答: Windows7/8 自带语音识别功能,Google Chrome有基于云端服务的识别插件,软件方面Nuaunce的Dragon很牛(SIRI就是靠它做语音识别). 开源软件列表看维基百科。http://t.cn/RPODalA [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bi3ti7wAd}) ] +2014-08-13 问: @yongsun 有没有开源或者免费的英文语音识别软件/或项目?打算翻译一些冰球教学的视频,想结合识别结果来进行听译 答: Windows7/8 自带语音识别功能,Google Chrome有基于云端服务的识别插件,软件方面Nuaunce的Dragon很牛(SIRI就是靠它做语音识别). 开源软件列表看维基百科。http://t.cn/RPODalA [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bi3ti7wAd) ] -2014-08-13 问: 做 logistic regression 有啥好用的库吗? 需要处理几十万个 features, 然后几十亿个training data的。 features 是极其稀疏的,Sparsity大概万分之一左右吧 答: 有不少开源库: Spark(MLlib), Mahout, R+Hadoop, Hadoop, Scalding(Conjecture)。有2014分析指出SPARK比较快。http://t.cn/RPOddon [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bi3axDIR8}) ] +2014-08-13 问: 做 logistic regression 有啥好用的库吗? 需要处理几十万个 features, 然后几十亿个training data的。 features 是极其稀疏的,Sparsity大概万分之一左右吧 答: 有不少开源库: Spark(MLlib), Mahout, R+Hadoop, Hadoop, Scalding(Conjecture)。有2014分析指出SPARK比较快。http://t.cn/RPOddon [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bi3axDIR8) ] -2014-08-13 [问题求领养] @不非否nonono:请问有没有关于causality与Bayesian Network有关的资料?http://t.cn/RPOR7Iv。除了Judea Pearl的书,大家有什么推荐?有没有你觉得比较好的教程?BTW, 以前在Python站上有过不少和贝叶斯相关的推荐资源 http://t.cn/RPOrpGD [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/Bi2Z7mgEI}) ] +2014-08-13 [问题求领养] @不非否nonono:请问有没有关于causality与Bayesian Network有关的资料?http://t.cn/RPOR7Iv。除了Judea Pearl的书,大家有什么推荐?有没有你觉得比较好的教程?BTW, 以前在Python站上有过不少和贝叶斯相关的推荐资源 http://t.cn/RPOrpGD [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bi2Z7mgEI) ] -2014-08-12 @刘知远THU 推荐:翟成祥老师(UIUC)的综述专著:Statistical Language Models for Information Retrieval(信息检索中的统计语言模式)(2008),从BM25到PLSA, LDA,回顾了领域发展并总结了未来的挑战。 [ [微博]({http://www.weibo.com/5220650532/BhWzutAft}) ] +2014-08-12 @刘知远THU 推荐:翟成祥老师(UIUC)的综述专著:Statistical Language Models for Information Retrieval(信息检索中的统计语言模式)(2008),从BM25到PLSA, LDA,回顾了领域发展并总结了未来的挑战。 [ [微博](http://www.weibo.com/5220650532/BhWzutAft) ] -2014-08-12 [NLP讲义下载,125页,PDF] 翟成祥老师(UIUC)今年在澳大利亚数据库博士短训班的教程:"Statistical Methods for Mining Big Text Data" 介绍两种基于统计语言模型(Statistics Language Model)的基本话题模型(Topic Model): LDA和PLSA的原理及应用。最后列出六个未来研究课题。http://t.cn/RPO7vtW [ [微博]({http://www.weibo.com/5220650532/BhWo26Y93}) ] +2014-08-12 [NLP讲义下载,125页,PDF] 翟成祥老师(UIUC)今年在澳大利亚数据库博士短训班的教程:"Statistical Methods for Mining Big Text Data" 介绍两种基于统计语言模型(Statistics Language Model)的基本话题模型(Topic Model): LDA和PLSA的原理及应用。最后列出六个未来研究课题。http://t.cn/RPO7vtW [ [微博](http://www.weibo.com/5220650532/BhWo26Y93) ] -2014-08-12 //@昊奋: 对于ESA,如果单纯使用wikipedia,由于中文维基百科的语料相比英语小很多,所以其实不满足ESA本身需要有高覆盖率的好处,需要自行采用百度百科或互动百科进行处理。我们会考虑利用zhishi.me来为大家提供ESA的服务。 [ [微博]({http://www.weibo.com/5220650532/BhWfVt47c}) ] +2014-08-12 //@昊奋: 对于ESA,如果单纯使用wikipedia,由于中文维基百科的语料相比英语小很多,所以其实不满足ESA本身需要有高覆盖率的好处,需要自行采用百度百科或互动百科进行处理。我们会考虑利用zhishi.me来为大家提供ESA的服务。 [ [微博](http://www.weibo.com/5220650532/BhWfVt47c) ] -2014-08-12 这个问题还有很多其他选择方案,如知网。一些正在issue 67下讨论 http://t.cn/RP0pPIt 欢迎去那增补(留言请留下你的微博号) [ [讨论](https://github.com/memect/hao/issues/67) ] [ [微博]({http://www.weibo.com/5220650532/BhWeO3CJx}) ] +2014-08-12 这个问题还有很多其他选择方案,如知网。一些正在issue 67下讨论 http://t.cn/RP0pPIt 欢迎去那增补(留言请留下你的微博号) [ [讨论](https://github.com/memect/hao/issues/67) ] [ [微博](http://www.weibo.com/5220650532/BhWeO3CJx) ] + +2014-08-12 @talkto廖华 请问有没有好用的中文词汇的语义相似度计算工具?答:多种分布式表示方法都可以计算语义相似度,中英文均可以处理。如近来的word2vec http://t.cn/RPOvesp 和glove。@刘知远THU 推荐ESA(Explicit semantic analysis),在稳定性上可能更优,一些开源项目和文章如下 http://t.cn/RPOvesj [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BhWdIDon6) ] -2014-08-12 @talkto廖华 请问有没有好用的中文词汇的语义相似度计算工具?答:多种分布式表示方法都可以计算语义相似度,中英文均可以处理。如近来的word2vec http://t.cn/RPOvesp 和glove。@刘知远THU 推荐ESA(Explicit semantic analysis),在稳定性上可能更优,一些开源项目和文章如下 http://t.cn/RPOvesj [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博]({http://www.weibo.com/5220650532/BhWdIDon6}) ] - From b1709313fe8d50181befee9586db0b48410244fc Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 3 Sep 2014 20:45:28 -0700 Subject: [PATCH 296/485] Create question-answer.md --- awesome/question-answer.md | 28 ++++++++++++++++++++++++++++ 1 file changed, 28 insertions(+) create mode 100644 awesome/question-answer.md diff --git a/awesome/question-answer.md b/awesome/question-answer.md new file mode 100644 index 0000000..e9e3b45 --- /dev/null +++ b/awesome/question-answer.md @@ -0,0 +1,28 @@ +智能问答系统资料整理 + +智能个人助理(Intelligent personal assistant) +* [Amazon Evi](http://www.evi.com/) (launched in 2012) "best selling mobile app that can answer questions about local knowledge" +** formerly [True Knowledge](http://en.wikipedia.org/wiki/Evi_(software)) (launched in 2007), "a natural answering question answering system", acquired by Amazon in 2012 +* [Google Now](http://www.google.com/landing/now/) (launched in 2012) "an intelligent personal assistant developed by Google" +* [Apple Siri](https://www.apple.com/ios/siri/) (launched in 2011) "an intelligent personal assistant and knowledge navigator which works as an application for Apple Inc.'s iOS." +** Siri IOS app (by Siri Inc.) (launched in 2009), founed in 2007, acquired by Apple in 2010 +* [Microsoft Cortana](http://www.windowsphone.com/en-us/how-to/wp8/cortana/meet-cortana) "an intelligent personal assistant on Windows Phone 8.1" +* [Sumsung S Voice](http://www.samsung.com/global/galaxys3/svoice.html)“an intelligent personal assistant and knowledge navigator which is only available as a built-in application for the Samsung Galaxy” +* [Viv](http://viv.ai/) (launching in 2014) "a global platform that enables developers to plug into and create an intelligent, conversational interface to anything." + +* [Vlingo](http://en.wikipedia.org/wiki/Vlingo) acquired by Nuance in December 2011 +* [Voice Mate](http://en.wikipedia.org/wiki/Voice_Mate) LG + +其他问答系统: +* [IBM Watson](http://www.ibm.com/smarterplanet/us/en/ibmwatson/) (launched in 2013) +** [IBM DeepQA (watson)](https://www.research.ibm.com/deepqa/deepqa.shtml) (launched in 2011) "A first stop along the way is the Jeopardy! Challenge..." +* [Wolfram alpha](http://www.wolframalpha.com/) "which was released on May 15, 2009" +* [Project Aristo](http://www.allenai.org/TemplateGeneric.aspx?contentId=8) current project at Allen Institute for Artificial Intelligence (AI2) +** [Porject Halo](http://www.allenai.org/TemplateGeneric.aspx?contentId=9) past project +* [Project CALO](http://en.wikipedia.org/wiki/CALO) (2003-2008) funded by the Defense Advanced Research Projects Agency (DARPA) under its Personalized Assistant that Learns (PAL) program + + +图灵测试: +* [Eugene Goostman](http://en.wikipedia.org/wiki/Eugene_Goostman) "portrayed as a 13-year-old Ukrainian boy" +* [Cleverbot](http://en.wikipedia.org/wiki/Cleverbot) "a web application that uses an artificial intelligence algorithm to have conversations with humans" +* [ELIZA](http://en.wikipedia.org/wiki/ELIZA) ELIZA is a computer program and an early example of primitive natural language processing From 94e2abb1e76add2057dcbc888d3c4d0017f442d3 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 3 Sep 2014 21:15:27 -0700 Subject: [PATCH 297/485] Update question-answer.md --- awesome/question-answer.md | 9 +++++++-- 1 file changed, 7 insertions(+), 2 deletions(-) diff --git a/awesome/question-answer.md b/awesome/question-answer.md index e9e3b45..ec144c6 100644 --- a/awesome/question-answer.md +++ b/awesome/question-answer.md @@ -7,12 +7,16 @@ * [Apple Siri](https://www.apple.com/ios/siri/) (launched in 2011) "an intelligent personal assistant and knowledge navigator which works as an application for Apple Inc.'s iOS." ** Siri IOS app (by Siri Inc.) (launched in 2009), founed in 2007, acquired by Apple in 2010 * [Microsoft Cortana](http://www.windowsphone.com/en-us/how-to/wp8/cortana/meet-cortana) "an intelligent personal assistant on Windows Phone 8.1" -* [Sumsung S Voice](http://www.samsung.com/global/galaxys3/svoice.html)“an intelligent personal assistant and knowledge navigator which is only available as a built-in application for the Samsung Galaxy” +* [Sumsung S Voice](http://www.samsung.com/global/galaxys3/svoice.html) "an intelligent personal assistant and knowledge navigator which is only available as a built-in application for the Samsung Galaxy” + + * [Viv](http://viv.ai/) (launching in 2014) "a global platform that enables developers to plug into and create an intelligent, conversational interface to anything." + * [Vlingo](http://en.wikipedia.org/wiki/Vlingo) acquired by Nuance in December 2011 * [Voice Mate](http://en.wikipedia.org/wiki/Voice_Mate) LG + 其他问答系统: * [IBM Watson](http://www.ibm.com/smarterplanet/us/en/ibmwatson/) (launched in 2013) ** [IBM DeepQA (watson)](https://www.research.ibm.com/deepqa/deepqa.shtml) (launched in 2011) "A first stop along the way is the Jeopardy! Challenge..." @@ -22,7 +26,8 @@ * [Project CALO](http://en.wikipedia.org/wiki/CALO) (2003-2008) funded by the Defense Advanced Research Projects Agency (DARPA) under its Personalized Assistant that Learns (PAL) program -图灵测试: +聊天机器人(Chatbot)与图灵测试: +* [微软二代小冰](http://www.msxiaoice.com/v2/DesktopLanding) "微软小冰是领先的跨平台人工智能机器人" * [Eugene Goostman](http://en.wikipedia.org/wiki/Eugene_Goostman) "portrayed as a 13-year-old Ukrainian boy" * [Cleverbot](http://en.wikipedia.org/wiki/Cleverbot) "a web application that uses an artificial intelligence algorithm to have conversations with humans" * [ELIZA](http://en.wikipedia.org/wiki/ELIZA) ELIZA is a computer program and an early example of primitive natural language processing From 9d83540c3e489da0483692527e76ea1e2b921361 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 3 Sep 2014 21:16:14 -0700 Subject: [PATCH 298/485] Update question-answer.md --- awesome/question-answer.md | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/awesome/question-answer.md b/awesome/question-answer.md index ec144c6..4a11d06 100644 --- a/awesome/question-answer.md +++ b/awesome/question-answer.md @@ -1,6 +1,6 @@ 智能问答系统资料整理 -智能个人助理(Intelligent personal assistant) +## 智能个人助理(Intelligent personal assistant) * [Amazon Evi](http://www.evi.com/) (launched in 2012) "best selling mobile app that can answer questions about local knowledge" ** formerly [True Knowledge](http://en.wikipedia.org/wiki/Evi_(software)) (launched in 2007), "a natural answering question answering system", acquired by Amazon in 2012 * [Google Now](http://www.google.com/landing/now/) (launched in 2012) "an intelligent personal assistant developed by Google" @@ -17,7 +17,7 @@ * [Voice Mate](http://en.wikipedia.org/wiki/Voice_Mate) LG -其他问答系统: +## 其他问答系统: * [IBM Watson](http://www.ibm.com/smarterplanet/us/en/ibmwatson/) (launched in 2013) ** [IBM DeepQA (watson)](https://www.research.ibm.com/deepqa/deepqa.shtml) (launched in 2011) "A first stop along the way is the Jeopardy! Challenge..." * [Wolfram alpha](http://www.wolframalpha.com/) "which was released on May 15, 2009" @@ -26,7 +26,7 @@ * [Project CALO](http://en.wikipedia.org/wiki/CALO) (2003-2008) funded by the Defense Advanced Research Projects Agency (DARPA) under its Personalized Assistant that Learns (PAL) program -聊天机器人(Chatbot)与图灵测试: +## 聊天机器人(Chatbot)与图灵测试: * [微软二代小冰](http://www.msxiaoice.com/v2/DesktopLanding) "微软小冰是领先的跨平台人工智能机器人" * [Eugene Goostman](http://en.wikipedia.org/wiki/Eugene_Goostman) "portrayed as a 13-year-old Ukrainian boy" * [Cleverbot](http://en.wikipedia.org/wiki/Cleverbot) "a web application that uses an artificial intelligence algorithm to have conversations with humans" From aa78e4d1cba7a8ca631b8386c8e9ce9b911f1d64 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 3 Sep 2014 21:18:58 -0700 Subject: [PATCH 299/485] Update question-answer.md --- awesome/question-answer.md | 7 ++++--- 1 file changed, 4 insertions(+), 3 deletions(-) diff --git a/awesome/question-answer.md b/awesome/question-answer.md index 4a11d06..adec40f 100644 --- a/awesome/question-answer.md +++ b/awesome/question-answer.md @@ -27,7 +27,8 @@ ## 聊天机器人(Chatbot)与图灵测试: -* [微软二代小冰](http://www.msxiaoice.com/v2/DesktopLanding) "微软小冰是领先的跨平台人工智能机器人" -* [Eugene Goostman](http://en.wikipedia.org/wiki/Eugene_Goostman) "portrayed as a 13-year-old Ukrainian boy" +* [小Q(腾讯聊天机器人)](http://qrobot.qq.com/) "QQ机器人是腾讯公司陆续推出的人工智能聊天机器人的总称" (2013) +* [微软小冰](http://www.msxiaoice.com/v2/DesktopLanding) "微软小冰是领先的跨平台人工智能机器人" (2014) +* [Eugene Goostman](http://en.wikipedia.org/wiki/Eugene_Goostman) "portrayed as a 13-year-old Ukrainian boy" (2001-) * [Cleverbot](http://en.wikipedia.org/wiki/Cleverbot) "a web application that uses an artificial intelligence algorithm to have conversations with humans" -* [ELIZA](http://en.wikipedia.org/wiki/ELIZA) ELIZA is a computer program and an early example of primitive natural language processing +* [ELIZA](http://en.wikipedia.org/wiki/ELIZA) ELIZA is a computer program and an early example of primitive natural language processing (1976) From 290b113e9434124443e025b335f8448d30f03b65 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 3 Sep 2014 21:21:11 -0700 Subject: [PATCH 300/485] Update question-answer.md --- awesome/question-answer.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/awesome/question-answer.md b/awesome/question-answer.md index adec40f..cb28f61 100644 --- a/awesome/question-answer.md +++ b/awesome/question-answer.md @@ -11,19 +11,19 @@ * [Viv](http://viv.ai/) (launching in 2014) "a global platform that enables developers to plug into and create an intelligent, conversational interface to anything." +* [Project CALO](http://en.wikipedia.org/wiki/CALO) (2003-2008) funded by the Defense Advanced Research Projects Agency (DARPA) under its Personalized Assistant that Learns (PAL) program * [Vlingo](http://en.wikipedia.org/wiki/Vlingo) acquired by Nuance in December 2011 * [Voice Mate](http://en.wikipedia.org/wiki/Voice_Mate) LG -## 其他问答系统: +## 问答系统: * [IBM Watson](http://www.ibm.com/smarterplanet/us/en/ibmwatson/) (launched in 2013) ** [IBM DeepQA (watson)](https://www.research.ibm.com/deepqa/deepqa.shtml) (launched in 2011) "A first stop along the way is the Jeopardy! Challenge..." * [Wolfram alpha](http://www.wolframalpha.com/) "which was released on May 15, 2009" * [Project Aristo](http://www.allenai.org/TemplateGeneric.aspx?contentId=8) current project at Allen Institute for Artificial Intelligence (AI2) ** [Porject Halo](http://www.allenai.org/TemplateGeneric.aspx?contentId=9) past project -* [Project CALO](http://en.wikipedia.org/wiki/CALO) (2003-2008) funded by the Defense Advanced Research Projects Agency (DARPA) under its Personalized Assistant that Learns (PAL) program ## 聊天机器人(Chatbot)与图灵测试: From 6fe46c2196444ef9f2237344509cbb6d033265ff Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 3 Sep 2014 21:23:47 -0700 Subject: [PATCH 301/485] Update question-answer.md --- awesome/question-answer.md | 5 +++-- 1 file changed, 3 insertions(+), 2 deletions(-) diff --git a/awesome/question-answer.md b/awesome/question-answer.md index cb28f61..49e881b 100644 --- a/awesome/question-answer.md +++ b/awesome/question-answer.md @@ -1,4 +1,5 @@ -智能问答系统资料整理 +# 智能问答系统资料整理 + ## 智能个人助理(Intelligent personal assistant) * [Amazon Evi](http://www.evi.com/) (launched in 2012) "best selling mobile app that can answer questions about local knowledge" @@ -7,7 +8,7 @@ * [Apple Siri](https://www.apple.com/ios/siri/) (launched in 2011) "an intelligent personal assistant and knowledge navigator which works as an application for Apple Inc.'s iOS." ** Siri IOS app (by Siri Inc.) (launched in 2009), founed in 2007, acquired by Apple in 2010 * [Microsoft Cortana](http://www.windowsphone.com/en-us/how-to/wp8/cortana/meet-cortana) "an intelligent personal assistant on Windows Phone 8.1" -* [Sumsung S Voice](http://www.samsung.com/global/galaxys3/svoice.html) "an intelligent personal assistant and knowledge navigator which is only available as a built-in application for the Samsung Galaxy” +* [Sumsung S Voice](http://www.samsung.com/global/galaxys3/svoice.html) (launched in 2012) "an intelligent personal assistant and knowledge navigator which is only available as a built-in application for the Samsung Galaxy” * [Viv](http://viv.ai/) (launching in 2014) "a global platform that enables developers to plug into and create an intelligent, conversational interface to anything." From b03bc91175fcc0933f017d0f7615aff96898d6aa Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 3 Sep 2014 21:35:43 -0700 Subject: [PATCH 302/485] Update question-answer.md --- awesome/question-answer.md | 13 ++++++++++++- 1 file changed, 12 insertions(+), 1 deletion(-) diff --git a/awesome/question-answer.md b/awesome/question-answer.md index 49e881b..c6f898c 100644 --- a/awesome/question-answer.md +++ b/awesome/question-answer.md @@ -19,7 +19,7 @@ * [Voice Mate](http://en.wikipedia.org/wiki/Voice_Mate) LG -## 问答系统: +## 智能自动问答系统: * [IBM Watson](http://www.ibm.com/smarterplanet/us/en/ibmwatson/) (launched in 2013) ** [IBM DeepQA (watson)](https://www.research.ibm.com/deepqa/deepqa.shtml) (launched in 2011) "A first stop along the way is the Jeopardy! Challenge..." * [Wolfram alpha](http://www.wolframalpha.com/) "which was released on May 15, 2009" @@ -33,3 +33,14 @@ * [Eugene Goostman](http://en.wikipedia.org/wiki/Eugene_Goostman) "portrayed as a 13-year-old Ukrainian boy" (2001-) * [Cleverbot](http://en.wikipedia.org/wiki/Cleverbot) "a web application that uses an artificial intelligence algorithm to have conversations with humans" * [ELIZA](http://en.wikipedia.org/wiki/ELIZA) ELIZA is a computer program and an early example of primitive natural language processing (1976) + +## 人工问答系统: +* ask.com +* https://answers.yahoo.com/ +* http://answers.com +** http://wiki.answers.com/ +* stackoverflow +* reddit +* quora +* 知乎 +* 百度知道 From 3aa36322a340471d28e14f188de1b248acd9d368 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 3 Sep 2014 21:38:51 -0700 Subject: [PATCH 303/485] Update question-answer.md --- awesome/question-answer.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/awesome/question-answer.md b/awesome/question-answer.md index c6f898c..bc3b4f9 100644 --- a/awesome/question-answer.md +++ b/awesome/question-answer.md @@ -44,3 +44,5 @@ * quora * 知乎 * 百度知道 +更多见维基百科 http://en.wikipedia.org/wiki/List_of_question-and-answer_websites + From 69cae7f137ee8989f49ef1b9b5ab3f51a8e22a89 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 3 Sep 2014 21:43:51 -0700 Subject: [PATCH 304/485] add jelly --- awesome/question-answer.md | 1 + 1 file changed, 1 insertion(+) diff --git a/awesome/question-answer.md b/awesome/question-answer.md index bc3b4f9..821a476 100644 --- a/awesome/question-answer.md +++ b/awesome/question-answer.md @@ -11,6 +11,7 @@ * [Sumsung S Voice](http://www.samsung.com/global/galaxys3/svoice.html) (launched in 2012) "an intelligent personal assistant and knowledge navigator which is only available as a built-in application for the Samsung Galaxy” +* [Jelly](http://en.wikipedia.org/wiki/Jelly_%28app%29) "an app (currently available on iOS and Android) that serves as a Q&A platform, created by a company of the same name led by Biz Stone, one of Twitter's co-founders. " ," it encourages people to use photos to ask questions" * [Viv](http://viv.ai/) (launching in 2014) "a global platform that enables developers to plug into and create an intelligent, conversational interface to anything." * [Project CALO](http://en.wikipedia.org/wiki/CALO) (2003-2008) funded by the Defense Advanced Research Projects Agency (DARPA) under its Personalized Assistant that Learns (PAL) program From e72973cda75638b96d35b1d4d990071886992eb2 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 3 Sep 2014 22:00:25 -0700 Subject: [PATCH 305/485] Update question-answer.md --- awesome/question-answer.md | 4 ++++ 1 file changed, 4 insertions(+) diff --git a/awesome/question-answer.md b/awesome/question-answer.md index 821a476..67a0b4b 100644 --- a/awesome/question-answer.md +++ b/awesome/question-answer.md @@ -43,7 +43,11 @@ * stackoverflow * reddit * quora +* Formspring qa based social network * 知乎 * 百度知道 +* 百度微问答 +* http://segmentfault.com/ +* 天涯 http://wenda.tianya.cn/ 更多见维基百科 http://en.wikipedia.org/wiki/List_of_question-and-answer_websites From f088efe30d54b6b0222456e07e1df4359ae76da2 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 3 Sep 2014 22:01:59 -0700 Subject: [PATCH 306/485] Update question-answer.md --- awesome/question-answer.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/awesome/question-answer.md b/awesome/question-answer.md index 67a0b4b..879bdf4 100644 --- a/awesome/question-answer.md +++ b/awesome/question-answer.md @@ -13,9 +13,9 @@ * [Jelly](http://en.wikipedia.org/wiki/Jelly_%28app%29) "an app (currently available on iOS and Android) that serves as a Q&A platform, created by a company of the same name led by Biz Stone, one of Twitter's co-founders. " ," it encourages people to use photos to ask questions" * [Viv](http://viv.ai/) (launching in 2014) "a global platform that enables developers to plug into and create an intelligent, conversational interface to anything." -* [Project CALO](http://en.wikipedia.org/wiki/CALO) (2003-2008) funded by the Defense Advanced Research Projects Agency (DARPA) under its Personalized Assistant that Learns (PAL) program - +* [出门问问](http://chumenwenwen.com/) +* [Project CALO](http://en.wikipedia.org/wiki/CALO) (2003-2008) funded by the Defense Advanced Research Projects Agency (DARPA) under its Personalized Assistant that Learns (PAL) program * [Vlingo](http://en.wikipedia.org/wiki/Vlingo) acquired by Nuance in December 2011 * [Voice Mate](http://en.wikipedia.org/wiki/Voice_Mate) LG From a26a1fa724cdfff1ed9244c0eaa9d86175bb2e97 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 3 Sep 2014 22:02:40 -0700 Subject: [PATCH 307/485] Update question-answer.md --- awesome/question-answer.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/question-answer.md b/awesome/question-answer.md index 879bdf4..5ea03f7 100644 --- a/awesome/question-answer.md +++ b/awesome/question-answer.md @@ -1,4 +1,4 @@ -# 智能问答系统资料整理 +# 问答系统资料整理 ## 智能个人助理(Intelligent personal assistant) From eafbbd5af2d06666718279ccd06609cdb3495be8 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 9 Sep 2014 17:17:58 -0700 Subject: [PATCH 308/485] Create bayesian-network-python.md --- awesome/bayesian-network-python.md | 21 +++++++++++++++++++++ 1 file changed, 21 insertions(+) create mode 100644 awesome/bayesian-network-python.md diff --git a/awesome/bayesian-network-python.md b/awesome/bayesian-network-python.md new file mode 100644 index 0000000..e5a6ae6 --- /dev/null +++ b/awesome/bayesian-network-python.md @@ -0,0 +1,21 @@ +# Bayesian network 与python概率编程入门 + +## Bayesian network 入门讲义幻灯片 +http://bigdata.memect.com/?tag=hao71 +* http://www.ee.columbia.edu/~vittorio/Lecture12.pdf Inference and Learning in Bayesian Networks +* http://courses.cs.washington.edu/courses/cse515/09sp/slides/bnets.pdf Bayesian networks + +## 基于python的实战入门  +http://python.memect.com/?tag=hao71 +* Frequentists and Bayesians series (four blogs) +* PyMC tutorial http://python.memect.com/?p=8536 (pretty short) +* Bayesian Methods for Hackers http://python.memect.com/?p=6737(6000+ star book on github) + + +## Bayesian network 进阶 +http://bayes.cs.ucla.edu/BOOK-2K/index.html Causality: Models, Reasoning, and Inference  +* Judea Pearl的书 http://en.wikipedia.org/wiki/Judea_Pearl + + +## python 概率编程实战进阶 +http://python.memect.com/?s=probabilistic From c9485bf392d62cab3a0e5a48ce968fcea71faae7 Mon Sep 17 00:00:00 2001 From: Li Ding Date: Tue, 9 Sep 2014 17:23:17 -0700 Subject: [PATCH 309/485] Update bayesian-network-python.md --- awesome/bayesian-network-python.md | 25 ++++++++++++++----------- 1 file changed, 14 insertions(+), 11 deletions(-) diff --git a/awesome/bayesian-network-python.md b/awesome/bayesian-network-python.md index e5a6ae6..78ce3d6 100644 --- a/awesome/bayesian-network-python.md +++ b/awesome/bayesian-network-python.md @@ -1,21 +1,24 @@ # Bayesian network 与python概率编程入门 -## Bayesian network 入门讲义幻灯片 -http://bigdata.memect.com/?tag=hao71 -* http://www.ee.columbia.edu/~vittorio/Lecture12.pdf Inference and Learning in Bayesian Networks -* http://courses.cs.washington.edu/courses/cse515/09sp/slides/bnets.pdf Bayesian networks +## [http://bigdata.memect.com/?tag=hao71](Bayesian network 入门讲义幻灯片) + +http://www.ee.columbia.edu/~vittorio/Lecture12.pdf Inference and Learning in Bayesian Networks + +http://courses.cs.washington.edu/courses/cse515/09sp/slides/bnets.pdf Bayesian networks + +http://www.cs.cmu.edu/~epxing/Class/10708/lectures/lecture2-BNrepresentation.pdf Directed Graphical Models: Bayesian Networks + +## [http://python.memect.com/?tag=hao71](基于python的实战入门) -## 基于python的实战入门  -http://python.memect.com/?tag=hao71 * Frequentists and Bayesians series (four blogs) -* PyMC tutorial http://python.memect.com/?p=8536 (pretty short) -* Bayesian Methods for Hackers http://python.memect.com/?p=6737(6000+ star book on github) +* [http://python.memect.com/?p=8536](PyMC tutorial) (pretty short) +* [http://python.memect.com/?p=6737](Bayesian Methods for Hackers) (6000+ star book on github) -## Bayesian network 进阶 +## 相关进阶 http://bayes.cs.ucla.edu/BOOK-2K/index.html Causality: Models, Reasoning, and Inference  * Judea Pearl的书 http://en.wikipedia.org/wiki/Judea_Pearl +http://www.cs.cmu.edu/~epxing/Class/10708/lecture.html Probabilistic Graphical Models by Eric Xing(CMU) -## python 概率编程实战进阶 -http://python.memect.com/?s=probabilistic +http://python.memect.com/?s=probabilistic python 概率编程工具大全 From 6d131d87aab29d428042da63383063b73446a2bf Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 9 Sep 2014 17:28:05 -0700 Subject: [PATCH 310/485] Update bayesian-network-python.md --- awesome/bayesian-network-python.md | 29 +++++++++++++++++++++++++---- 1 file changed, 25 insertions(+), 4 deletions(-) diff --git a/awesome/bayesian-network-python.md b/awesome/bayesian-network-python.md index 78ce3d6..aef0df8 100644 --- a/awesome/bayesian-network-python.md +++ b/awesome/bayesian-network-python.md @@ -1,18 +1,26 @@ # Bayesian network 与python概率编程入门 +contributors: @西瓜大丸子汤 @王威廉 + ## [http://bigdata.memect.com/?tag=hao71](Bayesian network 入门讲义幻灯片) +http://www.cs.cmu.edu/~epxing/Class/10708/lectures/lecture2-BNrepresentation.pdf Directed Graphical Models: Bayesian Networks +* 王威廉 推荐 + http://www.ee.columbia.edu/~vittorio/Lecture12.pdf Inference and Learning in Bayesian Networks http://courses.cs.washington.edu/courses/cse515/09sp/slides/bnets.pdf Bayesian networks -http://www.cs.cmu.edu/~epxing/Class/10708/lectures/lecture2-BNrepresentation.pdf Directed Graphical Models: Bayesian Networks ## [http://python.memect.com/?tag=hao71](基于python的实战入门) -* Frequentists and Bayesians series (four blogs) -* [http://python.memect.com/?p=8536](PyMC tutorial) (pretty short) -* [http://python.memect.com/?p=6737](Bayesian Methods for Hackers) (6000+ star book on github) +[http://python.memect.com/?p=6737](Bayesian Methods for Hackers) (6000+ star book on github) +* 西瓜大丸子汤 推荐 + +Frequentists and Bayesians series (four blogs) + +[http://python.memect.com/?p=8536](PyMC tutorial) (pretty short) + ## 相关进阶 @@ -20,5 +28,18 @@ http://bayes.cs.ucla.edu/BOOK-2K/index.html Causality: Models, Reasoning, and In * Judea Pearl的书 http://en.wikipedia.org/wiki/Judea_Pearl http://www.cs.cmu.edu/~epxing/Class/10708/lecture.html Probabilistic Graphical Models by Eric Xing(CMU) +* 王威廉 推荐 + http://python.memect.com/?s=probabilistic python 概率编程工具大全 + + +## 相关微博 + +@王威廉 :CMU机器学习系Eric Xing老师的Probabilistic Graphic Model 已经开了10个年头了, 这学期貌似是第一次把视频放在网上:http://t.cn/zTh9OqO 目前这学期的课程刚开始。 +1月23日15:21 +http://weibo.com/1657470871/AtrlldqAU + +@西瓜大丸子汤 :在推荐一本我最近正在看的书Probabilistic Programming and Bayesian Methods for Hackers 贝叶斯方法实战,用Python来解释各种概率推理方法,有代码有真相。基于PyMC 包,解剖了MCMC ,大数定律,金融分析等概念与应用。Github上已经有5000颗星。 +7月8日20:06 +http://weibo.com/1932835417/BcKj0k0Wx From 1f361b5d8cbad8a6d141e4ce2d7d913a60f90084 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 9 Sep 2014 17:28:52 -0700 Subject: [PATCH 311/485] Update bayesian-network-python.md --- awesome/bayesian-network-python.md | 8 ++++---- 1 file changed, 4 insertions(+), 4 deletions(-) diff --git a/awesome/bayesian-network-python.md b/awesome/bayesian-network-python.md index aef0df8..f523c66 100644 --- a/awesome/bayesian-network-python.md +++ b/awesome/bayesian-network-python.md @@ -2,7 +2,7 @@ contributors: @西瓜大丸子汤 @王威廉 -## [http://bigdata.memect.com/?tag=hao71](Bayesian network 入门讲义幻灯片) +## [Bayesian network 入门讲义幻灯片](http://bigdata.memect.com/?tag=hao71) http://www.cs.cmu.edu/~epxing/Class/10708/lectures/lecture2-BNrepresentation.pdf Directed Graphical Models: Bayesian Networks * 王威廉 推荐 @@ -12,14 +12,14 @@ http://www.ee.columbia.edu/~vittorio/Lecture12.pdf Inference and Learning in Bay http://courses.cs.washington.edu/courses/cse515/09sp/slides/bnets.pdf Bayesian networks -## [http://python.memect.com/?tag=hao71](基于python的实战入门) +## [基于python的实战入门](http://python.memect.com/?tag=hao71) -[http://python.memect.com/?p=6737](Bayesian Methods for Hackers) (6000+ star book on github) +[Bayesian Methods for Hackers](http://python.memect.com/?p=6737) (6000+ star book on github) * 西瓜大丸子汤 推荐 Frequentists and Bayesians series (four blogs) -[http://python.memect.com/?p=8536](PyMC tutorial) (pretty short) +[PyMC tutorial](http://python.memect.com/?p=8536) (pretty short) From 86a1fb74a97c2b33f48af4a5602520979f056f0a Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 9 Sep 2014 17:31:48 -0700 Subject: [PATCH 312/485] Update bayesian-network-python.md --- awesome/bayesian-network-python.md | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/awesome/bayesian-network-python.md b/awesome/bayesian-network-python.md index f523c66..eb9a690 100644 --- a/awesome/bayesian-network-python.md +++ b/awesome/bayesian-network-python.md @@ -14,12 +14,12 @@ http://courses.cs.washington.edu/courses/cse515/09sp/slides/bnets.pdf Bayesian n ## [基于python的实战入门](http://python.memect.com/?tag=hao71) -[Bayesian Methods for Hackers](http://python.memect.com/?p=6737) (6000+ star book on github) +[Bayesian Methods for Hackers](http://python.memect.com/?p=6737) 6000+ star book on github * 西瓜大丸子汤 推荐 -Frequentists and Bayesians series (four blogs) +[Frequentists and Bayesians series](http://python.memect.com/?tag=fb-series) four blogs -[PyMC tutorial](http://python.memect.com/?p=8536) (pretty short) +[PyMC tutorial](http://python.memect.com/?p=8536) pretty short From 2794823b7bce8dadf50ed24460d3721eeb8be4b5 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 9 Sep 2014 17:39:11 -0700 Subject: [PATCH 313/485] Update bayesian-network-python.md --- awesome/bayesian-network-python.md | 15 ++++++++++++--- 1 file changed, 12 insertions(+), 3 deletions(-) diff --git a/awesome/bayesian-network-python.md b/awesome/bayesian-network-python.md index eb9a690..ca77f61 100644 --- a/awesome/bayesian-network-python.md +++ b/awesome/bayesian-network-python.md @@ -1,5 +1,5 @@ -# Bayesian network 与python概率编程入门 -contributors: @西瓜大丸子汤 @王威廉 +# Bayesian network 与概率编程实战入门 +contributors: @西瓜大丸子汤 @王威廉 @不确定的世界2012 ## [Bayesian network 入门讲义幻灯片](http://bigdata.memect.com/?tag=hao71) @@ -22,6 +22,10 @@ http://courses.cs.washington.edu/courses/cse515/09sp/slides/bnets.pdf Bayesian n [PyMC tutorial](http://python.memect.com/?p=8536) pretty short +## 基于R的实战入门 + +http://site.douban.com/182577/widget/notes/12817482/note/273585095/ 贝叶斯网的R实现( Bayesian network in R) + ## 相关进阶 http://bayes.cs.ucla.edu/BOOK-2K/index.html Causality: Models, Reasoning, and Inference  @@ -31,7 +35,6 @@ http://www.cs.cmu.edu/~epxing/Class/10708/lecture.html Probabilistic Graphical M * 王威廉 推荐 -http://python.memect.com/?s=probabilistic python 概率编程工具大全 ## 相关微博 @@ -43,3 +46,9 @@ http://weibo.com/1657470871/AtrlldqAU @西瓜大丸子汤 :在推荐一本我最近正在看的书Probabilistic Programming and Bayesian Methods for Hackers 贝叶斯方法实战,用Python来解释各种概率推理方法,有代码有真相。基于PyMC 包,解剖了MCMC ,大数定律,金融分析等概念与应用。Github上已经有5000颗星。 7月8日20:06 http://weibo.com/1932835417/BcKj0k0Wx + + + +@不确定的世界2012 :【贝叶斯网的R实现( Bayesian network in R)(一)gRain(1)】#本文主要介绍运用贝叶斯网的一些R语言工具。 贝叶斯网,又称信念网络或概率有向无环图模型(Bayesian network,belief network,probabilistic directed acyclic graphical m... http://t.cn/zToro0U + +http://weibo.com/1768506843/zEfzDsln9 From 740d34222056b0ac5c66691db1d60a6bf2f38cc3 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 9 Sep 2014 17:40:36 -0700 Subject: [PATCH 314/485] Update bayesian-network-python.md --- awesome/bayesian-network-python.md | 8 ++++++++ 1 file changed, 8 insertions(+) diff --git a/awesome/bayesian-network-python.md b/awesome/bayesian-network-python.md index ca77f61..eafe171 100644 --- a/awesome/bayesian-network-python.md +++ b/awesome/bayesian-network-python.md @@ -52,3 +52,11 @@ http://weibo.com/1932835417/BcKj0k0Wx @不确定的世界2012 :【贝叶斯网的R实现( Bayesian network in R)(一)gRain(1)】#本文主要介绍运用贝叶斯网的一些R语言工具。 贝叶斯网,又称信念网络或概率有向无环图模型(Bayesian network,belief network,probabilistic directed acyclic graphical m... http://t.cn/zToro0U http://weibo.com/1768506843/zEfzDsln9 + + + + +@Rebecca1020 :因果推断在USA分两大学派:因果推断本质统计做不了的,但为了能得到inference,必须要加入假设。不同假设就产生了两大不同的学派。西边以berkeley为主,Jordan他们搞的是bayesian network,用有向图来代表之间因果关系。东边Rubin在03年提出Principal stratification,以此为主要假设来进行统计推断。 + +赞| 转发| 收藏| 评论 2013-4-11 02:44 +http://weibo.com/1669820502/zrFNJv8DI From 15f474550a9a733ed7c582ff997fad84ef5e7a14 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 9 Sep 2014 17:41:08 -0700 Subject: [PATCH 315/485] Update bayesian-network-python.md --- awesome/bayesian-network-python.md | 5 ++--- 1 file changed, 2 insertions(+), 3 deletions(-) diff --git a/awesome/bayesian-network-python.md b/awesome/bayesian-network-python.md index eafe171..cb9e3a4 100644 --- a/awesome/bayesian-network-python.md +++ b/awesome/bayesian-network-python.md @@ -50,13 +50,12 @@ http://weibo.com/1932835417/BcKj0k0Wx @不确定的世界2012 :【贝叶斯网的R实现( Bayesian network in R)(一)gRain(1)】#本文主要介绍运用贝叶斯网的一些R语言工具。 贝叶斯网,又称信念网络或概率有向无环图模型(Bayesian network,belief network,probabilistic directed acyclic graphical m... http://t.cn/zToro0U - +2013-7-2 19:52 http://weibo.com/1768506843/zEfzDsln9 @Rebecca1020 :因果推断在USA分两大学派:因果推断本质统计做不了的,但为了能得到inference,必须要加入假设。不同假设就产生了两大不同的学派。西边以berkeley为主,Jordan他们搞的是bayesian network,用有向图来代表之间因果关系。东边Rubin在03年提出Principal stratification,以此为主要假设来进行统计推断。 - -赞| 转发| 收藏| 评论 2013-4-11 02:44 +2013-4-11 02:44 http://weibo.com/1669820502/zrFNJv8DI From 420aa5030101dbf4ce46bbf3d78f26d475be85e1 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 9 Sep 2014 17:45:32 -0700 Subject: [PATCH 316/485] Update bayesian-network-python.md --- awesome/bayesian-network-python.md | 10 ++++++---- 1 file changed, 6 insertions(+), 4 deletions(-) diff --git a/awesome/bayesian-network-python.md b/awesome/bayesian-network-python.md index cb9e3a4..7ab1da0 100644 --- a/awesome/bayesian-network-python.md +++ b/awesome/bayesian-network-python.md @@ -1,4 +1,4 @@ -# Bayesian network 与概率编程实战入门 +# Bayesian network 与python概率编程实战入门 contributors: @西瓜大丸子汤 @王威廉 @不确定的世界2012 @@ -22,12 +22,14 @@ http://courses.cs.washington.edu/courses/cse515/09sp/slides/bnets.pdf Bayesian n [PyMC tutorial](http://python.memect.com/?p=8536) pretty short -## 基于R的实战入门 + +## 补充相关材料 +### 基于R的实战入门 http://site.douban.com/182577/widget/notes/12817482/note/273585095/ 贝叶斯网的R实现( Bayesian network in R) -## 相关进阶 +### 相关进阶 http://bayes.cs.ucla.edu/BOOK-2K/index.html Causality: Models, Reasoning, and Inference  * Judea Pearl的书 http://en.wikipedia.org/wiki/Judea_Pearl @@ -37,7 +39,7 @@ http://www.cs.cmu.edu/~epxing/Class/10708/lecture.html Probabilistic Graphical M -## 相关微博 +### 相关微博 @王威廉 :CMU机器学习系Eric Xing老师的Probabilistic Graphic Model 已经开了10个年头了, 这学期貌似是第一次把视频放在网上:http://t.cn/zTh9OqO 目前这学期的课程刚开始。 1月23日15:21 From 825230834ca047350d020a82ac0c058bb7d0bb48 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 9 Sep 2014 17:46:01 -0700 Subject: [PATCH 317/485] Update bayesian-network-python.md --- awesome/bayesian-network-python.md | 5 +++-- 1 file changed, 3 insertions(+), 2 deletions(-) diff --git a/awesome/bayesian-network-python.md b/awesome/bayesian-network-python.md index 7ab1da0..92fbfea 100644 --- a/awesome/bayesian-network-python.md +++ b/awesome/bayesian-network-python.md @@ -2,7 +2,7 @@ contributors: @西瓜大丸子汤 @王威廉 @不确定的世界2012 -## [Bayesian network 入门讲义幻灯片](http://bigdata.memect.com/?tag=hao71) +## [1. Bayesian network 入门讲义幻灯片](http://bigdata.memect.com/?tag=hao71) http://www.cs.cmu.edu/~epxing/Class/10708/lectures/lecture2-BNrepresentation.pdf Directed Graphical Models: Bayesian Networks * 王威廉 推荐 @@ -12,7 +12,7 @@ http://www.ee.columbia.edu/~vittorio/Lecture12.pdf Inference and Learning in Bay http://courses.cs.washington.edu/courses/cse515/09sp/slides/bnets.pdf Bayesian networks -## [基于python的实战入门](http://python.memect.com/?tag=hao71) +## [2. 基于python的实战入门](http://python.memect.com/?tag=hao71) [Bayesian Methods for Hackers](http://python.memect.com/?p=6737) 6000+ star book on github * 西瓜大丸子汤 推荐 @@ -22,6 +22,7 @@ http://courses.cs.washington.edu/courses/cse515/09sp/slides/bnets.pdf Bayesian n [PyMC tutorial](http://python.memect.com/?p=8536) pretty short +---- ## 补充相关材料 ### 基于R的实战入门 From ec710b377812adabeab947450a0389c96b66d0ec Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 9 Sep 2014 17:46:45 -0700 Subject: [PATCH 318/485] Update bayesian-network-python.md --- awesome/bayesian-network-python.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/bayesian-network-python.md b/awesome/bayesian-network-python.md index 92fbfea..d524cbd 100644 --- a/awesome/bayesian-network-python.md +++ b/awesome/bayesian-network-python.md @@ -1,5 +1,5 @@ # Bayesian network 与python概率编程实战入门 -contributors: @西瓜大丸子汤 @王威廉 @不确定的世界2012 +contributors: @西瓜大丸子汤 @王威廉 @不确定的世界2012 @Rebecca1020 ## [1. Bayesian network 入门讲义幻灯片](http://bigdata.memect.com/?tag=hao71) From a74cffd747e8030babf39cbda58591312b389db5 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 9 Sep 2014 18:00:35 -0700 Subject: [PATCH 319/485] Update bayesian-network-python.md --- awesome/bayesian-network-python.md | 6 +++++- 1 file changed, 5 insertions(+), 1 deletion(-) diff --git a/awesome/bayesian-network-python.md b/awesome/bayesian-network-python.md index d524cbd..ec32eb2 100644 --- a/awesome/bayesian-network-python.md +++ b/awesome/bayesian-network-python.md @@ -32,7 +32,11 @@ http://site.douban.com/182577/widget/notes/12817482/note/273585095/ 贝叶斯网 ### 相关进阶 http://bayes.cs.ucla.edu/BOOK-2K/index.html Causality: Models, Reasoning, and Inference  -* Judea Pearl的书 http://en.wikipedia.org/wiki/Judea_Pearl +* Judea Pearl的书 http://en.wikipedia.org/wiki/Judea_Pearl + +http://www.biostat.jhsph.edu/~cfrangak/papers/preffects.pdf Principal Stratification in Causal Inference - Biostatistics (2002) +* Don Rubin +* Rebecca1020 推荐 http://www.cs.cmu.edu/~epxing/Class/10708/lecture.html Probabilistic Graphical Models by Eric Xing(CMU) * 王威廉 推荐 From 610ab88fdd23004b8e9164a575af7531b5da2d7e Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 9 Sep 2014 20:52:34 -0700 Subject: [PATCH 320/485] add Bayesian Reasoning and Machine Learning --- awesome/bayesian-network-python.md | 5 +++-- 1 file changed, 3 insertions(+), 2 deletions(-) diff --git a/awesome/bayesian-network-python.md b/awesome/bayesian-network-python.md index ec32eb2..b130793 100644 --- a/awesome/bayesian-network-python.md +++ b/awesome/bayesian-network-python.md @@ -38,11 +38,12 @@ http://www.biostat.jhsph.edu/~cfrangak/papers/preffects.pdf Principal Stratifica * Don Rubin * Rebecca1020 推荐 -http://www.cs.cmu.edu/~epxing/Class/10708/lecture.html Probabilistic Graphical Models by Eric Xing(CMU) +http://www.cs.cmu.edu/~epxing/Class/10708/lecture.html Probabilistic Graphical Models by Eric Xing(CMU) * 王威廉 推荐 - +http://web4.cs.ucl.ac.uk/staff/D.Barber/pmwiki/pmwiki.php?n=Brml.HomePage Bayesian Reasoning and Machine Learning by David Barber +* @诸神善待民科组 推荐 (比 Koller 的 PGM 好读,好处是图多) ### 相关微博 From 95bd1b6d2b44ebc30f3337d901e20ef3b183b273 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 9 Sep 2014 22:06:40 -0700 Subject: [PATCH 321/485] Update bayesian-network-python.md --- awesome/bayesian-network-python.md | 5 +++++ 1 file changed, 5 insertions(+) diff --git a/awesome/bayesian-network-python.md b/awesome/bayesian-network-python.md index b130793..9de0e3c 100644 --- a/awesome/bayesian-network-python.md +++ b/awesome/bayesian-network-python.md @@ -16,6 +16,8 @@ http://courses.cs.washington.edu/courses/cse515/09sp/slides/bnets.pdf Bayesian n [Bayesian Methods for Hackers](http://python.memect.com/?p=6737) 6000+ star book on github * 西瓜大丸子汤 推荐 +* 小猴机器人 推荐中文介绍 张天雷 写的《概率编程语言与贝叶斯方法实践》 http://www.infoq.com/cn/news/2014/07/programming-language-bayes + [Frequentists and Bayesians series](http://python.memect.com/?tag=fb-series) four blogs @@ -67,3 +69,6 @@ http://weibo.com/1768506843/zEfzDsln9 @Rebecca1020 :因果推断在USA分两大学派:因果推断本质统计做不了的,但为了能得到inference,必须要加入假设。不同假设就产生了两大不同的学派。西边以berkeley为主,Jordan他们搞的是bayesian network,用有向图来代表之间因果关系。东边Rubin在03年提出Principal stratification,以此为主要假设来进行统计推断。 2013-4-11 02:44 http://weibo.com/1669820502/zrFNJv8DI + +张天雷 提供中文介绍《概率编程语言与贝叶斯方法实践》 //@小猴机器人: 来,给个中文介绍哈, http://t.cn/RPwbEPz +http://www.weibo.com/5220650532/BmkyPihT4 From ef5c47f9f207ce3aa49722aa0c2b53073470b84b Mon Sep 17 00:00:00 2001 From: Jie Bao Date: Wed, 10 Sep 2014 10:42:09 -0700 Subject: [PATCH 322/485] Update README.md --- README.md | 120 ++++++++++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 120 insertions(+) diff --git a/README.md b/README.md index b18ea14..81a3103 100644 --- a/README.md +++ b/README.md @@ -29,7 +29,127 @@ ## 问答案例 +2014-09-11 #夜读春秋# GDP与汇率数据是经济、金融研究的基本盘! (数据资源整理: http://t.cn/RhVDKg5 ) 1.世界银行的全球各国GDP(1983-2013)http://t.cn/hFsNY 2. 美联储汇率数据(H.10): http://t.cn/RhVDKgq (1996-2014) 3. 那台北的GDP呢? http://t.cn/RhVgFWl ,http://t.cn/zOMb9mJ [ [微博](http://www.weibo.com/5220650532/Bmpx29PN5) ] +2014-09-11 谢谢建议,我们会努力。改进的网站会有的。想不想要个电子邮件周报什么的,把每周的发布的好东西一网打尽? //@海中的沙粒:给个建议,好东西以后重新搞个博,不然因重复遗漏 //@好东西传送门: 加进列表了 pdf传送门 http://t.cn/RhcFi0l //@诸神善待民科组: 图是种方法Method,不是模型 Model,没说到 B [ [微博](http://www.weibo.com/5220650532/BmplNnCI3) ] + +2014-09-10 #NLP# 诸君,"城市规划" 领域词表来了, 还等什么呢? 数据传送门 http://t.cn/RhVVYBk 感谢 @国际城市规划 //@规划中国: //@国际城市规划: 编撰词典对我等难度太大,欢迎有缘人慢慢加入积累 http://t.cn/RhVcLWx //@城规田宝江: 好想法!//@中大袁媛: 可以出版一本专业英语的词典或教材 [ [微博](http://www.weibo.com/5220650532/Bmm8O31VG) ] + +2014-09-10 #机器学习# 领域大牛 Michael Jordan 是Andrew Ng的博士导师,擅长 recurrent neural networks , Bayesian nonparametric analysis, probabilistic graphical models, spectral methods, kernel machines 机会难得有问题赶紧上Reddit上问,http://t.cn/aOioBZ [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bmm3VbIR5) ] + +2014-09-10 问: @chico2011 @leo_lq 求推荐金融交易风险评估方面的文献 答: 资源列表 http://t.cn/RhVqWuZ 金融风险管理领域全局观参见 Financial Institutions Management: A Risk Management Approach (沃顿学院教科书)。量化评估方法(含风险价值 VaR)有2011年综述, 此外咱做了个VaR相关概念的脑图 请补充指正 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BmlXxt5hC) ] + +2014-09-10 张天雷 《概率编程语言与贝叶斯方法实践》 //@小猴机器人: 来,给个中文介绍哈, http://t.cn/RPwbEPz [ [微博](http://www.weibo.com/5220650532/BmkyPihT4) ] + +2014-09-10 加进列表了 pdf传送门 http://t.cn/RhcFi0l //@诸神善待民科组: 图是种方法Method,不是模型 Model,没说到 Bayesian Reasoning and Machine Learning 真是不开心,这比 Koller 的 PGM 好读,好处是图多,我就喜欢看图说话的小二班 [ [微博](http://www.weibo.com/5220650532/BmkxhgVMr) ] + +2014-09-10 赞,维基百科wikipedia在某种程度也承载了很多领域的知识体系,所以大家搜索时喜欢用它 [ [微博](http://www.weibo.com/5220650532/BmjA3bOEr) ] + +2014-09-10 [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] + +2014-09-10 @好东西传送门 的粉丝里谁转发好东西最多?前10名:1 @Noodles-Xu 2 @LR机器学习计算机视觉 3 @海中的沙粒 4 @hbyido 5 @-单世民- 6 @武文骁很忙也很胖 7 @侠女无敌-曾佩玲 8 @彤言彤趣 9 @yutho 10 @季波USTC [good] [ [微博](http://www.weibo.com/5220650532/BmiMf0Fu4) ] + +2014-09-10 US News 全美大学排名数据集: 新鲜出炉2015年排名前150的综合大学(national university)和文理学院(national liberal art college) . 资源列表 http://t.cn/RhcYKC2 包括1983-2007, 2008, 2009, 2010, 2011-2015 数据,应该比较全了. 欢迎补充 [ [微博](http://www.weibo.com/5220650532/BmizVr1sS) ] + +2014-09-10 458万东西: 144万人, 73万地点, 41万作品(含12万音乐专辑, 8.7万电影,1.9万视频游戏), 24万组织(含5.8万公司,4.9万教育机构), 25万物种等 [ [微博](http://www.weibo.com/5220650532/BmizMhrjB) ] + +2014-09-09 http://t.cn/zOpIrjJ 中文语言资源联盟,英文译名Chinese Linguistic Data Consortium,缩写为CLDC, 有少数民族语言,方言数据 //@龙星镖局:有专门放入方言的nlp研究 吗?@白硕SH 老师 //@殆知阁:转发微博 [ [微博](http://www.weibo.com/5220650532/BmcCdeWno) ] + +2014-09-09 好东西 ,向 迷渡 justjavac (索引的作者)致敬! 顺路推荐一下他的另一个工作 "Google 全球 IP 地址库" , http://t.cn/RvabGv5 //@justjavac: 我说今天怎么收到好多私信呢,原来根源在这儿啊。//@CSDN_CODE:Mark! [ [微博](http://www.weibo.com/5220650532/BmcoO4bqA) ] + +2014-09-09 谢谢夸奖,分享一个体验: 有时很难一次把问题说清楚 (要不直接搜索了),所以私信交流很有帮助。 一句话,很高兴帮助你解决问题 ;) [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BmckKeAqI) ] + +2014-09-09 找到一组相关测试数据集(VAST challenge 2003-现在),基本上就是用户利用可视化工具,根据特定需要分析大规模业务数据,继而推理验证猜想。 例如分析预测恐怖袭击,发现金融犯罪嫌疑人,有一篇总结文章值得一读: http://t.cn/Rhtmw01 [ [微博](http://www.weibo.com/5220650532/BmbO4EuMd) ] + +2014-09-09 问: @海中的沙粒 点餐,我想要更多关于可视分析学的资料? 答: 可视分析学(Visual Analytics) 利用可视化方法支持对大规模复杂(科学)数据的人机协同分析推理。问答进展收录: 经典, 综述, 社区, 会议等资源 http://t.cn/Rht6xF8 看附图, 一分钟理解其定位、原理以及跨学科特性。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BmbGkaI7Z) ] + +2014-09-09 问:@_绝影_ 求助 刚开始做图像融合相关领域研究,请问有哪些大牛? 答:进展 http://t.cn/RhqD63F 图像融合(Image Fusion)在计算机视觉(computer vision), 遥感(remote sensing)和医学图像(Medical Image)上都有应用,可追踪会议IPCV,ICIFE, 期刊IJCV 及综述。大牛欢迎专家传送 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bm9jvfke6) ] + +2014-09-09 转发理由:开放政府数据。另外推荐RPI的 Linking Open Government Data,收录了1800多个数据集,100亿RDF三元组 http://t.cn/RhtMeAj [ [微博](http://www.weibo.com/5220650532/Bm8UryKa7) ] + +2014-09-09 好东西,北京语言大学威武。插个话, 著名的汉语水平考试(HSK,...)是由北京语言大学汉语水平考试中心设计研制的 //@52nlp: [good][good][good] [ [微博](http://www.weibo.com/5220650532/Bm7DQ3NCC) ] + +2014-09-09 #夜读春秋# 最近JWT(JSON Web Token,是一种基于JSON的认证安全协议)势头很火,这里找了一个48页的幻灯片,帮你快速了解这些概念的含义,并提供一定全局观 http://t.cn/Rht40uL 该作者(Brian Campbell)还有一个更新的幻灯片讲JWT和JOSE http://t.cn/Rht40uw [ [微博](http://www.weibo.com/5220650532/Bm6KQB6nM) ] + +2014-09-08 @phunter_lau 推荐了 Peter Norvig的regex生成器 http://t.cn/8FGNh2J http://t.cn/8FnLiON @孙明明_SmarterChina 推荐了Bartoli等基于遗传算法的实现 http://t.cn/zlmNYLJ @布尔乔亚之犬 推荐了SO上一个很好的讨论贴 http://t.cn/Rh5H2za [good] [ [微博](http://www.weibo.com/5220650532/Bm2SOaRyu) ] + +2014-09-08 @phunter_lau 推荐了 Peter Norvig的regex生成器 http://t.cn/8FGNh2J http://t.cn/8FnLiON @孙明明_SmarterChina 推荐了Bartoli等基于遗传算法的实现 http://t.cn/zlmNYLJ @布尔乔亚之犬 推荐了SO上一个很好的讨论贴 [good] [ [微博](http://www.weibo.com/5220650532/Bm2SqyoHc) ] + +2014-09-08 求助! [ [微博](http://www.weibo.com/5220650532/Bm2IlgmSx) ] + +2014-09-08 黄昌宁 赵海 《中文分词十年回顾 》http://t.cn/Rh5Xe3S //@龙星镖局: 有个 中文分词十年 孙老师搜一下 [ [微博](http://www.weibo.com/5220650532/Bm1jmwaCk) ] + +2014-09-08 第一,问题说得很实在,使用hadoop运维成本不可低估、实现价值所依赖的技术链不象成功案例说得那么简单,总之就是你公司的IT部门很有可能搞不定,第二,这也算他推广新公司altiscale的价值 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bm0S5sgSd) ] + +2014-09-08 企业研发也要有市场、学术调研 //@新闻传播学研:M //@徐泓xh:[研究生的基本功]从写好文献综述起步. [ [微博](http://www.weibo.com/5220650532/Bm0Dh5yRF) ] + +2014-09-07 Tomas Mikolov http://t.cn/Rhq2QVU 很有意思。0.1c版更新等了近九个月,恐怕是跳槽耽误的。他今年5月从Google跳到Facebook, 工作之余还努力维护word2vec开源代码。爱看源代码的可以直接读diff http://t.cn/Rhq2QVZ [ [微博](http://www.weibo.com/5220650532/BlRmn38uo) ] + +2014-09-06 问: @V井颠V 对国内中长文章(300~5000字)近似新闻门户网站频道粒度的自动分类,有好的模型方法吗? 答: 进展 http://t.cn/RhGTzfI 考虑 statistical topic model, 推荐UIUC翟成祥 ( http://weibo.com/5220650532/BhWo26Y93 ) , Stanford 和Umass 都有软件包 国内工作欢迎补充 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BlMR9kjJ7) ] + +2014-09-06 感谢推荐,当然是好东西! //@尘绳聋-SYSU: 那个网站还有个R for big data: http://t.cn/zHXfTF1 之前看人推荐过biglm, bigrf等pkg//@尘绳聋-SYSU: [晕] 传说wiseRF比sklearn里的RF更scale更快,不知道是不是真的[威武] [ [微博](http://www.weibo.com/5220650532/BlMJyCoRe) ] + +2014-09-06 多年之前就受益于龙星计划的高质量资源,特别隆重推荐! [ [微博](http://www.weibo.com/5220650532/BlJzVhgIU) ] + +2014-09-06 传送潜力股。这些好账号本门大多已经关注了 [耶] [ [微博](http://www.weibo.com/5220650532/BlIlA4xHp) ] + +2014-09-06 非常感谢,这本书是亚马逊的Computer Vision类畅销书第一名 卡片盒子添加了新链接 //@维尔茨:对于计算机视觉/图像强烈推荐Szeliski的Computer Vision: Algorithms and Applications。传送门:http://t.cn/RhbF7jr好东西传送门: 不好意思,你是找第二版吗? 可以问问 @没有我找不到的电子书 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BlIbspyg8) ] + +2014-09-06 不好意思,你是找第二版吗? 可以问问 @没有我找不到的电子书 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BlHYbucvp) ] + +2014-09-06 回复@ustczen: 感谢传送好东西。这是新加坡国立 Min-Yen Kan (靳民彦) 教授 研究组的工作 http://t.cn/SwJHvL @52nlp 2011年转过他们短信捐赠请求 http://t.cn/RhbDbIV //@ustczen:回复@好东西传送门:所以我老年痴呆又犯了么。。附链接:http://t.cn/hrXXWz [ [微博](http://www.weibo.com/5220650532/BlHNqyCgt) ] + +2014-09-06 问:@龙星镖局 如果要从零学习图像或语音分析,要从那几本书开始? 答: 问答进展 http://t.cn/Rhbeix0 网络问答结果和相关课程大多推荐这几本经典老教科书:Digital Image Processing (3rd Edition) (2007), Speech and Language Processing, 2nd Edition (2008), 卡片盒子: http://t.cn/Rhbeixp [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BlHHF1jr2) ] + +2014-09-06 [开放数据]印尼政府开放数据 data.ukp.go.id http://t.cn/Rhbrjfv 于2014-09-05上线,有700 多数据集。要使用数据恐怕先要能读懂印尼语(拼写属于拉丁语系,最早源于荷兰语)。此外,2014统计数据表明印尼有2.5亿人,是排名世界人口第四大国。 [ [微博](http://www.weibo.com/5220650532/BlHkREGAC) ] + +2014-09-06 传送理由: github上的好东西,快800星了。 作者的博客也很有深度,而且竟然用issue tracker写博客,赞! 这是个例子 http://t.cn/8s35KgP [ [微博](http://www.weibo.com/5220650532/BlH9sz9H9) ] + +2014-09-06 问:@三鹿无毒奶粉 请问贵博关于航班准时预测和机票价格预测有那些相关的论文和模型 答:问答进展 http://t.cn/RhbBwy9 不少人用回归模型 航班准时预测(flight delay):有几篇MIT的文章;机票价格预测(ticket price): 有不少专利(发明人包括USC Craig Knoblock 教授) 卡片盒子 http://t.cn/RhbBwyK [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BlH4Tc57x) ] + +2014-09-06 传送理由:右边的链接真是好东西 -- 不止配色工具,还有大量字体,图片、纹理,壁纸等众多素材资源网站一网打尽。 //@设定控: 配色工具网站汇总 http://t.cn/RPbMz7M [ [微博](http://www.weibo.com/5220650532/BlGYiyx88) ] + +2014-09-06 问: @ShawnAtLoss 请问哪边可以找到比较全面的关于大数据的survey 答: 问答进展: http://t.cn/Rhb1b0Z 推荐两类阅读:1 大数据领域地图,覆盖相关 技术,应用,公司 等 2. github好资源合集 http://t.cn/Rhb1b0w 1K+星,上百链接. 卡片盒子(现有6个资源): http://t.cn/Rhb1b0A 欢迎补充 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BlGU6teFP) ] + +2014-09-06 [推荐] 一张很好的脑图胜过千言万语,帮助你获得python的大数据处理工具全局观。http://t.cn/Rhb3P8I [ [微博](http://www.weibo.com/5220650532/BlGE7oFdz) ] + +2014-09-05 转发理由:非常酷的星系生死大片!本超星系团呈羽毛形状,因为有个巨大的吸引子(就是羽毛的中心),不断吞噬星系。这些“羽毛”的绒线就是星系赴死即将遵循的轨迹。在图中银河系只是微不足道的一个小点 [ [微博](http://www.weibo.com/5220650532/BlzOYbTRu) ] + +2014-09-05 //@ShangguanRPI: 在前东家也做过一样的数据分析,结论也几乎一致。用的数据集来自usps登记的过去10年所有地址更换记录,不确定census的数据是否也来自这个源。 [ [微博](http://www.weibo.com/5220650532/BlzHefKoa) ] + +2014-09-05 转发理由:世界基本经济数据的可视化,地图均给出了数据出处 [ [微博](http://www.weibo.com/5220650532/BlzmDai0F) ] + +2014-09-05 美国著名房地产公司trulia近日利用政府开放数据 http://t.cn/Rh4Htwl 分析了近年美国人口迁移的倾向:就近,房价低,人口密度小,低失业率 http://t.cn/Rh4HtwO [ [微博](http://www.weibo.com/5220650532/BlyKPBSIT) ] + +2014-09-05 http://t.cn/Rh4W25z 今年欧洲python大会的一个35页在线讲义幻灯片,用实例介绍如何用python实现概率编程,尤其是pymc3 阅读时间大约半小时 [ [微博](http://www.weibo.com/5220650532/Blyi3aVGF) ] + +2014-09-05 [问题求传送] 问:@开机就好ing 有没有比较好的Gbrank的相关的开源实现 答:就是 Zhaohui Zheng SIGIR '07 文章“A regression framework for learning ranking ...” 里提到的GBRank (guardian boosted) 问答进展看 http://t.cn/Rh4C8hd 初步好像有一个C++ 开源代码 http://t.cn/Rh4C8hg 欢迎补充 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BlxKpwU1D) ] + +2014-09-04 [资料整理] PDF版 http://t.cn/RhUOt6p 《智能问答系统:心得点评与文献列表》覆盖几个知名的问答系统:Halo (Aura); Siri;IBM Watson (DeepQA); True Knowledge;Facebook Graph Search 重点评论了知识图谱和语义web技术在自动智能问答系统中的应用与前景 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BlqyBe19Z) ] + +2014-09-04 旧闻回顾: Siri开发者成立人工智能公司Viv Labs (注意 网址是 viv.ai ), 花两年时间开发了能自动学习的智能个人助理系统Viv:将自然语言表达的复杂问题与搜索结合 相关Wired报导( http://t.cn/RhUtTwq 8月12日) 有微博原发评论 @网路冷眼 @新浪科技 (看 @张栋_机器学习 评论) http://t.cn/RhUtTw5 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BloN1gTeu) ] + +2014-09-04 问: @simba0626 请问现今有哪些成功的智能问答系统? 答: 问答进展 http://t.cn/RhUq00L 成功不好定义,基本用了知识图谱, 例如 IBM DeepQA (watson), wolfram alpha, Apple Siri, Google now。当然学术界也有一群人在做开放领域的图灵测试,如Eugen http://t.cn/RhUq00y 相关文献待会整理个资源合集 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BloyuzoCh) ] + +2014-09-03 回复@统计之都: 非常感谢 这可是今年7月新鲜出炉的文章,Gilles Louppe http://t.cn/RhyvpGz //@统计之都:Gilles Louppe的博士论文《随机森林:从理论到实践》,PDF下载地址http://t.cn/RP8JQyC。 [ [微博](http://www.weibo.com/5220650532/BlfvG3fm9) ] + +2014-09-03 问: @董伟_dzw259 哪里能够找到比较详细介绍随机森林的paper吗? 答: http://t.cn/RhLFi4R 随机森林(random forests)原作者之一 Leo Breiman 在“机器学习”2001年期刊有长文。推荐哥伦比亚大学教授Lauren Hannah的讲义。中文 @LeftNotEasy 2011年博文. 资料卡片: http://t.cn/RhLFzN1 欢迎补充指正 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Blfhkk0qI) ] + +2014-09-03 问:@子_相 求推荐一个PHP上的内存cache 的mod 答: http://t.cn/RhLeSxQ APC曾是首选(towser451@github 也推荐), 但php5.5用opcache作bytecode cache后, APC user data cache就被删改成APCu。@Laruence (APC, opcache的lead)2013博文指出APC效率问题,并因此开发YAC。卡片盒子: http://t.cn/RhLeSx8 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BleQ8wKSv) ] + +2014-09-03 在Neural Networks and Deep Learning第四章有对这个定理的可视化阐述,简洁易懂 http://t.cn/RhL8X74 该书我们以前在深度学习系列里也推荐过 http://t.cn/RhLmjtj [ [微博](http://www.weibo.com/5220650532/BlcZI7vdh) ] + +2014-09-01 转发理由:Larochelle是加拿大Université de Sherbrooke的教授。他是蒙特利尔大学Yoshua Bengio的博士,多伦多大学Geoffrey Hinton的博士后,师承深度学习的两大重镇 [ [微博](http://www.weibo.com/5220650532/BkVuU0EdN) ] + +2014-09-01 传送原因:用SQL访问Elasticsearch大大方便了查询构造。以前有类似项目ELSeQL, 但已很久没有更新了 @温少 @elasticsearch @Medcl [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BkU1JcW8K) ] + +2014-08-31 传送理由:开源的推荐系统,从各种语言调用都方便 [ [微博](http://www.weibo.com/5220650532/BkOEij8Pb) ] + +2014-08-31 @Copper_PKU 的讲义前段时间推荐过,这个也很赞。 [ [微博](http://www.weibo.com/5220650532/BkOCelqIv) ] + +2014-08-31 传送问题,问答进展 http://t.cn/Rhw4h2m 看过YAC吗? http://t.cn/zYrnBVx [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BkK3q8zJ6) ] + +2014-08-30 增补两个相关组织: @九章算法 的专业培训可(程序员的新东方)http://t.cn/RhwAzyN 。 @灵魂机器 组织的程序员北美求职 (肉身翻墙)http://t.cn/RhwAzyp len(卡片盒子)=8 [ [微博](http://www.weibo.com/5220650532/BkJlm0cyz) ] 2014-08-30 半夜推荐 Leetcode 资源整理合集。 它目前有150道题,是程序员肉身翻墙的好东西,也适合快速提高自我修养。精选资料在我的卡片盒子里 http://t.cn/RhwwCGL 现在有6项: @灵魂机器 (Frank Dai) 的刷题宝典,若干人的涮题体验。这是一个会成长的卡片盒子,欢迎添加好东西。 [ [微博](http://www.weibo.com/5220650532/BkJheojHW) ] From e53527567d3dc1b068d958f1773ad2c9862dbfdf Mon Sep 17 00:00:00 2001 From: Jie Bao Date: Wed, 10 Sep 2014 10:48:47 -0700 Subject: [PATCH 323/485] Update README.md --- README.md | 32 ++++++-------------------------- 1 file changed, 6 insertions(+), 26 deletions(-) diff --git a/README.md b/README.md index 81a3103..7b8b9c4 100644 --- a/README.md +++ b/README.md @@ -31,8 +31,6 @@ 2014-09-11 #夜读春秋# GDP与汇率数据是经济、金融研究的基本盘! (数据资源整理: http://t.cn/RhVDKg5 ) 1.世界银行的全球各国GDP(1983-2013)http://t.cn/hFsNY 2. 美联储汇率数据(H.10): http://t.cn/RhVDKgq (1996-2014) 3. 那台北的GDP呢? http://t.cn/RhVgFWl ,http://t.cn/zOMb9mJ [ [微博](http://www.weibo.com/5220650532/Bmpx29PN5) ] -2014-09-11 谢谢建议,我们会努力。改进的网站会有的。想不想要个电子邮件周报什么的,把每周的发布的好东西一网打尽? //@海中的沙粒:给个建议,好东西以后重新搞个博,不然因重复遗漏 //@好东西传送门: 加进列表了 pdf传送门 http://t.cn/RhcFi0l //@诸神善待民科组: 图是种方法Method,不是模型 Model,没说到 B [ [微博](http://www.weibo.com/5220650532/BmplNnCI3) ] - 2014-09-10 #NLP# 诸君,"城市规划" 领域词表来了, 还等什么呢? 数据传送门 http://t.cn/RhVVYBk 感谢 @国际城市规划 //@规划中国: //@国际城市规划: 编撰词典对我等难度太大,欢迎有缘人慢慢加入积累 http://t.cn/RhVcLWx //@城规田宝江: 好想法!//@中大袁媛: 可以出版一本专业英语的词典或教材 [ [微博](http://www.weibo.com/5220650532/Bmm8O31VG) ] 2014-09-10 #机器学习# 领域大牛 Michael Jordan 是Andrew Ng的博士导师,擅长 recurrent neural networks , Bayesian nonparametric analysis, probabilistic graphical models, spectral methods, kernel machines 机会难得有问题赶紧上Reddit上问,http://t.cn/aOioBZ [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bmm3VbIR5) ] @@ -43,22 +41,16 @@ 2014-09-10 加进列表了 pdf传送门 http://t.cn/RhcFi0l //@诸神善待民科组: 图是种方法Method,不是模型 Model,没说到 Bayesian Reasoning and Machine Learning 真是不开心,这比 Koller 的 PGM 好读,好处是图多,我就喜欢看图说话的小二班 [ [微博](http://www.weibo.com/5220650532/BmkxhgVMr) ] -2014-09-10 赞,维基百科wikipedia在某种程度也承载了很多领域的知识体系,所以大家搜索时喜欢用它 [ [微博](http://www.weibo.com/5220650532/BmjA3bOEr) ] - 2014-09-10 [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] -2014-09-10 @好东西传送门 的粉丝里谁转发好东西最多?前10名:1 @Noodles-Xu 2 @LR机器学习计算机视觉 3 @海中的沙粒 4 @hbyido 5 @-单世民- 6 @武文骁很忙也很胖 7 @侠女无敌-曾佩玲 8 @彤言彤趣 9 @yutho 10 @季波USTC [good] [ [微博](http://www.weibo.com/5220650532/BmiMf0Fu4) ] - 2014-09-10 US News 全美大学排名数据集: 新鲜出炉2015年排名前150的综合大学(national university)和文理学院(national liberal art college) . 资源列表 http://t.cn/RhcYKC2 包括1983-2007, 2008, 2009, 2010, 2011-2015 数据,应该比较全了. 欢迎补充 [ [微博](http://www.weibo.com/5220650532/BmizVr1sS) ] -2014-09-10 458万东西: 144万人, 73万地点, 41万作品(含12万音乐专辑, 8.7万电影,1.9万视频游戏), 24万组织(含5.8万公司,4.9万教育机构), 25万物种等 [ [微博](http://www.weibo.com/5220650532/BmizMhrjB) ] +2014-09-10 DBPedia 2014: 458万东西: 144万人, 73万地点, 41万作品(含12万音乐专辑, 8.7万电影,1.9万视频游戏), 24万组织(含5.8万公司,4.9万教育机构), 25万物种等 [ [微博](http://www.weibo.com/5220650532/BmizMhrjB) ] 2014-09-09 http://t.cn/zOpIrjJ 中文语言资源联盟,英文译名Chinese Linguistic Data Consortium,缩写为CLDC, 有少数民族语言,方言数据 //@龙星镖局:有专门放入方言的nlp研究 吗?@白硕SH 老师 //@殆知阁:转发微博 [ [微博](http://www.weibo.com/5220650532/BmcCdeWno) ] 2014-09-09 好东西 ,向 迷渡 justjavac (索引的作者)致敬! 顺路推荐一下他的另一个工作 "Google 全球 IP 地址库" , http://t.cn/RvabGv5 //@justjavac: 我说今天怎么收到好多私信呢,原来根源在这儿啊。//@CSDN_CODE:Mark! [ [微博](http://www.weibo.com/5220650532/BmcoO4bqA) ] -2014-09-09 谢谢夸奖,分享一个体验: 有时很难一次把问题说清楚 (要不直接搜索了),所以私信交流很有帮助。 一句话,很高兴帮助你解决问题 ;) [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BmckKeAqI) ] - 2014-09-09 找到一组相关测试数据集(VAST challenge 2003-现在),基本上就是用户利用可视化工具,根据特定需要分析大规模业务数据,继而推理验证猜想。 例如分析预测恐怖袭击,发现金融犯罪嫌疑人,有一篇总结文章值得一读: http://t.cn/Rhtmw01 [ [微博](http://www.weibo.com/5220650532/BmbO4EuMd) ] 2014-09-09 问: @海中的沙粒 点餐,我想要更多关于可视分析学的资料? 答: 可视分析学(Visual Analytics) 利用可视化方法支持对大规模复杂(科学)数据的人机协同分析推理。问答进展收录: 经典, 综述, 社区, 会议等资源 http://t.cn/Rht6xF8 看附图, 一分钟理解其定位、原理以及跨学科特性。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BmbGkaI7Z) ] @@ -67,43 +59,27 @@ 2014-09-09 转发理由:开放政府数据。另外推荐RPI的 Linking Open Government Data,收录了1800多个数据集,100亿RDF三元组 http://t.cn/RhtMeAj [ [微博](http://www.weibo.com/5220650532/Bm8UryKa7) ] -2014-09-09 好东西,北京语言大学威武。插个话, 著名的汉语水平考试(HSK,...)是由北京语言大学汉语水平考试中心设计研制的 //@52nlp: [good][good][good] [ [微博](http://www.weibo.com/5220650532/Bm7DQ3NCC) ] - 2014-09-09 #夜读春秋# 最近JWT(JSON Web Token,是一种基于JSON的认证安全协议)势头很火,这里找了一个48页的幻灯片,帮你快速了解这些概念的含义,并提供一定全局观 http://t.cn/Rht40uL 该作者(Brian Campbell)还有一个更新的幻灯片讲JWT和JOSE http://t.cn/Rht40uw [ [微博](http://www.weibo.com/5220650532/Bm6KQB6nM) ] 2014-09-08 @phunter_lau 推荐了 Peter Norvig的regex生成器 http://t.cn/8FGNh2J http://t.cn/8FnLiON @孙明明_SmarterChina 推荐了Bartoli等基于遗传算法的实现 http://t.cn/zlmNYLJ @布尔乔亚之犬 推荐了SO上一个很好的讨论贴 http://t.cn/Rh5H2za [good] [ [微博](http://www.weibo.com/5220650532/Bm2SOaRyu) ] -2014-09-08 @phunter_lau 推荐了 Peter Norvig的regex生成器 http://t.cn/8FGNh2J http://t.cn/8FnLiON @孙明明_SmarterChina 推荐了Bartoli等基于遗传算法的实现 http://t.cn/zlmNYLJ @布尔乔亚之犬 推荐了SO上一个很好的讨论贴 [good] [ [微博](http://www.weibo.com/5220650532/Bm2SqyoHc) ] - -2014-09-08 求助! [ [微博](http://www.weibo.com/5220650532/Bm2IlgmSx) ] - 2014-09-08 黄昌宁 赵海 《中文分词十年回顾 》http://t.cn/Rh5Xe3S //@龙星镖局: 有个 中文分词十年 孙老师搜一下 [ [微博](http://www.weibo.com/5220650532/Bm1jmwaCk) ] -2014-09-08 第一,问题说得很实在,使用hadoop运维成本不可低估、实现价值所依赖的技术链不象成功案例说得那么简单,总之就是你公司的IT部门很有可能搞不定,第二,这也算他推广新公司altiscale的价值 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bm0S5sgSd) ] - -2014-09-08 企业研发也要有市场、学术调研 //@新闻传播学研:M //@徐泓xh:[研究生的基本功]从写好文献综述起步. [ [微博](http://www.weibo.com/5220650532/Bm0Dh5yRF) ] - 2014-09-07 Tomas Mikolov http://t.cn/Rhq2QVU 很有意思。0.1c版更新等了近九个月,恐怕是跳槽耽误的。他今年5月从Google跳到Facebook, 工作之余还努力维护word2vec开源代码。爱看源代码的可以直接读diff http://t.cn/Rhq2QVZ [ [微博](http://www.weibo.com/5220650532/BlRmn38uo) ] 2014-09-06 问: @V井颠V 对国内中长文章(300~5000字)近似新闻门户网站频道粒度的自动分类,有好的模型方法吗? 答: 进展 http://t.cn/RhGTzfI 考虑 statistical topic model, 推荐UIUC翟成祥 ( http://weibo.com/5220650532/BhWo26Y93 ) , Stanford 和Umass 都有软件包 国内工作欢迎补充 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BlMR9kjJ7) ] 2014-09-06 感谢推荐,当然是好东西! //@尘绳聋-SYSU: 那个网站还有个R for big data: http://t.cn/zHXfTF1 之前看人推荐过biglm, bigrf等pkg//@尘绳聋-SYSU: [晕] 传说wiseRF比sklearn里的RF更scale更快,不知道是不是真的[威武] [ [微博](http://www.weibo.com/5220650532/BlMJyCoRe) ] -2014-09-06 多年之前就受益于龙星计划的高质量资源,特别隆重推荐! [ [微博](http://www.weibo.com/5220650532/BlJzVhgIU) ] - -2014-09-06 传送潜力股。这些好账号本门大多已经关注了 [耶] [ [微博](http://www.weibo.com/5220650532/BlIlA4xHp) ] - 2014-09-06 非常感谢,这本书是亚马逊的Computer Vision类畅销书第一名 卡片盒子添加了新链接 //@维尔茨:对于计算机视觉/图像强烈推荐Szeliski的Computer Vision: Algorithms and Applications。传送门:http://t.cn/RhbF7jr好东西传送门: 不好意思,你是找第二版吗? 可以问问 @没有我找不到的电子书 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BlIbspyg8) ] -2014-09-06 不好意思,你是找第二版吗? 可以问问 @没有我找不到的电子书 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BlHYbucvp) ] - 2014-09-06 回复@ustczen: 感谢传送好东西。这是新加坡国立 Min-Yen Kan (靳民彦) 教授 研究组的工作 http://t.cn/SwJHvL @52nlp 2011年转过他们短信捐赠请求 http://t.cn/RhbDbIV //@ustczen:回复@好东西传送门:所以我老年痴呆又犯了么。。附链接:http://t.cn/hrXXWz [ [微博](http://www.weibo.com/5220650532/BlHNqyCgt) ] 2014-09-06 问:@龙星镖局 如果要从零学习图像或语音分析,要从那几本书开始? 答: 问答进展 http://t.cn/Rhbeix0 网络问答结果和相关课程大多推荐这几本经典老教科书:Digital Image Processing (3rd Edition) (2007), Speech and Language Processing, 2nd Edition (2008), 卡片盒子: http://t.cn/Rhbeixp [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BlHHF1jr2) ] 2014-09-06 [开放数据]印尼政府开放数据 data.ukp.go.id http://t.cn/Rhbrjfv 于2014-09-05上线,有700 多数据集。要使用数据恐怕先要能读懂印尼语(拼写属于拉丁语系,最早源于荷兰语)。此外,2014统计数据表明印尼有2.5亿人,是排名世界人口第四大国。 [ [微博](http://www.weibo.com/5220650532/BlHkREGAC) ] -2014-09-06 传送理由: github上的好东西,快800星了。 作者的博客也很有深度,而且竟然用issue tracker写博客,赞! 这是个例子 http://t.cn/8s35KgP [ [微博](http://www.weibo.com/5220650532/BlH9sz9H9) ] +2014-09-06 监控页面变化的开源项目page-monitor 传送理由: github上的好东西,快800星了。 作者的博客也很有深度,而且竟然用issue tracker写博客,赞! 这是个例子 http://t.cn/8s35KgP [ [微博](http://www.weibo.com/5220650532/BlH9sz9H9) ] 2014-09-06 问:@三鹿无毒奶粉 请问贵博关于航班准时预测和机票价格预测有那些相关的论文和模型 答:问答进展 http://t.cn/RhbBwy9 不少人用回归模型 航班准时预测(flight delay):有几篇MIT的文章;机票价格预测(ticket price): 有不少专利(发明人包括USC Craig Knoblock 教授) 卡片盒子 http://t.cn/RhbBwyK [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BlH4Tc57x) ] @@ -150,6 +126,7 @@ 2014-08-31 传送问题,问答进展 http://t.cn/Rhw4h2m 看过YAC吗? http://t.cn/zYrnBVx [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BkK3q8zJ6) ] 2014-08-30 增补两个相关组织: @九章算法 的专业培训可(程序员的新东方)http://t.cn/RhwAzyN 。 @灵魂机器 组织的程序员北美求职 (肉身翻墙)http://t.cn/RhwAzyp len(卡片盒子)=8 [ [微博](http://www.weibo.com/5220650532/BkJlm0cyz) ] + 2014-08-30 半夜推荐 Leetcode 资源整理合集。 它目前有150道题,是程序员肉身翻墙的好东西,也适合快速提高自我修养。精选资料在我的卡片盒子里 http://t.cn/RhwwCGL 现在有6项: @灵魂机器 (Frank Dai) 的刷题宝典,若干人的涮题体验。这是一个会成长的卡片盒子,欢迎添加好东西。 [ [微博](http://www.weibo.com/5220650532/BkJheojHW) ] @@ -739,6 +716,9 @@ Probabilistic Programming summer school 在Portland顺利结束 教学资料见 ## 声明 +2014-09-10 @好东西传送门 的粉丝里谁转发好东西最多?前10名:1 @Noodles-Xu 2 @LR机器学习计算机视觉 3 @海中的沙粒 4 @hbyido 5 @-单世民- 6 @武文骁很忙也很胖 7 @侠女无敌-曾佩玲 8 @彤言彤趣 9 @yutho 10 @季波USTC [good] [ [微博](http://www.weibo.com/5220650532/BmiMf0Fu4) ] + + 2014-08-06 @好东西传送门 是开源的,任何人都可以贡献好的文献、代码或商业产品。你可以fork一份github库,并在awesome目录下建立一个文件,内容就是链接(文字描述可选)例 http://t.cn/RPal5fW 提交一个pull请求,剩下的就交给传送门了。您的贡献会被署名 [ [微博](http://www.weibo.com/5220650532/Bh2oIc33V?mod=weibotime) ] From 269a9e9ab3c252938bd00c0cbfb8b46433ac09f6 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 15:09:10 -0700 Subject: [PATCH 324/485] Update README.md --- README.md | 49 ++++++++++++++++++++++++++++++------------------- 1 file changed, 30 insertions(+), 19 deletions(-) diff --git a/README.md b/README.md index 7b8b9c4..0d20a9e 100644 --- a/README.md +++ b/README.md @@ -1,33 +1,44 @@ - + -好东西传送门: 微博上的轻问答 Crowd-sourced LiteQA -* 关注微博 http://www.weibo.com/haoawesome/ -* 微信号:好东西传送门 -* 网站 http://hao.memect.com/ -* Github https://github.com/memect/hao +好东西传送门:帮您快速解决问题,为您精选专业知识 +* 微博: http://www.weibo.com/haoawesome/ +* 微信: 好东西传送门 +* 周报: [订阅邮件列表](http://eepurl.com/202qb) +* 反馈: [提供宝贵建议](https://github.com/memect/hao/issues/new) -还没有回答的问题,欢迎认领 https://github.com/memect/hao/issues - -[给我们提建议](https://github.com/memect/hao/issues/new) +---- 目录 -* [最近的问答](README.md#最近的问答) -* [文摘](README.md#文摘) -* [声明](README.md#声明) +* [简介](README.md#简介) + * [如何使用问答](README.md#如何使用问答) + * [使用许可](README.md#使用许可) +* [问答与原创](README.md#问答与原创) +* [文摘与点评](README.md#文摘与点评) +* [通知与声明](README.md#通知与声明) + + +## 简介 +好东西传送门是微博上的知识传播系统,集成微博上的好人好东西,帮您快速解决问题,为您精选专业知识。 + +### 如何使用问答 +1. 微博用户 + * 发一条微博提问,里面加上 @好东西传送门 + * 发私信给 好东西传送门 + +2. github用户: + * [提新问题](https://github.com/memect/hao/issues/new) + * [当前问答进展](https://github.com/memect/hao/issues) 欢迎认领还没有回答的问题 -### 许可证 +### 使用许可 本站内容许可证:[Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License](http://creativecommons.org/licenses/by-nc-sa/4.0/) Creative Commons License -
-## 如何提问 - 发一条微博提问,里面加上 @好东西传送门 -## 问答案例 +## 问答与原创 2014-09-11 #夜读春秋# GDP与汇率数据是经济、金融研究的基本盘! (数据资源整理: http://t.cn/RhVDKg5 ) 1.世界银行的全球各国GDP(1983-2013)http://t.cn/hFsNY 2. 美联储汇率数据(H.10): http://t.cn/RhVDKgq (1996-2014) 3. 那台北的GDP呢? http://t.cn/RhVgFWl ,http://t.cn/zOMb9mJ [ [微博](http://www.weibo.com/5220650532/Bmpx29PN5) ] @@ -592,7 +603,7 @@ http://www.weibo.com/5220650532/BhqBFulcq?mod=weibotime * 2014-07-16 @跛嘞盖儿蹭马路牙子上卡秃噜皮了 问:**数据具有统计分析的价值么?请问能不能结合链数据的特点和R来谈谈**。简答如下:Linked Data作为数据的一种,当然也可以做统计分析。可以看作Statistical relational learning的扩展。全文 http://t.cn/RP7oQxk 推荐资源的合集 http://t.cn/RP7oQxF [ [讨论](https://github.com/memect/hao/issues/1) ] [ [微博](http://www.weibo.com/3161813504/BdMlxjDb0) ] -## 文摘 +## 文摘与点评 * 2014-07-22 @龙星计划 计算机方面的经典资料可以参见这个博客。http://t.cn/Rv6rzrj 维护者@52cs [ [微博](http://www.weibo.com/1830516311/BeNwacwCd) ] @@ -714,7 +725,7 @@ Probabilistic Programming summer school 在Portland顺利结束 教学资料见 * 2013-01-28 @陈利人 【机器学习中的数学系列】回归、梯度下降 http://t.cn/hDoULu ;线性回归,偏差、方差权衡 http://t.cn/Sxppf2 ;模型组合之Boosting与Gradient Boosting http://t.cn/SP05f3 ;线性判别分析, 主成分分析 http://t.cn/SAeY2U ;强大的矩阵奇异值分解及其应用 http://t.cn/akJxgj [ [微博](http://www.weibo.com/1915548291/zgzoTcvzL) ] -## 声明 +## 通知与声明 2014-09-10 @好东西传送门 的粉丝里谁转发好东西最多?前10名:1 @Noodles-Xu 2 @LR机器学习计算机视觉 3 @海中的沙粒 4 @hbyido 5 @-单世民- 6 @武文骁很忙也很胖 7 @侠女无敌-曾佩玲 8 @彤言彤趣 9 @yutho 10 @季波USTC [good] [ [微博](http://www.weibo.com/5220650532/BmiMf0Fu4) ] From 78ae24d25e98ee762a5024990f182c591ef4acf0 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 15:09:24 -0700 Subject: [PATCH 325/485] Update README.md --- README.md | 1 + 1 file changed, 1 insertion(+) diff --git a/README.md b/README.md index 0d20a9e..b9735f7 100644 --- a/README.md +++ b/README.md @@ -16,6 +16,7 @@ * [文摘与点评](README.md#文摘与点评) * [通知与声明](README.md#通知与声明) +---- ## 简介 好东西传送门是微博上的知识传播系统,集成微博上的好人好东西,帮您快速解决问题,为您精选专业知识。 From d6669855432666a737f437aa9e0f68e323b1e818 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 15:14:43 -0700 Subject: [PATCH 326/485] Update README.md --- README.md | 12 +++++------- 1 file changed, 5 insertions(+), 7 deletions(-) diff --git a/README.md b/README.md index b9735f7..115c0d9 100644 --- a/README.md +++ b/README.md @@ -1,10 +1,9 @@ -好东西传送门:帮您快速解决问题,为您精选专业知识 +# 好东西传送门:帮您快速解决问题,为您精选专业知识 * 微博: http://www.weibo.com/haoawesome/ * 微信: 好东西传送门 -* 周报: [订阅邮件列表](http://eepurl.com/202qb) -* 反馈: [提供宝贵建议](https://github.com/memect/hao/issues/new) +* 服务: [订阅好东西周报](http://eepurl.com/202qb) [提供宝贵建议](https://github.com/memect/hao/issues/new) ---- @@ -16,10 +15,9 @@ * [文摘与点评](README.md#文摘与点评) * [通知与声明](README.md#通知与声明) ----- ## 简介 -好东西传送门是微博上的知识传播系统,集成微博上的好人好东西,帮您快速解决问题,为您精选专业知识。 +*好东西传送门* 是微博上的知识传播系统,集成微博上的好人好东西,帮您快速解决问题,为您精选专业知识。 ### 如何使用问答 1. 微博用户 @@ -27,8 +25,8 @@ * 发私信给 好东西传送门 2. github用户: - * [提新问题](https://github.com/memect/hao/issues/new) - * [当前问答进展](https://github.com/memect/hao/issues) 欢迎认领还没有回答的问题 + * [提问](https://github.com/memect/hao/issues/new) + * [跟踪问答进展](https://github.com/memect/hao/issues) 欢迎认领还没有回答的问题 ### 使用许可 From 83d5a1141080ff40f76e6658abd21369095726ff Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 15:17:04 -0700 Subject: [PATCH 327/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 115c0d9..d07fb08 100644 --- a/README.md +++ b/README.md @@ -1,6 +1,6 @@ -# 好东西传送门:帮您快速解决问题,为您精选专业知识 +# 好东西传送门 * 微博: http://www.weibo.com/haoawesome/ * 微信: 好东西传送门 * 服务: [订阅好东西周报](http://eepurl.com/202qb) [提供宝贵建议](https://github.com/memect/hao/issues/new) From ddbb0fc649137e058dab93a28b9b9563e926de6b Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 15:20:11 -0700 Subject: [PATCH 328/485] Update README.md --- README.md | 1 - 1 file changed, 1 deletion(-) diff --git a/README.md b/README.md index d07fb08..d21c18a 100644 --- a/README.md +++ b/README.md @@ -1,5 +1,4 @@ - # 好东西传送门 * 微博: http://www.weibo.com/haoawesome/ * 微信: 好东西传送门 From 7b376e6ae1f15e8e52b750bb2854bc922b56cf31 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 15:23:59 -0700 Subject: [PATCH 329/485] Update README.md --- README.md | 15 +++++++++------ 1 file changed, 9 insertions(+), 6 deletions(-) diff --git a/README.md b/README.md index d21c18a..a42f074 100644 --- a/README.md +++ b/README.md @@ -1,14 +1,13 @@ - + # 好东西传送门 -* 微博: http://www.weibo.com/haoawesome/ -* 微信: 好东西传送门 -* 服务: [订阅好东西周报](http://eepurl.com/202qb) [提供宝贵建议](https://github.com/memect/hao/issues/new) +[访问微博](http://www.weibo.com/haoawesome/)| [提供建议](https://github.com/memect/hao/issues/new) ---- 目录 * [简介](README.md#简介) - * [如何使用问答](README.md#如何使用问答) + * [问答服务](README.md#问答服务) + * [订阅服务](README.md#订阅服务) * [使用许可](README.md#使用许可) * [问答与原创](README.md#问答与原创) * [文摘与点评](README.md#文摘与点评) @@ -18,7 +17,7 @@ ## 简介 *好东西传送门* 是微博上的知识传播系统,集成微博上的好人好东西,帮您快速解决问题,为您精选专业知识。 -### 如何使用问答 +### 问答服务 1. 微博用户 * 发一条微博提问,里面加上 @好东西传送门 * 发私信给 好东西传送门 @@ -27,6 +26,10 @@ * [提问](https://github.com/memect/hao/issues/new) * [跟踪问答进展](https://github.com/memect/hao/issues) 欢迎认领还没有回答的问题 +### 订阅服务 +订阅微信公众号: 好东西传送门 + +[订阅好东西周报](http://eepurl.com/202qb) ### 使用许可 From 229f66c0a62b9788bfb3833e6a1c0d33546f5a5f Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 15:24:28 -0700 Subject: [PATCH 330/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index a42f074..2d27f88 100644 --- a/README.md +++ b/README.md @@ -1,6 +1,6 @@ # 好东西传送门 -[访问微博](http://www.weibo.com/haoawesome/)| [提供建议](https://github.com/memect/hao/issues/new) +[访问微博](http://www.weibo.com/haoawesome/)|[提供建议](https://github.com/memect/hao/issues/new) ---- From 906cc232bc237f466ad02c6f3a1fdad3084455bb Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 15:25:13 -0700 Subject: [PATCH 331/485] Update README.md --- README.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index 2d27f88..45e7cf9 100644 --- a/README.md +++ b/README.md @@ -1,5 +1,6 @@ -# 好东西传送门 + +# ![](http://u.memect.com/shared/image/hao.png) 好东西传送门 [访问微博](http://www.weibo.com/haoawesome/)|[提供建议](https://github.com/memect/hao/issues/new) ---- From e122e2c1a7682906e8c5374c82a4efad9cbf7609 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 15:26:57 -0700 Subject: [PATCH 332/485] Update README.md --- README.md | 10 +++------- 1 file changed, 3 insertions(+), 7 deletions(-) diff --git a/README.md b/README.md index 45e7cf9..8c07c48 100644 --- a/README.md +++ b/README.md @@ -1,11 +1,5 @@ - -# ![](http://u.memect.com/shared/image/hao.png) 好东西传送门 -[访问微博](http://www.weibo.com/haoawesome/)|[提供建议](https://github.com/memect/hao/issues/new) - ----- - -目录 +# 好东西传送门 * [简介](README.md#简介) * [问答服务](README.md#问答服务) * [订阅服务](README.md#订阅服务) @@ -17,6 +11,8 @@ ## 简介 *好东西传送门* 是微博上的知识传播系统,集成微博上的好人好东西,帮您快速解决问题,为您精选专业知识。 +* [访问微博](http://www.weibo.com/haoawesome/) +* [提供建议](https://github.com/memect/hao/issues/new) ### 问答服务 1. 微博用户 From 794a67df064046949736d43da046d3bc1720d320 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 15:28:17 -0700 Subject: [PATCH 333/485] Update README.md --- README.md | 11 +++-------- 1 file changed, 3 insertions(+), 8 deletions(-) diff --git a/README.md b/README.md index 8c07c48..a81b6d0 100644 --- a/README.md +++ b/README.md @@ -1,9 +1,6 @@ - # 好东西传送门 -* [简介](README.md#简介) - * [问答服务](README.md#问答服务) - * [订阅服务](README.md#订阅服务) - * [使用许可](README.md#使用许可) + +* [简介](README.md#简介) : [问答服务](README.md#问答服务), [订阅服务](README.md#订阅服务), [使用许可](README.md#使用许可), [提供建议](https://github.com/memect/hao/issues/new) * [问答与原创](README.md#问答与原创) * [文摘与点评](README.md#文摘与点评) * [通知与声明](README.md#通知与声明) @@ -11,11 +8,9 @@ ## 简介 *好东西传送门* 是微博上的知识传播系统,集成微博上的好人好东西,帮您快速解决问题,为您精选专业知识。 -* [访问微博](http://www.weibo.com/haoawesome/) -* [提供建议](https://github.com/memect/hao/issues/new) ### 问答服务 -1. 微博用户 +1. 微博用户 [访问微博](http://www.weibo.com/haoawesome/) * 发一条微博提问,里面加上 @好东西传送门 * 发私信给 好东西传送门 From 18ccebbd344ac55041072fd3c8cee6b12631436c Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 15:29:29 -0700 Subject: [PATCH 334/485] Update README.md --- README.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index a81b6d0..c5fc815 100644 --- a/README.md +++ b/README.md @@ -1,6 +1,6 @@ # 好东西传送门 -* [简介](README.md#简介) : [问答服务](README.md#问答服务), [订阅服务](README.md#订阅服务), [使用许可](README.md#使用许可), [提供建议](https://github.com/memect/hao/issues/new) +* [简介](README.md#简介) : [问答服务](README.md#问答服务), [订阅服务](README.md#订阅服务), [使用许可](README.md#使用许可) * [问答与原创](README.md#问答与原创) * [文摘与点评](README.md#文摘与点评) * [通知与声明](README.md#通知与声明) @@ -8,6 +8,7 @@ ## 简介 *好东西传送门* 是微博上的知识传播系统,集成微博上的好人好东西,帮您快速解决问题,为您精选专业知识。 +* [欢迎提供建议](https://github.com/memect/hao/issues/new) ### 问答服务 1. 微博用户 [访问微博](http://www.weibo.com/haoawesome/) From 0501af10ddbf3b29c8099e710e27b4287d6fd51c Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 15:30:30 -0700 Subject: [PATCH 335/485] Update README.md --- README.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index c5fc815..961f0d2 100644 --- a/README.md +++ b/README.md @@ -1,5 +1,5 @@ -# 好东西传送门 - +# + 好东西传送门 * [简介](README.md#简介) : [问答服务](README.md#问答服务), [订阅服务](README.md#订阅服务), [使用许可](README.md#使用许可) * [问答与原创](README.md#问答与原创) * [文摘与点评](README.md#文摘与点评) From ad947bd3c4b4545e6e134827f43cf24aacae8a3f Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 15:30:43 -0700 Subject: [PATCH 336/485] Update README.md --- README.md | 3 +-- 1 file changed, 1 insertion(+), 2 deletions(-) diff --git a/README.md b/README.md index 961f0d2..dcc5ce0 100644 --- a/README.md +++ b/README.md @@ -1,5 +1,4 @@ -# - 好东西传送门 +# 好东西传送门 * [简介](README.md#简介) : [问答服务](README.md#问答服务), [订阅服务](README.md#订阅服务), [使用许可](README.md#使用许可) * [问答与原创](README.md#问答与原创) * [文摘与点评](README.md#文摘与点评) From 686a6f57aea803057baf22fa4399ad235f5e738f Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 15:32:02 -0700 Subject: [PATCH 337/485] Update README.md --- README.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index dcc5ce0..022dac9 100644 --- a/README.md +++ b/README.md @@ -19,9 +19,9 @@ * [跟踪问答进展](https://github.com/memect/hao/issues) 欢迎认领还没有回答的问题 ### 订阅服务 -订阅微信公众号: 好东西传送门 +1. 订阅微信公众号: 好东西传送门 -[订阅好东西周报](http://eepurl.com/202qb) +2. [订阅好东西周报](http://eepurl.com/202qb) ### 使用许可 From 3fa30ddf3b10532c4278dbe83108db61ab020163 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 15:36:16 -0700 Subject: [PATCH 338/485] Update README.md MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit remove 讨论 --- README.md | 128 +++++++++++++++++++++++++++--------------------------- 1 file changed, 64 insertions(+), 64 deletions(-) diff --git a/README.md b/README.md index 022dac9..fbfae37 100644 --- a/README.md +++ b/README.md @@ -37,9 +37,9 @@ 2014-09-10 #NLP# 诸君,"城市规划" 领域词表来了, 还等什么呢? 数据传送门 http://t.cn/RhVVYBk 感谢 @国际城市规划 //@规划中国: //@国际城市规划: 编撰词典对我等难度太大,欢迎有缘人慢慢加入积累 http://t.cn/RhVcLWx //@城规田宝江: 好想法!//@中大袁媛: 可以出版一本专业英语的词典或教材 [ [微博](http://www.weibo.com/5220650532/Bmm8O31VG) ] -2014-09-10 #机器学习# 领域大牛 Michael Jordan 是Andrew Ng的博士导师,擅长 recurrent neural networks , Bayesian nonparametric analysis, probabilistic graphical models, spectral methods, kernel machines 机会难得有问题赶紧上Reddit上问,http://t.cn/aOioBZ [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bmm3VbIR5) ] +2014-09-10 #机器学习# 领域大牛 Michael Jordan 是Andrew Ng的博士导师,擅长 recurrent neural networks , Bayesian nonparametric analysis, probabilistic graphical models, spectral methods, kernel machines 机会难得有问题赶紧上Reddit上问,http://t.cn/aOioBZ [ [微博](http://www.weibo.com/5220650532/Bmm3VbIR5) ] -2014-09-10 问: @chico2011 @leo_lq 求推荐金融交易风险评估方面的文献 答: 资源列表 http://t.cn/RhVqWuZ 金融风险管理领域全局观参见 Financial Institutions Management: A Risk Management Approach (沃顿学院教科书)。量化评估方法(含风险价值 VaR)有2011年综述, 此外咱做了个VaR相关概念的脑图 请补充指正 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BmlXxt5hC) ] +2014-09-10 问: @chico2011 @leo_lq 求推荐金融交易风险评估方面的文献 答: 资源列表 http://t.cn/RhVqWuZ 金融风险管理领域全局观参见 Financial Institutions Management: A Risk Management Approach (沃顿学院教科书)。量化评估方法(含风险价值 VaR)有2011年综述, 此外咱做了个VaR相关概念的脑图 请补充指正 [ [微博](http://www.weibo.com/5220650532/BmlXxt5hC) ] 2014-09-10 张天雷 《概率编程语言与贝叶斯方法实践》 //@小猴机器人: 来,给个中文介绍哈, http://t.cn/RPwbEPz [ [微博](http://www.weibo.com/5220650532/BmkyPihT4) ] @@ -57,9 +57,9 @@ 2014-09-09 找到一组相关测试数据集(VAST challenge 2003-现在),基本上就是用户利用可视化工具,根据特定需要分析大规模业务数据,继而推理验证猜想。 例如分析预测恐怖袭击,发现金融犯罪嫌疑人,有一篇总结文章值得一读: http://t.cn/Rhtmw01 [ [微博](http://www.weibo.com/5220650532/BmbO4EuMd) ] -2014-09-09 问: @海中的沙粒 点餐,我想要更多关于可视分析学的资料? 答: 可视分析学(Visual Analytics) 利用可视化方法支持对大规模复杂(科学)数据的人机协同分析推理。问答进展收录: 经典, 综述, 社区, 会议等资源 http://t.cn/Rht6xF8 看附图, 一分钟理解其定位、原理以及跨学科特性。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BmbGkaI7Z) ] +2014-09-09 问: @海中的沙粒 点餐,我想要更多关于可视分析学的资料? 答: 可视分析学(Visual Analytics) 利用可视化方法支持对大规模复杂(科学)数据的人机协同分析推理。问答进展收录: 经典, 综述, 社区, 会议等资源 http://t.cn/Rht6xF8 看附图, 一分钟理解其定位、原理以及跨学科特性。 [ [微博](http://www.weibo.com/5220650532/BmbGkaI7Z) ] -2014-09-09 问:@_绝影_ 求助 刚开始做图像融合相关领域研究,请问有哪些大牛? 答:进展 http://t.cn/RhqD63F 图像融合(Image Fusion)在计算机视觉(computer vision), 遥感(remote sensing)和医学图像(Medical Image)上都有应用,可追踪会议IPCV,ICIFE, 期刊IJCV 及综述。大牛欢迎专家传送 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bm9jvfke6) ] +2014-09-09 问:@_绝影_ 求助 刚开始做图像融合相关领域研究,请问有哪些大牛? 答:进展 http://t.cn/RhqD63F 图像融合(Image Fusion)在计算机视觉(computer vision), 遥感(remote sensing)和医学图像(Medical Image)上都有应用,可追踪会议IPCV,ICIFE, 期刊IJCV 及综述。大牛欢迎专家传送 [ [微博](http://www.weibo.com/5220650532/Bm9jvfke6) ] 2014-09-09 转发理由:开放政府数据。另外推荐RPI的 Linking Open Government Data,收录了1800多个数据集,100亿RDF三元组 http://t.cn/RhtMeAj [ [微博](http://www.weibo.com/5220650532/Bm8UryKa7) ] @@ -71,25 +71,25 @@ 2014-09-07 Tomas Mikolov http://t.cn/Rhq2QVU 很有意思。0.1c版更新等了近九个月,恐怕是跳槽耽误的。他今年5月从Google跳到Facebook, 工作之余还努力维护word2vec开源代码。爱看源代码的可以直接读diff http://t.cn/Rhq2QVZ [ [微博](http://www.weibo.com/5220650532/BlRmn38uo) ] -2014-09-06 问: @V井颠V 对国内中长文章(300~5000字)近似新闻门户网站频道粒度的自动分类,有好的模型方法吗? 答: 进展 http://t.cn/RhGTzfI 考虑 statistical topic model, 推荐UIUC翟成祥 ( http://weibo.com/5220650532/BhWo26Y93 ) , Stanford 和Umass 都有软件包 国内工作欢迎补充 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BlMR9kjJ7) ] +2014-09-06 问: @V井颠V 对国内中长文章(300~5000字)近似新闻门户网站频道粒度的自动分类,有好的模型方法吗? 答: 进展 http://t.cn/RhGTzfI 考虑 statistical topic model, 推荐UIUC翟成祥 ( http://weibo.com/5220650532/BhWo26Y93 ) , Stanford 和Umass 都有软件包 国内工作欢迎补充 [ [微博](http://www.weibo.com/5220650532/BlMR9kjJ7) ] 2014-09-06 感谢推荐,当然是好东西! //@尘绳聋-SYSU: 那个网站还有个R for big data: http://t.cn/zHXfTF1 之前看人推荐过biglm, bigrf等pkg//@尘绳聋-SYSU: [晕] 传说wiseRF比sklearn里的RF更scale更快,不知道是不是真的[威武] [ [微博](http://www.weibo.com/5220650532/BlMJyCoRe) ] -2014-09-06 非常感谢,这本书是亚马逊的Computer Vision类畅销书第一名 卡片盒子添加了新链接 //@维尔茨:对于计算机视觉/图像强烈推荐Szeliski的Computer Vision: Algorithms and Applications。传送门:http://t.cn/RhbF7jr好东西传送门: 不好意思,你是找第二版吗? 可以问问 @没有我找不到的电子书 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BlIbspyg8) ] +2014-09-06 非常感谢,这本书是亚马逊的Computer Vision类畅销书第一名 卡片盒子添加了新链接 //@维尔茨:对于计算机视觉/图像强烈推荐Szeliski的Computer Vision: Algorithms and Applications。传送门:http://t.cn/RhbF7jr好东西传送门: 不好意思,你是找第二版吗? 可以问问 @没有我找不到的电子书 [ [微博](http://www.weibo.com/5220650532/BlIbspyg8) ] 2014-09-06 回复@ustczen: 感谢传送好东西。这是新加坡国立 Min-Yen Kan (靳民彦) 教授 研究组的工作 http://t.cn/SwJHvL @52nlp 2011年转过他们短信捐赠请求 http://t.cn/RhbDbIV //@ustczen:回复@好东西传送门:所以我老年痴呆又犯了么。。附链接:http://t.cn/hrXXWz [ [微博](http://www.weibo.com/5220650532/BlHNqyCgt) ] -2014-09-06 问:@龙星镖局 如果要从零学习图像或语音分析,要从那几本书开始? 答: 问答进展 http://t.cn/Rhbeix0 网络问答结果和相关课程大多推荐这几本经典老教科书:Digital Image Processing (3rd Edition) (2007), Speech and Language Processing, 2nd Edition (2008), 卡片盒子: http://t.cn/Rhbeixp [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BlHHF1jr2) ] +2014-09-06 问:@龙星镖局 如果要从零学习图像或语音分析,要从那几本书开始? 答: 问答进展 http://t.cn/Rhbeix0 网络问答结果和相关课程大多推荐这几本经典老教科书:Digital Image Processing (3rd Edition) (2007), Speech and Language Processing, 2nd Edition (2008), 卡片盒子: http://t.cn/Rhbeixp [ [微博](http://www.weibo.com/5220650532/BlHHF1jr2) ] 2014-09-06 [开放数据]印尼政府开放数据 data.ukp.go.id http://t.cn/Rhbrjfv 于2014-09-05上线,有700 多数据集。要使用数据恐怕先要能读懂印尼语(拼写属于拉丁语系,最早源于荷兰语)。此外,2014统计数据表明印尼有2.5亿人,是排名世界人口第四大国。 [ [微博](http://www.weibo.com/5220650532/BlHkREGAC) ] 2014-09-06 监控页面变化的开源项目page-monitor 传送理由: github上的好东西,快800星了。 作者的博客也很有深度,而且竟然用issue tracker写博客,赞! 这是个例子 http://t.cn/8s35KgP [ [微博](http://www.weibo.com/5220650532/BlH9sz9H9) ] -2014-09-06 问:@三鹿无毒奶粉 请问贵博关于航班准时预测和机票价格预测有那些相关的论文和模型 答:问答进展 http://t.cn/RhbBwy9 不少人用回归模型 航班准时预测(flight delay):有几篇MIT的文章;机票价格预测(ticket price): 有不少专利(发明人包括USC Craig Knoblock 教授) 卡片盒子 http://t.cn/RhbBwyK [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BlH4Tc57x) ] +2014-09-06 问:@三鹿无毒奶粉 请问贵博关于航班准时预测和机票价格预测有那些相关的论文和模型 答:问答进展 http://t.cn/RhbBwy9 不少人用回归模型 航班准时预测(flight delay):有几篇MIT的文章;机票价格预测(ticket price): 有不少专利(发明人包括USC Craig Knoblock 教授) 卡片盒子 http://t.cn/RhbBwyK [ [微博](http://www.weibo.com/5220650532/BlH4Tc57x) ] 2014-09-06 传送理由:右边的链接真是好东西 -- 不止配色工具,还有大量字体,图片、纹理,壁纸等众多素材资源网站一网打尽。 //@设定控: 配色工具网站汇总 http://t.cn/RPbMz7M [ [微博](http://www.weibo.com/5220650532/BlGYiyx88) ] -2014-09-06 问: @ShawnAtLoss 请问哪边可以找到比较全面的关于大数据的survey 答: 问答进展: http://t.cn/Rhb1b0Z 推荐两类阅读:1 大数据领域地图,覆盖相关 技术,应用,公司 等 2. github好资源合集 http://t.cn/Rhb1b0w 1K+星,上百链接. 卡片盒子(现有6个资源): http://t.cn/Rhb1b0A 欢迎补充 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BlGU6teFP) ] +2014-09-06 问: @ShawnAtLoss 请问哪边可以找到比较全面的关于大数据的survey 答: 问答进展: http://t.cn/Rhb1b0Z 推荐两类阅读:1 大数据领域地图,覆盖相关 技术,应用,公司 等 2. github好资源合集 http://t.cn/Rhb1b0w 1K+星,上百链接. 卡片盒子(现有6个资源): http://t.cn/Rhb1b0A 欢迎补充 [ [微博](http://www.weibo.com/5220650532/BlGU6teFP) ] 2014-09-06 [推荐] 一张很好的脑图胜过千言万语,帮助你获得python的大数据处理工具全局观。http://t.cn/Rhb3P8I [ [微博](http://www.weibo.com/5220650532/BlGE7oFdz) ] @@ -103,31 +103,31 @@ 2014-09-05 http://t.cn/Rh4W25z 今年欧洲python大会的一个35页在线讲义幻灯片,用实例介绍如何用python实现概率编程,尤其是pymc3 阅读时间大约半小时 [ [微博](http://www.weibo.com/5220650532/Blyi3aVGF) ] -2014-09-05 [问题求传送] 问:@开机就好ing 有没有比较好的Gbrank的相关的开源实现 答:就是 Zhaohui Zheng SIGIR '07 文章“A regression framework for learning ranking ...” 里提到的GBRank (guardian boosted) 问答进展看 http://t.cn/Rh4C8hd 初步好像有一个C++ 开源代码 http://t.cn/Rh4C8hg 欢迎补充 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BlxKpwU1D) ] +2014-09-05 [问题求传送] 问:@开机就好ing 有没有比较好的Gbrank的相关的开源实现 答:就是 Zhaohui Zheng SIGIR '07 文章“A regression framework for learning ranking ...” 里提到的GBRank (guardian boosted) 问答进展看 http://t.cn/Rh4C8hd 初步好像有一个C++ 开源代码 http://t.cn/Rh4C8hg 欢迎补充 [ [微博](http://www.weibo.com/5220650532/BlxKpwU1D) ] -2014-09-04 [资料整理] PDF版 http://t.cn/RhUOt6p 《智能问答系统:心得点评与文献列表》覆盖几个知名的问答系统:Halo (Aura); Siri;IBM Watson (DeepQA); True Knowledge;Facebook Graph Search 重点评论了知识图谱和语义web技术在自动智能问答系统中的应用与前景 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BlqyBe19Z) ] +2014-09-04 [资料整理] PDF版 http://t.cn/RhUOt6p 《智能问答系统:心得点评与文献列表》覆盖几个知名的问答系统:Halo (Aura); Siri;IBM Watson (DeepQA); True Knowledge;Facebook Graph Search 重点评论了知识图谱和语义web技术在自动智能问答系统中的应用与前景 [ [微博](http://www.weibo.com/5220650532/BlqyBe19Z) ] -2014-09-04 旧闻回顾: Siri开发者成立人工智能公司Viv Labs (注意 网址是 viv.ai ), 花两年时间开发了能自动学习的智能个人助理系统Viv:将自然语言表达的复杂问题与搜索结合 相关Wired报导( http://t.cn/RhUtTwq 8月12日) 有微博原发评论 @网路冷眼 @新浪科技 (看 @张栋_机器学习 评论) http://t.cn/RhUtTw5 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BloN1gTeu) ] +2014-09-04 旧闻回顾: Siri开发者成立人工智能公司Viv Labs (注意 网址是 viv.ai ), 花两年时间开发了能自动学习的智能个人助理系统Viv:将自然语言表达的复杂问题与搜索结合 相关Wired报导( http://t.cn/RhUtTwq 8月12日) 有微博原发评论 @网路冷眼 @新浪科技 (看 @张栋_机器学习 评论) http://t.cn/RhUtTw5 [ [微博](http://www.weibo.com/5220650532/BloN1gTeu) ] -2014-09-04 问: @simba0626 请问现今有哪些成功的智能问答系统? 答: 问答进展 http://t.cn/RhUq00L 成功不好定义,基本用了知识图谱, 例如 IBM DeepQA (watson), wolfram alpha, Apple Siri, Google now。当然学术界也有一群人在做开放领域的图灵测试,如Eugen http://t.cn/RhUq00y 相关文献待会整理个资源合集 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BloyuzoCh) ] +2014-09-04 问: @simba0626 请问现今有哪些成功的智能问答系统? 答: 问答进展 http://t.cn/RhUq00L 成功不好定义,基本用了知识图谱, 例如 IBM DeepQA (watson), wolfram alpha, Apple Siri, Google now。当然学术界也有一群人在做开放领域的图灵测试,如Eugen http://t.cn/RhUq00y 相关文献待会整理个资源合集 [ [微博](http://www.weibo.com/5220650532/BloyuzoCh) ] 2014-09-03 回复@统计之都: 非常感谢 这可是今年7月新鲜出炉的文章,Gilles Louppe http://t.cn/RhyvpGz //@统计之都:Gilles Louppe的博士论文《随机森林:从理论到实践》,PDF下载地址http://t.cn/RP8JQyC。 [ [微博](http://www.weibo.com/5220650532/BlfvG3fm9) ] -2014-09-03 问: @董伟_dzw259 哪里能够找到比较详细介绍随机森林的paper吗? 答: http://t.cn/RhLFi4R 随机森林(random forests)原作者之一 Leo Breiman 在“机器学习”2001年期刊有长文。推荐哥伦比亚大学教授Lauren Hannah的讲义。中文 @LeftNotEasy 2011年博文. 资料卡片: http://t.cn/RhLFzN1 欢迎补充指正 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Blfhkk0qI) ] +2014-09-03 问: @董伟_dzw259 哪里能够找到比较详细介绍随机森林的paper吗? 答: http://t.cn/RhLFi4R 随机森林(random forests)原作者之一 Leo Breiman 在“机器学习”2001年期刊有长文。推荐哥伦比亚大学教授Lauren Hannah的讲义。中文 @LeftNotEasy 2011年博文. 资料卡片: http://t.cn/RhLFzN1 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/Blfhkk0qI) ] -2014-09-03 问:@子_相 求推荐一个PHP上的内存cache 的mod 答: http://t.cn/RhLeSxQ APC曾是首选(towser451@github 也推荐), 但php5.5用opcache作bytecode cache后, APC user data cache就被删改成APCu。@Laruence (APC, opcache的lead)2013博文指出APC效率问题,并因此开发YAC。卡片盒子: http://t.cn/RhLeSx8 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BleQ8wKSv) ] +2014-09-03 问:@子_相 求推荐一个PHP上的内存cache 的mod 答: http://t.cn/RhLeSxQ APC曾是首选(towser451@github 也推荐), 但php5.5用opcache作bytecode cache后, APC user data cache就被删改成APCu。@Laruence (APC, opcache的lead)2013博文指出APC效率问题,并因此开发YAC。卡片盒子: http://t.cn/RhLeSx8 [ [微博](http://www.weibo.com/5220650532/BleQ8wKSv) ] 2014-09-03 在Neural Networks and Deep Learning第四章有对这个定理的可视化阐述,简洁易懂 http://t.cn/RhL8X74 该书我们以前在深度学习系列里也推荐过 http://t.cn/RhLmjtj [ [微博](http://www.weibo.com/5220650532/BlcZI7vdh) ] 2014-09-01 转发理由:Larochelle是加拿大Université de Sherbrooke的教授。他是蒙特利尔大学Yoshua Bengio的博士,多伦多大学Geoffrey Hinton的博士后,师承深度学习的两大重镇 [ [微博](http://www.weibo.com/5220650532/BkVuU0EdN) ] -2014-09-01 传送原因:用SQL访问Elasticsearch大大方便了查询构造。以前有类似项目ELSeQL, 但已很久没有更新了 @温少 @elasticsearch @Medcl [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BkU1JcW8K) ] +2014-09-01 传送原因:用SQL访问Elasticsearch大大方便了查询构造。以前有类似项目ELSeQL, 但已很久没有更新了 @温少 @elasticsearch @Medcl [ [微博](http://www.weibo.com/5220650532/BkU1JcW8K) ] 2014-08-31 传送理由:开源的推荐系统,从各种语言调用都方便 [ [微博](http://www.weibo.com/5220650532/BkOEij8Pb) ] 2014-08-31 @Copper_PKU 的讲义前段时间推荐过,这个也很赞。 [ [微博](http://www.weibo.com/5220650532/BkOCelqIv) ] -2014-08-31 传送问题,问答进展 http://t.cn/Rhw4h2m 看过YAC吗? http://t.cn/zYrnBVx [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BkK3q8zJ6) ] +2014-08-31 传送问题,问答进展 http://t.cn/Rhw4h2m 看过YAC吗? http://t.cn/zYrnBVx [ [微博](http://www.weibo.com/5220650532/BkK3q8zJ6) ] 2014-08-30 增补两个相关组织: @九章算法 的专业培训可(程序员的新东方)http://t.cn/RhwAzyN 。 @灵魂机器 组织的程序员北美求职 (肉身翻墙)http://t.cn/RhwAzyp len(卡片盒子)=8 [ [微博](http://www.weibo.com/5220650532/BkJlm0cyz) ] @@ -136,13 +136,13 @@ 2014-08-30 SAS base 今年KDnudgget数据分析常用工具民意调查( http://t.cn/RhZ0HjY )排名第9,而排名靠前的都有免费版。现在SAS推这个免费版,很好奇它明年的排名 //@刘政-SAS: 回复@侯广_充电ing:大学免费版跟我要,有base, graph, miner, or, 计量经济学和时间序列。//@侯广_充电ing:全国数学建模马上就要开始 [ [微博](http://www.weibo.com/5220650532/BkFytfb9v) ] -2014-08-30 问: @小磊_DM_中二青年 在学搜索,请问有Nutch的相关资料吗? 答: nutch主要做网络爬虫,可以和solr结合做搜索引擎。问答进展: http://t.cn/RhZN72R (卡片盒子 http://t.cn/RhZN72E 6个资源): nutch 的中英文安装短教程(此外看Nutch wiki); nutch工作流程; 最近很火的CommonCrawl也转用nutch [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BkFg8v2lw) ] +2014-08-30 问: @小磊_DM_中二青年 在学搜索,请问有Nutch的相关资料吗? 答: nutch主要做网络爬虫,可以和solr结合做搜索引擎。问答进展: http://t.cn/RhZN72R (卡片盒子 http://t.cn/RhZN72E 6个资源): nutch 的中英文安装短教程(此外看Nutch wiki); nutch工作流程; 最近很火的CommonCrawl也转用nutch [ [微博](http://www.weibo.com/5220650532/BkFg8v2lw) ] 2014-08-30 回复@icanswimwell: 美国的数据前几天才发过 http://t.cn/RhZJNoM (卡片盒子现有19项 http://t.cn/RhZJNox ) 美国政府在data.gov开放了十多万个免费、免版权的公开数据集 //@icanswimwell:感谢分享~~要有美国的就更好啦[挖鼻屎][挖鼻屎] [ [微博](http://www.weibo.com/5220650532/BkEg1kOpm) ] -2014-08-30 回复@山雨清新: 原帖就是一个卡片盒子,链接可以在那里找到,现在已经16项了。同附链接 (200k book,1M rating)书籍 http://t.cn/RhZMPWc (10k movie, 10M rating)电影 http://t.cn/RhZMPWt //@山雨清新:请问新增补的两个评论数据集的链接? 找了下,没找到 //@好东西传送门:回复@好东西传送 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BkDZfdlu2) ] +2014-08-30 回复@山雨清新: 原帖就是一个卡片盒子,链接可以在那里找到,现在已经16项了。同附链接 (200k book,1M rating)书籍 http://t.cn/RhZMPWc (10k movie, 10M rating)电影 http://t.cn/RhZMPWt //@山雨清新:请问新增补的两个评论数据集的链接? 找了下,没找到 //@好东西传送门:回复@好东西传送 [ [微博](http://www.weibo.com/5220650532/BkDZfdlu2) ] -2014-08-30 回复@好东西传送门: 又增补了两个评论数据集: (10k movie, 10M rating)电影; (200k book,1M rating)书籍 //@好东西传送门:回复@海中的沙粒: 感谢提醒,这一次主要是针对该问题的资源整理,目前列表里原来有12项,现在有增补了CMU的ClueWeb2009网页数据集(10亿页),NIST TREC的测试数据 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BkDzbsk24) ] +2014-08-30 回复@好东西传送门: 又增补了两个评论数据集: (10k movie, 10M rating)电影; (200k book,1M rating)书籍 //@好东西传送门:回复@海中的沙粒: 感谢提醒,这一次主要是针对该问题的资源整理,目前列表里原来有12项,现在有增补了CMU的ClueWeb2009网页数据集(10亿页),NIST TREC的测试数据 [ [微博](http://www.weibo.com/5220650532/BkDzbsk24) ] 2014-08-30 [资料整理] @鱼片的小露宝 我正在学习hadoop,我想知道从哪里可以获取一些原始数据样本(就好像hadoop权威指南里面所说的NCDC的气象数据日志)来做数据分析的练习? 答: 一些大数据与目录: http://t.cn/RhZqcq9 气象遥感数据因有图片通常比较大;政府数据包罗万象;(社交)网络数据边多。 [ [微博](http://www.weibo.com/5220650532/BkD1Yu1WE) ] @@ -152,11 +152,11 @@ 2014-08-29 Google2014 KDD 的文章,讲他们自动知识图谱提取项目Knowledge Vault的最新进展,比较了人肉众包生成的知识图谱(dbpedia, freebase,...): http://t.cn/RhhjLVe Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion [ [微博](http://www.weibo.com/5220650532/Bkt39dyDU) ] -2014-08-28 问: @钱知易: 能不能帮我找找大规模图像检索方面的资料以及这个领域的牛人(国内国外)? 答: 初步结果:http://t.cn/RPe5HBt 中科大 杨晓冬有一个很全面的计算机视觉领域资料整理。兰晓松 在科学网上著有专家列表,2014年9月自动化所有一个“计算机视觉前沿研讨会” ,列举了许多国内著名专家 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BklQZALi7) ] +2014-08-28 问: @钱知易: 能不能帮我找找大规模图像检索方面的资料以及这个领域的牛人(国内国外)? 答: 初步结果:http://t.cn/RPe5HBt 中科大 杨晓冬有一个很全面的计算机视觉领域资料整理。兰晓松 在科学网上著有专家列表,2014年9月自动化所有一个“计算机视觉前沿研讨会” ,列举了许多国内著名专家 [ [微博](http://www.weibo.com/5220650532/BklQZALi7) ] -2014-08-28 问: @Don0719 有没有做正电子无损检测的大佬或者相关的书籍、文献啊? 答: 欢迎材料学问题。 问答进展看这里 http://t.cn/RPsI3yE 推荐R. Krause Rehberg 2010年的幻灯片。正电子湮没研究论文很多,还有专门国际会议。无损检测相关找到6篇。欢迎专家补充指正。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BklhZul43) ] +2014-08-28 问: @Don0719 有没有做正电子无损检测的大佬或者相关的书籍、文献啊? 答: 欢迎材料学问题。 问答进展看这里 http://t.cn/RPsI3yE 推荐R. Krause Rehberg 2010年的幻灯片。正电子湮没研究论文很多,还有专门国际会议。无损检测相关找到6篇。欢迎专家补充指正。 [ [微博](http://www.weibo.com/5220650532/BklhZul43) ] -2014-08-27 问:@月光馆果果妈 请问从语音和视频资源共同进行学习的算法谁比较有研究啊 答: 深度学习是当前趋势(斯坦福,微软,谷歌都这样)。专家 Andrew Ng, Geoffrey Hinton, Li Deng, Louis-Philippe Morency, Ruslan Salakhutdinov, 微博技术控:@言语挖挖 欢迎补充指正 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BkdhGpY4d) ] +2014-08-27 问:@月光馆果果妈 请问从语音和视频资源共同进行学习的算法谁比较有研究啊 答: 深度学习是当前趋势(斯坦福,微软,谷歌都这样)。专家 Andrew Ng, Geoffrey Hinton, Li Deng, Louis-Philippe Morency, Ruslan Salakhutdinov, 微博技术控:@言语挖挖 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BkdhGpY4d) ] 2014-08-27 传送一个关于学术笑话: 论文评审分两类,一种呢是评审截止日期早就过了,另一种是还没过期的。“There are two types of manuscript reviews. Those that are overdue, and those that are not overdue yet.” 如果看数据分布的话,估计最常见的是“明天就是评审截止日了,咋一篇都没审呢?” [ [微博](http://www.weibo.com/5220650532/BkctZ33Iu) ] @@ -164,37 +164,37 @@ 2014-08-27 非常感谢 @posa88 推荐 lingpipe的影评数据(基于IMDB)由康奈尔的 Lillian Lee 和 Bo Pang 提供 //@posa88:大连理工这个库用过,还行:http://t.cn/RPesat2 ,http://t.cn/bln2a [ [微博](http://www.weibo.com/5220650532/BkcgExrKL) ] -2014-08-27 问: @蒋宁平 求推荐中文情感计算资源,包括中文情感词库,尤其是细分情感种类的(比如喜爱,愤怒,悲伤…等)。 答:问答进展:http://t.cn/RPeutqb 初步答案:斯坦福有公开课和基于深度学习的成果。知乎有资源列表。刘兵教授有综述。数据看 NTUSD, 知网。微博问 @TT小和子 @黠之大者 欢迎指正补充 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BkbzO54pR) ] +2014-08-27 问: @蒋宁平 求推荐中文情感计算资源,包括中文情感词库,尤其是细分情感种类的(比如喜爱,愤怒,悲伤…等)。 答:问答进展:http://t.cn/RPeutqb 初步答案:斯坦福有公开课和基于深度学习的成果。知乎有资源列表。刘兵教授有综述。数据看 NTUSD, 知网。微博问 @TT小和子 @黠之大者 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BkbzO54pR) ] -2014-08-27 回复@DataMooc: 有相关问答,整理中,参见 http://t.cn/RPmIw2I //@DataMooc:有没有Python版的中文分词开源工具? //@好东西传送门:搭车再次推荐ansj, 孙健写的很有用的中文分词工具。http://weibo.com/5220650532/Bh9WGeljD //@ansj: 应该不是[衰] //@好东西传送门:@夏二货爱吃 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bkb1stYmh) ] +2014-08-27 回复@DataMooc: 有相关问答,整理中,参见 http://t.cn/RPmIw2I //@DataMooc:有没有Python版的中文分词开源工具? //@好东西传送门:搭车再次推荐ansj, 孙健写的很有用的中文分词工具。http://weibo.com/5220650532/Bh9WGeljD //@ansj: 应该不是[衰] //@好东西传送门:@夏二货爱吃 [ [微博](http://www.weibo.com/5220650532/Bkb1stYmh) ] 2014-08-27 搭车再次推荐ansj, 孙健写的很有用的中文分词工具。http://weibo.com/5220650532/Bh9WGeljD //@ansj: 应该不是[衰] //@好东西传送门:@夏二货爱吃胡萝卜: 万恶的微软官网居然用自动翻译!是孙剑 //@夏二货爱吃胡萝卜:@图像视觉研究:的确是说错了。是孙剑。 //@严浩RB:这个孙健是写ansj的那个吗? [ [微博](http://www.weibo.com/5220650532/Bk8kLotLu) ] -2014-08-26 问:@pkuxkxjason 求推荐靠谱的自动摘要软件/服务。特别是针对科技类内容的。答: 问题进展 http://t.cn/RPg0Dkn 两个quora回答但实用工具可靠性低。还要请 @算文解字 指点迷津,他说过 “单文档summerization不是被snippet判死刑了么?” 找到相关文章 http://t.cn/RPg0DkH [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bk4hHahVS) ] +2014-08-26 问:@pkuxkxjason 求推荐靠谱的自动摘要软件/服务。特别是针对科技类内容的。答: 问题进展 http://t.cn/RPg0Dkn 两个quora回答但实用工具可靠性低。还要请 @算文解字 指点迷津,他说过 “单文档summerization不是被snippet判死刑了么?” 找到相关文章 http://t.cn/RPg0DkH [ [微博](http://www.weibo.com/5220650532/Bk4hHahVS) ] -2014-08-26 问答进展:http://t.cn/RPgpH65 有不少IEEE Fellow, 华人还有 UIUC马毅(现在上海) 微软亚洲研究院:孙健 。到CVPR, ICCV上多看看能找到不少当打的大小牛 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bk4aUlKJi) ] +2014-08-26 问答进展:http://t.cn/RPgpH65 有不少IEEE Fellow, 华人还有 UIUC马毅(现在上海) 微软亚洲研究院:孙健 。到CVPR, ICCV上多看看能找到不少当打的大小牛 [ [微博](http://www.weibo.com/5220650532/Bk4aUlKJi) ] -2014-08-26 问: @杨洋MQ Social Network 中 Spammer Detection 方面 都有哪些 中文、英文的数据集?答: 初步回答:http://t.cn/RPgtKAl 公开的大多是email,中文较老有2006 TREC , 2005 CCERT;英文有Twitter数据集和Spammer列表。近年未公开:Berkeley, ASU有Twitter研究; 国内要联系上交大。求更多链接 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bk2BaFaY2) ] +2014-08-26 问: @杨洋MQ Social Network 中 Spammer Detection 方面 都有哪些 中文、英文的数据集?答: 初步回答:http://t.cn/RPgtKAl 公开的大多是email,中文较老有2006 TREC , 2005 CCERT;英文有Twitter数据集和Spammer列表。近年未公开:Berkeley, ASU有Twitter研究; 国内要联系上交大。求更多链接 [ [微博](http://www.weibo.com/5220650532/Bk2BaFaY2) ] 2014-08-25 //@昊奋: 这个之前通过@好东西传送门 介绍知识图谱时,介绍过这个probabilistic kb。其实离真正大规模可用还有很长路要走。所谓的可信大部分可在freebase中找到,也就是说freebase的质量和规模决定了很多 [ [微博](http://www.weibo.com/5220650532/BjVr9tH7z) ] 2014-08-25 //@velvel2: 1)首位华人AAAI fellow杨强博士研究转移学习很多年了。多任务学习是其中一种 http://t.cn/aepeZn 2)Bengio的深度学习新书有一章也是关于转移学习和多任务学习的 http://t.cn/RPdxFds [ [微博](http://www.weibo.com/5220650532/BjVr0j8uQ) ] -2014-08-24 回复@phunter_lau: 感谢有爱心的专家 传送理由: 面试官的面经 //@phunter_lau:回复@好东西传送门:复制粘贴一下“我都是国外面经,都是谈谈你之前做过啥,你就做过啥讲了就行了。我们一般不测试面试人什么问题,默认他简历上说的都是真实的,然后拿几个实际问题看看他的看法和解决方向如何就基本上知道 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BjLGK2IJe) ] +2014-08-24 回复@phunter_lau: 感谢有爱心的专家 传送理由: 面试官的面经 //@phunter_lau:回复@好东西传送门:复制粘贴一下“我都是国外面经,都是谈谈你之前做过啥,你就做过啥讲了就行了。我们一般不测试面试人什么问题,默认他简历上说的都是真实的,然后拿几个实际问题看看他的看法和解决方向如何就基本上知道 [ [微博](http://www.weibo.com/5220650532/BjLGK2IJe) ] -2014-08-24 问: @尘绳聋-SYSU 大大ML面经来一发?急需 答:假设需要的是软件工程师求职,寻找机器学习(machine learning)面经。建议多看题,把自己的知识强化。很多问答系统都有常见面试问题列表, 初步有 reddit, stackoverflow, quora, 知乎 等。问答进展: http://t.cn/RPB1Sxf 欢迎补充指正,尤其是具体面经 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BjLqu8Kw0) ] +2014-08-24 问: @尘绳聋-SYSU 大大ML面经来一发?急需 答:假设需要的是软件工程师求职,寻找机器学习(machine learning)面经。建议多看题,把自己的知识强化。很多问答系统都有常见面试问题列表, 初步有 reddit, stackoverflow, quora, 知乎 等。问答进展: http://t.cn/RPB1Sxf 欢迎补充指正,尤其是具体面经 [ [微博](http://www.weibo.com/5220650532/BjLqu8Kw0) ] 2014-08-24 回复@AixinSG: 多谢补充,NUS 在这方面做的很不错,链接传送 http://t.cn/RPB3zgO 还有一篇相关的是 Addressing cold-start in app recommendation: latent user models constructed from twitter followers //@AixinSG:SIGIR14 有一篇 New and Improved: Modeling Versions to Improve App Recom [ [微博](http://www.weibo.com/5220650532/BjLil85H7) ] -2014-08-24 问: @应豪超 :有关于手机app推荐的文章吗 答: 就是找论文,关键词 Recommender Systems that Suggest Mobile Applications 。 初步结果 找到一个2011年移动推荐讨论班的幻灯片(领域综述),一篇IUI2013 (列举feature), 一篇SIGIR 2013, 还有若干相关, 问答进展: http://t.cn/RPBuvdZ 欢迎指正补充 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BjLc4frgA) ] +2014-08-24 问: @应豪超 :有关于手机app推荐的文章吗 答: 就是找论文,关键词 Recommender Systems that Suggest Mobile Applications 。 初步结果 找到一个2011年移动推荐讨论班的幻灯片(领域综述),一篇IUI2013 (列举feature), 一篇SIGIR 2013, 还有若干相关, 问答进展: http://t.cn/RPBuvdZ 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BjLc4frgA) ] 2014-08-24 传送理由:清晰的解题思路。补充一下,Haijie Gu 是GraphLab的联合创始人,现在CMU读博士。GraphLab 2013年融资6百多万美元。 (原文格式更好看一些,http://t.cn/RPBR5pm) [ [微博](http://www.weibo.com/5220650532/BjKQej5rE) ] -2014-08-24 转发理由: 你懂的 //@何_登成: //@传媒老跟班:@设定控 做过一个谷歌专题 http://t.cn/RvnDzSG ,提供了多种访问谷歌的方式,大家可以看看。尤其推荐其中提到的#美国在线# http://t.cn/hVO8E ,该站搜索结果就是谷歌的结果,速度很快。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BjKjCjeBa) ] +2014-08-24 转发理由: 你懂的 //@何_登成: //@传媒老跟班:@设定控 做过一个谷歌专题 http://t.cn/RvnDzSG ,提供了多种访问谷歌的方式,大家可以看看。尤其推荐其中提到的#美国在线# http://t.cn/hVO8E ,该站搜索结果就是谷歌的结果,速度很快。 [ [微博](http://www.weibo.com/5220650532/BjKjCjeBa) ] 2014-08-24 回复@MD_1stUP锐之翼: 全是野生的,所有物种活动活动观察记录网上都有,这是一条荷兰阿姆斯特丹的观察记录: http://t.cn/RPB5AWt 超市里只卖养殖的,野生的恐怕只能依律就地销毁 //@MD_1stUP锐之翼:是入侵华人超市吧[哼] [ [微博](http://www.weibo.com/5220650532/BjHn5uCyE) ] -2014-08-24 问: @十月伤感wb 可否推荐些基于社交网络的推荐算法的资料,以及数据集,特别是数据集的下载地址谢谢了做推荐的很多都需要 答: [初步传送] 关于数据集: 斯坦福大规模网络数据集大全 (SNAP) http://t.cn/RPBqrcJ 关于推荐系统:看这里 http://t.cn/RPBqrci 问答进展: http://t.cn/RPBqrc6 求指点 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BjHkmuGpo) ] +2014-08-24 问: @十月伤感wb 可否推荐些基于社交网络的推荐算法的资料,以及数据集,特别是数据集的下载地址谢谢了做推荐的很多都需要 答: [初步传送] 关于数据集: 斯坦福大规模网络数据集大全 (SNAP) http://t.cn/RPBqrcJ 关于推荐系统:看这里 http://t.cn/RPBqrci 问答进展: http://t.cn/RPBqrc6 求指点 [ [微博](http://www.weibo.com/5220650532/BjHkmuGpo) ] 2014-08-24 @斯库里 传送理由:为广泛传播的社交媒体消息提供严谨的科学依据 http://weibo.com/1820578701/Be7W6AouY [ [微博](http://www.weibo.com/5220650532/BjHe7o3sj) ] @@ -204,33 +204,33 @@ 2014-08-23 说起松鼠,就想起著名的 @科学松鼠会 这里的松鼠其实只是一个引子,在论文后面的507,825,517 (5亿) 条免费开放的带GPS坐标的全球物种观察记录才是关键,用到数据的800篇论文证明了数据的重要价值,值得传播 //@Coder_Chenzhi: 还是红松鼠好看,一直对云大的灰松鼠无感,总感觉灰松鼠的尾巴像锅刷。。 [ [微博](http://www.weibo.com/5220650532/BjBpWuJFO) ] -2014-08-23 问:@七哥爱吃山楂片 能帮忙收集一下,国内外机器学习领域大牛的主页吗? 答:这是一个不完整的名单,仅限于美国 http://t.cn/RP1Pp3s (资料卡片:http://t.cn/RP1Pp1v )有不少资深院士级大拿,也有冉冉升起的助理教授。一家之言,欢迎补充指正。 图推中国教授 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bjzxm9LTz) ] +2014-08-23 问:@七哥爱吃山楂片 能帮忙收集一下,国内外机器学习领域大牛的主页吗? 答:这是一个不完整的名单,仅限于美国 http://t.cn/RP1Pp3s (资料卡片:http://t.cn/RP1Pp1v )有不少资深院士级大拿,也有冉冉升起的助理教授。一家之言,欢迎补充指正。 图推中国教授 [ [微博](http://www.weibo.com/5220650532/Bjzxm9LTz) ] 2014-08-23 可爱的灰松鼠竟然是入侵者, 占领了土著红松鼠的家园!如何估测外来物种与土著物种的分布范围呢?全球生物多样性信息库(GBIF)已为1百多万物种建立了5亿条活动记录, 此开放数据被800余专业论文使用。某论文用大量松鼠活动记录, 分析出气候因素与分布范围的相关性。GBIF资料: http://t.cn/RP3FuVI [ [微博](http://www.weibo.com/5220650532/BjzcTAdjn) ] -2014-08-22 问: @蓝莲斯基:有没有关于uplift建模的资料? 最好先是具体案例,然后是论文讲解,希望能看到近来综述总结的论文 答:增量建模(uplift)可用来寻找“可说服”的人群,属于市场推广。找到 一些关于美国的银行的用例,还有保险业中的应用论文。初步问答进展 http://t.cn/RP3A4IC ,欢迎补充指正 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bjtl15SUk) ] +2014-08-22 问: @蓝莲斯基:有没有关于uplift建模的资料? 最好先是具体案例,然后是论文讲解,希望能看到近来综述总结的论文 答:增量建模(uplift)可用来寻找“可说服”的人群,属于市场推广。找到 一些关于美国的银行的用例,还有保险业中的应用论文。初步问答进展 http://t.cn/RP3A4IC ,欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/Bjtl15SUk) ] -2014-08-22 问: @AOzil 计算广告学的基本问题,如何以最小的代价,去评估一个媒体或是交易所的流量是否有价值?现在做法是各种投放,发现成本较高。 答: riverliu81 "以最小的代价去评估一个广告渠道为投放者带来的价值", copy成熟竞争对手; 小成本投放, 比较转化率; 电子邮件为王。问答进展 http://t.cn/RP3wGuN [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BjtgulxuW) ] +2014-08-22 问: @AOzil 计算广告学的基本问题,如何以最小的代价,去评估一个媒体或是交易所的流量是否有价值?现在做法是各种投放,发现成本较高。 答: riverliu81 "以最小的代价去评估一个广告渠道为投放者带来的价值", copy成熟竞争对手; 小成本投放, 比较转化率; 电子邮件为王。问答进展 http://t.cn/RP3wGuN [ [微博](http://www.weibo.com/5220650532/BjtgulxuW) ] 2014-08-22 [资料整理] 分段线性模型资料与软件 -- 入门篇 http://t.cn/RP3zJLu (cardbox http://t.cn/RP3zJL1 两个基本教程,一个进阶教程;各种编程语言的例子Mathematica, SAS, Matlab, R, python, RapidMinder 关键词: Piecewise linear regression 贡献者: @视觉动物晴木明川 @heavenfireray @禅系一之花 [ [微博](http://www.weibo.com/5220650532/Bjt7Oy7lt) ] 2014-08-22 基于维基百科的统计:用一张地图把各国家/地区同与其相关的英文单词关联起来 http://t.cn/RPuKQqo 中国是dynasty和china。有好几个国家都是“World”: 英国,法国、德国还有日本。 越南倒是和French连上了,很有喜感。 [ [微博](http://www.weibo.com/5220650532/BjqGFkQTm) ] -2014-08-21 [求传送] @isnowfy 问一下有没有免费的能用的中文的分词,标注,树库的数据呢,好多数据一个是不能免费获取,做为爱好者不知道哪里能得到数据自己来搞搞呢。初步线索:分词参@ansj 的推荐 http://t.cn/RPmMfFk 和@刘邵博 的词库 http://t.cn/RPmMfFD 免费中文树库求推荐 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BjjvY9yPu) ] +2014-08-21 [求传送] @isnowfy 问一下有没有免费的能用的中文的分词,标注,树库的数据呢,好多数据一个是不能免费获取,做为爱好者不知道哪里能得到数据自己来搞搞呢。初步线索:分词参@ansj 的推荐 http://t.cn/RPmMfFk 和@刘邵博 的词库 http://t.cn/RPmMfFD 免费中文树库求推荐 [ [微博](http://www.weibo.com/5220650532/BjjvY9yPu) ] 2014-08-21 小知识:电影海报里最常用的颜色是橙色和蓝色 。MoviePosterDB里有最全的电影海报数据库 http://t.cn/hqtlge 想想拿它能做什么有趣的应用吧? [ [微博](http://www.weibo.com/5220650532/BjiJE9Nku) ] -2014-08-21 问:@chico2011 @leo_lq 求推荐金融交易风险评估方面的paper 答: 找到 Financial Engineering and Risk Management Part I (Columbia University on Coursera),但风险评估相关的只简单的介绍了一下VaR。还找到bitcoin和real estate相关论文 问答进展: http://t.cn/RPn8foN 求进一步传送 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BjgMzsOJi) ] +2014-08-21 问:@chico2011 @leo_lq 求推荐金融交易风险评估方面的paper 答: 找到 Financial Engineering and Risk Management Part I (Columbia University on Coursera),但风险评估相关的只简单的介绍了一下VaR。还找到bitcoin和real estate相关论文 问答进展: http://t.cn/RPn8foN 求进一步传送 [ [微博](http://www.weibo.com/5220650532/BjgMzsOJi) ] 2014-08-21 [资源整理] MultiTask Learning资源合集 http://t.cn/RPnTjps 2014KDD最佳博士论文提名, WSDM2014最佳论文, 及与深度学习的结合。传送来自微博的优秀中文评论 @唐小sin @王威廉 @黄厝海滨 @李航博士 @李沐M@Copper_PKU @复旦李斌 @eeyangc @李晗littlefool @李亚超NLP @lby9 http://t.cn/RPnTj0v [ [微博](http://www.weibo.com/5220650532/Bjgysd9gF) ] 2014-08-21 [资源整理]MultiTask Learning 资源合集。传送:#SIGKDD#2014最佳博士论文提名,#WSDM2014# 最佳论文,#ICML#2008 经典论文,以及如何与深度学习的结合。并传送大量优秀中文评论 @唐小sin @王威廉 @黄厝海滨 @李航博士 @李沐M@Copper_PKU @复旦李斌 @eeyangc @李晗littlefool @李亚超NLP @lby9 [ [微博](http://www.weibo.com/5220650532/BjgwRvPbW) ] -2014-08-21 问:@理想主义de患者 有没有音视频流媒体方面的资料啊? 例如g729, g726 答:找到博达(broadcom)的对比贴(Codec Comparision) 问答进展: http://t.cn/RPnYhXO ....... 传送第一站完成,求大家帮忙继续传送,门也会继续帮助把问题澄清。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bjgoro55J) ] +2014-08-21 问:@理想主义de患者 有没有音视频流媒体方面的资料啊? 例如g729, g726 答:找到博达(broadcom)的对比贴(Codec Comparision) 问答进展: http://t.cn/RPnYhXO ....... 传送第一站完成,求大家帮忙继续传送,门也会继续帮助把问题澄清。 [ [微博](http://www.weibo.com/5220650532/Bjgoro55J) ] -2014-08-21 问: (微信用户) 谁能推荐一个免费的网上会议系统(国内也能连的)? webex什么都要收费 答: 朋友推荐: uberconference, freeconferencecall,Moxtra。hackernews 推荐五个。看看开源 BigBlueButton http://t.cn/RPnWKl6。此外 bluejeans视频会议很牛但很贵。问答记录:http://t.cn/RPnWKlX 欢迎补充指正 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bjg6j2sTY) ] +2014-08-21 问: (微信用户) 谁能推荐一个免费的网上会议系统(国内也能连的)? webex什么都要收费 答: 朋友推荐: uberconference, freeconferencecall,Moxtra。hackernews 推荐五个。看看开源 BigBlueButton http://t.cn/RPnWKl6。此外 bluejeans视频会议很牛但很贵。问答记录:http://t.cn/RPnWKlX 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/Bjg6j2sTY) ] -2014-08-20 问: @sxhfut 能否推荐一下英文论文的学术不端检测系统或网站,免费的或者收费的靠谱的 答: 关键词Plagiarism, 初步答案与进展: http://t.cn/RPn5uwR Turnitin收费,有很多学校用户; Viper 有免费windows单机版; Plagium 免费在线不限长度, 上了两个排行榜,可以同时用几个交叉检测。欢迎补充指正。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bjdaxhu6s) ] +2014-08-20 问: @sxhfut 能否推荐一下英文论文的学术不端检测系统或网站,免费的或者收费的靠谱的 答: 关键词Plagiarism, 初步答案与进展: http://t.cn/RPn5uwR Turnitin收费,有很多学校用户; Viper 有免费windows单机版; Plagium 免费在线不限长度, 上了两个排行榜,可以同时用几个交叉检测。欢迎补充指正。 [ [微博](http://www.weibo.com/5220650532/Bjdaxhu6s) ] 2014-08-20 http://t.cn/RPEIus6 "Brewing Deep Networks With Caffe" 补一个他前段时间在CVPR关于Caffe的讲座 //@我爱机器学习: Caffe作者,学习 [ [微博](http://www.weibo.com/5220650532/Bj90I5mWA) ] @@ -238,13 +238,13 @@ 2014-08-20 谢谢补充 The repository has been designed in 2009 by Reza Zafarani and Huan Liu. Huan Liu 是ASU的资深教授,各种院士 AAAI, ACM (Distinguished Scientist), AAAS, ASEE, IEEE (Fellow), SIAM; http://t.cn/zHsb5qk 回复 @唐小sin:http://t.cn/zjBLh8P ASU的一些数据,貌似还有豆瓣的 //@好东西 [ [微博](http://www.weibo.com/5220650532/Bj819a13Z) ] -2014-08-20 这是一个学术讨论贴,@郑梓豪爱文艺 在这里 http://t.cn/RPRegxF 更详细地描述了他遇到的研究问题,和初步想法,很希望能得到指点,并且与同学们讨论研究。先代他谢过了。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bj7IFeAHf) ] +2014-08-20 这是一个学术讨论贴,@郑梓豪爱文艺 在这里 http://t.cn/RPRegxF 更详细地描述了他遇到的研究问题,和初步想法,很希望能得到指点,并且与同学们讨论研究。先代他谢过了。 [ [微博](http://www.weibo.com/5220650532/Bj7IFeAHf) ] 2014-08-20 回复@CodeColorist: 非常感谢,这个数据集非常好 http://t.cn/RPEhoMR “Collection and sharing of data for scientific analysis of Internet traffic, topology, routing, performance, and security-related events” 适合科研 //@CodeColorist:这个项目里自治系统(ASN)的数据是20 [ [微博](http://www.weibo.com/5220650532/Bj7HbCJiI) ] -2014-08-20 问: @andeguangshaqianwanjian 传送门啊,有python做神经网络(时间序列预测方面)的资料没 答: 准备一些入门知识 http://t.cn/RPRFdBG 基于神经网络的方案:试试Pandas; Github上有 theano-rnn 开源演示; 常规python时间序列分析 可以用scikit timeseries; 此外还有一些背景知识供你参考。 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bj7qMhxSx) ] +2014-08-20 问: @andeguangshaqianwanjian 传送门啊,有python做神经网络(时间序列预测方面)的资料没 答: 准备一些入门知识 http://t.cn/RPRFdBG 基于神经网络的方案:试试Pandas; Github上有 theano-rnn 开源演示; 常规python时间序列分析 可以用scikit timeseries; 此外还有一些背景知识供你参考。 [ [微博](http://www.weibo.com/5220650532/Bj7qMhxSx) ] -2014-08-20 [求指点] @郑梓豪爱文艺 网络媒体上发现热门话题的方法,如何在一个小「话题」,比如「机器学习」中发现新动态。 我想改进现有的热度函数heat算法,例如采用新参数(讨论者属性的混乱程度), 或分析用户行为在时间轴上的异常分布。 问题进展: http://t.cn/RPRegxF 找到的一些相关文献, 但都比较旧 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bj7aZ0hZj) ] +2014-08-20 [求指点] @郑梓豪爱文艺 网络媒体上发现热门话题的方法,如何在一个小「话题」,比如「机器学习」中发现新动态。 我想改进现有的热度函数heat算法,例如采用新参数(讨论者属性的混乱程度), 或分析用户行为在时间轴上的异常分布。 问题进展: http://t.cn/RPRegxF 找到的一些相关文献, 但都比较旧 [ [微博](http://www.weibo.com/5220650532/Bj7aZ0hZj) ] 2014-08-20 斯坦福大规模网络数据集大全(Stanford Large Network Dataset Collection, SNAP) http://t.cn/RPRgvZQ 由斯坦福教授Jure Leskovec整理。免费,清理过,可下载。十多种不同类型的网络数据集(社交;在线社区;电子邮件;引用;Web, ...)。 Friendster数据集有6千5百万节点,18亿条边。 [ [微博](http://www.weibo.com/5220650532/Bj6Zvszak) ] @@ -252,9 +252,9 @@ 2014-08-20 [推荐] Google研究员贾扬清 @fs_Yangqing 分享GoogLeNet在2014大规模视觉识别挑战赛的经验(Large Scale Visual Recognition Challenge 2014)。"个人觉得,更有意思的是 how to get the number 而不是 what the number is。我从classification和detection两个track分别聊一下" http://t.cn/RPR1pLX [ [微博](http://www.weibo.com/5220650532/Bj6zoraCR) ] -2014-08-20 [续求助] 问: @杜威Dewey 比较 nextenta、nutanix? 答: 讨论与进展 http://t.cn/RPRunNs 有一篇不错的谷歌话题热度分析: http://t.cn/RPR3wtD 1.nutanix 与nextenta分类不同, 前者是 Boxed Storage, 后者是 Software-only Storage; 2.nutanix在增长,也有很多对手, nextenta 在下降, 仍占绝对优势 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bj6ntaatp) ] +2014-08-20 [续求助] 问: @杜威Dewey 比较 nextenta、nutanix? 答: 讨论与进展 http://t.cn/RPRunNs 有一篇不错的谷歌话题热度分析: http://t.cn/RPR3wtD 1.nutanix 与nextenta分类不同, 前者是 Boxed Storage, 后者是 Software-only Storage; 2.nutanix在增长,也有很多对手, nextenta 在下降, 仍占绝对优势 [ [微博](http://www.weibo.com/5220650532/Bj6ntaatp) ] -2014-08-20 [求助] 问: @杜威Dewey 互联网应用的分布式数据库存储使用网络存储有什么好方案吗?相对于昂贵的FC-SAN,性能一般的NAS,IP-SAN是不是比较好的选择。Nexenta、OpenFiler这些开源软件能上生产环境吗?有人说nextenta不合适用于互联网架构,说nutanix不错, 怎么看? 讨论与进展: http://t.cn/RPRunNs [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bj6kAEAn4) ] +2014-08-20 [求助] 问: @杜威Dewey 互联网应用的分布式数据库存储使用网络存储有什么好方案吗?相对于昂贵的FC-SAN,性能一般的NAS,IP-SAN是不是比较好的选择。Nexenta、OpenFiler这些开源软件能上生产环境吗?有人说nextenta不合适用于互联网架构,说nutanix不错, 怎么看? 讨论与进展: http://t.cn/RPRunNs [ [微博](http://www.weibo.com/5220650532/Bj6kAEAn4) ] 2014-08-20 [知识]"星系动物园"(GalaxyZoo, http://t.cn/RPRnHTO )是邀请公众协助在网络上为上百万个星系在线上进行分类的天文学计划。2007年上线, 第一版两年分类了90万星系,免费数据下载 http://t.cn/RPRnHTl ; 2014 Kaggle Galaxy Zoo challenge头名用深度学习自动分类(RMSE 0.07467) http://t.cn/RPRnHTW [ [微博](http://www.weibo.com/5220650532/Bj60Vsc3k) ] @@ -266,47 +266,47 @@ 2014-08-19 生物百科全书 Encyclopedia of Life(EOL) 是一个免费在线全球物种档案馆。它自2008年上线就涵盖了3万物种,到2011年九月已经达到70万物种, 目标是在10年内为1百90万余已知的物种建立档案。http://t.cn/RP8mYWn @陆浑戎 推荐的《中国植物志》在线版、台湾生命大百科 都可以算是全球EOL联盟的一部分 [ [微博](http://www.weibo.com/5220650532/Bj16laqQn) ] -2014-08-19 问: @jimmy_000 卷积神经网络CNN的“卷积”是一个什么样的过程? 它是怎样将图像的编码从像素level 上升到NxN区块的 答: 初步答案 http://t.cn/RP8QjNH 看看Andrew Ng 写的短教程Convolutional Neural Network, 中文有bzjia的Deep Learning学习随记。@赵家平USC 讲了不少深度学习在图像处理的前沿成果 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bj0JM11rm) ] +2014-08-19 问: @jimmy_000 卷积神经网络CNN的“卷积”是一个什么样的过程? 它是怎样将图像的编码从像素level 上升到NxN区块的 答: 初步答案 http://t.cn/RP8QjNH 看看Andrew Ng 写的短教程Convolutional Neural Network, 中文有bzjia的Deep Learning学习随记。@赵家平USC 讲了不少深度学习在图像处理的前沿成果 [ [微博](http://www.weibo.com/5220650532/Bj0JM11rm) ] 2014-08-19 [资料整理] 深度学习在语音识别的应用,入门篇: http://t.cn/RP8ll1s 向 @李开复 在CMU做的Sphinx(1988)致敬。介绍几个牛人和顶级团队: 微软 (邓力 Li Deng )和谷歌 (Vincent Vanhoucke, Geoffrey E. Hinton)。 [ [微博](http://www.weibo.com/5220650532/Bj0jOqW9v) ] 2014-08-19 [资源整理] 不平衡数据分类(Imbalanced data classification): http://t.cn/RP8NM2s 经典文献 MetaCost (Domingo, 1999), SMOTE(2002 Chawla), 以及2004 CMU Yanjun Qi 的综述(现UVA教授);工具与数据集(WEKA,NLTK), GITHUB SMOTE的实现。感谢 @AixinSG @刘知远THU @xierqi @eacl_newsmth [ [微博](http://www.weibo.com/5220650532/BiZQEloKK) ] -2014-08-19 问: @唐小sin 有没有multi-task learning的相关学习资料呢? 答: 维基百科上有不少经典文献。AAAI和ICML都有论文(北大/清华)。找到今年Honglak Lee (U Michigan 教授)的短教程。Lan Žagar 博士论文(2014) Ranking by Multitask Learning. 问答追踪: http://t.cn/RP8a3Ax 求补充 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BiZl47k80) ] +2014-08-19 问: @唐小sin 有没有multi-task learning的相关学习资料呢? 答: 维基百科上有不少经典文献。AAAI和ICML都有论文(北大/清华)。找到今年Honglak Lee (U Michigan 教授)的短教程。Lan Žagar 博士论文(2014) Ranking by Multitask Learning. 问答追踪: http://t.cn/RP8a3Ax 求补充 [ [微博](http://www.weibo.com/5220650532/BiZl47k80) ] 2014-08-19 [资源整理 ] 中文词汇语义相似度计算方法与工具 http://t.cn/RP8IYvH 包括:python gensim,word2vector, GloVe, Explicit Semantic Analysis 资料卡片: http://t.cn/RP8IYvT 感谢 @杜振东_java @刘知远THU @昊奋 @算文解字 @Mr_UnderWaterrrrrr @朱鉴 @西瓜大丸子汤 @董力at北航 @尘绳聋-SYSU [ [微博](http://www.weibo.com/5220650532/BiYH4E1Gw) ] -2014-08-18 搭车推荐 @赵家平USC 的微博 "Sebastian Seung 用CNN重建了老鼠视网膜里的plexiform layer;UCI的学者在nature上撰文说DL用于发现 希格斯玻色子"; Jeff Hinton组deep CNN(CovNets)在ImageNet; Fei-Fei组的 video classification with CNN 看问答进展:http://t.cn/RPQxZNF [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BiUmllrLL) ] +2014-08-18 搭车推荐 @赵家平USC 的微博 "Sebastian Seung 用CNN重建了老鼠视网膜里的plexiform layer;UCI的学者在nature上撰文说DL用于发现 希格斯玻色子"; Jeff Hinton组deep CNN(CovNets)在ImageNet; Fei-Fei组的 video classification with CNN 看问答进展:http://t.cn/RPQxZNF [ [微博](http://www.weibo.com/5220650532/BiUmllrLL) ] 2014-08-18 非常感谢,身边的图像拼接/全景图应用:谷歌街景, iphone拍照, 汽车摄像头//@图像视觉研究: Lowe的Automatic Panoramic Image Stitching using Invariant Features绝对经典,OpenCV的拼接就是基于这个框架。另外沈向洋的Construction of Panoramic Image Mosaics with Global and Local Alignment也经典 [ [微博](http://www.weibo.com/5220650532/BiU6AsAmL) ] -2014-08-18 问: @思考中的芦苇 有没有视频图像配准相关的资料呢?比如说卫星拍了一段地面上的遥感视频,如何从这段视频中提取出许多帧图像,然后进行图像配准,组成一幅地图呢? 答: 关键词Image Alignment and Stitching, remote sensing, 问答进展见http://t.cn/RPQ63GQ 求交流指点 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BiRyc2QGH) ] +2014-08-18 问: @思考中的芦苇 有没有视频图像配准相关的资料呢?比如说卫星拍了一段地面上的遥感视频,如何从这段视频中提取出许多帧图像,然后进行图像配准,组成一幅地图呢? 答: 关键词Image Alignment and Stitching, remote sensing, 问答进展见http://t.cn/RPQ63GQ 求交流指点 [ [微博](http://www.weibo.com/5220650532/BiRyc2QGH) ] -2014-08-18 阶段小结: 感谢热心专家 @唐小sin @善良的右行 推荐的好东西, 现在问答追踪 ( http://t.cn/RPQXlim )里已经有十几条相关文献了. 整理了一个总结, http://t.cn/RPQXliQ 看看行不行,欢迎参与编辑 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BiRkGCx0v) ] +2014-08-18 阶段小结: 感谢热心专家 @唐小sin @善良的右行 推荐的好东西, 现在问答追踪 ( http://t.cn/RPQXlim )里已经有十几条相关文献了. 整理了一个总结, http://t.cn/RPQXliQ 看看行不行,欢迎参与编辑 [ [微博](http://www.weibo.com/5220650532/BiRkGCx0v) ] 2014-08-18 回复@善良的右行: 这几个推荐文章都很好呀,第一篇引用率都快400了. 要不是了解领域,谁能想到这个关键词呢, influential spreaders . //@善良的右行:@好东西传送门 惭愧,我也是菜鸟,当然很乐意共享:Identification of influentialspreaders in complex networks;Leaders in Social Networks, the De [ [微博](http://www.weibo.com/5220650532/BiRevEmzM) ] 2014-08-18 回复@唐小sin: 这篇文章很不错哦, 还对比了TunkRank, Topic-sensitive PageRank (TSPR) //@唐小sin:任何influence的文章都可以哪来读读,而至于意见领袖不妨看看twitterrank [ [微博](http://www.weibo.com/5220650532/BiRagmjE9) ] -2014-08-18 发现重要节点一直是社交网络研究的重要问题, 研究热点大约在2007~2010社交媒体蓬勃发展的时候, 2014年已经有influential user identification的综述了.鉴于这类研究的算法并不困难,但数据量较大且较难获得,研究前沿已经逐渐从学术界转移到工业界/创业应用。http://t.cn/RPQfWRW [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BiR72BfHw) ] +2014-08-18 发现重要节点一直是社交网络研究的重要问题, 研究热点大约在2007~2010社交媒体蓬勃发展的时候, 2014年已经有influential user identification的综述了.鉴于这类研究的算法并不困难,但数据量较大且较难获得,研究前沿已经逐渐从学术界转移到工业界/创业应用。http://t.cn/RPQfWRW [ [微博](http://www.weibo.com/5220650532/BiR72BfHw) ] -2014-08-18 感谢指正, 能不能推荐几个好东西, 咱也找找 social network analysis 的文献 回复@善良的右行: 这几篇论文略旧……当然引用率是不用说的……貌似问题本质是重要节点挖掘 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BiQWI1oD2) ] +2014-08-18 感谢指正, 能不能推荐几个好东西, 咱也找找 social network analysis 的文献 回复@善良的右行: 这几篇论文略旧……当然引用率是不用说的……貌似问题本质是重要节点挖掘 [ [微博](http://www.weibo.com/5220650532/BiQWI1oD2) ] -2014-08-18 问: @马辰The_answer:主页君能否推荐一些用深度学习做推荐的文章资料 答: 问答进展 http://t.cn/RPQMg7Q 找到一篇今年8月新鲜出炉, Spotify的实习生博文: Recommending music on Spotify with deep learning .今年2月有人讲Netflix的电影推荐. 欢迎补充指正 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BiQUcxKod) ] +2014-08-18 问: @马辰The_answer:主页君能否推荐一些用深度学习做推荐的文章资料 答: 问答进展 http://t.cn/RPQMg7Q 找到一篇今年8月新鲜出炉, Spotify的实习生博文: Recommending music on Spotify with deep learning .今年2月有人讲Netflix的电影推荐. 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BiQUcxKod) ] -2014-08-18 问: @山东工商学院白建磊 有没有新媒体意见领袖领域方面的文献可以推荐? 答: 问答进展 http://t.cn/RPQfWRW . 初步推荐: 意见领袖 (opinion leader), user influence, twitter, 有几篇引用率很高的论文分析了Twitter用户影响力. 还有, 社交媒体信息传播综述. 欢迎补充指正. [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BiQH4deoc) ] +2014-08-18 问: @山东工商学院白建磊 有没有新媒体意见领袖领域方面的文献可以推荐? 答: 问答进展 http://t.cn/RPQfWRW . 初步推荐: 意见领袖 (opinion leader), user influence, twitter, 有几篇引用率很高的论文分析了Twitter用户影响力. 还有, 社交媒体信息传播综述. 欢迎补充指正. [ [微博](http://www.weibo.com/5220650532/BiQH4deoc) ] 2014-08-17 //@见习烟酒生:出轨检测。。居然还有这么实用的案例//@西瓜大丸子汤:里面有一篇“女人是如何发现另一半出轨的” [哈哈] [ [微博](http://www.weibo.com/5220650532/BiGM9wr1F) ] -2014-08-16 [求指点] @小白_小可乐:能帮忙找点"背景建模"的资料么?就是图像前景提取的方法. 关键词: 图像前景提取(Foreground Extraction), 视频分析, 背景建模(background object detection) 问答进展看这里: http://t.cn/RPTWX7w [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BiBA9tX99) ] +2014-08-16 [求指点] @小白_小可乐:能帮忙找点"背景建模"的资料么?就是图像前景提取的方法. 关键词: 图像前景提取(Foreground Extraction), 视频分析, 背景建模(background object detection) 问答进展看这里: http://t.cn/RPTWX7w [ [微博](http://www.weibo.com/5220650532/BiBA9tX99) ] 2014-08-16 大家一定要看韩家伟老师的异常检测讲义(是他数据挖掘教材第三版的第12章),就56页. 简明扼要! 直接给个讲义PPT 下载传送门 http://t.cn/RPTLh7M [ [微博](http://www.weibo.com/5220650532/BixYpiSEk) ] -2014-08-16 问:@ai_东沂 异常检测应用在文本挖掘 答: 异常检测(outlier/anomaly detection)和文本挖掘(text mining)都是大课题。几篇异常检测综述(如韩家伟的讲义) 与应用(如发现金融欺诈); 几个异常检测用在文本挖掘的综述(如在对话流中发现新话题),以及话题模型的文献(如翟成祥的讲义) http://t.cn/RPYnZD8 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BixPQANza) ] +2014-08-16 问:@ai_东沂 异常检测应用在文本挖掘 答: 异常检测(outlier/anomaly detection)和文本挖掘(text mining)都是大课题。几篇异常检测综述(如韩家伟的讲义) 与应用(如发现金融欺诈); 几个异常检测用在文本挖掘的综述(如在对话流中发现新话题),以及话题模型的文献(如翟成祥的讲义) http://t.cn/RPYnZD8 [ [微博](http://www.weibo.com/5220650532/BixPQANza) ] -2014-08-16 @维尔茨 问:有木有关于循环神经网络在segmented sequence labeling方面的papers? 答:多伦多大学Alex Graves有专著. 基于recurrent neural networks(RNN)研究, @ICT_朱亚东 推荐Herbert Jaeger的短教程. Jürgen Schmidhuber教授收集了60多相关论文, 微软研究院用RNN做自然语言处理 http://t.cn/RPYQVsY [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BiuoeCGpy) ] +2014-08-16 @维尔茨 问:有木有关于循环神经网络在segmented sequence labeling方面的papers? 答:多伦多大学Alex Graves有专著. 基于recurrent neural networks(RNN)研究, @ICT_朱亚东 推荐Herbert Jaeger的短教程. Jürgen Schmidhuber教授收集了60多相关论文, 微软研究院用RNN做自然语言处理 http://t.cn/RPYQVsY [ [微博](http://www.weibo.com/5220650532/BiuoeCGpy) ] -2014-08-15 [实事求是学大数据] @猴山寨主找夫人 问:是否能提供一个入门级的大数据指导方案.答:盲目上大数据技术很容易浪费学习时间和运营成本。这里我们列了一个极简版,面向的是普通基础、需要从一般数据处理任务逐步扩展到大数据的用户,见长微博。完整导读见本文文字版 http://t.cn/RPjCbl7 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BimdAmKqK) ] +2014-08-15 [实事求是学大数据] @猴山寨主找夫人 问:是否能提供一个入门级的大数据指导方案.答:盲目上大数据技术很容易浪费学习时间和运营成本。这里我们列了一个极简版,面向的是普通基础、需要从一般数据处理任务逐步扩展到大数据的用户,见长微博。完整导读见本文文字版 http://t.cn/RPjCbl7 [ [微博](http://www.weibo.com/5220650532/BimdAmKqK) ] 2014-08-15 [good]//@孙明明_SmarterChina:这些资料都没有提到manifold Learning中的一篇非常重要的文献:Yoshua Bengio 的 Non-Local Estimation of Manifold Structure http://t.cn/RPj5iYv。 这个文章揭示了LLE/ISOMap代表的一类流形学习方法无法直接广泛应用的宿命。 [ [微博](http://www.weibo.com/5220650532/BijiQaRyl) ] @@ -326,13 +326,13 @@ 2014-08-13 回复@Liufool: 非常感谢,这个补充太专业了,果然是windows高手。话说微软的语音识别还是很牛的,你看这个当入门文档行吗? http://t.cn/RPWwj0A 顺带说一句, 曾经亲眼看见一个盲人科学家用语音操控windows笔记本。 //@Liufool:microsoft speech platform是服务器版windows可免费应用的语音识别, [ [微博](http://www.weibo.com/5220650532/Bi4olbouK) ] -2014-08-13 问:@VoidStars 请问想提取一段文本里的中文姓名(0~1个) 有好的开源库和教程吗 答: 常见方法就是分词,再利用姓名词库和上下文关系来确定。 知呼有一个综述。google有专利。 @52nlp 也有大量博文讲中文分词。开源工具比较有名的有jieba, snownlp, stanford-nlp-ner. http://t.cn/RPWP2h1 [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bi3VHfSFP) ] +2014-08-13 问:@VoidStars 请问想提取一段文本里的中文姓名(0~1个) 有好的开源库和教程吗 答: 常见方法就是分词,再利用姓名词库和上下文关系来确定。 知呼有一个综述。google有专利。 @52nlp 也有大量博文讲中文分词。开源工具比较有名的有jieba, snownlp, stanford-nlp-ner. http://t.cn/RPWP2h1 [ [微博](http://www.weibo.com/5220650532/Bi3VHfSFP) ] -2014-08-13 问: @yongsun 有没有开源或者免费的英文语音识别软件/或项目?打算翻译一些冰球教学的视频,想结合识别结果来进行听译 答: Windows7/8 自带语音识别功能,Google Chrome有基于云端服务的识别插件,软件方面Nuaunce的Dragon很牛(SIRI就是靠它做语音识别). 开源软件列表看维基百科。http://t.cn/RPODalA [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bi3ti7wAd) ] +2014-08-13 问: @yongsun 有没有开源或者免费的英文语音识别软件/或项目?打算翻译一些冰球教学的视频,想结合识别结果来进行听译 答: Windows7/8 自带语音识别功能,Google Chrome有基于云端服务的识别插件,软件方面Nuaunce的Dragon很牛(SIRI就是靠它做语音识别). 开源软件列表看维基百科。http://t.cn/RPODalA [ [微博](http://www.weibo.com/5220650532/Bi3ti7wAd) ] -2014-08-13 问: 做 logistic regression 有啥好用的库吗? 需要处理几十万个 features, 然后几十亿个training data的。 features 是极其稀疏的,Sparsity大概万分之一左右吧 答: 有不少开源库: Spark(MLlib), Mahout, R+Hadoop, Hadoop, Scalding(Conjecture)。有2014分析指出SPARK比较快。http://t.cn/RPOddon [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bi3axDIR8) ] +2014-08-13 问: 做 logistic regression 有啥好用的库吗? 需要处理几十万个 features, 然后几十亿个training data的。 features 是极其稀疏的,Sparsity大概万分之一左右吧 答: 有不少开源库: Spark(MLlib), Mahout, R+Hadoop, Hadoop, Scalding(Conjecture)。有2014分析指出SPARK比较快。http://t.cn/RPOddon [ [微博](http://www.weibo.com/5220650532/Bi3axDIR8) ] -2014-08-13 [问题求领养] @不非否nonono:请问有没有关于causality与Bayesian Network有关的资料?http://t.cn/RPOR7Iv。除了Judea Pearl的书,大家有什么推荐?有没有你觉得比较好的教程?BTW, 以前在Python站上有过不少和贝叶斯相关的推荐资源 http://t.cn/RPOrpGD [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/Bi2Z7mgEI) ] +2014-08-13 [问题求领养] @不非否nonono:请问有没有关于causality与Bayesian Network有关的资料?http://t.cn/RPOR7Iv。除了Judea Pearl的书,大家有什么推荐?有没有你觉得比较好的教程?BTW, 以前在Python站上有过不少和贝叶斯相关的推荐资源 http://t.cn/RPOrpGD [ [微博](http://www.weibo.com/5220650532/Bi2Z7mgEI) ] 2014-08-12 @刘知远THU 推荐:翟成祥老师(UIUC)的综述专著:Statistical Language Models for Information Retrieval(信息检索中的统计语言模式)(2008),从BM25到PLSA, LDA,回顾了领域发展并总结了未来的挑战。 [ [微博](http://www.weibo.com/5220650532/BhWzutAft) ] @@ -342,7 +342,7 @@ 2014-08-12 这个问题还有很多其他选择方案,如知网。一些正在issue 67下讨论 http://t.cn/RP0pPIt 欢迎去那增补(留言请留下你的微博号) [ [讨论](https://github.com/memect/hao/issues/67) ] [ [微博](http://www.weibo.com/5220650532/BhWeO3CJx) ] -2014-08-12 @talkto廖华 请问有没有好用的中文词汇的语义相似度计算工具?答:多种分布式表示方法都可以计算语义相似度,中英文均可以处理。如近来的word2vec http://t.cn/RPOvesp 和glove。@刘知远THU 推荐ESA(Explicit semantic analysis),在稳定性上可能更优,一些开源项目和文章如下 http://t.cn/RPOvesj [ [讨论](https://github.com/memect/hao/issues/) ] [ [微博](http://www.weibo.com/5220650532/BhWdIDon6) ] +2014-08-12 @talkto廖华 请问有没有好用的中文词汇的语义相似度计算工具?答:多种分布式表示方法都可以计算语义相似度,中英文均可以处理。如近来的word2vec http://t.cn/RPOvesp 和glove。@刘知远THU 推荐ESA(Explicit semantic analysis),在稳定性上可能更优,一些开源项目和文章如下 http://t.cn/RPOvesj [ [微博](http://www.weibo.com/5220650532/BhWdIDon6) ] From 1f4bdb5721cd14fad1c6a12964b702cdfc66d139 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 15:39:43 -0700 Subject: [PATCH 339/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index fbfae37..baa5109 100644 --- a/README.md +++ b/README.md @@ -6,7 +6,7 @@ ## 简介 -*好东西传送门* 是微博上的知识传播系统,集成微博上的好人好东西,帮您快速解决问题,为您精选专业知识。 +*好东西传送门* 支持微博上的知识传播,集成微博好人好东西,帮您快速解决问题,为您精选专业知识 * [欢迎提供建议](https://github.com/memect/hao/issues/new) ### 问答服务 From d5d921ac3e8982ec5ac3fa8e9eb2753238ebea08 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 15:43:59 -0700 Subject: [PATCH 340/485] Create test-recent.md --- awesome/test-recent.md | 266 +++++++++++++++++++++++++++++++++++++++++ 1 file changed, 266 insertions(+) create mode 100644 awesome/test-recent.md diff --git a/awesome/test-recent.md b/awesome/test-recent.md new file mode 100644 index 0000000..89cf4a9 --- /dev/null +++ b/awesome/test-recent.md @@ -0,0 +1,266 @@ +2014-09-11 #夜读春秋# GDP与汇率数据是经济、金融研究的基本盘! (数据资源整理: http://t.cn/RhVDKg5 ) 1.世界银行的全球各国GDP(1983-2013)http://t.cn/hFsNY 2. 美联储汇率数据(H.10): http://t.cn/RhVDKgq (1996-2014) 3. 那台北的GDP呢? http://t.cn/RhVgFWl ,http://t.cn/zOMb9mJ [ [微博](http://www.weibo.com/5220650532/Bmpx29PN5) ] + +2014-09-11 谢谢建议,我们会努力。改进的网站会有的。想不想要个电子邮件周报什么的,把每周的发布的好东西一网打尽? //@海中的沙粒:给个建议,好东西以后重新搞个博,不然因重复遗漏 //@好东西传送门: 加进列表了 pdf传送门 http://t.cn/RhcFi0l //@诸神善待民科组: 图是种方法Method,不是模型 Model,没说到 B [ [微博](http://www.weibo.com/5220650532/BmplNnCI3) ] + * 2014-09-10 [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] + +2014-09-10 #NLP# 诸君,"城市规划" 领域词表来了, 还等什么呢? 数据传送门 http://t.cn/RhVVYBk 感谢 @国际城市规划 //@规划中国: //@国际城市规划: 编撰词典对我等难度太大,欢迎有缘人慢慢加入积累 http://t.cn/RhVcLWx //@城规田宝江: 好想法!//@中大袁媛: 可以出版一本专业英语的词典或教材 [ [微博](http://www.weibo.com/5220650532/Bmm8O31VG) ] + * 2014-09-09 《国际城市规划》编辑部在多年来出版外文文献的过程中,积累了大量的专业词汇(英汉对照)。把这些专业词汇汇总归纳起来对一些读者应该是有益处的,同时也是我们对自己工作的不断回顾和总结。我们会持续将这一工作做下去。欢迎提出宝贵意见,也欢迎有兴趣的朋友加入这个行列.详见 http://t.cn/Rhtk0hX [ [微博](http://www.weibo.com/2092965653/BmcMpz6dI) ] + +2014-09-10 #机器学习# 领域大牛 Michael Jordan 是Andrew Ng的博士导师,擅长 recurrent neural networks , Bayesian nonparametric analysis, probabilistic graphical models, spectral methods, kernel machines 机会难得有问题赶紧上Reddit上问,http://t.cn/aOioBZ [ [微博](http://www.weibo.com/5220650532/Bmm3VbIR5) ] + * 2014-09-10 Michael Jordan 教授也在 reddit 上开了 AMA, 大家可以问他任何问题,他明天一起回答:http://t.cn/RhVqV11 [ [微博](http://www.weibo.com/2288385870/BmlWJy7Od) ] + +2014-09-10 问: @chico2011 @leo_lq 求推荐金融交易风险评估方面的文献 答: 资源列表 http://t.cn/RhVqWuZ 金融风险管理领域全局观参见 Financial Institutions Management: A Risk Management Approach (沃顿学院教科书)。量化评估方法(含风险价值 VaR)有2011年综述, 此外咱做了个VaR相关概念的脑图 请补充指正 [ [微博](http://www.weibo.com/5220650532/BmlXxt5hC) ] + +2014-09-10 张天雷 《概率编程语言与贝叶斯方法实践》 //@小猴机器人: 来,给个中文介绍哈, http://t.cn/RPwbEPz [ [微博](http://www.weibo.com/5220650532/BmkyPihT4) ] + * 2014-09-10 [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] + +2014-09-10 加进列表了 pdf传送门 http://t.cn/RhcFi0l //@诸神善待民科组: 图是种方法Method,不是模型 Model,没说到 Bayesian Reasoning and Machine Learning 真是不开心,这比 Koller 的 PGM 好读,好处是图多,我就喜欢看图说话的小二班 [ [微博](http://www.weibo.com/5220650532/BmkxhgVMr) ] + * 2014-09-10 [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] + +2014-09-10 赞,维基百科wikipedia在某种程度也承载了很多领域的知识体系,所以大家搜索时喜欢用它 [ [微博](http://www.weibo.com/5220650532/BmjA3bOEr) ] + * 2014-09-10 每个专业领域都有一个知识体系(body of knowledge),无论是财务、供应链、项目管理、人力资源,还是历史、哲学、心理。构建完整的知识框架,是正确的逻辑和认知的基础;缺乏知识体系地推断现象,就是通常所说的瞎子摸象,只见树木不见森林。 [ [微博](http://www.weibo.com/1494723892/BmjxllPqA) ] + +2014-09-10 [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] + +2014-09-10 @好东西传送门 的粉丝里谁转发好东西最多?前10名:1 @Noodles-Xu 2 @LR机器学习计算机视觉 3 @海中的沙粒 4 @hbyido 5 @-单世民- 6 @武文骁很忙也很胖 7 @侠女无敌-曾佩玲 8 @彤言彤趣 9 @yutho 10 @季波USTC [good] [ [微博](http://www.weibo.com/5220650532/BmiMf0Fu4) ] + +2014-09-10 US News 全美大学排名数据集: 新鲜出炉2015年排名前150的综合大学(national university)和文理学院(national liberal art college) . 资源列表 http://t.cn/RhcYKC2 包括1983-2007, 2008, 2009, 2010, 2011-2015 数据,应该比较全了. 欢迎补充 [ [微博](http://www.weibo.com/5220650532/BmizVr1sS) ] + +2014-09-10 458万东西: 144万人, 73万地点, 41万作品(含12万音乐专辑, 8.7万电影,1.9万视频游戏), 24万组织(含5.8万公司,4.9万教育机构), 25万物种等 [ [微博](http://www.weibo.com/5220650532/BmizMhrjB) ] + * 2014-09-10 DBpedia今天更新了,除了丰富dataset本身与到其他ontology(e.g., freebase)的link外,最主要的还是基于heiko paulheim,jens lehmann等人关于ontology enrichment的工作,将dbpedia数据本身丰富了语义,比如增加了一些infobox缺失情况下的type inference。地址: http://t.cn/RhcjuOq [ [微博](http://www.weibo.com/1788897365/BmirJsEDH) ] + +2014-09-09 http://t.cn/zOpIrjJ 中文语言资源联盟,英文译名Chinese Linguistic Data Consortium,缩写为CLDC, 有少数民族语言,方言数据 //@龙星镖局:有专门放入方言的nlp研究 吗?@白硕SH 老师 //@殆知阁:转发微博 [ [微博](http://www.weibo.com/5220650532/BmcCdeWno) ] + * 2014-09-09 #书目#《现代汉语方言大词典》,李荣 编 ,出版年: 2002-12,页数: 6556,定价: 1128.00元——看看这么贵,还是省省,在图书馆查吧!期待电子版本。@殆知阁 [ [微博](http://www.weibo.com/2139856433/BmchA2F4a) ] + +2014-09-09 好东西 ,向 迷渡 justjavac (索引的作者)致敬! 顺路推荐一下他的另一个工作 "Google 全球 IP 地址库" , http://t.cn/RvabGv5 //@justjavac: 我说今天怎么收到好多私信呢,原来根源在这儿啊。//@CSDN_CODE:Mark! [ [微博](http://www.weibo.com/5220650532/BmcoO4bqA) ] + * 2014-09-09 【免费编程中文书籍索引】一个蛮全的免费书籍索引,有编程类书籍,还有专门为程序员准备的非编程类书籍。随手转发,支持正版!http://t.cn/8kJZNap #技术新知客# [ [微博](http://www.weibo.com/2295615873/BmbJTcBGK) ] + +2014-09-09 谢谢夸奖,分享一个体验: 有时很难一次把问题说清楚 (要不直接搜索了),所以私信交流很有帮助。 一句话,很高兴帮助你解决问题 ;) [ [微博](http://www.weibo.com/5220650532/BmckKeAqI) ] + * 2014-09-09 @好东西传送门, 你的点餐服务,我给满分,嘿嘿,又有私信交流,还有指导性推荐,微博做到这份上,目前阶段来说,算很棒啦 [ [微博](http://www.weibo.com/1843007450/Bm9DO2S76) ] + +2014-09-09 找到一组相关测试数据集(VAST challenge 2003-现在),基本上就是用户利用可视化工具,根据特定需要分析大规模业务数据,继而推理验证猜想。 例如分析预测恐怖袭击,发现金融犯罪嫌疑人,有一篇总结文章值得一读: http://t.cn/Rhtmw01 [ [微博](http://www.weibo.com/5220650532/BmbO4EuMd) ] + * 2014-09-09 问: @海中的沙粒 点餐,我想要更多关于可视分析学的资料? 答: 可视分析学(Visual Analytics) 利用可视化方法支持对大规模复杂(科学)数据的人机协同分析推理。问答进展收录: 经典, 综述, 社区, 会议等资源 http://t.cn/Rht6xF8 看附图, 一分钟理解其定位、原理以及跨学科特性。 [ [微博](http://www.weibo.com/5220650532/BmbGkaI7Z) ] + +2014-09-09 问: @海中的沙粒 点餐,我想要更多关于可视分析学的资料? 答: 可视分析学(Visual Analytics) 利用可视化方法支持对大规模复杂(科学)数据的人机协同分析推理。问答进展收录: 经典, 综述, 社区, 会议等资源 http://t.cn/Rht6xF8 看附图, 一分钟理解其定位、原理以及跨学科特性。 [ [微博](http://www.weibo.com/5220650532/BmbGkaI7Z) ] + +2014-09-09 问:@_绝影_ 求助 刚开始做图像融合相关领域研究,请问有哪些大牛? 答:进展 http://t.cn/RhqD63F 图像融合(Image Fusion)在计算机视觉(computer vision), 遥感(remote sensing)和医学图像(Medical Image)上都有应用,可追踪会议IPCV,ICIFE, 期刊IJCV 及综述。大牛欢迎专家传送 [ [微博](http://www.weibo.com/5220650532/Bm9jvfke6) ] + +2014-09-09 转发理由:开放政府数据。另外推荐RPI的 Linking Open Government Data,收录了1800多个数据集,100亿RDF三元组 http://t.cn/RhtMeAj [ [微博](http://www.weibo.com/5220650532/Bm8UryKa7) ] + * 2014-09-04 【干货来袭:由22个联邦机构分享的6482个数据集】你在为寻找 数据集发愁吗?来,看这里 ==》 http://t.cn/RhUMeQ6[围观] [ [微博](http://www.weibo.com/3847741679/Blpg6D4Bu) ] + +2014-09-09 好东西,北京语言大学威武。插个话, 著名的汉语水平考试(HSK,...)是由北京语言大学汉语水平考试中心设计研制的 //@52nlp: [good][good][good] [ [微博](http://www.weibo.com/5220650532/Bm7DQ3NCC) ] + * 2014-09-08 【中秋福利】北语汉语语料库(BLCU Chinese Corpus,BCC)正式上线!100亿字报刊、社交、文学、科技语料~规模完爆CCRL和国家语委语料库。全文检索更方便,支持模糊查找和长距离模式查找。全文自动分词并词性标注。语料库http://t.cn/Rh5E63s 研发中心http://t.cn/h4mhKN [ [微博](http://www.weibo.com/1242190153/Bm3oU00UX) ] + +2014-09-09 #夜读春秋# 最近JWT(JSON Web Token,是一种基于JSON的认证安全协议)势头很火,这里找了一个48页的幻灯片,帮你快速了解这些概念的含义,并提供一定全局观 http://t.cn/Rht40uL 该作者(Brian Campbell)还有一个更新的幻灯片讲JWT和JOSE http://t.cn/Rht40uw [ [微博](http://www.weibo.com/5220650532/Bm6KQB6nM) ] + +2014-09-08 @phunter_lau 推荐了 Peter Norvig的regex生成器 http://t.cn/8FGNh2J http://t.cn/8FnLiON @孙明明_SmarterChina 推荐了Bartoli等基于遗传算法的实现 http://t.cn/zlmNYLJ @布尔乔亚之犬 推荐了SO上一个很好的讨论贴 http://t.cn/Rh5H2za [good] [ [微博](http://www.weibo.com/5220650532/Bm2SOaRyu) ] + * 2014-09-08 我在寻找一个从文本学习正则表达式的工具,就是我给它一些文本的例子,它输出符合这些文本的一个正则表达式。有没有人知道呢? @好东西传送门 [ [微博](http://www.weibo.com/1932835417/Bm2Idzep8) ] + +2014-09-08 @phunter_lau 推荐了 Peter Norvig的regex生成器 http://t.cn/8FGNh2J http://t.cn/8FnLiON @孙明明_SmarterChina 推荐了Bartoli等基于遗传算法的实现 http://t.cn/zlmNYLJ @布尔乔亚之犬 推荐了SO上一个很好的讨论贴 [good] [ [微博](http://www.weibo.com/5220650532/Bm2SqyoHc) ] + * 2014-09-08 我在寻找一个从文本学习正则表达式的工具,就是我给它一些文本的例子,它输出符合这些文本的一个正则表达式。有没有人知道呢? @好东西传送门 [ [微博](http://www.weibo.com/1932835417/Bm2Idzep8) ] + +2014-09-08 求助! [ [微博](http://www.weibo.com/5220650532/Bm2IlgmSx) ] + * 2014-09-08 我在寻找一个从文本学习正则表达式的工具,就是我给它一些文本的例子,它输出符合这些文本的一个正则表达式。有没有人知道呢? @好东西传送门 [ [微博](http://www.weibo.com/1932835417/Bm2Idzep8) ] + +2014-09-08 黄昌宁 赵海 《中文分词十年回顾 》http://t.cn/Rh5Xe3S //@龙星镖局: 有个 中文分词十年 孙老师搜一下 [ [微博](http://www.weibo.com/5220650532/Bm1jmwaCk) ] + * 2014-09-08 有没有中文分词主流技术的介绍?综述最好,请教 @好东西传送门 [ [微博](http://www.weibo.com/1025887594/Bm0fl4F8b) ] + +2014-09-08 第一,问题说得很实在,使用hadoop运维成本不可低估、实现价值所依赖的技术链不象成功案例说得那么简单,总之就是你公司的IT部门很有可能搞不定,第二,这也算他推广新公司altiscale的价值 [ [微博](http://www.weibo.com/5220650532/Bm0S5sgSd) ] + * 2014-09-07 【前雅虎CTO:Hadoop扩展过程中的7个危险信号】开源到生产环境使用从来都不是件容易的事情,而大型分布式计算框架Hadoop的实施无疑更加复杂。这里罗列了7种常见问题和解决方案,来自前雅虎首席技术官。http://t.cn/RhbhV47 [ [微博](http://www.weibo.com/1715118170/BlSEon2az) ] + +2014-09-08 企业研发也要有市场、学术调研 //@新闻传播学研:M //@徐泓xh:[研究生的基本功]从写好文献综述起步. [ [微博](http://www.weibo.com/5220650532/Bm0Dh5yRF) ] + * 2014-08-30 【文献综述专题】①如何写综述文章 ?http://t.cn/RPOsjGH;②三大牛人看外国文献的方法 http://t.cn/Rhwhak1;③研究生如何检索和阅读外文文献?http://t.cn/RhwhakB;④写文献综述的二十八个要点http://t.cn/RPZ9nF1;⑤15个学术搜索引擎http://t.cn/Rhwhakr; [ [微博](http://www.weibo.com/3477370701/BkINW1awH) ] + +2014-09-07 Tomas Mikolov http://t.cn/Rhq2QVU 很有意思。0.1c版更新等了近九个月,恐怕是跳槽耽误的。他今年5月从Google跳到Facebook, 工作之余还努力维护word2vec开源代码。爱看源代码的可以直接读diff http://t.cn/Rhq2QVZ [ [微博](http://www.weibo.com/5220650532/BlRmn38uo) ] + * 2014-09-07 一早起来看到Mikov更新了word2vec的代码。改动有:添加了一个迭代步数的参数;CBOW的输入层向量累加改成了平均;修改了基线模型(貌似融合了两个模型?);另外还调了把参。在开放语料库上得到了80%的准确性!http://t.cn/RhqAf1E(墙)@好东西传送门 [ [微博](http://www.weibo.com/2872565912/BlRdhejkf) ] + +2014-09-06 问: @V井颠V 对国内中长文章(300~5000字)近似新闻门户网站频道粒度的自动分类,有好的模型方法吗? 答: 进展 http://t.cn/RhGTzfI 考虑 statistical topic model, 推荐UIUC翟成祥 ( http://weibo.com/5220650532/BhWo26Y93 ) , Stanford 和Umass 都有软件包 国内工作欢迎补充 [ [微博](http://www.weibo.com/5220650532/BlMR9kjJ7) ] + +2014-09-06 感谢推荐,当然是好东西! //@尘绳聋-SYSU: 那个网站还有个R for big data: http://t.cn/zHXfTF1 之前看人推荐过biglm, bigrf等pkg//@尘绳聋-SYSU: [晕] 传说wiseRF比sklearn里的RF更scale更快,不知道是不是真的[威武] [ [微博](http://www.weibo.com/5220650532/BlMJyCoRe) ] + * 2014-09-06 [推荐] 一张很好的脑图胜过千言万语,帮助你获得python的大数据处理工具全局观。http://t.cn/Rhb3P8I [ [微博](http://www.weibo.com/5220650532/BlGE7oFdz) ] + +2014-09-06 多年之前就受益于龙星计划的高质量资源,特别隆重推荐! [ [微博](http://www.weibo.com/5220650532/BlJzVhgIU) ] + * 2014-09-06 @龙星计划 计算机科学技术学术交流系列活动是一个杰出的海外华人教授回国系统讲授研究生课程的计划。已经连续举办了多年。这些的课程信息在http://t.cn/zO0r8Et。点击每个课程链接一般都能下载到对应的PPT。视频比较少,之前陆续发过一些,大家可以搜一下。@好东西传送门 [ [微博](http://www.weibo.com/1830516311/BlJcCiUIX) ] + +2014-09-06 传送潜力股。这些好账号本门大多已经关注了 [耶] [ [微博](http://www.weibo.com/5220650532/BlIlA4xHp) ] + * 2014-09-06 人肉推荐几个长尾账号,搞技术学术的大家千万不要错过@AixinSG @陈天奇怪 @Copper_PKU @eyounx_俞扬 @JerryLead @刘成林_PR @计算天空 @LeftNotEasy @诸神善待民科组 @52cs 大v们就不推荐了 我只推荐潜力股[酷] [ [微博](http://www.weibo.com/1830516311/BlIc63bS1) ] + +2014-09-06 非常感谢,这本书是亚马逊的Computer Vision类畅销书第一名 卡片盒子添加了新链接 //@维尔茨:对于计算机视觉/图像强烈推荐Szeliski的Computer Vision: Algorithms and Applications。传送门:http://t.cn/RhbF7jr好东西传送门: 不好意思,你是找第二版吗? 可以问问 @没有我找不到的电子书 [ [微博](http://www.weibo.com/5220650532/BlIbspyg8) ] + * 2014-09-06 问:@龙星镖局 如果要从零学习图像或语音分析,要从那几本书开始? 答: 问答进展 http://t.cn/Rhbeix0 网络问答结果和相关课程大多推荐这几本经典老教科书:Digital Image Processing (3rd Edition) (2007), Speech and Language Processing, 2nd Edition (2008), 卡片盒子: http://t.cn/Rhbeixp [ [微博](http://www.weibo.com/5220650532/BlHHF1jr2) ] + +2014-09-06 不好意思,你是找第二版吗? 可以问问 @没有我找不到的电子书 [ [微博](http://www.weibo.com/5220650532/BlHYbucvp) ] + * 2014-09-06 问:@龙星镖局 如果要从零学习图像或语音分析,要从那几本书开始? 答: 问答进展 http://t.cn/Rhbeix0 网络问答结果和相关课程大多推荐这几本经典老教科书:Digital Image Processing (3rd Edition) (2007), Speech and Language Processing, 2nd Edition (2008), 卡片盒子: http://t.cn/Rhbeixp [ [微博](http://www.weibo.com/5220650532/BlHHF1jr2) ] + +2014-09-06 回复@ustczen: 感谢传送好东西。这是新加坡国立 Min-Yen Kan (靳民彦) 教授 研究组的工作 http://t.cn/SwJHvL @52nlp 2011年转过他们短信捐赠请求 http://t.cn/RhbDbIV //@ustczen:回复@好东西传送门:所以我老年痴呆又犯了么。。附链接:http://t.cn/hrXXWz [ [微博](http://www.weibo.com/5220650532/BlHNqyCgt) ] + * 2014-09-05 分享一个短信语料库, 42140 条英文短信和31205 条中文短信的语料,今年9月份还在更新,可以用来做QA系统。另外想知道微软小冰号称“集合了中国近7亿网民多年积累的全部公开聊天纪录1500万条语料”在哪能找到呢? @好东西传送门 @52nlp [ [微博](http://www.weibo.com/2872565912/BlzpfDZu6) ] + +2014-09-06 问:@龙星镖局 如果要从零学习图像或语音分析,要从那几本书开始? 答: 问答进展 http://t.cn/Rhbeix0 网络问答结果和相关课程大多推荐这几本经典老教科书:Digital Image Processing (3rd Edition) (2007), Speech and Language Processing, 2nd Edition (2008), 卡片盒子: http://t.cn/Rhbeixp [ [微博](http://www.weibo.com/5220650532/BlHHF1jr2) ] + +2014-09-06 [开放数据]印尼政府开放数据 data.ukp.go.id http://t.cn/Rhbrjfv 于2014-09-05上线,有700 多数据集。要使用数据恐怕先要能读懂印尼语(拼写属于拉丁语系,最早源于荷兰语)。此外,2014统计数据表明印尼有2.5亿人,是排名世界人口第四大国。 [ [微博](http://www.weibo.com/5220650532/BlHkREGAC) ] + +2014-09-06 传送理由: github上的好东西,快800星了。 作者的博客也很有深度,而且竟然用issue tracker写博客,赞! 这是个例子 http://t.cn/8s35KgP [ [微博](http://www.weibo.com/5220650532/BlH9sz9H9) ] + * 2014-09-01 做了个监控页面变化的开源项目page-monitor( http://t.cn/RhAQ58Y ),用phantomjs运行页面,保存所有元素的标签、属性、计算样式、文本内容,跟历史进行对比,从而发现产品的运营内容变化、功能改版等。由于是基于dom树对比,所以可以灵活的配置规则。貌似很多人想过这类产品,就当多一个开源选择吧。 [ [微博](http://www.weibo.com/1734864282/BkXFmn29q) ] + +2014-09-06 问:@三鹿无毒奶粉 请问贵博关于航班准时预测和机票价格预测有那些相关的论文和模型 答:问答进展 http://t.cn/RhbBwy9 不少人用回归模型 航班准时预测(flight delay):有几篇MIT的文章;机票价格预测(ticket price): 有不少专利(发明人包括USC Craig Knoblock 教授) 卡片盒子 http://t.cn/RhbBwyK [ [微博](http://www.weibo.com/5220650532/BlH4Tc57x) ] + +2014-09-06 传送理由:右边的链接真是好东西 -- 不止配色工具,还有大量字体,图片、纹理,壁纸等众多素材资源网站一网打尽。 //@设定控: 配色工具网站汇总 http://t.cn/RPbMz7M [ [微博](http://www.weibo.com/5220650532/BlGYiyx88) ] + * 2014-09-05 【7款靠谱工具帮你选取完美配色】Kulerhttp://t.cn/zlAJ019;PHOTOCOPAhttp://t.cn/zjLHT70;Pictaculoushttp://t.cn/5v56l;Color Palette FXhttp://t.cn/RPc5Y0S;Image Palettehttp://t.cn/RhbpgCB;Color Palette Generatorhttp://t.cn/brxM9;ColorExplorehttp://t.cn/RhbpgCr [ [微博](http://www.weibo.com/5198011111/BlDVpygav) ] + +2014-09-06 问: @ShawnAtLoss 请问哪边可以找到比较全面的关于大数据的survey 答: 问答进展: http://t.cn/Rhb1b0Z 推荐两类阅读:1 大数据领域地图,覆盖相关 技术,应用,公司 等 2. github好资源合集 http://t.cn/Rhb1b0w 1K+星,上百链接. 卡片盒子(现有6个资源): http://t.cn/Rhb1b0A 欢迎补充 [ [微博](http://www.weibo.com/5220650532/BlGU6teFP) ] + +2014-09-06 [推荐] 一张很好的脑图胜过千言万语,帮助你获得python的大数据处理工具全局观。http://t.cn/Rhb3P8I [ [微博](http://www.weibo.com/5220650532/BlGE7oFdz) ] + +2014-09-05 转发理由:非常酷的星系生死大片!本超星系团呈羽毛形状,因为有个巨大的吸引子(就是羽毛的中心),不断吞噬星系。这些“羽毛”的绒线就是星系赴死即将遵循的轨迹。在图中银河系只是微不足道的一个小点 [ [微博](http://www.weibo.com/5220650532/BlzOYbTRu) ] + * 2014-09-04 最新研究表明,我们银河系所处的本超星系团比之前所认为的要大百倍!由夏威夷大学的Brent Tully所带领的团队使用最新的邻近星系位置和视向速度数据,采用创新的分析方法重新绘制了本超星系团的地图,他们这整个结构称为Laniakea。(Nature新闻:http://t.cn/RhU5OqB)http://t.cn/RhU5otQ [ [微博](http://www.weibo.com/3751111037/BloG76thp) ] + +2014-09-05 //@ShangguanRPI: 在前东家也做过一样的数据分析,结论也几乎一致。用的数据集来自usps登记的过去10年所有地址更换记录,不确定census的数据是否也来自这个源。 [ [微博](http://www.weibo.com/5220650532/BlzHefKoa) ] + * 2014-09-05 美国著名房地产公司trulia近日利用政府开放数据 http://t.cn/Rh4Htwl 分析了近年美国人口迁移的倾向:就近,房价低,人口密度小,低失业率 http://t.cn/Rh4HtwO [ [微博](http://www.weibo.com/5220650532/BlyKPBSIT) ] + +2014-09-05 转发理由:世界基本经济数据的可视化,地图均给出了数据出处 [ [微博](http://www.weibo.com/5220650532/BlzmDai0F) ] + * 2014-09-04 #政见资源推荐#【38张图片描述世界经济】38张图片给你呈大家关心的几十个世界经济主题,其中一些关注全球而一些关注区域研究。告诉你世界各地如是如何紧密联系,密切互动而又差异巨大。 http://t.cn/RPeB6W3 [ [微博](http://www.weibo.com/2499096521/Blq1jwr4Z) ] + +2014-09-05 美国著名房地产公司trulia近日利用政府开放数据 http://t.cn/Rh4Htwl 分析了近年美国人口迁移的倾向:就近,房价低,人口密度小,低失业率 http://t.cn/Rh4HtwO [ [微博](http://www.weibo.com/5220650532/BlyKPBSIT) ] + +2014-09-05 http://t.cn/Rh4W25z 今年欧洲python大会的一个35页在线讲义幻灯片,用实例介绍如何用python实现概率编程,尤其是pymc3 阅读时间大约半小时 [ [微博](http://www.weibo.com/5220650532/Blyi3aVGF) ] + +2014-09-05 [问题求传送] 问:@开机就好ing 有没有比较好的Gbrank的相关的开源实现 答:就是 Zhaohui Zheng SIGIR '07 文章“A regression framework for learning ranking ...” 里提到的GBRank (guardian boosted) 问答进展看 http://t.cn/Rh4C8hd 初步好像有一个C++ 开源代码 http://t.cn/Rh4C8hg 欢迎补充 [ [微博](http://www.weibo.com/5220650532/BlxKpwU1D) ] + +2014-09-04 [资料整理] PDF版 http://t.cn/RhUOt6p 《智能问答系统:心得点评与文献列表》覆盖几个知名的问答系统:Halo (Aura); Siri;IBM Watson (DeepQA); True Knowledge;Facebook Graph Search 重点评论了知识图谱和语义web技术在自动智能问答系统中的应用与前景 [ [微博](http://www.weibo.com/5220650532/BlqyBe19Z) ] + +2014-09-04 旧闻回顾: Siri开发者成立人工智能公司Viv Labs (注意 网址是 viv.ai ), 花两年时间开发了能自动学习的智能个人助理系统Viv:将自然语言表达的复杂问题与搜索结合 相关Wired报导( http://t.cn/RhUtTwq 8月12日) 有微博原发评论 @网路冷眼 @新浪科技 (看 @张栋_机器学习 评论) http://t.cn/RhUtTw5 [ [微博](http://www.weibo.com/5220650532/BloN1gTeu) ] + +2014-09-04 问: @simba0626 请问现今有哪些成功的智能问答系统? 答: 问答进展 http://t.cn/RhUq00L 成功不好定义,基本用了知识图谱, 例如 IBM DeepQA (watson), wolfram alpha, Apple Siri, Google now。当然学术界也有一群人在做开放领域的图灵测试,如Eugen http://t.cn/RhUq00y 相关文献待会整理个资源合集 [ [微博](http://www.weibo.com/5220650532/BloyuzoCh) ] + +2014-09-03 回复@统计之都: 非常感谢 这可是今年7月新鲜出炉的文章,Gilles Louppe http://t.cn/RhyvpGz //@统计之都:Gilles Louppe的博士论文《随机森林:从理论到实践》,PDF下载地址http://t.cn/RP8JQyC。 [ [微博](http://www.weibo.com/5220650532/BlfvG3fm9) ] + * 2014-09-03 问: @董伟_dzw259 哪里能够找到比较详细介绍随机森林的paper吗? 答: http://t.cn/RhLFi4R 随机森林(random forests)原作者之一 Leo Breiman 在“机器学习”2001年期刊有长文。推荐哥伦比亚大学教授Lauren Hannah的讲义。中文 @LeftNotEasy 2011年博文. 资料卡片: http://t.cn/RhLFzN1 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/Blfhkk0qI) ] + +2014-09-03 问: @董伟_dzw259 哪里能够找到比较详细介绍随机森林的paper吗? 答: http://t.cn/RhLFi4R 随机森林(random forests)原作者之一 Leo Breiman 在“机器学习”2001年期刊有长文。推荐哥伦比亚大学教授Lauren Hannah的讲义。中文 @LeftNotEasy 2011年博文. 资料卡片: http://t.cn/RhLFzN1 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/Blfhkk0qI) ] + +2014-09-03 问:@子_相 求推荐一个PHP上的内存cache 的mod 答: http://t.cn/RhLeSxQ APC曾是首选(towser451@github 也推荐), 但php5.5用opcache作bytecode cache后, APC user data cache就被删改成APCu。@Laruence (APC, opcache的lead)2013博文指出APC效率问题,并因此开发YAC。卡片盒子: http://t.cn/RhLeSx8 [ [微博](http://www.weibo.com/5220650532/BleQ8wKSv) ] + +2014-09-03 在Neural Networks and Deep Learning第四章有对这个定理的可视化阐述,简洁易懂 http://t.cn/RhL8X74 该书我们以前在深度学习系列里也推荐过 http://t.cn/RhLmjtj [ [微博](http://www.weibo.com/5220650532/BlcZI7vdh) ] + * 2014-07-29 @LDL_BIT 问:有哪些文章讲了多层感知器MLP的拟合能力问题?尤其是拟合多项式的能力?答:当使用非线性的激活函数,MLP是图灵完备的,可以模拟任何函数,当然包括多项式函数。这称为普适逼近原理(Universal approximation theorem)。深度学习则提高了逼近的效率。经典论文见 http://t.cn/RPVAYZ4 [ [微博](http://www.weibo.com/5220650532/BfO8hcCYx) ] + +2014-09-01 转发理由:Larochelle是加拿大Université de Sherbrooke的教授。他是蒙特利尔大学Yoshua Bengio的博士,多伦多大学Geoffrey Hinton的博士后,师承深度学习的两大重镇 [ [微博](http://www.weibo.com/5220650532/BkVuU0EdN) ] + * 2014-08-31 我的导师Hugo Larochelle教授的神经网络教程的视频,已经授权我放到优酷上。欢迎大家分享和学习。这个教程涉及到神经网络的基础知识,以及深度学习目前最新的研究进展,是非常好的资料。我也会尽量9月份开始在清华组织神经网络、深度学习相关的学习讨论会,欢迎大家观看和参加!http://t.cn/RhAzUCm [ [微博](http://www.weibo.com/2034296393/BkS0MyvCG) ] + +2014-09-01 传送原因:用SQL访问Elasticsearch大大方便了查询构造。以前有类似项目ELSeQL, 但已很久没有更新了 @温少 @elasticsearch @Medcl [ [微博](http://www.weibo.com/5220650532/BkU1JcW8K) ] + * 2014-09-01 奋斗了整整一周多的时间...elasticsearch-sql 终于有了初版本.十分高兴.大家尤其是运维或者非搜索的工程师.可以用sql语句来搜或索聚合索引内容了. 有兴趣的朋友来试试吧http://t.cn/RhAtrwJ [ [微博](http://www.weibo.com/1434895303/BkTOzB35q) ] + +2014-08-31 传送理由:开源的推荐系统,从各种语言调用都方便 [ [微博](http://www.weibo.com/5220650532/BkOEij8Pb) ] + * 2014-08-31 Predict.io,目前最实用的开放源码#推荐系统#,重要的是成熟度很高并且#大数据#ready,原始数据存储支持Hadoop/MongoDB,支持多种单机和分布式推荐算法:协同过滤,KNN,SVD++等,支持包括Android/JS/PHP/Python/Ruby多种客户端SDK,支持无服务器的云部署方式,http://t.cn/zRIPHGR [ [微博](http://www.weibo.com/1699016425/BkOd1r5qb) ] + +2014-08-31 @Copper_PKU 的讲义前段时间推荐过,这个也很赞。 [ [微博](http://www.weibo.com/5220650532/BkOCelqIv) ] + * 2014-08-31 强烈推荐:《主题模型及其扩展》 娓娓道来 可读性极强 [good] 连接:http://t.cn/RPdGsb9 来源:@52cs 作者:@Copper_PKU 请@好东西传送门 @网路冷眼 等童鞋审阅扩散 [呵呵] [ [微博](http://www.weibo.com/1830516311/BkNDFcvBQ) ] + +2014-08-31 传送问题,问答进展 http://t.cn/Rhw4h2m 看过YAC吗? http://t.cn/zYrnBVx [ [微博](http://www.weibo.com/5220650532/BkK3q8zJ6) ] + * 2014-08-31 PHP问题求助:求推荐一个PHP上的内存cache 的mod . 要求是:1 轻量级,2 倾向于embedded本机运行而不是通过网络通信,3 与新版PHP 5.6兼容. 4 这个cache是指存放php 变量数据的cache,而不是bytecode本身 @好东西传送门 @memect [ [微博](http://www.weibo.com/1402229482/BkJCg7ppe) ] + +2014-08-30 增补两个相关组织: @九章算法 的专业培训可(程序员的新东方)http://t.cn/RhwAzyN 。 @灵魂机器 组织的程序员北美求职 (肉身翻墙)http://t.cn/RhwAzyp len(卡片盒子)=8 [ [微博](http://www.weibo.com/5220650532/BkJlm0cyz) ] + * 2014-08-30 半夜推荐 Leetcode 资源整理合集。 它目前有150道题,是程序员肉身翻墙的好东西,也适合快速提高自我修养。精选资料在我的卡片盒子里 http://t.cn/RhwwCGL 现在有6项: @灵魂机器 (Frank Dai) 的刷题宝典,若干人的涮题体验。这是一个会成长的卡片盒子,欢迎添加好东西。 [ [微博](http://www.weibo.com/5220650532/BkJheojHW) ] + +2014-08-30 半夜推荐 Leetcode 资源整理合集。 它目前有150道题,是程序员肉身翻墙的好东西,也适合快速提高自我修养。精选资料在我的卡片盒子里 http://t.cn/RhwwCGL 现在有6项: @灵魂机器 (Frank Dai) 的刷题宝典,若干人的涮题体验。这是一个会成长的卡片盒子,欢迎添加好东西。 [ [微博](http://www.weibo.com/5220650532/BkJheojHW) ] + +2014-08-30 转发理由:前段时间 @蒋宁平 正在找情感分析资料 //@皮皮虾大屁土鳖小主: 大家不要怕 我们的MPQA已经在重新标了 标完之后欢迎大家重新发一轮paper 记得引用新的corpus和paper哦~ [ [微博](http://www.weibo.com/5220650532/BkFES82Eu) ] + * 2014-08-30 EMNLP-14上又一篇用Convolutional Neural Network做情感分类的,在7个公开数据集中的4个取得了state-of-the-art的结果,照这个搞法真是越来越难做啊。。。 paper链接:http://t.cn/RhZNHAn [ [微博](http://www.weibo.com/1895401411/BkFkCgD88) ] + +2014-08-30 谢谢表扬[害羞]。门就是为大家传送好东西,能直销,能问答,也支持多级传送。 [ [微博](http://www.weibo.com/5220650532/BkFBtpBKv) ] + * 2014-08-30 注意到个很不好的现象,有些大V,在微博上看到别人分享推荐的好资料之后,会把推荐内容自己编辑一下,然后以自己的名义再发出来。强烈谴责这种只尊重原创者,而不尊重发现者的行为。尊重发现者方面,@好东西传送门 @developerWorks 做得不错[good] ,向他们学习! [ [微博](http://www.weibo.com/1830516311/BkFy0AIKm) ] + +2014-08-30 //@lidingpku: 2010年在上海开ISWC时做了一张幻灯片( http://t.cn/RhZpjfr 第26张),把美国政府数据与中国国家统计局的数据关联起来比较两国GDP历年来的差异 (当然这只能算民科,谁叫咱没金融背景呢) //@潘越_: //@好东西传送门:回复@icanswimwell: 美国的数据前几天才发过 http://t.cn/RhZJNoM [ [微博](http://www.weibo.com/5220650532/BkFz32kjm) ] + * 2014-08-30 [数据资源] 日本政治、经济、地理数据大全(免费,可下载)http://t.cn/RhZb561 日本开放政府数据网站测试版(www.data.gov.jp)于2014年发布,现有来自21个政府部门的10,411个数据集。 其他数据源:历年人口、工业、经济普查数据; 政府预算数据; 地理信息数据;1947-2003议会选举数据 等 [ [微博](http://www.weibo.com/5220650532/BkCwfoJ0Y) ] + +2014-08-30 SAS base 今年KDnudgget数据分析常用工具民意调查( http://t.cn/RhZ0HjY )排名第9,而排名靠前的都有免费版。现在SAS推这个免费版,很好奇它明年的排名 //@刘政-SAS: 回复@侯广_充电ing:大学免费版跟我要,有base, graph, miner, or, 计量经济学和时间序列。//@侯广_充电ing:全国数学建模马上就要开始 [ [微博](http://www.weibo.com/5220650532/BkFytfb9v) ] + * 2014-08-29 自打SAS提供免费软件以来,3个月全球下载量已经超过67000多。你下载了吗?http://t.cn/Rvq6YxN 欧美明显有非常成熟的数据分析市场和大量的使用人群。 [ [微博](http://www.weibo.com/1140645172/BkvcqkvbI) ] + +2014-08-30 国家统计局 每年都有统计年鉴 这个是英文版 http://t.cn/hrL49A @郑老石 还贴过一个研讨会的通知 http://t.cn/RhZNQkD 台北也有 http://t.cn/RhZNQkF 香港也有 http://t.cn/RhZNQkk //@G小调的Qing歌:[笑cry][笑cry][笑cry]有中国的吗 //@好东西传送门:回复@icanswimwell [ [微博](http://www.weibo.com/5220650532/BkFkQrFI2) ] + * 2014-08-30 [数据资源] 日本政治、经济、地理数据大全(免费,可下载)http://t.cn/RhZb561 日本开放政府数据网站测试版(www.data.gov.jp)于2014年发布,现有来自21个政府部门的10,411个数据集。 其他数据源:历年人口、工业、经济普查数据; 政府预算数据; 地理信息数据;1947-2003议会选举数据 等 [ [微博](http://www.weibo.com/5220650532/BkCwfoJ0Y) ] + +2014-08-30 问: @小磊_DM_中二青年 在学搜索,请问有Nutch的相关资料吗? 答: nutch主要做网络爬虫,可以和solr结合做搜索引擎。问答进展: http://t.cn/RhZN72R (卡片盒子 http://t.cn/RhZN72E 6个资源): nutch 的中英文安装短教程(此外看Nutch wiki); nutch工作流程; 最近很火的CommonCrawl也转用nutch [ [微博](http://www.weibo.com/5220650532/BkFg8v2lw) ] + +2014-08-30 //@velvel2:多任务和域自适应是转移学习的两种配置(还有无监督). 记源领域和源任务是D1和T1, 目标领域和目标任务是D2和T2 (D={特征空间,边际概率分布}, T={标签空间,预测函数}), 其中D1 != D2或T1 != T2; 则利用D1和T1信息提升目标任务性能叫迁移, 同时提升源任务性能叫多任务, 如果T1=T2叫领域自适应 [ [微博](http://www.weibo.com/5220650532/BkERugEzy) ] + * 2014-08-19 问: @唐小sin 有没有multi-task learning的相关学习资料呢? 答: 维基百科上有不少经典文献。AAAI和ICML都有论文(北大/清华)。找到今年Honglak Lee (U Michigan 教授)的短教程。Lan Žagar 博士论文(2014) Ranking by Multitask Learning. 问答追踪: http://t.cn/RP8a3Ax 求补充 [ [微博](http://www.weibo.com/5220650532/BiZl47k80) ] + +2014-08-30 回复@icanswimwell: 美国的数据前几天才发过 http://t.cn/RhZJNoM (卡片盒子现有19项 http://t.cn/RhZJNox ) 美国政府在data.gov开放了十多万个免费、免版权的公开数据集 //@icanswimwell:感谢分享~~要有美国的就更好啦[挖鼻屎][挖鼻屎] [ [微博](http://www.weibo.com/5220650532/BkEg1kOpm) ] + * 2014-08-30 [数据资源] 日本政治、经济、地理数据大全(免费,可下载)http://t.cn/RhZb561 日本开放政府数据网站测试版(www.data.gov.jp)于2014年发布,现有来自21个政府部门的10,411个数据集。 其他数据源:历年人口、工业、经济普查数据; 政府预算数据; 地理信息数据;1947-2003议会选举数据 等 [ [微博](http://www.weibo.com/5220650532/BkCwfoJ0Y) ] + +2014-08-30 回复@山雨清新: 原帖就是一个卡片盒子,链接可以在那里找到,现在已经16项了。同附链接 (200k book,1M rating)书籍 http://t.cn/RhZMPWc (10k movie, 10M rating)电影 http://t.cn/RhZMPWt //@山雨清新:请问新增补的两个评论数据集的链接? 找了下,没找到 //@好东西传送门:回复@好东西传送 [ [微博](http://www.weibo.com/5220650532/BkDZfdlu2) ] + * 2014-08-30 [资料整理] @鱼片的小露宝 我正在学习hadoop,我想知道从哪里可以获取一些原始数据样本(就好像hadoop权威指南里面所说的NCDC的气象数据日志)来做数据分析的练习? 答: 一些大数据与目录: http://t.cn/RhZqcq9 气象遥感数据因有图片通常比较大;政府数据包罗万象;(社交)网络数据边多。 [ [微博](http://www.weibo.com/5220650532/BkD1Yu1WE) ] + +2014-08-30 回复@好东西传送门: 又增补了两个评论数据集: (10k movie, 10M rating)电影; (200k book,1M rating)书籍 //@好东西传送门:回复@海中的沙粒: 感谢提醒,这一次主要是针对该问题的资源整理,目前列表里原来有12项,现在有增补了CMU的ClueWeb2009网页数据集(10亿页),NIST TREC的测试数据 [ [微博](http://www.weibo.com/5220650532/BkDzbsk24) ] + * 2014-08-30 [资料整理] @鱼片的小露宝 我正在学习hadoop,我想知道从哪里可以获取一些原始数据样本(就好像hadoop权威指南里面所说的NCDC的气象数据日志)来做数据分析的练习? 答: 一些大数据与目录: http://t.cn/RhZqcq9 气象遥感数据因有图片通常比较大;政府数据包罗万象;(社交)网络数据边多。 [ [微博](http://www.weibo.com/5220650532/BkD1Yu1WE) ] + +2014-08-30 [资料整理] @鱼片的小露宝 我正在学习hadoop,我想知道从哪里可以获取一些原始数据样本(就好像hadoop权威指南里面所说的NCDC的气象数据日志)来做数据分析的练习? 答: 一些大数据与目录: http://t.cn/RhZqcq9 气象遥感数据因有图片通常比较大;政府数据包罗万象;(社交)网络数据边多。 [ [微博](http://www.weibo.com/5220650532/BkD1Yu1WE) ] + +2014-08-30 [数据资源] 日本政治、经济、地理数据大全(免费,可下载)http://t.cn/RhZb561 日本开放政府数据网站测试版(www.data.gov.jp)于2014年发布,现有来自21个政府部门的10,411个数据集。 其他数据源:历年人口、工业、经济普查数据; 政府预算数据; 地理信息数据;1947-2003议会选举数据 等 [ [微博](http://www.weibo.com/5220650532/BkCwfoJ0Y) ] + +2014-08-29 [好文略读|机器学习] Big data opportunities and challenges: Discussions from data analytics perspectives (综述,@南大周志华 等著)http://t.cn/Rh7IH66 感谢推荐人 @刘知远THU @RAYMOND__WU 等 [ [微博](http://www.weibo.com/5220650532/BkuQ30GSA) ] + +2014-08-29 Google2014 KDD 的文章,讲他们自动知识图谱提取项目Knowledge Vault的最新进展,比较了人肉众包生成的知识图谱(dbpedia, freebase,...): http://t.cn/RhhjLVe Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion [ [微博](http://www.weibo.com/5220650532/Bkt39dyDU) ] + +2014-08-29 传送原因: 中英文对照 Communications of the ACM 2012 //@网路冷眼: 找到了,发表在中国计算机学会通讯上面的一篇翻译文章<机器学习那些事> http://t.cn/RhPxmIl [赞] //@52nlp: 印象 @刘知远THU 同学翻译过 [ [微博](http://www.weibo.com/5220650532/Bkrxo2j4u) ] + * 2014-08-27 美国华盛顿大学计算机科学及工程系,机器学习的大牛Pedro Domingos所著总结了机器学习的研究者和实践者所学到的十二个关键的经验教训。这些包括避免陷阱、以重要的问题为重点和常见问题的解答. 貌似@52NLP 提及过 http://t.cn/zlK8HTU [ [微博](http://www.weibo.com/1715118170/BkhayDnra) ] + +2014-08-28 问: @钱知易: 能不能帮我找找大规模图像检索方面的资料以及这个领域的牛人(国内国外)? 答: 初步结果:http://t.cn/RPe5HBt 中科大 杨晓冬有一个很全面的计算机视觉领域资料整理。兰晓松 在科学网上著有专家列表,2014年9月自动化所有一个“计算机视觉前沿研讨会” ,列举了许多国内著名专家 [ [微博](http://www.weibo.com/5220650532/BklQZALi7) ] + +2014-08-28 问: @Don0719 有没有做正电子无损检测的大佬或者相关的书籍、文献啊? 答: 欢迎材料学问题。 问答进展看这里 http://t.cn/RPsI3yE 推荐R. Krause Rehberg 2010年的幻灯片。正电子湮没研究论文很多,还有专门国际会议。无损检测相关找到6篇。欢迎专家补充指正。 [ [微博](http://www.weibo.com/5220650532/BklhZul43) ] + * 2014-08-28 有没有做正电子无损检测的大佬或者相关的书籍、文献啊@好东西传送门 @Rachel____Zhang @人人林关亮 @西瓜大丸子汤 @孙明明_SmarterChina @黑伽罗 http://t.cn/RP6nGI0 [ [微博](http://www.weibo.com/2305250811/Bkhuj9CUi) ] + +2014-08-27 SVD,LSI,PCA 是线性代数 在数据挖掘中应用的基本概念,常用于数据降维(每个提取的features对应一个维度),需要重点理解。 原文作者应该是 @LeftNotEasy 吧 [ [微博](http://www.weibo.com/5220650532/Bkh2Lecdh) ] + * 2014-08-27 @好东西传送门 @龙星计划 关于SVD奇异值分解讲的非常清楚的文章,从矩阵的特征值分解到奇异值分解,再到矩阵的近似逼近,讲的非常透彻的文章!包括svd计算,LSI(潜在语义),以及PCA(主成分析)。http://t.cn/zO0ffR2 [ [微博](http://www.weibo.com/1805841815/BkgARFhuk) ] + +2014-08-27 是这个问题吗? accelerating bayesian network 200X using a GPU 问答进展看这里: http://t.cn/RPku09w [ [微博](http://www.weibo.com/5220650532/BkgNJu9af) ] + * 2014-08-27 有哪些大牛做过GPU加速贝叶斯网络学习,还有相关的代码,方便学习@好东西传送门 [ [微博](http://www.weibo.com/1974787502/BkfWmyZUV) ] + +2014-08-27 问:@月光馆果果妈 请问从语音和视频资源共同进行学习的算法谁比较有研究啊 答: 深度学习是当前趋势(斯坦福,微软,谷歌都这样)。专家 Andrew Ng, Geoffrey Hinton, Li Deng, Louis-Philippe Morency, Ruslan Salakhutdinov, 微博技术控:@言语挖挖 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BkdhGpY4d) ] + +2014-08-27 传送一个关于学术笑话: 论文评审分两类,一种呢是评审截止日期早就过了,另一种是还没过期的。“There are two types of manuscript reviews. Those that are overdue, and those that are not overdue yet.” 如果看数据分布的话,估计最常见的是“明天就是评审截止日了,咋一篇都没审呢?” [ [微博](http://www.weibo.com/5220650532/BkctZ33Iu) ] + +2014-08-27 非常感谢 @董力at北航 他本科时候做的一个KDD2012demo http://t.cn/RPDwF8S (情感细分为厌恶、愤怒、高兴、悲伤四类 )很好玩,分析各省人民的情绪彼岸花,小心地图炮呦?能下载数据。 此外他以前还推荐过 http://t.cn/Sc68lv Sentiment Symposium Tutorial [ [微博](http://www.weibo.com/5220650532/Bkco7lkJU) ] + * 2014-08-27 问: @蒋宁平 求推荐中文情感计算资源,包括中文情感词库,尤其是细分情感种类的(比如喜爱,愤怒,悲伤…等)。 答:问答进展:http://t.cn/RPeutqb 初步答案:斯坦福有公开课和基于深度学习的成果。知乎有资源列表。刘兵教授有综述。数据看 NTUSD, 知网。微博问 @TT小和子 @黠之大者 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BkbzO54pR) ] + +2014-08-27 非常感谢 @posa88 推荐 lingpipe的影评数据(基于IMDB)由康奈尔的 Lillian Lee 和 Bo Pang 提供 //@posa88:大连理工这个库用过,还行:http://t.cn/RPesat2 ,http://t.cn/bln2a [ [微博](http://www.weibo.com/5220650532/BkcgExrKL) ] + * 2014-08-27 问: @蒋宁平 求推荐中文情感计算资源,包括中文情感词库,尤其是细分情感种类的(比如喜爱,愤怒,悲伤…等)。 答:问答进展:http://t.cn/RPeutqb 初步答案:斯坦福有公开课和基于深度学习的成果。知乎有资源列表。刘兵教授有综述。数据看 NTUSD, 知网。微博问 @TT小和子 @黠之大者 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BkbzO54pR) ] + +2014-08-27 问: @蒋宁平 求推荐中文情感计算资源,包括中文情感词库,尤其是细分情感种类的(比如喜爱,愤怒,悲伤…等)。 答:问答进展:http://t.cn/RPeutqb 初步答案:斯坦福有公开课和基于深度学习的成果。知乎有资源列表。刘兵教授有综述。数据看 NTUSD, 知网。微博问 @TT小和子 @黠之大者 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BkbzO54pR) ] + +2014-08-27 回复@DataMooc: 有相关问答,整理中,参见 http://t.cn/RPmIw2I //@DataMooc:有没有Python版的中文分词开源工具? //@好东西传送门:搭车再次推荐ansj, 孙健写的很有用的中文分词工具。http://weibo.com/5220650532/Bh9WGeljD //@ansj: 应该不是[衰] //@好东西传送门:@夏二货爱吃 [ [微博](http://www.weibo.com/5220650532/Bkb1stYmh) ] + * 2014-08-26 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] + +2014-08-27 http://t.cn/RPeILJ1 链接在这里 [ [微博](http://www.weibo.com/5220650532/Bk8n73Qla) ] + * 2014-08-25 强烈推荐@王威廉 的《大数据时代的机器学习热点:ICML2013参会感想》,对当前机器学习热点做了简短的科普,不过貌似有私心,对自己学院的技术多介绍了一些哈。[嘻嘻] @好东西传送门 @developerWorks @星空下的巫师 @龙星计划 [ [微博](http://www.weibo.com/5172229575/BjUJ6w613) ] + +2014-08-27 搭车再次推荐ansj, 孙健写的很有用的中文分词工具。http://weibo.com/5220650532/Bh9WGeljD //@ansj: 应该不是[衰] //@好东西传送门:@夏二货爱吃胡萝卜: 万恶的微软官网居然用自动翻译!是孙剑 //@夏二货爱吃胡萝卜:@图像视觉研究:的确是说错了。是孙剑。 //@严浩RB:这个孙健是写ansj的那个吗? [ [微博](http://www.weibo.com/5220650532/Bk8kLotLu) ] + * 2014-08-26 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] + +2014-08-26 回复@夏二货爱吃胡萝卜: 感谢指正,万恶的多语言系统,微软官网居然用自动翻译,当然名字就翻错了。是孙剑 //@夏二货爱吃胡萝卜:回复@图像视觉研究:的确是说错了。是孙剑。 //@好东西传送门:回复@严浩RB: 此孙健 是微软研究员 http://t.cn/RPe4I9D 搞图像处理, //@严浩RB:这个孙健是写ansj的那个吗? [ [微博](http://www.weibo.com/5220650532/Bk7zycQvc) ] + * 2014-08-26 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] + +2014-08-26 回复@严浩RB: 此孙健 是微软研究员 http://t.cn/RPe4I9D 搞图像处理, //@严浩RB:这个孙健是写ansj的那个吗? //@好东西传送门:问答进展:http://t.cn/RPgpH65 有不少IEEE Fellow, 华人还有 UIUC马毅(现在上海) 微软亚洲研究院:孙健 。到CVPR, ICCV上多看看能 [ [微博](http://www.weibo.com/5220650532/Bk7qGAF9O) ] + * 2014-08-26 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] + +2014-08-26 回复@严浩RB: 非也 http://t.cn/RPe4GEw 彼孙健: Ansj 是一个开源的 Java 中文分词工具“胸无大志,没想过创业,没想过发财,只想高高兴兴写两行代码,做了近五年Java程序员,写过页面,干过运维,做过人力“ //@严浩RB:这个孙健是写ansj的那个吗? //@好东西传送门:问答进展:http://t.cn/RPgpH65 [ [微博](http://www.weibo.com/5220650532/Bk7q9uMks) ] + * 2014-08-26 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] + +2014-08-26 问:@pkuxkxjason 求推荐靠谱的自动摘要软件/服务。特别是针对科技类内容的。答: 问题进展 http://t.cn/RPg0Dkn 两个quora回答但实用工具可靠性低。还要请 @算文解字 指点迷津,他说过 “单文档summerization不是被snippet判死刑了么?” 找到相关文章 http://t.cn/RPg0DkH [ [微博](http://www.weibo.com/5220650532/Bk4hHahVS) ] + * 2014-08-24 求推荐靠谱的自动摘要软件/服务。特别是针对科技类内容的。@印象笔记 @好东西传送门 [ [微博](http://www.weibo.com/1042871981/BjJv0pvT2) ] + +2014-08-26 问答进展:http://t.cn/RPgpH65 有不少IEEE Fellow, 华人还有 UIUC马毅(现在上海) 微软亚洲研究院:孙健 。到CVPR, ICCV上多看看能找到不少当打的大小牛 [ [微博](http://www.weibo.com/5220650532/Bk4aUlKJi) ] + * 2014-08-26 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] + +2014-08-26 问: @杨洋MQ Social Network 中 Spammer Detection 方面 都有哪些 中文、英文的数据集?答: 初步回答:http://t.cn/RPgtKAl 公开的大多是email,中文较老有2006 TREC , 2005 CCERT;英文有Twitter数据集和Spammer列表。近年未公开:Berkeley, ASU有Twitter研究; 国内要联系上交大。求更多链接 [ [微博](http://www.weibo.com/5220650532/Bk2BaFaY2) ] + +2014-08-25 //@昊奋: 这个之前通过@好东西传送门 介绍知识图谱时,介绍过这个probabilistic kb。其实离真正大规模可用还有很长路要走。所谓的可信大部分可在freebase中找到,也就是说freebase的质量和规模决定了很多 [ [微博](http://www.weibo.com/5220650532/BjVr9tH7z) ] + * 2014-08-25 【Google将建全球最大知识库】Google创建名为Knowledge Vault的知识库,通过算法自动搜集网上信息,通过机器学习把数据变成可用知识。目前Knowledge Vault已收集了16亿件事实,其中2.71亿件是“可信的”。“可信”指Google把新事实与已掌握知识对照后,认为其准确的可能性是90%。http://t.cn/RPrEM1D [ [微博](http://www.weibo.com/1642720480/BjTl9k81q) ] + +2014-08-25 //@velvel2: 1)首位华人AAAI fellow杨强博士研究转移学习很多年了。多任务学习是其中一种 http://t.cn/aepeZn 2)Bengio的深度学习新书有一章也是关于转移学习和多任务学习的 http://t.cn/RPdxFds [ [微博](http://www.weibo.com/5220650532/BjVr0j8uQ) ] + * 2014-08-19 问: @唐小sin 有没有multi-task learning的相关学习资料呢? 答: 维基百科上有不少经典文献。AAAI和ICML都有论文(北大/清华)。找到今年Honglak Lee (U Michigan 教授)的短教程。Lan Žagar 博士论文(2014) Ranking by Multitask Learning. 问答追踪: http://t.cn/RP8a3Ax 求补充 [ [微博](http://www.weibo.com/5220650532/BiZl47k80) ] + +2014-08-24 回复@phunter_lau: 感谢有爱心的专家 传送理由: 面试官的面经 //@phunter_lau:回复@好东西传送门:复制粘贴一下“我都是国外面经,都是谈谈你之前做过啥,你就做过啥讲了就行了。我们一般不测试面试人什么问题,默认他简历上说的都是真实的,然后拿几个实际问题看看他的看法和解决方向如何就基本上知道 [ [微博](http://www.weibo.com/5220650532/BjLGK2IJe) ] + * 2014-08-24 问: @尘绳聋-SYSU 大大ML面经来一发?急需 答:假设需要的是软件工程师求职,寻找机器学习(machine learning)面经。建议多看题,把自己的知识强化。很多问答系统都有常见面试问题列表, 初步有 reddit, stackoverflow, quora, 知乎 等。问答进展: http://t.cn/RPB1Sxf 欢迎补充指正,尤其是具体面经 [ [微博](http://www.weibo.com/5220650532/BjLqu8Kw0) ] + +2014-08-24 问: @尘绳聋-SYSU 大大ML面经来一发?急需 答:假设需要的是软件工程师求职,寻找机器学习(machine learning)面经。建议多看题,把自己的知识强化。很多问答系统都有常见面试问题列表, 初步有 reddit, stackoverflow, quora, 知乎 等。问答进展: http://t.cn/RPB1Sxf 欢迎补充指正,尤其是具体面经 [ [微博](http://www.weibo.com/5220650532/BjLqu8Kw0) ] + +2014-08-24 回复@AixinSG: 多谢补充,NUS 在这方面做的很不错,链接传送 http://t.cn/RPB3zgO 还有一篇相关的是 Addressing cold-start in app recommendation: latent user models constructed from twitter followers //@AixinSG:SIGIR14 有一篇 New and Improved: Modeling Versions to Improve App Recom [ [微博](http://www.weibo.com/5220650532/BjLil85H7) ] + * 2014-08-24 问: @应豪超 :有关于手机app推荐的文章吗 答: 就是找论文,关键词 Recommender Systems that Suggest Mobile Applications 。 初步结果 找到一个2011年移动推荐讨论班的幻灯片(领域综述),一篇IUI2013 (列举feature), 一篇SIGIR 2013, 还有若干相关, 问答进展: http://t.cn/RPBuvdZ 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BjLc4frgA) ] + From b469f433dde72048d70d6eb1ddfc1bc39ff1059a Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 15:45:25 -0700 Subject: [PATCH 341/485] Update test-recent.md --- awesome/test-recent.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/awesome/test-recent.md b/awesome/test-recent.md index 89cf4a9..fccdbc6 100644 --- a/awesome/test-recent.md +++ b/awesome/test-recent.md @@ -1,7 +1,8 @@ 2014-09-11 #夜读春秋# GDP与汇率数据是经济、金融研究的基本盘! (数据资源整理: http://t.cn/RhVDKg5 ) 1.世界银行的全球各国GDP(1983-2013)http://t.cn/hFsNY 2. 美联储汇率数据(H.10): http://t.cn/RhVDKgq (1996-2014) 3. 那台北的GDP呢? http://t.cn/RhVgFWl ,http://t.cn/zOMb9mJ [ [微博](http://www.weibo.com/5220650532/Bmpx29PN5) ] 2014-09-11 谢谢建议,我们会努力。改进的网站会有的。想不想要个电子邮件周报什么的,把每周的发布的好东西一网打尽? //@海中的沙粒:给个建议,好东西以后重新搞个博,不然因重复遗漏 //@好东西传送门: 加进列表了 pdf传送门 http://t.cn/RhcFi0l //@诸神善待民科组: 图是种方法Method,不是模型 Model,没说到 B [ [微博](http://www.weibo.com/5220650532/BmplNnCI3) ] - * 2014-09-10 [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] + +> 2014-09-10 [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] 2014-09-10 #NLP# 诸君,"城市规划" 领域词表来了, 还等什么呢? 数据传送门 http://t.cn/RhVVYBk 感谢 @国际城市规划 //@规划中国: //@国际城市规划: 编撰词典对我等难度太大,欢迎有缘人慢慢加入积累 http://t.cn/RhVcLWx //@城规田宝江: 好想法!//@中大袁媛: 可以出版一本专业英语的词典或教材 [ [微博](http://www.weibo.com/5220650532/Bmm8O31VG) ] * 2014-09-09 《国际城市规划》编辑部在多年来出版外文文献的过程中,积累了大量的专业词汇(英汉对照)。把这些专业词汇汇总归纳起来对一些读者应该是有益处的,同时也是我们对自己工作的不断回顾和总结。我们会持续将这一工作做下去。欢迎提出宝贵意见,也欢迎有兴趣的朋友加入这个行列.详见 http://t.cn/Rhtk0hX [ [微博](http://www.weibo.com/2092965653/BmcMpz6dI) ] From 61e8c34bdcb77236aa8332609ac33f01a14189cf Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 15:46:55 -0700 Subject: [PATCH 342/485] Update test-recent.md --- awesome/test-recent.md | 195 +++++++++++++++++++++++++++-------------- 1 file changed, 130 insertions(+), 65 deletions(-) diff --git a/awesome/test-recent.md b/awesome/test-recent.md index fccdbc6..ad825c3 100644 --- a/awesome/test-recent.md +++ b/awesome/test-recent.md @@ -5,21 +5,26 @@ > 2014-09-10 [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] 2014-09-10 #NLP# 诸君,"城市规划" 领域词表来了, 还等什么呢? 数据传送门 http://t.cn/RhVVYBk 感谢 @国际城市规划 //@规划中国: //@国际城市规划: 编撰词典对我等难度太大,欢迎有缘人慢慢加入积累 http://t.cn/RhVcLWx //@城规田宝江: 好想法!//@中大袁媛: 可以出版一本专业英语的词典或教材 [ [微博](http://www.weibo.com/5220650532/Bmm8O31VG) ] - * 2014-09-09 《国际城市规划》编辑部在多年来出版外文文献的过程中,积累了大量的专业词汇(英汉对照)。把这些专业词汇汇总归纳起来对一些读者应该是有益处的,同时也是我们对自己工作的不断回顾和总结。我们会持续将这一工作做下去。欢迎提出宝贵意见,也欢迎有兴趣的朋友加入这个行列.详见 http://t.cn/Rhtk0hX [ [微博](http://www.weibo.com/2092965653/BmcMpz6dI) ] + +> 2014-09-09 《国际城市规划》编辑部在多年来出版外文文献的过程中,积累了大量的专业词汇(英汉对照)。把这些专业词汇汇总归纳起来对一些读者应该是有益处的,同时也是我们对自己工作的不断回顾和总结。我们会持续将这一工作做下去。欢迎提出宝贵意见,也欢迎有兴趣的朋友加入这个行列.详见 http://t.cn/Rhtk0hX [ [微博](http://www.weibo.com/2092965653/BmcMpz6dI) ] 2014-09-10 #机器学习# 领域大牛 Michael Jordan 是Andrew Ng的博士导师,擅长 recurrent neural networks , Bayesian nonparametric analysis, probabilistic graphical models, spectral methods, kernel machines 机会难得有问题赶紧上Reddit上问,http://t.cn/aOioBZ [ [微博](http://www.weibo.com/5220650532/Bmm3VbIR5) ] - * 2014-09-10 Michael Jordan 教授也在 reddit 上开了 AMA, 大家可以问他任何问题,他明天一起回答:http://t.cn/RhVqV11 [ [微博](http://www.weibo.com/2288385870/BmlWJy7Od) ] + +> 2014-09-10 Michael Jordan 教授也在 reddit 上开了 AMA, 大家可以问他任何问题,他明天一起回答:http://t.cn/RhVqV11 [ [微博](http://www.weibo.com/2288385870/BmlWJy7Od) ] 2014-09-10 问: @chico2011 @leo_lq 求推荐金融交易风险评估方面的文献 答: 资源列表 http://t.cn/RhVqWuZ 金融风险管理领域全局观参见 Financial Institutions Management: A Risk Management Approach (沃顿学院教科书)。量化评估方法(含风险价值 VaR)有2011年综述, 此外咱做了个VaR相关概念的脑图 请补充指正 [ [微博](http://www.weibo.com/5220650532/BmlXxt5hC) ] 2014-09-10 张天雷 《概率编程语言与贝叶斯方法实践》 //@小猴机器人: 来,给个中文介绍哈, http://t.cn/RPwbEPz [ [微博](http://www.weibo.com/5220650532/BmkyPihT4) ] - * 2014-09-10 [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] + +> 2014-09-10 [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] 2014-09-10 加进列表了 pdf传送门 http://t.cn/RhcFi0l //@诸神善待民科组: 图是种方法Method,不是模型 Model,没说到 Bayesian Reasoning and Machine Learning 真是不开心,这比 Koller 的 PGM 好读,好处是图多,我就喜欢看图说话的小二班 [ [微博](http://www.weibo.com/5220650532/BmkxhgVMr) ] - * 2014-09-10 [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] + +> 2014-09-10 [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] 2014-09-10 赞,维基百科wikipedia在某种程度也承载了很多领域的知识体系,所以大家搜索时喜欢用它 [ [微博](http://www.weibo.com/5220650532/BmjA3bOEr) ] - * 2014-09-10 每个专业领域都有一个知识体系(body of knowledge),无论是财务、供应链、项目管理、人力资源,还是历史、哲学、心理。构建完整的知识框架,是正确的逻辑和认知的基础;缺乏知识体系地推断现象,就是通常所说的瞎子摸象,只见树木不见森林。 [ [微博](http://www.weibo.com/1494723892/BmjxllPqA) ] + +> 2014-09-10 每个专业领域都有一个知识体系(body of knowledge),无论是财务、供应链、项目管理、人力资源,还是历史、哲学、心理。构建完整的知识框架,是正确的逻辑和认知的基础;缺乏知识体系地推断现象,就是通常所说的瞎子摸象,只见树木不见森林。 [ [微博](http://www.weibo.com/1494723892/BmjxllPqA) ] 2014-09-10 [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] @@ -28,97 +33,122 @@ 2014-09-10 US News 全美大学排名数据集: 新鲜出炉2015年排名前150的综合大学(national university)和文理学院(national liberal art college) . 资源列表 http://t.cn/RhcYKC2 包括1983-2007, 2008, 2009, 2010, 2011-2015 数据,应该比较全了. 欢迎补充 [ [微博](http://www.weibo.com/5220650532/BmizVr1sS) ] 2014-09-10 458万东西: 144万人, 73万地点, 41万作品(含12万音乐专辑, 8.7万电影,1.9万视频游戏), 24万组织(含5.8万公司,4.9万教育机构), 25万物种等 [ [微博](http://www.weibo.com/5220650532/BmizMhrjB) ] - * 2014-09-10 DBpedia今天更新了,除了丰富dataset本身与到其他ontology(e.g., freebase)的link外,最主要的还是基于heiko paulheim,jens lehmann等人关于ontology enrichment的工作,将dbpedia数据本身丰富了语义,比如增加了一些infobox缺失情况下的type inference。地址: http://t.cn/RhcjuOq [ [微博](http://www.weibo.com/1788897365/BmirJsEDH) ] + +> 2014-09-10 DBpedia今天更新了,除了丰富dataset本身与到其他ontology(e.g., freebase)的link外,最主要的还是基于heiko paulheim,jens lehmann等人关于ontology enrichment的工作,将dbpedia数据本身丰富了语义,比如增加了一些infobox缺失情况下的type inference。地址: http://t.cn/RhcjuOq [ [微博](http://www.weibo.com/1788897365/BmirJsEDH) ] 2014-09-09 http://t.cn/zOpIrjJ 中文语言资源联盟,英文译名Chinese Linguistic Data Consortium,缩写为CLDC, 有少数民族语言,方言数据 //@龙星镖局:有专门放入方言的nlp研究 吗?@白硕SH 老师 //@殆知阁:转发微博 [ [微博](http://www.weibo.com/5220650532/BmcCdeWno) ] - * 2014-09-09 #书目#《现代汉语方言大词典》,李荣 编 ,出版年: 2002-12,页数: 6556,定价: 1128.00元——看看这么贵,还是省省,在图书馆查吧!期待电子版本。@殆知阁 [ [微博](http://www.weibo.com/2139856433/BmchA2F4a) ] + +> 2014-09-09 #书目#《现代汉语方言大词典》,李荣 编 ,出版年: 2002-12,页数: 6556,定价: 1128.00元——看看这么贵,还是省省,在图书馆查吧!期待电子版本。@殆知阁 [ [微博](http://www.weibo.com/2139856433/BmchA2F4a) ] 2014-09-09 好东西 ,向 迷渡 justjavac (索引的作者)致敬! 顺路推荐一下他的另一个工作 "Google 全球 IP 地址库" , http://t.cn/RvabGv5 //@justjavac: 我说今天怎么收到好多私信呢,原来根源在这儿啊。//@CSDN_CODE:Mark! [ [微博](http://www.weibo.com/5220650532/BmcoO4bqA) ] - * 2014-09-09 【免费编程中文书籍索引】一个蛮全的免费书籍索引,有编程类书籍,还有专门为程序员准备的非编程类书籍。随手转发,支持正版!http://t.cn/8kJZNap #技术新知客# [ [微博](http://www.weibo.com/2295615873/BmbJTcBGK) ] + +> 2014-09-09 【免费编程中文书籍索引】一个蛮全的免费书籍索引,有编程类书籍,还有专门为程序员准备的非编程类书籍。随手转发,支持正版!http://t.cn/8kJZNap #技术新知客# [ [微博](http://www.weibo.com/2295615873/BmbJTcBGK) ] 2014-09-09 谢谢夸奖,分享一个体验: 有时很难一次把问题说清楚 (要不直接搜索了),所以私信交流很有帮助。 一句话,很高兴帮助你解决问题 ;) [ [微博](http://www.weibo.com/5220650532/BmckKeAqI) ] - * 2014-09-09 @好东西传送门, 你的点餐服务,我给满分,嘿嘿,又有私信交流,还有指导性推荐,微博做到这份上,目前阶段来说,算很棒啦 [ [微博](http://www.weibo.com/1843007450/Bm9DO2S76) ] + +> 2014-09-09 @好东西传送门, 你的点餐服务,我给满分,嘿嘿,又有私信交流,还有指导性推荐,微博做到这份上,目前阶段来说,算很棒啦 [ [微博](http://www.weibo.com/1843007450/Bm9DO2S76) ] 2014-09-09 找到一组相关测试数据集(VAST challenge 2003-现在),基本上就是用户利用可视化工具,根据特定需要分析大规模业务数据,继而推理验证猜想。 例如分析预测恐怖袭击,发现金融犯罪嫌疑人,有一篇总结文章值得一读: http://t.cn/Rhtmw01 [ [微博](http://www.weibo.com/5220650532/BmbO4EuMd) ] - * 2014-09-09 问: @海中的沙粒 点餐,我想要更多关于可视分析学的资料? 答: 可视分析学(Visual Analytics) 利用可视化方法支持对大规模复杂(科学)数据的人机协同分析推理。问答进展收录: 经典, 综述, 社区, 会议等资源 http://t.cn/Rht6xF8 看附图, 一分钟理解其定位、原理以及跨学科特性。 [ [微博](http://www.weibo.com/5220650532/BmbGkaI7Z) ] + +> 2014-09-09 问: @海中的沙粒 点餐,我想要更多关于可视分析学的资料? 答: 可视分析学(Visual Analytics) 利用可视化方法支持对大规模复杂(科学)数据的人机协同分析推理。问答进展收录: 经典, 综述, 社区, 会议等资源 http://t.cn/Rht6xF8 看附图, 一分钟理解其定位、原理以及跨学科特性。 [ [微博](http://www.weibo.com/5220650532/BmbGkaI7Z) ] 2014-09-09 问: @海中的沙粒 点餐,我想要更多关于可视分析学的资料? 答: 可视分析学(Visual Analytics) 利用可视化方法支持对大规模复杂(科学)数据的人机协同分析推理。问答进展收录: 经典, 综述, 社区, 会议等资源 http://t.cn/Rht6xF8 看附图, 一分钟理解其定位、原理以及跨学科特性。 [ [微博](http://www.weibo.com/5220650532/BmbGkaI7Z) ] 2014-09-09 问:@_绝影_ 求助 刚开始做图像融合相关领域研究,请问有哪些大牛? 答:进展 http://t.cn/RhqD63F 图像融合(Image Fusion)在计算机视觉(computer vision), 遥感(remote sensing)和医学图像(Medical Image)上都有应用,可追踪会议IPCV,ICIFE, 期刊IJCV 及综述。大牛欢迎专家传送 [ [微博](http://www.weibo.com/5220650532/Bm9jvfke6) ] 2014-09-09 转发理由:开放政府数据。另外推荐RPI的 Linking Open Government Data,收录了1800多个数据集,100亿RDF三元组 http://t.cn/RhtMeAj [ [微博](http://www.weibo.com/5220650532/Bm8UryKa7) ] - * 2014-09-04 【干货来袭:由22个联邦机构分享的6482个数据集】你在为寻找 数据集发愁吗?来,看这里 ==》 http://t.cn/RhUMeQ6[围观] [ [微博](http://www.weibo.com/3847741679/Blpg6D4Bu) ] + +> 2014-09-04 【干货来袭:由22个联邦机构分享的6482个数据集】你在为寻找 数据集发愁吗?来,看这里 ==》 http://t.cn/RhUMeQ6[围观] [ [微博](http://www.weibo.com/3847741679/Blpg6D4Bu) ] 2014-09-09 好东西,北京语言大学威武。插个话, 著名的汉语水平考试(HSK,...)是由北京语言大学汉语水平考试中心设计研制的 //@52nlp: [good][good][good] [ [微博](http://www.weibo.com/5220650532/Bm7DQ3NCC) ] - * 2014-09-08 【中秋福利】北语汉语语料库(BLCU Chinese Corpus,BCC)正式上线!100亿字报刊、社交、文学、科技语料~规模完爆CCRL和国家语委语料库。全文检索更方便,支持模糊查找和长距离模式查找。全文自动分词并词性标注。语料库http://t.cn/Rh5E63s 研发中心http://t.cn/h4mhKN [ [微博](http://www.weibo.com/1242190153/Bm3oU00UX) ] + +> 2014-09-08 【中秋福利】北语汉语语料库(BLCU Chinese Corpus,BCC)正式上线!100亿字报刊、社交、文学、科技语料~规模完爆CCRL和国家语委语料库。全文检索更方便,支持模糊查找和长距离模式查找。全文自动分词并词性标注。语料库http://t.cn/Rh5E63s 研发中心http://t.cn/h4mhKN [ [微博](http://www.weibo.com/1242190153/Bm3oU00UX) ] 2014-09-09 #夜读春秋# 最近JWT(JSON Web Token,是一种基于JSON的认证安全协议)势头很火,这里找了一个48页的幻灯片,帮你快速了解这些概念的含义,并提供一定全局观 http://t.cn/Rht40uL 该作者(Brian Campbell)还有一个更新的幻灯片讲JWT和JOSE http://t.cn/Rht40uw [ [微博](http://www.weibo.com/5220650532/Bm6KQB6nM) ] 2014-09-08 @phunter_lau 推荐了 Peter Norvig的regex生成器 http://t.cn/8FGNh2J http://t.cn/8FnLiON @孙明明_SmarterChina 推荐了Bartoli等基于遗传算法的实现 http://t.cn/zlmNYLJ @布尔乔亚之犬 推荐了SO上一个很好的讨论贴 http://t.cn/Rh5H2za [good] [ [微博](http://www.weibo.com/5220650532/Bm2SOaRyu) ] - * 2014-09-08 我在寻找一个从文本学习正则表达式的工具,就是我给它一些文本的例子,它输出符合这些文本的一个正则表达式。有没有人知道呢? @好东西传送门 [ [微博](http://www.weibo.com/1932835417/Bm2Idzep8) ] + +> 2014-09-08 我在寻找一个从文本学习正则表达式的工具,就是我给它一些文本的例子,它输出符合这些文本的一个正则表达式。有没有人知道呢? @好东西传送门 [ [微博](http://www.weibo.com/1932835417/Bm2Idzep8) ] 2014-09-08 @phunter_lau 推荐了 Peter Norvig的regex生成器 http://t.cn/8FGNh2J http://t.cn/8FnLiON @孙明明_SmarterChina 推荐了Bartoli等基于遗传算法的实现 http://t.cn/zlmNYLJ @布尔乔亚之犬 推荐了SO上一个很好的讨论贴 [good] [ [微博](http://www.weibo.com/5220650532/Bm2SqyoHc) ] - * 2014-09-08 我在寻找一个从文本学习正则表达式的工具,就是我给它一些文本的例子,它输出符合这些文本的一个正则表达式。有没有人知道呢? @好东西传送门 [ [微博](http://www.weibo.com/1932835417/Bm2Idzep8) ] + +> 2014-09-08 我在寻找一个从文本学习正则表达式的工具,就是我给它一些文本的例子,它输出符合这些文本的一个正则表达式。有没有人知道呢? @好东西传送门 [ [微博](http://www.weibo.com/1932835417/Bm2Idzep8) ] 2014-09-08 求助! [ [微博](http://www.weibo.com/5220650532/Bm2IlgmSx) ] - * 2014-09-08 我在寻找一个从文本学习正则表达式的工具,就是我给它一些文本的例子,它输出符合这些文本的一个正则表达式。有没有人知道呢? @好东西传送门 [ [微博](http://www.weibo.com/1932835417/Bm2Idzep8) ] + +> 2014-09-08 我在寻找一个从文本学习正则表达式的工具,就是我给它一些文本的例子,它输出符合这些文本的一个正则表达式。有没有人知道呢? @好东西传送门 [ [微博](http://www.weibo.com/1932835417/Bm2Idzep8) ] 2014-09-08 黄昌宁 赵海 《中文分词十年回顾 》http://t.cn/Rh5Xe3S //@龙星镖局: 有个 中文分词十年 孙老师搜一下 [ [微博](http://www.weibo.com/5220650532/Bm1jmwaCk) ] - * 2014-09-08 有没有中文分词主流技术的介绍?综述最好,请教 @好东西传送门 [ [微博](http://www.weibo.com/1025887594/Bm0fl4F8b) ] + +> 2014-09-08 有没有中文分词主流技术的介绍?综述最好,请教 @好东西传送门 [ [微博](http://www.weibo.com/1025887594/Bm0fl4F8b) ] 2014-09-08 第一,问题说得很实在,使用hadoop运维成本不可低估、实现价值所依赖的技术链不象成功案例说得那么简单,总之就是你公司的IT部门很有可能搞不定,第二,这也算他推广新公司altiscale的价值 [ [微博](http://www.weibo.com/5220650532/Bm0S5sgSd) ] - * 2014-09-07 【前雅虎CTO:Hadoop扩展过程中的7个危险信号】开源到生产环境使用从来都不是件容易的事情,而大型分布式计算框架Hadoop的实施无疑更加复杂。这里罗列了7种常见问题和解决方案,来自前雅虎首席技术官。http://t.cn/RhbhV47 [ [微博](http://www.weibo.com/1715118170/BlSEon2az) ] + +> 2014-09-07 【前雅虎CTO:Hadoop扩展过程中的7个危险信号】开源到生产环境使用从来都不是件容易的事情,而大型分布式计算框架Hadoop的实施无疑更加复杂。这里罗列了7种常见问题和解决方案,来自前雅虎首席技术官。http://t.cn/RhbhV47 [ [微博](http://www.weibo.com/1715118170/BlSEon2az) ] 2014-09-08 企业研发也要有市场、学术调研 //@新闻传播学研:M //@徐泓xh:[研究生的基本功]从写好文献综述起步. [ [微博](http://www.weibo.com/5220650532/Bm0Dh5yRF) ] - * 2014-08-30 【文献综述专题】①如何写综述文章 ?http://t.cn/RPOsjGH;②三大牛人看外国文献的方法 http://t.cn/Rhwhak1;③研究生如何检索和阅读外文文献?http://t.cn/RhwhakB;④写文献综述的二十八个要点http://t.cn/RPZ9nF1;⑤15个学术搜索引擎http://t.cn/Rhwhakr; [ [微博](http://www.weibo.com/3477370701/BkINW1awH) ] + +> 2014-08-30 【文献综述专题】①如何写综述文章 ?http://t.cn/RPOsjGH;②三大牛人看外国文献的方法 http://t.cn/Rhwhak1;③研究生如何检索和阅读外文文献?http://t.cn/RhwhakB;④写文献综述的二十八个要点http://t.cn/RPZ9nF1;⑤15个学术搜索引擎http://t.cn/Rhwhakr; [ [微博](http://www.weibo.com/3477370701/BkINW1awH) ] 2014-09-07 Tomas Mikolov http://t.cn/Rhq2QVU 很有意思。0.1c版更新等了近九个月,恐怕是跳槽耽误的。他今年5月从Google跳到Facebook, 工作之余还努力维护word2vec开源代码。爱看源代码的可以直接读diff http://t.cn/Rhq2QVZ [ [微博](http://www.weibo.com/5220650532/BlRmn38uo) ] - * 2014-09-07 一早起来看到Mikov更新了word2vec的代码。改动有:添加了一个迭代步数的参数;CBOW的输入层向量累加改成了平均;修改了基线模型(貌似融合了两个模型?);另外还调了把参。在开放语料库上得到了80%的准确性!http://t.cn/RhqAf1E(墙)@好东西传送门 [ [微博](http://www.weibo.com/2872565912/BlRdhejkf) ] + +> 2014-09-07 一早起来看到Mikov更新了word2vec的代码。改动有:添加了一个迭代步数的参数;CBOW的输入层向量累加改成了平均;修改了基线模型(貌似融合了两个模型?);另外还调了把参。在开放语料库上得到了80%的准确性!http://t.cn/RhqAf1E(墙)@好东西传送门 [ [微博](http://www.weibo.com/2872565912/BlRdhejkf) ] 2014-09-06 问: @V井颠V 对国内中长文章(300~5000字)近似新闻门户网站频道粒度的自动分类,有好的模型方法吗? 答: 进展 http://t.cn/RhGTzfI 考虑 statistical topic model, 推荐UIUC翟成祥 ( http://weibo.com/5220650532/BhWo26Y93 ) , Stanford 和Umass 都有软件包 国内工作欢迎补充 [ [微博](http://www.weibo.com/5220650532/BlMR9kjJ7) ] 2014-09-06 感谢推荐,当然是好东西! //@尘绳聋-SYSU: 那个网站还有个R for big data: http://t.cn/zHXfTF1 之前看人推荐过biglm, bigrf等pkg//@尘绳聋-SYSU: [晕] 传说wiseRF比sklearn里的RF更scale更快,不知道是不是真的[威武] [ [微博](http://www.weibo.com/5220650532/BlMJyCoRe) ] - * 2014-09-06 [推荐] 一张很好的脑图胜过千言万语,帮助你获得python的大数据处理工具全局观。http://t.cn/Rhb3P8I [ [微博](http://www.weibo.com/5220650532/BlGE7oFdz) ] + +> 2014-09-06 [推荐] 一张很好的脑图胜过千言万语,帮助你获得python的大数据处理工具全局观。http://t.cn/Rhb3P8I [ [微博](http://www.weibo.com/5220650532/BlGE7oFdz) ] 2014-09-06 多年之前就受益于龙星计划的高质量资源,特别隆重推荐! [ [微博](http://www.weibo.com/5220650532/BlJzVhgIU) ] - * 2014-09-06 @龙星计划 计算机科学技术学术交流系列活动是一个杰出的海外华人教授回国系统讲授研究生课程的计划。已经连续举办了多年。这些的课程信息在http://t.cn/zO0r8Et。点击每个课程链接一般都能下载到对应的PPT。视频比较少,之前陆续发过一些,大家可以搜一下。@好东西传送门 [ [微博](http://www.weibo.com/1830516311/BlJcCiUIX) ] + +> 2014-09-06 @龙星计划 计算机科学技术学术交流系列活动是一个杰出的海外华人教授回国系统讲授研究生课程的计划。已经连续举办了多年。这些的课程信息在http://t.cn/zO0r8Et。点击每个课程链接一般都能下载到对应的PPT。视频比较少,之前陆续发过一些,大家可以搜一下。@好东西传送门 [ [微博](http://www.weibo.com/1830516311/BlJcCiUIX) ] 2014-09-06 传送潜力股。这些好账号本门大多已经关注了 [耶] [ [微博](http://www.weibo.com/5220650532/BlIlA4xHp) ] - * 2014-09-06 人肉推荐几个长尾账号,搞技术学术的大家千万不要错过@AixinSG @陈天奇怪 @Copper_PKU @eyounx_俞扬 @JerryLead @刘成林_PR @计算天空 @LeftNotEasy @诸神善待民科组 @52cs 大v们就不推荐了 我只推荐潜力股[酷] [ [微博](http://www.weibo.com/1830516311/BlIc63bS1) ] + +> 2014-09-06 人肉推荐几个长尾账号,搞技术学术的大家千万不要错过@AixinSG @陈天奇怪 @Copper_PKU @eyounx_俞扬 @JerryLead @刘成林_PR @计算天空 @LeftNotEasy @诸神善待民科组 @52cs 大v们就不推荐了 我只推荐潜力股[酷] [ [微博](http://www.weibo.com/1830516311/BlIc63bS1) ] 2014-09-06 非常感谢,这本书是亚马逊的Computer Vision类畅销书第一名 卡片盒子添加了新链接 //@维尔茨:对于计算机视觉/图像强烈推荐Szeliski的Computer Vision: Algorithms and Applications。传送门:http://t.cn/RhbF7jr好东西传送门: 不好意思,你是找第二版吗? 可以问问 @没有我找不到的电子书 [ [微博](http://www.weibo.com/5220650532/BlIbspyg8) ] - * 2014-09-06 问:@龙星镖局 如果要从零学习图像或语音分析,要从那几本书开始? 答: 问答进展 http://t.cn/Rhbeix0 网络问答结果和相关课程大多推荐这几本经典老教科书:Digital Image Processing (3rd Edition) (2007), Speech and Language Processing, 2nd Edition (2008), 卡片盒子: http://t.cn/Rhbeixp [ [微博](http://www.weibo.com/5220650532/BlHHF1jr2) ] + +> 2014-09-06 问:@龙星镖局 如果要从零学习图像或语音分析,要从那几本书开始? 答: 问答进展 http://t.cn/Rhbeix0 网络问答结果和相关课程大多推荐这几本经典老教科书:Digital Image Processing (3rd Edition) (2007), Speech and Language Processing, 2nd Edition (2008), 卡片盒子: http://t.cn/Rhbeixp [ [微博](http://www.weibo.com/5220650532/BlHHF1jr2) ] 2014-09-06 不好意思,你是找第二版吗? 可以问问 @没有我找不到的电子书 [ [微博](http://www.weibo.com/5220650532/BlHYbucvp) ] - * 2014-09-06 问:@龙星镖局 如果要从零学习图像或语音分析,要从那几本书开始? 答: 问答进展 http://t.cn/Rhbeix0 网络问答结果和相关课程大多推荐这几本经典老教科书:Digital Image Processing (3rd Edition) (2007), Speech and Language Processing, 2nd Edition (2008), 卡片盒子: http://t.cn/Rhbeixp [ [微博](http://www.weibo.com/5220650532/BlHHF1jr2) ] + +> 2014-09-06 问:@龙星镖局 如果要从零学习图像或语音分析,要从那几本书开始? 答: 问答进展 http://t.cn/Rhbeix0 网络问答结果和相关课程大多推荐这几本经典老教科书:Digital Image Processing (3rd Edition) (2007), Speech and Language Processing, 2nd Edition (2008), 卡片盒子: http://t.cn/Rhbeixp [ [微博](http://www.weibo.com/5220650532/BlHHF1jr2) ] 2014-09-06 回复@ustczen: 感谢传送好东西。这是新加坡国立 Min-Yen Kan (靳民彦) 教授 研究组的工作 http://t.cn/SwJHvL @52nlp 2011年转过他们短信捐赠请求 http://t.cn/RhbDbIV //@ustczen:回复@好东西传送门:所以我老年痴呆又犯了么。。附链接:http://t.cn/hrXXWz [ [微博](http://www.weibo.com/5220650532/BlHNqyCgt) ] - * 2014-09-05 分享一个短信语料库, 42140 条英文短信和31205 条中文短信的语料,今年9月份还在更新,可以用来做QA系统。另外想知道微软小冰号称“集合了中国近7亿网民多年积累的全部公开聊天纪录1500万条语料”在哪能找到呢? @好东西传送门 @52nlp [ [微博](http://www.weibo.com/2872565912/BlzpfDZu6) ] + +> 2014-09-05 分享一个短信语料库, 42140 条英文短信和31205 条中文短信的语料,今年9月份还在更新,可以用来做QA系统。另外想知道微软小冰号称“集合了中国近7亿网民多年积累的全部公开聊天纪录1500万条语料”在哪能找到呢? @好东西传送门 @52nlp [ [微博](http://www.weibo.com/2872565912/BlzpfDZu6) ] 2014-09-06 问:@龙星镖局 如果要从零学习图像或语音分析,要从那几本书开始? 答: 问答进展 http://t.cn/Rhbeix0 网络问答结果和相关课程大多推荐这几本经典老教科书:Digital Image Processing (3rd Edition) (2007), Speech and Language Processing, 2nd Edition (2008), 卡片盒子: http://t.cn/Rhbeixp [ [微博](http://www.weibo.com/5220650532/BlHHF1jr2) ] 2014-09-06 [开放数据]印尼政府开放数据 data.ukp.go.id http://t.cn/Rhbrjfv 于2014-09-05上线,有700 多数据集。要使用数据恐怕先要能读懂印尼语(拼写属于拉丁语系,最早源于荷兰语)。此外,2014统计数据表明印尼有2.5亿人,是排名世界人口第四大国。 [ [微博](http://www.weibo.com/5220650532/BlHkREGAC) ] 2014-09-06 传送理由: github上的好东西,快800星了。 作者的博客也很有深度,而且竟然用issue tracker写博客,赞! 这是个例子 http://t.cn/8s35KgP [ [微博](http://www.weibo.com/5220650532/BlH9sz9H9) ] - * 2014-09-01 做了个监控页面变化的开源项目page-monitor( http://t.cn/RhAQ58Y ),用phantomjs运行页面,保存所有元素的标签、属性、计算样式、文本内容,跟历史进行对比,从而发现产品的运营内容变化、功能改版等。由于是基于dom树对比,所以可以灵活的配置规则。貌似很多人想过这类产品,就当多一个开源选择吧。 [ [微博](http://www.weibo.com/1734864282/BkXFmn29q) ] + +> 2014-09-01 做了个监控页面变化的开源项目page-monitor( http://t.cn/RhAQ58Y ),用phantomjs运行页面,保存所有元素的标签、属性、计算样式、文本内容,跟历史进行对比,从而发现产品的运营内容变化、功能改版等。由于是基于dom树对比,所以可以灵活的配置规则。貌似很多人想过这类产品,就当多一个开源选择吧。 [ [微博](http://www.weibo.com/1734864282/BkXFmn29q) ] 2014-09-06 问:@三鹿无毒奶粉 请问贵博关于航班准时预测和机票价格预测有那些相关的论文和模型 答:问答进展 http://t.cn/RhbBwy9 不少人用回归模型 航班准时预测(flight delay):有几篇MIT的文章;机票价格预测(ticket price): 有不少专利(发明人包括USC Craig Knoblock 教授) 卡片盒子 http://t.cn/RhbBwyK [ [微博](http://www.weibo.com/5220650532/BlH4Tc57x) ] 2014-09-06 传送理由:右边的链接真是好东西 -- 不止配色工具,还有大量字体,图片、纹理,壁纸等众多素材资源网站一网打尽。 //@设定控: 配色工具网站汇总 http://t.cn/RPbMz7M [ [微博](http://www.weibo.com/5220650532/BlGYiyx88) ] - * 2014-09-05 【7款靠谱工具帮你选取完美配色】Kulerhttp://t.cn/zlAJ019;PHOTOCOPAhttp://t.cn/zjLHT70;Pictaculoushttp://t.cn/5v56l;Color Palette FXhttp://t.cn/RPc5Y0S;Image Palettehttp://t.cn/RhbpgCB;Color Palette Generatorhttp://t.cn/brxM9;ColorExplorehttp://t.cn/RhbpgCr [ [微博](http://www.weibo.com/5198011111/BlDVpygav) ] + +> 2014-09-05 【7款靠谱工具帮你选取完美配色】Kulerhttp://t.cn/zlAJ019;PHOTOCOPAhttp://t.cn/zjLHT70;Pictaculoushttp://t.cn/5v56l;Color Palette FXhttp://t.cn/RPc5Y0S;Image Palettehttp://t.cn/RhbpgCB;Color Palette Generatorhttp://t.cn/brxM9;ColorExplorehttp://t.cn/RhbpgCr [ [微博](http://www.weibo.com/5198011111/BlDVpygav) ] 2014-09-06 问: @ShawnAtLoss 请问哪边可以找到比较全面的关于大数据的survey 答: 问答进展: http://t.cn/Rhb1b0Z 推荐两类阅读:1 大数据领域地图,覆盖相关 技术,应用,公司 等 2. github好资源合集 http://t.cn/Rhb1b0w 1K+星,上百链接. 卡片盒子(现有6个资源): http://t.cn/Rhb1b0A 欢迎补充 [ [微博](http://www.weibo.com/5220650532/BlGU6teFP) ] 2014-09-06 [推荐] 一张很好的脑图胜过千言万语,帮助你获得python的大数据处理工具全局观。http://t.cn/Rhb3P8I [ [微博](http://www.weibo.com/5220650532/BlGE7oFdz) ] 2014-09-05 转发理由:非常酷的星系生死大片!本超星系团呈羽毛形状,因为有个巨大的吸引子(就是羽毛的中心),不断吞噬星系。这些“羽毛”的绒线就是星系赴死即将遵循的轨迹。在图中银河系只是微不足道的一个小点 [ [微博](http://www.weibo.com/5220650532/BlzOYbTRu) ] - * 2014-09-04 最新研究表明,我们银河系所处的本超星系团比之前所认为的要大百倍!由夏威夷大学的Brent Tully所带领的团队使用最新的邻近星系位置和视向速度数据,采用创新的分析方法重新绘制了本超星系团的地图,他们这整个结构称为Laniakea。(Nature新闻:http://t.cn/RhU5OqB)http://t.cn/RhU5otQ [ [微博](http://www.weibo.com/3751111037/BloG76thp) ] + +> 2014-09-04 最新研究表明,我们银河系所处的本超星系团比之前所认为的要大百倍!由夏威夷大学的Brent Tully所带领的团队使用最新的邻近星系位置和视向速度数据,采用创新的分析方法重新绘制了本超星系团的地图,他们这整个结构称为Laniakea。(Nature新闻:http://t.cn/RhU5OqB)http://t.cn/RhU5otQ [ [微博](http://www.weibo.com/3751111037/BloG76thp) ] 2014-09-05 //@ShangguanRPI: 在前东家也做过一样的数据分析,结论也几乎一致。用的数据集来自usps登记的过去10年所有地址更换记录,不确定census的数据是否也来自这个源。 [ [微博](http://www.weibo.com/5220650532/BlzHefKoa) ] - * 2014-09-05 美国著名房地产公司trulia近日利用政府开放数据 http://t.cn/Rh4Htwl 分析了近年美国人口迁移的倾向:就近,房价低,人口密度小,低失业率 http://t.cn/Rh4HtwO [ [微博](http://www.weibo.com/5220650532/BlyKPBSIT) ] + +> 2014-09-05 美国著名房地产公司trulia近日利用政府开放数据 http://t.cn/Rh4Htwl 分析了近年美国人口迁移的倾向:就近,房价低,人口密度小,低失业率 http://t.cn/Rh4HtwO [ [微博](http://www.weibo.com/5220650532/BlyKPBSIT) ] 2014-09-05 转发理由:世界基本经济数据的可视化,地图均给出了数据出处 [ [微博](http://www.weibo.com/5220650532/BlzmDai0F) ] - * 2014-09-04 #政见资源推荐#【38张图片描述世界经济】38张图片给你呈大家关心的几十个世界经济主题,其中一些关注全球而一些关注区域研究。告诉你世界各地如是如何紧密联系,密切互动而又差异巨大。 http://t.cn/RPeB6W3 [ [微博](http://www.weibo.com/2499096521/Blq1jwr4Z) ] + +> 2014-09-04 #政见资源推荐#【38张图片描述世界经济】38张图片给你呈大家关心的几十个世界经济主题,其中一些关注全球而一些关注区域研究。告诉你世界各地如是如何紧密联系,密切互动而又差异巨大。 http://t.cn/RPeB6W3 [ [微博](http://www.weibo.com/2499096521/Blq1jwr4Z) ] 2014-09-05 美国著名房地产公司trulia近日利用政府开放数据 http://t.cn/Rh4Htwl 分析了近年美国人口迁移的倾向:就近,房价低,人口密度小,低失业率 http://t.cn/Rh4HtwO [ [微博](http://www.weibo.com/5220650532/BlyKPBSIT) ] @@ -133,63 +163,80 @@ 2014-09-04 问: @simba0626 请问现今有哪些成功的智能问答系统? 答: 问答进展 http://t.cn/RhUq00L 成功不好定义,基本用了知识图谱, 例如 IBM DeepQA (watson), wolfram alpha, Apple Siri, Google now。当然学术界也有一群人在做开放领域的图灵测试,如Eugen http://t.cn/RhUq00y 相关文献待会整理个资源合集 [ [微博](http://www.weibo.com/5220650532/BloyuzoCh) ] 2014-09-03 回复@统计之都: 非常感谢 这可是今年7月新鲜出炉的文章,Gilles Louppe http://t.cn/RhyvpGz //@统计之都:Gilles Louppe的博士论文《随机森林:从理论到实践》,PDF下载地址http://t.cn/RP8JQyC。 [ [微博](http://www.weibo.com/5220650532/BlfvG3fm9) ] - * 2014-09-03 问: @董伟_dzw259 哪里能够找到比较详细介绍随机森林的paper吗? 答: http://t.cn/RhLFi4R 随机森林(random forests)原作者之一 Leo Breiman 在“机器学习”2001年期刊有长文。推荐哥伦比亚大学教授Lauren Hannah的讲义。中文 @LeftNotEasy 2011年博文. 资料卡片: http://t.cn/RhLFzN1 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/Blfhkk0qI) ] + +> 2014-09-03 问: @董伟_dzw259 哪里能够找到比较详细介绍随机森林的paper吗? 答: http://t.cn/RhLFi4R 随机森林(random forests)原作者之一 Leo Breiman 在“机器学习”2001年期刊有长文。推荐哥伦比亚大学教授Lauren Hannah的讲义。中文 @LeftNotEasy 2011年博文. 资料卡片: http://t.cn/RhLFzN1 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/Blfhkk0qI) ] 2014-09-03 问: @董伟_dzw259 哪里能够找到比较详细介绍随机森林的paper吗? 答: http://t.cn/RhLFi4R 随机森林(random forests)原作者之一 Leo Breiman 在“机器学习”2001年期刊有长文。推荐哥伦比亚大学教授Lauren Hannah的讲义。中文 @LeftNotEasy 2011年博文. 资料卡片: http://t.cn/RhLFzN1 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/Blfhkk0qI) ] 2014-09-03 问:@子_相 求推荐一个PHP上的内存cache 的mod 答: http://t.cn/RhLeSxQ APC曾是首选(towser451@github 也推荐), 但php5.5用opcache作bytecode cache后, APC user data cache就被删改成APCu。@Laruence (APC, opcache的lead)2013博文指出APC效率问题,并因此开发YAC。卡片盒子: http://t.cn/RhLeSx8 [ [微博](http://www.weibo.com/5220650532/BleQ8wKSv) ] 2014-09-03 在Neural Networks and Deep Learning第四章有对这个定理的可视化阐述,简洁易懂 http://t.cn/RhL8X74 该书我们以前在深度学习系列里也推荐过 http://t.cn/RhLmjtj [ [微博](http://www.weibo.com/5220650532/BlcZI7vdh) ] - * 2014-07-29 @LDL_BIT 问:有哪些文章讲了多层感知器MLP的拟合能力问题?尤其是拟合多项式的能力?答:当使用非线性的激活函数,MLP是图灵完备的,可以模拟任何函数,当然包括多项式函数。这称为普适逼近原理(Universal approximation theorem)。深度学习则提高了逼近的效率。经典论文见 http://t.cn/RPVAYZ4 [ [微博](http://www.weibo.com/5220650532/BfO8hcCYx) ] + +> 2014-07-29 @LDL_BIT 问:有哪些文章讲了多层感知器MLP的拟合能力问题?尤其是拟合多项式的能力?答:当使用非线性的激活函数,MLP是图灵完备的,可以模拟任何函数,当然包括多项式函数。这称为普适逼近原理(Universal approximation theorem)。深度学习则提高了逼近的效率。经典论文见 http://t.cn/RPVAYZ4 [ [微博](http://www.weibo.com/5220650532/BfO8hcCYx) ] 2014-09-01 转发理由:Larochelle是加拿大Université de Sherbrooke的教授。他是蒙特利尔大学Yoshua Bengio的博士,多伦多大学Geoffrey Hinton的博士后,师承深度学习的两大重镇 [ [微博](http://www.weibo.com/5220650532/BkVuU0EdN) ] - * 2014-08-31 我的导师Hugo Larochelle教授的神经网络教程的视频,已经授权我放到优酷上。欢迎大家分享和学习。这个教程涉及到神经网络的基础知识,以及深度学习目前最新的研究进展,是非常好的资料。我也会尽量9月份开始在清华组织神经网络、深度学习相关的学习讨论会,欢迎大家观看和参加!http://t.cn/RhAzUCm [ [微博](http://www.weibo.com/2034296393/BkS0MyvCG) ] + +> 2014-08-31 我的导师Hugo Larochelle教授的神经网络教程的视频,已经授权我放到优酷上。欢迎大家分享和学习。这个教程涉及到神经网络的基础知识,以及深度学习目前最新的研究进展,是非常好的资料。我也会尽量9月份开始在清华组织神经网络、深度学习相关的学习讨论会,欢迎大家观看和参加!http://t.cn/RhAzUCm [ [微博](http://www.weibo.com/2034296393/BkS0MyvCG) ] 2014-09-01 传送原因:用SQL访问Elasticsearch大大方便了查询构造。以前有类似项目ELSeQL, 但已很久没有更新了 @温少 @elasticsearch @Medcl [ [微博](http://www.weibo.com/5220650532/BkU1JcW8K) ] - * 2014-09-01 奋斗了整整一周多的时间...elasticsearch-sql 终于有了初版本.十分高兴.大家尤其是运维或者非搜索的工程师.可以用sql语句来搜或索聚合索引内容了. 有兴趣的朋友来试试吧http://t.cn/RhAtrwJ [ [微博](http://www.weibo.com/1434895303/BkTOzB35q) ] + +> 2014-09-01 奋斗了整整一周多的时间...elasticsearch-sql 终于有了初版本.十分高兴.大家尤其是运维或者非搜索的工程师.可以用sql语句来搜或索聚合索引内容了. 有兴趣的朋友来试试吧http://t.cn/RhAtrwJ [ [微博](http://www.weibo.com/1434895303/BkTOzB35q) ] 2014-08-31 传送理由:开源的推荐系统,从各种语言调用都方便 [ [微博](http://www.weibo.com/5220650532/BkOEij8Pb) ] - * 2014-08-31 Predict.io,目前最实用的开放源码#推荐系统#,重要的是成熟度很高并且#大数据#ready,原始数据存储支持Hadoop/MongoDB,支持多种单机和分布式推荐算法:协同过滤,KNN,SVD++等,支持包括Android/JS/PHP/Python/Ruby多种客户端SDK,支持无服务器的云部署方式,http://t.cn/zRIPHGR [ [微博](http://www.weibo.com/1699016425/BkOd1r5qb) ] + +> 2014-08-31 Predict.io,目前最实用的开放源码#推荐系统#,重要的是成熟度很高并且#大数据#ready,原始数据存储支持Hadoop/MongoDB,支持多种单机和分布式推荐算法:协同过滤,KNN,SVD++等,支持包括Android/JS/PHP/Python/Ruby多种客户端SDK,支持无服务器的云部署方式,http://t.cn/zRIPHGR [ [微博](http://www.weibo.com/1699016425/BkOd1r5qb) ] 2014-08-31 @Copper_PKU 的讲义前段时间推荐过,这个也很赞。 [ [微博](http://www.weibo.com/5220650532/BkOCelqIv) ] - * 2014-08-31 强烈推荐:《主题模型及其扩展》 娓娓道来 可读性极强 [good] 连接:http://t.cn/RPdGsb9 来源:@52cs 作者:@Copper_PKU 请@好东西传送门 @网路冷眼 等童鞋审阅扩散 [呵呵] [ [微博](http://www.weibo.com/1830516311/BkNDFcvBQ) ] + +> 2014-08-31 强烈推荐:《主题模型及其扩展》 娓娓道来 可读性极强 [good] 连接:http://t.cn/RPdGsb9 来源:@52cs 作者:@Copper_PKU 请@好东西传送门 @网路冷眼 等童鞋审阅扩散 [呵呵] [ [微博](http://www.weibo.com/1830516311/BkNDFcvBQ) ] 2014-08-31 传送问题,问答进展 http://t.cn/Rhw4h2m 看过YAC吗? http://t.cn/zYrnBVx [ [微博](http://www.weibo.com/5220650532/BkK3q8zJ6) ] - * 2014-08-31 PHP问题求助:求推荐一个PHP上的内存cache 的mod . 要求是:1 轻量级,2 倾向于embedded本机运行而不是通过网络通信,3 与新版PHP 5.6兼容. 4 这个cache是指存放php 变量数据的cache,而不是bytecode本身 @好东西传送门 @memect [ [微博](http://www.weibo.com/1402229482/BkJCg7ppe) ] + +> 2014-08-31 PHP问题求助:求推荐一个PHP上的内存cache 的mod . 要求是:1 轻量级,2 倾向于embedded本机运行而不是通过网络通信,3 与新版PHP 5.6兼容. 4 这个cache是指存放php 变量数据的cache,而不是bytecode本身 @好东西传送门 @memect [ [微博](http://www.weibo.com/1402229482/BkJCg7ppe) ] 2014-08-30 增补两个相关组织: @九章算法 的专业培训可(程序员的新东方)http://t.cn/RhwAzyN 。 @灵魂机器 组织的程序员北美求职 (肉身翻墙)http://t.cn/RhwAzyp len(卡片盒子)=8 [ [微博](http://www.weibo.com/5220650532/BkJlm0cyz) ] - * 2014-08-30 半夜推荐 Leetcode 资源整理合集。 它目前有150道题,是程序员肉身翻墙的好东西,也适合快速提高自我修养。精选资料在我的卡片盒子里 http://t.cn/RhwwCGL 现在有6项: @灵魂机器 (Frank Dai) 的刷题宝典,若干人的涮题体验。这是一个会成长的卡片盒子,欢迎添加好东西。 [ [微博](http://www.weibo.com/5220650532/BkJheojHW) ] + +> 2014-08-30 半夜推荐 Leetcode 资源整理合集。 它目前有150道题,是程序员肉身翻墙的好东西,也适合快速提高自我修养。精选资料在我的卡片盒子里 http://t.cn/RhwwCGL 现在有6项: @灵魂机器 (Frank Dai) 的刷题宝典,若干人的涮题体验。这是一个会成长的卡片盒子,欢迎添加好东西。 [ [微博](http://www.weibo.com/5220650532/BkJheojHW) ] 2014-08-30 半夜推荐 Leetcode 资源整理合集。 它目前有150道题,是程序员肉身翻墙的好东西,也适合快速提高自我修养。精选资料在我的卡片盒子里 http://t.cn/RhwwCGL 现在有6项: @灵魂机器 (Frank Dai) 的刷题宝典,若干人的涮题体验。这是一个会成长的卡片盒子,欢迎添加好东西。 [ [微博](http://www.weibo.com/5220650532/BkJheojHW) ] 2014-08-30 转发理由:前段时间 @蒋宁平 正在找情感分析资料 //@皮皮虾大屁土鳖小主: 大家不要怕 我们的MPQA已经在重新标了 标完之后欢迎大家重新发一轮paper 记得引用新的corpus和paper哦~ [ [微博](http://www.weibo.com/5220650532/BkFES82Eu) ] - * 2014-08-30 EMNLP-14上又一篇用Convolutional Neural Network做情感分类的,在7个公开数据集中的4个取得了state-of-the-art的结果,照这个搞法真是越来越难做啊。。。 paper链接:http://t.cn/RhZNHAn [ [微博](http://www.weibo.com/1895401411/BkFkCgD88) ] + +> 2014-08-30 EMNLP-14上又一篇用Convolutional Neural Network做情感分类的,在7个公开数据集中的4个取得了state-of-the-art的结果,照这个搞法真是越来越难做啊。。。 paper链接:http://t.cn/RhZNHAn [ [微博](http://www.weibo.com/1895401411/BkFkCgD88) ] 2014-08-30 谢谢表扬[害羞]。门就是为大家传送好东西,能直销,能问答,也支持多级传送。 [ [微博](http://www.weibo.com/5220650532/BkFBtpBKv) ] - * 2014-08-30 注意到个很不好的现象,有些大V,在微博上看到别人分享推荐的好资料之后,会把推荐内容自己编辑一下,然后以自己的名义再发出来。强烈谴责这种只尊重原创者,而不尊重发现者的行为。尊重发现者方面,@好东西传送门 @developerWorks 做得不错[good] ,向他们学习! [ [微博](http://www.weibo.com/1830516311/BkFy0AIKm) ] + +> 2014-08-30 注意到个很不好的现象,有些大V,在微博上看到别人分享推荐的好资料之后,会把推荐内容自己编辑一下,然后以自己的名义再发出来。强烈谴责这种只尊重原创者,而不尊重发现者的行为。尊重发现者方面,@好东西传送门 @developerWorks 做得不错[good] ,向他们学习! [ [微博](http://www.weibo.com/1830516311/BkFy0AIKm) ] 2014-08-30 //@lidingpku: 2010年在上海开ISWC时做了一张幻灯片( http://t.cn/RhZpjfr 第26张),把美国政府数据与中国国家统计局的数据关联起来比较两国GDP历年来的差异 (当然这只能算民科,谁叫咱没金融背景呢) //@潘越_: //@好东西传送门:回复@icanswimwell: 美国的数据前几天才发过 http://t.cn/RhZJNoM [ [微博](http://www.weibo.com/5220650532/BkFz32kjm) ] - * 2014-08-30 [数据资源] 日本政治、经济、地理数据大全(免费,可下载)http://t.cn/RhZb561 日本开放政府数据网站测试版(www.data.gov.jp)于2014年发布,现有来自21个政府部门的10,411个数据集。 其他数据源:历年人口、工业、经济普查数据; 政府预算数据; 地理信息数据;1947-2003议会选举数据 等 [ [微博](http://www.weibo.com/5220650532/BkCwfoJ0Y) ] + +> 2014-08-30 [数据资源] 日本政治、经济、地理数据大全(免费,可下载)http://t.cn/RhZb561 日本开放政府数据网站测试版(www.data.gov.jp)于2014年发布,现有来自21个政府部门的10,411个数据集。 其他数据源:历年人口、工业、经济普查数据; 政府预算数据; 地理信息数据;1947-2003议会选举数据 等 [ [微博](http://www.weibo.com/5220650532/BkCwfoJ0Y) ] 2014-08-30 SAS base 今年KDnudgget数据分析常用工具民意调查( http://t.cn/RhZ0HjY )排名第9,而排名靠前的都有免费版。现在SAS推这个免费版,很好奇它明年的排名 //@刘政-SAS: 回复@侯广_充电ing:大学免费版跟我要,有base, graph, miner, or, 计量经济学和时间序列。//@侯广_充电ing:全国数学建模马上就要开始 [ [微博](http://www.weibo.com/5220650532/BkFytfb9v) ] - * 2014-08-29 自打SAS提供免费软件以来,3个月全球下载量已经超过67000多。你下载了吗?http://t.cn/Rvq6YxN 欧美明显有非常成熟的数据分析市场和大量的使用人群。 [ [微博](http://www.weibo.com/1140645172/BkvcqkvbI) ] + +> 2014-08-29 自打SAS提供免费软件以来,3个月全球下载量已经超过67000多。你下载了吗?http://t.cn/Rvq6YxN 欧美明显有非常成熟的数据分析市场和大量的使用人群。 [ [微博](http://www.weibo.com/1140645172/BkvcqkvbI) ] 2014-08-30 国家统计局 每年都有统计年鉴 这个是英文版 http://t.cn/hrL49A @郑老石 还贴过一个研讨会的通知 http://t.cn/RhZNQkD 台北也有 http://t.cn/RhZNQkF 香港也有 http://t.cn/RhZNQkk //@G小调的Qing歌:[笑cry][笑cry][笑cry]有中国的吗 //@好东西传送门:回复@icanswimwell [ [微博](http://www.weibo.com/5220650532/BkFkQrFI2) ] - * 2014-08-30 [数据资源] 日本政治、经济、地理数据大全(免费,可下载)http://t.cn/RhZb561 日本开放政府数据网站测试版(www.data.gov.jp)于2014年发布,现有来自21个政府部门的10,411个数据集。 其他数据源:历年人口、工业、经济普查数据; 政府预算数据; 地理信息数据;1947-2003议会选举数据 等 [ [微博](http://www.weibo.com/5220650532/BkCwfoJ0Y) ] + +> 2014-08-30 [数据资源] 日本政治、经济、地理数据大全(免费,可下载)http://t.cn/RhZb561 日本开放政府数据网站测试版(www.data.gov.jp)于2014年发布,现有来自21个政府部门的10,411个数据集。 其他数据源:历年人口、工业、经济普查数据; 政府预算数据; 地理信息数据;1947-2003议会选举数据 等 [ [微博](http://www.weibo.com/5220650532/BkCwfoJ0Y) ] 2014-08-30 问: @小磊_DM_中二青年 在学搜索,请问有Nutch的相关资料吗? 答: nutch主要做网络爬虫,可以和solr结合做搜索引擎。问答进展: http://t.cn/RhZN72R (卡片盒子 http://t.cn/RhZN72E 6个资源): nutch 的中英文安装短教程(此外看Nutch wiki); nutch工作流程; 最近很火的CommonCrawl也转用nutch [ [微博](http://www.weibo.com/5220650532/BkFg8v2lw) ] 2014-08-30 //@velvel2:多任务和域自适应是转移学习的两种配置(还有无监督). 记源领域和源任务是D1和T1, 目标领域和目标任务是D2和T2 (D={特征空间,边际概率分布}, T={标签空间,预测函数}), 其中D1 != D2或T1 != T2; 则利用D1和T1信息提升目标任务性能叫迁移, 同时提升源任务性能叫多任务, 如果T1=T2叫领域自适应 [ [微博](http://www.weibo.com/5220650532/BkERugEzy) ] - * 2014-08-19 问: @唐小sin 有没有multi-task learning的相关学习资料呢? 答: 维基百科上有不少经典文献。AAAI和ICML都有论文(北大/清华)。找到今年Honglak Lee (U Michigan 教授)的短教程。Lan Žagar 博士论文(2014) Ranking by Multitask Learning. 问答追踪: http://t.cn/RP8a3Ax 求补充 [ [微博](http://www.weibo.com/5220650532/BiZl47k80) ] + +> 2014-08-19 问: @唐小sin 有没有multi-task learning的相关学习资料呢? 答: 维基百科上有不少经典文献。AAAI和ICML都有论文(北大/清华)。找到今年Honglak Lee (U Michigan 教授)的短教程。Lan Žagar 博士论文(2014) Ranking by Multitask Learning. 问答追踪: http://t.cn/RP8a3Ax 求补充 [ [微博](http://www.weibo.com/5220650532/BiZl47k80) ] 2014-08-30 回复@icanswimwell: 美国的数据前几天才发过 http://t.cn/RhZJNoM (卡片盒子现有19项 http://t.cn/RhZJNox ) 美国政府在data.gov开放了十多万个免费、免版权的公开数据集 //@icanswimwell:感谢分享~~要有美国的就更好啦[挖鼻屎][挖鼻屎] [ [微博](http://www.weibo.com/5220650532/BkEg1kOpm) ] - * 2014-08-30 [数据资源] 日本政治、经济、地理数据大全(免费,可下载)http://t.cn/RhZb561 日本开放政府数据网站测试版(www.data.gov.jp)于2014年发布,现有来自21个政府部门的10,411个数据集。 其他数据源:历年人口、工业、经济普查数据; 政府预算数据; 地理信息数据;1947-2003议会选举数据 等 [ [微博](http://www.weibo.com/5220650532/BkCwfoJ0Y) ] + +> 2014-08-30 [数据资源] 日本政治、经济、地理数据大全(免费,可下载)http://t.cn/RhZb561 日本开放政府数据网站测试版(www.data.gov.jp)于2014年发布,现有来自21个政府部门的10,411个数据集。 其他数据源:历年人口、工业、经济普查数据; 政府预算数据; 地理信息数据;1947-2003议会选举数据 等 [ [微博](http://www.weibo.com/5220650532/BkCwfoJ0Y) ] 2014-08-30 回复@山雨清新: 原帖就是一个卡片盒子,链接可以在那里找到,现在已经16项了。同附链接 (200k book,1M rating)书籍 http://t.cn/RhZMPWc (10k movie, 10M rating)电影 http://t.cn/RhZMPWt //@山雨清新:请问新增补的两个评论数据集的链接? 找了下,没找到 //@好东西传送门:回复@好东西传送 [ [微博](http://www.weibo.com/5220650532/BkDZfdlu2) ] - * 2014-08-30 [资料整理] @鱼片的小露宝 我正在学习hadoop,我想知道从哪里可以获取一些原始数据样本(就好像hadoop权威指南里面所说的NCDC的气象数据日志)来做数据分析的练习? 答: 一些大数据与目录: http://t.cn/RhZqcq9 气象遥感数据因有图片通常比较大;政府数据包罗万象;(社交)网络数据边多。 [ [微博](http://www.weibo.com/5220650532/BkD1Yu1WE) ] + +> 2014-08-30 [资料整理] @鱼片的小露宝 我正在学习hadoop,我想知道从哪里可以获取一些原始数据样本(就好像hadoop权威指南里面所说的NCDC的气象数据日志)来做数据分析的练习? 答: 一些大数据与目录: http://t.cn/RhZqcq9 气象遥感数据因有图片通常比较大;政府数据包罗万象;(社交)网络数据边多。 [ [微博](http://www.weibo.com/5220650532/BkD1Yu1WE) ] 2014-08-30 回复@好东西传送门: 又增补了两个评论数据集: (10k movie, 10M rating)电影; (200k book,1M rating)书籍 //@好东西传送门:回复@海中的沙粒: 感谢提醒,这一次主要是针对该问题的资源整理,目前列表里原来有12项,现在有增补了CMU的ClueWeb2009网页数据集(10亿页),NIST TREC的测试数据 [ [微博](http://www.weibo.com/5220650532/BkDzbsk24) ] - * 2014-08-30 [资料整理] @鱼片的小露宝 我正在学习hadoop,我想知道从哪里可以获取一些原始数据样本(就好像hadoop权威指南里面所说的NCDC的气象数据日志)来做数据分析的练习? 答: 一些大数据与目录: http://t.cn/RhZqcq9 气象遥感数据因有图片通常比较大;政府数据包罗万象;(社交)网络数据边多。 [ [微博](http://www.weibo.com/5220650532/BkD1Yu1WE) ] + +> 2014-08-30 [资料整理] @鱼片的小露宝 我正在学习hadoop,我想知道从哪里可以获取一些原始数据样本(就好像hadoop权威指南里面所说的NCDC的气象数据日志)来做数据分析的练习? 答: 一些大数据与目录: http://t.cn/RhZqcq9 气象遥感数据因有图片通常比较大;政府数据包罗万象;(社交)网络数据边多。 [ [微博](http://www.weibo.com/5220650532/BkD1Yu1WE) ] 2014-08-30 [资料整理] @鱼片的小露宝 我正在学习hadoop,我想知道从哪里可以获取一些原始数据样本(就好像hadoop权威指南里面所说的NCDC的气象数据日志)来做数据分析的练习? 答: 一些大数据与目录: http://t.cn/RhZqcq9 气象遥感数据因有图片通常比较大;政府数据包罗万象;(社交)网络数据边多。 [ [微博](http://www.weibo.com/5220650532/BkD1Yu1WE) ] @@ -200,68 +247,86 @@ 2014-08-29 Google2014 KDD 的文章,讲他们自动知识图谱提取项目Knowledge Vault的最新进展,比较了人肉众包生成的知识图谱(dbpedia, freebase,...): http://t.cn/RhhjLVe Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion [ [微博](http://www.weibo.com/5220650532/Bkt39dyDU) ] 2014-08-29 传送原因: 中英文对照 Communications of the ACM 2012 //@网路冷眼: 找到了,发表在中国计算机学会通讯上面的一篇翻译文章<机器学习那些事> http://t.cn/RhPxmIl [赞] //@52nlp: 印象 @刘知远THU 同学翻译过 [ [微博](http://www.weibo.com/5220650532/Bkrxo2j4u) ] - * 2014-08-27 美国华盛顿大学计算机科学及工程系,机器学习的大牛Pedro Domingos所著总结了机器学习的研究者和实践者所学到的十二个关键的经验教训。这些包括避免陷阱、以重要的问题为重点和常见问题的解答. 貌似@52NLP 提及过 http://t.cn/zlK8HTU [ [微博](http://www.weibo.com/1715118170/BkhayDnra) ] + +> 2014-08-27 美国华盛顿大学计算机科学及工程系,机器学习的大牛Pedro Domingos所著总结了机器学习的研究者和实践者所学到的十二个关键的经验教训。这些包括避免陷阱、以重要的问题为重点和常见问题的解答. 貌似@52NLP 提及过 http://t.cn/zlK8HTU [ [微博](http://www.weibo.com/1715118170/BkhayDnra) ] 2014-08-28 问: @钱知易: 能不能帮我找找大规模图像检索方面的资料以及这个领域的牛人(国内国外)? 答: 初步结果:http://t.cn/RPe5HBt 中科大 杨晓冬有一个很全面的计算机视觉领域资料整理。兰晓松 在科学网上著有专家列表,2014年9月自动化所有一个“计算机视觉前沿研讨会” ,列举了许多国内著名专家 [ [微博](http://www.weibo.com/5220650532/BklQZALi7) ] 2014-08-28 问: @Don0719 有没有做正电子无损检测的大佬或者相关的书籍、文献啊? 答: 欢迎材料学问题。 问答进展看这里 http://t.cn/RPsI3yE 推荐R. Krause Rehberg 2010年的幻灯片。正电子湮没研究论文很多,还有专门国际会议。无损检测相关找到6篇。欢迎专家补充指正。 [ [微博](http://www.weibo.com/5220650532/BklhZul43) ] - * 2014-08-28 有没有做正电子无损检测的大佬或者相关的书籍、文献啊@好东西传送门 @Rachel____Zhang @人人林关亮 @西瓜大丸子汤 @孙明明_SmarterChina @黑伽罗 http://t.cn/RP6nGI0 [ [微博](http://www.weibo.com/2305250811/Bkhuj9CUi) ] + +> 2014-08-28 有没有做正电子无损检测的大佬或者相关的书籍、文献啊@好东西传送门 @Rachel____Zhang @人人林关亮 @西瓜大丸子汤 @孙明明_SmarterChina @黑伽罗 http://t.cn/RP6nGI0 [ [微博](http://www.weibo.com/2305250811/Bkhuj9CUi) ] 2014-08-27 SVD,LSI,PCA 是线性代数 在数据挖掘中应用的基本概念,常用于数据降维(每个提取的features对应一个维度),需要重点理解。 原文作者应该是 @LeftNotEasy 吧 [ [微博](http://www.weibo.com/5220650532/Bkh2Lecdh) ] - * 2014-08-27 @好东西传送门 @龙星计划 关于SVD奇异值分解讲的非常清楚的文章,从矩阵的特征值分解到奇异值分解,再到矩阵的近似逼近,讲的非常透彻的文章!包括svd计算,LSI(潜在语义),以及PCA(主成分析)。http://t.cn/zO0ffR2 [ [微博](http://www.weibo.com/1805841815/BkgARFhuk) ] + +> 2014-08-27 @好东西传送门 @龙星计划 关于SVD奇异值分解讲的非常清楚的文章,从矩阵的特征值分解到奇异值分解,再到矩阵的近似逼近,讲的非常透彻的文章!包括svd计算,LSI(潜在语义),以及PCA(主成分析)。http://t.cn/zO0ffR2 [ [微博](http://www.weibo.com/1805841815/BkgARFhuk) ] 2014-08-27 是这个问题吗? accelerating bayesian network 200X using a GPU 问答进展看这里: http://t.cn/RPku09w [ [微博](http://www.weibo.com/5220650532/BkgNJu9af) ] - * 2014-08-27 有哪些大牛做过GPU加速贝叶斯网络学习,还有相关的代码,方便学习@好东西传送门 [ [微博](http://www.weibo.com/1974787502/BkfWmyZUV) ] + +> 2014-08-27 有哪些大牛做过GPU加速贝叶斯网络学习,还有相关的代码,方便学习@好东西传送门 [ [微博](http://www.weibo.com/1974787502/BkfWmyZUV) ] 2014-08-27 问:@月光馆果果妈 请问从语音和视频资源共同进行学习的算法谁比较有研究啊 答: 深度学习是当前趋势(斯坦福,微软,谷歌都这样)。专家 Andrew Ng, Geoffrey Hinton, Li Deng, Louis-Philippe Morency, Ruslan Salakhutdinov, 微博技术控:@言语挖挖 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BkdhGpY4d) ] 2014-08-27 传送一个关于学术笑话: 论文评审分两类,一种呢是评审截止日期早就过了,另一种是还没过期的。“There are two types of manuscript reviews. Those that are overdue, and those that are not overdue yet.” 如果看数据分布的话,估计最常见的是“明天就是评审截止日了,咋一篇都没审呢?” [ [微博](http://www.weibo.com/5220650532/BkctZ33Iu) ] 2014-08-27 非常感谢 @董力at北航 他本科时候做的一个KDD2012demo http://t.cn/RPDwF8S (情感细分为厌恶、愤怒、高兴、悲伤四类 )很好玩,分析各省人民的情绪彼岸花,小心地图炮呦?能下载数据。 此外他以前还推荐过 http://t.cn/Sc68lv Sentiment Symposium Tutorial [ [微博](http://www.weibo.com/5220650532/Bkco7lkJU) ] - * 2014-08-27 问: @蒋宁平 求推荐中文情感计算资源,包括中文情感词库,尤其是细分情感种类的(比如喜爱,愤怒,悲伤…等)。 答:问答进展:http://t.cn/RPeutqb 初步答案:斯坦福有公开课和基于深度学习的成果。知乎有资源列表。刘兵教授有综述。数据看 NTUSD, 知网。微博问 @TT小和子 @黠之大者 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BkbzO54pR) ] + +> 2014-08-27 问: @蒋宁平 求推荐中文情感计算资源,包括中文情感词库,尤其是细分情感种类的(比如喜爱,愤怒,悲伤…等)。 答:问答进展:http://t.cn/RPeutqb 初步答案:斯坦福有公开课和基于深度学习的成果。知乎有资源列表。刘兵教授有综述。数据看 NTUSD, 知网。微博问 @TT小和子 @黠之大者 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BkbzO54pR) ] 2014-08-27 非常感谢 @posa88 推荐 lingpipe的影评数据(基于IMDB)由康奈尔的 Lillian Lee 和 Bo Pang 提供 //@posa88:大连理工这个库用过,还行:http://t.cn/RPesat2 ,http://t.cn/bln2a [ [微博](http://www.weibo.com/5220650532/BkcgExrKL) ] - * 2014-08-27 问: @蒋宁平 求推荐中文情感计算资源,包括中文情感词库,尤其是细分情感种类的(比如喜爱,愤怒,悲伤…等)。 答:问答进展:http://t.cn/RPeutqb 初步答案:斯坦福有公开课和基于深度学习的成果。知乎有资源列表。刘兵教授有综述。数据看 NTUSD, 知网。微博问 @TT小和子 @黠之大者 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BkbzO54pR) ] + +> 2014-08-27 问: @蒋宁平 求推荐中文情感计算资源,包括中文情感词库,尤其是细分情感种类的(比如喜爱,愤怒,悲伤…等)。 答:问答进展:http://t.cn/RPeutqb 初步答案:斯坦福有公开课和基于深度学习的成果。知乎有资源列表。刘兵教授有综述。数据看 NTUSD, 知网。微博问 @TT小和子 @黠之大者 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BkbzO54pR) ] 2014-08-27 问: @蒋宁平 求推荐中文情感计算资源,包括中文情感词库,尤其是细分情感种类的(比如喜爱,愤怒,悲伤…等)。 答:问答进展:http://t.cn/RPeutqb 初步答案:斯坦福有公开课和基于深度学习的成果。知乎有资源列表。刘兵教授有综述。数据看 NTUSD, 知网。微博问 @TT小和子 @黠之大者 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BkbzO54pR) ] 2014-08-27 回复@DataMooc: 有相关问答,整理中,参见 http://t.cn/RPmIw2I //@DataMooc:有没有Python版的中文分词开源工具? //@好东西传送门:搭车再次推荐ansj, 孙健写的很有用的中文分词工具。http://weibo.com/5220650532/Bh9WGeljD //@ansj: 应该不是[衰] //@好东西传送门:@夏二货爱吃 [ [微博](http://www.weibo.com/5220650532/Bkb1stYmh) ] - * 2014-08-26 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] + +> 2014-08-26 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] 2014-08-27 http://t.cn/RPeILJ1 链接在这里 [ [微博](http://www.weibo.com/5220650532/Bk8n73Qla) ] - * 2014-08-25 强烈推荐@王威廉 的《大数据时代的机器学习热点:ICML2013参会感想》,对当前机器学习热点做了简短的科普,不过貌似有私心,对自己学院的技术多介绍了一些哈。[嘻嘻] @好东西传送门 @developerWorks @星空下的巫师 @龙星计划 [ [微博](http://www.weibo.com/5172229575/BjUJ6w613) ] + +> 2014-08-25 强烈推荐@王威廉 的《大数据时代的机器学习热点:ICML2013参会感想》,对当前机器学习热点做了简短的科普,不过貌似有私心,对自己学院的技术多介绍了一些哈。[嘻嘻] @好东西传送门 @developerWorks @星空下的巫师 @龙星计划 [ [微博](http://www.weibo.com/5172229575/BjUJ6w613) ] 2014-08-27 搭车再次推荐ansj, 孙健写的很有用的中文分词工具。http://weibo.com/5220650532/Bh9WGeljD //@ansj: 应该不是[衰] //@好东西传送门:@夏二货爱吃胡萝卜: 万恶的微软官网居然用自动翻译!是孙剑 //@夏二货爱吃胡萝卜:@图像视觉研究:的确是说错了。是孙剑。 //@严浩RB:这个孙健是写ansj的那个吗? [ [微博](http://www.weibo.com/5220650532/Bk8kLotLu) ] - * 2014-08-26 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] + +> 2014-08-26 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] 2014-08-26 回复@夏二货爱吃胡萝卜: 感谢指正,万恶的多语言系统,微软官网居然用自动翻译,当然名字就翻错了。是孙剑 //@夏二货爱吃胡萝卜:回复@图像视觉研究:的确是说错了。是孙剑。 //@好东西传送门:回复@严浩RB: 此孙健 是微软研究员 http://t.cn/RPe4I9D 搞图像处理, //@严浩RB:这个孙健是写ansj的那个吗? [ [微博](http://www.weibo.com/5220650532/Bk7zycQvc) ] - * 2014-08-26 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] + +> 2014-08-26 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] 2014-08-26 回复@严浩RB: 此孙健 是微软研究员 http://t.cn/RPe4I9D 搞图像处理, //@严浩RB:这个孙健是写ansj的那个吗? //@好东西传送门:问答进展:http://t.cn/RPgpH65 有不少IEEE Fellow, 华人还有 UIUC马毅(现在上海) 微软亚洲研究院:孙健 。到CVPR, ICCV上多看看能 [ [微博](http://www.weibo.com/5220650532/Bk7qGAF9O) ] - * 2014-08-26 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] + +> 2014-08-26 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] 2014-08-26 回复@严浩RB: 非也 http://t.cn/RPe4GEw 彼孙健: Ansj 是一个开源的 Java 中文分词工具“胸无大志,没想过创业,没想过发财,只想高高兴兴写两行代码,做了近五年Java程序员,写过页面,干过运维,做过人力“ //@严浩RB:这个孙健是写ansj的那个吗? //@好东西传送门:问答进展:http://t.cn/RPgpH65 [ [微博](http://www.weibo.com/5220650532/Bk7q9uMks) ] - * 2014-08-26 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] + +> 2014-08-26 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] 2014-08-26 问:@pkuxkxjason 求推荐靠谱的自动摘要软件/服务。特别是针对科技类内容的。答: 问题进展 http://t.cn/RPg0Dkn 两个quora回答但实用工具可靠性低。还要请 @算文解字 指点迷津,他说过 “单文档summerization不是被snippet判死刑了么?” 找到相关文章 http://t.cn/RPg0DkH [ [微博](http://www.weibo.com/5220650532/Bk4hHahVS) ] - * 2014-08-24 求推荐靠谱的自动摘要软件/服务。特别是针对科技类内容的。@印象笔记 @好东西传送门 [ [微博](http://www.weibo.com/1042871981/BjJv0pvT2) ] + +> 2014-08-24 求推荐靠谱的自动摘要软件/服务。特别是针对科技类内容的。@印象笔记 @好东西传送门 [ [微博](http://www.weibo.com/1042871981/BjJv0pvT2) ] 2014-08-26 问答进展:http://t.cn/RPgpH65 有不少IEEE Fellow, 华人还有 UIUC马毅(现在上海) 微软亚洲研究院:孙健 。到CVPR, ICCV上多看看能找到不少当打的大小牛 [ [微博](http://www.weibo.com/5220650532/Bk4aUlKJi) ] - * 2014-08-26 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] + +> 2014-08-26 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] 2014-08-26 问: @杨洋MQ Social Network 中 Spammer Detection 方面 都有哪些 中文、英文的数据集?答: 初步回答:http://t.cn/RPgtKAl 公开的大多是email,中文较老有2006 TREC , 2005 CCERT;英文有Twitter数据集和Spammer列表。近年未公开:Berkeley, ASU有Twitter研究; 国内要联系上交大。求更多链接 [ [微博](http://www.weibo.com/5220650532/Bk2BaFaY2) ] 2014-08-25 //@昊奋: 这个之前通过@好东西传送门 介绍知识图谱时,介绍过这个probabilistic kb。其实离真正大规模可用还有很长路要走。所谓的可信大部分可在freebase中找到,也就是说freebase的质量和规模决定了很多 [ [微博](http://www.weibo.com/5220650532/BjVr9tH7z) ] - * 2014-08-25 【Google将建全球最大知识库】Google创建名为Knowledge Vault的知识库,通过算法自动搜集网上信息,通过机器学习把数据变成可用知识。目前Knowledge Vault已收集了16亿件事实,其中2.71亿件是“可信的”。“可信”指Google把新事实与已掌握知识对照后,认为其准确的可能性是90%。http://t.cn/RPrEM1D [ [微博](http://www.weibo.com/1642720480/BjTl9k81q) ] + +> 2014-08-25 【Google将建全球最大知识库】Google创建名为Knowledge Vault的知识库,通过算法自动搜集网上信息,通过机器学习把数据变成可用知识。目前Knowledge Vault已收集了16亿件事实,其中2.71亿件是“可信的”。“可信”指Google把新事实与已掌握知识对照后,认为其准确的可能性是90%。http://t.cn/RPrEM1D [ [微博](http://www.weibo.com/1642720480/BjTl9k81q) ] 2014-08-25 //@velvel2: 1)首位华人AAAI fellow杨强博士研究转移学习很多年了。多任务学习是其中一种 http://t.cn/aepeZn 2)Bengio的深度学习新书有一章也是关于转移学习和多任务学习的 http://t.cn/RPdxFds [ [微博](http://www.weibo.com/5220650532/BjVr0j8uQ) ] - * 2014-08-19 问: @唐小sin 有没有multi-task learning的相关学习资料呢? 答: 维基百科上有不少经典文献。AAAI和ICML都有论文(北大/清华)。找到今年Honglak Lee (U Michigan 教授)的短教程。Lan Žagar 博士论文(2014) Ranking by Multitask Learning. 问答追踪: http://t.cn/RP8a3Ax 求补充 [ [微博](http://www.weibo.com/5220650532/BiZl47k80) ] + +> 2014-08-19 问: @唐小sin 有没有multi-task learning的相关学习资料呢? 答: 维基百科上有不少经典文献。AAAI和ICML都有论文(北大/清华)。找到今年Honglak Lee (U Michigan 教授)的短教程。Lan Žagar 博士论文(2014) Ranking by Multitask Learning. 问答追踪: http://t.cn/RP8a3Ax 求补充 [ [微博](http://www.weibo.com/5220650532/BiZl47k80) ] 2014-08-24 回复@phunter_lau: 感谢有爱心的专家 传送理由: 面试官的面经 //@phunter_lau:回复@好东西传送门:复制粘贴一下“我都是国外面经,都是谈谈你之前做过啥,你就做过啥讲了就行了。我们一般不测试面试人什么问题,默认他简历上说的都是真实的,然后拿几个实际问题看看他的看法和解决方向如何就基本上知道 [ [微博](http://www.weibo.com/5220650532/BjLGK2IJe) ] - * 2014-08-24 问: @尘绳聋-SYSU 大大ML面经来一发?急需 答:假设需要的是软件工程师求职,寻找机器学习(machine learning)面经。建议多看题,把自己的知识强化。很多问答系统都有常见面试问题列表, 初步有 reddit, stackoverflow, quora, 知乎 等。问答进展: http://t.cn/RPB1Sxf 欢迎补充指正,尤其是具体面经 [ [微博](http://www.weibo.com/5220650532/BjLqu8Kw0) ] + +> 2014-08-24 问: @尘绳聋-SYSU 大大ML面经来一发?急需 答:假设需要的是软件工程师求职,寻找机器学习(machine learning)面经。建议多看题,把自己的知识强化。很多问答系统都有常见面试问题列表, 初步有 reddit, stackoverflow, quora, 知乎 等。问答进展: http://t.cn/RPB1Sxf 欢迎补充指正,尤其是具体面经 [ [微博](http://www.weibo.com/5220650532/BjLqu8Kw0) ] 2014-08-24 问: @尘绳聋-SYSU 大大ML面经来一发?急需 答:假设需要的是软件工程师求职,寻找机器学习(machine learning)面经。建议多看题,把自己的知识强化。很多问答系统都有常见面试问题列表, 初步有 reddit, stackoverflow, quora, 知乎 等。问答进展: http://t.cn/RPB1Sxf 欢迎补充指正,尤其是具体面经 [ [微博](http://www.weibo.com/5220650532/BjLqu8Kw0) ] 2014-08-24 回复@AixinSG: 多谢补充,NUS 在这方面做的很不错,链接传送 http://t.cn/RPB3zgO 还有一篇相关的是 Addressing cold-start in app recommendation: latent user models constructed from twitter followers //@AixinSG:SIGIR14 有一篇 New and Improved: Modeling Versions to Improve App Recom [ [微博](http://www.weibo.com/5220650532/BjLil85H7) ] - * 2014-08-24 问: @应豪超 :有关于手机app推荐的文章吗 答: 就是找论文,关键词 Recommender Systems that Suggest Mobile Applications 。 初步结果 找到一个2011年移动推荐讨论班的幻灯片(领域综述),一篇IUI2013 (列举feature), 一篇SIGIR 2013, 还有若干相关, 问答进展: http://t.cn/RPBuvdZ 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BjLc4frgA) ] + +> 2014-08-24 问: @应豪超 :有关于手机app推荐的文章吗 答: 就是找论文,关键词 Recommender Systems that Suggest Mobile Applications 。 初步结果 找到一个2011年移动推荐讨论班的幻灯片(领域综述),一篇IUI2013 (列举feature), 一篇SIGIR 2013, 还有若干相关, 问答进展: http://t.cn/RPBuvdZ 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BjLc4frgA) ] From cb2304193a75b68ef97e9ede336c7671e5e47a11 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 15:50:36 -0700 Subject: [PATCH 343/485] Update test-recent.md --- awesome/test-recent.md | 132 ++++++++++++++++++++--------------------- 1 file changed, 66 insertions(+), 66 deletions(-) diff --git a/awesome/test-recent.md b/awesome/test-recent.md index ad825c3..a1e047a 100644 --- a/awesome/test-recent.md +++ b/awesome/test-recent.md @@ -2,29 +2,29 @@ 2014-09-11 谢谢建议,我们会努力。改进的网站会有的。想不想要个电子邮件周报什么的,把每周的发布的好东西一网打尽? //@海中的沙粒:给个建议,好东西以后重新搞个博,不然因重复遗漏 //@好东西传送门: 加进列表了 pdf传送门 http://t.cn/RhcFi0l //@诸神善待民科组: 图是种方法Method,不是模型 Model,没说到 B [ [微博](http://www.weibo.com/5220650532/BmplNnCI3) ] -> 2014-09-10 [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] +> 2014-09-10 @好东西传送门: [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] 2014-09-10 #NLP# 诸君,"城市规划" 领域词表来了, 还等什么呢? 数据传送门 http://t.cn/RhVVYBk 感谢 @国际城市规划 //@规划中国: //@国际城市规划: 编撰词典对我等难度太大,欢迎有缘人慢慢加入积累 http://t.cn/RhVcLWx //@城规田宝江: 好想法!//@中大袁媛: 可以出版一本专业英语的词典或教材 [ [微博](http://www.weibo.com/5220650532/Bmm8O31VG) ] -> 2014-09-09 《国际城市规划》编辑部在多年来出版外文文献的过程中,积累了大量的专业词汇(英汉对照)。把这些专业词汇汇总归纳起来对一些读者应该是有益处的,同时也是我们对自己工作的不断回顾和总结。我们会持续将这一工作做下去。欢迎提出宝贵意见,也欢迎有兴趣的朋友加入这个行列.详见 http://t.cn/Rhtk0hX [ [微博](http://www.weibo.com/2092965653/BmcMpz6dI) ] +> 2014-09-09 @国际城市规划: 《国际城市规划》编辑部在多年来出版外文文献的过程中,积累了大量的专业词汇(英汉对照)。把这些专业词汇汇总归纳起来对一些读者应该是有益处的,同时也是我们对自己工作的不断回顾和总结。我们会持续将这一工作做下去。欢迎提出宝贵意见,也欢迎有兴趣的朋友加入这个行列.详见 http://t.cn/Rhtk0hX [ [微博](http://www.weibo.com/2092965653/BmcMpz6dI) ] 2014-09-10 #机器学习# 领域大牛 Michael Jordan 是Andrew Ng的博士导师,擅长 recurrent neural networks , Bayesian nonparametric analysis, probabilistic graphical models, spectral methods, kernel machines 机会难得有问题赶紧上Reddit上问,http://t.cn/aOioBZ [ [微博](http://www.weibo.com/5220650532/Bmm3VbIR5) ] -> 2014-09-10 Michael Jordan 教授也在 reddit 上开了 AMA, 大家可以问他任何问题,他明天一起回答:http://t.cn/RhVqV11 [ [微博](http://www.weibo.com/2288385870/BmlWJy7Od) ] +> 2014-09-10 @赵家平USC: Michael Jordan 教授也在 reddit 上开了 AMA, 大家可以问他任何问题,他明天一起回答:http://t.cn/RhVqV11 [ [微博](http://www.weibo.com/2288385870/BmlWJy7Od) ] 2014-09-10 问: @chico2011 @leo_lq 求推荐金融交易风险评估方面的文献 答: 资源列表 http://t.cn/RhVqWuZ 金融风险管理领域全局观参见 Financial Institutions Management: A Risk Management Approach (沃顿学院教科书)。量化评估方法(含风险价值 VaR)有2011年综述, 此外咱做了个VaR相关概念的脑图 请补充指正 [ [微博](http://www.weibo.com/5220650532/BmlXxt5hC) ] 2014-09-10 张天雷 《概率编程语言与贝叶斯方法实践》 //@小猴机器人: 来,给个中文介绍哈, http://t.cn/RPwbEPz [ [微博](http://www.weibo.com/5220650532/BmkyPihT4) ] -> 2014-09-10 [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] +> 2014-09-10 @好东西传送门: [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] 2014-09-10 加进列表了 pdf传送门 http://t.cn/RhcFi0l //@诸神善待民科组: 图是种方法Method,不是模型 Model,没说到 Bayesian Reasoning and Machine Learning 真是不开心,这比 Koller 的 PGM 好读,好处是图多,我就喜欢看图说话的小二班 [ [微博](http://www.weibo.com/5220650532/BmkxhgVMr) ] -> 2014-09-10 [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] +> 2014-09-10 @好东西传送门: [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] 2014-09-10 赞,维基百科wikipedia在某种程度也承载了很多领域的知识体系,所以大家搜索时喜欢用它 [ [微博](http://www.weibo.com/5220650532/BmjA3bOEr) ] -> 2014-09-10 每个专业领域都有一个知识体系(body of knowledge),无论是财务、供应链、项目管理、人力资源,还是历史、哲学、心理。构建完整的知识框架,是正确的逻辑和认知的基础;缺乏知识体系地推断现象,就是通常所说的瞎子摸象,只见树木不见森林。 [ [微博](http://www.weibo.com/1494723892/BmjxllPqA) ] +> 2014-09-10 @陈果_George: 每个专业领域都有一个知识体系(body of knowledge),无论是财务、供应链、项目管理、人力资源,还是历史、哲学、心理。构建完整的知识框架,是正确的逻辑和认知的基础;缺乏知识体系地推断现象,就是通常所说的瞎子摸象,只见树木不见森林。 [ [微博](http://www.weibo.com/1494723892/BmjxllPqA) ] 2014-09-10 [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] @@ -34,23 +34,23 @@ 2014-09-10 458万东西: 144万人, 73万地点, 41万作品(含12万音乐专辑, 8.7万电影,1.9万视频游戏), 24万组织(含5.8万公司,4.9万教育机构), 25万物种等 [ [微博](http://www.weibo.com/5220650532/BmizMhrjB) ] -> 2014-09-10 DBpedia今天更新了,除了丰富dataset本身与到其他ontology(e.g., freebase)的link外,最主要的还是基于heiko paulheim,jens lehmann等人关于ontology enrichment的工作,将dbpedia数据本身丰富了语义,比如增加了一些infobox缺失情况下的type inference。地址: http://t.cn/RhcjuOq [ [微博](http://www.weibo.com/1788897365/BmirJsEDH) ] +> 2014-09-10 @波多野丽猪: DBpedia今天更新了,除了丰富dataset本身与到其他ontology(e.g., freebase)的link外,最主要的还是基于heiko paulheim,jens lehmann等人关于ontology enrichment的工作,将dbpedia数据本身丰富了语义,比如增加了一些infobox缺失情况下的type inference。地址: http://t.cn/RhcjuOq [ [微博](http://www.weibo.com/1788897365/BmirJsEDH) ] 2014-09-09 http://t.cn/zOpIrjJ 中文语言资源联盟,英文译名Chinese Linguistic Data Consortium,缩写为CLDC, 有少数民族语言,方言数据 //@龙星镖局:有专门放入方言的nlp研究 吗?@白硕SH 老师 //@殆知阁:转发微博 [ [微博](http://www.weibo.com/5220650532/BmcCdeWno) ] -> 2014-09-09 #书目#《现代汉语方言大词典》,李荣 编 ,出版年: 2002-12,页数: 6556,定价: 1128.00元——看看这么贵,还是省省,在图书馆查吧!期待电子版本。@殆知阁 [ [微博](http://www.weibo.com/2139856433/BmchA2F4a) ] +> 2014-09-09 @松山书庐: #书目#《现代汉语方言大词典》,李荣 编 ,出版年: 2002-12,页数: 6556,定价: 1128.00元——看看这么贵,还是省省,在图书馆查吧!期待电子版本。@殆知阁 [ [微博](http://www.weibo.com/2139856433/BmchA2F4a) ] 2014-09-09 好东西 ,向 迷渡 justjavac (索引的作者)致敬! 顺路推荐一下他的另一个工作 "Google 全球 IP 地址库" , http://t.cn/RvabGv5 //@justjavac: 我说今天怎么收到好多私信呢,原来根源在这儿啊。//@CSDN_CODE:Mark! [ [微博](http://www.weibo.com/5220650532/BmcoO4bqA) ] -> 2014-09-09 【免费编程中文书籍索引】一个蛮全的免费书籍索引,有编程类书籍,还有专门为程序员准备的非编程类书籍。随手转发,支持正版!http://t.cn/8kJZNap #技术新知客# [ [微博](http://www.weibo.com/2295615873/BmbJTcBGK) ] +> 2014-09-09 @英特尔商用频道: 【免费编程中文书籍索引】一个蛮全的免费书籍索引,有编程类书籍,还有专门为程序员准备的非编程类书籍。随手转发,支持正版!http://t.cn/8kJZNap #技术新知客# [ [微博](http://www.weibo.com/2295615873/BmbJTcBGK) ] 2014-09-09 谢谢夸奖,分享一个体验: 有时很难一次把问题说清楚 (要不直接搜索了),所以私信交流很有帮助。 一句话,很高兴帮助你解决问题 ;) [ [微博](http://www.weibo.com/5220650532/BmckKeAqI) ] -> 2014-09-09 @好东西传送门, 你的点餐服务,我给满分,嘿嘿,又有私信交流,还有指导性推荐,微博做到这份上,目前阶段来说,算很棒啦 [ [微博](http://www.weibo.com/1843007450/Bm9DO2S76) ] +> 2014-09-09 @海中的沙粒: @好东西传送门, 你的点餐服务,我给满分,嘿嘿,又有私信交流,还有指导性推荐,微博做到这份上,目前阶段来说,算很棒啦 [ [微博](http://www.weibo.com/1843007450/Bm9DO2S76) ] 2014-09-09 找到一组相关测试数据集(VAST challenge 2003-现在),基本上就是用户利用可视化工具,根据特定需要分析大规模业务数据,继而推理验证猜想。 例如分析预测恐怖袭击,发现金融犯罪嫌疑人,有一篇总结文章值得一读: http://t.cn/Rhtmw01 [ [微博](http://www.weibo.com/5220650532/BmbO4EuMd) ] -> 2014-09-09 问: @海中的沙粒 点餐,我想要更多关于可视分析学的资料? 答: 可视分析学(Visual Analytics) 利用可视化方法支持对大规模复杂(科学)数据的人机协同分析推理。问答进展收录: 经典, 综述, 社区, 会议等资源 http://t.cn/Rht6xF8 看附图, 一分钟理解其定位、原理以及跨学科特性。 [ [微博](http://www.weibo.com/5220650532/BmbGkaI7Z) ] +> 2014-09-09 @好东西传送门: 问: @海中的沙粒 点餐,我想要更多关于可视分析学的资料? 答: 可视分析学(Visual Analytics) 利用可视化方法支持对大规模复杂(科学)数据的人机协同分析推理。问答进展收录: 经典, 综述, 社区, 会议等资源 http://t.cn/Rht6xF8 看附图, 一分钟理解其定位、原理以及跨学科特性。 [ [微博](http://www.weibo.com/5220650532/BmbGkaI7Z) ] 2014-09-09 问: @海中的沙粒 点餐,我想要更多关于可视分析学的资料? 答: 可视分析学(Visual Analytics) 利用可视化方法支持对大规模复杂(科学)数据的人机协同分析推理。问答进展收录: 经典, 综述, 社区, 会议等资源 http://t.cn/Rht6xF8 看附图, 一分钟理解其定位、原理以及跨学科特性。 [ [微博](http://www.weibo.com/5220650532/BmbGkaI7Z) ] @@ -58,67 +58,67 @@ 2014-09-09 转发理由:开放政府数据。另外推荐RPI的 Linking Open Government Data,收录了1800多个数据集,100亿RDF三元组 http://t.cn/RhtMeAj [ [微博](http://www.weibo.com/5220650532/Bm8UryKa7) ] -> 2014-09-04 【干货来袭:由22个联邦机构分享的6482个数据集】你在为寻找 数据集发愁吗?来,看这里 ==》 http://t.cn/RhUMeQ6[围观] [ [微博](http://www.weibo.com/3847741679/Blpg6D4Bu) ] +> 2014-09-04 @数盟社区: 【干货来袭:由22个联邦机构分享的6482个数据集】你在为寻找 数据集发愁吗?来,看这里 ==》 http://t.cn/RhUMeQ6[围观] [ [微博](http://www.weibo.com/3847741679/Blpg6D4Bu) ] 2014-09-09 好东西,北京语言大学威武。插个话, 著名的汉语水平考试(HSK,...)是由北京语言大学汉语水平考试中心设计研制的 //@52nlp: [good][good][good] [ [微博](http://www.weibo.com/5220650532/Bm7DQ3NCC) ] -> 2014-09-08 【中秋福利】北语汉语语料库(BLCU Chinese Corpus,BCC)正式上线!100亿字报刊、社交、文学、科技语料~规模完爆CCRL和国家语委语料库。全文检索更方便,支持模糊查找和长距离模式查找。全文自动分词并词性标注。语料库http://t.cn/Rh5E63s 研发中心http://t.cn/h4mhKN [ [微博](http://www.weibo.com/1242190153/Bm3oU00UX) ] +> 2014-09-08 @raogaoqi: 【中秋福利】北语汉语语料库(BLCU Chinese Corpus,BCC)正式上线!100亿字报刊、社交、文学、科技语料~规模完爆CCRL和国家语委语料库。全文检索更方便,支持模糊查找和长距离模式查找。全文自动分词并词性标注。语料库http://t.cn/Rh5E63s 研发中心http://t.cn/h4mhKN [ [微博](http://www.weibo.com/1242190153/Bm3oU00UX) ] 2014-09-09 #夜读春秋# 最近JWT(JSON Web Token,是一种基于JSON的认证安全协议)势头很火,这里找了一个48页的幻灯片,帮你快速了解这些概念的含义,并提供一定全局观 http://t.cn/Rht40uL 该作者(Brian Campbell)还有一个更新的幻灯片讲JWT和JOSE http://t.cn/Rht40uw [ [微博](http://www.weibo.com/5220650532/Bm6KQB6nM) ] 2014-09-08 @phunter_lau 推荐了 Peter Norvig的regex生成器 http://t.cn/8FGNh2J http://t.cn/8FnLiON @孙明明_SmarterChina 推荐了Bartoli等基于遗传算法的实现 http://t.cn/zlmNYLJ @布尔乔亚之犬 推荐了SO上一个很好的讨论贴 http://t.cn/Rh5H2za [good] [ [微博](http://www.weibo.com/5220650532/Bm2SOaRyu) ] -> 2014-09-08 我在寻找一个从文本学习正则表达式的工具,就是我给它一些文本的例子,它输出符合这些文本的一个正则表达式。有没有人知道呢? @好东西传送门 [ [微博](http://www.weibo.com/1932835417/Bm2Idzep8) ] +> 2014-09-08 @西瓜大丸子汤: 我在寻找一个从文本学习正则表达式的工具,就是我给它一些文本的例子,它输出符合这些文本的一个正则表达式。有没有人知道呢? @好东西传送门 [ [微博](http://www.weibo.com/1932835417/Bm2Idzep8) ] 2014-09-08 @phunter_lau 推荐了 Peter Norvig的regex生成器 http://t.cn/8FGNh2J http://t.cn/8FnLiON @孙明明_SmarterChina 推荐了Bartoli等基于遗传算法的实现 http://t.cn/zlmNYLJ @布尔乔亚之犬 推荐了SO上一个很好的讨论贴 [good] [ [微博](http://www.weibo.com/5220650532/Bm2SqyoHc) ] -> 2014-09-08 我在寻找一个从文本学习正则表达式的工具,就是我给它一些文本的例子,它输出符合这些文本的一个正则表达式。有没有人知道呢? @好东西传送门 [ [微博](http://www.weibo.com/1932835417/Bm2Idzep8) ] +> 2014-09-08 @西瓜大丸子汤: 我在寻找一个从文本学习正则表达式的工具,就是我给它一些文本的例子,它输出符合这些文本的一个正则表达式。有没有人知道呢? @好东西传送门 [ [微博](http://www.weibo.com/1932835417/Bm2Idzep8) ] 2014-09-08 求助! [ [微博](http://www.weibo.com/5220650532/Bm2IlgmSx) ] -> 2014-09-08 我在寻找一个从文本学习正则表达式的工具,就是我给它一些文本的例子,它输出符合这些文本的一个正则表达式。有没有人知道呢? @好东西传送门 [ [微博](http://www.weibo.com/1932835417/Bm2Idzep8) ] +> 2014-09-08 @西瓜大丸子汤: 我在寻找一个从文本学习正则表达式的工具,就是我给它一些文本的例子,它输出符合这些文本的一个正则表达式。有没有人知道呢? @好东西传送门 [ [微博](http://www.weibo.com/1932835417/Bm2Idzep8) ] 2014-09-08 黄昌宁 赵海 《中文分词十年回顾 》http://t.cn/Rh5Xe3S //@龙星镖局: 有个 中文分词十年 孙老师搜一下 [ [微博](http://www.weibo.com/5220650532/Bm1jmwaCk) ] -> 2014-09-08 有没有中文分词主流技术的介绍?综述最好,请教 @好东西传送门 [ [微博](http://www.weibo.com/1025887594/Bm0fl4F8b) ] +> 2014-09-08 @AixinSG: 有没有中文分词主流技术的介绍?综述最好,请教 @好东西传送门 [ [微博](http://www.weibo.com/1025887594/Bm0fl4F8b) ] 2014-09-08 第一,问题说得很实在,使用hadoop运维成本不可低估、实现价值所依赖的技术链不象成功案例说得那么简单,总之就是你公司的IT部门很有可能搞不定,第二,这也算他推广新公司altiscale的价值 [ [微博](http://www.weibo.com/5220650532/Bm0S5sgSd) ] -> 2014-09-07 【前雅虎CTO:Hadoop扩展过程中的7个危险信号】开源到生产环境使用从来都不是件容易的事情,而大型分布式计算框架Hadoop的实施无疑更加复杂。这里罗列了7种常见问题和解决方案,来自前雅虎首席技术官。http://t.cn/RhbhV47 [ [微博](http://www.weibo.com/1715118170/BlSEon2az) ] +> 2014-09-07 @网路冷眼: 【前雅虎CTO:Hadoop扩展过程中的7个危险信号】开源到生产环境使用从来都不是件容易的事情,而大型分布式计算框架Hadoop的实施无疑更加复杂。这里罗列了7种常见问题和解决方案,来自前雅虎首席技术官。http://t.cn/RhbhV47 [ [微博](http://www.weibo.com/1715118170/BlSEon2az) ] 2014-09-08 企业研发也要有市场、学术调研 //@新闻传播学研:M //@徐泓xh:[研究生的基本功]从写好文献综述起步. [ [微博](http://www.weibo.com/5220650532/Bm0Dh5yRF) ] -> 2014-08-30 【文献综述专题】①如何写综述文章 ?http://t.cn/RPOsjGH;②三大牛人看外国文献的方法 http://t.cn/Rhwhak1;③研究生如何检索和阅读外文文献?http://t.cn/RhwhakB;④写文献综述的二十八个要点http://t.cn/RPZ9nF1;⑤15个学术搜索引擎http://t.cn/Rhwhakr; [ [微博](http://www.weibo.com/3477370701/BkINW1awH) ] +> 2014-08-30 @新闻传播学研: 【文献综述专题】①如何写综述文章 ?http://t.cn/RPOsjGH;②三大牛人看外国文献的方法 http://t.cn/Rhwhak1;③研究生如何检索和阅读外文文献?http://t.cn/RhwhakB;④写文献综述的二十八个要点http://t.cn/RPZ9nF1;⑤15个学术搜索引擎http://t.cn/Rhwhakr; [ [微博](http://www.weibo.com/3477370701/BkINW1awH) ] 2014-09-07 Tomas Mikolov http://t.cn/Rhq2QVU 很有意思。0.1c版更新等了近九个月,恐怕是跳槽耽误的。他今年5月从Google跳到Facebook, 工作之余还努力维护word2vec开源代码。爱看源代码的可以直接读diff http://t.cn/Rhq2QVZ [ [微博](http://www.weibo.com/5220650532/BlRmn38uo) ] -> 2014-09-07 一早起来看到Mikov更新了word2vec的代码。改动有:添加了一个迭代步数的参数;CBOW的输入层向量累加改成了平均;修改了基线模型(貌似融合了两个模型?);另外还调了把参。在开放语料库上得到了80%的准确性!http://t.cn/RhqAf1E(墙)@好东西传送门 [ [微博](http://www.weibo.com/2872565912/BlRdhejkf) ] +> 2014-09-07 @ustczen: 一早起来看到Mikov更新了word2vec的代码。改动有:添加了一个迭代步数的参数;CBOW的输入层向量累加改成了平均;修改了基线模型(貌似融合了两个模型?);另外还调了把参。在开放语料库上得到了80%的准确性!http://t.cn/RhqAf1E(墙)@好东西传送门 [ [微博](http://www.weibo.com/2872565912/BlRdhejkf) ] 2014-09-06 问: @V井颠V 对国内中长文章(300~5000字)近似新闻门户网站频道粒度的自动分类,有好的模型方法吗? 答: 进展 http://t.cn/RhGTzfI 考虑 statistical topic model, 推荐UIUC翟成祥 ( http://weibo.com/5220650532/BhWo26Y93 ) , Stanford 和Umass 都有软件包 国内工作欢迎补充 [ [微博](http://www.weibo.com/5220650532/BlMR9kjJ7) ] 2014-09-06 感谢推荐,当然是好东西! //@尘绳聋-SYSU: 那个网站还有个R for big data: http://t.cn/zHXfTF1 之前看人推荐过biglm, bigrf等pkg//@尘绳聋-SYSU: [晕] 传说wiseRF比sklearn里的RF更scale更快,不知道是不是真的[威武] [ [微博](http://www.weibo.com/5220650532/BlMJyCoRe) ] -> 2014-09-06 [推荐] 一张很好的脑图胜过千言万语,帮助你获得python的大数据处理工具全局观。http://t.cn/Rhb3P8I [ [微博](http://www.weibo.com/5220650532/BlGE7oFdz) ] +> 2014-09-06 @好东西传送门: [推荐] 一张很好的脑图胜过千言万语,帮助你获得python的大数据处理工具全局观。http://t.cn/Rhb3P8I [ [微博](http://www.weibo.com/5220650532/BlGE7oFdz) ] 2014-09-06 多年之前就受益于龙星计划的高质量资源,特别隆重推荐! [ [微博](http://www.weibo.com/5220650532/BlJzVhgIU) ] -> 2014-09-06 @龙星计划 计算机科学技术学术交流系列活动是一个杰出的海外华人教授回国系统讲授研究生课程的计划。已经连续举办了多年。这些的课程信息在http://t.cn/zO0r8Et。点击每个课程链接一般都能下载到对应的PPT。视频比较少,之前陆续发过一些,大家可以搜一下。@好东西传送门 [ [微博](http://www.weibo.com/1830516311/BlJcCiUIX) ] +> 2014-09-06 @龙星镖局: @龙星计划 计算机科学技术学术交流系列活动是一个杰出的海外华人教授回国系统讲授研究生课程的计划。已经连续举办了多年。这些的课程信息在http://t.cn/zO0r8Et。点击每个课程链接一般都能下载到对应的PPT。视频比较少,之前陆续发过一些,大家可以搜一下。@好东西传送门 [ [微博](http://www.weibo.com/1830516311/BlJcCiUIX) ] 2014-09-06 传送潜力股。这些好账号本门大多已经关注了 [耶] [ [微博](http://www.weibo.com/5220650532/BlIlA4xHp) ] -> 2014-09-06 人肉推荐几个长尾账号,搞技术学术的大家千万不要错过@AixinSG @陈天奇怪 @Copper_PKU @eyounx_俞扬 @JerryLead @刘成林_PR @计算天空 @LeftNotEasy @诸神善待民科组 @52cs 大v们就不推荐了 我只推荐潜力股[酷] [ [微博](http://www.weibo.com/1830516311/BlIc63bS1) ] +> 2014-09-06 @龙星镖局: 人肉推荐几个长尾账号,搞技术学术的大家千万不要错过@AixinSG @陈天奇怪 @Copper_PKU @eyounx_俞扬 @JerryLead @刘成林_PR @计算天空 @LeftNotEasy @诸神善待民科组 @52cs 大v们就不推荐了 我只推荐潜力股[酷] [ [微博](http://www.weibo.com/1830516311/BlIc63bS1) ] 2014-09-06 非常感谢,这本书是亚马逊的Computer Vision类畅销书第一名 卡片盒子添加了新链接 //@维尔茨:对于计算机视觉/图像强烈推荐Szeliski的Computer Vision: Algorithms and Applications。传送门:http://t.cn/RhbF7jr好东西传送门: 不好意思,你是找第二版吗? 可以问问 @没有我找不到的电子书 [ [微博](http://www.weibo.com/5220650532/BlIbspyg8) ] -> 2014-09-06 问:@龙星镖局 如果要从零学习图像或语音分析,要从那几本书开始? 答: 问答进展 http://t.cn/Rhbeix0 网络问答结果和相关课程大多推荐这几本经典老教科书:Digital Image Processing (3rd Edition) (2007), Speech and Language Processing, 2nd Edition (2008), 卡片盒子: http://t.cn/Rhbeixp [ [微博](http://www.weibo.com/5220650532/BlHHF1jr2) ] +> 2014-09-06 @好东西传送门: 问:@龙星镖局 如果要从零学习图像或语音分析,要从那几本书开始? 答: 问答进展 http://t.cn/Rhbeix0 网络问答结果和相关课程大多推荐这几本经典老教科书:Digital Image Processing (3rd Edition) (2007), Speech and Language Processing, 2nd Edition (2008), 卡片盒子: http://t.cn/Rhbeixp [ [微博](http://www.weibo.com/5220650532/BlHHF1jr2) ] 2014-09-06 不好意思,你是找第二版吗? 可以问问 @没有我找不到的电子书 [ [微博](http://www.weibo.com/5220650532/BlHYbucvp) ] -> 2014-09-06 问:@龙星镖局 如果要从零学习图像或语音分析,要从那几本书开始? 答: 问答进展 http://t.cn/Rhbeix0 网络问答结果和相关课程大多推荐这几本经典老教科书:Digital Image Processing (3rd Edition) (2007), Speech and Language Processing, 2nd Edition (2008), 卡片盒子: http://t.cn/Rhbeixp [ [微博](http://www.weibo.com/5220650532/BlHHF1jr2) ] +> 2014-09-06 @好东西传送门: 问:@龙星镖局 如果要从零学习图像或语音分析,要从那几本书开始? 答: 问答进展 http://t.cn/Rhbeix0 网络问答结果和相关课程大多推荐这几本经典老教科书:Digital Image Processing (3rd Edition) (2007), Speech and Language Processing, 2nd Edition (2008), 卡片盒子: http://t.cn/Rhbeixp [ [微博](http://www.weibo.com/5220650532/BlHHF1jr2) ] 2014-09-06 回复@ustczen: 感谢传送好东西。这是新加坡国立 Min-Yen Kan (靳民彦) 教授 研究组的工作 http://t.cn/SwJHvL @52nlp 2011年转过他们短信捐赠请求 http://t.cn/RhbDbIV //@ustczen:回复@好东西传送门:所以我老年痴呆又犯了么。。附链接:http://t.cn/hrXXWz [ [微博](http://www.weibo.com/5220650532/BlHNqyCgt) ] -> 2014-09-05 分享一个短信语料库, 42140 条英文短信和31205 条中文短信的语料,今年9月份还在更新,可以用来做QA系统。另外想知道微软小冰号称“集合了中国近7亿网民多年积累的全部公开聊天纪录1500万条语料”在哪能找到呢? @好东西传送门 @52nlp [ [微博](http://www.weibo.com/2872565912/BlzpfDZu6) ] +> 2014-09-05 @ustczen: 分享一个短信语料库, 42140 条英文短信和31205 条中文短信的语料,今年9月份还在更新,可以用来做QA系统。另外想知道微软小冰号称“集合了中国近7亿网民多年积累的全部公开聊天纪录1500万条语料”在哪能找到呢? @好东西传送门 @52nlp [ [微博](http://www.weibo.com/2872565912/BlzpfDZu6) ] 2014-09-06 问:@龙星镖局 如果要从零学习图像或语音分析,要从那几本书开始? 答: 问答进展 http://t.cn/Rhbeix0 网络问答结果和相关课程大多推荐这几本经典老教科书:Digital Image Processing (3rd Edition) (2007), Speech and Language Processing, 2nd Edition (2008), 卡片盒子: http://t.cn/Rhbeixp [ [微博](http://www.weibo.com/5220650532/BlHHF1jr2) ] @@ -126,13 +126,13 @@ 2014-09-06 传送理由: github上的好东西,快800星了。 作者的博客也很有深度,而且竟然用issue tracker写博客,赞! 这是个例子 http://t.cn/8s35KgP [ [微博](http://www.weibo.com/5220650532/BlH9sz9H9) ] -> 2014-09-01 做了个监控页面变化的开源项目page-monitor( http://t.cn/RhAQ58Y ),用phantomjs运行页面,保存所有元素的标签、属性、计算样式、文本内容,跟历史进行对比,从而发现产品的运营内容变化、功能改版等。由于是基于dom树对比,所以可以灵活的配置规则。貌似很多人想过这类产品,就当多一个开源选择吧。 [ [微博](http://www.weibo.com/1734864282/BkXFmn29q) ] +> 2014-09-01 @前端农民工: 做了个监控页面变化的开源项目page-monitor( http://t.cn/RhAQ58Y ),用phantomjs运行页面,保存所有元素的标签、属性、计算样式、文本内容,跟历史进行对比,从而发现产品的运营内容变化、功能改版等。由于是基于dom树对比,所以可以灵活的配置规则。貌似很多人想过这类产品,就当多一个开源选择吧。 [ [微博](http://www.weibo.com/1734864282/BkXFmn29q) ] 2014-09-06 问:@三鹿无毒奶粉 请问贵博关于航班准时预测和机票价格预测有那些相关的论文和模型 答:问答进展 http://t.cn/RhbBwy9 不少人用回归模型 航班准时预测(flight delay):有几篇MIT的文章;机票价格预测(ticket price): 有不少专利(发明人包括USC Craig Knoblock 教授) 卡片盒子 http://t.cn/RhbBwyK [ [微博](http://www.weibo.com/5220650532/BlH4Tc57x) ] 2014-09-06 传送理由:右边的链接真是好东西 -- 不止配色工具,还有大量字体,图片、纹理,壁纸等众多素材资源网站一网打尽。 //@设定控: 配色工具网站汇总 http://t.cn/RPbMz7M [ [微博](http://www.weibo.com/5220650532/BlGYiyx88) ] -> 2014-09-05 【7款靠谱工具帮你选取完美配色】Kulerhttp://t.cn/zlAJ019;PHOTOCOPAhttp://t.cn/zjLHT70;Pictaculoushttp://t.cn/5v56l;Color Palette FXhttp://t.cn/RPc5Y0S;Image Palettehttp://t.cn/RhbpgCB;Color Palette Generatorhttp://t.cn/brxM9;ColorExplorehttp://t.cn/RhbpgCr [ [微博](http://www.weibo.com/5198011111/BlDVpygav) ] +> 2014-09-05 @传媒老跟班: 【7款靠谱工具帮你选取完美配色】Kulerhttp://t.cn/zlAJ019;PHOTOCOPAhttp://t.cn/zjLHT70;Pictaculoushttp://t.cn/5v56l;Color Palette FXhttp://t.cn/RPc5Y0S;Image Palettehttp://t.cn/RhbpgCB;Color Palette Generatorhttp://t.cn/brxM9;ColorExplorehttp://t.cn/RhbpgCr [ [微博](http://www.weibo.com/5198011111/BlDVpygav) ] 2014-09-06 问: @ShawnAtLoss 请问哪边可以找到比较全面的关于大数据的survey 答: 问答进展: http://t.cn/Rhb1b0Z 推荐两类阅读:1 大数据领域地图,覆盖相关 技术,应用,公司 等 2. github好资源合集 http://t.cn/Rhb1b0w 1K+星,上百链接. 卡片盒子(现有6个资源): http://t.cn/Rhb1b0A 欢迎补充 [ [微博](http://www.weibo.com/5220650532/BlGU6teFP) ] @@ -140,15 +140,15 @@ 2014-09-05 转发理由:非常酷的星系生死大片!本超星系团呈羽毛形状,因为有个巨大的吸引子(就是羽毛的中心),不断吞噬星系。这些“羽毛”的绒线就是星系赴死即将遵循的轨迹。在图中银河系只是微不足道的一个小点 [ [微博](http://www.weibo.com/5220650532/BlzOYbTRu) ] -> 2014-09-04 最新研究表明,我们银河系所处的本超星系团比之前所认为的要大百倍!由夏威夷大学的Brent Tully所带领的团队使用最新的邻近星系位置和视向速度数据,采用创新的分析方法重新绘制了本超星系团的地图,他们这整个结构称为Laniakea。(Nature新闻:http://t.cn/RhU5OqB)http://t.cn/RhU5otQ [ [微博](http://www.weibo.com/3751111037/BloG76thp) ] +> 2014-09-04 @斯隆数字化巡天: 最新研究表明,我们银河系所处的本超星系团比之前所认为的要大百倍!由夏威夷大学的Brent Tully所带领的团队使用最新的邻近星系位置和视向速度数据,采用创新的分析方法重新绘制了本超星系团的地图,他们这整个结构称为Laniakea。(Nature新闻:http://t.cn/RhU5OqB)http://t.cn/RhU5otQ [ [微博](http://www.weibo.com/3751111037/BloG76thp) ] 2014-09-05 //@ShangguanRPI: 在前东家也做过一样的数据分析,结论也几乎一致。用的数据集来自usps登记的过去10年所有地址更换记录,不确定census的数据是否也来自这个源。 [ [微博](http://www.weibo.com/5220650532/BlzHefKoa) ] -> 2014-09-05 美国著名房地产公司trulia近日利用政府开放数据 http://t.cn/Rh4Htwl 分析了近年美国人口迁移的倾向:就近,房价低,人口密度小,低失业率 http://t.cn/Rh4HtwO [ [微博](http://www.weibo.com/5220650532/BlyKPBSIT) ] +> 2014-09-05 @好东西传送门: 美国著名房地产公司trulia近日利用政府开放数据 http://t.cn/Rh4Htwl 分析了近年美国人口迁移的倾向:就近,房价低,人口密度小,低失业率 http://t.cn/Rh4HtwO [ [微博](http://www.weibo.com/5220650532/BlyKPBSIT) ] 2014-09-05 转发理由:世界基本经济数据的可视化,地图均给出了数据出处 [ [微博](http://www.weibo.com/5220650532/BlzmDai0F) ] -> 2014-09-04 #政见资源推荐#【38张图片描述世界经济】38张图片给你呈大家关心的几十个世界经济主题,其中一些关注全球而一些关注区域研究。告诉你世界各地如是如何紧密联系,密切互动而又差异巨大。 http://t.cn/RPeB6W3 [ [微博](http://www.weibo.com/2499096521/Blq1jwr4Z) ] +> 2014-09-04 @政见CNPolitics: #政见资源推荐#【38张图片描述世界经济】38张图片给你呈大家关心的几十个世界经济主题,其中一些关注全球而一些关注区域研究。告诉你世界各地如是如何紧密联系,密切互动而又差异巨大。 http://t.cn/RPeB6W3 [ [微博](http://www.weibo.com/2499096521/Blq1jwr4Z) ] 2014-09-05 美国著名房地产公司trulia近日利用政府开放数据 http://t.cn/Rh4Htwl 分析了近年美国人口迁移的倾向:就近,房价低,人口密度小,低失业率 http://t.cn/Rh4HtwO [ [微博](http://www.weibo.com/5220650532/BlyKPBSIT) ] @@ -164,7 +164,7 @@ 2014-09-03 回复@统计之都: 非常感谢 这可是今年7月新鲜出炉的文章,Gilles Louppe http://t.cn/RhyvpGz //@统计之都:Gilles Louppe的博士论文《随机森林:从理论到实践》,PDF下载地址http://t.cn/RP8JQyC。 [ [微博](http://www.weibo.com/5220650532/BlfvG3fm9) ] -> 2014-09-03 问: @董伟_dzw259 哪里能够找到比较详细介绍随机森林的paper吗? 答: http://t.cn/RhLFi4R 随机森林(random forests)原作者之一 Leo Breiman 在“机器学习”2001年期刊有长文。推荐哥伦比亚大学教授Lauren Hannah的讲义。中文 @LeftNotEasy 2011年博文. 资料卡片: http://t.cn/RhLFzN1 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/Blfhkk0qI) ] +> 2014-09-03 @好东西传送门: 问: @董伟_dzw259 哪里能够找到比较详细介绍随机森林的paper吗? 答: http://t.cn/RhLFi4R 随机森林(random forests)原作者之一 Leo Breiman 在“机器学习”2001年期刊有长文。推荐哥伦比亚大学教授Lauren Hannah的讲义。中文 @LeftNotEasy 2011年博文. 资料卡片: http://t.cn/RhLFzN1 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/Blfhkk0qI) ] 2014-09-03 问: @董伟_dzw259 哪里能够找到比较详细介绍随机森林的paper吗? 答: http://t.cn/RhLFi4R 随机森林(random forests)原作者之一 Leo Breiman 在“机器学习”2001年期刊有长文。推荐哥伦比亚大学教授Lauren Hannah的讲义。中文 @LeftNotEasy 2011年博文. 资料卡片: http://t.cn/RhLFzN1 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/Blfhkk0qI) ] @@ -172,71 +172,71 @@ 2014-09-03 在Neural Networks and Deep Learning第四章有对这个定理的可视化阐述,简洁易懂 http://t.cn/RhL8X74 该书我们以前在深度学习系列里也推荐过 http://t.cn/RhLmjtj [ [微博](http://www.weibo.com/5220650532/BlcZI7vdh) ] -> 2014-07-29 @LDL_BIT 问:有哪些文章讲了多层感知器MLP的拟合能力问题?尤其是拟合多项式的能力?答:当使用非线性的激活函数,MLP是图灵完备的,可以模拟任何函数,当然包括多项式函数。这称为普适逼近原理(Universal approximation theorem)。深度学习则提高了逼近的效率。经典论文见 http://t.cn/RPVAYZ4 [ [微博](http://www.weibo.com/5220650532/BfO8hcCYx) ] +> 2014-07-29 @好东西传送门: @LDL_BIT 问:有哪些文章讲了多层感知器MLP的拟合能力问题?尤其是拟合多项式的能力?答:当使用非线性的激活函数,MLP是图灵完备的,可以模拟任何函数,当然包括多项式函数。这称为普适逼近原理(Universal approximation theorem)。深度学习则提高了逼近的效率。经典论文见 http://t.cn/RPVAYZ4 [ [微博](http://www.weibo.com/5220650532/BfO8hcCYx) ] 2014-09-01 转发理由:Larochelle是加拿大Université de Sherbrooke的教授。他是蒙特利尔大学Yoshua Bengio的博士,多伦多大学Geoffrey Hinton的博士后,师承深度学习的两大重镇 [ [微博](http://www.weibo.com/5220650532/BkVuU0EdN) ] -> 2014-08-31 我的导师Hugo Larochelle教授的神经网络教程的视频,已经授权我放到优酷上。欢迎大家分享和学习。这个教程涉及到神经网络的基础知识,以及深度学习目前最新的研究进展,是非常好的资料。我也会尽量9月份开始在清华组织神经网络、深度学习相关的学习讨论会,欢迎大家观看和参加!http://t.cn/RhAzUCm [ [微博](http://www.weibo.com/2034296393/BkS0MyvCG) ] +> 2014-08-31 @郑胤THU: 我的导师Hugo Larochelle教授的神经网络教程的视频,已经授权我放到优酷上。欢迎大家分享和学习。这个教程涉及到神经网络的基础知识,以及深度学习目前最新的研究进展,是非常好的资料。我也会尽量9月份开始在清华组织神经网络、深度学习相关的学习讨论会,欢迎大家观看和参加!http://t.cn/RhAzUCm [ [微博](http://www.weibo.com/2034296393/BkS0MyvCG) ] 2014-09-01 传送原因:用SQL访问Elasticsearch大大方便了查询构造。以前有类似项目ELSeQL, 但已很久没有更新了 @温少 @elasticsearch @Medcl [ [微博](http://www.weibo.com/5220650532/BkU1JcW8K) ] -> 2014-09-01 奋斗了整整一周多的时间...elasticsearch-sql 终于有了初版本.十分高兴.大家尤其是运维或者非搜索的工程师.可以用sql语句来搜或索聚合索引内容了. 有兴趣的朋友来试试吧http://t.cn/RhAtrwJ [ [微博](http://www.weibo.com/1434895303/BkTOzB35q) ] +> 2014-09-01 @ansj: 奋斗了整整一周多的时间...elasticsearch-sql 终于有了初版本.十分高兴.大家尤其是运维或者非搜索的工程师.可以用sql语句来搜或索聚合索引内容了. 有兴趣的朋友来试试吧http://t.cn/RhAtrwJ [ [微博](http://www.weibo.com/1434895303/BkTOzB35q) ] 2014-08-31 传送理由:开源的推荐系统,从各种语言调用都方便 [ [微博](http://www.weibo.com/5220650532/BkOEij8Pb) ] -> 2014-08-31 Predict.io,目前最实用的开放源码#推荐系统#,重要的是成熟度很高并且#大数据#ready,原始数据存储支持Hadoop/MongoDB,支持多种单机和分布式推荐算法:协同过滤,KNN,SVD++等,支持包括Android/JS/PHP/Python/Ruby多种客户端SDK,支持无服务器的云部署方式,http://t.cn/zRIPHGR [ [微博](http://www.weibo.com/1699016425/BkOd1r5qb) ] +> 2014-08-31 @KissDev: Predict.io,目前最实用的开放源码#推荐系统#,重要的是成熟度很高并且#大数据#ready,原始数据存储支持Hadoop/MongoDB,支持多种单机和分布式推荐算法:协同过滤,KNN,SVD++等,支持包括Android/JS/PHP/Python/Ruby多种客户端SDK,支持无服务器的云部署方式,http://t.cn/zRIPHGR [ [微博](http://www.weibo.com/1699016425/BkOd1r5qb) ] 2014-08-31 @Copper_PKU 的讲义前段时间推荐过,这个也很赞。 [ [微博](http://www.weibo.com/5220650532/BkOCelqIv) ] -> 2014-08-31 强烈推荐:《主题模型及其扩展》 娓娓道来 可读性极强 [good] 连接:http://t.cn/RPdGsb9 来源:@52cs 作者:@Copper_PKU 请@好东西传送门 @网路冷眼 等童鞋审阅扩散 [呵呵] [ [微博](http://www.weibo.com/1830516311/BkNDFcvBQ) ] +> 2014-08-31 @龙星镖局: 强烈推荐:《主题模型及其扩展》 娓娓道来 可读性极强 [good] 连接:http://t.cn/RPdGsb9 来源:@52cs 作者:@Copper_PKU 请@好东西传送门 @网路冷眼 等童鞋审阅扩散 [呵呵] [ [微博](http://www.weibo.com/1830516311/BkNDFcvBQ) ] 2014-08-31 传送问题,问答进展 http://t.cn/Rhw4h2m 看过YAC吗? http://t.cn/zYrnBVx [ [微博](http://www.weibo.com/5220650532/BkK3q8zJ6) ] -> 2014-08-31 PHP问题求助:求推荐一个PHP上的内存cache 的mod . 要求是:1 轻量级,2 倾向于embedded本机运行而不是通过网络通信,3 与新版PHP 5.6兼容. 4 这个cache是指存放php 变量数据的cache,而不是bytecode本身 @好东西传送门 @memect [ [微博](http://www.weibo.com/1402229482/BkJCg7ppe) ] +> 2014-08-31 @子_相: PHP问题求助:求推荐一个PHP上的内存cache 的mod . 要求是:1 轻量级,2 倾向于embedded本机运行而不是通过网络通信,3 与新版PHP 5.6兼容. 4 这个cache是指存放php 变量数据的cache,而不是bytecode本身 @好东西传送门 @memect [ [微博](http://www.weibo.com/1402229482/BkJCg7ppe) ] 2014-08-30 增补两个相关组织: @九章算法 的专业培训可(程序员的新东方)http://t.cn/RhwAzyN 。 @灵魂机器 组织的程序员北美求职 (肉身翻墙)http://t.cn/RhwAzyp len(卡片盒子)=8 [ [微博](http://www.weibo.com/5220650532/BkJlm0cyz) ] -> 2014-08-30 半夜推荐 Leetcode 资源整理合集。 它目前有150道题,是程序员肉身翻墙的好东西,也适合快速提高自我修养。精选资料在我的卡片盒子里 http://t.cn/RhwwCGL 现在有6项: @灵魂机器 (Frank Dai) 的刷题宝典,若干人的涮题体验。这是一个会成长的卡片盒子,欢迎添加好东西。 [ [微博](http://www.weibo.com/5220650532/BkJheojHW) ] +> 2014-08-30 @好东西传送门: 半夜推荐 Leetcode 资源整理合集。 它目前有150道题,是程序员肉身翻墙的好东西,也适合快速提高自我修养。精选资料在我的卡片盒子里 http://t.cn/RhwwCGL 现在有6项: @灵魂机器 (Frank Dai) 的刷题宝典,若干人的涮题体验。这是一个会成长的卡片盒子,欢迎添加好东西。 [ [微博](http://www.weibo.com/5220650532/BkJheojHW) ] 2014-08-30 半夜推荐 Leetcode 资源整理合集。 它目前有150道题,是程序员肉身翻墙的好东西,也适合快速提高自我修养。精选资料在我的卡片盒子里 http://t.cn/RhwwCGL 现在有6项: @灵魂机器 (Frank Dai) 的刷题宝典,若干人的涮题体验。这是一个会成长的卡片盒子,欢迎添加好东西。 [ [微博](http://www.weibo.com/5220650532/BkJheojHW) ] 2014-08-30 转发理由:前段时间 @蒋宁平 正在找情感分析资料 //@皮皮虾大屁土鳖小主: 大家不要怕 我们的MPQA已经在重新标了 标完之后欢迎大家重新发一轮paper 记得引用新的corpus和paper哦~ [ [微博](http://www.weibo.com/5220650532/BkFES82Eu) ] -> 2014-08-30 EMNLP-14上又一篇用Convolutional Neural Network做情感分类的,在7个公开数据集中的4个取得了state-of-the-art的结果,照这个搞法真是越来越难做啊。。。 paper链接:http://t.cn/RhZNHAn [ [微博](http://www.weibo.com/1895401411/BkFkCgD88) ] +> 2014-08-30 @董力at北航: EMNLP-14上又一篇用Convolutional Neural Network做情感分类的,在7个公开数据集中的4个取得了state-of-the-art的结果,照这个搞法真是越来越难做啊。。。 paper链接:http://t.cn/RhZNHAn [ [微博](http://www.weibo.com/1895401411/BkFkCgD88) ] 2014-08-30 谢谢表扬[害羞]。门就是为大家传送好东西,能直销,能问答,也支持多级传送。 [ [微博](http://www.weibo.com/5220650532/BkFBtpBKv) ] -> 2014-08-30 注意到个很不好的现象,有些大V,在微博上看到别人分享推荐的好资料之后,会把推荐内容自己编辑一下,然后以自己的名义再发出来。强烈谴责这种只尊重原创者,而不尊重发现者的行为。尊重发现者方面,@好东西传送门 @developerWorks 做得不错[good] ,向他们学习! [ [微博](http://www.weibo.com/1830516311/BkFy0AIKm) ] +> 2014-08-30 @龙星粉: 注意到个很不好的现象,有些大V,在微博上看到别人分享推荐的好资料之后,会把推荐内容自己编辑一下,然后以自己的名义再发出来。强烈谴责这种只尊重原创者,而不尊重发现者的行为。尊重发现者方面,@好东西传送门 @developerWorks 做得不错[good] ,向他们学习! [ [微博](http://www.weibo.com/1830516311/BkFy0AIKm) ] 2014-08-30 //@lidingpku: 2010年在上海开ISWC时做了一张幻灯片( http://t.cn/RhZpjfr 第26张),把美国政府数据与中国国家统计局的数据关联起来比较两国GDP历年来的差异 (当然这只能算民科,谁叫咱没金融背景呢) //@潘越_: //@好东西传送门:回复@icanswimwell: 美国的数据前几天才发过 http://t.cn/RhZJNoM [ [微博](http://www.weibo.com/5220650532/BkFz32kjm) ] -> 2014-08-30 [数据资源] 日本政治、经济、地理数据大全(免费,可下载)http://t.cn/RhZb561 日本开放政府数据网站测试版(www.data.gov.jp)于2014年发布,现有来自21个政府部门的10,411个数据集。 其他数据源:历年人口、工业、经济普查数据; 政府预算数据; 地理信息数据;1947-2003议会选举数据 等 [ [微博](http://www.weibo.com/5220650532/BkCwfoJ0Y) ] +> 2014-08-30 @好东西传送门: [数据资源] 日本政治、经济、地理数据大全(免费,可下载)http://t.cn/RhZb561 日本开放政府数据网站测试版(www.data.gov.jp)于2014年发布,现有来自21个政府部门的10,411个数据集。 其他数据源:历年人口、工业、经济普查数据; 政府预算数据; 地理信息数据;1947-2003议会选举数据 等 [ [微博](http://www.weibo.com/5220650532/BkCwfoJ0Y) ] 2014-08-30 SAS base 今年KDnudgget数据分析常用工具民意调查( http://t.cn/RhZ0HjY )排名第9,而排名靠前的都有免费版。现在SAS推这个免费版,很好奇它明年的排名 //@刘政-SAS: 回复@侯广_充电ing:大学免费版跟我要,有base, graph, miner, or, 计量经济学和时间序列。//@侯广_充电ing:全国数学建模马上就要开始 [ [微博](http://www.weibo.com/5220650532/BkFytfb9v) ] -> 2014-08-29 自打SAS提供免费软件以来,3个月全球下载量已经超过67000多。你下载了吗?http://t.cn/Rvq6YxN 欧美明显有非常成熟的数据分析市场和大量的使用人群。 [ [微博](http://www.weibo.com/1140645172/BkvcqkvbI) ] +> 2014-08-29 @刘政-SAS: 自打SAS提供免费软件以来,3个月全球下载量已经超过67000多。你下载了吗?http://t.cn/Rvq6YxN 欧美明显有非常成熟的数据分析市场和大量的使用人群。 [ [微博](http://www.weibo.com/1140645172/BkvcqkvbI) ] 2014-08-30 国家统计局 每年都有统计年鉴 这个是英文版 http://t.cn/hrL49A @郑老石 还贴过一个研讨会的通知 http://t.cn/RhZNQkD 台北也有 http://t.cn/RhZNQkF 香港也有 http://t.cn/RhZNQkk //@G小调的Qing歌:[笑cry][笑cry][笑cry]有中国的吗 //@好东西传送门:回复@icanswimwell [ [微博](http://www.weibo.com/5220650532/BkFkQrFI2) ] -> 2014-08-30 [数据资源] 日本政治、经济、地理数据大全(免费,可下载)http://t.cn/RhZb561 日本开放政府数据网站测试版(www.data.gov.jp)于2014年发布,现有来自21个政府部门的10,411个数据集。 其他数据源:历年人口、工业、经济普查数据; 政府预算数据; 地理信息数据;1947-2003议会选举数据 等 [ [微博](http://www.weibo.com/5220650532/BkCwfoJ0Y) ] +> 2014-08-30 @好东西传送门: [数据资源] 日本政治、经济、地理数据大全(免费,可下载)http://t.cn/RhZb561 日本开放政府数据网站测试版(www.data.gov.jp)于2014年发布,现有来自21个政府部门的10,411个数据集。 其他数据源:历年人口、工业、经济普查数据; 政府预算数据; 地理信息数据;1947-2003议会选举数据 等 [ [微博](http://www.weibo.com/5220650532/BkCwfoJ0Y) ] 2014-08-30 问: @小磊_DM_中二青年 在学搜索,请问有Nutch的相关资料吗? 答: nutch主要做网络爬虫,可以和solr结合做搜索引擎。问答进展: http://t.cn/RhZN72R (卡片盒子 http://t.cn/RhZN72E 6个资源): nutch 的中英文安装短教程(此外看Nutch wiki); nutch工作流程; 最近很火的CommonCrawl也转用nutch [ [微博](http://www.weibo.com/5220650532/BkFg8v2lw) ] 2014-08-30 //@velvel2:多任务和域自适应是转移学习的两种配置(还有无监督). 记源领域和源任务是D1和T1, 目标领域和目标任务是D2和T2 (D={特征空间,边际概率分布}, T={标签空间,预测函数}), 其中D1 != D2或T1 != T2; 则利用D1和T1信息提升目标任务性能叫迁移, 同时提升源任务性能叫多任务, 如果T1=T2叫领域自适应 [ [微博](http://www.weibo.com/5220650532/BkERugEzy) ] -> 2014-08-19 问: @唐小sin 有没有multi-task learning的相关学习资料呢? 答: 维基百科上有不少经典文献。AAAI和ICML都有论文(北大/清华)。找到今年Honglak Lee (U Michigan 教授)的短教程。Lan Žagar 博士论文(2014) Ranking by Multitask Learning. 问答追踪: http://t.cn/RP8a3Ax 求补充 [ [微博](http://www.weibo.com/5220650532/BiZl47k80) ] +> 2014-08-19 @好东西传送门: 问: @唐小sin 有没有multi-task learning的相关学习资料呢? 答: 维基百科上有不少经典文献。AAAI和ICML都有论文(北大/清华)。找到今年Honglak Lee (U Michigan 教授)的短教程。Lan Žagar 博士论文(2014) Ranking by Multitask Learning. 问答追踪: http://t.cn/RP8a3Ax 求补充 [ [微博](http://www.weibo.com/5220650532/BiZl47k80) ] 2014-08-30 回复@icanswimwell: 美国的数据前几天才发过 http://t.cn/RhZJNoM (卡片盒子现有19项 http://t.cn/RhZJNox ) 美国政府在data.gov开放了十多万个免费、免版权的公开数据集 //@icanswimwell:感谢分享~~要有美国的就更好啦[挖鼻屎][挖鼻屎] [ [微博](http://www.weibo.com/5220650532/BkEg1kOpm) ] -> 2014-08-30 [数据资源] 日本政治、经济、地理数据大全(免费,可下载)http://t.cn/RhZb561 日本开放政府数据网站测试版(www.data.gov.jp)于2014年发布,现有来自21个政府部门的10,411个数据集。 其他数据源:历年人口、工业、经济普查数据; 政府预算数据; 地理信息数据;1947-2003议会选举数据 等 [ [微博](http://www.weibo.com/5220650532/BkCwfoJ0Y) ] +> 2014-08-30 @好东西传送门: [数据资源] 日本政治、经济、地理数据大全(免费,可下载)http://t.cn/RhZb561 日本开放政府数据网站测试版(www.data.gov.jp)于2014年发布,现有来自21个政府部门的10,411个数据集。 其他数据源:历年人口、工业、经济普查数据; 政府预算数据; 地理信息数据;1947-2003议会选举数据 等 [ [微博](http://www.weibo.com/5220650532/BkCwfoJ0Y) ] 2014-08-30 回复@山雨清新: 原帖就是一个卡片盒子,链接可以在那里找到,现在已经16项了。同附链接 (200k book,1M rating)书籍 http://t.cn/RhZMPWc (10k movie, 10M rating)电影 http://t.cn/RhZMPWt //@山雨清新:请问新增补的两个评论数据集的链接? 找了下,没找到 //@好东西传送门:回复@好东西传送 [ [微博](http://www.weibo.com/5220650532/BkDZfdlu2) ] -> 2014-08-30 [资料整理] @鱼片的小露宝 我正在学习hadoop,我想知道从哪里可以获取一些原始数据样本(就好像hadoop权威指南里面所说的NCDC的气象数据日志)来做数据分析的练习? 答: 一些大数据与目录: http://t.cn/RhZqcq9 气象遥感数据因有图片通常比较大;政府数据包罗万象;(社交)网络数据边多。 [ [微博](http://www.weibo.com/5220650532/BkD1Yu1WE) ] +> 2014-08-30 @好东西传送门: [资料整理] @鱼片的小露宝 我正在学习hadoop,我想知道从哪里可以获取一些原始数据样本(就好像hadoop权威指南里面所说的NCDC的气象数据日志)来做数据分析的练习? 答: 一些大数据与目录: http://t.cn/RhZqcq9 气象遥感数据因有图片通常比较大;政府数据包罗万象;(社交)网络数据边多。 [ [微博](http://www.weibo.com/5220650532/BkD1Yu1WE) ] 2014-08-30 回复@好东西传送门: 又增补了两个评论数据集: (10k movie, 10M rating)电影; (200k book,1M rating)书籍 //@好东西传送门:回复@海中的沙粒: 感谢提醒,这一次主要是针对该问题的资源整理,目前列表里原来有12项,现在有增补了CMU的ClueWeb2009网页数据集(10亿页),NIST TREC的测试数据 [ [微博](http://www.weibo.com/5220650532/BkDzbsk24) ] -> 2014-08-30 [资料整理] @鱼片的小露宝 我正在学习hadoop,我想知道从哪里可以获取一些原始数据样本(就好像hadoop权威指南里面所说的NCDC的气象数据日志)来做数据分析的练习? 答: 一些大数据与目录: http://t.cn/RhZqcq9 气象遥感数据因有图片通常比较大;政府数据包罗万象;(社交)网络数据边多。 [ [微博](http://www.weibo.com/5220650532/BkD1Yu1WE) ] +> 2014-08-30 @好东西传送门: [资料整理] @鱼片的小露宝 我正在学习hadoop,我想知道从哪里可以获取一些原始数据样本(就好像hadoop权威指南里面所说的NCDC的气象数据日志)来做数据分析的练习? 答: 一些大数据与目录: http://t.cn/RhZqcq9 气象遥感数据因有图片通常比较大;政府数据包罗万象;(社交)网络数据边多。 [ [微博](http://www.weibo.com/5220650532/BkD1Yu1WE) ] 2014-08-30 [资料整理] @鱼片的小露宝 我正在学习hadoop,我想知道从哪里可以获取一些原始数据样本(就好像hadoop权威指南里面所说的NCDC的气象数据日志)来做数据分析的练习? 答: 一些大数据与目录: http://t.cn/RhZqcq9 气象遥感数据因有图片通常比较大;政府数据包罗万象;(社交)网络数据边多。 [ [微博](http://www.weibo.com/5220650532/BkD1Yu1WE) ] @@ -248,21 +248,21 @@ 2014-08-29 传送原因: 中英文对照 Communications of the ACM 2012 //@网路冷眼: 找到了,发表在中国计算机学会通讯上面的一篇翻译文章<机器学习那些事> http://t.cn/RhPxmIl [赞] //@52nlp: 印象 @刘知远THU 同学翻译过 [ [微博](http://www.weibo.com/5220650532/Bkrxo2j4u) ] -> 2014-08-27 美国华盛顿大学计算机科学及工程系,机器学习的大牛Pedro Domingos所著总结了机器学习的研究者和实践者所学到的十二个关键的经验教训。这些包括避免陷阱、以重要的问题为重点和常见问题的解答. 貌似@52NLP 提及过 http://t.cn/zlK8HTU [ [微博](http://www.weibo.com/1715118170/BkhayDnra) ] +> 2014-08-27 @网路冷眼: 美国华盛顿大学计算机科学及工程系,机器学习的大牛Pedro Domingos所著总结了机器学习的研究者和实践者所学到的十二个关键的经验教训。这些包括避免陷阱、以重要的问题为重点和常见问题的解答. 貌似@52NLP 提及过 http://t.cn/zlK8HTU [ [微博](http://www.weibo.com/1715118170/BkhayDnra) ] 2014-08-28 问: @钱知易: 能不能帮我找找大规模图像检索方面的资料以及这个领域的牛人(国内国外)? 答: 初步结果:http://t.cn/RPe5HBt 中科大 杨晓冬有一个很全面的计算机视觉领域资料整理。兰晓松 在科学网上著有专家列表,2014年9月自动化所有一个“计算机视觉前沿研讨会” ,列举了许多国内著名专家 [ [微博](http://www.weibo.com/5220650532/BklQZALi7) ] 2014-08-28 问: @Don0719 有没有做正电子无损检测的大佬或者相关的书籍、文献啊? 答: 欢迎材料学问题。 问答进展看这里 http://t.cn/RPsI3yE 推荐R. Krause Rehberg 2010年的幻灯片。正电子湮没研究论文很多,还有专门国际会议。无损检测相关找到6篇。欢迎专家补充指正。 [ [微博](http://www.weibo.com/5220650532/BklhZul43) ] -> 2014-08-28 有没有做正电子无损检测的大佬或者相关的书籍、文献啊@好东西传送门 @Rachel____Zhang @人人林关亮 @西瓜大丸子汤 @孙明明_SmarterChina @黑伽罗 http://t.cn/RP6nGI0 [ [微博](http://www.weibo.com/2305250811/Bkhuj9CUi) ] +> 2014-08-28 @Don0719: 有没有做正电子无损检测的大佬或者相关的书籍、文献啊@好东西传送门 @Rachel____Zhang @人人林关亮 @西瓜大丸子汤 @孙明明_SmarterChina @黑伽罗 http://t.cn/RP6nGI0 [ [微博](http://www.weibo.com/2305250811/Bkhuj9CUi) ] 2014-08-27 SVD,LSI,PCA 是线性代数 在数据挖掘中应用的基本概念,常用于数据降维(每个提取的features对应一个维度),需要重点理解。 原文作者应该是 @LeftNotEasy 吧 [ [微博](http://www.weibo.com/5220650532/Bkh2Lecdh) ] -> 2014-08-27 @好东西传送门 @龙星计划 关于SVD奇异值分解讲的非常清楚的文章,从矩阵的特征值分解到奇异值分解,再到矩阵的近似逼近,讲的非常透彻的文章!包括svd计算,LSI(潜在语义),以及PCA(主成分析)。http://t.cn/zO0ffR2 [ [微博](http://www.weibo.com/1805841815/BkgARFhuk) ] +> 2014-08-27 @你知道什么是情非得已么: @好东西传送门 @龙星计划 关于SVD奇异值分解讲的非常清楚的文章,从矩阵的特征值分解到奇异值分解,再到矩阵的近似逼近,讲的非常透彻的文章!包括svd计算,LSI(潜在语义),以及PCA(主成分析)。http://t.cn/zO0ffR2 [ [微博](http://www.weibo.com/1805841815/BkgARFhuk) ] 2014-08-27 是这个问题吗? accelerating bayesian network 200X using a GPU 问答进展看这里: http://t.cn/RPku09w [ [微博](http://www.weibo.com/5220650532/BkgNJu9af) ] -> 2014-08-27 有哪些大牛做过GPU加速贝叶斯网络学习,还有相关的代码,方便学习@好东西传送门 [ [微博](http://www.weibo.com/1974787502/BkfWmyZUV) ] +> 2014-08-27 @lzqkean: 有哪些大牛做过GPU加速贝叶斯网络学习,还有相关的代码,方便学习@好东西传送门 [ [微博](http://www.weibo.com/1974787502/BkfWmyZUV) ] 2014-08-27 问:@月光馆果果妈 请问从语音和视频资源共同进行学习的算法谁比较有研究啊 答: 深度学习是当前趋势(斯坦福,微软,谷歌都这样)。专家 Andrew Ng, Geoffrey Hinton, Li Deng, Louis-Philippe Morency, Ruslan Salakhutdinov, 微博技术控:@言语挖挖 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BkdhGpY4d) ] @@ -270,63 +270,63 @@ 2014-08-27 非常感谢 @董力at北航 他本科时候做的一个KDD2012demo http://t.cn/RPDwF8S (情感细分为厌恶、愤怒、高兴、悲伤四类 )很好玩,分析各省人民的情绪彼岸花,小心地图炮呦?能下载数据。 此外他以前还推荐过 http://t.cn/Sc68lv Sentiment Symposium Tutorial [ [微博](http://www.weibo.com/5220650532/Bkco7lkJU) ] -> 2014-08-27 问: @蒋宁平 求推荐中文情感计算资源,包括中文情感词库,尤其是细分情感种类的(比如喜爱,愤怒,悲伤…等)。 答:问答进展:http://t.cn/RPeutqb 初步答案:斯坦福有公开课和基于深度学习的成果。知乎有资源列表。刘兵教授有综述。数据看 NTUSD, 知网。微博问 @TT小和子 @黠之大者 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BkbzO54pR) ] +> 2014-08-27 @好东西传送门: 问: @蒋宁平 求推荐中文情感计算资源,包括中文情感词库,尤其是细分情感种类的(比如喜爱,愤怒,悲伤…等)。 答:问答进展:http://t.cn/RPeutqb 初步答案:斯坦福有公开课和基于深度学习的成果。知乎有资源列表。刘兵教授有综述。数据看 NTUSD, 知网。微博问 @TT小和子 @黠之大者 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BkbzO54pR) ] 2014-08-27 非常感谢 @posa88 推荐 lingpipe的影评数据(基于IMDB)由康奈尔的 Lillian Lee 和 Bo Pang 提供 //@posa88:大连理工这个库用过,还行:http://t.cn/RPesat2 ,http://t.cn/bln2a [ [微博](http://www.weibo.com/5220650532/BkcgExrKL) ] -> 2014-08-27 问: @蒋宁平 求推荐中文情感计算资源,包括中文情感词库,尤其是细分情感种类的(比如喜爱,愤怒,悲伤…等)。 答:问答进展:http://t.cn/RPeutqb 初步答案:斯坦福有公开课和基于深度学习的成果。知乎有资源列表。刘兵教授有综述。数据看 NTUSD, 知网。微博问 @TT小和子 @黠之大者 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BkbzO54pR) ] +> 2014-08-27 @好东西传送门: 问: @蒋宁平 求推荐中文情感计算资源,包括中文情感词库,尤其是细分情感种类的(比如喜爱,愤怒,悲伤…等)。 答:问答进展:http://t.cn/RPeutqb 初步答案:斯坦福有公开课和基于深度学习的成果。知乎有资源列表。刘兵教授有综述。数据看 NTUSD, 知网。微博问 @TT小和子 @黠之大者 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BkbzO54pR) ] 2014-08-27 问: @蒋宁平 求推荐中文情感计算资源,包括中文情感词库,尤其是细分情感种类的(比如喜爱,愤怒,悲伤…等)。 答:问答进展:http://t.cn/RPeutqb 初步答案:斯坦福有公开课和基于深度学习的成果。知乎有资源列表。刘兵教授有综述。数据看 NTUSD, 知网。微博问 @TT小和子 @黠之大者 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BkbzO54pR) ] 2014-08-27 回复@DataMooc: 有相关问答,整理中,参见 http://t.cn/RPmIw2I //@DataMooc:有没有Python版的中文分词开源工具? //@好东西传送门:搭车再次推荐ansj, 孙健写的很有用的中文分词工具。http://weibo.com/5220650532/Bh9WGeljD //@ansj: 应该不是[衰] //@好东西传送门:@夏二货爱吃 [ [微博](http://www.weibo.com/5220650532/Bkb1stYmh) ] -> 2014-08-26 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] +> 2014-08-26 @honeytidy: 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] 2014-08-27 http://t.cn/RPeILJ1 链接在这里 [ [微博](http://www.weibo.com/5220650532/Bk8n73Qla) ] -> 2014-08-25 强烈推荐@王威廉 的《大数据时代的机器学习热点:ICML2013参会感想》,对当前机器学习热点做了简短的科普,不过貌似有私心,对自己学院的技术多介绍了一些哈。[嘻嘻] @好东西传送门 @developerWorks @星空下的巫师 @龙星计划 [ [微博](http://www.weibo.com/5172229575/BjUJ6w613) ] +> 2014-08-25 @52cs: 强烈推荐@王威廉 的《大数据时代的机器学习热点:ICML2013参会感想》,对当前机器学习热点做了简短的科普,不过貌似有私心,对自己学院的技术多介绍了一些哈。[嘻嘻] @好东西传送门 @developerWorks @星空下的巫师 @龙星计划 [ [微博](http://www.weibo.com/5172229575/BjUJ6w613) ] 2014-08-27 搭车再次推荐ansj, 孙健写的很有用的中文分词工具。http://weibo.com/5220650532/Bh9WGeljD //@ansj: 应该不是[衰] //@好东西传送门:@夏二货爱吃胡萝卜: 万恶的微软官网居然用自动翻译!是孙剑 //@夏二货爱吃胡萝卜:@图像视觉研究:的确是说错了。是孙剑。 //@严浩RB:这个孙健是写ansj的那个吗? [ [微博](http://www.weibo.com/5220650532/Bk8kLotLu) ] -> 2014-08-26 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] +> 2014-08-26 @honeytidy: 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] 2014-08-26 回复@夏二货爱吃胡萝卜: 感谢指正,万恶的多语言系统,微软官网居然用自动翻译,当然名字就翻错了。是孙剑 //@夏二货爱吃胡萝卜:回复@图像视觉研究:的确是说错了。是孙剑。 //@好东西传送门:回复@严浩RB: 此孙健 是微软研究员 http://t.cn/RPe4I9D 搞图像处理, //@严浩RB:这个孙健是写ansj的那个吗? [ [微博](http://www.weibo.com/5220650532/Bk7zycQvc) ] -> 2014-08-26 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] +> 2014-08-26 @honeytidy: 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] 2014-08-26 回复@严浩RB: 此孙健 是微软研究员 http://t.cn/RPe4I9D 搞图像处理, //@严浩RB:这个孙健是写ansj的那个吗? //@好东西传送门:问答进展:http://t.cn/RPgpH65 有不少IEEE Fellow, 华人还有 UIUC马毅(现在上海) 微软亚洲研究院:孙健 。到CVPR, ICCV上多看看能 [ [微博](http://www.weibo.com/5220650532/Bk7qGAF9O) ] -> 2014-08-26 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] +> 2014-08-26 @honeytidy: 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] 2014-08-26 回复@严浩RB: 非也 http://t.cn/RPe4GEw 彼孙健: Ansj 是一个开源的 Java 中文分词工具“胸无大志,没想过创业,没想过发财,只想高高兴兴写两行代码,做了近五年Java程序员,写过页面,干过运维,做过人力“ //@严浩RB:这个孙健是写ansj的那个吗? //@好东西传送门:问答进展:http://t.cn/RPgpH65 [ [微博](http://www.weibo.com/5220650532/Bk7q9uMks) ] -> 2014-08-26 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] +> 2014-08-26 @honeytidy: 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] 2014-08-26 问:@pkuxkxjason 求推荐靠谱的自动摘要软件/服务。特别是针对科技类内容的。答: 问题进展 http://t.cn/RPg0Dkn 两个quora回答但实用工具可靠性低。还要请 @算文解字 指点迷津,他说过 “单文档summerization不是被snippet判死刑了么?” 找到相关文章 http://t.cn/RPg0DkH [ [微博](http://www.weibo.com/5220650532/Bk4hHahVS) ] -> 2014-08-24 求推荐靠谱的自动摘要软件/服务。特别是针对科技类内容的。@印象笔记 @好东西传送门 [ [微博](http://www.weibo.com/1042871981/BjJv0pvT2) ] +> 2014-08-24 @pkuxkxjason: 求推荐靠谱的自动摘要软件/服务。特别是针对科技类内容的。@印象笔记 @好东西传送门 [ [微博](http://www.weibo.com/1042871981/BjJv0pvT2) ] 2014-08-26 问答进展:http://t.cn/RPgpH65 有不少IEEE Fellow, 华人还有 UIUC马毅(现在上海) 微软亚洲研究院:孙健 。到CVPR, ICCV上多看看能找到不少当打的大小牛 [ [微博](http://www.weibo.com/5220650532/Bk4aUlKJi) ] -> 2014-08-26 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] +> 2014-08-26 @honeytidy: 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] 2014-08-26 问: @杨洋MQ Social Network 中 Spammer Detection 方面 都有哪些 中文、英文的数据集?答: 初步回答:http://t.cn/RPgtKAl 公开的大多是email,中文较老有2006 TREC , 2005 CCERT;英文有Twitter数据集和Spammer列表。近年未公开:Berkeley, ASU有Twitter研究; 国内要联系上交大。求更多链接 [ [微博](http://www.weibo.com/5220650532/Bk2BaFaY2) ] 2014-08-25 //@昊奋: 这个之前通过@好东西传送门 介绍知识图谱时,介绍过这个probabilistic kb。其实离真正大规模可用还有很长路要走。所谓的可信大部分可在freebase中找到,也就是说freebase的质量和规模决定了很多 [ [微博](http://www.weibo.com/5220650532/BjVr9tH7z) ] -> 2014-08-25 【Google将建全球最大知识库】Google创建名为Knowledge Vault的知识库,通过算法自动搜集网上信息,通过机器学习把数据变成可用知识。目前Knowledge Vault已收集了16亿件事实,其中2.71亿件是“可信的”。“可信”指Google把新事实与已掌握知识对照后,认为其准确的可能性是90%。http://t.cn/RPrEM1D [ [微博](http://www.weibo.com/1642720480/BjTl9k81q) ] +> 2014-08-25 @爱范儿: 【Google将建全球最大知识库】Google创建名为Knowledge Vault的知识库,通过算法自动搜集网上信息,通过机器学习把数据变成可用知识。目前Knowledge Vault已收集了16亿件事实,其中2.71亿件是“可信的”。“可信”指Google把新事实与已掌握知识对照后,认为其准确的可能性是90%。http://t.cn/RPrEM1D [ [微博](http://www.weibo.com/1642720480/BjTl9k81q) ] 2014-08-25 //@velvel2: 1)首位华人AAAI fellow杨强博士研究转移学习很多年了。多任务学习是其中一种 http://t.cn/aepeZn 2)Bengio的深度学习新书有一章也是关于转移学习和多任务学习的 http://t.cn/RPdxFds [ [微博](http://www.weibo.com/5220650532/BjVr0j8uQ) ] -> 2014-08-19 问: @唐小sin 有没有multi-task learning的相关学习资料呢? 答: 维基百科上有不少经典文献。AAAI和ICML都有论文(北大/清华)。找到今年Honglak Lee (U Michigan 教授)的短教程。Lan Žagar 博士论文(2014) Ranking by Multitask Learning. 问答追踪: http://t.cn/RP8a3Ax 求补充 [ [微博](http://www.weibo.com/5220650532/BiZl47k80) ] +> 2014-08-19 @好东西传送门: 问: @唐小sin 有没有multi-task learning的相关学习资料呢? 答: 维基百科上有不少经典文献。AAAI和ICML都有论文(北大/清华)。找到今年Honglak Lee (U Michigan 教授)的短教程。Lan Žagar 博士论文(2014) Ranking by Multitask Learning. 问答追踪: http://t.cn/RP8a3Ax 求补充 [ [微博](http://www.weibo.com/5220650532/BiZl47k80) ] 2014-08-24 回复@phunter_lau: 感谢有爱心的专家 传送理由: 面试官的面经 //@phunter_lau:回复@好东西传送门:复制粘贴一下“我都是国外面经,都是谈谈你之前做过啥,你就做过啥讲了就行了。我们一般不测试面试人什么问题,默认他简历上说的都是真实的,然后拿几个实际问题看看他的看法和解决方向如何就基本上知道 [ [微博](http://www.weibo.com/5220650532/BjLGK2IJe) ] -> 2014-08-24 问: @尘绳聋-SYSU 大大ML面经来一发?急需 答:假设需要的是软件工程师求职,寻找机器学习(machine learning)面经。建议多看题,把自己的知识强化。很多问答系统都有常见面试问题列表, 初步有 reddit, stackoverflow, quora, 知乎 等。问答进展: http://t.cn/RPB1Sxf 欢迎补充指正,尤其是具体面经 [ [微博](http://www.weibo.com/5220650532/BjLqu8Kw0) ] +> 2014-08-24 @好东西传送门: 问: @尘绳聋-SYSU 大大ML面经来一发?急需 答:假设需要的是软件工程师求职,寻找机器学习(machine learning)面经。建议多看题,把自己的知识强化。很多问答系统都有常见面试问题列表, 初步有 reddit, stackoverflow, quora, 知乎 等。问答进展: http://t.cn/RPB1Sxf 欢迎补充指正,尤其是具体面经 [ [微博](http://www.weibo.com/5220650532/BjLqu8Kw0) ] 2014-08-24 问: @尘绳聋-SYSU 大大ML面经来一发?急需 答:假设需要的是软件工程师求职,寻找机器学习(machine learning)面经。建议多看题,把自己的知识强化。很多问答系统都有常见面试问题列表, 初步有 reddit, stackoverflow, quora, 知乎 等。问答进展: http://t.cn/RPB1Sxf 欢迎补充指正,尤其是具体面经 [ [微博](http://www.weibo.com/5220650532/BjLqu8Kw0) ] 2014-08-24 回复@AixinSG: 多谢补充,NUS 在这方面做的很不错,链接传送 http://t.cn/RPB3zgO 还有一篇相关的是 Addressing cold-start in app recommendation: latent user models constructed from twitter followers //@AixinSG:SIGIR14 有一篇 New and Improved: Modeling Versions to Improve App Recom [ [微博](http://www.weibo.com/5220650532/BjLil85H7) ] -> 2014-08-24 问: @应豪超 :有关于手机app推荐的文章吗 答: 就是找论文,关键词 Recommender Systems that Suggest Mobile Applications 。 初步结果 找到一个2011年移动推荐讨论班的幻灯片(领域综述),一篇IUI2013 (列举feature), 一篇SIGIR 2013, 还有若干相关, 问答进展: http://t.cn/RPBuvdZ 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BjLc4frgA) ] +> 2014-08-24 @好东西传送门: 问: @应豪超 :有关于手机app推荐的文章吗 答: 就是找论文,关键词 Recommender Systems that Suggest Mobile Applications 。 初步结果 找到一个2011年移动推荐讨论班的幻灯片(领域综述),一篇IUI2013 (列举feature), 一篇SIGIR 2013, 还有若干相关, 问答进展: http://t.cn/RPBuvdZ 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BjLc4frgA) ] From 62544da86bd177e40299640fd8d4c6b73aa4a5cd Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 15:59:33 -0700 Subject: [PATCH 344/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index baa5109..30fe3a9 100644 --- a/README.md +++ b/README.md @@ -21,7 +21,7 @@ ### 订阅服务 1. 订阅微信公众号: 好东西传送门 -2. [订阅好东西周报](http://eepurl.com/202qb) +2. [订阅好东西周报](http://memect.co/n4BNxmj) (邮件列表,大约每周五发) ### 使用许可 From dc814d48a946c22cf207fd542ab46b1bc66c0aec Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 17:48:42 -0700 Subject: [PATCH 345/485] Create phonetic_algorithm.md --- awesome/phonetic_algorithm.md | 46 +++++++++++++++++++++++++++++++++++ 1 file changed, 46 insertions(+) create mode 100644 awesome/phonetic_algorithm.md diff --git a/awesome/phonetic_algorithm.md b/awesome/phonetic_algorithm.md new file mode 100644 index 0000000..925303a --- /dev/null +++ b/awesome/phonetic_algorithm.md @@ -0,0 +1,46 @@ +# 语音相似度算法与代码 + +## 概念 +[语音算法](http://en.wikipedia.org/wiki/Phonetic_algorithm) A phonetic algorithm is an algorithm for indexing of words by their pronunciation. + +相关关键字: + 语音相似度 phonetic similarity + 声音相似度 Acoustic similarity/Confusability + + +## 算法与开源代码 + +![](https://cloud.githubusercontent.com/assets/8302062/4227773/54b9e7f8-394c-11e4-9c5b-95fe817dee05.png) + +Soundex +Daitch–Mokotoff Soundex +Kölner Phonetik +Metaphone - Double Metaphone +New York State Identification and Intelligence System +Match Rating Approach (MRA) +Caverphone + +https://github.com/elasticsearch/elasticsearch-analysis-phonetic/ -- java +https://github.com/maros/Text-Phonetic -- perl +https://github.com/dotcypress/phonetics -- go +https://github.com/lukelex/soundcord -- ruby +https://github.com/Simmetrics/simmetrics -- java +https://github.com/oubiwann/metaphone - https://pypi.python.org/pypi/Metaphone/0.4 --python +https://bitbucket.org/yougov/fuzzy - https://pypi.python.org/pypi/Fuzzy/1.0 --python +https://github.com/sunlightlabs/jellyfish - https://pypi.python.org/pypi/jellyfish/0.3.2 -- python + +source: wikipedia, github + +## 相关论文 + +http://saffron.insight-centre.org/acl/topic/phonetic_similarity/ + +https://homes.cs.washington.edu/~bhixon/papers/phonemic_similarity_metrics_Interspeech_2011.pdf Phonemic Similarity Metrics to Compare Pronunciation Methods (2011) + +http://webdocs.cs.ualberta.ca/~kondrak/papers/lingdist.pdf Evaluation of Several Phonetic Similarity Algorithms on the Task of Cognate Identification (2006) + +http://webdocs.cs.ualberta.ca/~kondrak/papers/chum.pdf Phonetic alignment and similarity (2003) + +http://www.aclweb.org/anthology/P/P06/P06-1125.pdf A Phonetic-Based Approach to Chinese Chat Text Normalization 中文方法 +语音相似度 phonetic similarity 算法与开源代码 + From b596ad27097ac7e2a8bffb3334a174886934f4a1 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 17:49:24 -0700 Subject: [PATCH 346/485] Update phonetic_algorithm.md --- awesome/phonetic_algorithm.md | 33 +++++++++++++++++---------------- 1 file changed, 17 insertions(+), 16 deletions(-) diff --git a/awesome/phonetic_algorithm.md b/awesome/phonetic_algorithm.md index 925303a..b9efad9 100644 --- a/awesome/phonetic_algorithm.md +++ b/awesome/phonetic_algorithm.md @@ -12,22 +12,23 @@ ![](https://cloud.githubusercontent.com/assets/8302062/4227773/54b9e7f8-394c-11e4-9c5b-95fe817dee05.png) -Soundex -Daitch–Mokotoff Soundex -Kölner Phonetik -Metaphone - Double Metaphone -New York State Identification and Intelligence System -Match Rating Approach (MRA) -Caverphone - -https://github.com/elasticsearch/elasticsearch-analysis-phonetic/ -- java -https://github.com/maros/Text-Phonetic -- perl -https://github.com/dotcypress/phonetics -- go -https://github.com/lukelex/soundcord -- ruby -https://github.com/Simmetrics/simmetrics -- java -https://github.com/oubiwann/metaphone - https://pypi.python.org/pypi/Metaphone/0.4 --python -https://bitbucket.org/yougov/fuzzy - https://pypi.python.org/pypi/Fuzzy/1.0 --python -https://github.com/sunlightlabs/jellyfish - https://pypi.python.org/pypi/jellyfish/0.3.2 -- python +* Soundex + * Daitch–Mokotoff Soundex + * Kölner Phonetik +* Metaphone + * Double Metaphone +* New York State Identification and Intelligence System +* Match Rating Approach (MRA) +* Caverphone + +* https://github.com/elasticsearch/elasticsearch-analysis-phonetic/ -- java +* https://github.com/maros/Text-Phonetic -- perl +* https://github.com/dotcypress/phonetics -- go +* https://github.com/lukelex/soundcord -- ruby +* https://github.com/Simmetrics/simmetrics -- java +* https://github.com/oubiwann/metaphone - https://pypi.python.org/pypi/Metaphone/0.4 --python +* https://bitbucket.org/yougov/fuzzy - https://pypi.python.org/pypi/Fuzzy/1.0 --python +* https://github.com/sunlightlabs/jellyfish - https://pypi.python.org/pypi/jellyfish/0.3.2 -- python source: wikipedia, github From ae9b76ce9d8ac8ac2964830a8799dd8fa8fb5cbb Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 17:49:41 -0700 Subject: [PATCH 347/485] Update phonetic_algorithm.md --- awesome/phonetic_algorithm.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/awesome/phonetic_algorithm.md b/awesome/phonetic_algorithm.md index b9efad9..950c625 100644 --- a/awesome/phonetic_algorithm.md +++ b/awesome/phonetic_algorithm.md @@ -12,6 +12,7 @@ ![](https://cloud.githubusercontent.com/assets/8302062/4227773/54b9e7f8-394c-11e4-9c5b-95fe817dee05.png) +algorithms * Soundex * Daitch–Mokotoff Soundex * Kölner Phonetik @@ -21,6 +22,7 @@ * Match Rating Approach (MRA) * Caverphone +open source code * https://github.com/elasticsearch/elasticsearch-analysis-phonetic/ -- java * https://github.com/maros/Text-Phonetic -- perl * https://github.com/dotcypress/phonetics -- go From f30b9d437b02fc6877b5153518174f50d62e7f47 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 17:50:29 -0700 Subject: [PATCH 348/485] Update phonetic_algorithm.md --- awesome/phonetic_algorithm.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/awesome/phonetic_algorithm.md b/awesome/phonetic_algorithm.md index 950c625..b29601b 100644 --- a/awesome/phonetic_algorithm.md +++ b/awesome/phonetic_algorithm.md @@ -1,4 +1,6 @@ # 语音相似度算法与代码 +讨论: https://github.com/memect/hao/issues/164 + ## 概念 [语音算法](http://en.wikipedia.org/wiki/Phonetic_algorithm) A phonetic algorithm is an algorithm for indexing of words by their pronunciation. From 680b2c63ca958ddfae75274be82a1a5472b96892 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 18:24:29 -0700 Subject: [PATCH 349/485] Update phonetic_algorithm.md --- awesome/phonetic_algorithm.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/awesome/phonetic_algorithm.md b/awesome/phonetic_algorithm.md index b29601b..62933b3 100644 --- a/awesome/phonetic_algorithm.md +++ b/awesome/phonetic_algorithm.md @@ -46,6 +46,8 @@ http://webdocs.cs.ualberta.ca/~kondrak/papers/lingdist.pdf Evaluation of Several http://webdocs.cs.ualberta.ca/~kondrak/papers/chum.pdf Phonetic alignment and similarity (2003) +http://www.aclweb.org/anthology/C69-5701 THE Measurement OF PHONETIC SIMILARITY (1967) + http://www.aclweb.org/anthology/P/P06/P06-1125.pdf A Phonetic-Based Approach to Chinese Chat Text Normalization 中文方法 语音相似度 phonetic similarity 算法与开源代码 From ec59363ad024031d647debf320e5de439dfa4b62 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 10 Sep 2014 18:24:56 -0700 Subject: [PATCH 350/485] Update phonetic_algorithm.md --- awesome/phonetic_algorithm.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/phonetic_algorithm.md b/awesome/phonetic_algorithm.md index 62933b3..8c8c5ab 100644 --- a/awesome/phonetic_algorithm.md +++ b/awesome/phonetic_algorithm.md @@ -38,7 +38,7 @@ source: wikipedia, github ## 相关论文 -http://saffron.insight-centre.org/acl/topic/phonetic_similarity/ +http://saffron.insight-centre.org/acl/topic/phonetic_similarity/ 相关论文列表 https://homes.cs.washington.edu/~bhixon/papers/phonemic_similarity_metrics_Interspeech_2011.pdf Phonemic Similarity Metrics to Compare Pronunciation Methods (2011) From 5c0f3796c28bc9ed51c4f274d4a7b3a0af9bd2be Mon Sep 17 00:00:00 2001 From: Li Ding Date: Wed, 10 Sep 2014 19:09:13 -0700 Subject: [PATCH 351/485] Create machine-learning-reading.md --- awesome/machine-learning-reading.md | 7 +++++++ 1 file changed, 7 insertions(+) create mode 100644 awesome/machine-learning-reading.md diff --git a/awesome/machine-learning-reading.md b/awesome/machine-learning-reading.md new file mode 100644 index 0000000..716b65c --- /dev/null +++ b/awesome/machine-learning-reading.md @@ -0,0 +1,7 @@ +readings recommend by michael jordan + + + + +http://www.reddit.com/r/MachineLearning/comments/2fxi6v/ama_michael_i_jordan/ckdqzph +"That particular version of the list seems to be one from a few years ago; I now tend to add some books that dig still further into foundational topics. In particular, I recommend A. Tsybakov's book "Introduction to Nonparametric Estimation" as a very readable source for the tools for obtaining lower bounds on estimators, and Y. Nesterov's very readable "Introductory Lectures on Convex Optimization" as a way to start to understand lower bounds in optimization. I also recommend A. van der Vaart's "Asymptotic Statistics", a book that we often teach from at Berkeley, as a book that shows how many ideas in inference (M estimation---which includes maximum likelihood and empirical risk minimization---the bootstrap, semiparametrics, etc) repose on top of empirical process theory. I'd also include B. Efron's "Large-Scale Inference: Empirical Bayes Methods for Estimation, Testing, and Prediction", as a thought-provoking book" From 2e79b097c7f7ad950c9af83379b56874d3ac2939 Mon Sep 17 00:00:00 2001 From: Li Ding Date: Wed, 10 Sep 2014 19:13:45 -0700 Subject: [PATCH 352/485] Update machine-learning-reading.md --- awesome/machine-learning-reading.md | 24 +++++++++++++++++++++--- 1 file changed, 21 insertions(+), 3 deletions(-) diff --git a/awesome/machine-learning-reading.md b/awesome/machine-learning-reading.md index 716b65c..008b3d2 100644 --- a/awesome/machine-learning-reading.md +++ b/awesome/machine-learning-reading.md @@ -1,7 +1,25 @@ -readings recommend by michael jordan +## readings recommend by michael jordan +source: http://www.reddit.com/r/MachineLearning/comments/2fxi6v/ama_michael_i_jordan/ckdqzph + +"I now tend to add some books that dig still further into foundational topics. In particular, I recommend A. Tsybakov's book "Introduction to Nonparametric Estimation" as a very readable source for the tools for obtaining lower bounds on estimators, and Y. Nesterov's very readable "Introductory Lectures on Convex Optimization" as a way to start to understand lower bounds in optimization. I also recommend A. van der Vaart's "Asymptotic Statistics", a book that we often teach from at Berkeley, as a book that shows how many ideas in inference (M estimation---which includes maximum likelihood and empirical risk minimization---the bootstrap, semiparametrics, etc) repose on top of empirical process theory. I'd also include B. Efron's "Large-Scale Inference: Empirical Bayes Methods for Estimation, Testing, and Prediction", as a thought-provoking book" + + +http://www.amazon.com/Introduction-Nonparametric-Estimation-Springer-Statistics/dp/1441927093 +Introduction to Nonparametric Estimation +![](http://ecx.images-amazon.com/images/I/31vP%2BXbyAuL.jpg) + +http://www.amazon.com/Introductory-Lectures-Convex-Optimization-Applied/dp/1402075537 +Introductory Lectures on Convex Optimization +![]http://ecx.images-amazon.com/images/I/41L6K%2BAyoGL.jpg + +http://www.amazon.com/Asymptotic-Statistics-Statistical-Probabilistic-Mathematics/dp/0521784506 +Asymptotic Statistics +![](http://ecx.images-amazon.com/images/I/710vE3Y5KjL.jpg) + +http://www.amazon.com/Large-Scale-Inference-Estimation-Prediction-Mathematical/dp/110761967X +Large-Scale Inference: Empirical Bayes Methods for Estimation, Testing, and Prediction +![](http://ecx.images-amazon.com/images/I/419DXlKMiDL.jpg) -http://www.reddit.com/r/MachineLearning/comments/2fxi6v/ama_michael_i_jordan/ckdqzph -"That particular version of the list seems to be one from a few years ago; I now tend to add some books that dig still further into foundational topics. In particular, I recommend A. Tsybakov's book "Introduction to Nonparametric Estimation" as a very readable source for the tools for obtaining lower bounds on estimators, and Y. Nesterov's very readable "Introductory Lectures on Convex Optimization" as a way to start to understand lower bounds in optimization. I also recommend A. van der Vaart's "Asymptotic Statistics", a book that we often teach from at Berkeley, as a book that shows how many ideas in inference (M estimation---which includes maximum likelihood and empirical risk minimization---the bootstrap, semiparametrics, etc) repose on top of empirical process theory. I'd also include B. Efron's "Large-Scale Inference: Empirical Bayes Methods for Estimation, Testing, and Prediction", as a thought-provoking book" From a460bd3d23b9f4ddbe4cd87feda8fe828b19c6ee Mon Sep 17 00:00:00 2001 From: Li Ding Date: Wed, 10 Sep 2014 19:14:51 -0700 Subject: [PATCH 353/485] Update machine-learning-reading.md --- awesome/machine-learning-reading.md | 11 +++++++---- 1 file changed, 7 insertions(+), 4 deletions(-) diff --git a/awesome/machine-learning-reading.md b/awesome/machine-learning-reading.md index 008b3d2..14073b4 100644 --- a/awesome/machine-learning-reading.md +++ b/awesome/machine-learning-reading.md @@ -9,17 +9,20 @@ source: http://www.reddit.com/r/MachineLearning/comments/2fxi6v/ama_michael_i_jo http://www.amazon.com/Introduction-Nonparametric-Estimation-Springer-Statistics/dp/1441927093 Introduction to Nonparametric Estimation -![](http://ecx.images-amazon.com/images/I/31vP%2BXbyAuL.jpg) + + http://www.amazon.com/Introductory-Lectures-Convex-Optimization-Applied/dp/1402075537 Introductory Lectures on Convex Optimization -![]http://ecx.images-amazon.com/images/I/41L6K%2BAyoGL.jpg + + + http://www.amazon.com/Asymptotic-Statistics-Statistical-Probabilistic-Mathematics/dp/0521784506 Asymptotic Statistics -![](http://ecx.images-amazon.com/images/I/710vE3Y5KjL.jpg) + http://www.amazon.com/Large-Scale-Inference-Estimation-Prediction-Mathematical/dp/110761967X Large-Scale Inference: Empirical Bayes Methods for Estimation, Testing, and Prediction -![](http://ecx.images-amazon.com/images/I/419DXlKMiDL.jpg) + From 0021c9254e6d746eb6af34f9d91d2c7b5ab8bfd3 Mon Sep 17 00:00:00 2001 From: Li Ding Date: Wed, 10 Sep 2014 19:15:09 -0700 Subject: [PATCH 354/485] Update machine-learning-reading.md --- awesome/machine-learning-reading.md | 10 ++++++---- 1 file changed, 6 insertions(+), 4 deletions(-) diff --git a/awesome/machine-learning-reading.md b/awesome/machine-learning-reading.md index 14073b4..f10a543 100644 --- a/awesome/machine-learning-reading.md +++ b/awesome/machine-learning-reading.md @@ -10,19 +10,21 @@ source: http://www.reddit.com/r/MachineLearning/comments/2fxi6v/ama_michael_i_jo http://www.amazon.com/Introduction-Nonparametric-Estimation-Springer-Statistics/dp/1441927093 Introduction to Nonparametric Estimation - + http://www.amazon.com/Introductory-Lectures-Convex-Optimization-Applied/dp/1402075537 Introductory Lectures on Convex Optimization - + http://www.amazon.com/Asymptotic-Statistics-Statistical-Probabilistic-Mathematics/dp/0521784506 Asymptotic Statistics - + + http://www.amazon.com/Large-Scale-Inference-Estimation-Prediction-Mathematical/dp/110761967X Large-Scale Inference: Empirical Bayes Methods for Estimation, Testing, and Prediction - + + From 49a0357317dee782ec46fdb82a165f9fad4539b0 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 12 Sep 2014 09:56:04 -0700 Subject: [PATCH 355/485] Update README.md --- README.md | 51 +++++++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 51 insertions(+) diff --git a/README.md b/README.md index 30fe3a9..9daf59d 100644 --- a/README.md +++ b/README.md @@ -32,6 +32,57 @@ ## 问答与原创 +2014-09-13 传送: Searchable full-text transcripts of WWDC sessions (2010-2014)音频转字幕,全文检索所有录像发言 [ [微博](http://www.weibo.com/5220650532/BmIenexms) ] + +> 2014-09-12 @容芳志: 每年Apple WWDC大会的keynote和课程文字版都在这里,整理的太好了,忍不住分享: http://t.cn/z8exsaz [ [微博](http://www.weibo.com/1776143133/BmCBXyoqs) ] + +2014-09-12 讨论得很热闹, github几十楼整理了相关资料: entity linking/extraction/resolution, relation extraction; 咱还时光逆流传送了几个去年相关微博到评论里,尤其是李志飞那条里有不少高人评论,千万别错过。有没有人讲讲 michael jordan 'full merger of "data" and "knowledge"' http://t.cn/RhMwimZ [ [微博](http://www.weibo.com/5220650532/BmEOb3aqm) ] + +> 2014-09-12 @好东西传送门: 代人请教: #语义识别包含哪些关键技术# ? 咱先推荐 @白硕SH 老师近日的访谈《语义技术探索》阐述了相关基本概念 http://t.cn/RvWEZdm 请各位专家帮忙梳理思路、推荐入门资料 @刘群MT-to-Death @刘知远THU @52nlp @孙明明_SmarterChina @昊奋 @波多野丽猪 我们会把相关资料更新到 http://t.cn/RhICLfS [ [微博](http://www.weibo.com/5220650532/BmBEvzLES) ] + +2014-09-12 一点拙见,计算机在一些领域已经做得比人好了;而人对自然语言处理期望更高一些, 图灵测试 和 人脸识别 哪个难度更大?顺路给个文字版传送门 http://t.cn/RhMZVIV //@xierqi: 没想到Jordan对text一直这么有兴趣。抛开Deep Learning不讲,当前计算机对text的理解能力是否比image、vision要好不少? [ [微博](http://www.weibo.com/5220650532/BmEHn5jwn) ] + +> 2014-09-11 @王海勋haixun: Someone asked Michael Jordan if he's to lead a research project with 1 billion dollar funding, what will he do? Here is his answer. [ [微博](http://www.weibo.com/2083726665/BmyEhvaCd) ] + +2014-09-12 这本书还没上市呢,还没有电子书。着急的同学可以先看Blake Masters 的笔记 http://t.cn/zYvtV0F Notes Essays—Peter Thiel’s CS183: Startup—Stanford, 2012 顺路科普一下 Peter Thiel, Paypal 的联合创始人,facebook的天使投资人 http://t.cn/RhMhPTs [ [微博](http://www.weibo.com/5220650532/BmEoXfLhN) ] + +> 2014-09-12 @好东西传送门: 推荐Peter Thiel新书《Zero to One: Notes on Startups, or How to Build the Future》(9月16日才出版) http://t.cn/RhMPClT 基于他2012年CS183课的讲义。有人预读后赞了他的三个观点: 创始人要追求垄断, 用破坏性创新参加市场竞争不如开发新市场, 对精益创业的反思。咱做了个脑图(水平有限,欢迎指正) [ [微博](http://www.weibo.com/5220650532/BmEmhug9C) ] + +2014-09-12 推荐Peter Thiel新书《Zero to One: Notes on Startups, or How to Build the Future》(9月16日才出版) http://t.cn/RhMPClT 基于他2012年CS183课的讲义。有人预读后赞了他的三个观点: 创始人要追求垄断, 用破坏性创新参加市场竞争不如开发新市场, 对精益创业的反思。咱做了个脑图(水平有限,欢迎指正) [ [微博](http://www.weibo.com/5220650532/BmEmhug9C) ] + +2014-09-12 问: @波多野丽猪 有没有人了解建立partial order lattice的算法? 应该是Formal Concept Analysis(FCA)的东西。我有一堆logical term set, 想要建立一个关于set subsumption的lattice 答: FCA很相关 http://t.cn/RhIE0Sy 推荐Poelmans等的综述(分析了一千多论文) 并参考association rule 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BmD42j7k0) ] + +2014-09-12 要专注、要市场驱动 “an eighth waste was... manufacturing goods or services that do not meet customer demand or specifications.” http://t.cn/RhIjiTc //@张颖峰: 我倒是觉得这本书更容易给一些没头脑的创业者以快速迭代为借口连续不断试错,最后反而忘了自己要做什么,从而导致更大的浪费。 [ [微博](http://www.weibo.com/5220650532/BmCsnmc20) ] + +> 2014-09-12 @好东西传送门: 从 #精益生产# 到 #精益创业# 《精益创业》是近年很火的创业手册, 其核心理念是:快速迭代,减少浪费,避免不必要的开发。作者Eric Ries的观点来自#工业工程#书籍。他吸收了丰田lean manufacturing的成功经验:用最少工作创造价值, 尽可能降低浪费 - 例如著名的零库存思想. 书单 http://t.cn/RhICRq5 [ [微博](http://www.weibo.com/5220650532/BmBK1rnHP) ] + +2014-09-12 从 #精益生产# 到 #精益创业# 《精益创业》是近年很火的创业手册, 其核心理念是:快速迭代,减少浪费,避免不必要的开发。作者Eric Ries的观点来自#工业工程#书籍。他吸收了丰田lean manufacturing的成功经验:用最少工作创造价值, 尽可能降低浪费 - 例如著名的零库存思想. 书单 http://t.cn/RhICRq5 [ [微博](http://www.weibo.com/5220650532/BmBK1rnHP) ] + +2014-09-12 代人请教: #语义识别包含哪些关键技术# ? 咱先推荐 @白硕SH 老师近日的访谈《语义技术探索》阐述了相关基本概念 http://t.cn/RvWEZdm 请各位专家帮忙梳理思路、推荐入门资料 @刘群MT-to-Death @刘知远THU @52nlp @孙明明_SmarterChina @昊奋 @波多野丽猪 我们会把相关资料更新到 http://t.cn/RhICLfS [ [微博](http://www.weibo.com/5220650532/BmBEvzLES) ] + +2014-09-12 问:求Morden Japanese Society Study资料文献, 最好economy相关 答:http://t.cn/RhIoU0o《菊与刀》(The Chrysanthemum and the Sword)和《纵式社会的人际关系》(タテ社会の人間関係)都是研究日本近代社会(自明治维新起)的经典著作。《A Short Economic History of Modern Japan》300+学术引用 [ [微博](http://www.weibo.com/5220650532/BmB8tzbaE) ] + +2014-09-12 [赞]补充《GPU高性能编程CUDA实战》豆瓣书评 http://t.cn/htUpV0 pdf网上有 [ [微博](http://www.weibo.com/5220650532/BmzhXfaOu) ] + +> 2014-09-12 @Rachel____Zhang: 感谢某童鞋推荐CUDA Application Design and Development,看了目录和开头一章,感觉和《GPU高性能编程CUDA实战》结合起来看会收获更快[嘻嘻]代码在这里http://t.cn/RhIt1JA [ [微博](http://www.weibo.com/2607574543/Bmz3lvXTZ) ] + +2014-09-11 谢谢指正,是我们理解有误。那四本也是博士级的,向大家道歉🙇 //@王树森CS: 同意右边。除了第1本,其余根本不是入门的,我不知道微博上的人有几个能看得懂而且会去看。发这个东西的人要么不懂,要么骗粉。//@梁斌penny: 书看了,再把试验做一遍,我估计怎么也得需要4-5年。 [ [微博](http://www.weibo.com/5220650532/BmvfRfWTw) ] + +> 2014-09-11 @好东西传送门: #机器学习# 大牛Michael Jordan教授(Andrew Ng的博士导师) 近日在Reddit上推荐的书单。以前的书单12本针对有志于在机器学习领域奉献青春的博士生,这次新推荐了4本覆盖基础概念图书,帮助工业界读者在几个月内理解概念然后出活 。书单看这里 http://t.cn/RhfxqAz 卡片盒子 http://t.cn/RhfxqA7 [ [微博](http://www.weibo.com/5220650532/BmtoM2jCK) ] + +2014-09-11 赞王益的博客 注意未公开的“Google Rephil"//@丕子: 嗯,王益之前一blog分析了这个: http://t.cn/RhfXqBu , 另外Google PLDA+有10K topics, Rephil有100K,Peacock有1000K topics..//@lib_ustc: 对,训练出来的topic中的概率主要还是集中在高频信息上,对长尾描述较弱//@丕子: 长尾信息丢失太多了 [ [微博](http://www.weibo.com/5220650532/BmuiNg9dC) ] + +> 2014-09-11 @大山坡的春: 今天Jimmy Lin表示他在twitter的时候把topic models都试过了,没有一个work的~然后说,我告诉你个只有ir圈子里的人才晓得的topic model的毛病。。。#强迫症都没救了 @仙人掌不浇水 @丕子 [ [微博](http://www.weibo.com/1653082237/Bmtr4a69Q) ] + +2014-09-11 [笔记]Michael Jordan论#深度学习# http://t.cn/RhfoAhi 1. layer,parallel,ensemble有用,不能限于模拟人脑思维 2. backpropagation是关键, 本质是supervised learning 3. 很多成功案例是大规模样本+监督学习 4. 很少用在工业界咨询,不少其它问题(7个例子) 5. 机器学习要接近system与数据库, 远离AI [ [微博](http://www.weibo.com/5220650532/BmtY3eXDx) ] + +2014-09-11 #机器学习# 大牛Michael Jordan教授(Andrew Ng的博士导师) 近日在Reddit上推荐的书单。以前的书单12本针对有志于在机器学习领域奉献青春的博士生,这次新推荐了4本覆盖基础概念图书,帮助工业界读者在几个月内理解概念然后出活 。书单看这里 http://t.cn/RhfxqAz 卡片盒子 http://t.cn/RhfxqA7 [ [微博](http://www.weibo.com/5220650532/BmtoM2jCK) ] + +2014-09-11 择日不如今日: Statistics With Ruby: Time Series and General Linear Models http://t.cn/RhffVQ3 问答166 http://t.cn/RhffVQu [ [微博](http://www.weibo.com/5220650532/Bmt9bsMDN) ] + +> 2014-09-11 @2gua: 其实,我一直希望哪一天能用Ruby进行数据分析,stats with Ruby......哪一天,哪一天......[doge] [ [微博](http://www.weibo.com/1609119537/Bmt7v95Fn) ] + +2014-09-11 问:@付超群 不知道有没有中文发音相似度计算算法或者类库?比如北京 百斤 鼻颈 背景 如果可以顺道比较英文更好,比如peking,beking 答: 关于算法和开源代码整理了一个 #脑图#,问答进展和相关资料在 http://t.cn/Rhf5xio 还收录了一些相关论文(含汉语) 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BmsMAeh0K) ] 2014-09-11 #夜读春秋# GDP与汇率数据是经济、金融研究的基本盘! (数据资源整理: http://t.cn/RhVDKg5 ) 1.世界银行的全球各国GDP(1983-2013)http://t.cn/hFsNY 2. 美联储汇率数据(H.10): http://t.cn/RhVDKgq (1996-2014) 3. 那台北的GDP呢? http://t.cn/RhVgFWl ,http://t.cn/zOMb9mJ [ [微博](http://www.weibo.com/5220650532/Bmpx29PN5) ] From 4bf07f97e0b85f4ce71a88f802b5609575cdfa94 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Sun, 14 Sep 2014 15:30:17 -0700 Subject: [PATCH 356/485] Update README.md --- README.md | 1 + 1 file changed, 1 insertion(+) diff --git a/README.md b/README.md index 9daf59d..76ff8a4 100644 --- a/README.md +++ b/README.md @@ -1,4 +1,5 @@ # 好东西传送门 +[http://www.weibo.com/haoawesome(http://www.weibo.com/haoawesome)] * [简介](README.md#简介) : [问答服务](README.md#问答服务), [订阅服务](README.md#订阅服务), [使用许可](README.md#使用许可) * [问答与原创](README.md#问答与原创) * [文摘与点评](README.md#文摘与点评) From 29a350ed5bc00406cf0ea6a0a7e4374a8efd7d17 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Sun, 14 Sep 2014 15:30:41 -0700 Subject: [PATCH 357/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 76ff8a4..7e0c9fe 100644 --- a/README.md +++ b/README.md @@ -1,5 +1,5 @@ # 好东西传送门 -[http://www.weibo.com/haoawesome(http://www.weibo.com/haoawesome)] +[http://www.weibo.com/haoawesome](http://www.weibo.com/haoawesome) * [简介](README.md#简介) : [问答服务](README.md#问答服务), [订阅服务](README.md#订阅服务), [使用许可](README.md#使用许可) * [问答与原创](README.md#问答与原创) * [文摘与点评](README.md#文摘与点评) From d0d9715287573f4a168657472606d2e1cc776385 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 16 Sep 2014 17:12:47 -0700 Subject: [PATCH 358/485] Create deep-learning-introduction.md --- awesome/deep-learning-introduction.md | 35 +++++++++++++++++++++++++++ 1 file changed, 35 insertions(+) create mode 100644 awesome/deep-learning-introduction.md diff --git a/awesome/deep-learning-introduction.md b/awesome/deep-learning-introduction.md new file mode 100644 index 0000000..33cf6b8 --- /dev/null +++ b/awesome/deep-learning-introduction.md @@ -0,0 +1,35 @@ +深度学习入门与综述资料 + +## 初学入门 +http://www.datarobot.com/blog/a-primer-on-deep-learning/ A Primer on Deep Learning (2014) +![screen shot 2014-09-16 at 4 59 35 pm](https://cloud.githubusercontent.com/assets/8302062/4296824/7b3a3278-3dfe-11e4-882b-c7ee473a3de3.png) + +http://deeplearning.net/tutorial/gettingstarted.html Getting Started (通过python编程学习基本概念) +![theano](https://cloud.githubusercontent.com/assets/8302062/4296833/99106f56-3dfe-11e4-9437-10c29aefee67.jpg) + +中文版 +http://blog.sina.com.cn/s/blog_46d0a3930101fswl.html 邓侃 Deep Learning 和 Knowledge Graph 引爆大数据革命 + +## 综述与分支 + +http://deeplearning.net/tutorial/ Deep Learning Tutorials +* Deep Learning Tutorials 600+ star on github https://github.com/lisa-lab/DeepLearningTutorials + + +http://research.microsoft.com/pubs/204048/APSIPA-Trans2013-revised-final.pdf +Li Deng, A Tutorial Survey of Architectures, Algorithms, and Applications for Deep Learning , in APSIPA Transactions on Signal and Information Processing, Cambridge University Press, 2014 +* 还有一个大部头 http://research.microsoft.com/pubs/209355/DeepLearning-NowPublishing-Vol7-SIG-039.pdf Deep Learning Methods and Applications, Li Deng and Dong Yu + + +http://nlp.stanford.edu/courses/NAACL2013/ Deep Learning for Natural Language Processing (without Magic) +* 自然语言处理 NLP 方向(文本为主) + +http://research.microsoft.com/pubs/217165/ICASSP_DeepTextLearning_v07.pdf Deep learning for natural language processing and related applications (Tutorial at ICASSP) +* Xiaodong He, Jianfeng Gao, and Li Deng +* 自然语言处理 NLP 方向 (语音为主,也包括文本) +* spoken language understanding (SLU), machine translation (MT), and semantic information retrieval (IR) from text. + +https://sites.google.com/site/deeplearningcvpr2014/ TUTORIAL ON DEEP LEARNING FOR VISION +* Computer vision, CVPR 2014 Tutorial +* 计算机视觉 方向 +* cardbox http://bigdata.memect.com/?tag=cvpr2014+vision From 6124a1a7e656520cce83528a27318b1bec406a2c Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 16 Sep 2014 17:13:42 -0700 Subject: [PATCH 359/485] Update deep-learning-introduction.md --- awesome/deep-learning-introduction.md | 10 ++++++++-- 1 file changed, 8 insertions(+), 2 deletions(-) diff --git a/awesome/deep-learning-introduction.md b/awesome/deep-learning-introduction.md index 33cf6b8..f31c571 100644 --- a/awesome/deep-learning-introduction.md +++ b/awesome/deep-learning-introduction.md @@ -1,15 +1,19 @@ 深度学习入门与综述资料 + + ## 初学入门 http://www.datarobot.com/blog/a-primer-on-deep-learning/ A Primer on Deep Learning (2014) -![screen shot 2014-09-16 at 4 59 35 pm](https://cloud.githubusercontent.com/assets/8302062/4296824/7b3a3278-3dfe-11e4-882b-c7ee473a3de3.png) http://deeplearning.net/tutorial/gettingstarted.html Getting Started (通过python编程学习基本概念) -![theano](https://cloud.githubusercontent.com/assets/8302062/4296833/99106f56-3dfe-11e4-9437-10c29aefee67.jpg) 中文版 http://blog.sina.com.cn/s/blog_46d0a3930101fswl.html 邓侃 Deep Learning 和 Knowledge Graph 引爆大数据革命 +## 背景 +![screen shot 2014-09-16 at 4 59 35 pm](https://cloud.githubusercontent.com/assets/8302062/4296824/7b3a3278-3dfe-11e4-882b-c7ee473a3de3.png) + + ## 综述与分支 http://deeplearning.net/tutorial/ Deep Learning Tutorials @@ -33,3 +37,5 @@ https://sites.google.com/site/deeplearningcvpr2014/ TUTORIAL ON DEEP LEARNING F * Computer vision, CVPR 2014 Tutorial * 计算机视觉 方向 * cardbox http://bigdata.memect.com/?tag=cvpr2014+vision + +## 计算工具 From f8a971ad9a47849c758c2098517f5e49574835d8 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 16 Sep 2014 17:14:09 -0700 Subject: [PATCH 360/485] Update deep-learning-introduction.md --- awesome/deep-learning-introduction.md | 1 + 1 file changed, 1 insertion(+) diff --git a/awesome/deep-learning-introduction.md b/awesome/deep-learning-introduction.md index f31c571..343bfe9 100644 --- a/awesome/deep-learning-introduction.md +++ b/awesome/deep-learning-introduction.md @@ -39,3 +39,4 @@ https://sites.google.com/site/deeplearningcvpr2014/ TUTORIAL ON DEEP LEARNING F * cardbox http://bigdata.memect.com/?tag=cvpr2014+vision ## 计算工具 + From 70a08fddcca2f77ac48529ebb0f9429beee6c85e Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 16 Sep 2014 17:15:12 -0700 Subject: [PATCH 361/485] Update deep-learning-introduction.md --- awesome/deep-learning-introduction.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/deep-learning-introduction.md b/awesome/deep-learning-introduction.md index 343bfe9..c677bb8 100644 --- a/awesome/deep-learning-introduction.md +++ b/awesome/deep-learning-introduction.md @@ -1,4 +1,4 @@ -深度学习入门与综述资料 +## 深度学习入门与综述资料 From 8efcf575268ba8401fda7f91e49187df904012b3 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 16 Sep 2014 17:18:26 -0700 Subject: [PATCH 362/485] Update deep-learning-introduction.md --- awesome/deep-learning-introduction.md | 8 ++++++++ 1 file changed, 8 insertions(+) diff --git a/awesome/deep-learning-introduction.md b/awesome/deep-learning-introduction.md index c677bb8..2a6ac37 100644 --- a/awesome/deep-learning-introduction.md +++ b/awesome/deep-learning-introduction.md @@ -7,6 +7,8 @@ http://www.datarobot.com/blog/a-primer-on-deep-learning/ A Primer on Deep Learni http://deeplearning.net/tutorial/gettingstarted.html Getting Started (通过python编程学习基本概念) +http://www.reddit.com/r/MachineLearning/comments/2fxi6v/ama_michael_i_jordan/ckdqtpe Michael Jordan论深度学习 + 中文版 http://blog.sina.com.cn/s/blog_46d0a3930101fswl.html 邓侃 Deep Learning 和 Knowledge Graph 引爆大数据革命 @@ -38,5 +40,11 @@ https://sites.google.com/site/deeplearningcvpr2014/ TUTORIAL ON DEEP LEARNING F * 计算机视觉 方向 * cardbox http://bigdata.memect.com/?tag=cvpr2014+vision + +Yann LeCun's Lecture on Computer Perception with Deep Learning in Course 9.S912: "Vision and learning - computers and brains", Nov 12, 2013: +* Part1: http://techtv.mit.edu/videos/26739-yann-lecun-computer-perception-with-deep-learning-part-1 +* Part2: http://techtv.mit.edu/videos/26740-yann-lecun-computer-perception-with-deep-learning-part-2 + + ## 计算工具 From fe942a504518d3b8cc7c3cd31f09f263c1408588 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 16 Sep 2014 17:18:40 -0700 Subject: [PATCH 363/485] Update deep-learning-introduction.md --- awesome/deep-learning-introduction.md | 1 + 1 file changed, 1 insertion(+) diff --git a/awesome/deep-learning-introduction.md b/awesome/deep-learning-introduction.md index 2a6ac37..015e83d 100644 --- a/awesome/deep-learning-introduction.md +++ b/awesome/deep-learning-introduction.md @@ -44,6 +44,7 @@ https://sites.google.com/site/deeplearningcvpr2014/ TUTORIAL ON DEEP LEARNING F Yann LeCun's Lecture on Computer Perception with Deep Learning in Course 9.S912: "Vision and learning - computers and brains", Nov 12, 2013: * Part1: http://techtv.mit.edu/videos/26739-yann-lecun-computer-perception-with-deep-learning-part-1 * Part2: http://techtv.mit.edu/videos/26740-yann-lecun-computer-perception-with-deep-learning-part-2 +* 计算机视觉 方向 ## 计算工具 From 5e5a735cc285f7a7f4bb50bb67b4bbae09b428fa Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 16 Sep 2014 17:32:12 -0700 Subject: [PATCH 364/485] Update deep-learning-introduction.md --- awesome/deep-learning-introduction.md | 15 +++++++++++---- 1 file changed, 11 insertions(+), 4 deletions(-) diff --git a/awesome/deep-learning-introduction.md b/awesome/deep-learning-introduction.md index 015e83d..50f2a2b 100644 --- a/awesome/deep-learning-introduction.md +++ b/awesome/deep-learning-introduction.md @@ -7,15 +7,22 @@ http://www.datarobot.com/blog/a-primer-on-deep-learning/ A Primer on Deep Learni http://deeplearning.net/tutorial/gettingstarted.html Getting Started (通过python编程学习基本概念) -http://www.reddit.com/r/MachineLearning/comments/2fxi6v/ama_michael_i_jordan/ckdqtpe Michael Jordan论深度学习 -中文版 -http://blog.sina.com.cn/s/blog_46d0a3930101fswl.html 邓侃 Deep Learning 和 Knowledge Graph 引爆大数据革命 +## 概念与背景知识 +http://en.wikipedia.org/wiki/Deep_learning Deep learning is a set of algorithms in machine learning that attempt to model high-level abstractions in data by using model architectures composed of multiple non-linear transformations. -## 背景 ![screen shot 2014-09-16 at 4 59 35 pm](https://cloud.githubusercontent.com/assets/8302062/4296824/7b3a3278-3dfe-11e4-882b-c7ee473a3de3.png) +http://www.reddit.com/r/MachineLearning/comments/2fxi6v/ama_michael_i_jordan/ckdqtpe Michael Jordan论深度学习 + + +中文看 邓侃 Deep Learning 系列 +* http://blog.sina.com.cn/s/blog_46d0a3930101fswl.html Deep Learning 和 Knowledge Graph 引爆大数据革命 +* http://blog.sina.com.cn/s/blog_46d0a3930101gs5h.html Deep Learning 【2,3】 +* http://blog.sina.com.cn/s/blog_46d0a3930101h6nf.html Deep Learning 教程翻译 + + ## 综述与分支 http://deeplearning.net/tutorial/ Deep Learning Tutorials From 4d4dfc321be00304a58dcec096e578594d43157d Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 16 Sep 2014 17:32:30 -0700 Subject: [PATCH 365/485] Update deep-learning-introduction.md --- awesome/deep-learning-introduction.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/deep-learning-introduction.md b/awesome/deep-learning-introduction.md index 50f2a2b..db958c1 100644 --- a/awesome/deep-learning-introduction.md +++ b/awesome/deep-learning-introduction.md @@ -12,7 +12,7 @@ http://deeplearning.net/tutorial/gettingstarted.html Getting Started (通过pyt http://en.wikipedia.org/wiki/Deep_learning Deep learning is a set of algorithms in machine learning that attempt to model high-level abstractions in data by using model architectures composed of multiple non-linear transformations. ![screen shot 2014-09-16 at 4 59 35 pm](https://cloud.githubusercontent.com/assets/8302062/4296824/7b3a3278-3dfe-11e4-882b-c7ee473a3de3.png) - +source: http://www.datarobot.com/blog/a-primer-on-deep-learning/ http://www.reddit.com/r/MachineLearning/comments/2fxi6v/ama_michael_i_jordan/ckdqtpe Michael Jordan论深度学习 From b5318a3a5a50585bde4272115ed8ecba836b0627 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 16 Sep 2014 17:32:57 -0700 Subject: [PATCH 366/485] Update deep-learning-introduction.md --- awesome/deep-learning-introduction.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/awesome/deep-learning-introduction.md b/awesome/deep-learning-introduction.md index db958c1..29de4a5 100644 --- a/awesome/deep-learning-introduction.md +++ b/awesome/deep-learning-introduction.md @@ -11,7 +11,8 @@ http://deeplearning.net/tutorial/gettingstarted.html Getting Started (通过pyt ## 概念与背景知识 http://en.wikipedia.org/wiki/Deep_learning Deep learning is a set of algorithms in machine learning that attempt to model high-level abstractions in data by using model architectures composed of multiple non-linear transformations. -![screen shot 2014-09-16 at 4 59 35 pm](https://cloud.githubusercontent.com/assets/8302062/4296824/7b3a3278-3dfe-11e4-882b-c7ee473a3de3.png) +![source http://www.datarobot.com/blog/a-primer-on-deep-learning/](https://cloud.githubusercontent.com/assets/8302062/4296824/7b3a3278-3dfe-11e4-882b-c7ee473a3de3.png) + source: http://www.datarobot.com/blog/a-primer-on-deep-learning/ http://www.reddit.com/r/MachineLearning/comments/2fxi6v/ama_michael_i_jordan/ckdqtpe Michael Jordan论深度学习 From be2e6dd56ac1510d84d23c8741ca4bbedb99fb16 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 16 Sep 2014 17:33:09 -0700 Subject: [PATCH 367/485] Update deep-learning-introduction.md --- awesome/deep-learning-introduction.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/deep-learning-introduction.md b/awesome/deep-learning-introduction.md index 29de4a5..03ead55 100644 --- a/awesome/deep-learning-introduction.md +++ b/awesome/deep-learning-introduction.md @@ -13,7 +13,7 @@ http://en.wikipedia.org/wiki/Deep_learning Deep learning is a set of algorithms ![source http://www.datarobot.com/blog/a-primer-on-deep-learning/](https://cloud.githubusercontent.com/assets/8302062/4296824/7b3a3278-3dfe-11e4-882b-c7ee473a3de3.png) -source: http://www.datarobot.com/blog/a-primer-on-deep-learning/ +image source: http://www.datarobot.com/blog/a-primer-on-deep-learning/ http://www.reddit.com/r/MachineLearning/comments/2fxi6v/ama_michael_i_jordan/ckdqtpe Michael Jordan论深度学习 From d3171c93701271b47fe085585bdb05dcd529bc96 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 16 Sep 2014 17:39:04 -0700 Subject: [PATCH 368/485] Update deep-learning-introduction.md --- awesome/deep-learning-introduction.md | 12 ++++++++++++ 1 file changed, 12 insertions(+) diff --git a/awesome/deep-learning-introduction.md b/awesome/deep-learning-introduction.md index 03ead55..ca4a6eb 100644 --- a/awesome/deep-learning-introduction.md +++ b/awesome/deep-learning-introduction.md @@ -55,5 +55,17 @@ Yann LeCun's Lecture on Computer Perception with Deep Learning in Course 9.S912: * 计算机视觉 方向 +## 过去的相关推荐 + +https://github.com/memect/hao/issues/90 深度学习做推荐的文章资料 +https://github.com/memect/hao/issues/39 机器学习和深度学习在多媒体信息检索领域的资源 +https://github.com/memect/hao/issues/31 深度学习或者机器学习在图像检索 +https://github.com/memect/hao/issues/181 deep learning相关的图像检索资料 +https://github.com/memect/hao/issues/30 深度学习在文本挖掘或者自然语言处理(NLP)方面的好的资源 +https://github.com/memect/hao/issues/168 Michael Jordan 论深度学习 + + ## 计算工具 + + From ce32c806699d09b235e976d79ceba9c984805a96 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 16 Sep 2014 17:42:08 -0700 Subject: [PATCH 369/485] Update deep-learning-introduction.md --- awesome/deep-learning-introduction.md | 17 +++++++++++------ 1 file changed, 11 insertions(+), 6 deletions(-) diff --git a/awesome/deep-learning-introduction.md b/awesome/deep-learning-introduction.md index ca4a6eb..e6b21b2 100644 --- a/awesome/deep-learning-introduction.md +++ b/awesome/deep-learning-introduction.md @@ -57,15 +57,20 @@ Yann LeCun's Lecture on Computer Perception with Deep Learning in Course 9.S912: ## 过去的相关推荐 -https://github.com/memect/hao/issues/90 深度学习做推荐的文章资料 -https://github.com/memect/hao/issues/39 机器学习和深度学习在多媒体信息检索领域的资源 -https://github.com/memect/hao/issues/31 深度学习或者机器学习在图像检索 -https://github.com/memect/hao/issues/181 deep learning相关的图像检索资料 -https://github.com/memect/hao/issues/30 深度学习在文本挖掘或者自然语言处理(NLP)方面的好的资源 -https://github.com/memect/hao/issues/168 Michael Jordan 论深度学习 +* https://github.com/memect/hao/issues/90 深度学习做推荐的文章资料 +* https://github.com/memect/hao/issues/39 机器学习和深度学习在多媒体信息检索领域的资源 +* https://github.com/memect/hao/issues/31 深度学习或者机器学习在图像检索 +* https://github.com/memect/hao/issues/181 deep learning相关的图像检索资料 +* https://github.com/memect/hao/issues/30 深度学习在文本挖掘或者自然语言处理(NLP)方面的好的资源 +* https://github.com/memect/hao/issues/168 Michael Jordan 论深度学习 +* https://github.com/memect/hao/issues/184 深度学习入门 ## 计算工具 +theano +caffe +Torch-7 +matlab deeplearning toolbox From 811fd78f95910a08b1a5d4bcebcedb47e5fec6bc Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 16 Sep 2014 17:42:40 -0700 Subject: [PATCH 370/485] Update deep-learning-introduction.md --- awesome/deep-learning-introduction.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/deep-learning-introduction.md b/awesome/deep-learning-introduction.md index e6b21b2..52704ad 100644 --- a/awesome/deep-learning-introduction.md +++ b/awesome/deep-learning-introduction.md @@ -64,7 +64,7 @@ Yann LeCun's Lecture on Computer Perception with Deep Learning in Course 9.S912: * https://github.com/memect/hao/issues/30 深度学习在文本挖掘或者自然语言处理(NLP)方面的好的资源 * https://github.com/memect/hao/issues/168 Michael Jordan 论深度学习 * https://github.com/memect/hao/issues/184 深度学习入门 - +* https://github.com/memect/hao/issues/190 深度学习工具箱 ## 计算工具 From 14088dc4ecb3dab8cd09f86fc024274054327449 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 16 Sep 2014 20:45:56 -0700 Subject: [PATCH 371/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 9 +++++++++ 1 file changed, 9 insertions(+) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index 6713343..84f5f91 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -49,6 +49,9 @@ http://blog.csdn.net/adooadoo/article/details/38505497 glove入门实战 http://nlp.stanford.edu/projects/glove/ +http://www.socher.org/index.php/Main/ImprovingWordRepresentationsViaGlobalContextAndMultipleWordPrototypes + + @杜振东_java : 深夜总算完成了《glove入门实战》的码字工作,发出两张利用glove聚类的效果图,具体工作参考 http://t.cn/RP0xXNx ,代码在此 http://t.cn/RP0xOx0 感谢@刘知远THU 老师提供关于glove的信息,并感谢@张成_ICT 的帮助,顺便@夏睿 老师和@章成志 老师 http://www.weibo.com/1247953577/BhRfpyyJw @@ -61,6 +64,12 @@ http://www.weibo.com/1464484735/BhbLD70wa Yoav Goldberg写了个测评文档,大致结论就是GloVe和word2vec如果正常比的话 效果差不多,没有宣称的11%这么大。。 链接:http://t.cn/RP0gMXB http://www.weibo.com/1895401411/BhVDWofI5 + +@康积华_绩点侠:richard socher有一篇12年的文章是使用神经网络来做这个,Improving Word Representations Via Global Context And Multiple Word Prototypes,顺势开始大量使用dl去做这些任务,可以去他主页上一看 (今天 08:03) +* http://www.socher.org/uploads/Main/HuangSocherManning_ACL2012.pdf +http://www.weibo.com/5220650532/BnmMGBraU + + ### ESA (Explicit Semantic Analysis) http://en.wikipedia.org/wiki/Explicit_semantic_analysis From ee4d2c5a4ed68a0bc2dd9e3324b64c36f2385737 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 16 Sep 2014 20:46:46 -0700 Subject: [PATCH 372/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index 84f5f91..0615001 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -49,7 +49,7 @@ http://blog.csdn.net/adooadoo/article/details/38505497 glove入门实战 http://nlp.stanford.edu/projects/glove/ -http://www.socher.org/index.php/Main/ImprovingWordRepresentationsViaGlobalContextAndMultipleWordPrototypes +http://www.socher.org/index.php/Main/ImprovingWordRepresentationsViaGlobalContextAndMultipleWordPrototypes Improving Word Representations Via Global Context And Multiple Word Prototypes earlier work @杜振东_java : From 45f746ca8866dbbe42875081cc1a19c0c135f20b Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 16 Sep 2014 20:54:34 -0700 Subject: [PATCH 373/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 10 ++++++++++ 1 file changed, 10 insertions(+) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index 0615001..437c1b2 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -45,6 +45,16 @@ http://www.weibo.com/1656097544/AhM49jMYL ### glove http://stanford.edu/~jpennin/papers/glove.pdf Richard Socher, EMNLP2014, GloVe: Global Vectors for Word Representation + “Word similarity. + While the analogy task is our + primary focus since it tests for interesting vector + space substructures, we also evaluate our model on + a variety of word similarity tasks in Table 3. These + include WordSim-353 (Finkelstein et al., 2001), + MC (Miller and Charles, 1991), RG (Rubenstein + and Goodenough, 1965), SCWS (Huang et al., + 2012), and RW (Luong et al., 2013)” + http://blog.csdn.net/adooadoo/article/details/38505497 glove入门实战 http://nlp.stanford.edu/projects/glove/ From fffb5862a2740f6cb2a564c0baa1376ead427fa0 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 16 Sep 2014 21:05:35 -0700 Subject: [PATCH 374/485] Update deep-learning-introduction.md --- awesome/deep-learning-introduction.md | 4 +++- 1 file changed, 3 insertions(+), 1 deletion(-) diff --git a/awesome/deep-learning-introduction.md b/awesome/deep-learning-introduction.md index 52704ad..2a55303 100644 --- a/awesome/deep-learning-introduction.md +++ b/awesome/deep-learning-introduction.md @@ -34,15 +34,17 @@ http://research.microsoft.com/pubs/204048/APSIPA-Trans2013-revised-final.pdf Li Deng, A Tutorial Survey of Architectures, Algorithms, and Applications for Deep Learning , in APSIPA Transactions on Signal and Information Processing, Cambridge University Press, 2014 * 还有一个大部头 http://research.microsoft.com/pubs/209355/DeepLearning-NowPublishing-Vol7-SIG-039.pdf Deep Learning Methods and Applications, Li Deng and Dong Yu - +### Text 文本 NLP http://nlp.stanford.edu/courses/NAACL2013/ Deep Learning for Natural Language Processing (without Magic) * 自然语言处理 NLP 方向(文本为主) +### Speech 语音 NLP http://research.microsoft.com/pubs/217165/ICASSP_DeepTextLearning_v07.pdf Deep learning for natural language processing and related applications (Tutorial at ICASSP) * Xiaodong He, Jianfeng Gao, and Li Deng * 自然语言处理 NLP 方向 (语音为主,也包括文本) * spoken language understanding (SLU), machine translation (MT), and semantic information retrieval (IR) from text. +### Vision 视觉 https://sites.google.com/site/deeplearningcvpr2014/ TUTORIAL ON DEEP LEARNING FOR VISION * Computer vision, CVPR 2014 Tutorial * 计算机视觉 方向 From 6ed596480e7af5246e7677fa17e84657f660b0d4 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 16 Sep 2014 21:09:54 -0700 Subject: [PATCH 375/485] Update deep-learning-introduction.md --- awesome/deep-learning-introduction.md | 21 +++++++++++++++------ 1 file changed, 15 insertions(+), 6 deletions(-) diff --git a/awesome/deep-learning-introduction.md b/awesome/deep-learning-introduction.md index 2a55303..f804606 100644 --- a/awesome/deep-learning-introduction.md +++ b/awesome/deep-learning-introduction.md @@ -24,7 +24,8 @@ http://www.reddit.com/r/MachineLearning/comments/2fxi6v/ama_michael_i_jordan/ckd * http://blog.sina.com.cn/s/blog_46d0a3930101h6nf.html Deep Learning 教程翻译 -## 综述与分支 +## 综述与分支 (注意Vision、Text、Speech都用DL,用法不尽相同) + http://deeplearning.net/tutorial/ Deep Learning Tutorials * Deep Learning Tutorials 600+ star on github https://github.com/lisa-lab/DeepLearningTutorials @@ -34,6 +35,8 @@ http://research.microsoft.com/pubs/204048/APSIPA-Trans2013-revised-final.pdf Li Deng, A Tutorial Survey of Architectures, Algorithms, and Applications for Deep Learning , in APSIPA Transactions on Signal and Information Processing, Cambridge University Press, 2014 * 还有一个大部头 http://research.microsoft.com/pubs/209355/DeepLearning-NowPublishing-Vol7-SIG-039.pdf Deep Learning Methods and Applications, Li Deng and Dong Yu + + ### Text 文本 NLP http://nlp.stanford.edu/courses/NAACL2013/ Deep Learning for Natural Language Processing (without Magic) * 自然语言处理 NLP 方向(文本为主) @@ -44,7 +47,7 @@ http://research.microsoft.com/pubs/217165/ICASSP_DeepTextLearning_v07.pdf Deep * 自然语言处理 NLP 方向 (语音为主,也包括文本) * spoken language understanding (SLU), machine translation (MT), and semantic information retrieval (IR) from text. -### Vision 视觉 +### Computer Vision 视觉 https://sites.google.com/site/deeplearningcvpr2014/ TUTORIAL ON DEEP LEARNING FOR VISION * Computer vision, CVPR 2014 Tutorial * 计算机视觉 方向 @@ -69,10 +72,16 @@ Yann LeCun's Lecture on Computer Perception with Deep Learning in Course 9.S912: * https://github.com/memect/hao/issues/190 深度学习工具箱 ## 计算工具 +###theano -theano -caffe -Torch-7 -matlab deeplearning toolbox +### caffe + + +### Torch-7 + + + +### matlab deeplearning toolbox + From d4f21a38647ffad72e810f93ed89b5f8af77aa52 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 16 Sep 2014 21:10:25 -0700 Subject: [PATCH 376/485] Update deep-learning-introduction.md --- awesome/deep-learning-introduction.md | 8 ++++---- 1 file changed, 4 insertions(+), 4 deletions(-) diff --git a/awesome/deep-learning-introduction.md b/awesome/deep-learning-introduction.md index f804606..a7c4301 100644 --- a/awesome/deep-learning-introduction.md +++ b/awesome/deep-learning-introduction.md @@ -73,15 +73,15 @@ Yann LeCun's Lecture on Computer Perception with Deep Learning in Course 9.S912: ## 计算工具 ###theano - + ### caffe - + ### Torch-7 - + ### matlab deeplearning toolbox - + From f00b11b20bce00e59bef1438d4a3b140074b642f Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 16 Sep 2014 21:12:34 -0700 Subject: [PATCH 377/485] Update deep-learning-introduction.md --- awesome/deep-learning-introduction.md | 1 + 1 file changed, 1 insertion(+) diff --git a/awesome/deep-learning-introduction.md b/awesome/deep-learning-introduction.md index a7c4301..3aa900f 100644 --- a/awesome/deep-learning-introduction.md +++ b/awesome/deep-learning-introduction.md @@ -1,5 +1,6 @@ ## 深度学习入门与综述资料 +contributors: @自觉自愿来看老婆微博 @邓侃 ## 初学入门 From 7818001b6a1de1d20a1d7e4746ecaa3c47267a47 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 16 Sep 2014 21:17:18 -0700 Subject: [PATCH 378/485] Update deep-learning-introduction.md --- awesome/deep-learning-introduction.md | 6 ++++++ 1 file changed, 6 insertions(+) diff --git a/awesome/deep-learning-introduction.md b/awesome/deep-learning-introduction.md index 3aa900f..40cc228 100644 --- a/awesome/deep-learning-introduction.md +++ b/awesome/deep-learning-introduction.md @@ -4,6 +4,12 @@ contributors: @自觉自愿来看老婆微博 @邓侃 ## 初学入门 +http://cacm.acm.org/magazines/2013/6/164601-deep-learning-comes-of-age/abstract Deep Learning Comes of Age +* Gary Anthes. 2013. Deep learning comes of age. Commun. ACM 56, 6 (June 2013), 13-15. DOI=10.1145/2461256.2461262 http://doi.acm.org/10.1145/2461256.2461262 +* 下载PDF http://phdtree.org/pdf/29093526-deep-learning-comes-of-age/ + + + http://www.datarobot.com/blog/a-primer-on-deep-learning/ A Primer on Deep Learning (2014) http://deeplearning.net/tutorial/gettingstarted.html Getting Started (通过python编程学习基本概念) From 71affd6b39670a60428b8ef5ca6ad609a2bc8816 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 16 Sep 2014 21:18:28 -0700 Subject: [PATCH 379/485] Update deep-learning-introduction.md --- awesome/deep-learning-introduction.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/awesome/deep-learning-introduction.md b/awesome/deep-learning-introduction.md index 40cc228..d27bc30 100644 --- a/awesome/deep-learning-introduction.md +++ b/awesome/deep-learning-introduction.md @@ -8,9 +8,10 @@ http://cacm.acm.org/magazines/2013/6/164601-deep-learning-comes-of-age/abstract * Gary Anthes. 2013. Deep learning comes of age. Commun. ACM 56, 6 (June 2013), 13-15. DOI=10.1145/2461256.2461262 http://doi.acm.org/10.1145/2461256.2461262 * 下载PDF http://phdtree.org/pdf/29093526-deep-learning-comes-of-age/ - + http://www.datarobot.com/blog/a-primer-on-deep-learning/ A Primer on Deep Learning (2014) + http://deeplearning.net/tutorial/gettingstarted.html Getting Started (通过python编程学习基本概念) From 77b84dfde621ea077d64fc94837b8946f91a06ba Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 16 Sep 2014 21:19:29 -0700 Subject: [PATCH 380/485] Update deep-learning-introduction.md --- awesome/deep-learning-introduction.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/awesome/deep-learning-introduction.md b/awesome/deep-learning-introduction.md index d27bc30..ca974bb 100644 --- a/awesome/deep-learning-introduction.md +++ b/awesome/deep-learning-introduction.md @@ -4,6 +4,7 @@ contributors: @自觉自愿来看老婆微博 @邓侃 ## 初学入门 + http://cacm.acm.org/magazines/2013/6/164601-deep-learning-comes-of-age/abstract Deep Learning Comes of Age * Gary Anthes. 2013. Deep learning comes of age. Commun. ACM 56, 6 (June 2013), 13-15. DOI=10.1145/2461256.2461262 http://doi.acm.org/10.1145/2461256.2461262 * 下载PDF http://phdtree.org/pdf/29093526-deep-learning-comes-of-age/ @@ -11,6 +12,7 @@ http://cacm.acm.org/magazines/2013/6/164601-deep-learning-comes-of-age/abstract http://www.datarobot.com/blog/a-primer-on-deep-learning/ A Primer on Deep Learning (2014) + http://deeplearning.net/tutorial/gettingstarted.html Getting Started (通过python编程学习基本概念) From 61b098b38e0db159f7c808cf189efcf288752f23 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 16 Sep 2014 21:19:57 -0700 Subject: [PATCH 381/485] Update deep-learning-introduction.md --- awesome/deep-learning-introduction.md | 3 --- 1 file changed, 3 deletions(-) diff --git a/awesome/deep-learning-introduction.md b/awesome/deep-learning-introduction.md index ca974bb..5703c1e 100644 --- a/awesome/deep-learning-introduction.md +++ b/awesome/deep-learning-introduction.md @@ -21,9 +21,6 @@ http://deeplearning.net/tutorial/gettingstarted.html Getting Started (通过pyt ## 概念与背景知识 http://en.wikipedia.org/wiki/Deep_learning Deep learning is a set of algorithms in machine learning that attempt to model high-level abstractions in data by using model architectures composed of multiple non-linear transformations. -![source http://www.datarobot.com/blog/a-primer-on-deep-learning/](https://cloud.githubusercontent.com/assets/8302062/4296824/7b3a3278-3dfe-11e4-882b-c7ee473a3de3.png) - -image source: http://www.datarobot.com/blog/a-primer-on-deep-learning/ http://www.reddit.com/r/MachineLearning/comments/2fxi6v/ama_michael_i_jordan/ckdqtpe Michael Jordan论深度学习 From f05c864eda3fb5eed773f68f22b858a57d0221a3 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 16 Sep 2014 21:20:34 -0700 Subject: [PATCH 382/485] Update deep-learning-introduction.md --- awesome/deep-learning-introduction.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/deep-learning-introduction.md b/awesome/deep-learning-introduction.md index 5703c1e..baf675e 100644 --- a/awesome/deep-learning-introduction.md +++ b/awesome/deep-learning-introduction.md @@ -6,7 +6,7 @@ contributors: @自觉自愿来看老婆微博 @邓侃 ## 初学入门 http://cacm.acm.org/magazines/2013/6/164601-deep-learning-comes-of-age/abstract Deep Learning Comes of Age -* Gary Anthes. 2013. Deep learning comes of age. Commun. ACM 56, 6 (June 2013), 13-15. DOI=10.1145/2461256.2461262 http://doi.acm.org/10.1145/2461256.2461262 +* Gary Anthes. 2013. Commun. ACM 56, 6 (June 2013) * 下载PDF http://phdtree.org/pdf/29093526-deep-learning-comes-of-age/ From dff5a49f57b9a4b2085fd78d0804f3cb67c4ccdf Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 16 Sep 2014 21:28:56 -0700 Subject: [PATCH 383/485] Update deep-learning-introduction.md --- awesome/deep-learning-introduction.md | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/awesome/deep-learning-introduction.md b/awesome/deep-learning-introduction.md index baf675e..ee7d28c 100644 --- a/awesome/deep-learning-introduction.md +++ b/awesome/deep-learning-introduction.md @@ -1,13 +1,13 @@ ## 深度学习入门与综述资料 -contributors: @自觉自愿来看老婆微博 @邓侃 +contributors: @自觉自愿来看老婆微博 @邓侃 @星空下的巫师 ## 初学入门 http://cacm.acm.org/magazines/2013/6/164601-deep-learning-comes-of-age/abstract Deep Learning Comes of Age -* Gary Anthes. 2013. Commun. ACM 56, 6 (June 2013) -* 下载PDF http://phdtree.org/pdf/29093526-deep-learning-comes-of-age/ +* Gary Anthes. 2013. Commun. ACM 56, 6 (June 2013),下载PDF http://phdtree.org/pdf/29093526-deep-learning-comes-of-age/ +* @星空下的巫师 @自觉自愿来看老婆微博 共同推荐 From a18e6c6c783d80e1ef7aa68d93232cfb5bb795f6 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 17 Sep 2014 09:38:21 -0700 Subject: [PATCH 384/485] Update deep-learning-introduction.md --- awesome/deep-learning-introduction.md | 31 +++++++++++++++++++-------- 1 file changed, 22 insertions(+), 9 deletions(-) diff --git a/awesome/deep-learning-introduction.md b/awesome/deep-learning-introduction.md index ee7d28c..edacb1b 100644 --- a/awesome/deep-learning-introduction.md +++ b/awesome/deep-learning-introduction.md @@ -1,9 +1,14 @@ ## 深度学习入门与综述资料 contributors: @自觉自愿来看老婆微博 @邓侃 @星空下的巫师 +created: 2014-09-16 ## 初学入门 +http://en.wikipedia.org/wiki/Deep_learning Deep learning is a set of algorithms in machine learning that attempt to model high-level abstractions in data by using model architectures composed of multiple non-linear transformations. + + +### 科普短文 http://cacm.acm.org/magazines/2013/6/164601-deep-learning-comes-of-age/abstract Deep Learning Comes of Age * Gary Anthes. 2013. Commun. ACM 56, 6 (June 2013),下载PDF http://phdtree.org/pdf/29093526-deep-learning-comes-of-age/ @@ -15,27 +20,35 @@ http://www.datarobot.com/blog/a-primer-on-deep-learning/ A Primer on Deep Learni -http://deeplearning.net/tutorial/gettingstarted.html Getting Started (通过python编程学习基本概念) +### 基于编程语言的实战入门 +* http://deeplearning.net/tutorial/gettingstarted.html Getting Started (通过python编程学习基本概念) +* http://karpathy.github.io/neuralnets/ 以独特视角讲NN(Javascript ConvNetJS ) -## 概念与背景知识 -http://en.wikipedia.org/wiki/Deep_learning Deep learning is a set of algorithms in machine learning that attempt to model high-level abstractions in data by using model architectures composed of multiple non-linear transformations. +### 入门指南 +http://deeplearning.net/tutorial/ Deep Learning Tutorials +* [600+ star on github](https://github.com/lisa-lab/DeepLearningTutorials) -http://www.reddit.com/r/MachineLearning/comments/2fxi6v/ama_michael_i_jordan/ckdqtpe Michael Jordan论深度学习 +http://neuralnetworksanddeeplearning.com/index.html Michael Nielsen (2014) 概念讲得很细致 +* @自觉自愿来看老婆微博 共同推荐 -中文看 邓侃 Deep Learning 系列 +邓侃 Deep Learning 系列 * http://blog.sina.com.cn/s/blog_46d0a3930101fswl.html Deep Learning 和 Knowledge Graph 引爆大数据革命 * http://blog.sina.com.cn/s/blog_46d0a3930101gs5h.html Deep Learning 【2,3】 * http://blog.sina.com.cn/s/blog_46d0a3930101h6nf.html Deep Learning 教程翻译 - -## 综述与分支 (注意Vision、Text、Speech都用DL,用法不尽相同) +http://www.reddit.com/r/MachineLearning/comments/2fxi6v/ama_michael_i_jordan/ckdqtpe 伯克利Michael Jordan教授论深度学习, 附上[学习笔记](http://www.weibo.com/5220650532/BmtY3eXDx) +1. layer,parallel,ensemble有用,不能限于模拟人脑思维 +2. backpropagation是关键, 本质是supervised learning +3. 很多成功案例是大规模样本+监督学习 +4. 很少用在工业界咨询,不少其它问题(7个例子) +5. 机器学习不止是AI,还要接近system与数据库 -http://deeplearning.net/tutorial/ Deep Learning Tutorials -* Deep Learning Tutorials 600+ star on github https://github.com/lisa-lab/DeepLearningTutorials +## 综述与分支 +注意Vision、Text、Speech都用DL,用法不尽相同 http://research.microsoft.com/pubs/204048/APSIPA-Trans2013-revised-final.pdf From a5fe5ab6909676fc0bdf9fe815dc0e17e0d8581e Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 17 Sep 2014 09:38:28 -0700 Subject: [PATCH 385/485] Update deep-learning-introduction.md --- awesome/deep-learning-introduction.md | 1 + 1 file changed, 1 insertion(+) diff --git a/awesome/deep-learning-introduction.md b/awesome/deep-learning-introduction.md index edacb1b..25e6d3b 100644 --- a/awesome/deep-learning-introduction.md +++ b/awesome/deep-learning-introduction.md @@ -1,6 +1,7 @@ ## 深度学习入门与综述资料 contributors: @自觉自愿来看老婆微博 @邓侃 @星空下的巫师 + created: 2014-09-16 From d818e0649cbad8476a08bc8b774a217221261ca8 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 19 Sep 2014 09:38:43 -0700 Subject: [PATCH 386/485] Update test-recent.md --- awesome/test-recent.md | 332 ++++++++++------------------------------- 1 file changed, 82 insertions(+), 250 deletions(-) diff --git a/awesome/test-recent.md b/awesome/test-recent.md index a1e047a..d327882 100644 --- a/awesome/test-recent.md +++ b/awesome/test-recent.md @@ -1,332 +1,164 @@ -2014-09-11 #夜读春秋# GDP与汇率数据是经济、金融研究的基本盘! (数据资源整理: http://t.cn/RhVDKg5 ) 1.世界银行的全球各国GDP(1983-2013)http://t.cn/hFsNY 2. 美联储汇率数据(H.10): http://t.cn/RhVDKgq (1996-2014) 3. 那台北的GDP呢? http://t.cn/RhVgFWl ,http://t.cn/zOMb9mJ [ [微博](http://www.weibo.com/5220650532/Bmpx29PN5) ] +2014-09-19 Large-Scale Distributed Computer Vision As A Cloud Service [ [微博](http://www.weibo.com/5220650532/BnImw9owp) ] -2014-09-11 谢谢建议,我们会努力。改进的网站会有的。想不想要个电子邮件周报什么的,把每周的发布的好东西一网打尽? //@海中的沙粒:给个建议,好东西以后重新搞个博,不然因重复遗漏 //@好东西传送门: 加进列表了 pdf传送门 http://t.cn/RhcFi0l //@诸神善待民科组: 图是种方法Method,不是模型 Model,没说到 B [ [微博](http://www.weibo.com/5220650532/BmplNnCI3) ] +> 2014-09-19 @Rachel____Zhang: 发现了一个好东西,cloudcv http://t.cn/RhKuArr . 基于GraphLab with GPU支持在线object detection, classification和feature extraction(用的是Caffe),提供了MATLAB和Python的API。http://t.cn/8FItstH 还有提供ILSVRC2014 的各种feature... [ [微博](http://www.weibo.com/2607574543/BnIlCguKb) ] -> 2014-09-10 @好东西传送门: [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] +2014-09-19 推荐Cyrille Rossant博士新书 “IPython cookbook” http://t.cn/RhKH1qp 所有例子在Github上以IPython Notebook方式开源 http://t.cn/RhKH1q0 此书覆盖挺广:基础知识( IPython交互式计算环境,性能分析与优化,高性能计算,数据可视化); 实战短例子(例如统计,机器学习,信号处理,视频与音频等) [ [微博](http://www.weibo.com/5220650532/BnHSNrqZT) ] -2014-09-10 #NLP# 诸君,"城市规划" 领域词表来了, 还等什么呢? 数据传送门 http://t.cn/RhVVYBk 感谢 @国际城市规划 //@规划中国: //@国际城市规划: 编撰词典对我等难度太大,欢迎有缘人慢慢加入积累 http://t.cn/RhVcLWx //@城规田宝江: 好想法!//@中大袁媛: 可以出版一本专业英语的词典或教材 [ [微博](http://www.weibo.com/5220650532/Bmm8O31VG) ] +2014-09-19 问: @ShawnLeesr 给找一些好到逆天的 1.信号处理 2 傅里叶变换 3.小波变换的入门资料吧 答: 资料整理 http://t.cn/RhKNdKs 推 @Heinrich_DMU 傅里叶分析之掐死教程。进阶有Stanford傅立叶变换课(Brad Osgood) http://t.cn/RhKNdKF , MIT小波分析课(Gilbert Strang) http://t.cn/RhKNd9v 请指正补充 [ [微博](http://www.weibo.com/5220650532/BnHcFiekf) ] -> 2014-09-09 @国际城市规划: 《国际城市规划》编辑部在多年来出版外文文献的过程中,积累了大量的专业词汇(英汉对照)。把这些专业词汇汇总归纳起来对一些读者应该是有益处的,同时也是我们对自己工作的不断回顾和总结。我们会持续将这一工作做下去。欢迎提出宝贵意见,也欢迎有兴趣的朋友加入这个行列.详见 http://t.cn/Rhtk0hX [ [微博](http://www.weibo.com/2092965653/BmcMpz6dI) ] +2014-09-19 [有趣的数据] 一个新推出的可交互地图应用把英国(United Kingdom)的河流的水文数据(river level) 放在网上 http://t.cn/RhK9AoB 。地图每一点对应一个水文观测站,好玩的是大家可以在Twitter上当这个观测站的粉丝:牛津附近的 gauge 2100 http://t.cn/RhK9Aor 居然有12粉 [ [微博](http://www.weibo.com/5220650532/BnH0ncHSp) ] -2014-09-10 #机器学习# 领域大牛 Michael Jordan 是Andrew Ng的博士导师,擅长 recurrent neural networks , Bayesian nonparametric analysis, probabilistic graphical models, spectral methods, kernel machines 机会难得有问题赶紧上Reddit上问,http://t.cn/aOioBZ [ [微博](http://www.weibo.com/5220650532/Bmm3VbIR5) ] +2014-09-19 好东西! [ [微博](http://www.weibo.com/5220650532/BnGKXl9Ic) ] -> 2014-09-10 @赵家平USC: Michael Jordan 教授也在 reddit 上开了 AMA, 大家可以问他任何问题,他明天一起回答:http://t.cn/RhVqV11 [ [微博](http://www.weibo.com/2288385870/BmlWJy7Od) ] +> 2014-09-19 @设定控: 一篇在各大社交网站上广为转载的电子图书馆列表,来自译言网,《最好的免费电子图书馆指南(上)》http://t.cn/zYcbH8t 《最好的免费电子图书馆指南(下)》http://t.cn/z84nsDZ 事实我发的很多电子书网站就来自这里,这贴几乎无所不包,学术政治经济资源都有,楼主还没翻译完,有时间多刷新一下吧。 [ [微博](http://www.weibo.com/2142733793/BnGfghg3X) ] -2014-09-10 问: @chico2011 @leo_lq 求推荐金融交易风险评估方面的文献 答: 资源列表 http://t.cn/RhVqWuZ 金融风险管理领域全局观参见 Financial Institutions Management: A Risk Management Approach (沃顿学院教科书)。量化评估方法(含风险价值 VaR)有2011年综述, 此外咱做了个VaR相关概念的脑图 请补充指正 [ [微博](http://www.weibo.com/5220650532/BmlXxt5hC) ] +2014-09-19 帮转,颜老师的实验室是世界水准,最近的《中国青年》报导 http://t.cn/RhaSbb9 [ [微博](http://www.weibo.com/5220650532/BnG0q7wTA) ] -2014-09-10 张天雷 《概率编程语言与贝叶斯方法实践》 //@小猴机器人: 来,给个中文介绍哈, http://t.cn/RPwbEPz [ [微博](http://www.weibo.com/5220650532/BmkyPihT4) ] +> 2014-09-07 @nyouyou: 本实验室招聘研究系列副研究员或助理研究员、博士后、以及技术员(lab manager),待遇还都不错的哦,欢迎有能力又懒得自己做PI的同事应聘助理研究员,一起探索科学世界。听说清华最好的似乎是幼儿园+小学,这个才是最有诱惑力的砝码。 http://t.cn/Rhqlynm [ [微博](http://www.weibo.com/1656918431/BlUuJdiXb) ] -> 2014-09-10 @好东西传送门: [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] +2014-09-19 赞!Gradient Boosting Tree也参我们以前收集的专题 http://t.cn/RhKc1F5 有Python Go C++多种语言的实现 [ [微博](http://www.weibo.com/5220650532/BnFUv89IL) ] -2014-09-10 加进列表了 pdf传送门 http://t.cn/RhcFi0l //@诸神善待民科组: 图是种方法Method,不是模型 Model,没说到 Bayesian Reasoning and Machine Learning 真是不开心,这比 Koller 的 PGM 好读,好处是图多,我就喜欢看图说话的小二班 [ [微博](http://www.weibo.com/5220650532/BmkxhgVMr) ] +> 2014-09-19 @phunter_lau: 我的 Kaggle Higgs Challenge单个模型获胜解答,公开排行榜3.75最终排行榜得分3.73,排名25th/1792,差不多前几十里唯一一个非组合模型的解答。至于为什么不用组合模型,因为我不会。。。 链接 http://t.cn/RhKAWac 附图方便不能上wordpress的同学观看。至于英语描述,不要在意这些细节。 [ [微博](http://www.weibo.com/1770891687/BnE9rmOpe) ] -> 2014-09-10 @好东西传送门: [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] +2014-09-19 推荐一篇综述,将Context Aware Computing 在物联网里的应用 《Context aware computing for the internet of things: A survey》 http://t.cn/RhKqJTg 分析了过去十年50个相关项目,覆盖Context生命周期的四个阶段 Acquisition(获取), Modeling(建模), Reasoning(推理), Distribution(发布) [ [微博](http://www.weibo.com/5220650532/BnFso1697) ] -2014-09-10 赞,维基百科wikipedia在某种程度也承载了很多领域的知识体系,所以大家搜索时喜欢用它 [ [微博](http://www.weibo.com/5220650532/BmjA3bOEr) ] +2014-09-19 回复@tang_Kaka_back: 大致看了一下pypi,4万多库里只有5千多的python3库 //@tang_Kaka_back:回复@好东西传送门:[good]Python3的一些库跟进还是太慢了。从unicode的角度我个人还是喜欢3 //@tang_Kaka_back:我记得我一年前在找python3的爬虫都没有太好的,于是自己就着自己的项目写了个。现在已经有支持 [ [微博](http://www.weibo.com/5220650532/BnDabp9IQ) ] -> 2014-09-10 @陈果_George: 每个专业领域都有一个知识体系(body of knowledge),无论是财务、供应链、项目管理、人力资源,还是历史、哲学、心理。构建完整的知识框架,是正确的逻辑和认知的基础;缺乏知识体系地推断现象,就是通常所说的瞎子摸象,只见树木不见森林。 [ [微博](http://www.weibo.com/1494723892/BmjxllPqA) ] +> 2014-09-18 @好东西传送门: 问: @子_相 目前支持Python 3的各种Web Crawler包?输入HTML, 输出是能支持Xpath 和CSS式的selector查询的object,有没有比较宽松容错的parser? 答: http://t.cn/RhL3mGP 不完善初步答案 MechanicalSoup和robobrowser都支持python3; beautifulSoup4 支持多种html parser处理HTML和CSS 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BnyQKbcKJ) ] -2014-09-10 [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] +2014-09-19 回复@小粗腿正在减肥中: 你是指这个吗? http://t.cn/RhosnXP Information Hiding conference (1996-2014) 点链接可以看每一届会议的论文目录。要下载论文通常可以 1. 祭出搜索引擎 标题+PDF 2. 通过图书馆查期刊 3.联系通信作者 ... //@小粗腿正在减肥中: [ [微博](http://www.weibo.com/5220650532/BnD1wdQBF) ] -2014-09-10 @好东西传送门 的粉丝里谁转发好东西最多?前10名:1 @Noodles-Xu 2 @LR机器学习计算机视觉 3 @海中的沙粒 4 @hbyido 5 @-单世民- 6 @武文骁很忙也很胖 7 @侠女无敌-曾佩玲 8 @彤言彤趣 9 @yutho 10 @季波USTC [good] [ [微博](http://www.weibo.com/5220650532/BmiMf0Fu4) ] +> 2014-09-18 @好东西传送门: 问:求信息隐藏的资料 答:初步进展 http://t.cn/RhogJv4 信息隐藏(digital watermarking, steganography and steganalysis, anonymity and privacy)有一个国际年会 IIH-MSP (1996-2014)。 Zoran Duric 有2006年有一门短课程, Peter Wayner 有一本2009年的专著。@永远的孤岛 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BnCrqqYLC) ] -2014-09-10 US News 全美大学排名数据集: 新鲜出炉2015年排名前150的综合大学(national university)和文理学院(national liberal art college) . 资源列表 http://t.cn/RhcYKC2 包括1983-2007, 2008, 2009, 2010, 2011-2015 数据,应该比较全了. 欢迎补充 [ [微博](http://www.weibo.com/5220650532/BmizVr1sS) ] +2014-09-18 问:求信息隐藏的资料 答:初步进展 http://t.cn/RhogJv4 信息隐藏(digital watermarking, steganography and steganalysis, anonymity and privacy)有一个国际年会 IIH-MSP (1996-2014)。 Zoran Duric 有2006年有一门短课程, Peter Wayner 有一本2009年的专著。@永远的孤岛 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BnCrqqYLC) ] -2014-09-10 458万东西: 144万人, 73万地点, 41万作品(含12万音乐专辑, 8.7万电影,1.9万视频游戏), 24万组织(含5.8万公司,4.9万教育机构), 25万物种等 [ [微博](http://www.weibo.com/5220650532/BmizMhrjB) ] +2014-09-18 [数据集] 美国各政府部门2000至2014财年的支出记录, 每条记录包括 哪个部门拨发的,什么时间,干什么用,多少钱,获得拨款的地址 等字段。可以直接查询数据 http://t.cn/RhotbLK 也可以下载数据 http://t.cn/RhotbLo (点 archives 标签, 按月下载) [ [微博](http://www.weibo.com/5220650532/Bnz8SvZTF) ] -> 2014-09-10 @波多野丽猪: DBpedia今天更新了,除了丰富dataset本身与到其他ontology(e.g., freebase)的link外,最主要的还是基于heiko paulheim,jens lehmann等人关于ontology enrichment的工作,将dbpedia数据本身丰富了语义,比如增加了一些infobox缺失情况下的type inference。地址: http://t.cn/RhcjuOq [ [微博](http://www.weibo.com/1788897365/BmirJsEDH) ] +2014-09-18 问: @子_相 目前支持Python 3的各种Web Crawler包?输入HTML, 输出是能支持Xpath 和CSS式的selector查询的object,有没有比较宽松容错的parser? 答: http://t.cn/RhL3mGP 不完善初步答案 MechanicalSoup和robobrowser都支持python3; beautifulSoup4 支持多种html parser处理HTML和CSS 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BnyQKbcKJ) ] -2014-09-09 http://t.cn/zOpIrjJ 中文语言资源联盟,英文译名Chinese Linguistic Data Consortium,缩写为CLDC, 有少数民族语言,方言数据 //@龙星镖局:有专门放入方言的nlp研究 吗?@白硕SH 老师 //@殆知阁:转发微博 [ [微博](http://www.weibo.com/5220650532/BmcCdeWno) ] +2014-09-18 传送好东西并传送问题 @左耳朵耗子 //@文艺复兴记: 我遇到过一类典型的有问题的编写可测试代码的方法,例:实现一个Stack类。有人这样做:把Stack内部的数据结构(比如动态数组)暴露出来,然后分别写两个测试用例test_push和test_pop,每个测试用例都去检查Stack内部数据结构的状态。问题在哪里? [ [微博](http://www.weibo.com/5220650532/Bnys4axnX) ] -> 2014-09-09 @松山书庐: #书目#《现代汉语方言大词典》,李荣 编 ,出版年: 2002-12,页数: 6556,定价: 1128.00元——看看这么贵,还是省省,在图书馆查吧!期待电子版本。@殆知阁 [ [微博](http://www.weibo.com/2139856433/BmchA2F4a) ] +> 2014-09-18 @reeze: Google员工写的:《编写可测的代码》 http://t.cn/RhSENMV 代码可测性非常重要,规模越大越重要,可测的程序可以更容易的编写更多的测试来保证代码的质量。 [ [微博](http://www.weibo.com/1548943797/BnxVP6DMx) ] -2014-09-09 好东西 ,向 迷渡 justjavac (索引的作者)致敬! 顺路推荐一下他的另一个工作 "Google 全球 IP 地址库" , http://t.cn/RvabGv5 //@justjavac: 我说今天怎么收到好多私信呢,原来根源在这儿啊。//@CSDN_CODE:Mark! [ [微博](http://www.weibo.com/5220650532/BmcoO4bqA) ] +2014-09-18 好东西 回复@blue_tracks: 论文PDF 链接有问题. 是否考虑放到 arxiv.org 这样方便别人引用,源代码是这个(不在master上)吗? http://t.cn/RhoADCF [ [微博](http://www.weibo.com/5220650532/Bnymun0FA) ] -> 2014-09-09 @英特尔商用频道: 【免费编程中文书籍索引】一个蛮全的免费书籍索引,有编程类书籍,还有专门为程序员准备的非编程类书籍。随手转发,支持正版!http://t.cn/8kJZNap #技术新知客# [ [微博](http://www.weibo.com/2295615873/BmbJTcBGK) ] +> 2014-09-18 @blue_tracks: NIPS投稿得到887高分,但是最后因为一个math typo被干掉,郁闷过后现在paper和实验配置都已公开。 idea极其简洁, 在中间层加入监督信息的架构可以适用于任何网络结构, 我们有理论和多个数据集的实验证明这种策略能够有效防止梯度发散,据说GoogLeNet今年也用了类似的想法 http://t.cn/Rhoz0BO @winsty [ [微博](http://www.weibo.com/1240701945/Bny5ShuSM) ] -2014-09-09 谢谢夸奖,分享一个体验: 有时很难一次把问题说清楚 (要不直接搜索了),所以私信交流很有帮助。 一句话,很高兴帮助你解决问题 ;) [ [微博](http://www.weibo.com/5220650532/BmckKeAqI) ] +2014-09-18 特别推荐一本免费电子书: 微软研究院邓力和俞栋合写的“Deep Learning Methods and Applications” (2014) http://t.cn/RhoPwll 近200页篇幅对深度学习的方法和应用做了比较全面地综述。还有 @高杰_Speech 推荐 微软研究院出品C++开源Computational networks工具包 CNTK http://t.cn/Rhy4u3l [ [微博](http://www.weibo.com/5220650532/BnxSMyLB3) ] -> 2014-09-09 @海中的沙粒: @好东西传送门, 你的点餐服务,我给满分,嘿嘿,又有私信交流,还有指导性推荐,微博做到这份上,目前阶段来说,算很棒啦 [ [微博](http://www.weibo.com/1843007450/Bm9DO2S76) ] +2014-09-18 哈哈, 原来是微软研究院出品 Computational Network Toolkit (CNTK) 俞栋 Dong Yu etc. "An Introduction to Computational Networks and the Computational Network Toolkit", Microsoft Technical Report, 2014. http://t.cn/RhSscXz //@liushengbing: 只支持windows的ML包真是第一次见 [ [微博](http://www.weibo.com/5220650532/BnxKrvfUY) ] -2014-09-09 找到一组相关测试数据集(VAST challenge 2003-现在),基本上就是用户利用可视化工具,根据特定需要分析大规模业务数据,继而推理验证猜想。 例如分析预测恐怖袭击,发现金融犯罪嫌疑人,有一篇总结文章值得一读: http://t.cn/Rhtmw01 [ [微博](http://www.weibo.com/5220650532/BmbO4EuMd) ] +> 2014-09-12 @高杰_Speech: 推荐新的Deep learning工具包 CNTK, http://t.cn/Rhy4u3l C++实现,CPU/GPU支持,DNN/CNN/RNN/LSTM,目前只支持windows [ [微博](http://www.weibo.com/2436946631/BmEk7BQfM) ] -> 2014-09-09 @好东西传送门: 问: @海中的沙粒 点餐,我想要更多关于可视分析学的资料? 答: 可视分析学(Visual Analytics) 利用可视化方法支持对大规模复杂(科学)数据的人机协同分析推理。问答进展收录: 经典, 综述, 社区, 会议等资源 http://t.cn/Rht6xF8 看附图, 一分钟理解其定位、原理以及跨学科特性。 [ [微博](http://www.weibo.com/5220650532/BmbGkaI7Z) ] +2014-09-18 不错 补充一下 ILSVRC2014 的日程上包括了各大参赛队15分钟报告幻灯片下载链接,还有各种讨论的东东 http://t.cn/RhSF13U //@潘炎_SYSU: 相应的论文链接在: http://t.cn/RhSdt1V [ [微博](http://www.weibo.com/5220650532/BnxIm4KOD) ] -2014-09-09 问: @海中的沙粒 点餐,我想要更多关于可视分析学的资料? 答: 可视分析学(Visual Analytics) 利用可视化方法支持对大规模复杂(科学)数据的人机协同分析推理。问答进展收录: 经典, 综述, 社区, 会议等资源 http://t.cn/Rht6xF8 看附图, 一分钟理解其定位、原理以及跨学科特性。 [ [微博](http://www.weibo.com/5220650532/BmbGkaI7Z) ] +> 2014-09-18 @潘炎_SYSU: GoogleLeNet放出他们在ILSVRC 2014的slides了:http://t.cn/RhSdCVa [ [微博](http://www.weibo.com/1889275224/Bnxk2a7zQ) ] -2014-09-09 问:@_绝影_ 求助 刚开始做图像融合相关领域研究,请问有哪些大牛? 答:进展 http://t.cn/RhqD63F 图像融合(Image Fusion)在计算机视觉(computer vision), 遥感(remote sensing)和医学图像(Medical Image)上都有应用,可追踪会议IPCV,ICIFE, 期刊IJCV 及综述。大牛欢迎专家传送 [ [微博](http://www.weibo.com/5220650532/Bm9jvfke6) ] +2014-09-18 问: @微热闹 请教是否有MAPREDUCE实现的PLSI算法 答: http://t.cn/RhSnzB7 先来三篇相关文章: UIUC “Parallel PLSI on Spark”, 清华“Parallel PLSA ...” 南大“P2LSA and P2LSA+: Two Paralleled Probabilistic Latent Semantic Analysis Algorithms Based on the MapReduce Model” 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BnwGrtAwU) ] -2014-09-09 转发理由:开放政府数据。另外推荐RPI的 Linking Open Government Data,收录了1800多个数据集,100亿RDF三元组 http://t.cn/RhtMeAj [ [微博](http://www.weibo.com/5220650532/Bm8UryKa7) ] +2014-09-18 关于数据清理(Data Cleaning) 有一篇2000年的经典文章 "Data Cleaning: Problems and Current Approaches" http://t.cn/RhSE7LZ 该文综述了结构化数据中质量问题的分类和来源,并给出了相应例子。该文对了解当前大数据中"噪音”有一定指导意义。#抛砖引玉# 欢迎补充推荐好东西 [ [微博](http://www.weibo.com/5220650532/BnwznznUE) ] -> 2014-09-04 @数盟社区: 【干货来袭:由22个联邦机构分享的6482个数据集】你在为寻找 数据集发愁吗?来,看这里 ==》 http://t.cn/RhUMeQ6[围观] [ [微博](http://www.weibo.com/3847741679/Blpg6D4Bu) ] +2014-09-18 问: 关于挖掘话题层级结构(topic hierarchy)的研究和应用? 答: http://t.cn/RhSTd26 早期有CAM模型(IJCAI'99), 近来有Blei基于"bayesian nonparametric inference"的工作, Berant的"entailment graph", 微软ProBase. Twitter用它分类(kdd'14). 认知科学看"How to Grow a Mind"(science'11) 欢迎指正 [ [微博](http://www.weibo.com/5220650532/BnvY6x7Oq) ] -2014-09-09 好东西,北京语言大学威武。插个话, 著名的汉语水平考试(HSK,...)是由北京语言大学汉语水平考试中心设计研制的 //@52nlp: [good][good][good] [ [微博](http://www.weibo.com/5220650532/Bm7DQ3NCC) ] +2014-09-17 #温故而知新# Gary Anthes (科普作家)的 Deep Learning Comes of Age 算是科普文章了,短短几页谈了深度学习过去与现状的要点,还推荐了一个不错的参考论文书单。正好 🚪 正在传送 深度学习入门资料 http://t.cn/RhaTq9c 该文应该被”录用“ 又 @自觉自愿来看老婆微博 也推荐该文 [ [微博](http://www.weibo.com/5220650532/BnoQ6ksvb) ] -> 2014-09-08 @raogaoqi: 【中秋福利】北语汉语语料库(BLCU Chinese Corpus,BCC)正式上线!100亿字报刊、社交、文学、科技语料~规模完爆CCRL和国家语委语料库。全文检索更方便,支持模糊查找和长距离模式查找。全文自动分词并词性标注。语料库http://t.cn/Rh5E63s 研发中心http://t.cn/h4mhKN [ [微博](http://www.weibo.com/1242190153/Bm3oU00UX) ] +> 2013-05-30 @星空下的巫师: "A wave of excitement today comes from the application of unsupervised learning to deep neural nets." Deep Learning Comes of Age | June 2013 | Communications of the ACM http://t.cn/zH5EdjT [ [微博](http://www.weibo.com/1785748853/zz47bmU5h) ] -2014-09-09 #夜读春秋# 最近JWT(JSON Web Token,是一种基于JSON的认证安全协议)势头很火,这里找了一个48页的幻灯片,帮你快速了解这些概念的含义,并提供一定全局观 http://t.cn/Rht40uL 该作者(Brian Campbell)还有一个更新的幻灯片讲JWT和JOSE http://t.cn/Rht40uw [ [微博](http://www.weibo.com/5220650532/Bm6KQB6nM) ] +2014-09-17 问:@聪Hit 有没有关于深度学习的。特别是针对初学者的一些文章。 答: 深度学习综述不乏大部头,如微软邓力等写的“Deep Learning Methods and Applications”。推些短文:"A Primer on Deep Learning" 科普入门, 基于python theano范例学习, 邓侃Deep Learning系列 资料 http://t.cn/RhaISCG 欢迎指正 [ [微博](http://www.weibo.com/5220650532/Bnnfrjm3x) ] -2014-09-08 @phunter_lau 推荐了 Peter Norvig的regex生成器 http://t.cn/8FGNh2J http://t.cn/8FnLiON @孙明明_SmarterChina 推荐了Bartoli等基于遗传算法的实现 http://t.cn/zlmNYLJ @布尔乔亚之犬 推荐了SO上一个很好的讨论贴 http://t.cn/Rh5H2za [good] [ [微博](http://www.weibo.com/5220650532/Bm2SOaRyu) ] +2014-09-17 问:@vincent是正能量 有没有synonym mining的survy paper,以及比较核心的一些paper? 答: 问答资料 http://t.cn/Rha5DJE Wordnet synset 人工构造了同义词(synonym)集合, 自动方法通常依靠语义相关分析(semantic similarity) 微软有相关项目, 我们有技术资料整理贴 http://t.cn/Rha5DJR [ [微博](http://www.weibo.com/5220650532/BnmMGBraU) ] -> 2014-09-08 @西瓜大丸子汤: 我在寻找一个从文本学习正则表达式的工具,就是我给它一些文本的例子,它输出符合这些文本的一个正则表达式。有没有人知道呢? @好东西传送门 [ [微博](http://www.weibo.com/1932835417/Bm2Idzep8) ] +2014-09-17 [专题] 主题模型 工具推Gensim和LDAvis http://t.cn/RhabYR5 理论部分推荐 @52nlp 的《如何计算两个文档的相似度》@rickjin 的《LDA数学八卦》@Copper_PKU 的《Probabilistic Topic Model》和 沈志勇 的《主题模型简介》http://t.cn/RhabYRt 研究前沿推Twitter和Google的实战 http://t.cn/RhabYRc [ [微博](http://www.weibo.com/5220650532/BnmjIC2Tr) ] -2014-09-08 @phunter_lau 推荐了 Peter Norvig的regex生成器 http://t.cn/8FGNh2J http://t.cn/8FnLiON @孙明明_SmarterChina 推荐了Bartoli等基于遗传算法的实现 http://t.cn/zlmNYLJ @布尔乔亚之犬 推荐了SO上一个很好的讨论贴 [good] [ [微博](http://www.weibo.com/5220650532/Bm2SqyoHc) ] +2014-09-17 [专题] 主题模型 工具推Gensim和LDAvis http://t.cn/RhabYR5 理论部分推荐 @52nlp 的《如何计算两个文档的相似度》@rickjin 的《LDA数学八卦》@@Copper_PKU的《Probabilistic Topic Model》和 沈志勇 的《主题模型简介》http://t.cn/RhabYRt 研究前沿推Twitter和Google的实战 http://t.cn/RhabYRc [ [微博](http://www.weibo.com/5220650532/Bnmjn3rmn) ] -> 2014-09-08 @西瓜大丸子汤: 我在寻找一个从文本学习正则表达式的工具,就是我给它一些文本的例子,它输出符合这些文本的一个正则表达式。有没有人知道呢? @好东西传送门 [ [微博](http://www.weibo.com/1932835417/Bm2Idzep8) ] +2014-09-16 Luke现在是Google Product Director 关心手机平台Ux设计地同学们可以下载资料了,PDF有78页 http://t.cn/zQan8tv //@DataMooc: //@developerWorks: 这个很不错,LukeW 大神的 Blog 是长期订阅的,推荐。PDF 下载地址: http://t.cn/RhXST8L [ [微博](http://www.weibo.com/5220650532/Bnh75kMAe) ] -2014-09-08 求助! [ [微博](http://www.weibo.com/5220650532/Bm2IlgmSx) ] +> 2014-09-16 @英特尔XDK: Luke Wroblewski 大神正式的把他从 2012-2014年写的关于 #Mobile Design# 的文章整理成了 iBook 和 PDF 发布了,大家可以从他的网站上得到下载链接 http://t.cn/RhXVIlD。您也可以从 @英特尔开发人员专区 来了解他的文章和视频 http://t.cn/RhXVIlk [ [微博](http://www.weibo.com/5075403624/Bng3ijjEq) ] -> 2014-09-08 @西瓜大丸子汤: 我在寻找一个从文本学习正则表达式的工具,就是我给它一些文本的例子,它输出符合这些文本的一个正则表达式。有没有人知道呢? @好东西传送门 [ [微博](http://www.weibo.com/1932835417/Bm2Idzep8) ] +2014-09-16 转发理由:深度学习在分词等领域的应用。论文PDF http://t.cn/RhX2U9t HTML版 http://t.cn/RhX2U95 [ [微博](http://www.weibo.com/5220650532/Bnf4S6g8I) ] -2014-09-08 黄昌宁 赵海 《中文分词十年回顾 》http://t.cn/Rh5Xe3S //@龙星镖局: 有个 中文分词十年 孙老师搜一下 [ [微博](http://www.weibo.com/5220650532/Bm1jmwaCk) ] +> 2014-09-15 @裴文哲: 终于找到了 http://t.cn/Rh6GFMi 我在ACL2014的oral presentation: Max Margin Tensor Neural Network for Chinese Word Segmentation 介绍了Deep Learning在序列标注任务中的新模型 slides做的略挫 希望大牛们轻喷 [ [微博](http://www.weibo.com/2110794314/Bn8SNfgHJ) ] -> 2014-09-08 @AixinSG: 有没有中文分词主流技术的介绍?综述最好,请教 @好东西传送门 [ [微博](http://www.weibo.com/1025887594/Bm0fl4F8b) ] +2014-09-16 转发理由:依存文法分析对于关系提取,问答系统和知识图谱建设都有突出价值,而且速度较快。 [ [微博](http://www.weibo.com/5220650532/BneFP04pJ) ] -2014-09-08 第一,问题说得很实在,使用hadoop运维成本不可低估、实现价值所依赖的技术链不象成功案例说得那么简单,总之就是你公司的IT部门很有可能搞不定,第二,这也算他推广新公司altiscale的价值 [ [微博](http://www.weibo.com/5220650532/Bm0S5sgSd) ] +> 2014-09-16 @李正华NLP: 我们这次在coling 2014上做的题为“Dependency Parsing: Past, Present, and Future”的tutorial slides已经整理好并放在我的主页上:http://t.cn/RhXvXVn,请大家多提宝贵意见,欢迎讨论交流。 [ [微博](http://www.weibo.com/1890969215/BnevukUcc) ] -> 2014-09-07 @网路冷眼: 【前雅虎CTO:Hadoop扩展过程中的7个危险信号】开源到生产环境使用从来都不是件容易的事情,而大型分布式计算框架Hadoop的实施无疑更加复杂。这里罗列了7种常见问题和解决方案,来自前雅虎首席技术官。http://t.cn/RhbhV47 [ [微博](http://www.weibo.com/1715118170/BlSEon2az) ] +2014-09-16 回复@海中的沙粒: 发这个好东西时有点纠结,很多人见过,也有很多人没见过。但是作为数据,它的价值的确高,第一省得去翻统计年鉴,第二 CSV很容易导入Excel,python,matlab, R, 省了不少数据清理时间 (转就是收藏,不论你是不是 @ 谁的印象笔记 ) //@海中的沙粒:好像转过,再转一次吧,嘿嘿,反正 [ [微博](http://www.weibo.com/5220650532/BneyPc0Qp) ] -2014-09-08 企业研发也要有市场、学术调研 //@新闻传播学研:M //@徐泓xh:[研究生的基本功]从写好文献综述起步. [ [微博](http://www.weibo.com/5220650532/Bm0Dh5yRF) ] +> 2014-09-16 @好东西传送门: 推荐 @新浪财经 "中国宏观经济数据" http://t.cn/Rh6us2R 涵盖: 国民经济, 价格指数, 居民收入, 固定资产投资, 景气指数, 对外经济贸易, 金融信息, 国家财政, 行业信息。有图表且数据可CSV导出。轻松解决问题189 我国CPI和货币供应量M2 M1 M0月度环比数据 http://t.cn/Rh6HucY [ [微博](http://www.weibo.com/5220650532/Bndsqh1hJ) ] -> 2014-08-30 @新闻传播学研: 【文献综述专题】①如何写综述文章 ?http://t.cn/RPOsjGH;②三大牛人看外国文献的方法 http://t.cn/Rhwhak1;③研究生如何检索和阅读外文文献?http://t.cn/RhwhakB;④写文献综述的二十八个要点http://t.cn/RPZ9nF1;⑤15个学术搜索引擎http://t.cn/Rhwhakr; [ [微博](http://www.weibo.com/3477370701/BkINW1awH) ] +2014-09-16 读综述帮助了解领域,写综述展示对领域的掌握程度。找文献时要聚焦在目标课题下,避免贪多求全或者枝蔓。 高质量的例子可以参考计算机领域的综述期刊(ACM Computing Survey) 附DBLP的每期链接 http://t.cn/Rh6rH83 //@陆浑戎: 转发微博 [ [微博](http://www.weibo.com/5220650532/BndSKAQj8) ] -2014-09-07 Tomas Mikolov http://t.cn/Rhq2QVU 很有意思。0.1c版更新等了近九个月,恐怕是跳槽耽误的。他今年5月从Google跳到Facebook, 工作之余还努力维护word2vec开源代码。爱看源代码的可以直接读diff http://t.cn/Rhq2QVZ [ [微博](http://www.weibo.com/5220650532/BlRmn38uo) ] +> 2014-09-15 @传媒老跟班: 【文献综述】文献综述的写法http://t.cn/Rh6onsx;本科毕业论文如何撰写文献综述?http://t.cn/zHKQB8G;如何写文献综述?http://t.cn/zHKQB8b;克雷斯威尔五步文献综述法http://t.cn/Rh6onsa;社会科学研究中的文献综述:原则、结构和问题http://t.cn/zHKQB8q,供大家参考。 [ [微博](http://www.weibo.com/5198011111/BnapLe2fO) ] -> 2014-09-07 @ustczen: 一早起来看到Mikov更新了word2vec的代码。改动有:添加了一个迭代步数的参数;CBOW的输入层向量累加改成了平均;修改了基线模型(貌似融合了两个模型?);另外还调了把参。在开放语料库上得到了80%的准确性!http://t.cn/RhqAf1E(墙)@好东西传送门 [ [微博](http://www.weibo.com/2872565912/BlRdhejkf) ] +2014-09-16 转发理由:包括n-gram,带Freebase标注的8亿文档, Wikilinks 4000万页面链接标注,人工标注的wikipedia公众人物到Freebase映射, 3900万Wikipedia Infobox编辑历史,词与实体的映射 [ [微博](http://www.weibo.com/5220650532/BndMfgjn7) ] -2014-09-06 问: @V井颠V 对国内中长文章(300~5000字)近似新闻门户网站频道粒度的自动分类,有好的模型方法吗? 答: 进展 http://t.cn/RhGTzfI 考虑 statistical topic model, 推荐UIUC翟成祥 ( http://weibo.com/5220650532/BhWo26Y93 ) , Stanford 和Umass 都有软件包 国内工作欢迎补充 [ [微博](http://www.weibo.com/5220650532/BlMR9kjJ7) ] +> 2014-09-15 @龙星镖局: Google近年来发布的有关文本挖掘、自然语言处理的数据集。http://t.cn/z8sMlZv [ [微博](http://www.weibo.com/1830516311/Bn7Q3zieO) ] -2014-09-06 感谢推荐,当然是好东西! //@尘绳聋-SYSU: 那个网站还有个R for big data: http://t.cn/zHXfTF1 之前看人推荐过biglm, bigrf等pkg//@尘绳聋-SYSU: [晕] 传说wiseRF比sklearn里的RF更scale更快,不知道是不是真的[威武] [ [微博](http://www.weibo.com/5220650532/BlMJyCoRe) ] +2014-09-16 问: @海中的沙粒 点餐,介绍Matlab的入门级编程语言的书,电子文献,或者网页类 答: 任选一个套餐用最快速度翻完掌握全局,具体细节使用时再读。资料汇总 http://t.cn/Rh63woo 有18页的短教程,MIT的5节课讲义,Rutgus经济系博士的讲义。此外大餐看官方手册"Matlab Primer" [ [微博](http://www.weibo.com/5220650532/BndHDcwWV) ] -> 2014-09-06 @好东西传送门: [推荐] 一张很好的脑图胜过千言万语,帮助你获得python的大数据处理工具全局观。http://t.cn/Rhb3P8I [ [微博](http://www.weibo.com/5220650532/BlGE7oFdz) ] +2014-09-16 推荐 @新浪财经 "中国宏观经济数据" http://t.cn/Rh6us2R 涵盖: 国民经济, 价格指数, 居民收入, 固定资产投资, 景气指数, 对外经济贸易, 金融信息, 国家财政, 行业信息。有图表且数据可CSV导出。轻松解决问题189 我国CPI和货币供应量M2 M1 M0月度环比数据 http://t.cn/Rh6HucY [ [微博](http://www.weibo.com/5220650532/Bndsqh1hJ) ] -2014-09-06 多年之前就受益于龙星计划的高质量资源,特别隆重推荐! [ [微博](http://www.weibo.com/5220650532/BlJzVhgIU) ] +2014-09-16 问: @国产_小翁:能不能帮我找到HMAX模型的matlab源码? 答: 资料汇总 http://t.cn/Rh69oet HMAX ("Hierarchical Model and X") 是Poggio于1999年提出的概念, 用于解决(Object recognition)的多层次神经网络。Poggio的MIT实验室CBCL在Google code有纯matlab源码 欢迎指正 [ [微博](http://www.weibo.com/5220650532/Bndd4cmz5) ] -> 2014-09-06 @龙星镖局: @龙星计划 计算机科学技术学术交流系列活动是一个杰出的海外华人教授回国系统讲授研究生课程的计划。已经连续举办了多年。这些的课程信息在http://t.cn/zO0r8Et。点击每个课程链接一般都能下载到对应的PPT。视频比较少,之前陆续发过一些,大家可以搜一下。@好东西传送门 [ [微博](http://www.weibo.com/1830516311/BlJcCiUIX) ] +2014-09-16 要不搜索一下,用这个关键词 win7 library-ms fix 找到相关的问答 http://t.cn/Rh6juZn http://t.cn/Rh6juZm 更多相关结果看这里 http://t.cn/Rh6juZE 此外可以直接问微软 @微软中国 [ [微博](http://www.weibo.com/5220650532/BnbJ2h4gS) ] -2014-09-06 传送潜力股。这些好账号本门大多已经关注了 [耶] [ [微博](http://www.weibo.com/5220650532/BlIlA4xHp) ] +> 2014-09-15 @举头三尺有大神: 求助各位大神@好东西传送门 @破破的桥 @林楚方 。win7库出现这种情况。不能打开,不能新建,还原默认还是无法解决。 [ [微博](http://www.weibo.com/2809984842/Bn8VQnsUW) ] -> 2014-09-06 @龙星镖局: 人肉推荐几个长尾账号,搞技术学术的大家千万不要错过@AixinSG @陈天奇怪 @Copper_PKU @eyounx_俞扬 @JerryLead @刘成林_PR @计算天空 @LeftNotEasy @诸神善待民科组 @52cs 大v们就不推荐了 我只推荐潜力股[酷] [ [微博](http://www.weibo.com/1830516311/BlIc63bS1) ] +2014-09-16 如果你注了NIPS ,这个workshop就不另外收费了,看注册页 http://t.cn/Rh696S3 //@duinduin:要另外注册么? //@好东西传送门:Automated Knowledge Base Construction (AKBC) 2013 http://t.cn/Rhi9Tr5 2014年的和NIPS一起开,期待! //@昊奋: AKBC算是一个引领知识库构建的专题workshop。推荐的这 [ [微博](http://www.weibo.com/5220650532/BnazMCYTf) ] -2014-09-06 非常感谢,这本书是亚马逊的Computer Vision类畅销书第一名 卡片盒子添加了新链接 //@维尔茨:对于计算机视觉/图像强烈推荐Szeliski的Computer Vision: Algorithms and Applications。传送门:http://t.cn/RhbF7jr好东西传送门: 不好意思,你是找第二版吗? 可以问问 @没有我找不到的电子书 [ [微博](http://www.weibo.com/5220650532/BlIbspyg8) ] +> 2014-09-15 @小飞鱼_露: @好东西传送门 想问下身边有没有了解知识图谱 (knowledge graph) 的大神,能否推荐一些文章和教程? [ [微博](http://www.weibo.com/1761583707/Bn4ljd4QQ) ] -> 2014-09-06 @好东西传送门: 问:@龙星镖局 如果要从零学习图像或语音分析,要从那几本书开始? 答: 问答进展 http://t.cn/Rhbeix0 网络问答结果和相关课程大多推荐这几本经典老教科书:Digital Image Processing (3rd Edition) (2007), Speech and Language Processing, 2nd Edition (2008), 卡片盒子: http://t.cn/Rhbeixp [ [微博](http://www.weibo.com/5220650532/BlHHF1jr2) ] +2014-09-15 //@算文解字:5. 这哥们很能掰,而很多章节分别阐述了他对人工智能、医疗科技、清洁能源、90年代互联网历史、融资甚至帝王之术的独特看法。很多地方只是略略扫了一眼,总感觉是可读性很强。原始Note: http://t.cn/zYvtV0F 最近已经整理成书“Zero to One” @好东西传送门 前两天推荐过 [ [微博](http://www.weibo.com/5220650532/BnahOEAAQ) ] -2014-09-06 不好意思,你是找第二版吗? 可以问问 @没有我找不到的电子书 [ [微博](http://www.weibo.com/5220650532/BlHYbucvp) ] +> 2014-09-15 @算文解字: 1 昨天读了Peter Theil CS183的笔记。他认为从0到1的过程是一个发现只有少数人才掌握的真相,即#秘密#的过程。简单的早被发现,变为常识应用在从1到n的复制阶段,而无解的秘密则毫无价值,因此需要找中等难度但可解的秘密。他提到的秘密有垄断、幂律、渠道的重要性以及元秘密:世界上仍有很多秘密。 [ [微博](http://www.weibo.com/1884715211/Bn9gN4EYh) ] -> 2014-09-06 @好东西传送门: 问:@龙星镖局 如果要从零学习图像或语音分析,要从那几本书开始? 答: 问答进展 http://t.cn/Rhbeix0 网络问答结果和相关课程大多推荐这几本经典老教科书:Digital Image Processing (3rd Edition) (2007), Speech and Language Processing, 2nd Edition (2008), 卡片盒子: http://t.cn/Rhbeixp [ [微博](http://www.weibo.com/5220650532/BlHHF1jr2) ] +2014-09-15 Automated Knowledge Base Construction (AKBC) 2013 http://t.cn/Rhi9Tr5 2014年的和NIPS一起开,期待!//@昊奋: AKBC算是一个引领知识库构建的专题workshop。推荐的这个paper算是一个比较有指导性意见的文章,推荐! [ [微博](http://www.weibo.com/5220650532/Bn4YS4wfC) ] -2014-09-06 回复@ustczen: 感谢传送好东西。这是新加坡国立 Min-Yen Kan (靳民彦) 教授 研究组的工作 http://t.cn/SwJHvL @52nlp 2011年转过他们短信捐赠请求 http://t.cn/RhbDbIV //@ustczen:回复@好东西传送门:所以我老年痴呆又犯了么。。附链接:http://t.cn/hrXXWz [ [微博](http://www.weibo.com/5220650532/BlHNqyCgt) ] +> 2014-09-15 @小飞鱼_露: @好东西传送门 想问下身边有没有了解知识图谱 (knowledge graph) 的大神,能否推荐一些文章和教程? [ [微博](http://www.weibo.com/1761583707/Bn4ljd4QQ) ] -> 2014-09-05 @ustczen: 分享一个短信语料库, 42140 条英文短信和31205 条中文短信的语料,今年9月份还在更新,可以用来做QA系统。另外想知道微软小冰号称“集合了中国近7亿网民多年积累的全部公开聊天纪录1500万条语料”在哪能找到呢? @好东西传送门 @52nlp [ [微博](http://www.weibo.com/2872565912/BlzpfDZu6) ] +2014-09-15 这个和昨天推荐的entity linking的两个教程结合看最佳 http://t.cn/RhiS9gW 。RPI Heng Ji出品 //@Copper_PKU: 我推荐一个reading list: http://t.cn/8FqFegC 不知道有人推荐过没有 这个主页很不错//@好东西传送门: 在我们的github主页上搜“知识图谱” http://t.cn/RhiX0pi [ [微博](http://www.weibo.com/5220650532/Bn4Iwe0wd) ] -2014-09-06 问:@龙星镖局 如果要从零学习图像或语音分析,要从那几本书开始? 答: 问答进展 http://t.cn/Rhbeix0 网络问答结果和相关课程大多推荐这几本经典老教科书:Digital Image Processing (3rd Edition) (2007), Speech and Language Processing, 2nd Edition (2008), 卡片盒子: http://t.cn/Rhbeixp [ [微博](http://www.weibo.com/5220650532/BlHHF1jr2) ] +> 2014-09-15 @小飞鱼_露: @好东西传送门 想问下身边有没有了解知识图谱 (knowledge graph) 的大神,能否推荐一些文章和教程? [ [微博](http://www.weibo.com/1761583707/Bn4ljd4QQ) ] -2014-09-06 [开放数据]印尼政府开放数据 data.ukp.go.id http://t.cn/Rhbrjfv 于2014-09-05上线,有700 多数据集。要使用数据恐怕先要能读懂印尼语(拼写属于拉丁语系,最早源于荷兰语)。此外,2014统计数据表明印尼有2.5亿人,是排名世界人口第四大国。 [ [微博](http://www.weibo.com/5220650532/BlHkREGAC) ] +2014-09-15 在我们的github主页上搜“知识图谱” http://t.cn/RhiX0pi 有不少以前的问题了。专家推荐 @昊奋 @孙明明_SmarterChina @Gary南京 @李志飞AI 还有去年第一届全国中文知识图谱研讨会的嘉宾 http://t.cn/8k2VD2H 该网页还有很多PPT [ [微博](http://www.weibo.com/5220650532/Bn4y7coge) ] -2014-09-06 传送理由: github上的好东西,快800星了。 作者的博客也很有深度,而且竟然用issue tracker写博客,赞! 这是个例子 http://t.cn/8s35KgP [ [微博](http://www.weibo.com/5220650532/BlH9sz9H9) ] +> 2014-09-15 @小飞鱼_露: @好东西传送门 想问下身边有没有了解知识图谱 (knowledge graph) 的大神,能否推荐一些文章和教程? [ [微博](http://www.weibo.com/1761583707/Bn4ljd4QQ) ] -> 2014-09-01 @前端农民工: 做了个监控页面变化的开源项目page-monitor( http://t.cn/RhAQ58Y ),用phantomjs运行页面,保存所有元素的标签、属性、计算样式、文本内容,跟历史进行对比,从而发现产品的运营内容变化、功能改版等。由于是基于dom树对比,所以可以灵活的配置规则。貌似很多人想过这类产品,就当多一个开源选择吧。 [ [微博](http://www.weibo.com/1734864282/BkXFmn29q) ] +2014-09-15 问: @秦彦霞_HIT 求教,哪里有大规模Twitter数据(只包含tweet即可,最好billion级别)可在文章中引用或致谢。 答:资料汇总 http://t.cn/RhiIgsl Archiveteam 2012至2014每月都有几十G的tweet JSON数据。此外 数据堂、snap和nist也有数据 @kite1988 @齐浩亮 提供了资料, 参考twitter专家 @AixinSG [ [微博](http://www.weibo.com/5220650532/Bn3USp5oO) ] -2014-09-06 问:@三鹿无毒奶粉 请问贵博关于航班准时预测和机票价格预测有那些相关的论文和模型 答:问答进展 http://t.cn/RhbBwy9 不少人用回归模型 航班准时预测(flight delay):有几篇MIT的文章;机票价格预测(ticket price): 有不少专利(发明人包括USC Craig Knoblock 教授) 卡片盒子 http://t.cn/RhbBwyK [ [微博](http://www.weibo.com/5220650532/BlH4Tc57x) ] +2014-09-14 谢谢补充,ACL2014 A tutorial on Wikification and Entity Linking http://t.cn/RhJHk2Q 是个203页的PPT //@唐都钰HIT-SCIR: 还有今年ACL. Dan Roth. Heng ji 的tutorial [ [微博](http://www.weibo.com/5220650532/BmYLL8mDL) ] -2014-09-06 传送理由:右边的链接真是好东西 -- 不止配色工具,还有大量字体,图片、纹理,壁纸等众多素材资源网站一网打尽。 //@设定控: 配色工具网站汇总 http://t.cn/RPbMz7M [ [微博](http://www.weibo.com/5220650532/BlGYiyx88) ] +> 2014-09-14 @好东西传送门: @昊奋 推荐:Edgar Meij (Yahoo Labs)的Entity Linking and Retrieval教程。该教程最早在WWW 2013做过,深受好评,后来在SIGIR 2013, WSDM 2014不断更新。这组是今年6月最新的在Montreal做的版本,分为实体链接,实体检索和语义搜索三部分 http://t.cn/RhJHfzc [ [微博](http://www.weibo.com/5220650532/BmYGPj6rK) ] -> 2014-09-05 @传媒老跟班: 【7款靠谱工具帮你选取完美配色】Kulerhttp://t.cn/zlAJ019;PHOTOCOPAhttp://t.cn/zjLHT70;Pictaculoushttp://t.cn/5v56l;Color Palette FXhttp://t.cn/RPc5Y0S;Image Palettehttp://t.cn/RhbpgCB;Color Palette Generatorhttp://t.cn/brxM9;ColorExplorehttp://t.cn/RhbpgCr [ [微博](http://www.weibo.com/5198011111/BlDVpygav) ] +2014-09-14 @昊奋 推荐:Edgar Meij (Yahoo Labs)的Entity Linking and Retrieval教程。该教程最早在WWW 2013做过,深受好评,后来在SIGIR 2013, WSDM 2014不断更新。这组是今年6月最新的在Montreal做的版本,分为实体链接,实体检索和语义搜索三部分 http://t.cn/RhJHfzc [ [微博](http://www.weibo.com/5220650532/BmYGPj6rK) ] -2014-09-06 问: @ShawnAtLoss 请问哪边可以找到比较全面的关于大数据的survey 答: 问答进展: http://t.cn/Rhb1b0Z 推荐两类阅读:1 大数据领域地图,覆盖相关 技术,应用,公司 等 2. github好资源合集 http://t.cn/Rhb1b0w 1K+星,上百链接. 卡片盒子(现有6个资源): http://t.cn/Rhb1b0A 欢迎补充 [ [微博](http://www.weibo.com/5220650532/BlGU6teFP) ] +2014-09-14 问: @Joyce-Yuan- 对于拼写错误(real-word error) 求中文类似资料? 答: 详见 http://t.cn/RhJSrlc 拼写错误分non-word和real-word, 中英文难点不同。SIGHAN7的Bake-off 2013: Chinese Spelling Check 有很多论文(十月CLP14在武汉开), 英文spelling correction看Peter Novig 07年文章(21行python实现) [ [微博](http://www.weibo.com/5220650532/BmXdqD5Eh) ] -2014-09-06 [推荐] 一张很好的脑图胜过千言万语,帮助你获得python的大数据处理工具全局观。http://t.cn/Rhb3P8I [ [微博](http://www.weibo.com/5220650532/BlGE7oFdz) ] +2014-09-13 问: @V井颠V 对国内中长文章(300~5000字)近似新闻门户网站频道粒度的自动分类,有好的模型方法? 答: 资料整理 http://t.cn/Rhx4dAf 考虑statistical topic model, 推荐UIUC翟成祥短教程 http://weibo.com/5220650532/BhWo26Y93 ,软件包Gensim,Mallet,Stanford; kdd14有twitter分类好文 欢迎补充 [ [微博](http://www.weibo.com/5220650532/BmNjFtkeg) ] -2014-09-05 转发理由:非常酷的星系生死大片!本超星系团呈羽毛形状,因为有个巨大的吸引子(就是羽毛的中心),不断吞噬星系。这些“羽毛”的绒线就是星系赴死即将遵循的轨迹。在图中银河系只是微不足道的一个小点 [ [微博](http://www.weibo.com/5220650532/BlzOYbTRu) ] +2014-09-13 问: @钱知易 帮我找找Berkeley detector(边缘检测)的代码(C++,Matlab) 答:资料整理 http://t.cn/RhMkEbD 是Michael Maire的工作 “Contour Detection and Image Segmentation"(CVPR2011) , 找到他们组的原始代码(gPb),还有Hyunho Lee的改进算法(gPb-junctions) 卡片盒子 http://t.cn/RhMkEbe [ [微博](http://www.weibo.com/5220650532/BmLNZ10CR) ] -> 2014-09-04 @斯隆数字化巡天: 最新研究表明,我们银河系所处的本超星系团比之前所认为的要大百倍!由夏威夷大学的Brent Tully所带领的团队使用最新的邻近星系位置和视向速度数据,采用创新的分析方法重新绘制了本超星系团的地图,他们这整个结构称为Laniakea。(Nature新闻:http://t.cn/RhU5OqB)http://t.cn/RhU5otQ [ [微博](http://www.weibo.com/3751111037/BloG76thp) ] +2014-09-13 问: 求助关于统计学方面的入门知识,主要是写企业上报数据,我们收集整理完数据之后以样本信息推断总体情况,并分析和推测总体的特征和规律 答: 相关资料 http://t.cn/RhMDApx * http://t.cn/hrmAiI 中国统计网, 从excel开始 * http://t.cn/hbvjNH 统计学知识社区, 侧重R @统计之都 @陈茁博士_Adam [ [微博](http://www.weibo.com/5220650532/BmLDph6KB) ] -2014-09-05 //@ShangguanRPI: 在前东家也做过一样的数据分析,结论也几乎一致。用的数据集来自usps登记的过去10年所有地址更换记录,不确定census的数据是否也来自这个源。 [ [微博](http://www.weibo.com/5220650532/BlzHefKoa) ] +2014-09-13 回复@波多野丽猪: 多谢补充 http://t.cn/RhMe2Pp Fuseki: serving RDF data over HTTP //@波多野丽猪:一般python的话用sparql wrapper是ivan herman他们弄的,比较靠谱;其实假如有了一个endpoint,用fuseki里面sparql on http调用也可以,当然需要关联上fuseki的jar, [ [微博](http://www.weibo.com/5220650532/BmLwarUeq) ] -> 2014-09-05 @好东西传送门: 美国著名房地产公司trulia近日利用政府开放数据 http://t.cn/Rh4Htwl 分析了近年美国人口迁移的倾向:就近,房价低,人口密度小,低失业率 http://t.cn/Rh4HtwO [ [微博](http://www.weibo.com/5220650532/BlyKPBSIT) ] +> 2014-09-13 @好东西传送门: 问: @扛着甘蔗 有没有python访问使用dbpedia,freebase,等这些知识库查询的demo? 答: stackoverflow 有相关例子,找了一些相关资源 http://t.cn/RhMdlpG 有一个用freebase实现entity linking的例子 Quepy有例子展示如何将自然语言问题转化为数据库查询 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BmLjK6gVv) ] -2014-09-05 转发理由:世界基本经济数据的可视化,地图均给出了数据出处 [ [微博](http://www.weibo.com/5220650532/BlzmDai0F) ] +2014-09-13 常见的语音算法phonetic algorithm就是设定一组规则,将文字映射到某种音标符号系统。例如最原始的Soundex算法 扔掉所有元音,映射 b, f, p, v → 1 然后通过比较映射后符号串的差异来计算发音相似度。原帖中的脑图列举了常见英语(及德语)映射算法以及相关开源代码(python, java, go, ruby, perl) [ [微博](http://www.weibo.com/5220650532/BmLqi92Vx) ] -> 2014-09-04 @政见CNPolitics: #政见资源推荐#【38张图片描述世界经济】38张图片给你呈大家关心的几十个世界经济主题,其中一些关注全球而一些关注区域研究。告诉你世界各地如是如何紧密联系,密切互动而又差异巨大。 http://t.cn/RPeB6W3 [ [微博](http://www.weibo.com/2499096521/Blq1jwr4Z) ] +> 2014-09-11 @好东西传送门: 问:@付超群 不知道有没有中文发音相似度计算算法或者类库?比如北京 百斤 鼻颈 背景 如果可以顺道比较英文更好,比如peking,beking 答: 关于算法和开源代码整理了一个 #脑图#,问答进展和相关资料在 http://t.cn/Rhf5xio 还收录了一些相关论文(含汉语) 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BmsMAeh0K) ] -2014-09-05 美国著名房地产公司trulia近日利用政府开放数据 http://t.cn/Rh4Htwl 分析了近年美国人口迁移的倾向:就近,房价低,人口密度小,低失业率 http://t.cn/Rh4HtwO [ [微博](http://www.weibo.com/5220650532/BlyKPBSIT) ] +2014-09-13 可以结合以前推荐的图数据库专题看 http://t.cn/RhMgVCF [ [微博](http://www.weibo.com/5220650532/BmLpwdOXs) ] -2014-09-05 http://t.cn/Rh4W25z 今年欧洲python大会的一个35页在线讲义幻灯片,用实例介绍如何用python实现概率编程,尤其是pymc3 阅读时间大约半小时 [ [微博](http://www.weibo.com/5220650532/Blyi3aVGF) ] +> 2014-09-13 @西瓜大丸子汤: 赞OrientDB,超级方便灵活,JSON进,SQL出,随时可以改数据结构,即使不做图计算也有用。MySQL, ElasticSearch, MongoDB, Neo4j, Redis一圈下来,还是OrientDB最符合我的需要,表达力最好,学习成本最低。速度OK不算最好,不过机器速度根本不是系统瓶颈,而且有很多优化的办法。 http://t.cn/RhMgLvG [ [微博](http://www.weibo.com/1932835417/BmLo6bLIV) ] -2014-09-05 [问题求传送] 问:@开机就好ing 有没有比较好的Gbrank的相关的开源实现 答:就是 Zhaohui Zheng SIGIR '07 文章“A regression framework for learning ranking ...” 里提到的GBRank (guardian boosted) 问答进展看 http://t.cn/Rh4C8hd 初步好像有一个C++ 开源代码 http://t.cn/Rh4C8hg 欢迎补充 [ [微博](http://www.weibo.com/5220650532/BlxKpwU1D) ] +2014-09-13 问: @扛着甘蔗 有没有python访问使用dbpedia,freebase,等这些知识库查询的demo? 答: stackoverflow 有相关例子,找了一些相关资源 http://t.cn/RhMdlpG 有一个用freebase实现entity linking的例子 Quepy有例子展示如何将自然语言问题转化为数据库查询 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BmLjK6gVv) ] -2014-09-04 [资料整理] PDF版 http://t.cn/RhUOt6p 《智能问答系统:心得点评与文献列表》覆盖几个知名的问答系统:Halo (Aura); Siri;IBM Watson (DeepQA); True Knowledge;Facebook Graph Search 重点评论了知识图谱和语义web技术在自动智能问答系统中的应用与前景 [ [微博](http://www.weibo.com/5220650532/BlqyBe19Z) ] +2014-09-13 推荐一个很惊艳的免费图库列表(来自wikimedia):很多public domain图片库完全免费没有版权问题,还有不少基于知识共享许可(creative commons)的免费图片库 http://t.cn/RhMu3GQ 内容包罗万象:生物,科学,历史,天文,地图,各国风情,艺术,体育... 有的图库有上千万张图片。附图为长微博级目录 [ [微博](http://www.weibo.com/5220650532/BmKnCgD1s) ] -2014-09-04 旧闻回顾: Siri开发者成立人工智能公司Viv Labs (注意 网址是 viv.ai ), 花两年时间开发了能自动学习的智能个人助理系统Viv:将自然语言表达的复杂问题与搜索结合 相关Wired报导( http://t.cn/RhUtTwq 8月12日) 有微博原发评论 @网路冷眼 @新浪科技 (看 @张栋_机器学习 评论) http://t.cn/RhUtTw5 [ [微博](http://www.weibo.com/5220650532/BloN1gTeu) ] +2014-09-13 传送理由:人工智能资源库 3000+资源,12个分类,根据喜好,点击率排序 //@王海勋haixun: 转发微博 [ [微博](http://www.weibo.com/5220650532/BmJ7XfW8r) ] -2014-09-04 问: @simba0626 请问现今有哪些成功的智能问答系统? 答: 问答进展 http://t.cn/RhUq00L 成功不好定义,基本用了知识图谱, 例如 IBM DeepQA (watson), wolfram alpha, Apple Siri, Google now。当然学术界也有一群人在做开放领域的图灵测试,如Eugen http://t.cn/RhUq00y 相关文献待会整理个资源合集 [ [微博](http://www.weibo.com/5220650532/BloyuzoCh) ] - -2014-09-03 回复@统计之都: 非常感谢 这可是今年7月新鲜出炉的文章,Gilles Louppe http://t.cn/RhyvpGz //@统计之都:Gilles Louppe的博士论文《随机森林:从理论到实践》,PDF下载地址http://t.cn/RP8JQyC。 [ [微博](http://www.weibo.com/5220650532/BlfvG3fm9) ] - -> 2014-09-03 @好东西传送门: 问: @董伟_dzw259 哪里能够找到比较详细介绍随机森林的paper吗? 答: http://t.cn/RhLFi4R 随机森林(random forests)原作者之一 Leo Breiman 在“机器学习”2001年期刊有长文。推荐哥伦比亚大学教授Lauren Hannah的讲义。中文 @LeftNotEasy 2011年博文. 资料卡片: http://t.cn/RhLFzN1 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/Blfhkk0qI) ] - -2014-09-03 问: @董伟_dzw259 哪里能够找到比较详细介绍随机森林的paper吗? 答: http://t.cn/RhLFi4R 随机森林(random forests)原作者之一 Leo Breiman 在“机器学习”2001年期刊有长文。推荐哥伦比亚大学教授Lauren Hannah的讲义。中文 @LeftNotEasy 2011年博文. 资料卡片: http://t.cn/RhLFzN1 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/Blfhkk0qI) ] - -2014-09-03 问:@子_相 求推荐一个PHP上的内存cache 的mod 答: http://t.cn/RhLeSxQ APC曾是首选(towser451@github 也推荐), 但php5.5用opcache作bytecode cache后, APC user data cache就被删改成APCu。@Laruence (APC, opcache的lead)2013博文指出APC效率问题,并因此开发YAC。卡片盒子: http://t.cn/RhLeSx8 [ [微博](http://www.weibo.com/5220650532/BleQ8wKSv) ] - -2014-09-03 在Neural Networks and Deep Learning第四章有对这个定理的可视化阐述,简洁易懂 http://t.cn/RhL8X74 该书我们以前在深度学习系列里也推荐过 http://t.cn/RhLmjtj [ [微博](http://www.weibo.com/5220650532/BlcZI7vdh) ] - -> 2014-07-29 @好东西传送门: @LDL_BIT 问:有哪些文章讲了多层感知器MLP的拟合能力问题?尤其是拟合多项式的能力?答:当使用非线性的激活函数,MLP是图灵完备的,可以模拟任何函数,当然包括多项式函数。这称为普适逼近原理(Universal approximation theorem)。深度学习则提高了逼近的效率。经典论文见 http://t.cn/RPVAYZ4 [ [微博](http://www.weibo.com/5220650532/BfO8hcCYx) ] - -2014-09-01 转发理由:Larochelle是加拿大Université de Sherbrooke的教授。他是蒙特利尔大学Yoshua Bengio的博士,多伦多大学Geoffrey Hinton的博士后,师承深度学习的两大重镇 [ [微博](http://www.weibo.com/5220650532/BkVuU0EdN) ] - -> 2014-08-31 @郑胤THU: 我的导师Hugo Larochelle教授的神经网络教程的视频,已经授权我放到优酷上。欢迎大家分享和学习。这个教程涉及到神经网络的基础知识,以及深度学习目前最新的研究进展,是非常好的资料。我也会尽量9月份开始在清华组织神经网络、深度学习相关的学习讨论会,欢迎大家观看和参加!http://t.cn/RhAzUCm [ [微博](http://www.weibo.com/2034296393/BkS0MyvCG) ] - -2014-09-01 传送原因:用SQL访问Elasticsearch大大方便了查询构造。以前有类似项目ELSeQL, 但已很久没有更新了 @温少 @elasticsearch @Medcl [ [微博](http://www.weibo.com/5220650532/BkU1JcW8K) ] - -> 2014-09-01 @ansj: 奋斗了整整一周多的时间...elasticsearch-sql 终于有了初版本.十分高兴.大家尤其是运维或者非搜索的工程师.可以用sql语句来搜或索聚合索引内容了. 有兴趣的朋友来试试吧http://t.cn/RhAtrwJ [ [微博](http://www.weibo.com/1434895303/BkTOzB35q) ] - -2014-08-31 传送理由:开源的推荐系统,从各种语言调用都方便 [ [微博](http://www.weibo.com/5220650532/BkOEij8Pb) ] - -> 2014-08-31 @KissDev: Predict.io,目前最实用的开放源码#推荐系统#,重要的是成熟度很高并且#大数据#ready,原始数据存储支持Hadoop/MongoDB,支持多种单机和分布式推荐算法:协同过滤,KNN,SVD++等,支持包括Android/JS/PHP/Python/Ruby多种客户端SDK,支持无服务器的云部署方式,http://t.cn/zRIPHGR [ [微博](http://www.weibo.com/1699016425/BkOd1r5qb) ] - -2014-08-31 @Copper_PKU 的讲义前段时间推荐过,这个也很赞。 [ [微博](http://www.weibo.com/5220650532/BkOCelqIv) ] - -> 2014-08-31 @龙星镖局: 强烈推荐:《主题模型及其扩展》 娓娓道来 可读性极强 [good] 连接:http://t.cn/RPdGsb9 来源:@52cs 作者:@Copper_PKU 请@好东西传送门 @网路冷眼 等童鞋审阅扩散 [呵呵] [ [微博](http://www.weibo.com/1830516311/BkNDFcvBQ) ] - -2014-08-31 传送问题,问答进展 http://t.cn/Rhw4h2m 看过YAC吗? http://t.cn/zYrnBVx [ [微博](http://www.weibo.com/5220650532/BkK3q8zJ6) ] - -> 2014-08-31 @子_相: PHP问题求助:求推荐一个PHP上的内存cache 的mod . 要求是:1 轻量级,2 倾向于embedded本机运行而不是通过网络通信,3 与新版PHP 5.6兼容. 4 这个cache是指存放php 变量数据的cache,而不是bytecode本身 @好东西传送门 @memect [ [微博](http://www.weibo.com/1402229482/BkJCg7ppe) ] - -2014-08-30 增补两个相关组织: @九章算法 的专业培训可(程序员的新东方)http://t.cn/RhwAzyN 。 @灵魂机器 组织的程序员北美求职 (肉身翻墙)http://t.cn/RhwAzyp len(卡片盒子)=8 [ [微博](http://www.weibo.com/5220650532/BkJlm0cyz) ] - -> 2014-08-30 @好东西传送门: 半夜推荐 Leetcode 资源整理合集。 它目前有150道题,是程序员肉身翻墙的好东西,也适合快速提高自我修养。精选资料在我的卡片盒子里 http://t.cn/RhwwCGL 现在有6项: @灵魂机器 (Frank Dai) 的刷题宝典,若干人的涮题体验。这是一个会成长的卡片盒子,欢迎添加好东西。 [ [微博](http://www.weibo.com/5220650532/BkJheojHW) ] - -2014-08-30 半夜推荐 Leetcode 资源整理合集。 它目前有150道题,是程序员肉身翻墙的好东西,也适合快速提高自我修养。精选资料在我的卡片盒子里 http://t.cn/RhwwCGL 现在有6项: @灵魂机器 (Frank Dai) 的刷题宝典,若干人的涮题体验。这是一个会成长的卡片盒子,欢迎添加好东西。 [ [微博](http://www.weibo.com/5220650532/BkJheojHW) ] - -2014-08-30 转发理由:前段时间 @蒋宁平 正在找情感分析资料 //@皮皮虾大屁土鳖小主: 大家不要怕 我们的MPQA已经在重新标了 标完之后欢迎大家重新发一轮paper 记得引用新的corpus和paper哦~ [ [微博](http://www.weibo.com/5220650532/BkFES82Eu) ] - -> 2014-08-30 @董力at北航: EMNLP-14上又一篇用Convolutional Neural Network做情感分类的,在7个公开数据集中的4个取得了state-of-the-art的结果,照这个搞法真是越来越难做啊。。。 paper链接:http://t.cn/RhZNHAn [ [微博](http://www.weibo.com/1895401411/BkFkCgD88) ] - -2014-08-30 谢谢表扬[害羞]。门就是为大家传送好东西,能直销,能问答,也支持多级传送。 [ [微博](http://www.weibo.com/5220650532/BkFBtpBKv) ] - -> 2014-08-30 @龙星粉: 注意到个很不好的现象,有些大V,在微博上看到别人分享推荐的好资料之后,会把推荐内容自己编辑一下,然后以自己的名义再发出来。强烈谴责这种只尊重原创者,而不尊重发现者的行为。尊重发现者方面,@好东西传送门 @developerWorks 做得不错[good] ,向他们学习! [ [微博](http://www.weibo.com/1830516311/BkFy0AIKm) ] - -2014-08-30 //@lidingpku: 2010年在上海开ISWC时做了一张幻灯片( http://t.cn/RhZpjfr 第26张),把美国政府数据与中国国家统计局的数据关联起来比较两国GDP历年来的差异 (当然这只能算民科,谁叫咱没金融背景呢) //@潘越_: //@好东西传送门:回复@icanswimwell: 美国的数据前几天才发过 http://t.cn/RhZJNoM [ [微博](http://www.weibo.com/5220650532/BkFz32kjm) ] - -> 2014-08-30 @好东西传送门: [数据资源] 日本政治、经济、地理数据大全(免费,可下载)http://t.cn/RhZb561 日本开放政府数据网站测试版(www.data.gov.jp)于2014年发布,现有来自21个政府部门的10,411个数据集。 其他数据源:历年人口、工业、经济普查数据; 政府预算数据; 地理信息数据;1947-2003议会选举数据 等 [ [微博](http://www.weibo.com/5220650532/BkCwfoJ0Y) ] - -2014-08-30 SAS base 今年KDnudgget数据分析常用工具民意调查( http://t.cn/RhZ0HjY )排名第9,而排名靠前的都有免费版。现在SAS推这个免费版,很好奇它明年的排名 //@刘政-SAS: 回复@侯广_充电ing:大学免费版跟我要,有base, graph, miner, or, 计量经济学和时间序列。//@侯广_充电ing:全国数学建模马上就要开始 [ [微博](http://www.weibo.com/5220650532/BkFytfb9v) ] - -> 2014-08-29 @刘政-SAS: 自打SAS提供免费软件以来,3个月全球下载量已经超过67000多。你下载了吗?http://t.cn/Rvq6YxN 欧美明显有非常成熟的数据分析市场和大量的使用人群。 [ [微博](http://www.weibo.com/1140645172/BkvcqkvbI) ] - -2014-08-30 国家统计局 每年都有统计年鉴 这个是英文版 http://t.cn/hrL49A @郑老石 还贴过一个研讨会的通知 http://t.cn/RhZNQkD 台北也有 http://t.cn/RhZNQkF 香港也有 http://t.cn/RhZNQkk //@G小调的Qing歌:[笑cry][笑cry][笑cry]有中国的吗 //@好东西传送门:回复@icanswimwell [ [微博](http://www.weibo.com/5220650532/BkFkQrFI2) ] - -> 2014-08-30 @好东西传送门: [数据资源] 日本政治、经济、地理数据大全(免费,可下载)http://t.cn/RhZb561 日本开放政府数据网站测试版(www.data.gov.jp)于2014年发布,现有来自21个政府部门的10,411个数据集。 其他数据源:历年人口、工业、经济普查数据; 政府预算数据; 地理信息数据;1947-2003议会选举数据 等 [ [微博](http://www.weibo.com/5220650532/BkCwfoJ0Y) ] - -2014-08-30 问: @小磊_DM_中二青年 在学搜索,请问有Nutch的相关资料吗? 答: nutch主要做网络爬虫,可以和solr结合做搜索引擎。问答进展: http://t.cn/RhZN72R (卡片盒子 http://t.cn/RhZN72E 6个资源): nutch 的中英文安装短教程(此外看Nutch wiki); nutch工作流程; 最近很火的CommonCrawl也转用nutch [ [微博](http://www.weibo.com/5220650532/BkFg8v2lw) ] - -2014-08-30 //@velvel2:多任务和域自适应是转移学习的两种配置(还有无监督). 记源领域和源任务是D1和T1, 目标领域和目标任务是D2和T2 (D={特征空间,边际概率分布}, T={标签空间,预测函数}), 其中D1 != D2或T1 != T2; 则利用D1和T1信息提升目标任务性能叫迁移, 同时提升源任务性能叫多任务, 如果T1=T2叫领域自适应 [ [微博](http://www.weibo.com/5220650532/BkERugEzy) ] - -> 2014-08-19 @好东西传送门: 问: @唐小sin 有没有multi-task learning的相关学习资料呢? 答: 维基百科上有不少经典文献。AAAI和ICML都有论文(北大/清华)。找到今年Honglak Lee (U Michigan 教授)的短教程。Lan Žagar 博士论文(2014) Ranking by Multitask Learning. 问答追踪: http://t.cn/RP8a3Ax 求补充 [ [微博](http://www.weibo.com/5220650532/BiZl47k80) ] - -2014-08-30 回复@icanswimwell: 美国的数据前几天才发过 http://t.cn/RhZJNoM (卡片盒子现有19项 http://t.cn/RhZJNox ) 美国政府在data.gov开放了十多万个免费、免版权的公开数据集 //@icanswimwell:感谢分享~~要有美国的就更好啦[挖鼻屎][挖鼻屎] [ [微博](http://www.weibo.com/5220650532/BkEg1kOpm) ] - -> 2014-08-30 @好东西传送门: [数据资源] 日本政治、经济、地理数据大全(免费,可下载)http://t.cn/RhZb561 日本开放政府数据网站测试版(www.data.gov.jp)于2014年发布,现有来自21个政府部门的10,411个数据集。 其他数据源:历年人口、工业、经济普查数据; 政府预算数据; 地理信息数据;1947-2003议会选举数据 等 [ [微博](http://www.weibo.com/5220650532/BkCwfoJ0Y) ] - -2014-08-30 回复@山雨清新: 原帖就是一个卡片盒子,链接可以在那里找到,现在已经16项了。同附链接 (200k book,1M rating)书籍 http://t.cn/RhZMPWc (10k movie, 10M rating)电影 http://t.cn/RhZMPWt //@山雨清新:请问新增补的两个评论数据集的链接? 找了下,没找到 //@好东西传送门:回复@好东西传送 [ [微博](http://www.weibo.com/5220650532/BkDZfdlu2) ] - -> 2014-08-30 @好东西传送门: [资料整理] @鱼片的小露宝 我正在学习hadoop,我想知道从哪里可以获取一些原始数据样本(就好像hadoop权威指南里面所说的NCDC的气象数据日志)来做数据分析的练习? 答: 一些大数据与目录: http://t.cn/RhZqcq9 气象遥感数据因有图片通常比较大;政府数据包罗万象;(社交)网络数据边多。 [ [微博](http://www.weibo.com/5220650532/BkD1Yu1WE) ] - -2014-08-30 回复@好东西传送门: 又增补了两个评论数据集: (10k movie, 10M rating)电影; (200k book,1M rating)书籍 //@好东西传送门:回复@海中的沙粒: 感谢提醒,这一次主要是针对该问题的资源整理,目前列表里原来有12项,现在有增补了CMU的ClueWeb2009网页数据集(10亿页),NIST TREC的测试数据 [ [微博](http://www.weibo.com/5220650532/BkDzbsk24) ] - -> 2014-08-30 @好东西传送门: [资料整理] @鱼片的小露宝 我正在学习hadoop,我想知道从哪里可以获取一些原始数据样本(就好像hadoop权威指南里面所说的NCDC的气象数据日志)来做数据分析的练习? 答: 一些大数据与目录: http://t.cn/RhZqcq9 气象遥感数据因有图片通常比较大;政府数据包罗万象;(社交)网络数据边多。 [ [微博](http://www.weibo.com/5220650532/BkD1Yu1WE) ] - -2014-08-30 [资料整理] @鱼片的小露宝 我正在学习hadoop,我想知道从哪里可以获取一些原始数据样本(就好像hadoop权威指南里面所说的NCDC的气象数据日志)来做数据分析的练习? 答: 一些大数据与目录: http://t.cn/RhZqcq9 气象遥感数据因有图片通常比较大;政府数据包罗万象;(社交)网络数据边多。 [ [微博](http://www.weibo.com/5220650532/BkD1Yu1WE) ] - -2014-08-30 [数据资源] 日本政治、经济、地理数据大全(免费,可下载)http://t.cn/RhZb561 日本开放政府数据网站测试版(www.data.gov.jp)于2014年发布,现有来自21个政府部门的10,411个数据集。 其他数据源:历年人口、工业、经济普查数据; 政府预算数据; 地理信息数据;1947-2003议会选举数据 等 [ [微博](http://www.weibo.com/5220650532/BkCwfoJ0Y) ] - -2014-08-29 [好文略读|机器学习] Big data opportunities and challenges: Discussions from data analytics perspectives (综述,@南大周志华 等著)http://t.cn/Rh7IH66 感谢推荐人 @刘知远THU @RAYMOND__WU 等 [ [微博](http://www.weibo.com/5220650532/BkuQ30GSA) ] - -2014-08-29 Google2014 KDD 的文章,讲他们自动知识图谱提取项目Knowledge Vault的最新进展,比较了人肉众包生成的知识图谱(dbpedia, freebase,...): http://t.cn/RhhjLVe Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion [ [微博](http://www.weibo.com/5220650532/Bkt39dyDU) ] - -2014-08-29 传送原因: 中英文对照 Communications of the ACM 2012 //@网路冷眼: 找到了,发表在中国计算机学会通讯上面的一篇翻译文章<机器学习那些事> http://t.cn/RhPxmIl [赞] //@52nlp: 印象 @刘知远THU 同学翻译过 [ [微博](http://www.weibo.com/5220650532/Bkrxo2j4u) ] - -> 2014-08-27 @网路冷眼: 美国华盛顿大学计算机科学及工程系,机器学习的大牛Pedro Domingos所著总结了机器学习的研究者和实践者所学到的十二个关键的经验教训。这些包括避免陷阱、以重要的问题为重点和常见问题的解答. 貌似@52NLP 提及过 http://t.cn/zlK8HTU [ [微博](http://www.weibo.com/1715118170/BkhayDnra) ] - -2014-08-28 问: @钱知易: 能不能帮我找找大规模图像检索方面的资料以及这个领域的牛人(国内国外)? 答: 初步结果:http://t.cn/RPe5HBt 中科大 杨晓冬有一个很全面的计算机视觉领域资料整理。兰晓松 在科学网上著有专家列表,2014年9月自动化所有一个“计算机视觉前沿研讨会” ,列举了许多国内著名专家 [ [微博](http://www.weibo.com/5220650532/BklQZALi7) ] - -2014-08-28 问: @Don0719 有没有做正电子无损检测的大佬或者相关的书籍、文献啊? 答: 欢迎材料学问题。 问答进展看这里 http://t.cn/RPsI3yE 推荐R. Krause Rehberg 2010年的幻灯片。正电子湮没研究论文很多,还有专门国际会议。无损检测相关找到6篇。欢迎专家补充指正。 [ [微博](http://www.weibo.com/5220650532/BklhZul43) ] - -> 2014-08-28 @Don0719: 有没有做正电子无损检测的大佬或者相关的书籍、文献啊@好东西传送门 @Rachel____Zhang @人人林关亮 @西瓜大丸子汤 @孙明明_SmarterChina @黑伽罗 http://t.cn/RP6nGI0 [ [微博](http://www.weibo.com/2305250811/Bkhuj9CUi) ] - -2014-08-27 SVD,LSI,PCA 是线性代数 在数据挖掘中应用的基本概念,常用于数据降维(每个提取的features对应一个维度),需要重点理解。 原文作者应该是 @LeftNotEasy 吧 [ [微博](http://www.weibo.com/5220650532/Bkh2Lecdh) ] - -> 2014-08-27 @你知道什么是情非得已么: @好东西传送门 @龙星计划 关于SVD奇异值分解讲的非常清楚的文章,从矩阵的特征值分解到奇异值分解,再到矩阵的近似逼近,讲的非常透彻的文章!包括svd计算,LSI(潜在语义),以及PCA(主成分析)。http://t.cn/zO0ffR2 [ [微博](http://www.weibo.com/1805841815/BkgARFhuk) ] - -2014-08-27 是这个问题吗? accelerating bayesian network 200X using a GPU 问答进展看这里: http://t.cn/RPku09w [ [微博](http://www.weibo.com/5220650532/BkgNJu9af) ] - -> 2014-08-27 @lzqkean: 有哪些大牛做过GPU加速贝叶斯网络学习,还有相关的代码,方便学习@好东西传送门 [ [微博](http://www.weibo.com/1974787502/BkfWmyZUV) ] - -2014-08-27 问:@月光馆果果妈 请问从语音和视频资源共同进行学习的算法谁比较有研究啊 答: 深度学习是当前趋势(斯坦福,微软,谷歌都这样)。专家 Andrew Ng, Geoffrey Hinton, Li Deng, Louis-Philippe Morency, Ruslan Salakhutdinov, 微博技术控:@言语挖挖 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BkdhGpY4d) ] - -2014-08-27 传送一个关于学术笑话: 论文评审分两类,一种呢是评审截止日期早就过了,另一种是还没过期的。“There are two types of manuscript reviews. Those that are overdue, and those that are not overdue yet.” 如果看数据分布的话,估计最常见的是“明天就是评审截止日了,咋一篇都没审呢?” [ [微博](http://www.weibo.com/5220650532/BkctZ33Iu) ] - -2014-08-27 非常感谢 @董力at北航 他本科时候做的一个KDD2012demo http://t.cn/RPDwF8S (情感细分为厌恶、愤怒、高兴、悲伤四类 )很好玩,分析各省人民的情绪彼岸花,小心地图炮呦?能下载数据。 此外他以前还推荐过 http://t.cn/Sc68lv Sentiment Symposium Tutorial [ [微博](http://www.weibo.com/5220650532/Bkco7lkJU) ] - -> 2014-08-27 @好东西传送门: 问: @蒋宁平 求推荐中文情感计算资源,包括中文情感词库,尤其是细分情感种类的(比如喜爱,愤怒,悲伤…等)。 答:问答进展:http://t.cn/RPeutqb 初步答案:斯坦福有公开课和基于深度学习的成果。知乎有资源列表。刘兵教授有综述。数据看 NTUSD, 知网。微博问 @TT小和子 @黠之大者 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BkbzO54pR) ] - -2014-08-27 非常感谢 @posa88 推荐 lingpipe的影评数据(基于IMDB)由康奈尔的 Lillian Lee 和 Bo Pang 提供 //@posa88:大连理工这个库用过,还行:http://t.cn/RPesat2 ,http://t.cn/bln2a [ [微博](http://www.weibo.com/5220650532/BkcgExrKL) ] - -> 2014-08-27 @好东西传送门: 问: @蒋宁平 求推荐中文情感计算资源,包括中文情感词库,尤其是细分情感种类的(比如喜爱,愤怒,悲伤…等)。 答:问答进展:http://t.cn/RPeutqb 初步答案:斯坦福有公开课和基于深度学习的成果。知乎有资源列表。刘兵教授有综述。数据看 NTUSD, 知网。微博问 @TT小和子 @黠之大者 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BkbzO54pR) ] - -2014-08-27 问: @蒋宁平 求推荐中文情感计算资源,包括中文情感词库,尤其是细分情感种类的(比如喜爱,愤怒,悲伤…等)。 答:问答进展:http://t.cn/RPeutqb 初步答案:斯坦福有公开课和基于深度学习的成果。知乎有资源列表。刘兵教授有综述。数据看 NTUSD, 知网。微博问 @TT小和子 @黠之大者 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BkbzO54pR) ] - -2014-08-27 回复@DataMooc: 有相关问答,整理中,参见 http://t.cn/RPmIw2I //@DataMooc:有没有Python版的中文分词开源工具? //@好东西传送门:搭车再次推荐ansj, 孙健写的很有用的中文分词工具。http://weibo.com/5220650532/Bh9WGeljD //@ansj: 应该不是[衰] //@好东西传送门:@夏二货爱吃 [ [微博](http://www.weibo.com/5220650532/Bkb1stYmh) ] - -> 2014-08-26 @honeytidy: 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] - -2014-08-27 http://t.cn/RPeILJ1 链接在这里 [ [微博](http://www.weibo.com/5220650532/Bk8n73Qla) ] - -> 2014-08-25 @52cs: 强烈推荐@王威廉 的《大数据时代的机器学习热点:ICML2013参会感想》,对当前机器学习热点做了简短的科普,不过貌似有私心,对自己学院的技术多介绍了一些哈。[嘻嘻] @好东西传送门 @developerWorks @星空下的巫师 @龙星计划 [ [微博](http://www.weibo.com/5172229575/BjUJ6w613) ] - -2014-08-27 搭车再次推荐ansj, 孙健写的很有用的中文分词工具。http://weibo.com/5220650532/Bh9WGeljD //@ansj: 应该不是[衰] //@好东西传送门:@夏二货爱吃胡萝卜: 万恶的微软官网居然用自动翻译!是孙剑 //@夏二货爱吃胡萝卜:@图像视觉研究:的确是说错了。是孙剑。 //@严浩RB:这个孙健是写ansj的那个吗? [ [微博](http://www.weibo.com/5220650532/Bk8kLotLu) ] - -> 2014-08-26 @honeytidy: 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] - -2014-08-26 回复@夏二货爱吃胡萝卜: 感谢指正,万恶的多语言系统,微软官网居然用自动翻译,当然名字就翻错了。是孙剑 //@夏二货爱吃胡萝卜:回复@图像视觉研究:的确是说错了。是孙剑。 //@好东西传送门:回复@严浩RB: 此孙健 是微软研究员 http://t.cn/RPe4I9D 搞图像处理, //@严浩RB:这个孙健是写ansj的那个吗? [ [微博](http://www.weibo.com/5220650532/Bk7zycQvc) ] - -> 2014-08-26 @honeytidy: 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] - -2014-08-26 回复@严浩RB: 此孙健 是微软研究员 http://t.cn/RPe4I9D 搞图像处理, //@严浩RB:这个孙健是写ansj的那个吗? //@好东西传送门:问答进展:http://t.cn/RPgpH65 有不少IEEE Fellow, 华人还有 UIUC马毅(现在上海) 微软亚洲研究院:孙健 。到CVPR, ICCV上多看看能 [ [微博](http://www.weibo.com/5220650532/Bk7qGAF9O) ] - -> 2014-08-26 @honeytidy: 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] - -2014-08-26 回复@严浩RB: 非也 http://t.cn/RPe4GEw 彼孙健: Ansj 是一个开源的 Java 中文分词工具“胸无大志,没想过创业,没想过发财,只想高高兴兴写两行代码,做了近五年Java程序员,写过页面,干过运维,做过人力“ //@严浩RB:这个孙健是写ansj的那个吗? //@好东西传送门:问答进展:http://t.cn/RPgpH65 [ [微博](http://www.weibo.com/5220650532/Bk7q9uMks) ] - -> 2014-08-26 @honeytidy: 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] - -2014-08-26 问:@pkuxkxjason 求推荐靠谱的自动摘要软件/服务。特别是针对科技类内容的。答: 问题进展 http://t.cn/RPg0Dkn 两个quora回答但实用工具可靠性低。还要请 @算文解字 指点迷津,他说过 “单文档summerization不是被snippet判死刑了么?” 找到相关文章 http://t.cn/RPg0DkH [ [微博](http://www.weibo.com/5220650532/Bk4hHahVS) ] - -> 2014-08-24 @pkuxkxjason: 求推荐靠谱的自动摘要软件/服务。特别是针对科技类内容的。@印象笔记 @好东西传送门 [ [微博](http://www.weibo.com/1042871981/BjJv0pvT2) ] - -2014-08-26 问答进展:http://t.cn/RPgpH65 有不少IEEE Fellow, 华人还有 UIUC马毅(现在上海) 微软亚洲研究院:孙健 。到CVPR, ICCV上多看看能找到不少当打的大小牛 [ [微博](http://www.weibo.com/5220650532/Bk4aUlKJi) ] - -> 2014-08-26 @honeytidy: 问题求助:人脸识别领域的领军人物都有哪些?@好东西传送门 。我知道有:汤晓欧、李子青、艾海舟、山世光,还有别的那些大牛? [ [微博](http://www.weibo.com/1507467291/Bk2l29vEy) ] - -2014-08-26 问: @杨洋MQ Social Network 中 Spammer Detection 方面 都有哪些 中文、英文的数据集?答: 初步回答:http://t.cn/RPgtKAl 公开的大多是email,中文较老有2006 TREC , 2005 CCERT;英文有Twitter数据集和Spammer列表。近年未公开:Berkeley, ASU有Twitter研究; 国内要联系上交大。求更多链接 [ [微博](http://www.weibo.com/5220650532/Bk2BaFaY2) ] - -2014-08-25 //@昊奋: 这个之前通过@好东西传送门 介绍知识图谱时,介绍过这个probabilistic kb。其实离真正大规模可用还有很长路要走。所谓的可信大部分可在freebase中找到,也就是说freebase的质量和规模决定了很多 [ [微博](http://www.weibo.com/5220650532/BjVr9tH7z) ] - -> 2014-08-25 @爱范儿: 【Google将建全球最大知识库】Google创建名为Knowledge Vault的知识库,通过算法自动搜集网上信息,通过机器学习把数据变成可用知识。目前Knowledge Vault已收集了16亿件事实,其中2.71亿件是“可信的”。“可信”指Google把新事实与已掌握知识对照后,认为其准确的可能性是90%。http://t.cn/RPrEM1D [ [微博](http://www.weibo.com/1642720480/BjTl9k81q) ] - -2014-08-25 //@velvel2: 1)首位华人AAAI fellow杨强博士研究转移学习很多年了。多任务学习是其中一种 http://t.cn/aepeZn 2)Bengio的深度学习新书有一章也是关于转移学习和多任务学习的 http://t.cn/RPdxFds [ [微博](http://www.weibo.com/5220650532/BjVr0j8uQ) ] - -> 2014-08-19 @好东西传送门: 问: @唐小sin 有没有multi-task learning的相关学习资料呢? 答: 维基百科上有不少经典文献。AAAI和ICML都有论文(北大/清华)。找到今年Honglak Lee (U Michigan 教授)的短教程。Lan Žagar 博士论文(2014) Ranking by Multitask Learning. 问答追踪: http://t.cn/RP8a3Ax 求补充 [ [微博](http://www.weibo.com/5220650532/BiZl47k80) ] - -2014-08-24 回复@phunter_lau: 感谢有爱心的专家 传送理由: 面试官的面经 //@phunter_lau:回复@好东西传送门:复制粘贴一下“我都是国外面经,都是谈谈你之前做过啥,你就做过啥讲了就行了。我们一般不测试面试人什么问题,默认他简历上说的都是真实的,然后拿几个实际问题看看他的看法和解决方向如何就基本上知道 [ [微博](http://www.weibo.com/5220650532/BjLGK2IJe) ] - -> 2014-08-24 @好东西传送门: 问: @尘绳聋-SYSU 大大ML面经来一发?急需 答:假设需要的是软件工程师求职,寻找机器学习(machine learning)面经。建议多看题,把自己的知识强化。很多问答系统都有常见面试问题列表, 初步有 reddit, stackoverflow, quora, 知乎 等。问答进展: http://t.cn/RPB1Sxf 欢迎补充指正,尤其是具体面经 [ [微博](http://www.weibo.com/5220650532/BjLqu8Kw0) ] - -2014-08-24 问: @尘绳聋-SYSU 大大ML面经来一发?急需 答:假设需要的是软件工程师求职,寻找机器学习(machine learning)面经。建议多看题,把自己的知识强化。很多问答系统都有常见面试问题列表, 初步有 reddit, stackoverflow, quora, 知乎 等。问答进展: http://t.cn/RPB1Sxf 欢迎补充指正,尤其是具体面经 [ [微博](http://www.weibo.com/5220650532/BjLqu8Kw0) ] - -2014-08-24 回复@AixinSG: 多谢补充,NUS 在这方面做的很不错,链接传送 http://t.cn/RPB3zgO 还有一篇相关的是 Addressing cold-start in app recommendation: latent user models constructed from twitter followers //@AixinSG:SIGIR14 有一篇 New and Improved: Modeling Versions to Improve App Recom [ [微博](http://www.weibo.com/5220650532/BjLil85H7) ] - -> 2014-08-24 @好东西传送门: 问: @应豪超 :有关于手机app推荐的文章吗 答: 就是找论文,关键词 Recommender Systems that Suggest Mobile Applications 。 初步结果 找到一个2011年移动推荐讨论班的幻灯片(领域综述),一篇IUI2013 (列举feature), 一篇SIGIR 2013, 还有若干相关, 问答进展: http://t.cn/RPBuvdZ 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BjLc4frgA) ] +> 2014-09-12 @BoxingChen: 开源工具和开放的数据越来越多,口碑如何?怎么选择呢?open AI Resource http://t.cn/RhMCIKC 收集了AI领域的很多工具和数据,分类让大家点赞和评论。机器学习领域暂时获赞领先的工具是libsvm,NLP领域的是斯坦福POS tagger。去那找你需要的open source,也去那为你喜欢的,或自己的工具点个赞吧。 [ [微博](http://www.weibo.com/1767949300/BmHFV4Te9) ] From 06b12a29d4ebc9f4da2693b7a8d3d82ea574cd4e Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 19 Sep 2014 09:40:47 -0700 Subject: [PATCH 387/485] Update test-recent.md --- awesome/test-recent.md | 4 ---- 1 file changed, 4 deletions(-) diff --git a/awesome/test-recent.md b/awesome/test-recent.md index d327882..bfe2357 100644 --- a/awesome/test-recent.md +++ b/awesome/test-recent.md @@ -12,10 +12,6 @@ > 2014-09-19 @设定控: 一篇在各大社交网站上广为转载的电子图书馆列表,来自译言网,《最好的免费电子图书馆指南(上)》http://t.cn/zYcbH8t 《最好的免费电子图书馆指南(下)》http://t.cn/z84nsDZ 事实我发的很多电子书网站就来自这里,这贴几乎无所不包,学术政治经济资源都有,楼主还没翻译完,有时间多刷新一下吧。 [ [微博](http://www.weibo.com/2142733793/BnGfghg3X) ] -2014-09-19 帮转,颜老师的实验室是世界水准,最近的《中国青年》报导 http://t.cn/RhaSbb9 [ [微博](http://www.weibo.com/5220650532/BnG0q7wTA) ] - -> 2014-09-07 @nyouyou: 本实验室招聘研究系列副研究员或助理研究员、博士后、以及技术员(lab manager),待遇还都不错的哦,欢迎有能力又懒得自己做PI的同事应聘助理研究员,一起探索科学世界。听说清华最好的似乎是幼儿园+小学,这个才是最有诱惑力的砝码。 http://t.cn/Rhqlynm [ [微博](http://www.weibo.com/1656918431/BlUuJdiXb) ] - 2014-09-19 赞!Gradient Boosting Tree也参我们以前收集的专题 http://t.cn/RhKc1F5 有Python Go C++多种语言的实现 [ [微博](http://www.weibo.com/5220650532/BnFUv89IL) ] > 2014-09-19 @phunter_lau: 我的 Kaggle Higgs Challenge单个模型获胜解答,公开排行榜3.75最终排行榜得分3.73,排名25th/1792,差不多前几十里唯一一个非组合模型的解答。至于为什么不用组合模型,因为我不会。。。 链接 http://t.cn/RhKAWac 附图方便不能上wordpress的同学观看。至于英语描述,不要在意这些细节。 [ [微博](http://www.weibo.com/1770891687/BnE9rmOpe) ] From ec03b9a67bc27973c686a168224bbd9902f3c445 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 19 Sep 2014 09:41:06 -0700 Subject: [PATCH 388/485] Update README.md --- README.md | 163 ++++++++++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 163 insertions(+) diff --git a/README.md b/README.md index 7e0c9fe..6810da1 100644 --- a/README.md +++ b/README.md @@ -33,6 +33,169 @@ ## 问答与原创 + +2014-09-19 Large-Scale Distributed Computer Vision As A Cloud Service [ [微博](http://www.weibo.com/5220650532/BnImw9owp) ] + +> 2014-09-19 @Rachel____Zhang: 发现了一个好东西,cloudcv http://t.cn/RhKuArr . 基于GraphLab with GPU支持在线object detection, classification和feature extraction(用的是Caffe),提供了MATLAB和Python的API。http://t.cn/8FItstH 还有提供ILSVRC2014 的各种feature... [ [微博](http://www.weibo.com/2607574543/BnIlCguKb) ] + +2014-09-19 推荐Cyrille Rossant博士新书 “IPython cookbook” http://t.cn/RhKH1qp 所有例子在Github上以IPython Notebook方式开源 http://t.cn/RhKH1q0 此书覆盖挺广:基础知识( IPython交互式计算环境,性能分析与优化,高性能计算,数据可视化); 实战短例子(例如统计,机器学习,信号处理,视频与音频等) [ [微博](http://www.weibo.com/5220650532/BnHSNrqZT) ] + +2014-09-19 问: @ShawnLeesr 给找一些好到逆天的 1.信号处理 2 傅里叶变换 3.小波变换的入门资料吧 答: 资料整理 http://t.cn/RhKNdKs 推 @Heinrich_DMU 傅里叶分析之掐死教程。进阶有Stanford傅立叶变换课(Brad Osgood) http://t.cn/RhKNdKF , MIT小波分析课(Gilbert Strang) http://t.cn/RhKNd9v 请指正补充 [ [微博](http://www.weibo.com/5220650532/BnHcFiekf) ] + +2014-09-19 [有趣的数据] 一个新推出的可交互地图应用把英国(United Kingdom)的河流的水文数据(river level) 放在网上 http://t.cn/RhK9AoB 。地图每一点对应一个水文观测站,好玩的是大家可以在Twitter上当这个观测站的粉丝:牛津附近的 gauge 2100 http://t.cn/RhK9Aor 居然有12粉 [ [微博](http://www.weibo.com/5220650532/BnH0ncHSp) ] + +2014-09-19 好东西! [ [微博](http://www.weibo.com/5220650532/BnGKXl9Ic) ] + +> 2014-09-19 @设定控: 一篇在各大社交网站上广为转载的电子图书馆列表,来自译言网,《最好的免费电子图书馆指南(上)》http://t.cn/zYcbH8t 《最好的免费电子图书馆指南(下)》http://t.cn/z84nsDZ 事实我发的很多电子书网站就来自这里,这贴几乎无所不包,学术政治经济资源都有,楼主还没翻译完,有时间多刷新一下吧。 [ [微博](http://www.weibo.com/2142733793/BnGfghg3X) ] + +2014-09-19 赞!Gradient Boosting Tree也参我们以前收集的专题 http://t.cn/RhKc1F5 有Python Go C++多种语言的实现 [ [微博](http://www.weibo.com/5220650532/BnFUv89IL) ] + +> 2014-09-19 @phunter_lau: 我的 Kaggle Higgs Challenge单个模型获胜解答,公开排行榜3.75最终排行榜得分3.73,排名25th/1792,差不多前几十里唯一一个非组合模型的解答。至于为什么不用组合模型,因为我不会。。。 链接 http://t.cn/RhKAWac 附图方便不能上wordpress的同学观看。至于英语描述,不要在意这些细节。 [ [微博](http://www.weibo.com/1770891687/BnE9rmOpe) ] + +2014-09-19 推荐一篇综述,将Context Aware Computing 在物联网里的应用 《Context aware computing for the internet of things: A survey》 http://t.cn/RhKqJTg 分析了过去十年50个相关项目,覆盖Context生命周期的四个阶段 Acquisition(获取), Modeling(建模), Reasoning(推理), Distribution(发布) [ [微博](http://www.weibo.com/5220650532/BnFso1697) ] + +2014-09-19 回复@tang_Kaka_back: 大致看了一下pypi,4万多库里只有5千多的python3库 //@tang_Kaka_back:回复@好东西传送门:[good]Python3的一些库跟进还是太慢了。从unicode的角度我个人还是喜欢3 //@tang_Kaka_back:我记得我一年前在找python3的爬虫都没有太好的,于是自己就着自己的项目写了个。现在已经有支持 [ [微博](http://www.weibo.com/5220650532/BnDabp9IQ) ] + +> 2014-09-18 @好东西传送门: 问: @子_相 目前支持Python 3的各种Web Crawler包?输入HTML, 输出是能支持Xpath 和CSS式的selector查询的object,有没有比较宽松容错的parser? 答: http://t.cn/RhL3mGP 不完善初步答案 MechanicalSoup和robobrowser都支持python3; beautifulSoup4 支持多种html parser处理HTML和CSS 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BnyQKbcKJ) ] + +2014-09-19 回复@小粗腿正在减肥中: 你是指这个吗? http://t.cn/RhosnXP Information Hiding conference (1996-2014) 点链接可以看每一届会议的论文目录。要下载论文通常可以 1. 祭出搜索引擎 标题+PDF 2. 通过图书馆查期刊 3.联系通信作者 ... //@小粗腿正在减肥中: [ [微博](http://www.weibo.com/5220650532/BnD1wdQBF) ] + +> 2014-09-18 @好东西传送门: 问:求信息隐藏的资料 答:初步进展 http://t.cn/RhogJv4 信息隐藏(digital watermarking, steganography and steganalysis, anonymity and privacy)有一个国际年会 IIH-MSP (1996-2014)。 Zoran Duric 有2006年有一门短课程, Peter Wayner 有一本2009年的专著。@永远的孤岛 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BnCrqqYLC) ] + +2014-09-18 问:求信息隐藏的资料 答:初步进展 http://t.cn/RhogJv4 信息隐藏(digital watermarking, steganography and steganalysis, anonymity and privacy)有一个国际年会 IIH-MSP (1996-2014)。 Zoran Duric 有2006年有一门短课程, Peter Wayner 有一本2009年的专著。@永远的孤岛 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BnCrqqYLC) ] + +2014-09-18 [数据集] 美国各政府部门2000至2014财年的支出记录, 每条记录包括 哪个部门拨发的,什么时间,干什么用,多少钱,获得拨款的地址 等字段。可以直接查询数据 http://t.cn/RhotbLK 也可以下载数据 http://t.cn/RhotbLo (点 archives 标签, 按月下载) [ [微博](http://www.weibo.com/5220650532/Bnz8SvZTF) ] + +2014-09-18 问: @子_相 目前支持Python 3的各种Web Crawler包?输入HTML, 输出是能支持Xpath 和CSS式的selector查询的object,有没有比较宽松容错的parser? 答: http://t.cn/RhL3mGP 不完善初步答案 MechanicalSoup和robobrowser都支持python3; beautifulSoup4 支持多种html parser处理HTML和CSS 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BnyQKbcKJ) ] + +2014-09-18 传送好东西并传送问题 @左耳朵耗子 //@文艺复兴记: 我遇到过一类典型的有问题的编写可测试代码的方法,例:实现一个Stack类。有人这样做:把Stack内部的数据结构(比如动态数组)暴露出来,然后分别写两个测试用例test_push和test_pop,每个测试用例都去检查Stack内部数据结构的状态。问题在哪里? [ [微博](http://www.weibo.com/5220650532/Bnys4axnX) ] + +> 2014-09-18 @reeze: Google员工写的:《编写可测的代码》 http://t.cn/RhSENMV 代码可测性非常重要,规模越大越重要,可测的程序可以更容易的编写更多的测试来保证代码的质量。 [ [微博](http://www.weibo.com/1548943797/BnxVP6DMx) ] + +2014-09-18 好东西 回复@blue_tracks: 论文PDF 链接有问题. 是否考虑放到 arxiv.org 这样方便别人引用,源代码是这个(不在master上)吗? http://t.cn/RhoADCF [ [微博](http://www.weibo.com/5220650532/Bnymun0FA) ] + +> 2014-09-18 @blue_tracks: NIPS投稿得到887高分,但是最后因为一个math typo被干掉,郁闷过后现在paper和实验配置都已公开。 idea极其简洁, 在中间层加入监督信息的架构可以适用于任何网络结构, 我们有理论和多个数据集的实验证明这种策略能够有效防止梯度发散,据说GoogLeNet今年也用了类似的想法 http://t.cn/Rhoz0BO @winsty [ [微博](http://www.weibo.com/1240701945/Bny5ShuSM) ] + +2014-09-18 特别推荐一本免费电子书: 微软研究院邓力和俞栋合写的“Deep Learning Methods and Applications” (2014) http://t.cn/RhoPwll 近200页篇幅对深度学习的方法和应用做了比较全面地综述。还有 @高杰_Speech 推荐 微软研究院出品C++开源Computational networks工具包 CNTK http://t.cn/Rhy4u3l [ [微博](http://www.weibo.com/5220650532/BnxSMyLB3) ] + +2014-09-18 哈哈, 原来是微软研究院出品 Computational Network Toolkit (CNTK) 俞栋 Dong Yu etc. "An Introduction to Computational Networks and the Computational Network Toolkit", Microsoft Technical Report, 2014. http://t.cn/RhSscXz //@liushengbing: 只支持windows的ML包真是第一次见 [ [微博](http://www.weibo.com/5220650532/BnxKrvfUY) ] + +> 2014-09-12 @高杰_Speech: 推荐新的Deep learning工具包 CNTK, http://t.cn/Rhy4u3l C++实现,CPU/GPU支持,DNN/CNN/RNN/LSTM,目前只支持windows [ [微博](http://www.weibo.com/2436946631/BmEk7BQfM) ] + +2014-09-18 不错 补充一下 ILSVRC2014 的日程上包括了各大参赛队15分钟报告幻灯片下载链接,还有各种讨论的东东 http://t.cn/RhSF13U //@潘炎_SYSU: 相应的论文链接在: http://t.cn/RhSdt1V [ [微博](http://www.weibo.com/5220650532/BnxIm4KOD) ] + +> 2014-09-18 @潘炎_SYSU: GoogleLeNet放出他们在ILSVRC 2014的slides了:http://t.cn/RhSdCVa [ [微博](http://www.weibo.com/1889275224/Bnxk2a7zQ) ] + +2014-09-18 问: @微热闹 请教是否有MAPREDUCE实现的PLSI算法 答: http://t.cn/RhSnzB7 先来三篇相关文章: UIUC “Parallel PLSI on Spark”, 清华“Parallel PLSA ...” 南大“P2LSA and P2LSA+: Two Paralleled Probabilistic Latent Semantic Analysis Algorithms Based on the MapReduce Model” 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BnwGrtAwU) ] + +2014-09-18 关于数据清理(Data Cleaning) 有一篇2000年的经典文章 "Data Cleaning: Problems and Current Approaches" http://t.cn/RhSE7LZ 该文综述了结构化数据中质量问题的分类和来源,并给出了相应例子。该文对了解当前大数据中"噪音”有一定指导意义。#抛砖引玉# 欢迎补充推荐好东西 [ [微博](http://www.weibo.com/5220650532/BnwznznUE) ] + +2014-09-18 问: 关于挖掘话题层级结构(topic hierarchy)的研究和应用? 答: http://t.cn/RhSTd26 早期有CAM模型(IJCAI'99), 近来有Blei基于"bayesian nonparametric inference"的工作, Berant的"entailment graph", 微软ProBase. Twitter用它分类(kdd'14). 认知科学看"How to Grow a Mind"(science'11) 欢迎指正 [ [微博](http://www.weibo.com/5220650532/BnvY6x7Oq) ] + +2014-09-17 #温故而知新# Gary Anthes (科普作家)的 Deep Learning Comes of Age 算是科普文章了,短短几页谈了深度学习过去与现状的要点,还推荐了一个不错的参考论文书单。正好 🚪 正在传送 深度学习入门资料 http://t.cn/RhaTq9c 该文应该被”录用“ 又 @自觉自愿来看老婆微博 也推荐该文 [ [微博](http://www.weibo.com/5220650532/BnoQ6ksvb) ] + +> 2013-05-30 @星空下的巫师: "A wave of excitement today comes from the application of unsupervised learning to deep neural nets." Deep Learning Comes of Age | June 2013 | Communications of the ACM http://t.cn/zH5EdjT [ [微博](http://www.weibo.com/1785748853/zz47bmU5h) ] + +2014-09-17 问:@聪Hit 有没有关于深度学习的。特别是针对初学者的一些文章。 答: 深度学习综述不乏大部头,如微软邓力等写的“Deep Learning Methods and Applications”。推些短文:"A Primer on Deep Learning" 科普入门, 基于python theano范例学习, 邓侃Deep Learning系列 资料 http://t.cn/RhaISCG 欢迎指正 [ [微博](http://www.weibo.com/5220650532/Bnnfrjm3x) ] + +2014-09-17 问:@vincent是正能量 有没有synonym mining的survy paper,以及比较核心的一些paper? 答: 问答资料 http://t.cn/Rha5DJE Wordnet synset 人工构造了同义词(synonym)集合, 自动方法通常依靠语义相关分析(semantic similarity) 微软有相关项目, 我们有技术资料整理贴 http://t.cn/Rha5DJR [ [微博](http://www.weibo.com/5220650532/BnmMGBraU) ] + +2014-09-17 [专题] 主题模型 工具推Gensim和LDAvis http://t.cn/RhabYR5 理论部分推荐 @52nlp 的《如何计算两个文档的相似度》@rickjin 的《LDA数学八卦》@Copper_PKU 的《Probabilistic Topic Model》和 沈志勇 的《主题模型简介》http://t.cn/RhabYRt 研究前沿推Twitter和Google的实战 http://t.cn/RhabYRc [ [微博](http://www.weibo.com/5220650532/BnmjIC2Tr) ] + +2014-09-17 [专题] 主题模型 工具推Gensim和LDAvis http://t.cn/RhabYR5 理论部分推荐 @52nlp 的《如何计算两个文档的相似度》@rickjin 的《LDA数学八卦》@@Copper_PKU的《Probabilistic Topic Model》和 沈志勇 的《主题模型简介》http://t.cn/RhabYRt 研究前沿推Twitter和Google的实战 http://t.cn/RhabYRc [ [微博](http://www.weibo.com/5220650532/Bnmjn3rmn) ] + +2014-09-16 Luke现在是Google Product Director 关心手机平台Ux设计地同学们可以下载资料了,PDF有78页 http://t.cn/zQan8tv //@DataMooc: //@developerWorks: 这个很不错,LukeW 大神的 Blog 是长期订阅的,推荐。PDF 下载地址: http://t.cn/RhXST8L [ [微博](http://www.weibo.com/5220650532/Bnh75kMAe) ] + +> 2014-09-16 @英特尔XDK: Luke Wroblewski 大神正式的把他从 2012-2014年写的关于 #Mobile Design# 的文章整理成了 iBook 和 PDF 发布了,大家可以从他的网站上得到下载链接 http://t.cn/RhXVIlD。您也可以从 @英特尔开发人员专区 来了解他的文章和视频 http://t.cn/RhXVIlk [ [微博](http://www.weibo.com/5075403624/Bng3ijjEq) ] + +2014-09-16 转发理由:深度学习在分词等领域的应用。论文PDF http://t.cn/RhX2U9t HTML版 http://t.cn/RhX2U95 [ [微博](http://www.weibo.com/5220650532/Bnf4S6g8I) ] + +> 2014-09-15 @裴文哲: 终于找到了 http://t.cn/Rh6GFMi 我在ACL2014的oral presentation: Max Margin Tensor Neural Network for Chinese Word Segmentation 介绍了Deep Learning在序列标注任务中的新模型 slides做的略挫 希望大牛们轻喷 [ [微博](http://www.weibo.com/2110794314/Bn8SNfgHJ) ] + +2014-09-16 转发理由:依存文法分析对于关系提取,问答系统和知识图谱建设都有突出价值,而且速度较快。 [ [微博](http://www.weibo.com/5220650532/BneFP04pJ) ] + +> 2014-09-16 @李正华NLP: 我们这次在coling 2014上做的题为“Dependency Parsing: Past, Present, and Future”的tutorial slides已经整理好并放在我的主页上:http://t.cn/RhXvXVn,请大家多提宝贵意见,欢迎讨论交流。 [ [微博](http://www.weibo.com/1890969215/BnevukUcc) ] + +2014-09-16 回复@海中的沙粒: 发这个好东西时有点纠结,很多人见过,也有很多人没见过。但是作为数据,它的价值的确高,第一省得去翻统计年鉴,第二 CSV很容易导入Excel,python,matlab, R, 省了不少数据清理时间 (转就是收藏,不论你是不是 @ 谁的印象笔记 ) //@海中的沙粒:好像转过,再转一次吧,嘿嘿,反正 [ [微博](http://www.weibo.com/5220650532/BneyPc0Qp) ] + +> 2014-09-16 @好东西传送门: 推荐 @新浪财经 "中国宏观经济数据" http://t.cn/Rh6us2R 涵盖: 国民经济, 价格指数, 居民收入, 固定资产投资, 景气指数, 对外经济贸易, 金融信息, 国家财政, 行业信息。有图表且数据可CSV导出。轻松解决问题189 我国CPI和货币供应量M2 M1 M0月度环比数据 http://t.cn/Rh6HucY [ [微博](http://www.weibo.com/5220650532/Bndsqh1hJ) ] + +2014-09-16 读综述帮助了解领域,写综述展示对领域的掌握程度。找文献时要聚焦在目标课题下,避免贪多求全或者枝蔓。 高质量的例子可以参考计算机领域的综述期刊(ACM Computing Survey) 附DBLP的每期链接 http://t.cn/Rh6rH83 //@陆浑戎: 转发微博 [ [微博](http://www.weibo.com/5220650532/BndSKAQj8) ] + +> 2014-09-15 @传媒老跟班: 【文献综述】文献综述的写法http://t.cn/Rh6onsx;本科毕业论文如何撰写文献综述?http://t.cn/zHKQB8G;如何写文献综述?http://t.cn/zHKQB8b;克雷斯威尔五步文献综述法http://t.cn/Rh6onsa;社会科学研究中的文献综述:原则、结构和问题http://t.cn/zHKQB8q,供大家参考。 [ [微博](http://www.weibo.com/5198011111/BnapLe2fO) ] + +2014-09-16 转发理由:包括n-gram,带Freebase标注的8亿文档, Wikilinks 4000万页面链接标注,人工标注的wikipedia公众人物到Freebase映射, 3900万Wikipedia Infobox编辑历史,词与实体的映射 [ [微博](http://www.weibo.com/5220650532/BndMfgjn7) ] + +> 2014-09-15 @龙星镖局: Google近年来发布的有关文本挖掘、自然语言处理的数据集。http://t.cn/z8sMlZv [ [微博](http://www.weibo.com/1830516311/Bn7Q3zieO) ] + +2014-09-16 问: @海中的沙粒 点餐,介绍Matlab的入门级编程语言的书,电子文献,或者网页类 答: 任选一个套餐用最快速度翻完掌握全局,具体细节使用时再读。资料汇总 http://t.cn/Rh63woo 有18页的短教程,MIT的5节课讲义,Rutgus经济系博士的讲义。此外大餐看官方手册"Matlab Primer" [ [微博](http://www.weibo.com/5220650532/BndHDcwWV) ] + +2014-09-16 推荐 @新浪财经 "中国宏观经济数据" http://t.cn/Rh6us2R 涵盖: 国民经济, 价格指数, 居民收入, 固定资产投资, 景气指数, 对外经济贸易, 金融信息, 国家财政, 行业信息。有图表且数据可CSV导出。轻松解决问题189 我国CPI和货币供应量M2 M1 M0月度环比数据 http://t.cn/Rh6HucY [ [微博](http://www.weibo.com/5220650532/Bndsqh1hJ) ] + +2014-09-16 问: @国产_小翁:能不能帮我找到HMAX模型的matlab源码? 答: 资料汇总 http://t.cn/Rh69oet HMAX ("Hierarchical Model and X") 是Poggio于1999年提出的概念, 用于解决(Object recognition)的多层次神经网络。Poggio的MIT实验室CBCL在Google code有纯matlab源码 欢迎指正 [ [微博](http://www.weibo.com/5220650532/Bndd4cmz5) ] + +2014-09-16 要不搜索一下,用这个关键词 win7 library-ms fix 找到相关的问答 http://t.cn/Rh6juZn http://t.cn/Rh6juZm 更多相关结果看这里 http://t.cn/Rh6juZE 此外可以直接问微软 @微软中国 [ [微博](http://www.weibo.com/5220650532/BnbJ2h4gS) ] + +> 2014-09-15 @举头三尺有大神: 求助各位大神@好东西传送门 @破破的桥 @林楚方 。win7库出现这种情况。不能打开,不能新建,还原默认还是无法解决。 [ [微博](http://www.weibo.com/2809984842/Bn8VQnsUW) ] + +2014-09-16 如果你注了NIPS ,这个workshop就不另外收费了,看注册页 http://t.cn/Rh696S3 //@duinduin:要另外注册么? //@好东西传送门:Automated Knowledge Base Construction (AKBC) 2013 http://t.cn/Rhi9Tr5 2014年的和NIPS一起开,期待! //@昊奋: AKBC算是一个引领知识库构建的专题workshop。推荐的这 [ [微博](http://www.weibo.com/5220650532/BnazMCYTf) ] + +> 2014-09-15 @小飞鱼_露: @好东西传送门 想问下身边有没有了解知识图谱 (knowledge graph) 的大神,能否推荐一些文章和教程? [ [微博](http://www.weibo.com/1761583707/Bn4ljd4QQ) ] + +2014-09-15 //@算文解字:5. 这哥们很能掰,而很多章节分别阐述了他对人工智能、医疗科技、清洁能源、90年代互联网历史、融资甚至帝王之术的独特看法。很多地方只是略略扫了一眼,总感觉是可读性很强。原始Note: http://t.cn/zYvtV0F 最近已经整理成书“Zero to One” @好东西传送门 前两天推荐过 [ [微博](http://www.weibo.com/5220650532/BnahOEAAQ) ] + +> 2014-09-15 @算文解字: 1 昨天读了Peter Theil CS183的笔记。他认为从0到1的过程是一个发现只有少数人才掌握的真相,即#秘密#的过程。简单的早被发现,变为常识应用在从1到n的复制阶段,而无解的秘密则毫无价值,因此需要找中等难度但可解的秘密。他提到的秘密有垄断、幂律、渠道的重要性以及元秘密:世界上仍有很多秘密。 [ [微博](http://www.weibo.com/1884715211/Bn9gN4EYh) ] + +2014-09-15 Automated Knowledge Base Construction (AKBC) 2013 http://t.cn/Rhi9Tr5 2014年的和NIPS一起开,期待!//@昊奋: AKBC算是一个引领知识库构建的专题workshop。推荐的这个paper算是一个比较有指导性意见的文章,推荐! [ [微博](http://www.weibo.com/5220650532/Bn4YS4wfC) ] + +> 2014-09-15 @小飞鱼_露: @好东西传送门 想问下身边有没有了解知识图谱 (knowledge graph) 的大神,能否推荐一些文章和教程? [ [微博](http://www.weibo.com/1761583707/Bn4ljd4QQ) ] + +2014-09-15 这个和昨天推荐的entity linking的两个教程结合看最佳 http://t.cn/RhiS9gW 。RPI Heng Ji出品 //@Copper_PKU: 我推荐一个reading list: http://t.cn/8FqFegC 不知道有人推荐过没有 这个主页很不错//@好东西传送门: 在我们的github主页上搜“知识图谱” http://t.cn/RhiX0pi [ [微博](http://www.weibo.com/5220650532/Bn4Iwe0wd) ] + +> 2014-09-15 @小飞鱼_露: @好东西传送门 想问下身边有没有了解知识图谱 (knowledge graph) 的大神,能否推荐一些文章和教程? [ [微博](http://www.weibo.com/1761583707/Bn4ljd4QQ) ] + +2014-09-15 在我们的github主页上搜“知识图谱” http://t.cn/RhiX0pi 有不少以前的问题了。专家推荐 @昊奋 @孙明明_SmarterChina @Gary南京 @李志飞AI 还有去年第一届全国中文知识图谱研讨会的嘉宾 http://t.cn/8k2VD2H 该网页还有很多PPT [ [微博](http://www.weibo.com/5220650532/Bn4y7coge) ] + +> 2014-09-15 @小飞鱼_露: @好东西传送门 想问下身边有没有了解知识图谱 (knowledge graph) 的大神,能否推荐一些文章和教程? [ [微博](http://www.weibo.com/1761583707/Bn4ljd4QQ) ] + +2014-09-15 问: @秦彦霞_HIT 求教,哪里有大规模Twitter数据(只包含tweet即可,最好billion级别)可在文章中引用或致谢。 答:资料汇总 http://t.cn/RhiIgsl Archiveteam 2012至2014每月都有几十G的tweet JSON数据。此外 数据堂、snap和nist也有数据 @kite1988 @齐浩亮 提供了资料, 参考twitter专家 @AixinSG [ [微博](http://www.weibo.com/5220650532/Bn3USp5oO) ] + +2014-09-14 谢谢补充,ACL2014 A tutorial on Wikification and Entity Linking http://t.cn/RhJHk2Q 是个203页的PPT //@唐都钰HIT-SCIR: 还有今年ACL. Dan Roth. Heng ji 的tutorial [ [微博](http://www.weibo.com/5220650532/BmYLL8mDL) ] + +> 2014-09-14 @好东西传送门: @昊奋 推荐:Edgar Meij (Yahoo Labs)的Entity Linking and Retrieval教程。该教程最早在WWW 2013做过,深受好评,后来在SIGIR 2013, WSDM 2014不断更新。这组是今年6月最新的在Montreal做的版本,分为实体链接,实体检索和语义搜索三部分 http://t.cn/RhJHfzc [ [微博](http://www.weibo.com/5220650532/BmYGPj6rK) ] + +2014-09-14 @昊奋 推荐:Edgar Meij (Yahoo Labs)的Entity Linking and Retrieval教程。该教程最早在WWW 2013做过,深受好评,后来在SIGIR 2013, WSDM 2014不断更新。这组是今年6月最新的在Montreal做的版本,分为实体链接,实体检索和语义搜索三部分 http://t.cn/RhJHfzc [ [微博](http://www.weibo.com/5220650532/BmYGPj6rK) ] + +2014-09-14 问: @Joyce-Yuan- 对于拼写错误(real-word error) 求中文类似资料? 答: 详见 http://t.cn/RhJSrlc 拼写错误分non-word和real-word, 中英文难点不同。SIGHAN7的Bake-off 2013: Chinese Spelling Check 有很多论文(十月CLP14在武汉开), 英文spelling correction看Peter Novig 07年文章(21行python实现) [ [微博](http://www.weibo.com/5220650532/BmXdqD5Eh) ] + +2014-09-13 问: @V井颠V 对国内中长文章(300~5000字)近似新闻门户网站频道粒度的自动分类,有好的模型方法? 答: 资料整理 http://t.cn/Rhx4dAf 考虑statistical topic model, 推荐UIUC翟成祥短教程 http://weibo.com/5220650532/BhWo26Y93 ,软件包Gensim,Mallet,Stanford; kdd14有twitter分类好文 欢迎补充 [ [微博](http://www.weibo.com/5220650532/BmNjFtkeg) ] + +2014-09-13 问: @钱知易 帮我找找Berkeley detector(边缘检测)的代码(C++,Matlab) 答:资料整理 http://t.cn/RhMkEbD 是Michael Maire的工作 “Contour Detection and Image Segmentation"(CVPR2011) , 找到他们组的原始代码(gPb),还有Hyunho Lee的改进算法(gPb-junctions) 卡片盒子 http://t.cn/RhMkEbe [ [微博](http://www.weibo.com/5220650532/BmLNZ10CR) ] + +2014-09-13 问: 求助关于统计学方面的入门知识,主要是写企业上报数据,我们收集整理完数据之后以样本信息推断总体情况,并分析和推测总体的特征和规律 答: 相关资料 http://t.cn/RhMDApx * http://t.cn/hrmAiI 中国统计网, 从excel开始 * http://t.cn/hbvjNH 统计学知识社区, 侧重R @统计之都 @陈茁博士_Adam [ [微博](http://www.weibo.com/5220650532/BmLDph6KB) ] + +2014-09-13 回复@波多野丽猪: 多谢补充 http://t.cn/RhMe2Pp Fuseki: serving RDF data over HTTP //@波多野丽猪:一般python的话用sparql wrapper是ivan herman他们弄的,比较靠谱;其实假如有了一个endpoint,用fuseki里面sparql on http调用也可以,当然需要关联上fuseki的jar, [ [微博](http://www.weibo.com/5220650532/BmLwarUeq) ] + +> 2014-09-13 @好东西传送门: 问: @扛着甘蔗 有没有python访问使用dbpedia,freebase,等这些知识库查询的demo? 答: stackoverflow 有相关例子,找了一些相关资源 http://t.cn/RhMdlpG 有一个用freebase实现entity linking的例子 Quepy有例子展示如何将自然语言问题转化为数据库查询 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BmLjK6gVv) ] + +2014-09-13 常见的语音算法phonetic algorithm就是设定一组规则,将文字映射到某种音标符号系统。例如最原始的Soundex算法 扔掉所有元音,映射 b, f, p, v → 1 然后通过比较映射后符号串的差异来计算发音相似度。原帖中的脑图列举了常见英语(及德语)映射算法以及相关开源代码(python, java, go, ruby, perl) [ [微博](http://www.weibo.com/5220650532/BmLqi92Vx) ] + +> 2014-09-11 @好东西传送门: 问:@付超群 不知道有没有中文发音相似度计算算法或者类库?比如北京 百斤 鼻颈 背景 如果可以顺道比较英文更好,比如peking,beking 答: 关于算法和开源代码整理了一个 #脑图#,问答进展和相关资料在 http://t.cn/Rhf5xio 还收录了一些相关论文(含汉语) 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BmsMAeh0K) ] + +2014-09-13 可以结合以前推荐的图数据库专题看 http://t.cn/RhMgVCF [ [微博](http://www.weibo.com/5220650532/BmLpwdOXs) ] + +> 2014-09-13 @西瓜大丸子汤: 赞OrientDB,超级方便灵活,JSON进,SQL出,随时可以改数据结构,即使不做图计算也有用。MySQL, ElasticSearch, MongoDB, Neo4j, Redis一圈下来,还是OrientDB最符合我的需要,表达力最好,学习成本最低。速度OK不算最好,不过机器速度根本不是系统瓶颈,而且有很多优化的办法。 http://t.cn/RhMgLvG [ [微博](http://www.weibo.com/1932835417/BmLo6bLIV) ] + +2014-09-13 问: @扛着甘蔗 有没有python访问使用dbpedia,freebase,等这些知识库查询的demo? 答: stackoverflow 有相关例子,找了一些相关资源 http://t.cn/RhMdlpG 有一个用freebase实现entity linking的例子 Quepy有例子展示如何将自然语言问题转化为数据库查询 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BmLjK6gVv) ] + +2014-09-13 推荐一个很惊艳的免费图库列表(来自wikimedia):很多public domain图片库完全免费没有版权问题,还有不少基于知识共享许可(creative commons)的免费图片库 http://t.cn/RhMu3GQ 内容包罗万象:生物,科学,历史,天文,地图,各国风情,艺术,体育... 有的图库有上千万张图片。附图为长微博级目录 [ [微博](http://www.weibo.com/5220650532/BmKnCgD1s) ] + +2014-09-13 传送理由:人工智能资源库 3000+资源,12个分类,根据喜好,点击率排序 //@王海勋haixun: 转发微博 [ [微博](http://www.weibo.com/5220650532/BmJ7XfW8r) ] + +> 2014-09-12 @BoxingChen: 开源工具和开放的数据越来越多,口碑如何?怎么选择呢?open AI Resource http://t.cn/RhMCIKC 收集了AI领域的很多工具和数据,分类让大家点赞和评论。机器学习领域暂时获赞领先的工具是libsvm,NLP领域的是斯坦福POS tagger。去那找你需要的open source,也去那为你喜欢的,或自己的工具点个赞吧。 [ [微博](http://www.weibo.com/1767949300/BmHFV4Te9) ] + + + 2014-09-13 传送: Searchable full-text transcripts of WWDC sessions (2010-2014)音频转字幕,全文检索所有录像发言 [ [微博](http://www.weibo.com/5220650532/BmIenexms) ] > 2014-09-12 @容芳志: 每年Apple WWDC大会的keynote和课程文字版都在这里,整理的太好了,忍不住分享: http://t.cn/z8exsaz [ [微博](http://www.weibo.com/1776143133/BmCBXyoqs) ] From bd17c13e2e297503ff90fb40b0e74a334cabd16f Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 23 Sep 2014 15:37:41 -0700 Subject: [PATCH 389/485] Create mlss.md --- awesome/mlss.md | 40 ++++++++++++++++++++++++++++++++++++++++ 1 file changed, 40 insertions(+) create mode 100644 awesome/mlss.md diff --git a/awesome/mlss.md b/awesome/mlss.md new file mode 100644 index 0000000..bb41514 --- /dev/null +++ b/awesome/mlss.md @@ -0,0 +1,40 @@ +# MLSS Machine Learning Summer Schools + (forked from http://www.mlss.cc/) + + +## Future (8) +* MLSS Spain (Fernando Perez-Cruz), late spring 2016 (tentative) +* MLSS London (tentative) +* MLSS Tübingen, summer 2017 (tentative) +* MLSS Africa (very tentative) +* MLSS Kyoto (Marco Cuturi, Masashi Sugiyama, Akihiro Yamamoto), August 31 - September 11 (tentative), 2015 +* MLSS Tübingen (Michael Hirsch, Philipp Hennig, Bernhard Schölkopf), July 13-24, 2015 +* MLSS Sydney (Edwin Bonilla, Yang Wang, Bob Williamson), 16 - 25 February, 2015 +* MLSS Austin (Peter Stone, Pradeep Ravikumar), January 7-16, 2015 http://www.cs.utexas.edu/mlss/ + +## Past (26) +* MLSS China, Beijing (Stephen Gould, Hang Li, Zhi-Hua Zhou), June 15-21, 2014, colocated with ICML http://lamda.nju.edu.cn/conf/mlss2014/ +* MLSS Pittsburgh (Alex Smola & Zico Kolter), July 6-18, 2014 http://mlss2014.com/ +* MLSS Iceland (Sami Kaski), April 26 - May 4, 2014 (colocated with AISTATS) http://mlss2014.hiit.fi/ +* MLSS Tübingen, Germany, 26 August - 07 September 2013 http://mlss.tuebingen.mpg.de +* MLSS Kyoto, August 27 - September 7, 2012 http://www.i.kyoto-u.ac.jp/mlss12/ +* MLSS Santa Cruz, July 9-20, 2012 http://mlss.soe.ucsc.edu/home +* MLSS La Palma, Canary Islands, April 11-19, 2012 (followed by AISTATS) http://mlss2012.tsc.uc3m.es/ +* MLSS France, September 4 - 17, 2011 http://mlss11.bordeaux.inria.fr/ +* MLSS @Purdue, June 13 and June 24, 2011 http://learning.stat.purdue.edu/wiki/mlss/start +* MLSS Singapore, June 13 - 17, 2011 http://bigbird.comp.nus.edu.sg/pmwiki/farm/mlss/ +* MLSS Canberra, Australia, September 27 - October 6, 2010 http://canberra10.mlss.cc +* MLSS Sardinia, May 6 - May 12, 2010 http://www.sardegnaricerche.it/index.php?xsl=370&s=139254&v=2&c=3841&sc=&qr=1&qp=3&vd=2&fa=1&t=3 http://videolectures.net/mlss2010_sardinia/ +* MLSS Cambridge, UK, August 29 - September 10, 2009 http://mlg.eng.cam.ac.uk/mlss09 +* MLSS Canberra, Australia, January 26 - February 6, 2009 http://ssll.cecs.anu.edu.au/ +* MLSS Isle de Re, France, September 1-15, 2008 +* MLSS Kioloa, Australia, March 3 - 14, 2008 http://kioloa08.mlss.cc +* MLSS Tübingen, Germany, August 20 - August 31, 2007 http://videolectures.net/mlss07_tuebingen/ +* MLSS Taipei, Taiwan, July 24 - August 2, 2006 http://www.iis.sinica.edu.tw/MLSS2006/ +* MLSS Canberra, Australia, February 6-17, 2006 http://canberra06.mlss.cc/ +* MLSS Chicago, USA, May 16-27, 2005 +* MLSS Canberra, Australia, January 23 - February 5, 2005 +* MLSS Berder, France, September 12-25, 2004 +* MLSS Tübingen, Germany, August 4-16, 2003 +* MLSS Canberra, Australia, February 2-14, 2003 +* MLSS Canberra, Australia, February 11-22, 2002 From 3f5230c63bd73e82a9089f211acf4ef42068c8e9 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 23 Sep 2014 15:38:49 -0700 Subject: [PATCH 390/485] Update mlss.md MLSS Sydney --- awesome/mlss.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/awesome/mlss.md b/awesome/mlss.md index bb41514..f1a517a 100644 --- a/awesome/mlss.md +++ b/awesome/mlss.md @@ -1,5 +1,5 @@ # MLSS Machine Learning Summer Schools - (forked from http://www.mlss.cc/) + (forked from http://www.mlss.cc/) adding more links to the list ## Future (8) @@ -9,7 +9,7 @@ * MLSS Africa (very tentative) * MLSS Kyoto (Marco Cuturi, Masashi Sugiyama, Akihiro Yamamoto), August 31 - September 11 (tentative), 2015 * MLSS Tübingen (Michael Hirsch, Philipp Hennig, Bernhard Schölkopf), July 13-24, 2015 -* MLSS Sydney (Edwin Bonilla, Yang Wang, Bob Williamson), 16 - 25 February, 2015 +* MLSS Sydney (Edwin Bonilla, Yang Wang, Bob Williamson), 16 - 25 February, 2015 http://www.nicta.com.au/research/machine_learning/mlss2015 * MLSS Austin (Peter Stone, Pradeep Ravikumar), January 7-16, 2015 http://www.cs.utexas.edu/mlss/ ## Past (26) From 9ac861843ac2325221c6b4205f36abb2e16a1299 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 23 Sep 2014 15:41:39 -0700 Subject: [PATCH 391/485] Update mlss.md MLSS Isle de Re, France, September 1-15, 2008 --- awesome/mlss.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/mlss.md b/awesome/mlss.md index f1a517a..509e738 100644 --- a/awesome/mlss.md +++ b/awesome/mlss.md @@ -27,7 +27,7 @@ * MLSS Sardinia, May 6 - May 12, 2010 http://www.sardegnaricerche.it/index.php?xsl=370&s=139254&v=2&c=3841&sc=&qr=1&qp=3&vd=2&fa=1&t=3 http://videolectures.net/mlss2010_sardinia/ * MLSS Cambridge, UK, August 29 - September 10, 2009 http://mlg.eng.cam.ac.uk/mlss09 * MLSS Canberra, Australia, January 26 - February 6, 2009 http://ssll.cecs.anu.edu.au/ -* MLSS Isle de Re, France, September 1-15, 2008 +* MLSS Isle de Re, France, September 1-15, 2008 [archive](https://web.archive.org/web/20080329172541/http://mlss08.futurs.inria.fr/) [announcement](http://eventseer.net/e/7178/) * MLSS Kioloa, Australia, March 3 - 14, 2008 http://kioloa08.mlss.cc * MLSS Tübingen, Germany, August 20 - August 31, 2007 http://videolectures.net/mlss07_tuebingen/ * MLSS Taipei, Taiwan, July 24 - August 2, 2006 http://www.iis.sinica.edu.tw/MLSS2006/ From 992b74feaa0d805a69cd3ae58cef1b2320d2642c Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 23 Sep 2014 15:43:14 -0700 Subject: [PATCH 392/485] Update mlss.md MLSS Sardinia, May 6 - May 12, 2010 --- awesome/mlss.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/mlss.md b/awesome/mlss.md index 509e738..ec2b540 100644 --- a/awesome/mlss.md +++ b/awesome/mlss.md @@ -24,7 +24,7 @@ * MLSS @Purdue, June 13 and June 24, 2011 http://learning.stat.purdue.edu/wiki/mlss/start * MLSS Singapore, June 13 - 17, 2011 http://bigbird.comp.nus.edu.sg/pmwiki/farm/mlss/ * MLSS Canberra, Australia, September 27 - October 6, 2010 http://canberra10.mlss.cc -* MLSS Sardinia, May 6 - May 12, 2010 http://www.sardegnaricerche.it/index.php?xsl=370&s=139254&v=2&c=3841&sc=&qr=1&qp=3&vd=2&fa=1&t=3 http://videolectures.net/mlss2010_sardinia/ +* MLSS Sardinia, May 6 - May 12, 2010 http://www.sardegnaricerche.it/index.php?xsl=370&s=139254&v=2&c=3841 [video lecture](http://videolectures.net/mlss2010_sardinia/) * MLSS Cambridge, UK, August 29 - September 10, 2009 http://mlg.eng.cam.ac.uk/mlss09 * MLSS Canberra, Australia, January 26 - February 6, 2009 http://ssll.cecs.anu.edu.au/ * MLSS Isle de Re, France, September 1-15, 2008 [archive](https://web.archive.org/web/20080329172541/http://mlss08.futurs.inria.fr/) [announcement](http://eventseer.net/e/7178/) From 45ae795359654c727ce33c4760f038b5975ab20c Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 23 Sep 2014 15:47:26 -0700 Subject: [PATCH 393/485] Update mlss.md * MLSS Chicago, USA, May 16-27, 2005 --- awesome/mlss.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/mlss.md b/awesome/mlss.md index ec2b540..a5e7509 100644 --- a/awesome/mlss.md +++ b/awesome/mlss.md @@ -32,7 +32,7 @@ * MLSS Tübingen, Germany, August 20 - August 31, 2007 http://videolectures.net/mlss07_tuebingen/ * MLSS Taipei, Taiwan, July 24 - August 2, 2006 http://www.iis.sinica.edu.tw/MLSS2006/ * MLSS Canberra, Australia, February 6-17, 2006 http://canberra06.mlss.cc/ -* MLSS Chicago, USA, May 16-27, 2005 +* MLSS Chicago, USA, May 16-27, 2005 [archive](https://web.archive.org/web/20080314055344/http://chicago05.mlss.cc/) [announcement](http://linguistlist.org/LL/fyi/fyi-details.cfm?submissionid=49210) * MLSS Canberra, Australia, January 23 - February 5, 2005 * MLSS Berder, France, September 12-25, 2004 * MLSS Tübingen, Germany, August 4-16, 2003 From 0020dbc621892afce980722d595590d105968383 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 23 Sep 2014 15:52:27 -0700 Subject: [PATCH 394/485] Update mlss.md MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit * MLSS Berder, France, September 12-25, 2004 * MLSS Tübingen, Germany, August 4-16, 2003 --- awesome/mlss.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/awesome/mlss.md b/awesome/mlss.md index a5e7509..c7aacaa 100644 --- a/awesome/mlss.md +++ b/awesome/mlss.md @@ -34,7 +34,7 @@ * MLSS Canberra, Australia, February 6-17, 2006 http://canberra06.mlss.cc/ * MLSS Chicago, USA, May 16-27, 2005 [archive](https://web.archive.org/web/20080314055344/http://chicago05.mlss.cc/) [announcement](http://linguistlist.org/LL/fyi/fyi-details.cfm?submissionid=49210) * MLSS Canberra, Australia, January 23 - February 5, 2005 -* MLSS Berder, France, September 12-25, 2004 -* MLSS Tübingen, Germany, August 4-16, 2003 +* MLSS Berder, France, September 12-25, 2004 [archive](https://web.archive.org/web/20080406175615/http://www.kyb.tuebingen.mpg.de/mlss04/) +* MLSS Tübingen, Germany, August 4-16, 2003 [archive](https://web.archive.org/web/20080409113424/http://www.kyb.tuebingen.mpg.de/mlss04/mlss03/) * MLSS Canberra, Australia, February 2-14, 2003 * MLSS Canberra, Australia, February 11-22, 2002 From 1f09091a96b52dbc5870b84a457d1a13cea3ce31 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 23 Sep 2014 15:56:08 -0700 Subject: [PATCH 395/485] Update mlss.md MLSS Canberra, Australia, January 23 - February 5, 2005 MLSS Canberra, Australia, February 2-14, 2003 MLSS Canberra, Australia, February 11-22, 2002 --- awesome/mlss.md | 15 ++++++++------- 1 file changed, 8 insertions(+), 7 deletions(-) diff --git a/awesome/mlss.md b/awesome/mlss.md index c7aacaa..f39aa03 100644 --- a/awesome/mlss.md +++ b/awesome/mlss.md @@ -27,14 +27,15 @@ * MLSS Sardinia, May 6 - May 12, 2010 http://www.sardegnaricerche.it/index.php?xsl=370&s=139254&v=2&c=3841 [video lecture](http://videolectures.net/mlss2010_sardinia/) * MLSS Cambridge, UK, August 29 - September 10, 2009 http://mlg.eng.cam.ac.uk/mlss09 * MLSS Canberra, Australia, January 26 - February 6, 2009 http://ssll.cecs.anu.edu.au/ -* MLSS Isle de Re, France, September 1-15, 2008 [archive](https://web.archive.org/web/20080329172541/http://mlss08.futurs.inria.fr/) [announcement](http://eventseer.net/e/7178/) +* MLSS Isle de Re, France, September 1-15, 2008 https://web.archive.org/web/20080329172541/http://mlss08.futurs.inria.fr/ [announcement](http://eventseer.net/e/7178/) * MLSS Kioloa, Australia, March 3 - 14, 2008 http://kioloa08.mlss.cc * MLSS Tübingen, Germany, August 20 - August 31, 2007 http://videolectures.net/mlss07_tuebingen/ * MLSS Taipei, Taiwan, July 24 - August 2, 2006 http://www.iis.sinica.edu.tw/MLSS2006/ * MLSS Canberra, Australia, February 6-17, 2006 http://canberra06.mlss.cc/ -* MLSS Chicago, USA, May 16-27, 2005 [archive](https://web.archive.org/web/20080314055344/http://chicago05.mlss.cc/) [announcement](http://linguistlist.org/LL/fyi/fyi-details.cfm?submissionid=49210) -* MLSS Canberra, Australia, January 23 - February 5, 2005 -* MLSS Berder, France, September 12-25, 2004 [archive](https://web.archive.org/web/20080406175615/http://www.kyb.tuebingen.mpg.de/mlss04/) -* MLSS Tübingen, Germany, August 4-16, 2003 [archive](https://web.archive.org/web/20080409113424/http://www.kyb.tuebingen.mpg.de/mlss04/mlss03/) -* MLSS Canberra, Australia, February 2-14, 2003 -* MLSS Canberra, Australia, February 11-22, 2002 +* MLSS Chicago, USA, May 16-27, 2005 https://web.archive.org/web/20080314055344/http://chicago05.mlss.cc/ [announcement](http://linguistlist.org/LL/fyi/fyi-details.cfm?submissionid=49210) +* MLSS Canberra, Australia, January 23 - February 5, 2005 https://web.archive.org/web/20060105025204/http://canberra05.mlss.cc/ +* MLSS Berder, France, September 12-25, 2004 https://web.archive.org/web/20080406175615/http://www.kyb.tuebingen.mpg.de/mlss04/ +* MLSS Tübingen, Germany, August 4-16, 2003 +* https://web.archive.org/web/20080409113424/http://www.kyb.tuebingen.mpg.de/mlss04/mlss03/ +* MLSS Canberra, Australia, February 2-14, 2003 https://web.archive.org/web/20030607005801/http://mlg.anu.edu.au/summer2003/ +* MLSS Canberra, Australia, February 11-22, 2002 https://web.archive.org/web/20030607063738/http://mlg.anu.edu.au/summer2002/ From 9574df1d6e7390bde2927adf47d9039b7b5f9707 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 23 Sep 2014 15:57:09 -0700 Subject: [PATCH 396/485] Update mlss.md --- awesome/mlss.md | 13 ++++++------- 1 file changed, 6 insertions(+), 7 deletions(-) diff --git a/awesome/mlss.md b/awesome/mlss.md index f39aa03..280c490 100644 --- a/awesome/mlss.md +++ b/awesome/mlss.md @@ -32,10 +32,9 @@ * MLSS Tübingen, Germany, August 20 - August 31, 2007 http://videolectures.net/mlss07_tuebingen/ * MLSS Taipei, Taiwan, July 24 - August 2, 2006 http://www.iis.sinica.edu.tw/MLSS2006/ * MLSS Canberra, Australia, February 6-17, 2006 http://canberra06.mlss.cc/ -* MLSS Chicago, USA, May 16-27, 2005 https://web.archive.org/web/20080314055344/http://chicago05.mlss.cc/ [announcement](http://linguistlist.org/LL/fyi/fyi-details.cfm?submissionid=49210) -* MLSS Canberra, Australia, January 23 - February 5, 2005 https://web.archive.org/web/20060105025204/http://canberra05.mlss.cc/ -* MLSS Berder, France, September 12-25, 2004 https://web.archive.org/web/20080406175615/http://www.kyb.tuebingen.mpg.de/mlss04/ -* MLSS Tübingen, Germany, August 4-16, 2003 -* https://web.archive.org/web/20080409113424/http://www.kyb.tuebingen.mpg.de/mlss04/mlss03/ -* MLSS Canberra, Australia, February 2-14, 2003 https://web.archive.org/web/20030607005801/http://mlg.anu.edu.au/summer2003/ -* MLSS Canberra, Australia, February 11-22, 2002 https://web.archive.org/web/20030607063738/http://mlg.anu.edu.au/summer2002/ +* MLSS Chicago, USA, May 16-27, 2005 [archive](https://web.archive.org/web/20080314055344/http://chicago05.mlss.cc/) [announcement](http://linguistlist.org/LL/fyi/fyi-details.cfm?submissionid=49210) +* MLSS Canberra, Australia, January 23 - February 5, 2005 [archive](https://web.archive.org/web/20060105025204/http://canberra05.mlss.cc/)[archive]( +* MLSS Berder, France, September 12-25, 2004 [archive](https://web.archive.org/web/20080406175615/http://www.kyb.tuebingen.mpg.de/mlss04/) +* MLSS Tübingen, Germany, August 4-16, 2003 [archive](https://web.archive.org/web/20080409113424/http://www.kyb.tuebingen.mpg.de/mlss04/mlss03/) +* MLSS Canberra, Australia, February 2-14, 2003 [archive](https://web.archive.org/web/20030607005801/http://mlg.anu.edu.au/summer2003/) +* MLSS Canberra, Australia, February 11-22, 2002 [archive](https://web.archive.org/web/20030607063738/http://mlg.anu.edu.au/summer2002/) From d273614c238c1ebce2dafb983632866defec822f Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 23 Sep 2014 15:57:27 -0700 Subject: [PATCH 397/485] Update mlss.md --- awesome/mlss.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/mlss.md b/awesome/mlss.md index 280c490..5542ec9 100644 --- a/awesome/mlss.md +++ b/awesome/mlss.md @@ -33,7 +33,7 @@ * MLSS Taipei, Taiwan, July 24 - August 2, 2006 http://www.iis.sinica.edu.tw/MLSS2006/ * MLSS Canberra, Australia, February 6-17, 2006 http://canberra06.mlss.cc/ * MLSS Chicago, USA, May 16-27, 2005 [archive](https://web.archive.org/web/20080314055344/http://chicago05.mlss.cc/) [announcement](http://linguistlist.org/LL/fyi/fyi-details.cfm?submissionid=49210) -* MLSS Canberra, Australia, January 23 - February 5, 2005 [archive](https://web.archive.org/web/20060105025204/http://canberra05.mlss.cc/)[archive]( +* MLSS Canberra, Australia, January 23 - February 5, 2005 [archive](https://web.archive.org/web/20060105025204/http://canberra05.mlss.cc/) * MLSS Berder, France, September 12-25, 2004 [archive](https://web.archive.org/web/20080406175615/http://www.kyb.tuebingen.mpg.de/mlss04/) * MLSS Tübingen, Germany, August 4-16, 2003 [archive](https://web.archive.org/web/20080409113424/http://www.kyb.tuebingen.mpg.de/mlss04/mlss03/) * MLSS Canberra, Australia, February 2-14, 2003 [archive](https://web.archive.org/web/20030607005801/http://mlg.anu.edu.au/summer2003/) From c28b3e524a343c9ef53a65c606b1b6636c397e35 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 23 Sep 2014 15:57:53 -0700 Subject: [PATCH 398/485] Update mlss.md --- awesome/mlss.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/mlss.md b/awesome/mlss.md index 5542ec9..2a3f376 100644 --- a/awesome/mlss.md +++ b/awesome/mlss.md @@ -27,7 +27,7 @@ * MLSS Sardinia, May 6 - May 12, 2010 http://www.sardegnaricerche.it/index.php?xsl=370&s=139254&v=2&c=3841 [video lecture](http://videolectures.net/mlss2010_sardinia/) * MLSS Cambridge, UK, August 29 - September 10, 2009 http://mlg.eng.cam.ac.uk/mlss09 * MLSS Canberra, Australia, January 26 - February 6, 2009 http://ssll.cecs.anu.edu.au/ -* MLSS Isle de Re, France, September 1-15, 2008 https://web.archive.org/web/20080329172541/http://mlss08.futurs.inria.fr/ [announcement](http://eventseer.net/e/7178/) +* MLSS Isle de Re, France, September 1-15, 2008 [archive](https://web.archive.org/web/20080329172541/http://mlss08.futurs.inria.fr/) [announcement](http://eventseer.net/e/7178/) * MLSS Kioloa, Australia, March 3 - 14, 2008 http://kioloa08.mlss.cc * MLSS Tübingen, Germany, August 20 - August 31, 2007 http://videolectures.net/mlss07_tuebingen/ * MLSS Taipei, Taiwan, July 24 - August 2, 2006 http://www.iis.sinica.edu.tw/MLSS2006/ From 7aed9ae90c7f97ee237f452b3898a84533cff4a1 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 23 Sep 2014 16:03:33 -0700 Subject: [PATCH 399/485] Update mlss.md --- awesome/mlss.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/mlss.md b/awesome/mlss.md index 2a3f376..aea1be0 100644 --- a/awesome/mlss.md +++ b/awesome/mlss.md @@ -12,7 +12,7 @@ * MLSS Sydney (Edwin Bonilla, Yang Wang, Bob Williamson), 16 - 25 February, 2015 http://www.nicta.com.au/research/machine_learning/mlss2015 * MLSS Austin (Peter Stone, Pradeep Ravikumar), January 7-16, 2015 http://www.cs.utexas.edu/mlss/ -## Past (26) +## Past (25) * MLSS China, Beijing (Stephen Gould, Hang Li, Zhi-Hua Zhou), June 15-21, 2014, colocated with ICML http://lamda.nju.edu.cn/conf/mlss2014/ * MLSS Pittsburgh (Alex Smola & Zico Kolter), July 6-18, 2014 http://mlss2014.com/ * MLSS Iceland (Sami Kaski), April 26 - May 4, 2014 (colocated with AISTATS) http://mlss2014.hiit.fi/ From e55b326b6e1d992598a3afc16f99d85ab9af5a65 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 23 Sep 2014 20:06:49 -0700 Subject: [PATCH 400/485] Update mlss.md --- awesome/mlss.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/awesome/mlss.md b/awesome/mlss.md index aea1be0..fe7f29d 100644 --- a/awesome/mlss.md +++ b/awesome/mlss.md @@ -1,6 +1,8 @@ # MLSS Machine Learning Summer Schools (forked from http://www.mlss.cc/) adding more links to the list +## highlights +* 特别推荐09年MLSS 所有还幻灯片打包下载 51M ZIP http://t.cn/RhWBmXr @bigiceberg 推荐 ## Future (8) * MLSS Spain (Fernando Perez-Cruz), late spring 2016 (tentative) From c24936c55534c9657cd95276815ff1b7c30dd0b4 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 23 Sep 2014 20:07:21 -0700 Subject: [PATCH 401/485] Update mlss.md --- awesome/mlss.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/mlss.md b/awesome/mlss.md index fe7f29d..3009d16 100644 --- a/awesome/mlss.md +++ b/awesome/mlss.md @@ -2,7 +2,7 @@ (forked from http://www.mlss.cc/) adding more links to the list ## highlights -* 特别推荐09年MLSS 所有还幻灯片打包下载 51M ZIP http://t.cn/RhWBmXr @bigiceberg 推荐 +* 特别推荐09年UK的MLSS 所有还幻灯片打包下载 51M ZIP http://t.cn/RhWBmXr @bigiceberg 推荐 "其中09年UK的mlss最经典" ## Future (8) * MLSS Spain (Fernando Perez-Cruz), late spring 2016 (tentative) From 19d3dddda7ab07d353e561f4c4d0424f2dc05d92 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 23 Sep 2014 20:08:12 -0700 Subject: [PATCH 402/485] Update mlss.md --- awesome/mlss.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/mlss.md b/awesome/mlss.md index 3009d16..9dd0045 100644 --- a/awesome/mlss.md +++ b/awesome/mlss.md @@ -2,7 +2,7 @@ (forked from http://www.mlss.cc/) adding more links to the list ## highlights -* 特别推荐09年UK的MLSS 所有还幻灯片打包下载 51M ZIP http://t.cn/RhWBmXr @bigiceberg 推荐 "其中09年UK的mlss最经典" +* 特别推荐09年UK的MLSS 所有还幻灯片打包下载 [ZIP 51M](http://mlg.eng.cam.ac.uk/mlss09/mlss_slides.zip) @bigiceberg 推荐 "其中09年UK的mlss最经典" ## Future (8) * MLSS Spain (Fernando Perez-Cruz), late spring 2016 (tentative) From d815097cafd468a88221afb2a7f2425d05b14a68 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 23 Sep 2014 20:08:27 -0700 Subject: [PATCH 403/485] Update mlss.md --- awesome/mlss.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/mlss.md b/awesome/mlss.md index 9dd0045..bd68440 100644 --- a/awesome/mlss.md +++ b/awesome/mlss.md @@ -2,7 +2,7 @@ (forked from http://www.mlss.cc/) adding more links to the list ## highlights -* 特别推荐09年UK的MLSS 所有还幻灯片打包下载 [ZIP 51M](http://mlg.eng.cam.ac.uk/mlss09/mlss_slides.zip) @bigiceberg 推荐 "其中09年UK的mlss最经典" +* 特别推荐09年UK的MLSS 所有还幻灯片打包下载 [ZIP 51M](http://mlg.eng.cam.ac.uk/mlss09/mlss_slides.zip) @bigiceberg 推荐 "其中09年UK的mlss最经典" ## Future (8) * MLSS Spain (Fernando Perez-Cruz), late spring 2016 (tentative) From eaac456045965bd08a9dd7f336554419065d5579 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 23 Sep 2014 20:08:40 -0700 Subject: [PATCH 404/485] Update mlss.md --- awesome/mlss.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/mlss.md b/awesome/mlss.md index bd68440..b5bad3d 100644 --- a/awesome/mlss.md +++ b/awesome/mlss.md @@ -2,7 +2,7 @@ (forked from http://www.mlss.cc/) adding more links to the list ## highlights -* 特别推荐09年UK的MLSS 所有还幻灯片打包下载 [ZIP 51M](http://mlg.eng.cam.ac.uk/mlss09/mlss_slides.zip) @bigiceberg 推荐 "其中09年UK的mlss最经典" +* 特别推荐09年UK的MLSS 所有还幻灯片 [打包下载ZIP 51M](http://mlg.eng.cam.ac.uk/mlss09/mlss_slides.zip) @bigiceberg 推荐 "其中09年UK的mlss最经典" ## Future (8) * MLSS Spain (Fernando Perez-Cruz), late spring 2016 (tentative) From 14ad4263200734ed82df5951ac5d9b4308fff87d Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 24 Sep 2014 15:37:56 -0700 Subject: [PATCH 405/485] Create computer-vision-dataset.md --- awesome/computer-vision-dataset.md | 30 ++++++++++++++++++++++++++++++ 1 file changed, 30 insertions(+) create mode 100644 awesome/computer-vision-dataset.md diff --git a/awesome/computer-vision-dataset.md b/awesome/computer-vision-dataset.md new file mode 100644 index 0000000..7294d9b --- /dev/null +++ b/awesome/computer-vision-dataset.md @@ -0,0 +1,30 @@ +# 计算机视觉数据集不完全汇总 +contributors: @丕子 @邹宇华 @李岩ICT人脸识别 @数据堂 +created: 2014-09-24 + +## 经典计算机视觉数据集 +* http://yann.lecun.com/exdb/mnist/ The MNIST database of handwritten digits, available from this page, has a training set of 60,000 examples, and a test set of 10,000 examples. Collected by Yann LeCun, Corinna Cortes, Christopher J.C. Burges +* http://www.cs.toronto.edu/~kriz/cifar.html cifar10 The CIFAR-10 and CIFAR-100 are labeled subsets of the 80 million tiny images dataset. They were collected by Alex Krizhevsky, Vinod Nair, and Geoffrey Hinton. +* http://en.wikipedia.org/wiki/Caltech_101 Caltech 101 is a data set of digital images created in September, 2003, compiled by Fei-Fei Li, Marco Andreetto, Marc 'Aurelio Ranzato and Pietro Perona at the California Institute of Technology. It is intended to facilitate Computer Vision research and techniques. It is most applicable to techniques involving recognition, classification, and categorization. +* http://sourceforge.net/projects/oirds/ Overhead Imagery Research Data Set (OIRDS) - an annotated data library & tools to aid in the development of computer vision algorithms +* http://www.image-net.org/ ImageNet is an image database organized according to the WordNet hierarchy (currently only the nouns), in which each node of the hierarchy is depicted by hundreds and thousands of images. + +## 计算机视觉数据集:目录 +* http://riemenschneider.hayko.at/vision/dataset/ @邹宇华 推荐 比较新的一个计算机视觉数据库网站 Yet Another Computer Vision Index To Datasets (YACVID) 200多数据集 +* http://www.computervisiononline.com/datasets 上百数据集 @丕子 推荐 +* http://www.cvpapers.com/datasets.html 上百数据集 +* http://homepages.inf.ed.ac.uk/rbf/CVonline/ 170多数据集 @李岩ICT人脸识别 推荐 + +* http://vision.ucsd.edu/datasetsAll UCSD 数据集 +* http://www-cvr.ai.uiuc.edu/ponce_grp/data/ UIUC Datasets +* http://www.vcipl.okstate.edu/otcbvs/bench/ OTCBVS Datasets +* http://www.nicta.com.au/research/projects/AutoMap/computer_vision_datasets @数据堂 推荐NICTA Pedestrian Dataset(澳大利亚信息与通讯技术研究中心行人数据库) 论文 http://www.nicta.com.au/pub?doc=1245 +* http://clickdamage.com/sourcecode/cv_datasets.php 几十个数据集,有分类 +* http://en.wikipedia.org/wiki/Category:Datasets_in_computer_vision 维基百科的列表 列了几个经典数据集 + +## 计算机视觉数据集:人脸识别:目录 +* http://www.face-rec.org/databases/ 几十个数据集 +* http://en.wikipedia.org/wiki/Comparison_of_facial_image_datasets 11个数据集列表对比 + +## 基本策略 +通常可以查阅相关论文或竞赛,再顺藤摸瓜找数据集,有时还需要联系原作者, ICCV, CVPR 应该都有一些线索 From 73a032c4a13e28cfe99e76e30010c6326eb26027 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 24 Sep 2014 15:38:38 -0700 Subject: [PATCH 406/485] Update computer-vision-dataset.md --- awesome/computer-vision-dataset.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/computer-vision-dataset.md b/awesome/computer-vision-dataset.md index 7294d9b..178c3d8 100644 --- a/awesome/computer-vision-dataset.md +++ b/awesome/computer-vision-dataset.md @@ -1,4 +1,4 @@ -# 计算机视觉数据集不完全汇总 +# 计算机视觉数据集(computer vision dataset)不完全汇总 contributors: @丕子 @邹宇华 @李岩ICT人脸识别 @数据堂 created: 2014-09-24 From e1b64e495d10beaba168fc7082e8cdf49e4f688b Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 24 Sep 2014 15:38:56 -0700 Subject: [PATCH 407/485] Update computer-vision-dataset.md --- awesome/computer-vision-dataset.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/computer-vision-dataset.md b/awesome/computer-vision-dataset.md index 178c3d8..2b906e7 100644 --- a/awesome/computer-vision-dataset.md +++ b/awesome/computer-vision-dataset.md @@ -1,4 +1,4 @@ -# 计算机视觉数据集(computer vision dataset)不完全汇总 +# 计算机视觉数据集(computer vision dataset)汇总 contributors: @丕子 @邹宇华 @李岩ICT人脸识别 @数据堂 created: 2014-09-24 From fd0028c88c6d3b9db566939b9dfe19525ce490c5 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 24 Sep 2014 15:39:46 -0700 Subject: [PATCH 408/485] Update computer-vision-dataset.md --- awesome/computer-vision-dataset.md | 3 +++ 1 file changed, 3 insertions(+) diff --git a/awesome/computer-vision-dataset.md b/awesome/computer-vision-dataset.md index 2b906e7..698e725 100644 --- a/awesome/computer-vision-dataset.md +++ b/awesome/computer-vision-dataset.md @@ -1,7 +1,10 @@ # 计算机视觉数据集(computer vision dataset)汇总 contributors: @丕子 @邹宇华 @李岩ICT人脸识别 @数据堂 + created: 2014-09-24 +discussion: https://github.com/memect/hao/issues/222 + ## 经典计算机视觉数据集 * http://yann.lecun.com/exdb/mnist/ The MNIST database of handwritten digits, available from this page, has a training set of 60,000 examples, and a test set of 10,000 examples. Collected by Yann LeCun, Corinna Cortes, Christopher J.C. Burges * http://www.cs.toronto.edu/~kriz/cifar.html cifar10 The CIFAR-10 and CIFAR-100 are labeled subsets of the 80 million tiny images dataset. They were collected by Alex Krizhevsky, Vinod Nair, and Geoffrey Hinton. From a30e3ceaa22a2505107f1c118f9b86af9eeb065e Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 24 Sep 2014 15:55:15 -0700 Subject: [PATCH 409/485] Update computer-vision-dataset.md --- awesome/computer-vision-dataset.md | 6 +++++- 1 file changed, 5 insertions(+), 1 deletion(-) diff --git a/awesome/computer-vision-dataset.md b/awesome/computer-vision-dataset.md index 698e725..f50e634 100644 --- a/awesome/computer-vision-dataset.md +++ b/awesome/computer-vision-dataset.md @@ -1,5 +1,5 @@ # 计算机视觉数据集(computer vision dataset)汇总 -contributors: @丕子 @邹宇华 @李岩ICT人脸识别 @数据堂 +contributors: @丕子 @邹宇华 @李岩ICT人脸识别 @网路冷眼 @王威廉 @金连文 @数据堂 created: 2014-09-24 @@ -11,6 +11,7 @@ discussion: https://github.com/memect/hao/issues/222 * http://en.wikipedia.org/wiki/Caltech_101 Caltech 101 is a data set of digital images created in September, 2003, compiled by Fei-Fei Li, Marco Andreetto, Marc 'Aurelio Ranzato and Pietro Perona at the California Institute of Technology. It is intended to facilitate Computer Vision research and techniques. It is most applicable to techniques involving recognition, classification, and categorization. * http://sourceforge.net/projects/oirds/ Overhead Imagery Research Data Set (OIRDS) - an annotated data library & tools to aid in the development of computer vision algorithms * http://www.image-net.org/ ImageNet is an image database organized according to the WordNet hierarchy (currently only the nouns), in which each node of the hierarchy is depicted by hundreds and thousands of images. +* http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for @网路冷眼 推荐【Yahoo实验室公开1亿Flickr图像和视频供研究之用】 One Hundred Million Creative Commons Flickr Images for Research ## 计算机视觉数据集:目录 * http://riemenschneider.hayko.at/vision/dataset/ @邹宇华 推荐 比较新的一个计算机视觉数据库网站 Yet Another Computer Vision Index To Datasets (YACVID) 200多数据集 @@ -23,7 +24,10 @@ discussion: https://github.com/memect/hao/issues/222 * http://www.vcipl.okstate.edu/otcbvs/bench/ OTCBVS Datasets * http://www.nicta.com.au/research/projects/AutoMap/computer_vision_datasets @数据堂 推荐NICTA Pedestrian Dataset(澳大利亚信息与通讯技术研究中心行人数据库) 论文 http://www.nicta.com.au/pub?doc=1245 * http://clickdamage.com/sourcecode/cv_datasets.php 几十个数据集,有分类 +* http://www.iapr-tc11.org/mediawiki/index.php/Datasets_List @金连文 推荐 IAPR TC11的官网上有许多文档处理相关的数据集,例如联机及脱机手写数据、Text、自然场景的文档图像 * http://en.wikipedia.org/wiki/Category:Datasets_in_computer_vision 维基百科的列表 列了几个经典数据集 +* http://webscope.sandbox.yahoo.com/catalog.php?datatype=i @王威廉 推荐 + ## 计算机视觉数据集:人脸识别:目录 * http://www.face-rec.org/databases/ 几十个数据集 From 8295d29e8f0d05521e478769e0ab5cd22fa08214 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 24 Sep 2014 15:58:16 -0700 Subject: [PATCH 410/485] Update computer-vision-dataset.md --- awesome/computer-vision-dataset.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/computer-vision-dataset.md b/awesome/computer-vision-dataset.md index f50e634..bdae1d1 100644 --- a/awesome/computer-vision-dataset.md +++ b/awesome/computer-vision-dataset.md @@ -5,7 +5,7 @@ created: 2014-09-24 discussion: https://github.com/memect/hao/issues/222 -## 经典计算机视觉数据集 +## 经典/热点计算机视觉数据集 * http://yann.lecun.com/exdb/mnist/ The MNIST database of handwritten digits, available from this page, has a training set of 60,000 examples, and a test set of 10,000 examples. Collected by Yann LeCun, Corinna Cortes, Christopher J.C. Burges * http://www.cs.toronto.edu/~kriz/cifar.html cifar10 The CIFAR-10 and CIFAR-100 are labeled subsets of the 80 million tiny images dataset. They were collected by Alex Krizhevsky, Vinod Nair, and Geoffrey Hinton. * http://en.wikipedia.org/wiki/Caltech_101 Caltech 101 is a data set of digital images created in September, 2003, compiled by Fei-Fei Li, Marco Andreetto, Marc 'Aurelio Ranzato and Pietro Perona at the California Institute of Technology. It is intended to facilitate Computer Vision research and techniques. It is most applicable to techniques involving recognition, classification, and categorization. From 1ccf71be1a473edd0231bb42e2bfecfef7778ee3 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 24 Sep 2014 15:58:44 -0700 Subject: [PATCH 411/485] Update computer-vision-dataset.md --- awesome/computer-vision-dataset.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/computer-vision-dataset.md b/awesome/computer-vision-dataset.md index bdae1d1..ca5440b 100644 --- a/awesome/computer-vision-dataset.md +++ b/awesome/computer-vision-dataset.md @@ -9,9 +9,9 @@ discussion: https://github.com/memect/hao/issues/222 * http://yann.lecun.com/exdb/mnist/ The MNIST database of handwritten digits, available from this page, has a training set of 60,000 examples, and a test set of 10,000 examples. Collected by Yann LeCun, Corinna Cortes, Christopher J.C. Burges * http://www.cs.toronto.edu/~kriz/cifar.html cifar10 The CIFAR-10 and CIFAR-100 are labeled subsets of the 80 million tiny images dataset. They were collected by Alex Krizhevsky, Vinod Nair, and Geoffrey Hinton. * http://en.wikipedia.org/wiki/Caltech_101 Caltech 101 is a data set of digital images created in September, 2003, compiled by Fei-Fei Li, Marco Andreetto, Marc 'Aurelio Ranzato and Pietro Perona at the California Institute of Technology. It is intended to facilitate Computer Vision research and techniques. It is most applicable to techniques involving recognition, classification, and categorization. -* http://sourceforge.net/projects/oirds/ Overhead Imagery Research Data Set (OIRDS) - an annotated data library & tools to aid in the development of computer vision algorithms * http://www.image-net.org/ ImageNet is an image database organized according to the WordNet hierarchy (currently only the nouns), in which each node of the hierarchy is depicted by hundreds and thousands of images. * http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for @网路冷眼 推荐【Yahoo实验室公开1亿Flickr图像和视频供研究之用】 One Hundred Million Creative Commons Flickr Images for Research +* http://sourceforge.net/projects/oirds/ Overhead Imagery Research Data Set (OIRDS) - an annotated data library & tools to aid in the development of computer vision algorithms ## 计算机视觉数据集:目录 * http://riemenschneider.hayko.at/vision/dataset/ @邹宇华 推荐 比较新的一个计算机视觉数据库网站 Yet Another Computer Vision Index To Datasets (YACVID) 200多数据集 From 57cd9e8a55c8bee1f7e92cc25e0d5a9c8575e87e Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 24 Sep 2014 15:59:42 -0700 Subject: [PATCH 412/485] Update computer-vision-dataset.md --- awesome/computer-vision-dataset.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/computer-vision-dataset.md b/awesome/computer-vision-dataset.md index ca5440b..67a3383 100644 --- a/awesome/computer-vision-dataset.md +++ b/awesome/computer-vision-dataset.md @@ -9,7 +9,7 @@ discussion: https://github.com/memect/hao/issues/222 * http://yann.lecun.com/exdb/mnist/ The MNIST database of handwritten digits, available from this page, has a training set of 60,000 examples, and a test set of 10,000 examples. Collected by Yann LeCun, Corinna Cortes, Christopher J.C. Burges * http://www.cs.toronto.edu/~kriz/cifar.html cifar10 The CIFAR-10 and CIFAR-100 are labeled subsets of the 80 million tiny images dataset. They were collected by Alex Krizhevsky, Vinod Nair, and Geoffrey Hinton. * http://en.wikipedia.org/wiki/Caltech_101 Caltech 101 is a data set of digital images created in September, 2003, compiled by Fei-Fei Li, Marco Andreetto, Marc 'Aurelio Ranzato and Pietro Perona at the California Institute of Technology. It is intended to facilitate Computer Vision research and techniques. It is most applicable to techniques involving recognition, classification, and categorization. -* http://www.image-net.org/ ImageNet is an image database organized according to the WordNet hierarchy (currently only the nouns), in which each node of the hierarchy is depicted by hundreds and thousands of images. +* http://www.image-net.org/ ImageNet is an image database organized according to the WordNet hierarchy (currently only the nouns), in which each node of the hierarchy is depicted by hundreds and thousands of images. CVPR 这几年的竞赛用这个数据集测试 * http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for @网路冷眼 推荐【Yahoo实验室公开1亿Flickr图像和视频供研究之用】 One Hundred Million Creative Commons Flickr Images for Research * http://sourceforge.net/projects/oirds/ Overhead Imagery Research Data Set (OIRDS) - an annotated data library & tools to aid in the development of computer vision algorithms From f0a64553cf38fa889133a7240fab438e8b219b43 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 24 Sep 2014 16:04:03 -0700 Subject: [PATCH 413/485] Update computer-vision-dataset.md --- awesome/computer-vision-dataset.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/awesome/computer-vision-dataset.md b/awesome/computer-vision-dataset.md index 67a3383..7610d15 100644 --- a/awesome/computer-vision-dataset.md +++ b/awesome/computer-vision-dataset.md @@ -15,9 +15,9 @@ discussion: https://github.com/memect/hao/issues/222 ## 计算机视觉数据集:目录 * http://riemenschneider.hayko.at/vision/dataset/ @邹宇华 推荐 比较新的一个计算机视觉数据库网站 Yet Another Computer Vision Index To Datasets (YACVID) 200多数据集 -* http://www.computervisiononline.com/datasets 上百数据集 @丕子 推荐 +* http://www.computervisiononline.com/datasets @丕子 推荐 上百数据集 * http://www.cvpapers.com/datasets.html 上百数据集 -* http://homepages.inf.ed.ac.uk/rbf/CVonline/ 170多数据集 @李岩ICT人脸识别 推荐 +* http://homepages.inf.ed.ac.uk/rbf/CVonline/ @李岩ICT人脸识别 推荐 有分类 * http://vision.ucsd.edu/datasetsAll UCSD 数据集 * http://www-cvr.ai.uiuc.edu/ponce_grp/data/ UIUC Datasets From 056df842952b3283ebe03dac8fab95fd3a9c256e Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 24 Sep 2014 16:13:17 -0700 Subject: [PATCH 414/485] Update computer-vision-dataset.md --- awesome/computer-vision-dataset.md | 8 +++++--- 1 file changed, 5 insertions(+), 3 deletions(-) diff --git a/awesome/computer-vision-dataset.md b/awesome/computer-vision-dataset.md index 7610d15..dd1c446 100644 --- a/awesome/computer-vision-dataset.md +++ b/awesome/computer-vision-dataset.md @@ -1,5 +1,5 @@ # 计算机视觉数据集(computer vision dataset)汇总 -contributors: @丕子 @邹宇华 @李岩ICT人脸识别 @网路冷眼 @王威廉 @金连文 @数据堂 +contributors: @丕子 @邹宇华 @李岩ICT人脸识别 @网路冷眼 @王威廉 @金连文 @数据堂 zhubenfulovepoem@cnblog created: 2014-09-24 @@ -15,9 +15,11 @@ discussion: https://github.com/memect/hao/issues/222 ## 计算机视觉数据集:目录 * http://riemenschneider.hayko.at/vision/dataset/ @邹宇华 推荐 比较新的一个计算机视觉数据库网站 Yet Another Computer Vision Index To Datasets (YACVID) 200多数据集 -* http://www.computervisiononline.com/datasets @丕子 推荐 上百数据集 +* http://www.computervisiononline.com/datasets @丕子 Richard Szeliski 推荐 上百数据集 * http://www.cvpapers.com/datasets.html 上百数据集 -* http://homepages.inf.ed.ac.uk/rbf/CVonline/ @李岩ICT人脸识别 推荐 有分类 +* http://datasets.visionbib.com/ Richard Szeliski 推荐 有分类 +* http://homepages.inf.ed.ac.uk/rbf/CVonline/ @李岩ICT人脸识别 Richard Szeliski 推荐 有分类 +* http://blog.csdn.net/zhubenfulovepoem/article/details/7191794 [zhubenfulovepoem](http://my.csdn.net/zhubenfulovepoem) (cnblog) 整理自ComputerVision: Algorithms and Applications by Richard Szeliski * http://vision.ucsd.edu/datasetsAll UCSD 数据集 * http://www-cvr.ai.uiuc.edu/ponce_grp/data/ UIUC Datasets From 6f0c80bd1f7e0d6b0a70a5f25d88eb20abf1f1b4 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 24 Sep 2014 16:13:40 -0700 Subject: [PATCH 415/485] Update computer-vision-dataset.md --- awesome/computer-vision-dataset.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/computer-vision-dataset.md b/awesome/computer-vision-dataset.md index dd1c446..aaaf73f 100644 --- a/awesome/computer-vision-dataset.md +++ b/awesome/computer-vision-dataset.md @@ -19,7 +19,7 @@ discussion: https://github.com/memect/hao/issues/222 * http://www.cvpapers.com/datasets.html 上百数据集 * http://datasets.visionbib.com/ Richard Szeliski 推荐 有分类 * http://homepages.inf.ed.ac.uk/rbf/CVonline/ @李岩ICT人脸识别 Richard Szeliski 推荐 有分类 -* http://blog.csdn.net/zhubenfulovepoem/article/details/7191794 [zhubenfulovepoem](http://my.csdn.net/zhubenfulovepoem) (cnblog) 整理自ComputerVision: Algorithms and Applications by Richard Szeliski +* http://blog.csdn.net/zhubenfulovepoem/article/details/7191794 由 [zhubenfulovepoem](http://my.csdn.net/zhubenfulovepoem) (cnblog) 整理自ComputerVision: Algorithms and Applications by Richard Szeliski * http://vision.ucsd.edu/datasetsAll UCSD 数据集 * http://www-cvr.ai.uiuc.edu/ponce_grp/data/ UIUC Datasets From 2df9b7bf0446d9bfac6274610c382da59958f1b5 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 24 Sep 2014 16:22:05 -0700 Subject: [PATCH 416/485] Update computer-vision-dataset.md --- awesome/computer-vision-dataset.md | 5 ++++- 1 file changed, 4 insertions(+), 1 deletion(-) diff --git a/awesome/computer-vision-dataset.md b/awesome/computer-vision-dataset.md index aaaf73f..4eb3da8 100644 --- a/awesome/computer-vision-dataset.md +++ b/awesome/computer-vision-dataset.md @@ -1,10 +1,13 @@ -# 计算机视觉数据集(computer vision dataset)汇总 +# 计算机视觉数据集不完全汇总 contributors: @丕子 @邹宇华 @李岩ICT人脸识别 @网路冷眼 @王威廉 @金连文 @数据堂 zhubenfulovepoem@cnblog created: 2014-09-24 +keywords: computer vision, dataset + discussion: https://github.com/memect/hao/issues/222 + ## 经典/热点计算机视觉数据集 * http://yann.lecun.com/exdb/mnist/ The MNIST database of handwritten digits, available from this page, has a training set of 60,000 examples, and a test set of 10,000 examples. Collected by Yann LeCun, Corinna Cortes, Christopher J.C. Burges * http://www.cs.toronto.edu/~kriz/cifar.html cifar10 The CIFAR-10 and CIFAR-100 are labeled subsets of the 80 million tiny images dataset. They were collected by Alex Krizhevsky, Vinod Nair, and Geoffrey Hinton. From 39daed059fb13d09cdf7d863c64b6a49c163e493 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 25 Sep 2014 17:37:48 -0700 Subject: [PATCH 417/485] Update test-recent.md --- awesome/test-recent.md | 160 ++++++++++++----------------------------- 1 file changed, 46 insertions(+), 114 deletions(-) diff --git a/awesome/test-recent.md b/awesome/test-recent.md index bfe2357..550126a 100644 --- a/awesome/test-recent.md +++ b/awesome/test-recent.md @@ -1,160 +1,92 @@ -2014-09-19 Large-Scale Distributed Computer Vision As A Cloud Service [ [微博](http://www.weibo.com/5220650532/BnImw9owp) ] -> 2014-09-19 @Rachel____Zhang: 发现了一个好东西,cloudcv http://t.cn/RhKuArr . 基于GraphLab with GPU支持在线object detection, classification和feature extraction(用的是Caffe),提供了MATLAB和Python的API。http://t.cn/8FItstH 还有提供ILSVRC2014 的各种feature... [ [微博](http://www.weibo.com/2607574543/BnIlCguKb) ] +2014-09-26 问:有没有最新的讲述人工智能发展史,现状,展望的资料? 答:人工智能(Artificial Intelligence) 领域综述有一个很好玩的图 "AI Landscape" (2008年AI Magazine附送的海报), 再配上一个AI历史大事件的时间轴demo “ Companion Timeline of Artificial Intelligence History” http://t.cn/RhTXnDF [ [微博](http://www.weibo.com/5220650532/BoJAcrUuy) ] -2014-09-19 推荐Cyrille Rossant博士新书 “IPython cookbook” http://t.cn/RhKH1qp 所有例子在Github上以IPython Notebook方式开源 http://t.cn/RhKH1q0 此书覆盖挺广:基础知识( IPython交互式计算环境,性能分析与优化,高性能计算,数据可视化); 实战短例子(例如统计,机器学习,信号处理,视频与音频等) [ [微博](http://www.weibo.com/5220650532/BnHSNrqZT) ] +2014-09-26 不错,这个应该是第二版 @Vamei 2013年的第一版还有些有趣的图片 http://t.cn/zYtMBGK //@西瓜大丸子汤: 推荐给@好东西传送门 //@Vamei:原作者来认领 [ [微博](http://www.weibo.com/5220650532/BoHdz858S) ] -2014-09-19 问: @ShawnLeesr 给找一些好到逆天的 1.信号处理 2 傅里叶变换 3.小波变换的入门资料吧 答: 资料整理 http://t.cn/RhKNdKs 推 @Heinrich_DMU 傅里叶分析之掐死教程。进阶有Stanford傅立叶变换课(Brad Osgood) http://t.cn/RhKNdKF , MIT小波分析课(Gilbert Strang) http://t.cn/RhKNd9v 请指正补充 [ [微博](http://www.weibo.com/5220650532/BnHcFiekf) ] +> 2014-09-25 @Linux中国: #Python 语言的发展简史# Python是我喜欢的语言,简洁,优美,容易使用。前两天,我很激昂的向朋友宣传Python的好处。 好吧,我承认Python不错,但它为什么叫Python呢? 呃,似乎是一个电视剧的名字。 那你说的Guido是美国人么? 他从Google换到Dropb…http://t.cn/RhYgiGm [ [微博](http://www.weibo.com/1772191555/BoG25tiMh) ] -2014-09-19 [有趣的数据] 一个新推出的可交互地图应用把英国(United Kingdom)的河流的水文数据(river level) 放在网上 http://t.cn/RhK9AoB 。地图每一点对应一个水文观测站,好玩的是大家可以在Twitter上当这个观测站的粉丝:牛津附近的 gauge 2100 http://t.cn/RhK9Aor 居然有12粉 [ [微博](http://www.weibo.com/5220650532/BnH0ncHSp) ] +2014-09-25 这个scrum guide是个经典,对scrum困惑的同学可以看看。同时推荐好文 "The 2013 Scrum Guide changes" http://t.cn/RhjdQ1W 1. Artefact Transparency strengthened 2. Sprint Planning 3. Definition of Ready 4. Time boxes relaxed for most meetings 5. Daily Scrum purpose clarified [ [微博](http://www.weibo.com/5220650532/BoBCqkL9Z) ] -2014-09-19 好东西! [ [微博](http://www.weibo.com/5220650532/BnGKXl9Ic) ] +> 2014-09-25 @朱少民: 当Scrum 的应用爆炸式增长时,形形色色的Scrum变种就出现了,不少公司已经忘记了Scrum 的价值和原则,为此,Scrum Alliance、scrum.org等联合发布了对Scrum的指导文件: http://t.cn/Rhjrrbs [ [微博](http://www.weibo.com/1652927771/BoByZyCjh) ] -> 2014-09-19 @设定控: 一篇在各大社交网站上广为转载的电子图书馆列表,来自译言网,《最好的免费电子图书馆指南(上)》http://t.cn/zYcbH8t 《最好的免费电子图书馆指南(下)》http://t.cn/z84nsDZ 事实我发的很多电子书网站就来自这里,这贴几乎无所不包,学术政治经济资源都有,楼主还没翻译完,有时间多刷新一下吧。 [ [微博](http://www.weibo.com/2142733793/BnGfghg3X) ] +2014-09-25 问: 求计算神经科学资料? 答: 1. 资源门户网站(学者,论文,课程一网打尽) "Computational Neuroscience on the Web" http://t.cn/RhjQAgV 2. 暑期学校(2010至2014共5期) http://t.cn/RhjQAgc 3. 还有华盛顿大学公开课 "Computational Neuroscience" 谢 @苏梦Neuro-Gatsby @课程图谱 @要有光LTBL 推荐 [ [微博](http://www.weibo.com/5220650532/BoAQg5kj6) ] -2014-09-19 赞!Gradient Boosting Tree也参我们以前收集的专题 http://t.cn/RhKc1F5 有Python Go C++多种语言的实现 [ [微博](http://www.weibo.com/5220650532/BnFUv89IL) ] +2014-09-25 [计算机视觉数据集不完全汇总] http://t.cn/Rhj0T9K 经典热点数据集: ImageNet,Flickr,MNIST 数据集目录: YACVID(200+),ComputerVisionOnline(100+),CVpapers(100+),CVOnline(100+),UIUC,UCSD,NICTA... 感谢 @丕子 @邹宇华 @李岩ICT人脸识别 @网路冷眼 @王威廉 @金连文 @数据堂 zhubenfulovepoem 推荐 [ [微博](http://www.weibo.com/5220650532/BoAbfmDPA) ] -> 2014-09-19 @phunter_lau: 我的 Kaggle Higgs Challenge单个模型获胜解答,公开排行榜3.75最终排行榜得分3.73,排名25th/1792,差不多前几十里唯一一个非组合模型的解答。至于为什么不用组合模型,因为我不会。。。 链接 http://t.cn/RhKAWac 附图方便不能上wordpress的同学观看。至于英语描述,不要在意这些细节。 [ [微博](http://www.weibo.com/1770891687/BnE9rmOpe) ] +2014-09-24 搞数据挖掘的同仁怎么看? 气象学专业呢? //@复旦陈硕frank: 转发微博 [ [微博](http://www.weibo.com/5220650532/Bot0Cl2BQ) ] -2014-09-19 推荐一篇综述,将Context Aware Computing 在物联网里的应用 《Context aware computing for the internet of things: A survey》 http://t.cn/RhKqJTg 分析了过去十年50个相关项目,覆盖Context生命周期的四个阶段 Acquisition(获取), Modeling(建模), Reasoning(推理), Distribution(发布) [ [微博](http://www.weibo.com/5220650532/BnFso1697) ] +> 2014-09-24 @中国社会科学院金融评论: Journal of Economic Literature最新一期的文章http://t.cn/RhlbJno 对近年来采用高频面板数据研究天气(相对于以往低频数据刻画的“气候”)经济效应的文献进行了评述。作为这一领域的外行,感觉这篇有趣的综述除了有助于找各种IV之外,在某些具体事实和技巧上也很有启发。 [ [微博](http://www.weibo.com/3205772127/BosQWsyNb) ] -2014-09-19 回复@tang_Kaka_back: 大致看了一下pypi,4万多库里只有5千多的python3库 //@tang_Kaka_back:回复@好东西传送门:[good]Python3的一些库跟进还是太慢了。从unicode的角度我个人还是喜欢3 //@tang_Kaka_back:我记得我一年前在找python3的爬虫都没有太好的,于是自己就着自己的项目写了个。现在已经有支持 [ [微博](http://www.weibo.com/5220650532/BnDabp9IQ) ] +2014-09-24 可以看看教学录像,这个课可为两种目标服务:第一、了解计算生物学中的挑战性问题,寻求更好的计算方法,应用前沿的机器学习方法(很好奇深度学习的应用)第二、理解可以使用计算方法,尤其是现成的机器学习工具,把它们应用到生物学、医学前沿问题中 Bioinformatics, Health informatics //@医学统计 [ [微博](http://www.weibo.com/5220650532/Bosjr9NpC) ] -> 2014-09-18 @好东西传送门: 问: @子_相 目前支持Python 3的各种Web Crawler包?输入HTML, 输出是能支持Xpath 和CSS式的selector查询的object,有没有比较宽松容错的parser? 答: http://t.cn/RhL3mGP 不完善初步答案 MechanicalSoup和robobrowser都支持python3; beautifulSoup4 支持多种html parser处理HTML和CSS 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BnyQKbcKJ) ] +> 2014-09-24 @好东西传送门: 一张图表解析生物信息学中算法的实际应用(摘自"An Introduction to Bioinformatics Algorithms")同时推荐该书作者Pavel Pevzner (UCSD教授, ACM院士) Coursera公开课Bioinformatics Algorithms (今年10月开课) http://t.cn/RhWs4Cp YouTube教学视频 http://t.cn/RhWs4CO 需要较强的数学及算法基础 [ [微博](http://www.weibo.com/5220650532/BorSV49Fo) ] -2014-09-19 回复@小粗腿正在减肥中: 你是指这个吗? http://t.cn/RhosnXP Information Hiding conference (1996-2014) 点链接可以看每一届会议的论文目录。要下载论文通常可以 1. 祭出搜索引擎 标题+PDF 2. 通过图书馆查期刊 3.联系通信作者 ... //@小粗腿正在减肥中: [ [微博](http://www.weibo.com/5220650532/BnD1wdQBF) ] +2014-09-24 一张图表解析生物信息学中算法的实际应用(摘自"An Introduction to Bioinformatics Algorithms")同时推荐该书作者Pavel Pevzner (UCSD教授, ACM院士) Coursera公开课Bioinformatics Algorithms (今年10月开课) http://t.cn/RhWs4Cp YouTube教学视频 http://t.cn/RhWs4CO 需要较强的数学及算法基础 [ [微博](http://www.weibo.com/5220650532/BorSV49Fo) ] -> 2014-09-18 @好东西传送门: 问:求信息隐藏的资料 答:初步进展 http://t.cn/RhogJv4 信息隐藏(digital watermarking, steganography and steganalysis, anonymity and privacy)有一个国际年会 IIH-MSP (1996-2014)。 Zoran Duric 有2006年有一门短课程, Peter Wayner 有一本2009年的专著。@永远的孤岛 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BnCrqqYLC) ] +2014-09-24 推荐 @tornadomeet 整理的 《本人常用资源整理(ing...)》 http://t.cn/zO1YaAE #深度学习#, #机器学习#,#数据挖掘#, #计算机视觉#,优化,数学,Linux,领域牛人,课程 ... ;-) 此人的博客可以归类为 #学霸的学习笔记# [ [微博](http://www.weibo.com/5220650532/BortzCrYs) ] -2014-09-18 问:求信息隐藏的资料 答:初步进展 http://t.cn/RhogJv4 信息隐藏(digital watermarking, steganography and steganalysis, anonymity and privacy)有一个国际年会 IIH-MSP (1996-2014)。 Zoran Duric 有2006年有一门短课程, Peter Wayner 有一本2009年的专著。@永远的孤岛 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BnCrqqYLC) ] +2014-09-24 回复@尘绳聋-SYSU: 补上 @tornadomeet 原作 “机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)” http://t.cn/zRoZPzP 现在已经写了25个笔记! //@尘绳聋-SYSU:数盟的链接里没有标明原作:@tornadomeet [ [微博](http://www.weibo.com/5220650532/Borpttofb) ] -2014-09-18 [数据集] 美国各政府部门2000至2014财年的支出记录, 每条记录包括 哪个部门拨发的,什么时间,干什么用,多少钱,获得拨款的地址 等字段。可以直接查询数据 http://t.cn/RhotbLK 也可以下载数据 http://t.cn/RhotbLo (点 archives 标签, 按月下载) [ [微博](http://www.weibo.com/5220650532/Bnz8SvZTF) ] +> 2014-09-24 @陈利人: 好文!常见面试之机器学习算法思想简单梳理 http://t.cn/RhWuNHg [ [微博](http://www.weibo.com/1915548291/Bor6t48ji) ] -2014-09-18 问: @子_相 目前支持Python 3的各种Web Crawler包?输入HTML, 输出是能支持Xpath 和CSS式的selector查询的object,有没有比较宽松容错的parser? 答: http://t.cn/RhL3mGP 不完善初步答案 MechanicalSoup和robobrowser都支持python3; beautifulSoup4 支持多种html parser处理HTML和CSS 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BnyQKbcKJ) ] +2014-09-24 感谢! 附09年MLSS主页 http://t.cn/zl1sHfi 09年MLSS 所有还幻灯片打包下载 51M ZIP http://t.cn/RhWBmXr //@bigiceberg: mark,其中09年UK的mlss最经典。 [ [微博](http://www.weibo.com/5220650532/Borng7Ukv) ] -2014-09-18 传送好东西并传送问题 @左耳朵耗子 //@文艺复兴记: 我遇到过一类典型的有问题的编写可测试代码的方法,例:实现一个Stack类。有人这样做:把Stack内部的数据结构(比如动态数组)暴露出来,然后分别写两个测试用例test_push和test_pop,每个测试用例都去检查Stack内部数据结构的状态。问题在哪里? [ [微博](http://www.weibo.com/5220650532/Bnys4axnX) ] +> 2014-09-24 @好东西传送门: 机器学习暑期学校MLSS全集(2002-): MLSS汇集了机器学习界名师,提供基础教程,展示领域进展, 免费讲义下载 -- 是了解领域前沿的好去处。全集罗列了过去的26次课和未来的8次课, 基本上欧洲,美国,澳洲,亚洲各自一摊。原始链接 www.mlss.cc 我们做了个github版补全了缺失链接 http://t.cn/RhWRlBo [ [微博](http://www.weibo.com/5220650532/BoqHnj2qe) ] -> 2014-09-18 @reeze: Google员工写的:《编写可测的代码》 http://t.cn/RhSENMV 代码可测性非常重要,规模越大越重要,可测的程序可以更容易的编写更多的测试来保证代码的质量。 [ [微博](http://www.weibo.com/1548943797/BnxVP6DMx) ] +2014-09-24 //@AixinSG: 我们做过hashtag扩散的研究 http://t.cn/RhWmsw8 Google Scholar上也有了一些相关的引用文章 http://t.cn/RhWmswE 相对来说扩散要比溯源容易做,溯源很不容易验证 [ [微博](http://www.weibo.com/5220650532/Bor4eu5sU) ] -2014-09-18 好东西 回复@blue_tracks: 论文PDF 链接有问题. 是否考虑放到 arxiv.org 这样方便别人引用,源代码是这个(不在master上)吗? http://t.cn/RhoADCF [ [微博](http://www.weibo.com/5220650532/Bnymun0FA) ] +> 2014-09-24 @好东西传送门: 问: 做基于话题的社交网络中的溯源,寻找源头用户, 求文章? 答: 找到5篇论文 http://t.cn/RhW6Suk 特别推荐Guille等"在线社交网络中信息扩散综述"(SIGMOD Record 2013)脑图, 讲了三个挑战及相关解法: 发现有趣话题,扩散过程建模, 识别高影响力节点。此外还有几篇溯源算法研究及一篇Science相关好文 [ [微博](http://www.weibo.com/5220650532/BoqRO7Mzg) ] -> 2014-09-18 @blue_tracks: NIPS投稿得到887高分,但是最后因为一个math typo被干掉,郁闷过后现在paper和实验配置都已公开。 idea极其简洁, 在中间层加入监督信息的架构可以适用于任何网络结构, 我们有理论和多个数据集的实验证明这种策略能够有效防止梯度发散,据说GoogLeNet今年也用了类似的想法 http://t.cn/Rhoz0BO @winsty [ [微博](http://www.weibo.com/1240701945/Bny5ShuSM) ] +2014-09-24 问: 做基于话题的社交网络中的溯源,寻找源头用户, 求文章? 答: 找到5篇论文 http://t.cn/RhW6Suk 特别推荐Guille等"在线社交网络中信息扩散综述"(SIGMOD Record 2013)脑图, 讲了三个挑战及相关解法: 发现有趣话题,扩散过程建模, 识别高影响力节点。此外还有几篇溯源算法研究及一篇Science相关好文 [ [微博](http://www.weibo.com/5220650532/BoqRO7Mzg) ] -2014-09-18 特别推荐一本免费电子书: 微软研究院邓力和俞栋合写的“Deep Learning Methods and Applications” (2014) http://t.cn/RhoPwll 近200页篇幅对深度学习的方法和应用做了比较全面地综述。还有 @高杰_Speech 推荐 微软研究院出品C++开源Computational networks工具包 CNTK http://t.cn/Rhy4u3l [ [微博](http://www.weibo.com/5220650532/BnxSMyLB3) ] +2014-09-24 机器学习暑期学校MLSS全集(2002-): MLSS汇集了机器学习界名师,提供基础教程,展示领域进展, 免费讲义下载 -- 是了解领域前沿的好去处。全集罗列了过去的26次课和未来的8次课, 基本上欧洲,美国,澳洲,亚洲各自一摊。原始链接 www.mlss.cc 我们做了个github版补全了缺失链接 http://t.cn/RhWRlBo [ [微博](http://www.weibo.com/5220650532/BoqHnj2qe) ] -2014-09-18 哈哈, 原来是微软研究院出品 Computational Network Toolkit (CNTK) 俞栋 Dong Yu etc. "An Introduction to Computational Networks and the Computational Network Toolkit", Microsoft Technical Report, 2014. http://t.cn/RhSscXz //@liushengbing: 只支持windows的ML包真是第一次见 [ [微博](http://www.weibo.com/5220650532/BnxKrvfUY) ] +2014-09-23 [资料合集] http://t.cn/RhOz6bQ 情感分析(sentiment analysis) 两本经典综述PDF下载: A Survey of Opinion Mining and Sentiment Analysis (2012) by Bing Liu; Opinion mining and sentiment analysis (2008) by Bo Pang, Lillian Lee, 另附Richard Socher等深度学习用于情感分析的论文 欢迎补充 [ [微博](http://www.weibo.com/5220650532/Bohx6Ahic) ] -> 2014-09-12 @高杰_Speech: 推荐新的Deep learning工具包 CNTK, http://t.cn/Rhy4u3l C++实现,CPU/GPU支持,DNN/CNN/RNN/LSTM,目前只支持windows [ [微博](http://www.weibo.com/2436946631/BmEk7BQfM) ] +2014-09-23 回复@禅系一之花: 谢谢提示。《傅立叶变换的简易指南》 http://t.cn/8srbg2x 译者:Taurelasse //@禅系一之花:译言上有翻译版 //@好东西传送门:感谢右边传送 An Interactive Guide To The Fourier Transform //@赶路人林文: http://t.cn/zjN3lQ6 这个傅里叶转换的文章是我看到 [ [微博](http://www.weibo.com/5220650532/Boh4Y1Doi) ] -2014-09-18 不错 补充一下 ILSVRC2014 的日程上包括了各大参赛队15分钟报告幻灯片下载链接,还有各种讨论的东东 http://t.cn/RhSF13U //@潘炎_SYSU: 相应的论文链接在: http://t.cn/RhSdt1V [ [微博](http://www.weibo.com/5220650532/BnxIm4KOD) ] +> 2014-09-19 @好东西传送门: 问: @ShawnLeesr 给找一些好到逆天的 1.信号处理 2 傅里叶变换 3.小波变换的入门资料吧 答: 资料整理 http://t.cn/RhKNdKs 推 @Heinrich_DMU 傅里叶分析之掐死教程。进阶有Stanford傅立叶变换课(Brad Osgood) http://t.cn/RhKNdKF , MIT小波分析课(Gilbert Strang) http://t.cn/RhKNd9v 请指正补充 [ [微博](http://www.weibo.com/5220650532/BnHcFiekf) ] -> 2014-09-18 @潘炎_SYSU: GoogleLeNet放出他们在ILSVRC 2014的slides了:http://t.cn/RhSdCVa [ [微博](http://www.weibo.com/1889275224/Bnxk2a7zQ) ] +2014-09-23 //@AllAboutStorage: Freebase小介绍(目标结构化internet)。母公司2010年被Google收购,其技术应该被用到了Google Knowledge Graph这个项目中。感兴趣的同学还可以看一看Google的图数据库Cayley http://t.cn/RvHuYpL 。其介绍就清楚写明:Cayley是受Google知识图谱以及Freebase背后的图数据库启发。 [ [微博](http://www.weibo.com/5220650532/Boh3LyNLP) ] -2014-09-18 问: @微热闹 请教是否有MAPREDUCE实现的PLSI算法 答: http://t.cn/RhSnzB7 先来三篇相关文章: UIUC “Parallel PLSI on Spark”, 清华“Parallel PLSA ...” 南大“P2LSA and P2LSA+: Two Paralleled Probabilistic Latent Semantic Analysis Algorithms Based on the MapReduce Model” 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BnwGrtAwU) ] +> 2014-09-23 @好东西传送门: @low_accepted 问:求Freebase Wikipedia Extraction (WEX)的数据集(66GB大小,tsv格式) 答:AWS上有66GB版本的ESB snap-1781757e,挂靠在EC2上免下载。刚才实验了可用。WEX把维基百科英文版的模板、信息框、目录等转化为XML格式 http://t.cn/Rh0kIXp 更多Freebase资源 http://t.cn/Rh0kIX0 [ [微博](http://www.weibo.com/5220650532/Bogtpf4Jr) ] -2014-09-18 关于数据清理(Data Cleaning) 有一篇2000年的经典文章 "Data Cleaning: Problems and Current Approaches" http://t.cn/RhSE7LZ 该文综述了结构化数据中质量问题的分类和来源,并给出了相应例子。该文对了解当前大数据中"噪音”有一定指导意义。#抛砖引玉# 欢迎补充推荐好东西 [ [微博](http://www.weibo.com/5220650532/BnwznznUE) ] +2014-09-23 问: @神经明亮的人 求perl教程呀? 答: 资料合集 http://t.cn/RhOvrpN Randal Schwartz 的learning Perl(小骆驼)是公认的入门教程, 浅显短小, 建议看英文版。更短有Learn Perl in about 2 hours 30 minutes. 更多看perlmonks.org和perl-tutorial.org的教程合集. 进阶看大骆驼Programming Perl 欢迎补充 [ [微博](http://www.weibo.com/5220650532/Boh22i7QV) ] -2014-09-18 问: 关于挖掘话题层级结构(topic hierarchy)的研究和应用? 答: http://t.cn/RhSTd26 早期有CAM模型(IJCAI'99), 近来有Blei基于"bayesian nonparametric inference"的工作, Berant的"entailment graph", 微软ProBase. Twitter用它分类(kdd'14). 认知科学看"How to Grow a Mind"(science'11) 欢迎指正 [ [微博](http://www.weibo.com/5220650532/BnvY6x7Oq) ] +2014-09-23 @low_accepted 问:求Freebase Wikipedia Extraction (WEX)的数据集(66GB大小,tsv格式) 答:AWS上有66GB版本的ESB snap-1781757e,挂靠在EC2上免下载。刚才实验了可用。WEX把维基百科英文版的模板、信息框、目录等转化为XML格式 http://t.cn/Rh0kIXp 更多Freebase资源 http://t.cn/Rh0kIX0 [ [微博](http://www.weibo.com/5220650532/Bogtpf4Jr) ] -2014-09-17 #温故而知新# Gary Anthes (科普作家)的 Deep Learning Comes of Age 算是科普文章了,短短几页谈了深度学习过去与现状的要点,还推荐了一个不错的参考论文书单。正好 🚪 正在传送 深度学习入门资料 http://t.cn/RhaTq9c 该文应该被”录用“ 又 @自觉自愿来看老婆微博 也推荐该文 [ [微博](http://www.weibo.com/5220650532/BnoQ6ksvb) ] +2014-09-23 感谢右边传送 An Interactive Guide To The Fourier Transform //@赶路人林文: http://t.cn/zjN3lQ6 这个傅里叶转换的文章是我看到的最棒的,无比生动。特别适合文科生,八年没碰过物理,五年没碰过数学的我都看懂了。有时间一定把这个翻译成中文。 [ [微博](http://www.weibo.com/5220650532/BofcOk20k) ] -> 2013-05-30 @星空下的巫师: "A wave of excitement today comes from the application of unsupervised learning to deep neural nets." Deep Learning Comes of Age | June 2013 | Communications of the ACM http://t.cn/zH5EdjT [ [微博](http://www.weibo.com/1785748853/zz47bmU5h) ] +> 2014-09-19 @好东西传送门: 问: @ShawnLeesr 给找一些好到逆天的 1.信号处理 2 傅里叶变换 3.小波变换的入门资料吧 答: 资料整理 http://t.cn/RhKNdKs 推 @Heinrich_DMU 傅里叶分析之掐死教程。进阶有Stanford傅立叶变换课(Brad Osgood) http://t.cn/RhKNdKF , MIT小波分析课(Gilbert Strang) http://t.cn/RhKNd9v 请指正补充 [ [微博](http://www.weibo.com/5220650532/BnHcFiekf) ] -2014-09-17 问:@聪Hit 有没有关于深度学习的。特别是针对初学者的一些文章。 答: 深度学习综述不乏大部头,如微软邓力等写的“Deep Learning Methods and Applications”。推些短文:"A Primer on Deep Learning" 科普入门, 基于python theano范例学习, 邓侃Deep Learning系列 资料 http://t.cn/RhaISCG 欢迎指正 [ [微博](http://www.weibo.com/5220650532/Bnnfrjm3x) ] +2014-09-22 Yar, Yac, Yaf 都是 @Laruence 直接在GITHUB上开源的 http://t.cn/zWiKwkj , Zend Optimizer 也有他 http://t.cn/Rh0h8RZ [ [微博](http://www.weibo.com/5220650532/BoaTCoZbG) ] -2014-09-17 问:@vincent是正能量 有没有synonym mining的survy paper,以及比较核心的一些paper? 答: 问答资料 http://t.cn/Rha5DJE Wordnet synset 人工构造了同义词(synonym)集合, 自动方法通常依靠语义相关分析(semantic similarity) 微软有相关项目, 我们有技术资料整理贴 http://t.cn/Rha5DJR [ [微博](http://www.weibo.com/5220650532/BnmMGBraU) ] +> 2014-09-22 @Laruence: 又要写总结报告了, 这是目前微博俩年来达成的LNMP的技术结构图..... 也就这么些东西, 大部分都是开源的, 欢迎借鉴. [ [微博](http://www.weibo.com/1170999921/BoaKMhnJp) ] -2014-09-17 [专题] 主题模型 工具推Gensim和LDAvis http://t.cn/RhabYR5 理论部分推荐 @52nlp 的《如何计算两个文档的相似度》@rickjin 的《LDA数学八卦》@Copper_PKU 的《Probabilistic Topic Model》和 沈志勇 的《主题模型简介》http://t.cn/RhabYRt 研究前沿推Twitter和Google的实战 http://t.cn/RhabYRc [ [微博](http://www.weibo.com/5220650532/BnmjIC2Tr) ] +2014-09-22 问: 增强现实近几年的文章或者相关资料特别是关于PTAM的资料? 答: 资料汇总 http://t.cn/Rh0v03Y PTAM是"即时定位与地图构建" (Simultaneous localization and mapping, SLAM, 机器人视觉的研究方向)的重要进展, 概念于2007年ISMAR最佳论文中提出。2014 CVPR 有一组段教程涉及相关研究 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BoaJeg31R) ] -2014-09-17 [专题] 主题模型 工具推Gensim和LDAvis http://t.cn/RhabYR5 理论部分推荐 @52nlp 的《如何计算两个文档的相似度》@rickjin 的《LDA数学八卦》@@Copper_PKU的《Probabilistic Topic Model》和 沈志勇 的《主题模型简介》http://t.cn/RhabYRt 研究前沿推Twitter和Google的实战 http://t.cn/RhabYRc [ [微博](http://www.weibo.com/5220650532/Bnmjn3rmn) ] +2014-09-22 传送好东西 #自然语言处理# 论文“Distributed Representations of Sentences and Documents ” Quoc V. Le, Tomas Mikolov, ICML 2014 链接 http://t.cn/RhpdQqv PV = Paragraph Vector [ [微博](http://www.weibo.com/5220650532/BoabnoAha) ] -2014-09-16 Luke现在是Google Product Director 关心手机平台Ux设计地同学们可以下载资料了,PDF有78页 http://t.cn/zQan8tv //@DataMooc: //@developerWorks: 这个很不错,LukeW 大神的 Blog 是长期订阅的,推荐。PDF 下载地址: http://t.cn/RhXST8L [ [微博](http://www.weibo.com/5220650532/Bnh75kMAe) ] +> 2014-09-22 @ustczen: “Distributed Representations of Sentences and Documents ”中提到的句子向量化算法PV-DM在github上已经有了基于gensim的python实现:http://t.cn/RPDxH82,word2vec论坛有人用它在IMDB数据集上尝试做情感分类,效果没有论文声称的那么牛,但可以参考下实现。@好东西传送门 [ [微博](http://www.weibo.com/2872565912/Bo9xyfdib) ] -> 2014-09-16 @英特尔XDK: Luke Wroblewski 大神正式的把他从 2012-2014年写的关于 #Mobile Design# 的文章整理成了 iBook 和 PDF 发布了,大家可以从他的网站上得到下载链接 http://t.cn/RhXVIlD。您也可以从 @英特尔开发人员专区 来了解他的文章和视频 http://t.cn/RhXVIlk [ [微博](http://www.weibo.com/5075403624/Bng3ijjEq) ] +2014-09-22 感谢@hnlyjzh 搬运! Large Scale Visual Recognition Challenge视频免梯子下载 [ [微博](http://www.weibo.com/5220650532/Bo6SLASYp) ] -2014-09-16 转发理由:深度学习在分词等领域的应用。论文PDF http://t.cn/RhX2U9t HTML版 http://t.cn/RhX2U95 [ [微博](http://www.weibo.com/5220650532/Bnf4S6g8I) ] +> 2014-09-21 @hnlyjzh: ILSVRC2014的视频在这里http://t.cn/RhNBfX6 @好东西传送门 [ [微博](http://www.weibo.com/1244843177/Bo3i6cufT) ] -> 2014-09-15 @裴文哲: 终于找到了 http://t.cn/Rh6GFMi 我在ACL2014的oral presentation: Max Margin Tensor Neural Network for Chinese Word Segmentation 介绍了Deep Learning在序列标注任务中的新模型 slides做的略挫 希望大牛们轻喷 [ [微博](http://www.weibo.com/2110794314/Bn8SNfgHJ) ] +2014-09-21 继续传送 //@ICT秦磊: 转了GoogLeNet,放在优酷上。 http://t.cn/RhN58TY 好东西传送门: 帮转,在YouTube上的,看看有没有大神帮忙传送回国 [ [微博](http://www.weibo.com/5220650532/Bo0laE8yh) ] -2014-09-16 转发理由:依存文法分析对于关系提取,问答系统和知识图谱建设都有突出价值,而且速度较快。 [ [微博](http://www.weibo.com/5220650532/BneFP04pJ) ] +> 2014-09-20 @贾旭kul_visics: @好东西传送门 ILSVRC2014 videos http://t.cn/RhCTDKX [ [微博](http://www.weibo.com/3195545915/BnUjy7FgT) ] -> 2014-09-16 @李正华NLP: 我们这次在coling 2014上做的题为“Dependency Parsing: Past, Present, and Future”的tutorial slides已经整理好并放在我的主页上:http://t.cn/RhXvXVn,请大家多提宝贵意见,欢迎讨论交流。 [ [微博](http://www.weibo.com/1890969215/BnevukUcc) ] +2014-09-21 转发理论:一张图简明扼要总结了各种概率分布的关系,对机器学习和统计都极具参考价值。另补充维基百科上无版权的图 http://t.cn/zjyvP9q 并有对各种分布的详细解释 [ [微博](http://www.weibo.com/5220650532/BnYMPiRcz) ] -2014-09-16 回复@海中的沙粒: 发这个好东西时有点纠结,很多人见过,也有很多人没见过。但是作为数据,它的价值的确高,第一省得去翻统计年鉴,第二 CSV很容易导入Excel,python,matlab, R, 省了不少数据清理时间 (转就是收藏,不论你是不是 @ 谁的印象笔记 ) //@海中的沙粒:好像转过,再转一次吧,嘿嘿,反正 [ [微博](http://www.weibo.com/5220650532/BneyPc0Qp) ] +> 2014-09-21 @_散沙_民工智能_: 基础中的基础,各路大数据科学家首先忽略的东西。晚安 http://t.cn/z8AJfHW [ [微博](http://www.weibo.com/1438548745/BnWtujF4q) ] -> 2014-09-16 @好东西传送门: 推荐 @新浪财经 "中国宏观经济数据" http://t.cn/Rh6us2R 涵盖: 国民经济, 价格指数, 居民收入, 固定资产投资, 景气指数, 对外经济贸易, 金融信息, 国家财政, 行业信息。有图表且数据可CSV导出。轻松解决问题189 我国CPI和货币供应量M2 M1 M0月度环比数据 http://t.cn/Rh6HucY [ [微博](http://www.weibo.com/5220650532/Bndsqh1hJ) ] +2014-09-20 帮转,在YouTube上的,看看有没有大神帮忙传送回国 [ [微博](http://www.weibo.com/5220650532/BnVt2ffR0) ] -2014-09-16 读综述帮助了解领域,写综述展示对领域的掌握程度。找文献时要聚焦在目标课题下,避免贪多求全或者枝蔓。 高质量的例子可以参考计算机领域的综述期刊(ACM Computing Survey) 附DBLP的每期链接 http://t.cn/Rh6rH83 //@陆浑戎: 转发微博 [ [微博](http://www.weibo.com/5220650532/BndSKAQj8) ] +> 2014-09-20 @贾旭kul_visics: @好东西传送门 ILSVRC2014 videos http://t.cn/RhCTDKX [ [微博](http://www.weibo.com/3195545915/BnUjy7FgT) ] -> 2014-09-15 @传媒老跟班: 【文献综述】文献综述的写法http://t.cn/Rh6onsx;本科毕业论文如何撰写文献综述?http://t.cn/zHKQB8G;如何写文献综述?http://t.cn/zHKQB8b;克雷斯威尔五步文献综述法http://t.cn/Rh6onsa;社会科学研究中的文献综述:原则、结构和问题http://t.cn/zHKQB8q,供大家参考。 [ [微博](http://www.weibo.com/5198011111/BnapLe2fO) ] +2014-09-20 问: @情非得已小屋 推荐点关于推荐系统的综述么? 答: 问答207 http://t.cn/RhCt7lc 强推KDD2014讲义 "the recommender problem revisited": 第一部分Xavier Amatriain的综述(135页, 2014机器学习夏季学校版有248页), 第二部分"Context Aware Recommendation" (64页) 谢 @小飞鱼_露 @明风Andy 推荐 [ [微博](http://www.weibo.com/5220650532/BnRHSq1xl) ] -2014-09-16 转发理由:包括n-gram,带Freebase标注的8亿文档, Wikilinks 4000万页面链接标注,人工标注的wikipedia公众人物到Freebase映射, 3900万Wikipedia Infobox编辑历史,词与实体的映射 [ [微博](http://www.weibo.com/5220650532/BndMfgjn7) ] - -> 2014-09-15 @龙星镖局: Google近年来发布的有关文本挖掘、自然语言处理的数据集。http://t.cn/z8sMlZv [ [微博](http://www.weibo.com/1830516311/Bn7Q3zieO) ] - -2014-09-16 问: @海中的沙粒 点餐,介绍Matlab的入门级编程语言的书,电子文献,或者网页类 答: 任选一个套餐用最快速度翻完掌握全局,具体细节使用时再读。资料汇总 http://t.cn/Rh63woo 有18页的短教程,MIT的5节课讲义,Rutgus经济系博士的讲义。此外大餐看官方手册"Matlab Primer" [ [微博](http://www.weibo.com/5220650532/BndHDcwWV) ] - -2014-09-16 推荐 @新浪财经 "中国宏观经济数据" http://t.cn/Rh6us2R 涵盖: 国民经济, 价格指数, 居民收入, 固定资产投资, 景气指数, 对外经济贸易, 金融信息, 国家财政, 行业信息。有图表且数据可CSV导出。轻松解决问题189 我国CPI和货币供应量M2 M1 M0月度环比数据 http://t.cn/Rh6HucY [ [微博](http://www.weibo.com/5220650532/Bndsqh1hJ) ] - -2014-09-16 问: @国产_小翁:能不能帮我找到HMAX模型的matlab源码? 答: 资料汇总 http://t.cn/Rh69oet HMAX ("Hierarchical Model and X") 是Poggio于1999年提出的概念, 用于解决(Object recognition)的多层次神经网络。Poggio的MIT实验室CBCL在Google code有纯matlab源码 欢迎指正 [ [微博](http://www.weibo.com/5220650532/Bndd4cmz5) ] - -2014-09-16 要不搜索一下,用这个关键词 win7 library-ms fix 找到相关的问答 http://t.cn/Rh6juZn http://t.cn/Rh6juZm 更多相关结果看这里 http://t.cn/Rh6juZE 此外可以直接问微软 @微软中国 [ [微博](http://www.weibo.com/5220650532/BnbJ2h4gS) ] - -> 2014-09-15 @举头三尺有大神: 求助各位大神@好东西传送门 @破破的桥 @林楚方 。win7库出现这种情况。不能打开,不能新建,还原默认还是无法解决。 [ [微博](http://www.weibo.com/2809984842/Bn8VQnsUW) ] - -2014-09-16 如果你注了NIPS ,这个workshop就不另外收费了,看注册页 http://t.cn/Rh696S3 //@duinduin:要另外注册么? //@好东西传送门:Automated Knowledge Base Construction (AKBC) 2013 http://t.cn/Rhi9Tr5 2014年的和NIPS一起开,期待! //@昊奋: AKBC算是一个引领知识库构建的专题workshop。推荐的这 [ [微博](http://www.weibo.com/5220650532/BnazMCYTf) ] - -> 2014-09-15 @小飞鱼_露: @好东西传送门 想问下身边有没有了解知识图谱 (knowledge graph) 的大神,能否推荐一些文章和教程? [ [微博](http://www.weibo.com/1761583707/Bn4ljd4QQ) ] - -2014-09-15 //@算文解字:5. 这哥们很能掰,而很多章节分别阐述了他对人工智能、医疗科技、清洁能源、90年代互联网历史、融资甚至帝王之术的独特看法。很多地方只是略略扫了一眼,总感觉是可读性很强。原始Note: http://t.cn/zYvtV0F 最近已经整理成书“Zero to One” @好东西传送门 前两天推荐过 [ [微博](http://www.weibo.com/5220650532/BnahOEAAQ) ] - -> 2014-09-15 @算文解字: 1 昨天读了Peter Theil CS183的笔记。他认为从0到1的过程是一个发现只有少数人才掌握的真相,即#秘密#的过程。简单的早被发现,变为常识应用在从1到n的复制阶段,而无解的秘密则毫无价值,因此需要找中等难度但可解的秘密。他提到的秘密有垄断、幂律、渠道的重要性以及元秘密:世界上仍有很多秘密。 [ [微博](http://www.weibo.com/1884715211/Bn9gN4EYh) ] - -2014-09-15 Automated Knowledge Base Construction (AKBC) 2013 http://t.cn/Rhi9Tr5 2014年的和NIPS一起开,期待!//@昊奋: AKBC算是一个引领知识库构建的专题workshop。推荐的这个paper算是一个比较有指导性意见的文章,推荐! [ [微博](http://www.weibo.com/5220650532/Bn4YS4wfC) ] - -> 2014-09-15 @小飞鱼_露: @好东西传送门 想问下身边有没有了解知识图谱 (knowledge graph) 的大神,能否推荐一些文章和教程? [ [微博](http://www.weibo.com/1761583707/Bn4ljd4QQ) ] - -2014-09-15 这个和昨天推荐的entity linking的两个教程结合看最佳 http://t.cn/RhiS9gW 。RPI Heng Ji出品 //@Copper_PKU: 我推荐一个reading list: http://t.cn/8FqFegC 不知道有人推荐过没有 这个主页很不错//@好东西传送门: 在我们的github主页上搜“知识图谱” http://t.cn/RhiX0pi [ [微博](http://www.weibo.com/5220650532/Bn4Iwe0wd) ] - -> 2014-09-15 @小飞鱼_露: @好东西传送门 想问下身边有没有了解知识图谱 (knowledge graph) 的大神,能否推荐一些文章和教程? [ [微博](http://www.weibo.com/1761583707/Bn4ljd4QQ) ] - -2014-09-15 在我们的github主页上搜“知识图谱” http://t.cn/RhiX0pi 有不少以前的问题了。专家推荐 @昊奋 @孙明明_SmarterChina @Gary南京 @李志飞AI 还有去年第一届全国中文知识图谱研讨会的嘉宾 http://t.cn/8k2VD2H 该网页还有很多PPT [ [微博](http://www.weibo.com/5220650532/Bn4y7coge) ] - -> 2014-09-15 @小飞鱼_露: @好东西传送门 想问下身边有没有了解知识图谱 (knowledge graph) 的大神,能否推荐一些文章和教程? [ [微博](http://www.weibo.com/1761583707/Bn4ljd4QQ) ] - -2014-09-15 问: @秦彦霞_HIT 求教,哪里有大规模Twitter数据(只包含tweet即可,最好billion级别)可在文章中引用或致谢。 答:资料汇总 http://t.cn/RhiIgsl Archiveteam 2012至2014每月都有几十G的tweet JSON数据。此外 数据堂、snap和nist也有数据 @kite1988 @齐浩亮 提供了资料, 参考twitter专家 @AixinSG [ [微博](http://www.weibo.com/5220650532/Bn3USp5oO) ] - -2014-09-14 谢谢补充,ACL2014 A tutorial on Wikification and Entity Linking http://t.cn/RhJHk2Q 是个203页的PPT //@唐都钰HIT-SCIR: 还有今年ACL. Dan Roth. Heng ji 的tutorial [ [微博](http://www.weibo.com/5220650532/BmYLL8mDL) ] - -> 2014-09-14 @好东西传送门: @昊奋 推荐:Edgar Meij (Yahoo Labs)的Entity Linking and Retrieval教程。该教程最早在WWW 2013做过,深受好评,后来在SIGIR 2013, WSDM 2014不断更新。这组是今年6月最新的在Montreal做的版本,分为实体链接,实体检索和语义搜索三部分 http://t.cn/RhJHfzc [ [微博](http://www.weibo.com/5220650532/BmYGPj6rK) ] - -2014-09-14 @昊奋 推荐:Edgar Meij (Yahoo Labs)的Entity Linking and Retrieval教程。该教程最早在WWW 2013做过,深受好评,后来在SIGIR 2013, WSDM 2014不断更新。这组是今年6月最新的在Montreal做的版本,分为实体链接,实体检索和语义搜索三部分 http://t.cn/RhJHfzc [ [微博](http://www.weibo.com/5220650532/BmYGPj6rK) ] - -2014-09-14 问: @Joyce-Yuan- 对于拼写错误(real-word error) 求中文类似资料? 答: 详见 http://t.cn/RhJSrlc 拼写错误分non-word和real-word, 中英文难点不同。SIGHAN7的Bake-off 2013: Chinese Spelling Check 有很多论文(十月CLP14在武汉开), 英文spelling correction看Peter Novig 07年文章(21行python实现) [ [微博](http://www.weibo.com/5220650532/BmXdqD5Eh) ] - -2014-09-13 问: @V井颠V 对国内中长文章(300~5000字)近似新闻门户网站频道粒度的自动分类,有好的模型方法? 答: 资料整理 http://t.cn/Rhx4dAf 考虑statistical topic model, 推荐UIUC翟成祥短教程 http://weibo.com/5220650532/BhWo26Y93 ,软件包Gensim,Mallet,Stanford; kdd14有twitter分类好文 欢迎补充 [ [微博](http://www.weibo.com/5220650532/BmNjFtkeg) ] - -2014-09-13 问: @钱知易 帮我找找Berkeley detector(边缘检测)的代码(C++,Matlab) 答:资料整理 http://t.cn/RhMkEbD 是Michael Maire的工作 “Contour Detection and Image Segmentation"(CVPR2011) , 找到他们组的原始代码(gPb),还有Hyunho Lee的改进算法(gPb-junctions) 卡片盒子 http://t.cn/RhMkEbe [ [微博](http://www.weibo.com/5220650532/BmLNZ10CR) ] - -2014-09-13 问: 求助关于统计学方面的入门知识,主要是写企业上报数据,我们收集整理完数据之后以样本信息推断总体情况,并分析和推测总体的特征和规律 答: 相关资料 http://t.cn/RhMDApx * http://t.cn/hrmAiI 中国统计网, 从excel开始 * http://t.cn/hbvjNH 统计学知识社区, 侧重R @统计之都 @陈茁博士_Adam [ [微博](http://www.weibo.com/5220650532/BmLDph6KB) ] - -2014-09-13 回复@波多野丽猪: 多谢补充 http://t.cn/RhMe2Pp Fuseki: serving RDF data over HTTP //@波多野丽猪:一般python的话用sparql wrapper是ivan herman他们弄的,比较靠谱;其实假如有了一个endpoint,用fuseki里面sparql on http调用也可以,当然需要关联上fuseki的jar, [ [微博](http://www.weibo.com/5220650532/BmLwarUeq) ] - -> 2014-09-13 @好东西传送门: 问: @扛着甘蔗 有没有python访问使用dbpedia,freebase,等这些知识库查询的demo? 答: stackoverflow 有相关例子,找了一些相关资源 http://t.cn/RhMdlpG 有一个用freebase实现entity linking的例子 Quepy有例子展示如何将自然语言问题转化为数据库查询 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BmLjK6gVv) ] - -2014-09-13 常见的语音算法phonetic algorithm就是设定一组规则,将文字映射到某种音标符号系统。例如最原始的Soundex算法 扔掉所有元音,映射 b, f, p, v → 1 然后通过比较映射后符号串的差异来计算发音相似度。原帖中的脑图列举了常见英语(及德语)映射算法以及相关开源代码(python, java, go, ruby, perl) [ [微博](http://www.weibo.com/5220650532/BmLqi92Vx) ] - -> 2014-09-11 @好东西传送门: 问:@付超群 不知道有没有中文发音相似度计算算法或者类库?比如北京 百斤 鼻颈 背景 如果可以顺道比较英文更好,比如peking,beking 答: 关于算法和开源代码整理了一个 #脑图#,问答进展和相关资料在 http://t.cn/Rhf5xio 还收录了一些相关论文(含汉语) 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BmsMAeh0K) ] - -2014-09-13 可以结合以前推荐的图数据库专题看 http://t.cn/RhMgVCF [ [微博](http://www.weibo.com/5220650532/BmLpwdOXs) ] - -> 2014-09-13 @西瓜大丸子汤: 赞OrientDB,超级方便灵活,JSON进,SQL出,随时可以改数据结构,即使不做图计算也有用。MySQL, ElasticSearch, MongoDB, Neo4j, Redis一圈下来,还是OrientDB最符合我的需要,表达力最好,学习成本最低。速度OK不算最好,不过机器速度根本不是系统瓶颈,而且有很多优化的办法。 http://t.cn/RhMgLvG [ [微博](http://www.weibo.com/1932835417/BmLo6bLIV) ] - -2014-09-13 问: @扛着甘蔗 有没有python访问使用dbpedia,freebase,等这些知识库查询的demo? 答: stackoverflow 有相关例子,找了一些相关资源 http://t.cn/RhMdlpG 有一个用freebase实现entity linking的例子 Quepy有例子展示如何将自然语言问题转化为数据库查询 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BmLjK6gVv) ] - -2014-09-13 推荐一个很惊艳的免费图库列表(来自wikimedia):很多public domain图片库完全免费没有版权问题,还有不少基于知识共享许可(creative commons)的免费图片库 http://t.cn/RhMu3GQ 内容包罗万象:生物,科学,历史,天文,地图,各国风情,艺术,体育... 有的图库有上千万张图片。附图为长微博级目录 [ [微博](http://www.weibo.com/5220650532/BmKnCgD1s) ] - -2014-09-13 传送理由:人工智能资源库 3000+资源,12个分类,根据喜好,点击率排序 //@王海勋haixun: 转发微博 [ [微博](http://www.weibo.com/5220650532/BmJ7XfW8r) ] - -> 2014-09-12 @BoxingChen: 开源工具和开放的数据越来越多,口碑如何?怎么选择呢?open AI Resource http://t.cn/RhMCIKC 收集了AI领域的很多工具和数据,分类让大家点赞和评论。机器学习领域暂时获赞领先的工具是libsvm,NLP领域的是斯坦福POS tagger。去那找你需要的open source,也去那为你喜欢的,或自己的工具点个赞吧。 [ [微博](http://www.weibo.com/1767949300/BmHFV4Te9) ] +2014-09-20 问: @水月小和尚 求隐私保护的资料 答: http://t.cn/Rh9egwV 隐私保护是大数据时代的重要问题。先推荐一篇2010年综述privacy-preserving data publishing 讲数据发布中的攻击模型, 隐私模型和匿名算法(看附图) 1.3节还列了一些综述, 讲"数据挖掘、数据查询、统计数据发布"中实现隐私保护 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BnPOcry6i) ] +2014-09-20 过去一周新增的问答和推荐资源都整理到Github上了http://t.cn/Rh9NSVm 到目前为止有360条主题。要找以前推荐过的资源直接可以在页面上Ctrl+F搜索。BTW,如果你想订阅每周更新,发邮箱给我的私信吧 [ [微博](http://www.weibo.com/5220650532/BnMt3bdgh) ] From cb0ededf8e5f2fee3bf2945662ca15ecd31bf767 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 25 Sep 2014 17:38:18 -0700 Subject: [PATCH 418/485] Update README.md --- README.md | 94 +++++++++++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 94 insertions(+) diff --git a/README.md b/README.md index 6810da1..8b8ca79 100644 --- a/README.md +++ b/README.md @@ -34,6 +34,100 @@ ## 问答与原创 + +2014-09-26 问:有没有最新的讲述人工智能发展史,现状,展望的资料? 答:人工智能(Artificial Intelligence) 领域综述有一个很好玩的图 "AI Landscape" (2008年AI Magazine附送的海报), 再配上一个AI历史大事件的时间轴demo “ Companion Timeline of Artificial Intelligence History” http://t.cn/RhTXnDF [ [微博](http://www.weibo.com/5220650532/BoJAcrUuy) ] + +2014-09-26 不错,这个应该是第二版 @Vamei 2013年的第一版还有些有趣的图片 http://t.cn/zYtMBGK //@西瓜大丸子汤: 推荐给@好东西传送门 //@Vamei:原作者来认领 [ [微博](http://www.weibo.com/5220650532/BoHdz858S) ] + +> 2014-09-25 @Linux中国: #Python 语言的发展简史# Python是我喜欢的语言,简洁,优美,容易使用。前两天,我很激昂的向朋友宣传Python的好处。 好吧,我承认Python不错,但它为什么叫Python呢? 呃,似乎是一个电视剧的名字。 那你说的Guido是美国人么? 他从Google换到Dropb…http://t.cn/RhYgiGm [ [微博](http://www.weibo.com/1772191555/BoG25tiMh) ] + +2014-09-25 这个scrum guide是个经典,对scrum困惑的同学可以看看。同时推荐好文 "The 2013 Scrum Guide changes" http://t.cn/RhjdQ1W 1. Artefact Transparency strengthened 2. Sprint Planning 3. Definition of Ready 4. Time boxes relaxed for most meetings 5. Daily Scrum purpose clarified [ [微博](http://www.weibo.com/5220650532/BoBCqkL9Z) ] + +> 2014-09-25 @朱少民: 当Scrum 的应用爆炸式增长时,形形色色的Scrum变种就出现了,不少公司已经忘记了Scrum 的价值和原则,为此,Scrum Alliance、scrum.org等联合发布了对Scrum的指导文件: http://t.cn/Rhjrrbs [ [微博](http://www.weibo.com/1652927771/BoByZyCjh) ] + +2014-09-25 问: 求计算神经科学资料? 答: 1. 资源门户网站(学者,论文,课程一网打尽) "Computational Neuroscience on the Web" http://t.cn/RhjQAgV 2. 暑期学校(2010至2014共5期) http://t.cn/RhjQAgc 3. 还有华盛顿大学公开课 "Computational Neuroscience" 谢 @苏梦Neuro-Gatsby @课程图谱 @要有光LTBL 推荐 [ [微博](http://www.weibo.com/5220650532/BoAQg5kj6) ] + +2014-09-25 [计算机视觉数据集不完全汇总] http://t.cn/Rhj0T9K 经典热点数据集: ImageNet,Flickr,MNIST 数据集目录: YACVID(200+),ComputerVisionOnline(100+),CVpapers(100+),CVOnline(100+),UIUC,UCSD,NICTA... 感谢 @丕子 @邹宇华 @李岩ICT人脸识别 @网路冷眼 @王威廉 @金连文 @数据堂 zhubenfulovepoem 推荐 [ [微博](http://www.weibo.com/5220650532/BoAbfmDPA) ] + +2014-09-24 搞数据挖掘的同仁怎么看? 气象学专业呢? //@复旦陈硕frank: 转发微博 [ [微博](http://www.weibo.com/5220650532/Bot0Cl2BQ) ] + +> 2014-09-24 @中国社会科学院金融评论: Journal of Economic Literature最新一期的文章http://t.cn/RhlbJno 对近年来采用高频面板数据研究天气(相对于以往低频数据刻画的“气候”)经济效应的文献进行了评述。作为这一领域的外行,感觉这篇有趣的综述除了有助于找各种IV之外,在某些具体事实和技巧上也很有启发。 [ [微博](http://www.weibo.com/3205772127/BosQWsyNb) ] + +2014-09-24 可以看看教学录像,这个课可为两种目标服务:第一、了解计算生物学中的挑战性问题,寻求更好的计算方法,应用前沿的机器学习方法(很好奇深度学习的应用)第二、理解可以使用计算方法,尤其是现成的机器学习工具,把它们应用到生物学、医学前沿问题中 Bioinformatics, Health informatics //@医学统计 [ [微博](http://www.weibo.com/5220650532/Bosjr9NpC) ] + +> 2014-09-24 @好东西传送门: 一张图表解析生物信息学中算法的实际应用(摘自"An Introduction to Bioinformatics Algorithms")同时推荐该书作者Pavel Pevzner (UCSD教授, ACM院士) Coursera公开课Bioinformatics Algorithms (今年10月开课) http://t.cn/RhWs4Cp YouTube教学视频 http://t.cn/RhWs4CO 需要较强的数学及算法基础 [ [微博](http://www.weibo.com/5220650532/BorSV49Fo) ] + +2014-09-24 一张图表解析生物信息学中算法的实际应用(摘自"An Introduction to Bioinformatics Algorithms")同时推荐该书作者Pavel Pevzner (UCSD教授, ACM院士) Coursera公开课Bioinformatics Algorithms (今年10月开课) http://t.cn/RhWs4Cp YouTube教学视频 http://t.cn/RhWs4CO 需要较强的数学及算法基础 [ [微博](http://www.weibo.com/5220650532/BorSV49Fo) ] + +2014-09-24 推荐 @tornadomeet 整理的 《本人常用资源整理(ing...)》 http://t.cn/zO1YaAE #深度学习#, #机器学习#,#数据挖掘#, #计算机视觉#,优化,数学,Linux,领域牛人,课程 ... ;-) 此人的博客可以归类为 #学霸的学习笔记# [ [微博](http://www.weibo.com/5220650532/BortzCrYs) ] + +2014-09-24 回复@尘绳聋-SYSU: 补上 @tornadomeet 原作 “机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)” http://t.cn/zRoZPzP 现在已经写了25个笔记! //@尘绳聋-SYSU:数盟的链接里没有标明原作:@tornadomeet [ [微博](http://www.weibo.com/5220650532/Borpttofb) ] + +> 2014-09-24 @陈利人: 好文!常见面试之机器学习算法思想简单梳理 http://t.cn/RhWuNHg [ [微博](http://www.weibo.com/1915548291/Bor6t48ji) ] + +2014-09-24 感谢! 附09年MLSS主页 http://t.cn/zl1sHfi 09年MLSS 所有还幻灯片打包下载 51M ZIP http://t.cn/RhWBmXr //@bigiceberg: mark,其中09年UK的mlss最经典。 [ [微博](http://www.weibo.com/5220650532/Borng7Ukv) ] + +> 2014-09-24 @好东西传送门: 机器学习暑期学校MLSS全集(2002-): MLSS汇集了机器学习界名师,提供基础教程,展示领域进展, 免费讲义下载 -- 是了解领域前沿的好去处。全集罗列了过去的26次课和未来的8次课, 基本上欧洲,美国,澳洲,亚洲各自一摊。原始链接 www.mlss.cc 我们做了个github版补全了缺失链接 http://t.cn/RhWRlBo [ [微博](http://www.weibo.com/5220650532/BoqHnj2qe) ] + +2014-09-24 //@AixinSG: 我们做过hashtag扩散的研究 http://t.cn/RhWmsw8 Google Scholar上也有了一些相关的引用文章 http://t.cn/RhWmswE 相对来说扩散要比溯源容易做,溯源很不容易验证 [ [微博](http://www.weibo.com/5220650532/Bor4eu5sU) ] + +> 2014-09-24 @好东西传送门: 问: 做基于话题的社交网络中的溯源,寻找源头用户, 求文章? 答: 找到5篇论文 http://t.cn/RhW6Suk 特别推荐Guille等"在线社交网络中信息扩散综述"(SIGMOD Record 2013)脑图, 讲了三个挑战及相关解法: 发现有趣话题,扩散过程建模, 识别高影响力节点。此外还有几篇溯源算法研究及一篇Science相关好文 [ [微博](http://www.weibo.com/5220650532/BoqRO7Mzg) ] + +2014-09-24 问: 做基于话题的社交网络中的溯源,寻找源头用户, 求文章? 答: 找到5篇论文 http://t.cn/RhW6Suk 特别推荐Guille等"在线社交网络中信息扩散综述"(SIGMOD Record 2013)脑图, 讲了三个挑战及相关解法: 发现有趣话题,扩散过程建模, 识别高影响力节点。此外还有几篇溯源算法研究及一篇Science相关好文 [ [微博](http://www.weibo.com/5220650532/BoqRO7Mzg) ] + +2014-09-24 机器学习暑期学校MLSS全集(2002-): MLSS汇集了机器学习界名师,提供基础教程,展示领域进展, 免费讲义下载 -- 是了解领域前沿的好去处。全集罗列了过去的26次课和未来的8次课, 基本上欧洲,美国,澳洲,亚洲各自一摊。原始链接 www.mlss.cc 我们做了个github版补全了缺失链接 http://t.cn/RhWRlBo [ [微博](http://www.weibo.com/5220650532/BoqHnj2qe) ] + +2014-09-23 [资料合集] http://t.cn/RhOz6bQ 情感分析(sentiment analysis) 两本经典综述PDF下载: A Survey of Opinion Mining and Sentiment Analysis (2012) by Bing Liu; Opinion mining and sentiment analysis (2008) by Bo Pang, Lillian Lee, 另附Richard Socher等深度学习用于情感分析的论文 欢迎补充 [ [微博](http://www.weibo.com/5220650532/Bohx6Ahic) ] + +2014-09-23 回复@禅系一之花: 谢谢提示。《傅立叶变换的简易指南》 http://t.cn/8srbg2x 译者:Taurelasse //@禅系一之花:译言上有翻译版 //@好东西传送门:感谢右边传送 An Interactive Guide To The Fourier Transform //@赶路人林文: http://t.cn/zjN3lQ6 这个傅里叶转换的文章是我看到 [ [微博](http://www.weibo.com/5220650532/Boh4Y1Doi) ] + +> 2014-09-19 @好东西传送门: 问: @ShawnLeesr 给找一些好到逆天的 1.信号处理 2 傅里叶变换 3.小波变换的入门资料吧 答: 资料整理 http://t.cn/RhKNdKs 推 @Heinrich_DMU 傅里叶分析之掐死教程。进阶有Stanford傅立叶变换课(Brad Osgood) http://t.cn/RhKNdKF , MIT小波分析课(Gilbert Strang) http://t.cn/RhKNd9v 请指正补充 [ [微博](http://www.weibo.com/5220650532/BnHcFiekf) ] + +2014-09-23 //@AllAboutStorage: Freebase小介绍(目标结构化internet)。母公司2010年被Google收购,其技术应该被用到了Google Knowledge Graph这个项目中。感兴趣的同学还可以看一看Google的图数据库Cayley http://t.cn/RvHuYpL 。其介绍就清楚写明:Cayley是受Google知识图谱以及Freebase背后的图数据库启发。 [ [微博](http://www.weibo.com/5220650532/Boh3LyNLP) ] + +> 2014-09-23 @好东西传送门: @low_accepted 问:求Freebase Wikipedia Extraction (WEX)的数据集(66GB大小,tsv格式) 答:AWS上有66GB版本的ESB snap-1781757e,挂靠在EC2上免下载。刚才实验了可用。WEX把维基百科英文版的模板、信息框、目录等转化为XML格式 http://t.cn/Rh0kIXp 更多Freebase资源 http://t.cn/Rh0kIX0 [ [微博](http://www.weibo.com/5220650532/Bogtpf4Jr) ] + +2014-09-23 问: @神经明亮的人 求perl教程呀? 答: 资料合集 http://t.cn/RhOvrpN Randal Schwartz 的learning Perl(小骆驼)是公认的入门教程, 浅显短小, 建议看英文版。更短有Learn Perl in about 2 hours 30 minutes. 更多看perlmonks.org和perl-tutorial.org的教程合集. 进阶看大骆驼Programming Perl 欢迎补充 [ [微博](http://www.weibo.com/5220650532/Boh22i7QV) ] + +2014-09-23 @low_accepted 问:求Freebase Wikipedia Extraction (WEX)的数据集(66GB大小,tsv格式) 答:AWS上有66GB版本的ESB snap-1781757e,挂靠在EC2上免下载。刚才实验了可用。WEX把维基百科英文版的模板、信息框、目录等转化为XML格式 http://t.cn/Rh0kIXp 更多Freebase资源 http://t.cn/Rh0kIX0 [ [微博](http://www.weibo.com/5220650532/Bogtpf4Jr) ] + +2014-09-23 感谢右边传送 An Interactive Guide To The Fourier Transform //@赶路人林文: http://t.cn/zjN3lQ6 这个傅里叶转换的文章是我看到的最棒的,无比生动。特别适合文科生,八年没碰过物理,五年没碰过数学的我都看懂了。有时间一定把这个翻译成中文。 [ [微博](http://www.weibo.com/5220650532/BofcOk20k) ] + +> 2014-09-19 @好东西传送门: 问: @ShawnLeesr 给找一些好到逆天的 1.信号处理 2 傅里叶变换 3.小波变换的入门资料吧 答: 资料整理 http://t.cn/RhKNdKs 推 @Heinrich_DMU 傅里叶分析之掐死教程。进阶有Stanford傅立叶变换课(Brad Osgood) http://t.cn/RhKNdKF , MIT小波分析课(Gilbert Strang) http://t.cn/RhKNd9v 请指正补充 [ [微博](http://www.weibo.com/5220650532/BnHcFiekf) ] + +2014-09-22 Yar, Yac, Yaf 都是 @Laruence 直接在GITHUB上开源的 http://t.cn/zWiKwkj , Zend Optimizer 也有他 http://t.cn/Rh0h8RZ [ [微博](http://www.weibo.com/5220650532/BoaTCoZbG) ] + +> 2014-09-22 @Laruence: 又要写总结报告了, 这是目前微博俩年来达成的LNMP的技术结构图..... 也就这么些东西, 大部分都是开源的, 欢迎借鉴. [ [微博](http://www.weibo.com/1170999921/BoaKMhnJp) ] + +2014-09-22 问: 增强现实近几年的文章或者相关资料特别是关于PTAM的资料? 答: 资料汇总 http://t.cn/Rh0v03Y PTAM是"即时定位与地图构建" (Simultaneous localization and mapping, SLAM, 机器人视觉的研究方向)的重要进展, 概念于2007年ISMAR最佳论文中提出。2014 CVPR 有一组段教程涉及相关研究 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BoaJeg31R) ] + +2014-09-22 传送好东西 #自然语言处理# 论文“Distributed Representations of Sentences and Documents ” Quoc V. Le, Tomas Mikolov, ICML 2014 链接 http://t.cn/RhpdQqv PV = Paragraph Vector [ [微博](http://www.weibo.com/5220650532/BoabnoAha) ] + +> 2014-09-22 @ustczen: “Distributed Representations of Sentences and Documents ”中提到的句子向量化算法PV-DM在github上已经有了基于gensim的python实现:http://t.cn/RPDxH82,word2vec论坛有人用它在IMDB数据集上尝试做情感分类,效果没有论文声称的那么牛,但可以参考下实现。@好东西传送门 [ [微博](http://www.weibo.com/2872565912/Bo9xyfdib) ] + +2014-09-22 感谢@hnlyjzh 搬运! Large Scale Visual Recognition Challenge视频免梯子下载 [ [微博](http://www.weibo.com/5220650532/Bo6SLASYp) ] + +> 2014-09-21 @hnlyjzh: ILSVRC2014的视频在这里http://t.cn/RhNBfX6 @好东西传送门 [ [微博](http://www.weibo.com/1244843177/Bo3i6cufT) ] + +2014-09-21 继续传送 //@ICT秦磊: 转了GoogLeNet,放在优酷上。 http://t.cn/RhN58TY 好东西传送门: 帮转,在YouTube上的,看看有没有大神帮忙传送回国 [ [微博](http://www.weibo.com/5220650532/Bo0laE8yh) ] + +> 2014-09-20 @贾旭kul_visics: @好东西传送门 ILSVRC2014 videos http://t.cn/RhCTDKX [ [微博](http://www.weibo.com/3195545915/BnUjy7FgT) ] + +2014-09-21 转发理论:一张图简明扼要总结了各种概率分布的关系,对机器学习和统计都极具参考价值。另补充维基百科上无版权的图 http://t.cn/zjyvP9q 并有对各种分布的详细解释 [ [微博](http://www.weibo.com/5220650532/BnYMPiRcz) ] + +> 2014-09-21 @_散沙_民工智能_: 基础中的基础,各路大数据科学家首先忽略的东西。晚安 http://t.cn/z8AJfHW [ [微博](http://www.weibo.com/1438548745/BnWtujF4q) ] + +2014-09-20 帮转,在YouTube上的,看看有没有大神帮忙传送回国 [ [微博](http://www.weibo.com/5220650532/BnVt2ffR0) ] + +> 2014-09-20 @贾旭kul_visics: @好东西传送门 ILSVRC2014 videos http://t.cn/RhCTDKX [ [微博](http://www.weibo.com/3195545915/BnUjy7FgT) ] + +2014-09-20 问: @情非得已小屋 推荐点关于推荐系统的综述么? 答: 问答207 http://t.cn/RhCt7lc 强推KDD2014讲义 "the recommender problem revisited": 第一部分Xavier Amatriain的综述(135页, 2014机器学习夏季学校版有248页), 第二部分"Context Aware Recommendation" (64页) 谢 @小飞鱼_露 @明风Andy 推荐 [ [微博](http://www.weibo.com/5220650532/BnRHSq1xl) ] + +2014-09-20 问: @水月小和尚 求隐私保护的资料 答: http://t.cn/Rh9egwV 隐私保护是大数据时代的重要问题。先推荐一篇2010年综述privacy-preserving data publishing 讲数据发布中的攻击模型, 隐私模型和匿名算法(看附图) 1.3节还列了一些综述, 讲"数据挖掘、数据查询、统计数据发布"中实现隐私保护 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BnPOcry6i) ] + +2014-09-20 过去一周新增的问答和推荐资源都整理到Github上了http://t.cn/Rh9NSVm 到目前为止有360条主题。要找以前推荐过的资源直接可以在页面上Ctrl+F搜索。BTW,如果你想订阅每周更新,发邮箱给我的私信吧 [ [微博](http://www.weibo.com/5220650532/BnMt3bdgh) ] + + 2014-09-19 Large-Scale Distributed Computer Vision As A Cloud Service [ [微博](http://www.weibo.com/5220650532/BnImw9owp) ] > 2014-09-19 @Rachel____Zhang: 发现了一个好东西,cloudcv http://t.cn/RhKuArr . 基于GraphLab with GPU支持在线object detection, classification和feature extraction(用的是Caffe),提供了MATLAB和Python的API。http://t.cn/8FItstH 还有提供ILSVRC2014 的各种feature... [ [微博](http://www.weibo.com/2607574543/BnIlCguKb) ] From 7aa0d8d2a42d474b80d5b4e1dddd887a72d7a675 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 26 Sep 2014 14:34:02 -0700 Subject: [PATCH 419/485] Update README.md --- README.md | 12 +++++++++--- 1 file changed, 9 insertions(+), 3 deletions(-) diff --git a/README.md b/README.md index 8b8ca79..599f45f 100644 --- a/README.md +++ b/README.md @@ -1,8 +1,7 @@ # 好东西传送门 [http://www.weibo.com/haoawesome](http://www.weibo.com/haoawesome) * [简介](README.md#简介) : [问答服务](README.md#问答服务), [订阅服务](README.md#订阅服务), [使用许可](README.md#使用许可) -* [问答与原创](README.md#问答与原创) -* [文摘与点评](README.md#文摘与点评) +* [问答与传送档案](README.md#问答与传送档案) * [通知与声明](README.md#通知与声明) @@ -32,7 +31,14 @@ -## 问答与原创 +## 问答与传送档案 +2014-09-26 赞Search Formula-1 !//@张颖峰: 如果说常规搜索已经是个解决了的问题(比如elasticsearch等等),为什么还要重新造这个轮子,答案是,更好的可定制性以及更快速的性能。尽管代码质量有待提高,但做为经过高压环境验证的完整解决方案,必将给开发者以更充足的空间来按需补充和裁剪。Apache License [ [微博](http://www.weibo.com/5220650532/BoLJTjP1R) ] + +> 2014-09-26 @张颖峰: 也许现在有些早,但苦于没有更多的成员和时间来完善文档,所以还是赶在这个周末之前把我们之前一直完善的引擎对外宣布了,这就是C++编写的高性能分布式搜索存储一体化引擎,主要面向开发者。http://t.cn/RhT3I3B @好东西传送门 [ [微博](http://www.weibo.com/1788077877/BoLngj2V3) ] + +2014-09-26 回复@民工_李江: 非常感谢补充 课程链接 http://t.cn/zYsV43a //@民工_李江:Mattew Jackson在Coursera上有门相关的课: social and economic networks,好像这期刚开始不久 [ [微博](http://www.weibo.com/5220650532/BoKGBEX1J) ] + +> 2014-09-26 @好东西传送门: 问: 求经济学方向社会网络资料? 答: 文献汇总 http://t.cn/RhTlXMC 社会网络(social network)基础知识先看维基百科和在线教材"Introduction to social network methods". 四篇经济学方向文章, 推荐斯坦福教授Matthew Jackson (2010) "An Overview of Social Networks and Economic Applications" 96页 [ [微博](http://www.weibo.com/5220650532/BoKB6Eafx) ] 2014-09-26 问:有没有最新的讲述人工智能发展史,现状,展望的资料? 答:人工智能(Artificial Intelligence) 领域综述有一个很好玩的图 "AI Landscape" (2008年AI Magazine附送的海报), 再配上一个AI历史大事件的时间轴demo “ Companion Timeline of Artificial Intelligence History” http://t.cn/RhTXnDF [ [微博](http://www.weibo.com/5220650532/BoJAcrUuy) ] From abe95dd2447657cdc2b170f001ecf6b6dec33abc Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 1 Oct 2014 21:04:05 -0700 Subject: [PATCH 420/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 599f45f..708021e 100644 --- a/README.md +++ b/README.md @@ -1,4 +1,4 @@ -# 好东西传送门 +# 好东西传送门 [http://www.weibo.com/haoawesome](http://www.weibo.com/haoawesome) * [简介](README.md#简介) : [问答服务](README.md#问答服务), [订阅服务](README.md#订阅服务), [使用许可](README.md#使用许可) * [问答与传送档案](README.md#问答与传送档案) From 20108fe782c24c7d04a89376600a462e1073765c Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 1 Oct 2014 21:05:05 -0700 Subject: [PATCH 421/485] Update README.md --- README.md | 4 +++- 1 file changed, 3 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index 708021e..1bae99f 100644 --- a/README.md +++ b/README.md @@ -1,4 +1,4 @@ -# 好东西传送门 +# 好东西传送门 [http://www.weibo.com/haoawesome](http://www.weibo.com/haoawesome) * [简介](README.md#简介) : [问答服务](README.md#问答服务), [订阅服务](README.md#订阅服务), [使用许可](README.md#使用许可) * [问答与传送档案](README.md#问答与传送档案) @@ -21,6 +21,8 @@ ### 订阅服务 1. 订阅微信公众号: 好东西传送门 + + 2. [订阅好东西周报](http://memect.co/n4BNxmj) (邮件列表,大约每周五发) ### 使用许可 From be1def54d11ed11c7a3e1fc7bade6d77d93cbf60 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 1 Oct 2014 21:07:47 -0700 Subject: [PATCH 422/485] Update README.md --- README.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index 1bae99f..2da2ba8 100644 --- a/README.md +++ b/README.md @@ -19,11 +19,11 @@ * [跟踪问答进展](https://github.com/memect/hao/issues) 欢迎认领还没有回答的问题 ### 订阅服务 -1. 订阅微信公众号: 好东西传送门 +1. 订阅微信公众号: 好东西传送门 (发送好东西传送门的一些推荐和<机器学习日报>) -2. [订阅好东西周报](http://memect.co/n4BNxmj) (邮件列表,大约每周五发) +2. [订阅好东西周报](http://memect.co/n4BNxmj) (邮件列表,每周的问答与资源推荐合集,大约每周五发) ### 使用许可 From dd838032c5a0b9045a32d88cf4842fd2ff54a56e Mon Sep 17 00:00:00 2001 From: haoawesome Date: Sat, 4 Oct 2014 09:14:03 -0700 Subject: [PATCH 423/485] Update README.md --- README.md | 178 ++++++++++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 178 insertions(+) diff --git a/README.md b/README.md index 2da2ba8..cfb603f 100644 --- a/README.md +++ b/README.md @@ -34,6 +34,184 @@ ## 问答与传送档案 +2014-10-04 《NLP常用信息资源》原资源主要是水木上的zibuyu整理的,@算文解字 推荐。这里我们综合了一些新的内容整理了一个初步的列表,包含了一些网站、课程、研究小组、重要学者、工具等。文字版 http://t.cn/RhrZUWq 部分资源的卡片预览 http://t.cn/RhrZUWG [ [微博](http://www.weibo.com/5220650532/BpZ5eBCdx) ] + +2014-10-04 //@十月伤感wb: 【进段广告】我们今年SIGIR文章 Your Neighbors Affect Your Ratings 算是推荐系统里的特征工程,利用商家跟邻近商家的相互影响来提高rating prediction效果。主页 http://t.cn/RhBSY0S ACM http://t.cn/RhBSY0a [ [微博](http://www.weibo.com/5220650532/BpYUb4HJ0) ] + +> 2014-10-03 @AixinSG: 如何选择最适合的推荐模型 Choosing a Recommender Model 转自 GraphLab Blog http://t.cn/RhWlFCg [ [微博](http://www.weibo.com/1025887594/BpRAnsYWV) ] + +2014-10-04 在加长版里还有个“触类旁通”栏目,列举了有趣的其他话题。比如@GK同人于野 发起的机器人书写的图灵测试的话题 http://t.cn/RhBmK6x 提到机器故意犯错误伪装自己是人的例子 http://t.cn/Rh1eJ0z (Youtube) [哈哈] [ [微博](http://www.weibo.com/5220650532/BpXbccKMv) ] + +> 2014-10-04 @好东西传送门: 机器学习头条2014-10-03 http://t.cn/RhBRuRz 1) 选择最适合的推荐模型 @AixinSG 2) 线性回归,偏差、方差权衡 @AustinCody 3) 决策树模型组合之随机森林与GBDT @格灵深瞳 4) 谷歌的线性规划工具glop和运筹学工具集or-tools @王威廉 5) 神经网络黑客指南 @安人心智 加长版21条 http://t.cn/RhBRuRZ [ [微博](http://www.weibo.com/5220650532/BpWJlA8lf) ] + +2014-10-04 原文有不错的Python讲解 //@AixinSG: 讲根据数据的特性选择最适合的模型。再往后退一步,从最原始数据得到针对具体推荐问题的最佳表述就有点特征工程的意思了。几年前有个比赛,我同事是评审,说收到的报告有3种:1. 做实验,解释结果 2. 分析数据,选择模型,解释结果 3. 分析数据,实验,然后解释 [ [微博](http://www.weibo.com/5220650532/BpWK0m6sJ) ] + +> 2014-10-03 @AixinSG: 如何选择最适合的推荐模型 Choosing a Recommender Model 转自 GraphLab Blog http://t.cn/RhWlFCg [ [微博](http://www.weibo.com/1025887594/BpRAnsYWV) ] + +2014-10-04 机器学习头条2014-10-03 http://t.cn/RhBRuRz 1) 选择最适合的推荐模型 @AixinSG 2) 线性回归,偏差、方差权衡 @AustinCody 3) 决策树模型组合之随机森林与GBDT @格灵深瞳 4) 谷歌的线性规划工具glop和运筹学工具集or-tools @王威廉 5) 神经网络黑客指南 @安人心智 加长版21条 http://t.cn/RhBRuRZ [ [微博](http://www.weibo.com/5220650532/BpWJlA8lf) ] + +2014-10-04 一篇不错的介绍线性回归的文章 [ [微博](http://www.weibo.com/5220650532/BpWrOtXYa) ] + +> 2014-10-03 @AustinCody: 真正的线性回归,不仅会考虑使得曲线与给定点集的拟合程度最好,还会考虑模型最简单,这个话题我们将在本章后面的偏差、方差的权衡中深入的说。概率分布是一个可爱又可恨的东西,当我们能够准确的预知某些数据的分布时。。。。。。 http://t.cn/RhBy6ym [ [微博](http://www.weibo.com/5106435191/BpRuqaTPz) ] + +---- + +2014-10-03 经典文章 Greedy function approximation : A Gradient Boosting Machine http://t.cn/Rh1dW44 并行实现推荐 @陈天奇怪 的xgboost,实际例子见@phunter_lau 最近的文章 http://t.cn/RhKAWac 更多GBDT http://t.cn/Rh1dW4y [ [微博](http://www.weibo.com/5220650532/BpPEBdnO4) ] + +> 2014-10-03 @格灵深瞳: 模型组合与决策树相关的算法比较多,这些算法最终的结果是生成N棵树,这样可以大大的减少单决策树带来的毛病,有点类似于三个臭皮匠等于一个诸葛亮的做法,虽然这几百棵决策树中的每一棵都很简单,但是他们组合起来确是很强大。【决策树模型组合之随机森林与GBDT】http://t.cn/Rh1uZ1Y [ [微博](http://www.weibo.com/3769368692/BpP51Bkvo) ] + +2014-10-03 Hacker's guide to Neural Networks 教程是用Javascript写的神经网络. 同一作者以前写的convnetjs http://t.cn/Rh1dfKB [ [微博](http://www.weibo.com/5220650532/BpPCL7EB5) ] + +> 2014-10-03 @安人心智: #脑技术# 【神经网络黑客指南】现在,最火莫过于深度学习(Deep Learning),怎样更好学习它?可以让你在浏览器中,跑起深度学习效果的超酷开源项目convnetjs作者karpathy告诉你,最佳技巧是,当你开始写代码,一切将变得清晰。他刚发布了一本图书,不断在线更新:http://t.cn/RhSJkOz [ [微博](http://www.weibo.com/2710875561/BpNDGlONo) ] + +2014-10-03 补充一个线性规划的Python包 PuLP http://t.cn/Rh1d4hV 是GLPK的一个外壳。 非常简单好用 [ [微博](http://www.weibo.com/5220650532/BpPBLFRx6) ] + +> 2014-10-03 @王威廉: 线性规划是在优化、机器学习以及自然语言处理中经常遇到的重要问题。谷歌近日开源了他们的线性规划工具glop。另外,谷歌的开源运筹学工具集or-tools中还包括有各种约束优化问题,线性优化问题,背包问题以及图算法的工具。Google Code下载: http://t.cn/Rh1Wwze [ [微博](http://www.weibo.com/1657470871/BpNM0fzQG) ] + +2014-10-03 和@DonaldErvinKnuth 这条参照着看 [呵呵] http://t.cn/Rh1rdx8 还有@李沐M 的这条 http://t.cn/Rh1rdxQ [ [微博](http://www.weibo.com/5220650532/BpPzP7Lns) ] + +> 2014-10-03 @晨曦Stephen: Hinton祖师爷来talk, 讲他被nips rejected的paper~问他如何评价最近imagenet challenge的趋势,他说going deeper just work, but that's boring and rubbish, computer vision不应该走这个方向..... [ [微博](http://www.weibo.com/2097352953/BpMXNxxgK) ] + +2014-10-03 nolearn十分的Pythonic, 非常简单,和scikit-learn一样好用。项目文档http://t.cn/Rh1rpyM 目前实现了convnet和dbn [ [微博](http://www.weibo.com/5220650532/BpPxHCtSM) ] + +> 2014-10-03 @xccds: 两个很好的deep leaning实例示范,用python的nolearn包来实施http://t.cn/Rh11bsl 用R的H2O包来做 http://t.cn/Rh0RNZS [ [微博](http://www.weibo.com/1400524015/BpPirqnf4) ] + +2014-10-03 //@张俊林say: 我个人还是首推《统计自然语言处理》,尽管从内容角度讲有点旧因为毕竟出版了10年了,但是可以很好地培养成利用统计思路解决NLP实际问题的思维框架,这一点其它教材都比不上这本。//@好东西传送门: 推荐吴俣的这篇文章. Stanford那门NLP公开课 http://t.cn/zTagx9z [ [微博](http://www.weibo.com/5220650532/BpPu9brIo) ] + +> 2014-09-21 @gerrylin: 自然语言处理怎么最快入门? #读知乎# http://t.cn/RhN1Qhi [ [微博](http://www.weibo.com/1424552461/Bo3dtAHyS) ] + +2014-10-03 机器学习头条 2014-10-02 http://t.cn/Rh1WlIL 1)自然语言处理怎么最快入门 by吴俣 @gerrylin 2) 公开课 “矩阵与线性方程组” by马辉 @清华MOOCs 3) String Re-writing Kernel @李航博士 4) Google用深度学习做反垃圾 @我爱机器学习 5)免费电子书Math for CS @velvel2 加长版 http://t.cn/Rh1WlIy [ [微博](http://www.weibo.com/5220650532/BpNQFxwHJ) ] + +2014-10-03 //@赶路人林文: Coursera上面有两门NLP的课程,个人比较喜欢哥伦比亚大学的Michael Collins。随课程有相关的阅读材料。NLP with python 只要懂一点python就基本没问题,英文版最佳,入门必备。//@好东西传送门: 推荐吴俣的这篇文章. Stanford那门NLP公开课 http://t.cn/zTagx9z [ [微博](http://www.weibo.com/5220650532/BpMhEdL6y) ] + +> 2014-09-21 @gerrylin: 自然语言处理怎么最快入门? #读知乎# http://t.cn/RhN1Qhi [ [微博](http://www.weibo.com/1424552461/Bo3dtAHyS) ] + +---- + +2014-10-02 推荐吴俣的这篇文章. Stanford那门NLP公开课 http://t.cn/zTagx9z 同推荐, 讲得非常好, 适合入门 Python的包列了pattern scikit-learn 小门再补充NLTK gensim和textblob [ [微博](http://www.weibo.com/5220650532/BpGQm0Cu0) ] + +> 2014-09-21 @gerrylin: 自然语言处理怎么最快入门? #读知乎# http://t.cn/RhN1Qhi [ [微博](http://www.weibo.com/1424552461/Bo3dtAHyS) ] + +2014-10-02 @传媒老跟班 最近整理了一个<论文检测> http://t.cn/Rh3nerp 列举了9个中英文系统 PaperPass Copycheck 维普通达 万方数据 Viper 中国搜 Turnitin Dustball PPVS 值得参考 [ [微博](http://www.weibo.com/5220650532/BpGKxukMy) ] + +> 2014-08-20 @好东西传送门: 问: @sxhfut 能否推荐一下英文论文的学术不端检测系统或网站,免费的或者收费的靠谱的 答: 关键词Plagiarism, 初步答案与进展: http://t.cn/RPn5uwR Turnitin收费,有很多学校用户; Viper 有免费windows单机版; Plagium 免费在线不限长度, 上了两个排行榜,可以同时用几个交叉检测。欢迎补充指正。 [ [微博](http://www.weibo.com/5220650532/Bjdaxhu6s) ] + +2014-10-02 Finlay-Liu @ Github 推荐了冈萨雷斯的<数字图像处理>, 其中第4章频域处理,第5章图像复原都与图像增强相关 http://t.cn/Rh3nUXI [ [微博](http://www.weibo.com/5220650532/BpGFWm6CQ) ] + +> 2014-10-01 @好东西传送门: @小白_小可乐 问:有没有图像增强方面的学习资料啊? 答:图像增强主要分为空域方法和频域方法两大类.这里收集了几篇综述文章 http://t.cn/Rhua1eo 讨论页 http://t.cn/RPlPCU5 欢迎CV领域的专家增补 [ [微博](http://www.weibo.com/5220650532/BpwA4yquC) ] + +2014-10-02 强烈推荐!另外再推一次李航博士的新书《Semantic Matching in Search》阐述了搜索中语义匹配的基本方法. 预览与目录 http://t.cn/RPiq2hc [ [微博](http://www.weibo.com/5220650532/BpFDZ9jIP) ] + +> 2014-10-02 @李航博士: 最近在台湾做报告时讲 Semantic Matching,回来后把其中介绍 String Re-writing Kernel的部分整理成了短文。http://t.cn/Rh3Kt0z 这个工作曾获得ACL 2012 Best Student Paper Award。与@布凡THU @朱小燕THU 合作的工作。 [ [微博](http://www.weibo.com/2060750830/BpEVUFTGH) ] + +2014-10-02 机器学习头条2014-10-01 http://t.cn/Rh36jCa 1)ACM COSN社交网络会议文章下载 @AixinSG 2) 特征工程的方方面面 @xccds 3) semdom英语常用词和词组语义归类 @莫水田 4) Spark MLlib分布式决策树性能提升了2-5倍 @hashjoin 5) Chris Adolph的最大似然课程 @romanxu 加长版23条 http://t.cn/Rh36jCX [ [微博](http://www.weibo.com/5220650532/BpEpmtBzf) ] + +---- + +2014-10-01 不错。没列什么公式,但很有insights//@Copper_PKU:转发微博 [ [微博](http://www.weibo.com/5220650532/BpyQKk4lh) ] + +> 2014-10-01 @xccds: http://t.cn/RhumtBN 这篇综述了特征工程的方方面面,值得一读。 [ [微博](http://www.weibo.com/1400524015/BpyMkpCvZ) ] + +2014-10-01 semdom,一个很不错的分类树,也可以算本体ontology或者常识知识库,含1800语义类.很友好的Creative Commons授权证 [ [微博](http://www.weibo.com/5220650532/BpxI5lUaR) ] + +> 2014-10-01 @莫水田: 我曾想按照语义来给英语常用词和词组归类,不过缺乏能力和行动力,昨晚上发现原来有人已经做了 http://t.cn/RhuOrs3,这个“语义” 网上各种词类都有,较神奇。 多写描绘叙事短文,写时参阅语义网、Oxford Pictorial English Dictionary 和Dictionary of Phrasal Verbs, 那写出生动的英语几年可待~ [ [微博](http://www.weibo.com/1940113775/BpxwV2F4B) ] + +2014-10-01 赞MLlib http://t.cn/Rhuofir 补充一个PPT MLlib Decision Trees at SF Scala-BAML Meetup http://t.cn/Rhuofid [ [微博](http://www.weibo.com/5220650532/BpwK2shmJ) ] + +> 2014-10-01 @hashjoin: 决策树是数据挖掘中常用的一个算法。在社区和Databricks的合作下,Spark MLlib 1.1对分布式决策树进行了大量的优化,最新版本比上一个版本性能提升了2 - 5倍。这篇博客介绍了几个重要的优化和具体的性能提升 http://t.cn/RhuSxCX [ [微博](http://www.weibo.com/1630850750/BpwDEuAWI) ] + +2014-10-01 运维必须知道的15个项目:docker轻量级容器 vagrant部署应用 statsd统计汇总 ansible自动化部署 capistrano远程自动化 salt基础组件通信 sentry处理错误日志 fabric远程调用 chef配置管理 logstash日志处理 peppet服务器自动化 essay 项目部署 等,他们的Github信息一览:http://t.cn/RhuSEzM [ [微博](http://www.weibo.com/5220650532/BpwGe4OJP) ] + +2014-10-01 @小白_小可乐 问:有没有图像增强方面的学习资料啊? 答:图像增强主要分为空域方法和频域方法两大类.这里收集了几篇综述文章 http://t.cn/Rhua1eo 讨论页 http://t.cn/RPlPCU5 欢迎CV领域的专家增补 [ [微博](http://www.weibo.com/5220650532/BpwA4yquC) ] + +2014-10-01 //@Noodles-Xu:/@road2stat:各位HR看过来![太开心]//@统计之都: 作者是统计之都主站编辑之一高涛@三水成海 ,目前研三正在找工作中,欢迎勾搭//@xebro:博主另外几篇很不错的总结:PKU暑期高维统计学习心得 http://t.cn/RhmR6OA ,以及作者收集的当时PKU暑期讲座的相当全的材料 http://t.cn/RhmR6Ow [ [微博](http://www.weibo.com/5220650532/BpvrH2Mbb) ] + +> 2014-09-30 @张磊-机器学习: 一篇对ADMM原理及并行化方法总结的很棒的文章,大家耐着性子看完吧:http://t.cn/RPoPFOm [ [微博](http://www.weibo.com/1822639887/Bpn1t6FGN) ] + +2014-10-01 文名 <从HTML Components的衰落看Web Components的危机>下面有好多大牛在参与讨论,大家快去[围观] [ [微博](http://www.weibo.com/5220650532/Bpvacimsu) ] + +> 2014-10-01 @民工精髓V: 看到大家对Angular,React和Polymer的讨论,我写了一些对Web Components的看法,欢迎大家探讨:http://t.cn/RhmdVXZ [ [微博](http://www.weibo.com/1858846672/BprVLmDJs) ] + +2014-10-01 机器学习头条2014-09-30 http://t.cn/RhubqP6 1)天猫推荐算法大赛Top 9团队访谈 @万物皆三NLP 2) Radim Řehůřek: Multicore LDA in Python @星空下的巫师 3)正文抽取的开源代码 @KissDev 4) 量子机器学习 @尹璋琦THU 5) 通过机器学习算法找到真爱 @王威廉 加长版32条 http://t.cn/RhubqPX [ [微博](http://www.weibo.com/5220650532/BpuZGa9Is) ] + +2014-10-01 @romanxu 刚才推荐了华盛顿大学统计课Chris Adolph教授的课程Maximum Likelihood Methods for the Social Sciences 为方便浏览,把他的课件都做了预览卡片这这里 http://t.cn/Rhu4DdQ 这门课比较理论联系实际,适合非统计或计算机专业来学. [ [微博](http://www.weibo.com/5220650532/BpuXs9hy3) ] + +2014-10-01 转发理由:涵盖各种模型,如二进制数据,有序数据,称名数据(有名字但无顺序),可数数据,缺失数据,等,都可由最大似然方法处理 [ [微博](http://www.weibo.com/5220650532/BpuUahYSR) ] + +> 2014-10-01 @romanxu: 隆重推荐:统计课maximum likelihood的教授Chris Adolph,哈佛血统,年轻有为。完全的共享派:编程用R,不用STATA;文字处理用LaTex不用Office;课件完全公开http://t.cn/RP1QErM。还不遗余力给学生写了牛文:Social Science Computing for the Mac in 15 Steps and $29 (http://t.cn/RhuPgl2 [ [微博](http://www.weibo.com/1651598281/BptaEgzO8) ] + +2014-10-01 对前几天推荐过的概率分布关系图的详细解释来了[good] //@许扬逸Dijkstra [ [微博](http://www.weibo.com/5220650532/Bpslq2GEk) ] + +> 2014-09-28 @上微博的猫V: 【一张图的故事——概率分布之间的关系(上)】 概率分布之间的关系是个有趣的话题。若要一张图简要概述概率分布之间的关系,下图是经典。本文将从上到下,从左到右解释这张图。本来要全部写完才发布的。不过考虑到明天就回家了,家里没有网肯定写不了,所以先发布… http://t.cn/RhEZ2HJ [ [微博](http://www.weibo.com/1679022231/Bp8OT644W) ] + +---- + +2014-09-30 @杜威Dewey 问:互联网应用的分布式数据库存储使用网络存储有什么好方案吗 答:讨论总结现在在issue 62 http://t.cn/RhmtmqT Nexenta、OpenFiler这些开源软件能否上生产环境有几篇近几年的文章. tildelingu老师给了更精华的总结.见长微博 [ [微博](http://www.weibo.com/5220650532/BpoikzVBI) ] + +2014-09-30 推荐.加入我们Python资源区的正文提取专题.那里还列举了十多种其他工具 http://t.cn/Rhm2qhw [ [微博](http://www.weibo.com/5220650532/BpnqyjwL1) ] + +> 2014-09-30 @KissDev: 正文抽取的开源代码,基于文本密度的html2article: http://t.cn/8FvHNOY 基于标签比例的机器学习Dragnet: http://t.cn/RhnDNg0 专注新闻类网页提取的Newspaper: http://t.cn/RhnDNgW 集成goose等三种算法的readbilitybundle http://t.cn/RhnDNgO 我觉得最好的方法还可能是视觉系方法 [ [微博](http://www.weibo.com/1699016425/BpmqDx5GK) ] + + +2014-09-30 机器学习头条2014-09-29 http://t.cn/RhnECPX 1 机器学习视频课程 @雅虎北京全球研发中心 2 麻省理工Gilbert Strang的《线性代数》课程 @王威廉 3 大数据处理资源、工具 @bitslife 4 R语言抓取实时股票数据的API (作者 @Jincheng9 ) 5 推荐书《语言本能》@西瓜大丸子汤 加长版http://t.cn/RhnECPS [ [微博](http://www.weibo.com/5220650532/BpljlEKUi) ] + +2014-09-30 跨平台的优秀编辑器。非常好的中文介绍 [ [微博](http://www.weibo.com/5220650532/BpkCaxyG9) ] + +> 2014-09-28 @慕课网: #IT技术分享#【Sublime Text 全程指引】本文系统全面的介绍了Sublime Text,旨在成为最优秀的Sublime Text中文教程,分享给大家。绝对干货,一般人我不告诉。[推荐]原文地址:http://t.cn/Rh8uSA2 [ [微博](http://www.weibo.com/3306361973/Bp4YIuj6T) ] + +2014-09-30 转发理由:awesome-bigdata 600多个数据存储、分析相关项目。Github 地址: http://t.cn/RhE6VaJ 作者Onur Akpolat [ [微博](http://www.weibo.com/5220650532/BpjUBs0Av) ] + +> 2014-09-29 @bitslife: 大数据数据处理资源、工具不完备列表, 从框架、分布式编程、分布式文件系统、键值数据模型、图数据模型、数据可视化、列存储、机器学习等。很赞的资源汇总。 http://t.cn/8FwSiyK [ [微博](http://www.weibo.com/1895047203/Bpcpu3os6) ] + +---- + +2014-09-29 讨论242 不完全整理贴 http://t.cn/RhE8U44 补充了一篇论文 When Stopword Lists Make the Difference 一个很好玩的发现,英文里9个词的stopword list 与500多词的单子效果差异不大,法语类似。至于中文 ...还希望专家多讲讲 [ [微博](http://www.weibo.com/5220650532/Bpe3p9Ien) ] + +> 2014-09-28 @AixinSG: 相对于常规网页或新闻,我觉得停用词在用户生成内容里面会更重要一些,现在更倾向于在索引中保留每个词。Stop stopping stop words: a look at Common Terms Query http://t.cn/Rh8DFRh [ [微博](http://www.weibo.com/1025887594/Bp2RkCBrH) ] + +2014-09-29 Python的可穿透防火墙的轻量代理 主页 http://t.cn/Rvc8VZG 使用说明 http://t.cn/zQZIZMd //@Easy: 和Goagent比起来,除了可以自建服务器更稳定外,SS是全局代理,所以Dropbox等客户端也可以用了 [ [微博](http://www.weibo.com/5220650532/BpdRZ9EmC) ] + +> 2014-09-29 @Easy: 最近换用Shadowsocks科学上网,非常爽,推荐一把。Mac有客户端,全局代理,自动绕过国内网站,还能手工加名单。谷歌Play市场有应用可用。如果不爱用公用服务器,可以自己搭,一条命令:「 pip install shadowsocks 」顺便放个DO的10美刀优惠 http://t.cn/RP1OvQK [ [微博](http://www.weibo.com/1088413295/BpdNG20WK) ] + +2014-09-29 问: 大数据安全或隐私的现状综述? 答: 资料整理 http://t.cn/RhETCi9 推荐一篇2014年综述 Security Issues in Cloud Environments, A Survey 很新很全面: 对比此前10篇相关综述, 覆盖工业界话题, 引用315篇论文。粗分8大类: 软件, 存储与计算, 虚拟化, 互联网与服务, 网络, 访问控制, 信任, 法律 [ [微博](http://www.weibo.com/5220650532/BpdPema1O) ] + +2014-09-29 mysql数据库进化图 [ [微博](http://www.weibo.com/5220650532/BpdBgBVtY) ] + +> 2014-09-29 @MySQL_DBA: 分享图片 [ [微博](http://www.weibo.com/1979536592/Bpdwwyb0k) ] + +2014-09-29 推荐一个基于R语言的API (作者 @Jincheng9 ) 从新浪财经上抓取实时股票和指数数据,包括前收盘价,开盘价,当前价格,今日最高价,今日最低价,成交额等 http://t.cn/RhRahT6 [ [微博](http://www.weibo.com/5220650532/BpbVHeNjs) ] + +---- + +2014-09-28 求指点//@Nick蓝色风暴:接着上一话题,对于随机游走,比如是基于Uniform分布的游走,就是在[current-x1,current+x2]这个区间均匀随机一个数(x1和x2是常量)。而当x1=x2时,是对称随机游走,也就是M算法;当x1不等于x2时,是不对称游走,也就是MH算法。请问我的理解对吗?请大牛们指教@研究者July [ [微博](http://www.weibo.com/5220650532/Bp61jjF8f) ] + +> 2014-09-28 @Nick蓝色风暴: 最近学习MCMC的经典MH算法,被几个不同版本的代码实现给搞糊涂了,关键步骤在于如何得到下一个状态,好像大概分为Independent MCMC和Random Walk MCMC这两种。我现在的理解:独立MCMC是给定一个固定分布,要得到下一个状态就从这个分布里随机一个数;随机游走就是根据当前状态值来随机得到下一个状态。 [ [微博](http://www.weibo.com/1096796232/Bp5OoccYv) ] + +2014-09-28 这个讨论很有意义,明天小门会帮着整理合集,请各位专家继续 //@章成志: 是的,要看具体场合,实际上,“停用词”这个概念来源于信息检索、文本分类这样的任务,通常那些区分性较低(idf低)的词很多就是停用词,如果做情感分类等任务,有些词不但不能停用反而很重要。 [ [微博](http://www.weibo.com/5220650532/Bp5joiZta) ] + +> 2014-09-28 @AixinSG: 相对于常规网页或新闻,我觉得停用词在用户生成内容里面会更重要一些,现在更倾向于在索引中保留每个词。Stop stopping stop words: a look at Common Terms Query http://t.cn/Rh8DFRh [ [微博](http://www.weibo.com/1025887594/Bp2RkCBrH) ] + +2014-09-28 传送理由:Rob Fergus的用深度学习做计算机是觉的NIPS 2013教程。有mp4, mp3, pdf各种下载 pdf传送门 http://t.cn/RhRXlO1 他是纽约大学教授,目前也在Facebook工作,他2014年的8篇论文 http://t.cn/RhRXlO3 [ [微博](http://www.weibo.com/5220650532/Bp5f4inDt) ] + +> 2014-09-28 @老淘: Tutorials Session A - Deep Learning for Computer Vision - Microsoft Research http://t.cn/RhR7Jhg [ [微博](http://www.weibo.com/1849537887/Bp3lUetVx) ] + +2014-09-28 传送门的小伙伴们应该会喜欢这本书,非常有趣的视角,非常重要的话题。 [ [微博](http://www.weibo.com/5220650532/Bp543bsWU) ] + +> 2014-09-28 @GK同人于野: 我的书《万万没想到:用理工科思维理解世界》出版了,现已开始在京东预售 http://t.cn/RhRxvhy 此书按三个主题 - 反常识思维、成功学的解药、霍金的答案 - 精选并完善了我的文章,其中重点篇目做了很大程度的补充和改写,加入不少新内容,使其达到2014年最新知识。赵南元老师(@荒川围脖 )慷慨作序! [ [微博](http://www.weibo.com/2089800791/Bp4YdqYKG) ] + +2014-09-28 //@海中的沙粒:回复@ComplexLY:我有一本R数据可视化手册的书,就是教你如何用ggplot2来做数据可视化,说实话跟Tableau做的图,没法比,很多感觉需要用adobe illustrator 来修正下才拿的出手,嘿嘿,真的有点渣 //@ComplexLY:ggplot2 //@海中的沙粒:竟然忘记Python这个跟R差不多的软件了,这个更强悍 [ [微博](http://www.weibo.com/5220650532/Bp2L3dxFO) ] + +> 2014-09-28 @海中的沙粒: STATA ,SPSS的学术性意义比较强,STATA的几类回归分析上是最经典的,SPSS在方差分析上非常厉害,SAS适合数据库数据量更大等量级的分析,R比较综合性,编程性上属于难度中等,matlab更倾向于学计算机语言的,编程性更强,数据分析性机器计算更多,总得来说,R是最关键的,因为综合性 [ [微博](http://www.weibo.com/1843007450/Bp1euBodP) ] + +---- + +2014-09-27 R工具包的分类汇总 (CRAN Task Views, 34种常见任务,每个任务又各自分类列举若干常用相关工具包) http://t.cn/RhQy8o5 例如: 机器学习,自然语言处理,时间序列分析,空间信息分析,多重变量分析,计量经济学,心理统计学,社会学统计,化学计量学,环境科学,药物代谢动力学 等 [ [微博](http://www.weibo.com/5220650532/BoTv056xB) ] + + +2014-09-27 问: 请问用于复杂网络分析R软件包? 答: 资料汇总 http://t.cn/RhQwuXT 推荐两个经典包 statnet, igraph 。 R社区有个很全的分类列表覆盖几十个包; 还有几个不错的在线入门课程与学习资料 例如 Stanford的“R for Social Network Analysis” [ [微博](http://www.weibo.com/5220650532/BoT592e2T) ] + +---- + 2014-09-26 赞Search Formula-1 !//@张颖峰: 如果说常规搜索已经是个解决了的问题(比如elasticsearch等等),为什么还要重新造这个轮子,答案是,更好的可定制性以及更快速的性能。尽管代码质量有待提高,但做为经过高压环境验证的完整解决方案,必将给开发者以更充足的空间来按需补充和裁剪。Apache License [ [微博](http://www.weibo.com/5220650532/BoLJTjP1R) ] > 2014-09-26 @张颖峰: 也许现在有些早,但苦于没有更多的成员和时间来完善文档,所以还是赶在这个周末之前把我们之前一直完善的引擎对外宣布了,这就是C++编写的高性能分布式搜索存储一体化引擎,主要面向开发者。http://t.cn/RhT3I3B @好东西传送门 [ [微博](http://www.weibo.com/1788077877/BoLngj2V3) ] From 858b54e60ee6e6dd18f9a08a989173c17cd4cd1b Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 10 Oct 2014 13:16:02 -0700 Subject: [PATCH 424/485] Update README.md --- README.md | 176 ++++++++++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 176 insertions(+) diff --git a/README.md b/README.md index cfb603f..1b41d56 100644 --- a/README.md +++ b/README.md @@ -34,6 +34,182 @@ ## 问答与传送档案 + +要订阅《机器学习日报》,给hao@memect.com发封空信,标题是 "订阅机器学习日报"即可. + +--- + +2014-10-10 赞好奇猫团队的杰出翻译,主译者是美女Billie Zhang http://t.cn/Rhsksfv [ [微博](http://www.weibo.com/5220650532/BqVq9uNIO) ] + +> 2014-10-10 @Easy: 一直不会shell编程,mark下来回头读。《Linux命令行》中文版,http://t.cn/zQG7kxb 目录见大图 PDF @微盘 下载 http://t.cn/RhskyeL [ [微博](http://www.weibo.com/1088413295/BqVlRzWjg) ] + +2014-10-10 约翰霍普金斯大学JHU作为自然语言处理的一个重镇,其CLSP Seminars广邀重要学者讲学.例如近三期是Isidoros Doxa讲LSA, Jackie CK Cheung讲分布式语义,Yoshua Bengio讲生成模型的深度学习.多年来400多个讲座都在这里.关键学者和话题,在此一目了然 http://t.cn/RhskULw [ [微博](http://www.weibo.com/5220650532/BqVlSrrjT) ] + +2014-10-10 Taming Text是一本从实用的角度基于Java处理文本的好书.它包括了文本搜索的原理和用Solr的实现,字符串匹配.实体(如人名地名)识别和OpenNLP实现,文本聚类及工具Carrot//Mahout,文本分类的工具Lucene/Mahout/OpenNLP等 http://t.cn/htf5rQ 源代码http://t.cn/RhsDOce [ [微博](http://www.weibo.com/5220650532/BqViJ8DtN) ] + +2014-10-10 用Python实现逻辑回归Logistic Regression。LR是一种强大而简单的机器学习模型,例如Gmail的收件箱分类就使用了LR算法。这篇文章里Kevin Markham介绍了用scikit-learn实现LR的步骤,综合运用statsmodels pandas matplotlib patsy和scikit-learn,一步步教你如何分析数据与建模 http://t.cn/RhsNbFA [ [微博](http://www.weibo.com/5220650532/BqTn7ax4n) ] + +2014-10-10 名字显然是在向《Parallel Distributed Processing》这本经典致敬 http://t.cn/RhsLEzv 那是McClelland自己28年前的书了 [ [微博](http://www.weibo.com/5220650532/BqR442xQy) ] + +> 2014-06-13 @王晓伟alex: 分享一本关于分布式并行处理的数据《Explorations in Parallel Distributed Processing: A Handbook of Models, Programs, and Exercises》,作者是斯坦福的James L. McClelland。着重介绍了各种神级网络算法的分布式实现,做Distributed Deep Learning 的童鞋可以参考下。网址:http://t.cn/8kltYYT [ [微博](http://www.weibo.com/1932676664/B8MYbbNQy) ] + +2014-10-10 总结:@陈佳威_有荷有兰要发光 @哇噻大魔王 推荐ODPS; @陈天奇怪 @范涛_中科大 推荐xgboost http://t.cn/8sVIdCB @irwenqiang 推荐pGBRT http://t.cn/zjaDoYX [ [微博](http://www.weibo.com/5220650532/BqQVI3hLe) ] + +> 2014-10-09 @龙星镖局: 求助:有没支持大规模训练的开源GBDT? [ [微博](http://www.weibo.com/1830516311/BqNjVsVPX) ] + + +---- + +2014-10-09 @Mindey 君对SageMath云平台计算环境的介绍更赞,有优酷视频 http://t.cn/RhF9Ma8 //@Mindey: It is awesome tool indeed! [ [微博](http://www.weibo.com/5220650532/BqLSGDu6S) ] + +> 2014-10-09 @好东西传送门: Sage是一个Python的强大的数学工具箱合集,基本上常见数学计算都有支持:代数方程,微积分,微分方程,多项式,线性代数,群论,数论,拓扑学代数几何,椭圆曲线,可视化....详细列表见长微博。相比某其他软件要上万块才能有的专业包,Sage是个不错的选择。手册 http://t.cn/RhFK6tr [ [微博](http://www.weibo.com/5220650532/BqLO71d2P) ] + + +2014-10-09 机器学习头条 2014-10-08 http://t.cn/RhFwt4M 亚马逊提供的海量公共数据集等5条,见长微博。感谢@52cs @Geffory_ima @lidingpku @黄小非 [ [微博](http://www.weibo.com/5220650532/BqKiR7u0Q) ] + +2014-10-09 2)广告系统工程师谈工业界与学术界机器学习的异同 @52cs [ [微博](http://www.weibo.com/5220650532/BqKcNegej) ] + +2014-10-09 LingPipe非常值得考虑。项目主页 http://t.cn/RhF7H2U 而且有一本很不错的307页的免费电子书 http://t.cn/RhF7H24 [ [微博](http://www.weibo.com/5220650532/BqJHy2bg9) ] + +> 2014-10-08 @ImportNew: 《计算语言工具包LingPipe》LingPipe是一个开源的NLP计算语言工具包,采用Java书写,支持多语言,多领域,多类型的语言处理功能(包括中文分词),并提供Eclipse插件。http://t.cn/Rh37RdQ @黄小非 分享 [ [微博](http://www.weibo.com/2991905905/Bqze22laq) ] + +2014-10-09 过去多年的Web上的知识管理的文章尽在其中。想了解知识图谱,语义搜索等的来龙去脉,不能不过目。而且有完整的元数据!很容易开发出新的有趣的应用。可参考ISWC 2010的应用 http://t.cn/zjau1FF [ [微博](http://www.weibo.com/5220650532/BqJD3CB1S) ] + +> 2014-10-08 @lidingpku: International Semantic Web Conference - ISWC 2014 (10月18至23) 的全部论文(公开访问preprint PDF) 已经上传到github上了,http://t.cn/RhDmjvw 历年(2001-2014)相关的元数据(RDF,JSON, CSV格式) 也整理好了,可以下载 http://t.cn/RhDmjvA 大家有空挑挑错吧 [ [微博](http://www.weibo.com/5219449194/BqB6iy0rF) ] + +2014-10-09 推荐系统前沿必读。DBLP的列表页更好用 http://t.cn/RhFPLGl 每篇文章都有pdf下载 [ [微博](http://www.weibo.com/5220650532/BqJwqls9C) ] + +> 2014-10-09 @疯狂的雪SDU: Proceedings of the 8th ACM Conference on Recommender Systems #RecSys2014# is available. http://t.cn/Rhkkqqc [ [微博](http://www.weibo.com/2174081740/BqJfqheeD) ] + +2014-10-09 //@星空下的巫师: 原话是:kind of going against what people in research have been finding, but that’s what makes it interesting @董力at北航 @鲁东东胖 [ [微博](http://www.weibo.com/5220650532/BqJqCpmr7) ] + +> 2014-10-09 @BigData大数据: #OSDI2014#第一篇DL 微软的ADAM系统 彻底把Lecun 革命了 这个Imagine Net准确率提高的有猛 系统的力量真是无限 亮点在最后一张图 Deep Learning Guys 怎么想?@好东西传送门 @深度学习研究院IDL @云泉微博 @中国计算机学会CCF @杨静Lillian @百度技术沙龙 @chengangcs @CCF技术动态 [ [微博](http://www.weibo.com/2870219257/BqFIOpprZ) ] + +2014-10-09 CppCon2014,C++最重要的年度会议PPT一览 http://t.cn/RhksQxB 中文导读请看@顾露-Gu_Lu 的http://t.cn/RhksQx3 [ [微博](http://www.weibo.com/5220650532/BqJq98Rzy) ] + +2014-10-09 几个要点:系统优先于算法;并不存在清晰的优化目标函数;系统常变人员常变(所以简单可理解非常非常重要);各种折衷,而要产生这些折衷也需要容易理解的方法和结果。 [ [微博](http://www.weibo.com/5220650532/BqGDN1TV0) ] + +> 2014-10-08 @52cs: 前Google广告系统工程师Josh Wills 讲述工业界和学术界机器学习的异同,总结的真的好!http://t.cn/RhkU1Sj [ [微博](http://www.weibo.com/5172229575/BqDWNdAZm) ] + +2014-10-09 摘要:逻辑回归的并行化最主要的就是对目标函数梯度计算的并行化,可以很容易将每个迭代过程拆分,由不同的节点进行独立计算,然后归并。MPI_L-BFGS实验效果最佳 http://t.cn/SAJ2SN http://t.cn/RhkN3x3 //@孙明明_SmarterChina: @Memect [ [微博](http://www.weibo.com/5220650532/BqFNz0JYP) ] + +> 2014-02-12 @fengyoung: 并行逻辑回归: 逻辑回归(Logistic Regression,简称LR)是机器学习中十分常用的一种分类算法,在互联网领域得到了广泛的应用,无论是在广告系统中进行CTR预估,推荐系统中的预估转换率,反垃...文字版>> http://t.cn/8FpoAyz (新浪长微博>> http://t.cn/zOXAaic) [ [微博](http://www.weibo.com/1824056637/AwpIi1ie6) ] + + +---- + +2014-10-08 今年的OSDI内容很丰富 [ [微博](http://www.weibo.com/5220650532/BqFfbjCfp) ] + +> 2014-10-08 @BigData大数据: #OSDI2014#重磅Session来了 做深度学习的 做系统的都不能错过 深度学习的Session 这也是OSDI第一加上深度学习的DL ML的Guy也不能错过 这次的Session Chair 是Rezimi @云泉微博 @云泉微博 @中国计算机学会CCF @Hadoop中国 @好东西传送门 @hashjoin [ [微博](http://www.weibo.com/2870219257/BqFch5Q6W) ] + +2014-10-08 其他主要是科学类:儿童人体测量, 80年的按日全球天气,23万种材料安全,NASA的地球卫星地图,OpenStreetMap,石油数据, 2000多种稀疏矩阵,SDSS( @斯隆数字化巡天 ) [ [微博](http://www.weibo.com/5220650532/BqCf4mnKB) ] + +> 2014-10-08 @好东西传送门: 《亚马逊提供的海量公共数据集》在大数据分析时,一个困难是存储困难,下载耗时。亚马逊AWS云服务平台上为此提供了很多常用的大规模数据集,从各行业数据到百科数据,无需下载即可在AWS EC2上使用。这里我们介绍了目前在线的五十多个数据集,和如何使用的基本方法。文字版http://t.cn/RhDrPhn [ [微博](http://www.weibo.com/5220650532/BqBtMrKK0) ] + +2014-10-08 社会与经济类的有:美国1980/1990/2000年人口普查,美国2003-2006经济,美国工商业,美联储经济数据时间序列2万个,日本人口统计,美国劳工部统计,美国交通部各种统计,完整的美国街道名与地址 [ [微博](http://www.weibo.com/5220650532/BqCduygRc) ] + +> 2014-10-08 @好东西传送门: 《亚马逊提供的海量公共数据集》在大数据分析时,一个困难是存储困难,下载耗时。亚马逊AWS云服务平台上为此提供了很多常用的大规模数据集,从各行业数据到百科数据,无需下载即可在AWS EC2上使用。这里我们介绍了目前在线的五十多个数据集,和如何使用的基本方法。文字版http://t.cn/RhDrPhn [ [微博](http://www.weibo.com/5220650532/BqBtMrKK0) ] + +2014-10-08 计算机类的有:Apache基金会邮件列表,Common Crawl50亿网页(以前推荐过),DBpedia结构化知识库,Freebase知识图谱(这三个以前推荐过),安然电子邮件, 4万多个USENET新闻组数,M-Lab的互联网性能诊断,谷歌图书的ngram语言模型 @昊奋 @Gary南京 [ [微博](http://www.weibo.com/5220650532/BqC1qEYkF) ] + +> 2014-10-08 @好东西传送门: 《亚马逊提供的海量公共数据集》在大数据分析时,一个困难是存储困难,下载耗时。亚马逊AWS云服务平台上为此提供了很多常用的大规模数据集,从各行业数据到百科数据,无需下载即可在AWS EC2上使用。这里我们介绍了目前在线的五十多个数据集,和如何使用的基本方法。文字版http://t.cn/RhDrPhn [ [微博](http://www.weibo.com/5220650532/BqBtMrKK0) ] + +2014-10-08 生物类的数据有:人体基因组,千人基因组计划,老鼠杂交数据,丹尼索瓦人基因组, Ensembl真核生物基因组,50个物种的基因序列,GenBank基因银行,Unigene转录组,PubSem有机小分子生物活性,等 [ [微博](http://www.weibo.com/5220650532/BqBYki5zi) ] + +> 2014-10-08 @好东西传送门: 《亚马逊提供的海量公共数据集》在大数据分析时,一个困难是存储困难,下载耗时。亚马逊AWS云服务平台上为此提供了很多常用的大规模数据集,从各行业数据到百科数据,无需下载即可在AWS EC2上使用。这里我们介绍了目前在线的五十多个数据集,和如何使用的基本方法。文字版http://t.cn/RhDrPhn [ [微博](http://www.weibo.com/5220650532/BqBtMrKK0) ] + +2014-10-08 目前Python方以22:19微弱领先 [ [微博](http://www.weibo.com/5220650532/BqBNu10SB) ] + +> 2014-10-08 @西瓜大丸子汤: 如果你喜欢@好东西传送门 的<机器学习日报>,那下一个你要的是? 我发起了一个投票【亲们,大数据日报和Python日报,你们想先要哪个】,地址 http://t.cn/RhDWVbW】 [ [微博](http://www.weibo.com/1932835417/BqA9cbAXL) ] + +2014-10-08 补充:MovieTweetings包含12万条电影的观众评价,收集自7个月的Twitter流,平均每天有500多。项目介绍PPT http://t.cn/RhDgH81 [ [微博](http://www.weibo.com/5220650532/BqBIn0PTy) ] + +> 2014-10-07 @AixinSG: 这个数据集看着挺有意思的 MovieTweetings:A Movie Rating Dataset Collected From Twitter http://t.cn/zRqz834 [ [微博](http://www.weibo.com/1025887594/BqvlpfkjW) ] + +2014-10-08 《亚马逊提供的海量公共数据集》在大数据分析时,一个困难是存储困难,下载耗时。亚马逊AWS云服务平台上为此提供了很多常用的大规模数据集,从各行业数据到百科数据,无需下载即可在AWS EC2上使用。这里我们介绍了目前在线的五十多个数据集,和如何使用的基本方法。文字版http://t.cn/RhDrPhn [ [微博](http://www.weibo.com/5220650532/BqBtMrKK0) ] + +2014-10-08 C++好东西. 博主非常用心,整理了 教程和介绍 (beginner) 思维和理念 (intermediate) 工程实践 (intermediate) 专题 (general) 工具和库 (general) 几大类,篇篇都做了中文导读. [ [微博](http://www.weibo.com/5220650532/BqA4ODaV4) ] + +> 2014-09-23 @顾露-Gu_Lu: (Gu Lu's Blog) CppCon2014 分类合辑 & 十大推荐阅读列表 - http://t.cn/RhOPqAu [ [微博](http://www.weibo.com/1752458857/BohlfqkeM) ] + +2014-10-08 刚才忘了链接 http://t.cn/RhD0OAz http://t.cn/RhD0OAZ //@好东西传送门: 说的是.Amazon Public Dataset里有两个气象数据集:NASA NEX遥感与卫星数据,和全球(9000多气象站)1929-2009逐日天气数据,直接挂载EC2就能用,连下载都不用 //@大脸撑在小胸: 值得收藏。PS: 麻烦的是下载读取和处理 [ [微博](http://www.weibo.com/5220650532/BqzZrCPHs) ] + +> 2014-10-07 @好东西传送门: @IT莲接 推荐的<史上最全的的气象科研数据来源> http://t.cn/Rhgppds 来自@数据堂 , 列举了综合资料库,天气情况,降水资料,全球土壤资料,风场资料,海洋风场,海浪,海表温度,冰芯,台风等50多个数据集 部分数据集我们做了更直观的卡片预览 http://t.cn/RheCw1Z [ [微博](http://www.weibo.com/5220650532/BqrkwDlyl) ] + +2014-10-08 说的是.Amazon Public Dataset里有两个气象数据集:NASA NEX遥感与卫星数据,和全球(9000多气象站)1929-2009逐日天气数据,直接挂载EC2就能用,连下载都不用 //@大脸撑在小胸: 值得收藏。PS:气象资料一般来说获取途径并不是大问题,麻烦的是下载读取和处理[doge] [ [微博](http://www.weibo.com/5220650532/BqzelxhW3) ] + +> 2014-10-07 @好东西传送门: @IT莲接 推荐的<史上最全的的气象科研数据来源> http://t.cn/Rhgppds 来自@数据堂 , 列举了综合资料库,天气情况,降水资料,全球土壤资料,风场资料,海洋风场,海浪,海表温度,冰芯,台风等50多个数据集 部分数据集我们做了更直观的卡片预览 http://t.cn/RheCw1Z [ [微博](http://www.weibo.com/5220650532/BqrkwDlyl) ] + +2014-10-08 @吴楚东南坼乾坤日夜浮 补充了Hunspell http://t.cn/RhDXuOs @西瓜大丸子汤 补充了Enchant和PyEnchant http://t.cn/RhDXuOF 都是比Aspell更进步的拼写检查开源软件 [ [微博](http://www.weibo.com/5220650532/Bqzazf8lB) ] + +> 2014-10-07 @好东西传送门: 问:英文语法检测,拼写错误有开源引擎吗?答:拼写检查推荐Aspell http://t.cn/zjfqk4q 语法检查工具这里有列表http://t.cn/RheHWdP 推荐试试Link Grammar http://t.cn/h47cEM 它可检查是不是合乎语法.如果需要自定义的规则,可以把它的结果再过滤一下 [ [微博](http://www.weibo.com/5220650532/BqstnpYCx) ] + +---- + +2014-10-07 python好工具 [ [微博](http://www.weibo.com/5220650532/BqsYRtj2D) ] + +> 2014-10-07 @Python开发者: 《Online Python Tutor:Python 初学者的好帮手》一个免费教育工具,可帮助学生攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。通过这个工具,教师或学生可以直接在 Web 浏览器中编写 Python 代码,并一步一步可视化地执行程序……http://t.cn/8kp54hk [ [微博](http://www.weibo.com/5305630013/BqqKcFiJv) ] + +2014-10-07 增强现实Augmented Reality对物流企业有什么价值?DHL研发中心最近发布28页的报告,描述了增强现实对快递与后勤产业各环节可能起到的作用:仓储,运输,递送,增值服务等.值得传统企业参考 http://t.cn/Rhe8wMx [ [微博](http://www.weibo.com/5220650532/BqszFssx9) ] + +2014-10-07 问:英文语法检测,拼写错误有开源引擎吗?答:拼写检查推荐Aspell http://t.cn/zjfqk4q 语法检查工具这里有列表http://t.cn/RheHWdP 推荐试试Link Grammar http://t.cn/h47cEM 它可检查是不是合乎语法.如果需要自定义的规则,可以把它的结果再过滤一下 [ [微博](http://www.weibo.com/5220650532/BqstnpYCx) ] + +2014-10-07 按年绘制了各政权的领土变迁,可以弥补谭其骧版的《中国历史地图集》一个朝代只有一个时间点,不能反映变迁的不足.五千年的历程浓缩为72分钟的视频 http://t.cn/RheVuga (刚才发的链接错了) [ [微博](http://www.weibo.com/5220650532/BqrsA0Hel) ] + +> 2014-10-01 @推遍天下: #推遍阅读#中国历史地图详细版version2.0。作者布哈林,是A站的一位up主。他把每个朝代精确成一个个大事件,将各个时间点做成地图,标注十分细致,中国和外国的考证都很充分。同时配上了如章回体目录一样的对联,非常带感。简直是历史地图控的最爱。http://t.cn/8kmDxfN @贫铀穿甲普拉斯 [ [微博](http://www.weibo.com/3047892900/Bpwc0nphV) ] + +2014-10-07 @IT莲接 推荐的<史上最全的的气象科研数据来源> http://t.cn/Rhgppds 来自@数据堂 , 列举了综合资料库,天气情况,降水资料,全球土壤资料,风场资料,海洋风场,海浪,海表温度,冰芯,台风等50多个数据集 部分数据集我们做了更直观的卡片预览 http://t.cn/RheCw1Z [ [微博](http://www.weibo.com/5220650532/BqrkwDlyl) ] + +2014-10-07 按年绘制了各政权的领土变迁,可以弥补谭其骧版的《中国历史地图集》一个朝代只有一个时间点,不能反映变迁的不足 五千年的历程浓缩为72分钟的视频 http://t.cn/Rhe9xeN [ [微博](http://www.weibo.com/5220650532/BqrfKi28G) ] + +> 2014-10-01 @推遍天下: #推遍阅读#中国历史地图详细版version2.0。作者布哈林,是A站的一位up主。他把每个朝代精确成一个个大事件,将各个时间点做成地图,标注十分细致,中国和外国的考证都很充分。同时配上了如章回体目录一样的对联,非常带感。简直是历史地图控的最爱。http://t.cn/8kmDxfN @贫铀穿甲普拉斯 [ [微博](http://www.weibo.com/3047892900/Bpwc0nphV) ] + +2014-10-07 来自最好的学术网络搜索ArnetMiner @唐杰THU [ [微博](http://www.weibo.com/5220650532/Bqpfao9aS) ] + +> 2014-10-07 @蔡学镛: 过去十八年,计算机科学领域,最好的论文,以及最常被引用的论文,通通在这里 [good]: http://t.cn/zYPysop [ [微博](http://www.weibo.com/1614282004/BqmV793yy) ] + +2014-10-07 关注 //@郑思遥:Arrikis 这篇的作者在这条路上已经走了好多年了,最早从08年开始就有文章要革操作系统的命,09年在sosp上发布barrelfish多内核操作系统。这帮人一直在做工作去支撑当时的多内核设计,这篇也是在barrelfish基础上做的,更完善更实际了,很值得学习 //@网路冷眼:转发微博 [ [微博](http://www.weibo.com/5220650532/Bqnoo5T2v) ] + +> 2014-10-06 @BigData大数据: #OSDI2014#第一时间快报。OSDI金球奖 最佳三篇论文出来了 这次热门GraphX落选 爆出大冷门 两篇来自底层OS 底层要革命了!还有一篇来自微软@微软亚洲研究院 Cloud 调度 Maven @chengangcs @龙星镖局 @李元超Osiris @好东西传送门 @chengangcs [ [微博](http://www.weibo.com/2870219257/BqlWWhOWi) ] + + +---- + +2014-10-06 会议主页 http://t.cn/RhItLb6 不熟悉这个会的 见@李沐M 前几天的科普http://t.cn/Rhg6IL3 欢迎大家来科普这届的潜在亮点和看点 @hashjoin @包云岗 [ [微博](http://www.weibo.com/5220650532/BqhZghUyp) ] + +> 2014-10-06 @BigData大数据: #OSDI2014#起飞了 期望能赶上晚上盛大的欢迎晚宴 OSDI是系统领域的风向标 无数老的大数据技术都是通过这个舞台介绍给全世界 比如MapReduce Spanner等 对于新的重要大数据技术 比如GraphX 微软的Adam 还有GPUNet都会在明天后天推荐给全学界业界 让我们一起期待 @好东西传送门 http://t.cn/z810m9f [ [微博](http://www.weibo.com/2870219257/Bqfv6itz6) ] + +2014-10-06 感谢作者 Liqizhou http://t.cn/zjf6Z67 同时推荐作者的另一篇文章 机器学习概要 http://t.cn/Rhgib8l,列举了各种方法的提纲 [ [微博](http://www.weibo.com/5220650532/BqhSagq7l) ] + +> 2014-10-06 @格灵深瞳: AdaBoost 算法的主要思想之一就是在训练集上维护一套权重分布,初始化时 ,Adaboost 为训练集的每个训练例指定相同的权重 1/m。接着调用弱学习算法进行迭代学习。每次迭代后更新训练集上不同样本的权值,对训练失败的样本赋以较大的权重。【AdaBoosting和online Boosting】http://t.cn/RhgIlYM [ [微博](http://www.weibo.com/3769368692/BqhuG3vea) ] + +2014-10-06 城市规划,社交媒体分析与自然语言处理的交叉研究 [ [微博](http://www.weibo.com/5220650532/BqgByoL6a) ] + +> 2014-10-05 @宋彦-规划: 分享下我的高富帅博士生@waholulu-陈炎 的高大上研究。话说他刚抓取了几天的Chicago的40万个twitter点如图。接下来开始分析阶段了,例如可以看看城市活动的热点,还可以用text sentiment analysis分析twitter的态度(积极/消极)和感情(愤怒惊喜啥的)并与城市场所对接,大家有什么好主意我们来实现! [ [微博](http://www.weibo.com/2610584165/Bqa80jeNa) ] + +2014-10-05 强烈推荐!Github上完整目录: http://t.cn/RP75CfG 现在已经完成语言的基本介绍,在写第三部分网站构建 [ [微博](http://www.weibo.com/5220650532/Bq8zd9tP1) ] + +> 2014-10-04 @老齐Py: @Jayin_Ton 推荐到我的网站上看完整的《零基础学python》,目前正在写tornado做网站部分。地址:http://t.cn/Rh6wm17 [ [微博](http://www.weibo.com/1449482283/Bq2g5k3rr) ] + +2014-10-05 感谢刘知远老师! //@刘知远THU: 整理得很好啊,分享!研究生的时候曾在水木上整理了一些资源,转眼几年NLP已经关版被微博取代了。技术大势,浩浩汤汤,不进则退,大家努力。:) [ [微博](http://www.weibo.com/5220650532/Bq7zgEVgv) ] + +> 2014-10-04 @好东西传送门: 《NLP常用信息资源》原资源主要是水木上的zibuyu整理的,@算文解字 推荐。这里我们综合了一些新的内容整理了一个初步的列表,包含了一些网站、课程、研究小组、重要学者、工具等。文字版 http://t.cn/RhrZUWq 部分资源的卡片预览 http://t.cn/RhrZUWG [ [微博](http://www.weibo.com/5220650532/BpZ5eBCdx) ] + + +2014-10-05 很不错的文章。再补充一个技巧:用书名的isbn来搜往往会有惊喜 [ [微博](http://www.weibo.com/5220650532/Bq728oZ5G) ] + +> 2014-10-04 @武汉大学: 【我是怎么找电子书的】目前主页君所见最为齐全的搜索电子书的方法和软件汇总——中文、外文、学术资源、古典文籍,甚至竖版图书!直接网页格式,方便复制链接。别问我挖掘技术谁最强,各有所长,试过就知道[偷笑]http://t.cn/RhBT4av [ [微博](http://www.weibo.com/1666177401/BpXEI9Aon) ] + +2014-10-05 昨天推荐的文章《线性回归,偏差、方差权衡》,很抱歉没有及时发现原作者@LeftNotEasy 出处是http://t.cn/hrvcPf 他的博客里还有很多经典文章:机器学习中的数学系列:回归、梯度下降、线性回归、模型组合、LDA、PCA、SVD; 机器学习中的算法系列: 决策树 - 随机森林与GBDT(我们以前推荐过) SVM基础 [ [微博](http://www.weibo.com/5220650532/Bq6GNbQUF) ] + +2014-10-05 //@算文解字:赞!最应该感谢的是 @刘知远THU 哈,不解释 :) 另外书里边,很多NLPer还很推崇宗成庆老师的《统计自然语言处理》,已经出第2版了,内容很新。 [ [微博](http://www.weibo.com/5220650532/Bq3LcDWuu) ] + +> 2014-10-04 @好东西传送门: 《NLP常用信息资源》原资源主要是水木上的zibuyu整理的,@算文解字 推荐。这里我们综合了一些新的内容整理了一个初步的列表,包含了一些网站、课程、研究小组、重要学者、工具等。文字版 http://t.cn/RhrZUWq 部分资源的卡片预览 http://t.cn/RhrZUWG [ [微博](http://www.weibo.com/5220650532/BpZ5eBCdx) ] + + +---- + + 2014-10-04 《NLP常用信息资源》原资源主要是水木上的zibuyu整理的,@算文解字 推荐。这里我们综合了一些新的内容整理了一个初步的列表,包含了一些网站、课程、研究小组、重要学者、工具等。文字版 http://t.cn/RhrZUWq 部分资源的卡片预览 http://t.cn/RhrZUWG [ [微博](http://www.weibo.com/5220650532/BpZ5eBCdx) ] 2014-10-04 //@十月伤感wb: 【进段广告】我们今年SIGIR文章 Your Neighbors Affect Your Ratings 算是推荐系统里的特征工程,利用商家跟邻近商家的相互影响来提高rating prediction效果。主页 http://t.cn/RhBSY0S ACM http://t.cn/RhBSY0a [ [微博](http://www.weibo.com/5220650532/BpYUb4HJ0) ] From f0197f43b3f052af549d481f9f26b54809c1a69e Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 10 Oct 2014 13:17:16 -0700 Subject: [PATCH 425/485] Update README.md --- README.md | 3 --- 1 file changed, 3 deletions(-) diff --git a/README.md b/README.md index 1b41d56..311bc76 100644 --- a/README.md +++ b/README.md @@ -35,9 +35,6 @@ ## 问答与传送档案 -要订阅《机器学习日报》,给hao@memect.com发封空信,标题是 "订阅机器学习日报"即可. - ---- 2014-10-10 赞好奇猫团队的杰出翻译,主译者是美女Billie Zhang http://t.cn/Rhsksfv [ [微博](http://www.weibo.com/5220650532/BqVq9uNIO) ] From 676577e8ed22ff72e668d4c79e91048bd39f9fca Mon Sep 17 00:00:00 2001 From: haoawesome Date: Fri, 10 Oct 2014 13:34:48 -0700 Subject: [PATCH 426/485] Update README.md --- README.md | 9 --------- 1 file changed, 9 deletions(-) diff --git a/README.md b/README.md index 311bc76..9b18498 100644 --- a/README.md +++ b/README.md @@ -101,23 +101,14 @@ 2014-10-08 其他主要是科学类:儿童人体测量, 80年的按日全球天气,23万种材料安全,NASA的地球卫星地图,OpenStreetMap,石油数据, 2000多种稀疏矩阵,SDSS( @斯隆数字化巡天 ) [ [微博](http://www.weibo.com/5220650532/BqCf4mnKB) ] -> 2014-10-08 @好东西传送门: 《亚马逊提供的海量公共数据集》在大数据分析时,一个困难是存储困难,下载耗时。亚马逊AWS云服务平台上为此提供了很多常用的大规模数据集,从各行业数据到百科数据,无需下载即可在AWS EC2上使用。这里我们介绍了目前在线的五十多个数据集,和如何使用的基本方法。文字版http://t.cn/RhDrPhn [ [微博](http://www.weibo.com/5220650532/BqBtMrKK0) ] - 2014-10-08 社会与经济类的有:美国1980/1990/2000年人口普查,美国2003-2006经济,美国工商业,美联储经济数据时间序列2万个,日本人口统计,美国劳工部统计,美国交通部各种统计,完整的美国街道名与地址 [ [微博](http://www.weibo.com/5220650532/BqCduygRc) ] -> 2014-10-08 @好东西传送门: 《亚马逊提供的海量公共数据集》在大数据分析时,一个困难是存储困难,下载耗时。亚马逊AWS云服务平台上为此提供了很多常用的大规模数据集,从各行业数据到百科数据,无需下载即可在AWS EC2上使用。这里我们介绍了目前在线的五十多个数据集,和如何使用的基本方法。文字版http://t.cn/RhDrPhn [ [微博](http://www.weibo.com/5220650532/BqBtMrKK0) ] - 2014-10-08 计算机类的有:Apache基金会邮件列表,Common Crawl50亿网页(以前推荐过),DBpedia结构化知识库,Freebase知识图谱(这三个以前推荐过),安然电子邮件, 4万多个USENET新闻组数,M-Lab的互联网性能诊断,谷歌图书的ngram语言模型 @昊奋 @Gary南京 [ [微博](http://www.weibo.com/5220650532/BqC1qEYkF) ] -> 2014-10-08 @好东西传送门: 《亚马逊提供的海量公共数据集》在大数据分析时,一个困难是存储困难,下载耗时。亚马逊AWS云服务平台上为此提供了很多常用的大规模数据集,从各行业数据到百科数据,无需下载即可在AWS EC2上使用。这里我们介绍了目前在线的五十多个数据集,和如何使用的基本方法。文字版http://t.cn/RhDrPhn [ [微博](http://www.weibo.com/5220650532/BqBtMrKK0) ] - 2014-10-08 生物类的数据有:人体基因组,千人基因组计划,老鼠杂交数据,丹尼索瓦人基因组, Ensembl真核生物基因组,50个物种的基因序列,GenBank基因银行,Unigene转录组,PubSem有机小分子生物活性,等 [ [微博](http://www.weibo.com/5220650532/BqBYki5zi) ] > 2014-10-08 @好东西传送门: 《亚马逊提供的海量公共数据集》在大数据分析时,一个困难是存储困难,下载耗时。亚马逊AWS云服务平台上为此提供了很多常用的大规模数据集,从各行业数据到百科数据,无需下载即可在AWS EC2上使用。这里我们介绍了目前在线的五十多个数据集,和如何使用的基本方法。文字版http://t.cn/RhDrPhn [ [微博](http://www.weibo.com/5220650532/BqBtMrKK0) ] -2014-10-08 目前Python方以22:19微弱领先 [ [微博](http://www.weibo.com/5220650532/BqBNu10SB) ] - -> 2014-10-08 @西瓜大丸子汤: 如果你喜欢@好东西传送门 的<机器学习日报>,那下一个你要的是? 我发起了一个投票【亲们,大数据日报和Python日报,你们想先要哪个】,地址 http://t.cn/RhDWVbW】 [ [微博](http://www.weibo.com/1932835417/BqA9cbAXL) ] 2014-10-08 补充:MovieTweetings包含12万条电影的观众评价,收集自7个月的Twitter流,平均每天有500多。项目介绍PPT http://t.cn/RhDgH81 [ [微博](http://www.weibo.com/5220650532/BqBIn0PTy) ] From 52f31a8c009929229762aca7f69cbff6f7c3c52a Mon Sep 17 00:00:00 2001 From: haoawesome Date: Sun, 12 Oct 2014 08:51:52 -0700 Subject: [PATCH 427/485] Create machine-learning-guide.md --- awesome/machine-learning-guide.md | 24 ++++++++++++++++++++++++ 1 file changed, 24 insertions(+) create mode 100644 awesome/machine-learning-guide.md diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md new file mode 100644 index 0000000..70eacd7 --- /dev/null +++ b/awesome/machine-learning-guide.md @@ -0,0 +1,24 @@ +# 机器学习资源列表 + +* [机器学习](http://zh.wikipedia.org/zh/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0) 机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。 + +* 为了帮助中文用户有效跟踪发展趋势,我们整理了这个这个资源列表。此外,我们也做了一个[机器学习日报],汇总每天中文机器学习讨论中的精华,每天花3分钟就能长知识,这是[一个例子](http://memect.co/ml-short-2014-10-11) 。 +订阅邮件列表请给hao@memect.com发邮件,标题"订阅机器学习日报"就可以了。 + + +## 论坛网站 +### 中文 +http://www.52ml.net/ 我爱机器学习 + +http://www.mitbbs.com/bbsdoc/DataSciences.html MITBBS- 电脑网络 - 数据科学版 + +http://cos.name/cn/forum/22 统计之都 » 统计学世界 » 数据挖掘和机器学习 + +http://bbs.byr.cn/#!board/ML_DM 北邮人论坛 >> 学术科技 >> 机器学习与数据挖掘 + + +### 英文 +https://github.com/josephmisiti/awesome-machine-learning 机器学习资源大全 + +http://www.kdnuggets.com/ 数据挖掘 + From 2dd79f63fa908acd2a65abf3004bf6773e3086b2 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 16:24:38 -0700 Subject: [PATCH 428/485] Update machine-learning-guide.md MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit 增加四个公开课 --- awesome/machine-learning-guide.md | 98 ++++++++++++++++++++++++++++++- 1 file changed, 96 insertions(+), 2 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 70eacd7..ed2ce10 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -1,11 +1,104 @@ -# 机器学习资源列表 +# 机器学习入门资源不完全汇总 * [机器学习](http://zh.wikipedia.org/zh/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0) 机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。 -* 为了帮助中文用户有效跟踪发展趋势,我们整理了这个这个资源列表。此外,我们也做了一个[机器学习日报],汇总每天中文机器学习讨论中的精华,每天花3分钟就能长知识,这是[一个例子](http://memect.co/ml-short-2014-10-11) 。 +* 为了帮助中文用户有效跟踪发展趋势,我们整理了这个这个资源列表。此外,我们也做了一个[机器学习日报],汇总每天中文机器学习讨论中的精华,每天花3分钟就能长知识,在http://ml.memect.com可以找以往发布的日报样板。 订阅邮件列表请给hao@memect.com发邮件,标题"订阅机器学习日报"就可以了。 +## 公开课 + +### 2011 Tom Mitchell(CMU) 机器学习 + [英文原版视频与课件PDF](http://www.cs.cmu.edu/~tom/10701_sp11/lectures.shtml) +* Decision Trees +* Probability and Estimation +* Naive Bayes +* Logistic Regression +* Linear Regression +* Practical Issues: Feature selection,Overfitting ... +* Graphical models: Bayes networks, EM,Mixture of Gaussians clustering ... +* Computational Learning Theory: PAC Learning, Mistake bounds ... +* Semi-Supervised Learning +* Hidden Markov Models +* Neural Networks +* Learning Representations: PCA, Deep belief networks, ICA, CCA ... +* Kernel Methods and SVM +* Active Learning +* Reinforcement Learning +以上为课程标题节选 + + +### 2014 Andrew Ng 的机器学习课的公开课 + [英文原版视频](https://www.coursera.org/course/ml) +1. Introduction (Week 1) +2. Linear Regression with One Variable (Week 1) +3. Linear Algebra Review (Week 1, Optional) +4. Linear Regression with Multiple Variables (Week 2) +5. Octave Tutorial (Week 2) +6. Logistic Regression (Week 3) +7. Regularization (Week 3) +8. Neural Networks: Representation (Week 4) +9. Neural Networks: Learning (Week 5) +10. Advice for Applying Machine Learning (Week 6) +11. Machine Learning System Design (Week 6) +12. Support Vector Machines (Week 7) +13. Clustering (Week 8) +14. Dimensionality Reduction (Week 8) +15. Anomaly Detection (Week 9) +16. Recommender Systems (Week 9) +17. Large Scale Machine Learning (Week 10) +18. Application Example: Photo OCR +19. Conclusion + +### 2008年Andrew Ng CS229 机器学习 +[中文字幕视频@网易公开课](http://v.163.com/special/opencourse/machinelearning.html) [英文版视频@youtube](https://www.youtube.com/playlist?list=PLA89DCFA6ADACE599) +[课件PDF@Stanford](http://cs229.stanford.edu/materials.html) + +* [第1集] 机器学习的动机与应用 +* [第2集] 监督学习应用.梯度下降 +* [第3集] 欠拟合与过拟合的概念 +* [第4集] 牛顿方法 +* [第5集] 生成学习算法 +* [第6集] 朴素贝叶斯算法 +* [第7集] 最优间隔分类器问题 +* [第8集] 顺序最小优化算法 +* [第9集] 经验风险最小化 +* [第10集] 特征选择 +* [第11集] 贝叶斯统计正则化 +* [第12集] K-means算法 +* [第13集] 高斯混合模型 +* [第14集] 主成分分析法 +* [第15集] 奇异值分解 +* [第16集] 马尔可夫决策过程 +* [第17集] 离散与维数灾难 +* [第18集] 线性二次型调节控制 +* [第19集] 微分动态规划 +* [第20集] 策略搜索 + + + +### 2012年 机器学习公开课(余凯&张潼)-- 更适合进阶 [课程主页@百度文库](http://wenku.baidu.com/course/view/49e8b8f67c1cfad6195fa705) [课件PDF@龙星计划](http://bigeye.au.tsinghua.edu.cn/DragonStar2012/download.html) +第1节Introduction to ML and review of linear algebra, probability, statistics (kai) +第2节linear model (tong) +第3节overfitting and regularization(tong) +第4节linear classification (kai) +第5节basis expansion and kernelmethods (kai) +第6节model selection and evaluation(kai) +第7节model combination (tong) +第8节boosting and bagging (tong) +第9节overview of learning theory(tong) +第10节optimization in machinelearning (tong) +第11节online learning (tong) +第12节sparsity models (tong) +第13节introduction to graphicalmodels (kai) +第14节structured learning (kai) +第15节feature learning and deeplearning (kai) +第16节transfer learning and semi supervised learning (kai) +第17节matrix factorization and recommendations (kai) +第18节learning on images (kai) +第19节learning on the web (tong) + + ## 论坛网站 ### 中文 http://www.52ml.net/ 我爱机器学习 @@ -22,3 +115,4 @@ https://github.com/josephmisiti/awesome-machine-learning 机器学习资源大 http://www.kdnuggets.com/ 数据挖掘 + From 8c133f93e7079e72904d19e451b211ea5c5b5755 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 16:26:42 -0700 Subject: [PATCH 429/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 5 +++-- 1 file changed, 3 insertions(+), 2 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index ed2ce10..bc1f4af 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -1,9 +1,10 @@ # 机器学习入门资源不完全汇总 +[#公开课] + * [机器学习](http://zh.wikipedia.org/zh/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0) 机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。 -* 为了帮助中文用户有效跟踪发展趋势,我们整理了这个这个资源列表。此外,我们也做了一个[机器学习日报],汇总每天中文机器学习讨论中的精华,每天花3分钟就能长知识,在http://ml.memect.com可以找以往发布的日报样板。 -订阅邮件列表请给hao@memect.com发邮件,标题"订阅机器学习日报"就可以了。 +为了帮助中文用户有效跟踪发展趋势,我们做了一个[机器学习日报](http://ml.memect.com) 每天花几分钟就能长知识,网站上有样板。订阅 请给hao@memect.com发邮件,标题"订阅机器学习日报"。 ## 公开课 From f33e3ca713f7ec7fbcb2e5465b529edb93a3e4e4 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 16:27:18 -0700 Subject: [PATCH 430/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index bc1f4af..e759575 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -1,6 +1,6 @@ # 机器学习入门资源不完全汇总 -[#公开课] +[公开课](#公开课) * [机器学习](http://zh.wikipedia.org/zh/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0) 机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。 From 3f94d0c479a9b07deabd4e4273eeb7178c68ae04 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 16:27:38 -0700 Subject: [PATCH 431/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 5 ++++- 1 file changed, 4 insertions(+), 1 deletion(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index e759575..8f94cf7 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -1,8 +1,11 @@ # 机器学习入门资源不完全汇总 +---- [公开课](#公开课) -* [机器学习](http://zh.wikipedia.org/zh/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0) 机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。 +---- + +[机器学习](http://zh.wikipedia.org/zh/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0) 机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。 为了帮助中文用户有效跟踪发展趋势,我们做了一个[机器学习日报](http://ml.memect.com) 每天花几分钟就能长知识,网站上有样板。订阅 请给hao@memect.com发邮件,标题"订阅机器学习日报"。 From 23675417191be76f83ac02901fa0b22d65eac2d6 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 16:27:46 -0700 Subject: [PATCH 432/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 1 - 1 file changed, 1 deletion(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 8f94cf7..8a01b72 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -1,5 +1,4 @@ # 机器学习入门资源不完全汇总 ----- [公开课](#公开课) From f49542b3f73554966893aaebfc8c79c4041c1c1a Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 16:28:19 -0700 Subject: [PATCH 433/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 39 ++++++++++++++++--------------- 1 file changed, 20 insertions(+), 19 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 8a01b72..44fcb81 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -33,25 +33,26 @@ ### 2014 Andrew Ng 的机器学习课的公开课 [英文原版视频](https://www.coursera.org/course/ml) -1. Introduction (Week 1) -2. Linear Regression with One Variable (Week 1) -3. Linear Algebra Review (Week 1, Optional) -4. Linear Regression with Multiple Variables (Week 2) -5. Octave Tutorial (Week 2) -6. Logistic Regression (Week 3) -7. Regularization (Week 3) -8. Neural Networks: Representation (Week 4) -9. Neural Networks: Learning (Week 5) -10. Advice for Applying Machine Learning (Week 6) -11. Machine Learning System Design (Week 6) -12. Support Vector Machines (Week 7) -13. Clustering (Week 8) -14. Dimensionality Reduction (Week 8) -15. Anomaly Detection (Week 9) -16. Recommender Systems (Week 9) -17. Large Scale Machine Learning (Week 10) -18. Application Example: Photo OCR -19. Conclusion + + 1. Introduction (Week 1) + 2. Linear Regression with One Variable (Week 1) + 3. Linear Algebra Review (Week 1, Optional) + 4. Linear Regression with Multiple Variables (Week 2) + 5. Octave Tutorial (Week 2) + 6. Logistic Regression (Week 3) + 7. Regularization (Week 3) + 8. Neural Networks: Representation (Week 4) + 9. Neural Networks: Learning (Week 5) + 10. Advice for Applying Machine Learning (Week 6) + 11. Machine Learning System Design (Week 6) + 12. Support Vector Machines (Week 7) + 13. Clustering (Week 8) + 14. Dimensionality Reduction (Week 8) + 15. Anomaly Detection (Week 9) + 16. Recommender Systems (Week 9) + 17. Large Scale Machine Learning (Week 10) + 18. Application Example: Photo OCR + 19. Conclusion ### 2008年Andrew Ng CS229 机器学习 [中文字幕视频@网易公开课](http://v.163.com/special/opencourse/machinelearning.html) [英文版视频@youtube](https://www.youtube.com/playlist?list=PLA89DCFA6ADACE599) From 2749ccb7363fa07fddbab3989834370aa7e1e456 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 16:28:43 -0700 Subject: [PATCH 434/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 38 +++++++++++++++---------------- 1 file changed, 19 insertions(+), 19 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 44fcb81..387f349 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -82,25 +82,25 @@ ### 2012年 机器学习公开课(余凯&张潼)-- 更适合进阶 [课程主页@百度文库](http://wenku.baidu.com/course/view/49e8b8f67c1cfad6195fa705) [课件PDF@龙星计划](http://bigeye.au.tsinghua.edu.cn/DragonStar2012/download.html) -第1节Introduction to ML and review of linear algebra, probability, statistics (kai) -第2节linear model (tong) -第3节overfitting and regularization(tong) -第4节linear classification (kai) -第5节basis expansion and kernelmethods (kai) -第6节model selection and evaluation(kai) -第7节model combination (tong) -第8节boosting and bagging (tong) -第9节overview of learning theory(tong) -第10节optimization in machinelearning (tong) -第11节online learning (tong) -第12节sparsity models (tong) -第13节introduction to graphicalmodels (kai) -第14节structured learning (kai) -第15节feature learning and deeplearning (kai) -第16节transfer learning and semi supervised learning (kai) -第17节matrix factorization and recommendations (kai) -第18节learning on images (kai) -第19节learning on the web (tong) + 第1节Introduction to ML and review of linear algebra, probability, statistics (kai) + 第2节linear model (tong) + 第3节overfitting and regularization(tong) + 第4节linear classification (kai) + 第5节basis expansion and kernelmethods (kai) + 第6节model selection and evaluation(kai) + 第7节model combination (tong) + 第8节boosting and bagging (tong) + 第9节overview of learning theory(tong) + 第10节optimization in machinelearning (tong) + 第11节online learning (tong) + 第12节sparsity models (tong) + 第13节introduction to graphicalmodels (kai) + 第14节structured learning (kai) + 第15节feature learning and deeplearning (kai) + 第16节transfer learning and semi supervised learning (kai) + 第17节matrix factorization and recommendations (kai) + 第18节learning on images (kai) + 第19节learning on the web (tong) ## 论坛网站 From 9f8ea5551084b690ec090c0bf7735e40a1aa5018 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 16:29:09 -0700 Subject: [PATCH 435/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 38 +++++++++++++++---------------- 1 file changed, 19 insertions(+), 19 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 387f349..c178182 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -82,25 +82,25 @@ ### 2012年 机器学习公开课(余凯&张潼)-- 更适合进阶 [课程主页@百度文库](http://wenku.baidu.com/course/view/49e8b8f67c1cfad6195fa705) [课件PDF@龙星计划](http://bigeye.au.tsinghua.edu.cn/DragonStar2012/download.html) - 第1节Introduction to ML and review of linear algebra, probability, statistics (kai) - 第2节linear model (tong) - 第3节overfitting and regularization(tong) - 第4节linear classification (kai) - 第5节basis expansion and kernelmethods (kai) - 第6节model selection and evaluation(kai) - 第7节model combination (tong) - 第8节boosting and bagging (tong) - 第9节overview of learning theory(tong) - 第10节optimization in machinelearning (tong) - 第11节online learning (tong) - 第12节sparsity models (tong) - 第13节introduction to graphicalmodels (kai) - 第14节structured learning (kai) - 第15节feature learning and deeplearning (kai) - 第16节transfer learning and semi supervised learning (kai) - 第17节matrix factorization and recommendations (kai) - 第18节learning on images (kai) - 第19节learning on the web (tong) +* 第1节Introduction to ML and review of linear algebra, probability, statistics (kai) +* 第2节linear model (tong) +* 第3节overfitting and regularization(tong) +* 第4节linear classification (kai) +* 第5节basis expansion and kernelmethods (kai) +* 第6节model selection and evaluation(kai) +* 第7节model combination (tong) +* 第8节boosting and bagging (tong) +* 第9节overview of learning theory(tong) +* 第10节optimization in machinelearning (tong) +* 第11节online learning (tong) +* 第12节sparsity models (tong) +* 第13节introduction to graphicalmodels (kai) +* 第14节structured learning (kai) +* 第15节feature learning and deeplearning (kai) +* 第16节transfer learning and semi supervised learning (kai) +* 第17节matrix factorization and recommendations (kai) +* 第18节learning on images (kai) +* 第19节learning on the web (tong) ## 论坛网站 From a7784413c719b252f1c036ce957bbac7bc01c5c4 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 16:52:06 -0700 Subject: [PATCH 436/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 50 +++++++++++++++++++++++++++++-- 1 file changed, 47 insertions(+), 3 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index c178182..15808d5 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -4,9 +4,52 @@ ---- +为了帮助中文用户有效跟踪发展趋势,我们做了一个[机器学习日报](http://ml.memect.com) 每天花几分钟就能长知识,网站上有样板。订阅 请给hao@memect.com发邮件,标题"订阅机器学习日报"。 + +## 基本概念 [机器学习](http://zh.wikipedia.org/zh/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0) 机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。 -为了帮助中文用户有效跟踪发展趋势,我们做了一个[机器学习日报](http://ml.memect.com) 每天花几分钟就能长知识,网站上有样板。订阅 请给hao@memect.com发邮件,标题"订阅机器学习日报"。 +![](http://www.nltk.org/images/supervised-classification.png) 监督学习 +image source: http://www.nltk.org/book/ch06.html + + +[机器学习与数据挖掘的区别](http://en.wikipedia.org/wiki/Machine_learning#Machine_learning_and_data_mining) +* 机器学习关注从训练数据中学到已知属性进行预测,例如百度预测世界杯 +* 数据挖掘侧重从数据中发现未知属性,例如 + +[Dan Levin, What is the difference between statistics, machine learning, AI and data mining?](http://www.quora.com/What-are-some-good-machine-learning-jokes) +* If there are up to 3 variables, it is statistics. +* If the problem is NP-complete, it is machine learning. +* If the problem is PSPACE-complete, it is AI. +* If you don't know what is PSPACE-complete, it is data mining. + +## 知识图谱 + + 监督学习从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。 + 无监督学习与监督学习相比,训练集没有人为标注的结果。常见的无监督学习算法有聚类。 + 半监督学习介于监督学习与无监督学习之间。 + 增强学习通过观察来学习做成如何的动作。每个动作都会对环境有所影响,学习对象根据观察到的周围环境的反馈来做出判断。 + +具体的机器学习算法有: + + 构造条件概率:回归分析和统计分类 + 人工神经网络 + 决策树(Decision tree) + 高斯过程回归 + 线性判别分析 + 最近邻居法 + 感知器 + 径向基函数核 + 支持向量机 + 通过再生模型构造概率密度函数(Probability density function): + 最大期望算法(Expectation-maximization algorithm) + graphical model:包括贝叶斯网和Markov随机场 + Generative Topographic Mapping + 近似推断技术: + 马尔可夫链(Markov chain)蒙特卡罗方法 + 变分法 + 最优化(Optimization):大多数以上方法,直接或者间接使用最优化算法。 + ## 公开课 @@ -55,7 +98,7 @@ 19. Conclusion ### 2008年Andrew Ng CS229 机器学习 -[中文字幕视频@网易公开课](http://v.163.com/special/opencourse/machinelearning.html) [英文版视频@youtube](https://www.youtube.com/playlist?list=PLA89DCFA6ADACE599) +[中文字幕视频@网易公开课](http://v.163.com/special/opencourse/machinelearning.html) | [英文版视频@youtube](https://www.youtube.com/playlist?list=PLA89DCFA6ADACE599) | [课件PDF@Stanford](http://cs229.stanford.edu/materials.html) * [第1集] 机器学习的动机与应用 @@ -81,7 +124,8 @@ -### 2012年 机器学习公开课(余凯&张潼)-- 更适合进阶 [课程主页@百度文库](http://wenku.baidu.com/course/view/49e8b8f67c1cfad6195fa705) [课件PDF@龙星计划](http://bigeye.au.tsinghua.edu.cn/DragonStar2012/download.html) +### 2012年 机器学习公开课(余凯&张潼)-- 更适合进阶 +[课程主页@百度文库](http://wenku.baidu.com/course/view/49e8b8f67c1cfad6195fa705) | [课件PDF@龙星计划](http://bigeye.au.tsinghua.edu.cn/DragonStar2012/download.html) * 第1节Introduction to ML and review of linear algebra, probability, statistics (kai) * 第2节linear model (tong) * 第3节overfitting and regularization(tong) From 3d9ae4539ce9d59c7ded22141768a7647ec8dfbb Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 16:56:23 -0700 Subject: [PATCH 437/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 28 ---------------------------- 1 file changed, 28 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 15808d5..66e8ae0 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -23,34 +23,6 @@ image source: http://www.nltk.org/book/ch06.html * If the problem is PSPACE-complete, it is AI. * If you don't know what is PSPACE-complete, it is data mining. -## 知识图谱 - - 监督学习从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。监督学习的训练集要求是包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。常见的监督学习算法包括回归分析和统计分类。 - 无监督学习与监督学习相比,训练集没有人为标注的结果。常见的无监督学习算法有聚类。 - 半监督学习介于监督学习与无监督学习之间。 - 增强学习通过观察来学习做成如何的动作。每个动作都会对环境有所影响,学习对象根据观察到的周围环境的反馈来做出判断。 - -具体的机器学习算法有: - - 构造条件概率:回归分析和统计分类 - 人工神经网络 - 决策树(Decision tree) - 高斯过程回归 - 线性判别分析 - 最近邻居法 - 感知器 - 径向基函数核 - 支持向量机 - 通过再生模型构造概率密度函数(Probability density function): - 最大期望算法(Expectation-maximization algorithm) - graphical model:包括贝叶斯网和Markov随机场 - Generative Topographic Mapping - 近似推断技术: - 马尔可夫链(Markov chain)蒙特卡罗方法 - 变分法 - 最优化(Optimization):大多数以上方法,直接或者间接使用最优化算法。 - - ## 公开课 From 73834d4c0c625494b8056a6f70dc690972ad8091 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 20:57:21 -0700 Subject: [PATCH 438/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 128 ++++++++++++++++-------------- 1 file changed, 69 insertions(+), 59 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 66e8ae0..d0d8581 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -1,6 +1,8 @@ # 机器学习入门资源不完全汇总 +好东西传送门编辑,2014-10-14版 -[公开课](#公开课) + +[入门攻略](#入门攻略) | [课程资源](#课程资源) | [论坛网站](#论坛网站) | [东拉西扯](#东拉西扯) ---- @@ -12,22 +14,17 @@ ![](http://www.nltk.org/images/supervised-classification.png) 监督学习 image source: http://www.nltk.org/book/ch06.html +## 攻略 +http://www.guokr.com/post/512037/ (2013) 机器学习入门者学习指南(经验分享)by [白马](http://www.guokr.com/group/i/0373595356/) -[机器学习与数据挖掘的区别](http://en.wikipedia.org/wiki/Machine_learning#Machine_learning_and_data_mining) -* 机器学习关注从训练数据中学到已知属性进行预测,例如百度预测世界杯 -* 数据挖掘侧重从数据中发现未知属性,例如 -[Dan Levin, What is the difference between statistics, machine learning, AI and data mining?](http://www.quora.com/What-are-some-good-machine-learning-jokes) -* If there are up to 3 variables, it is statistics. -* If the problem is NP-complete, it is machine learning. -* If the problem is PSPACE-complete, it is AI. -* If you don't know what is PSPACE-complete, it is data mining. +## 课程资源 +Tom Mitchell 和 Andrew Ng 的课都很适合入门 -## 公开课 -### 2011 Tom Mitchell(CMU) 机器学习 - [英文原版视频与课件PDF](http://www.cs.cmu.edu/~tom/10701_sp11/lectures.shtml) +### 2011 Tom Mitchell(CMU)机器学习 + [英文原版视频与课件PDF](http://www.cs.cmu.edu/~tom/10701_sp11/lectures.shtml) 他的《机器学习》在很多课程上被选做教材,有中文版。 * Decision Trees * Probability and Estimation * Naive Bayes @@ -45,9 +42,8 @@ image source: http://www.nltk.org/book/ch06.html * Reinforcement Learning 以上为课程标题节选 - -### 2014 Andrew Ng 的机器学习课的公开课 - [英文原版视频](https://www.coursera.org/course/ml) +### 2014 Andrew Ng (Stanford)机器学习 + [英文原版视频](https://www.coursera.org/course/ml) 这就是针对自学而设计的,免费还有修课认证。“老师讲的是深入浅出,不用太担心数学方面的东西。而且作业也非常适合入门者,都是设计好的程序框架,有作业指南,根据作业指南填写该完成的部分就行。”(参见白马同学的入门攻略) 1. Introduction (Week 1) 2. Linear Regression with One Variable (Week 1) @@ -69,54 +65,56 @@ image source: http://www.nltk.org/book/ch06.html 18. Application Example: Photo OCR 19. Conclusion -### 2008年Andrew Ng CS229 机器学习 + +### 更多选择 + +#### 2008年Andrew Ng CS229 机器学习 -- 这组视频有点年头了,主讲人这两年也高大上了,当然基本方法没有太大变化。 [中文字幕视频@网易公开课](http://v.163.com/special/opencourse/machinelearning.html) | [英文版视频@youtube](https://www.youtube.com/playlist?list=PLA89DCFA6ADACE599) | [课件PDF@Stanford](http://cs229.stanford.edu/materials.html) -* [第1集] 机器学习的动机与应用 -* [第2集] 监督学习应用.梯度下降 -* [第3集] 欠拟合与过拟合的概念 -* [第4集] 牛顿方法 -* [第5集] 生成学习算法 -* [第6集] 朴素贝叶斯算法 -* [第7集] 最优间隔分类器问题 -* [第8集] 顺序最小优化算法 -* [第9集] 经验风险最小化 -* [第10集] 特征选择 -* [第11集] 贝叶斯统计正则化 -* [第12集] K-means算法 -* [第13集] 高斯混合模型 -* [第14集] 主成分分析法 -* [第15集] 奇异值分解 -* [第16集] 马尔可夫决策过程 -* [第17集] 离散与维数灾难 -* [第18集] 线性二次型调节控制 -* [第19集] 微分动态规划 -* [第20集] 策略搜索 - - - -### 2012年 机器学习公开课(余凯&张潼)-- 更适合进阶 + [第1集] 机器学习的动机与应用 + [第2集] 监督学习应用.梯度下降 + [第3集] 欠拟合与过拟合的概念 + [第4集] 牛顿方法 + [第5集] 生成学习算法 + [第6集] 朴素贝叶斯算法 + [第7集] 最优间隔分类器问题 + [第8集] 顺序最小优化算法 + [第9集] 经验风险最小化 + [第10集] 特征选择 + [第11集] 贝叶斯统计正则化 + [第12集] K-means算法 + [第13集] 高斯混合模型 + [第14集] 主成分分析法 + [第15集] 奇异值分解 + [第16集] 马尔可夫决策过程 + [第17集] 离散与维数灾难 + [第18集] 线性二次型调节控制 + [第19集] 微分动态规划 + [第20集] 策略搜索 + + +#### 2012年 机器学习公开课(余凯&张潼)-- 内容更适合进阶 [课程主页@百度文库](http://wenku.baidu.com/course/view/49e8b8f67c1cfad6195fa705) | [课件PDF@龙星计划](http://bigeye.au.tsinghua.edu.cn/DragonStar2012/download.html) -* 第1节Introduction to ML and review of linear algebra, probability, statistics (kai) -* 第2节linear model (tong) -* 第3节overfitting and regularization(tong) -* 第4节linear classification (kai) -* 第5节basis expansion and kernelmethods (kai) -* 第6节model selection and evaluation(kai) -* 第7节model combination (tong) -* 第8节boosting and bagging (tong) -* 第9节overview of learning theory(tong) -* 第10节optimization in machinelearning (tong) -* 第11节online learning (tong) -* 第12节sparsity models (tong) -* 第13节introduction to graphicalmodels (kai) -* 第14节structured learning (kai) -* 第15节feature learning and deeplearning (kai) -* 第16节transfer learning and semi supervised learning (kai) -* 第17节matrix factorization and recommendations (kai) -* 第18节learning on images (kai) -* 第19节learning on the web (tong) + 第1节Introduction to ML and review of linear algebra, probability, statistics (kai) + 第2节linear model (tong) + 第3节overfitting and regularization(tong) + 第4节linear classification (kai) + 第5节basis expansion and kernelmethods (kai) + 第6节model selection and evaluation(kai) + 第7节model combination (tong) + 第8节boosting and bagging (tong) + 第9节overview of learning theory(tong) + 第10节optimization in machinelearning (tong) + 第11节online learning (tong) + 第12节sparsity models (tong) + 第13节introduction to graphicalmodels (kai) + 第14节structured learning (kai) + 第15节feature learning and deeplearning (kai) + 第16节transfer learning and semi supervised learning (kai) + 第17节matrix factorization and recommendations (kai) + 第18节learning on images (kai) + 第19节learning on the web (tong) ## 论坛网站 @@ -136,3 +134,15 @@ https://github.com/josephmisiti/awesome-machine-learning 机器学习资源大 http://www.kdnuggets.com/ 数据挖掘 +## 东拉西扯 + +[机器学习与数据挖掘的区别](http://en.wikipedia.org/wiki/Machine_learning#Machine_learning_and_data_mining) +* 机器学习关注从训练数据中学到已知属性进行预测 +* 数据挖掘侧重从数据中发现未知属性 + +[Dan Levin, What is the difference between statistics, machine learning, AI and data mining?](http://www.quora.com/What-are-some-good-machine-learning-jokes) +* If there are up to 3 variables, it is statistics. +* If the problem is NP-complete, it is machine learning. +* If the problem is PSPACE-complete, it is AI. +* If you don't know what is PSPACE-complete, it is data mining. + From dc6ac975ab498fe01f1d88f1faf85d85cdd82871 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 20:59:02 -0700 Subject: [PATCH 439/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 40 +++++++++++++++---------------- 1 file changed, 20 insertions(+), 20 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index d0d8581..d483a10 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -72,26 +72,26 @@ Tom Mitchell 和 Andrew Ng 的课都很适合入门 [中文字幕视频@网易公开课](http://v.163.com/special/opencourse/machinelearning.html) | [英文版视频@youtube](https://www.youtube.com/playlist?list=PLA89DCFA6ADACE599) | [课件PDF@Stanford](http://cs229.stanford.edu/materials.html) - [第1集] 机器学习的动机与应用 - [第2集] 监督学习应用.梯度下降 - [第3集] 欠拟合与过拟合的概念 - [第4集] 牛顿方法 - [第5集] 生成学习算法 - [第6集] 朴素贝叶斯算法 - [第7集] 最优间隔分类器问题 - [第8集] 顺序最小优化算法 - [第9集] 经验风险最小化 - [第10集] 特征选择 - [第11集] 贝叶斯统计正则化 - [第12集] K-means算法 - [第13集] 高斯混合模型 - [第14集] 主成分分析法 - [第15集] 奇异值分解 - [第16集] 马尔可夫决策过程 - [第17集] 离散与维数灾难 - [第18集] 线性二次型调节控制 - [第19集] 微分动态规划 - [第20集] 策略搜索 +第1集 机器学习的动机与应用 +第2集 监督学习应用.梯度下降 +第3集 欠拟合与过拟合的概念 +第4集 牛顿方法 +第5集 生成学习算法 +第6集 朴素贝叶斯算法 +第7集 最优间隔分类器问题 +第8集 顺序最小优化算法 +第9集 经验风险最小化 +第10集 特征选择 +第11集 贝叶斯统计正则化 +第12集 K-means算法 +第13集 高斯混合模型 +第14集 主成分分析法 +第15集 奇异值分解 +第16集 马尔可夫决策过程 +第17集 离散与维数灾难 +第18集 线性二次型调节控制 +第19集 微分动态规划 +第20集 策略搜索 #### 2012年 机器学习公开课(余凯&张潼)-- 内容更适合进阶 From 261a8ac56558ce3cce6303472cd6416664d79403 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 21:03:05 -0700 Subject: [PATCH 440/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 44 +++++++++++++++---------------- 1 file changed, 22 insertions(+), 22 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index d483a10..466e45a 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -71,31 +71,31 @@ Tom Mitchell 和 Andrew Ng 的课都很适合入门 #### 2008年Andrew Ng CS229 机器学习 -- 这组视频有点年头了,主讲人这两年也高大上了,当然基本方法没有太大变化。 [中文字幕视频@网易公开课](http://v.163.com/special/opencourse/machinelearning.html) | [英文版视频@youtube](https://www.youtube.com/playlist?list=PLA89DCFA6ADACE599) | [课件PDF@Stanford](http://cs229.stanford.edu/materials.html) - -第1集 机器学习的动机与应用 -第2集 监督学习应用.梯度下降 -第3集 欠拟合与过拟合的概念 -第4集 牛顿方法 -第5集 生成学习算法 -第6集 朴素贝叶斯算法 -第7集 最优间隔分类器问题 -第8集 顺序最小优化算法 -第9集 经验风险最小化 -第10集 特征选择 -第11集 贝叶斯统计正则化 -第12集 K-means算法 -第13集 高斯混合模型 -第14集 主成分分析法 -第15集 奇异值分解 -第16集 马尔可夫决策过程 -第17集 离散与维数灾难 -第18集 线性二次型调节控制 -第19集 微分动态规划 -第20集 策略搜索 - + + 第1集.机器学习的动机与应用 + 第2集.监督学习应用.梯度下降 + 第3集.欠拟合与过拟合的概念 + 第4集.牛顿方法 + 第5集.生成学习算法 + 第6集.朴素贝叶斯算法 + 第7集.最优间隔分类器问题 + 第8集.顺序最小优化算法 + 第9集.经验风险最小化 + 第10集.特征选择 + 第11集.贝叶斯统计正则化 + 第12集.K-means算法 + 第13集.高斯混合模型 + 第14集.主成分分析法 + 第15集.奇异值分解 + 第16集.马尔可夫决策过程 + 第17集.离散与维数灾难 + 第18集.线性二次型调节控制 + 第19集.微分动态规划 + 第20集.策略搜索 #### 2012年 机器学习公开课(余凯&张潼)-- 内容更适合进阶 [课程主页@百度文库](http://wenku.baidu.com/course/view/49e8b8f67c1cfad6195fa705) | [课件PDF@龙星计划](http://bigeye.au.tsinghua.edu.cn/DragonStar2012/download.html) + 第1节Introduction to ML and review of linear algebra, probability, statistics (kai) 第2节linear model (tong) 第3节overfitting and regularization(tong) From 59647d07ff4148e6ad45ecf6735e7aba814ac1fe Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 21:13:46 -0700 Subject: [PATCH 441/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 11 ++++++----- 1 file changed, 6 insertions(+), 5 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 466e45a..d865f4b 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -1,12 +1,9 @@ # 机器学习入门资源不完全汇总 -好东西传送门编辑,2014-10-14版 +2014-10-14版,好东西传送门编辑,转载请保留原作者和原文链接。 [入门攻略](#入门攻略) | [课程资源](#课程资源) | [论坛网站](#论坛网站) | [东拉西扯](#东拉西扯) ----- - -为了帮助中文用户有效跟踪发展趋势,我们做了一个[机器学习日报](http://ml.memect.com) 每天花几分钟就能长知识,网站上有样板。订阅 请给hao@memect.com发邮件,标题"订阅机器学习日报"。 ## 基本概念 [机器学习](http://zh.wikipedia.org/zh/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0) 机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。 @@ -14,11 +11,15 @@ ![](http://www.nltk.org/images/supervised-classification.png) 监督学习 image source: http://www.nltk.org/book/ch06.html + ## 攻略 -http://www.guokr.com/post/512037/ (2013) 机器学习入门者学习指南(经验分享)by [白马](http://www.guokr.com/group/i/0373595356/) +[机器学习入门者学习指南@果壳网](http://www.guokr.com/post/512037/) (2013) 作者 [白马](http://www.guokr.com/group/i/0373595356/) +[机器学习的最佳入门学习资源@伯乐在线](http://blog.jobbole.com/56256/) 译者 [programmer_lin](http://www.jobbole.com/members/linwenhui/) 来自 Jason Brownlee 2013年的博文 [Best Machine Learning Resources for Getting Started](http://machinelearningmastery.com/best-machine-learning-resources-for-getting-started/) +为了帮助中文用户有效跟踪发展趋势,我们做了一个[机器学习日报](http://ml.memect.com) 每天花几分钟就能长知识,网站上有样板。订阅 请给hao@memect.com发邮件,标题"订阅机器学习日报"。 + ## 课程资源 Tom Mitchell 和 Andrew Ng 的课都很适合入门 From be66aabf30900f3897e8b16f9923489e9d92ce51 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 21:41:58 -0700 Subject: [PATCH 442/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 40 +++++++++++++++++++++++++++---- 1 file changed, 36 insertions(+), 4 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index d865f4b..90b94c1 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -13,9 +13,9 @@ image source: http://www.nltk.org/book/ch06.html ## 攻略 -[机器学习入门者学习指南@果壳网](http://www.guokr.com/post/512037/) (2013) 作者 [白马](http://www.guokr.com/group/i/0373595356/) +[机器学习入门者学习指南@果壳网](http://www.guokr.com/post/512037/) (2013) 作者 [白马](http://www.guokr.com/group/i/0373595356/) -- 研究生型入门者的亲身经历 -[机器学习的最佳入门学习资源@伯乐在线](http://blog.jobbole.com/56256/) 译者 [programmer_lin](http://www.jobbole.com/members/linwenhui/) 来自 Jason Brownlee 2013年的博文 [Best Machine Learning Resources for Getting Started](http://machinelearningmastery.com/best-machine-learning-resources-for-getting-started/) +[机器学习的最佳入门学习资源@伯乐在线](http://blog.jobbole.com/56256/) (2014) 译者 [programmer_lin](http://www.jobbole.com/members/linwenhui/), 原文是Jason Brownlee 2013年的博文 [Best Machine Learning Resources for Getting Started](http://machinelearningmastery.com/best-machine-learning-resources-for-getting-started/) 为了帮助中文用户有效跟踪发展趋势,我们做了一个[机器学习日报](http://ml.memect.com) 每天花几分钟就能长知识,网站上有样板。订阅 请给hao@memect.com发邮件,标题"订阅机器学习日报"。 @@ -67,9 +67,11 @@ Tom Mitchell 和 Andrew Ng 的课都很适合入门 19. Conclusion + ### 更多选择 -#### 2008年Andrew Ng CS229 机器学习 -- 这组视频有点年头了,主讲人这两年也高大上了,当然基本方法没有太大变化。 + +2008年Andrew Ng CS229 机器学习 -- 这组视频有点年头了,主讲人这两年也高大上了,当然基本方法没有太大变化。 [中文字幕视频@网易公开课](http://v.163.com/special/opencourse/machinelearning.html) | [英文版视频@youtube](https://www.youtube.com/playlist?list=PLA89DCFA6ADACE599) | [课件PDF@Stanford](http://cs229.stanford.edu/materials.html) @@ -94,7 +96,31 @@ Tom Mitchell 和 Andrew Ng 的课都很适合入门 第19集.微分动态规划 第20集.策略搜索 -#### 2012年 机器学习公开课(余凯&张潼)-- 内容更适合进阶 +2013年Yaser Abu-Mostafa (Caltech) Learning from Data -- 内容更适合进阶 +[课程视频@Caltech](http://work.caltech.edu/telecourse) | +[课件PDF@Caltech](http://work.caltech.edu/lectures.html) + + 1.The Learning Problem + 2.Is Learning Feasible? + 3.The Linear Model I + 4.Error and Noise + 5.Training versus Testing + 6.Theory of Generalization + 7.The VC Dimension + 8.Bias-Variance Tradeoff + 9.The Linear Model II + 10.Neural Networks + 11.Overfitting + 12.Regularization + 13.Validation + 14.Support Vector Machines + 15.Kernel Methods + 16.Radial Basis Functions + 17.Three Learning Principles + 18.Epilogue + + +2012年余凯&张潼 机器学习公开课 -- 内容更适合进阶 [课程主页@百度文库](http://wenku.baidu.com/course/view/49e8b8f67c1cfad6195fa705) | [课件PDF@龙星计划](http://bigeye.au.tsinghua.edu.cn/DragonStar2012/download.html) 第1节Introduction to ML and review of linear algebra, probability, statistics (kai) @@ -118,6 +144,8 @@ Tom Mitchell 和 Andrew Ng 的课都很适合入门 第19节learning on the web (tong) + + ## 论坛网站 ### 中文 http://www.52ml.net/ 我爱机器学习 @@ -136,6 +164,7 @@ http://www.kdnuggets.com/ 数据挖掘 ## 东拉西扯 +一些好东西,入门前未必看得懂,要等学有小成时再看才能体会。 [机器学习与数据挖掘的区别](http://en.wikipedia.org/wiki/Machine_learning#Machine_learning_and_data_mining) * 机器学习关注从训练数据中学到已知属性进行预测 @@ -147,3 +176,6 @@ http://www.kdnuggets.com/ 数据挖掘 * If the problem is PSPACE-complete, it is AI. * If you don't know what is PSPACE-complete, it is data mining. +几篇高屋建瓴的领域概论 (参见[原文](http://machinelearningmastery.com/best-machine-learning-resources-for-getting-started/) +* [The Discipline of Machine Learning](http://www.cs.cmu.edu/~tom/pubs/MachineLearning.pdf)Tom Mitchell 当年为在CMU建立机器学习系给校长写的东西。 +* [A Few Useful Things to Know about Machine Learning](http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf) Pedro Domingos教授的大道理,也许入门时很多概念还不明白,上完公开课后一定要再读一遍。 From 80f2fcf9f88277de09489ff62827aa2b88999860 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 21:45:19 -0700 Subject: [PATCH 443/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 7 +++---- 1 file changed, 3 insertions(+), 4 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 90b94c1..eaf90ea 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -70,8 +70,7 @@ Tom Mitchell 和 Andrew Ng 的课都很适合入门 ### 更多选择 - -2008年Andrew Ng CS229 机器学习 -- 这组视频有点年头了,主讲人这两年也高大上了,当然基本方法没有太大变化。 +*2008年Andrew Ng CS229 机器学习* -- 这组视频有点年头了,主讲人这两年也高大上了,当然基本方法没有太大变化。 [中文字幕视频@网易公开课](http://v.163.com/special/opencourse/machinelearning.html) | [英文版视频@youtube](https://www.youtube.com/playlist?list=PLA89DCFA6ADACE599) | [课件PDF@Stanford](http://cs229.stanford.edu/materials.html) @@ -96,7 +95,7 @@ Tom Mitchell 和 Andrew Ng 的课都很适合入门 第19集.微分动态规划 第20集.策略搜索 -2013年Yaser Abu-Mostafa (Caltech) Learning from Data -- 内容更适合进阶 +*2013年Yaser Abu-Mostafa (Caltech) Learning from Data* -- 内容更适合进阶 [课程视频@Caltech](http://work.caltech.edu/telecourse) | [课件PDF@Caltech](http://work.caltech.edu/lectures.html) @@ -120,7 +119,7 @@ Tom Mitchell 和 Andrew Ng 的课都很适合入门 18.Epilogue -2012年余凯&张潼 机器学习公开课 -- 内容更适合进阶 +*2012年余凯(百度)张潼(Rutgers) 机器学习公开课* -- 内容更适合进阶 [课程主页@百度文库](http://wenku.baidu.com/course/view/49e8b8f67c1cfad6195fa705) | [课件PDF@龙星计划](http://bigeye.au.tsinghua.edu.cn/DragonStar2012/download.html) 第1节Introduction to ML and review of linear algebra, probability, statistics (kai) From eb6501e394d69168aa744926285aa8ba9ff3d204 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 21:46:23 -0700 Subject: [PATCH 444/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index eaf90ea..d7835cb 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -70,7 +70,7 @@ Tom Mitchell 和 Andrew Ng 的课都很适合入门 ### 更多选择 -*2008年Andrew Ng CS229 机器学习* -- 这组视频有点年头了,主讲人这两年也高大上了,当然基本方法没有太大变化。 +**2008年Andrew Ng CS229 机器学习** -- 这组视频有点年头了,主讲人这两年也高大上了,当然基本方法没有太大变化。 [中文字幕视频@网易公开课](http://v.163.com/special/opencourse/machinelearning.html) | [英文版视频@youtube](https://www.youtube.com/playlist?list=PLA89DCFA6ADACE599) | [课件PDF@Stanford](http://cs229.stanford.edu/materials.html) @@ -95,7 +95,7 @@ Tom Mitchell 和 Andrew Ng 的课都很适合入门 第19集.微分动态规划 第20集.策略搜索 -*2013年Yaser Abu-Mostafa (Caltech) Learning from Data* -- 内容更适合进阶 +**2013年Yaser Abu-Mostafa (Caltech) Learning from Data** -- 内容更适合进阶 [课程视频@Caltech](http://work.caltech.edu/telecourse) | [课件PDF@Caltech](http://work.caltech.edu/lectures.html) @@ -119,7 +119,7 @@ Tom Mitchell 和 Andrew Ng 的课都很适合入门 18.Epilogue -*2012年余凯(百度)张潼(Rutgers) 机器学习公开课* -- 内容更适合进阶 +**2012年余凯(百度)张潼(Rutgers) 机器学习公开课** -- 内容更适合进阶 [课程主页@百度文库](http://wenku.baidu.com/course/view/49e8b8f67c1cfad6195fa705) | [课件PDF@龙星计划](http://bigeye.au.tsinghua.edu.cn/DragonStar2012/download.html) 第1节Introduction to ML and review of linear algebra, probability, statistics (kai) From 85cc1a21bf277b043f6b2f7cd1174edf7d0720d3 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 21:56:33 -0700 Subject: [PATCH 445/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 20 +++++++++++++++----- 1 file changed, 15 insertions(+), 5 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index d7835cb..9e5aac5 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -8,8 +8,15 @@ ## 基本概念 [机器学习](http://zh.wikipedia.org/zh/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0) 机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。 -![](http://www.nltk.org/images/supervised-classification.png) 监督学习 -image source: http://www.nltk.org/book/ch06.html + +机器学习概要图 (source: http://work.caltech.edu/library/181.html) + + + + +监督学习的工作流程图 (source: http://www.nltk.org/book/ch06.html) + + ## 攻略 @@ -96,8 +103,7 @@ Tom Mitchell 和 Andrew Ng 的课都很适合入门 第20集.策略搜索 **2013年Yaser Abu-Mostafa (Caltech) Learning from Data** -- 内容更适合进阶 -[课程视频@Caltech](http://work.caltech.edu/telecourse) | -[课件PDF@Caltech](http://work.caltech.edu/lectures.html) +[课程视频,课件PDF@Caltech](http://work.caltech.edu/lectures.html) 1.The Learning Problem 2.Is Learning Feasible? @@ -159,7 +165,11 @@ http://bbs.byr.cn/#!board/ML_DM 北邮人论坛 >> 学术科技 >> 机 ### 英文 https://github.com/josephmisiti/awesome-machine-learning 机器学习资源大全 -http://www.kdnuggets.com/ 数据挖掘 +http://work.caltech.edu/library/ Caltech 机器学习视频教程库,每个课题一个视频 + +http://www.kdnuggets.com/ 数据挖掘名站 + +http://www.datasciencecentral.com/ 数据科学中心网站 ## 东拉西扯 From 46d5a6723a686a37b7d4aa07809e564df759a72c Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 21:57:27 -0700 Subject: [PATCH 446/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 9 +++++---- 1 file changed, 5 insertions(+), 4 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 9e5aac5..d3b72a7 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -8,13 +8,14 @@ ## 基本概念 [机器学习](http://zh.wikipedia.org/zh/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0) 机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。 - -机器学习概要图 (source: http://work.caltech.edu/library/181.html) + +图1: 机器学习概要图 (source: http://work.caltech.edu/library/181.html) - -监督学习的工作流程图 (source: http://www.nltk.org/book/ch06.html) + + +图2: 监督学习的工作流程图 (source: http://www.nltk.org/book/ch06.html) From c85206618077c3db18c6923c59f23a1dee0c31b0 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 21:57:48 -0700 Subject: [PATCH 447/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index d3b72a7..6a73c4a 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -20,7 +20,7 @@ -## 攻略 +## 入门攻略 [机器学习入门者学习指南@果壳网](http://www.guokr.com/post/512037/) (2013) 作者 [白马](http://www.guokr.com/group/i/0373595356/) -- 研究生型入门者的亲身经历 [机器学习的最佳入门学习资源@伯乐在线](http://blog.jobbole.com/56256/) (2014) 译者 [programmer_lin](http://www.jobbole.com/members/linwenhui/), 原文是Jason Brownlee 2013年的博文 [Best Machine Learning Resources for Getting Started](http://machinelearningmastery.com/best-machine-learning-resources-for-getting-started/) From 2aef9997bb4c920270f576f9c8ddd43c7430cd5e Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 22:09:03 -0700 Subject: [PATCH 448/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 13 ++++++++++--- 1 file changed, 10 insertions(+), 3 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 6a73c4a..b460d55 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -21,13 +21,20 @@ ## 入门攻略 -[机器学习入门者学习指南@果壳网](http://www.guokr.com/post/512037/) (2013) 作者 [白马](http://www.guokr.com/group/i/0373595356/) -- 研究生型入门者的亲身经历 - -[机器学习的最佳入门学习资源@伯乐在线](http://blog.jobbole.com/56256/) (2014) 译者 [programmer_lin](http://www.jobbole.com/members/linwenhui/), 原文是Jason Brownlee 2013年的博文 [Best Machine Learning Resources for Getting Started](http://machinelearningmastery.com/best-machine-learning-resources-for-getting-started/) +[机器学习入门者学习指南 @果壳网](http://www.guokr.com/post/512037/) (2013) 作者 [白马](http://www.guokr.com/group/i/0373595356/) -- 研究生型入门者的亲身经历 +* [机器学习的最佳入门学习资源 @伯乐在线](http://blog.jobbole.com/56256/) (2014) 译者 [programmer_lin](http://www.jobbole.com/members/linwenhui/), 原文是Jason Brownlee 2013年的博文 [Best Machine Learning Resources for Getting Started](http://machinelearningmastery.com/best-machine-learning-resources-for-getting-started/) -- 更面向码农 为了帮助中文用户有效跟踪发展趋势,我们做了一个[机器学习日报](http://ml.memect.com) 每天花几分钟就能长知识,网站上有样板。订阅 请给hao@memect.com发邮件,标题"订阅机器学习日报"。 + +### 更多攻略 + +* [机器学习该怎么入门 @知乎](http://www.zhihu.com/question/20691338) (2014) +* [What's the easiest way to learn machine learning @quora](http://www.quora.com/Whats-the-easiest-way-to-learn-machine-learning) (2013) +* [http://www.quora.com/What-is-the-best-way-to-study-machine-learning @quora](http://www.quora.com/What-is-the-best-way-to-study-machine-learning) (2012) + + ## 课程资源 Tom Mitchell 和 Andrew Ng 的课都很适合入门 From 77c0cc26a4aef531c8ab4f47ef21df6dbb53cd51 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 22:09:30 -0700 Subject: [PATCH 449/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index b460d55..6139546 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -32,7 +32,7 @@ * [机器学习该怎么入门 @知乎](http://www.zhihu.com/question/20691338) (2014) * [What's the easiest way to learn machine learning @quora](http://www.quora.com/Whats-the-easiest-way-to-learn-machine-learning) (2013) -* [http://www.quora.com/What-is-the-best-way-to-study-machine-learning @quora](http://www.quora.com/What-is-the-best-way-to-study-machine-learning) (2012) +* [What is the best way to study machine learning @quora](http://www.quora.com/What-is-the-best-way-to-study-machine-learning) (2012) ## 课程资源 From 7ce13f793e0f39d3c00cd6468c41c95db1a6ed67 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 22:22:50 -0700 Subject: [PATCH 450/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 8 ++++++-- 1 file changed, 6 insertions(+), 2 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 6139546..ef50c1e 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -21,9 +21,13 @@ ## 入门攻略 -[机器学习入门者学习指南 @果壳网](http://www.guokr.com/post/512037/) (2013) 作者 [白马](http://www.guokr.com/group/i/0373595356/) -- 研究生型入门者的亲身经历 +* [机器学习入门者学习指南 @果壳网](http://www.guokr.com/post/512037/) (2013) 作者 [白马](http://www.guokr.com/group/i/0373595356/) -- 研究生型入门者的亲身经历 + +* [Machine Learning Roadmap: Your Self-Study Guide to Machine Learning](https://machinelearningmastery.com/machine-learning-roadmap-your-self-study-guide-to-machine-learning/) (2014) Jason Brownlee -- 虽然是英文版,但非常容易读懂。对Beginner,Novice,Intermediate,Advanced读者都有覆盖。 + * 他的这篇也非常好 [A Tour of Machine Learning Algorithms](http://machinelearningmastery.com/a-tour-of-machine-learning-algorithms/) + * [Best Machine Learning Resources for Getting Started](http://machinelearningmastery.com/best-machine-learning-resources-for-getting-started/),这片有中文翻译 [机器学习的最佳入门学习资源 @伯乐在线](http://blog.jobbole.com/56256/) (2014) 译者 [programmer_lin](http://www.jobbole.com/members/linwenhui/) + -* [机器学习的最佳入门学习资源 @伯乐在线](http://blog.jobbole.com/56256/) (2014) 译者 [programmer_lin](http://www.jobbole.com/members/linwenhui/), 原文是Jason Brownlee 2013年的博文 [Best Machine Learning Resources for Getting Started](http://machinelearningmastery.com/best-machine-learning-resources-for-getting-started/) -- 更面向码农 为了帮助中文用户有效跟踪发展趋势,我们做了一个[机器学习日报](http://ml.memect.com) 每天花几分钟就能长知识,网站上有样板。订阅 请给hao@memect.com发邮件,标题"订阅机器学习日报"。 From cd34ca62a190834fa65d605a3c567c3bb4c420d1 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 22:23:29 -0700 Subject: [PATCH 451/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index ef50c1e..16f10d1 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -24,8 +24,8 @@ * [机器学习入门者学习指南 @果壳网](http://www.guokr.com/post/512037/) (2013) 作者 [白马](http://www.guokr.com/group/i/0373595356/) -- 研究生型入门者的亲身经历 * [Machine Learning Roadmap: Your Self-Study Guide to Machine Learning](https://machinelearningmastery.com/machine-learning-roadmap-your-self-study-guide-to-machine-learning/) (2014) Jason Brownlee -- 虽然是英文版,但非常容易读懂。对Beginner,Novice,Intermediate,Advanced读者都有覆盖。 - * 他的这篇也非常好 [A Tour of Machine Learning Algorithms](http://machinelearningmastery.com/a-tour-of-machine-learning-algorithms/) - * [Best Machine Learning Resources for Getting Started](http://machinelearningmastery.com/best-machine-learning-resources-for-getting-started/),这片有中文翻译 [机器学习的最佳入门学习资源 @伯乐在线](http://blog.jobbole.com/56256/) (2014) 译者 [programmer_lin](http://www.jobbole.com/members/linwenhui/) + * 他的这篇也非常好 [A Tour of Machine Learning Algorithms](http://machinelearningmastery.com/a-tour-of-machine-learning-algorithms/) (2013) + * [Best Machine Learning Resources for Getting Started](http://machinelearningmastery.com/best-machine-learning-resources-for-getting-started/)(2013) 这片有中文翻译 [机器学习的最佳入门学习资源 @伯乐在线](http://blog.jobbole.com/56256/) 译者 [programmer_lin](http://www.jobbole.com/members/linwenhui/) From 021857763319e07502e855808e16834a4d5905f9 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 22:42:11 -0700 Subject: [PATCH 452/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 12 +++++++++--- 1 file changed, 9 insertions(+), 3 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 16f10d1..8a8e508 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -19,15 +19,21 @@ - ## 入门攻略 * [机器学习入门者学习指南 @果壳网](http://www.guokr.com/post/512037/) (2013) 作者 [白马](http://www.guokr.com/group/i/0373595356/) -- 研究生型入门者的亲身经历 +* [有没有做机器学习的哥们?能否介绍一下是如何起步的](http://ourcoders.com/thread/show/2837/) -- 研究生型入门者的亲身经历,尤其要看[reyoung](http://ourcoders.com/user/show/25895/reyoung/)的建议 + +* [tornadomeet 机器学习 笔记](http://www.cnblogs.com/tornadomeet/tag/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/) (2013) -- 学霸的学习笔记,看看小伙伴是怎样一步一步地掌握“机器学习” + * [Machine Learning Roadmap: Your Self-Study Guide to Machine Learning](https://machinelearningmastery.com/machine-learning-roadmap-your-self-study-guide-to-machine-learning/) (2014) Jason Brownlee -- 虽然是英文版,但非常容易读懂。对Beginner,Novice,Intermediate,Advanced读者都有覆盖。 * 他的这篇也非常好 [A Tour of Machine Learning Algorithms](http://machinelearningmastery.com/a-tour-of-machine-learning-algorithms/) (2013) * [Best Machine Learning Resources for Getting Started](http://machinelearningmastery.com/best-machine-learning-resources-for-getting-started/)(2013) 这片有中文翻译 [机器学习的最佳入门学习资源 @伯乐在线](http://blog.jobbole.com/56256/) 译者 [programmer_lin](http://www.jobbole.com/members/linwenhui/) +* 门主的几个建议 + * 既要有数学基础,也要编程实践 + * 别怕英文版,你不懂的大多是专业名词,将来不论写文章还是读文档都是英文为主 为了帮助中文用户有效跟踪发展趋势,我们做了一个[机器学习日报](http://ml.memect.com) 每天花几分钟就能长知识,网站上有样板。订阅 请给hao@memect.com发邮件,标题"订阅机器学习日报"。 @@ -63,7 +69,7 @@ Tom Mitchell 和 Andrew Ng 的课都很适合入门 以上为课程标题节选 ### 2014 Andrew Ng (Stanford)机器学习 - [英文原版视频](https://www.coursera.org/course/ml) 这就是针对自学而设计的,免费还有修课认证。“老师讲的是深入浅出,不用太担心数学方面的东西。而且作业也非常适合入门者,都是设计好的程序框架,有作业指南,根据作业指南填写该完成的部分就行。”(参见白马同学的入门攻略) + [英文原版视频](https://www.coursera.org/course/ml) 这就是针对自学而设计的,免费还有修课认证。“老师讲的是深入浅出,不用太担心数学方面的东西。而且作业也非常适合入门者,都是设计好的程序框架,有作业指南,根据作业指南填写该完成的部分就行。”(参见白马同学的入门攻略)"推荐报名,跟着上课,做课后习题和期末考试。(因为只看不干,啥都学不会)。" (参见reyoung的建议) 1. Introduction (Week 1) 2. Linear Regression with One Variable (Week 1) @@ -89,7 +95,7 @@ Tom Mitchell 和 Andrew Ng 的课都很适合入门 ### 更多选择 -**2008年Andrew Ng CS229 机器学习** -- 这组视频有点年头了,主讲人这两年也高大上了,当然基本方法没有太大变化。 +**2008年Andrew Ng CS229 机器学习** -- 这组视频有些年头了,主讲人这两年也高大上了.当然基本方法没有太大变化,所以课件PDF可下载是优点。 [中文字幕视频@网易公开课](http://v.163.com/special/opencourse/machinelearning.html) | [英文版视频@youtube](https://www.youtube.com/playlist?list=PLA89DCFA6ADACE599) | [课件PDF@Stanford](http://cs229.stanford.edu/materials.html) From 3a8b5e1a1b828694ab0dcfbfb904c1636403d6e8 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 22:49:28 -0700 Subject: [PATCH 453/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 14 +++++++++----- 1 file changed, 9 insertions(+), 5 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 8a8e508..9148e15 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -8,16 +8,20 @@ ## 基本概念 [机器学习](http://zh.wikipedia.org/zh/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0) 机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。 - -图1: 机器学习概要图 (source: http://work.caltech.edu/library/181.html) + +图1: 机器学习的例子:NLTK监督学习的工作流程图 (source: http://www.nltk.org/book/ch06.html) - + -图2: 监督学习的工作流程图 (source: http://www.nltk.org/book/ch06.html) +图2: 机器学习概要图 by Yaser Abu-Mostafa (Caltech) (source: http://work.caltech.edu/library/181.html) + + +图3: 机器学习和其他学科的关系: 数据科学的地铁图 by Swami Chandrasekaran (source: http://nirvacana.com/thoughts/becoming-a-data-scientist/) + ## 入门攻略 * [机器学习入门者学习指南 @果壳网](http://www.guokr.com/post/512037/) (2013) 作者 [白马](http://www.guokr.com/group/i/0373595356/) -- 研究生型入门者的亲身经历 @@ -43,7 +47,7 @@ * [机器学习该怎么入门 @知乎](http://www.zhihu.com/question/20691338) (2014) * [What's the easiest way to learn machine learning @quora](http://www.quora.com/Whats-the-easiest-way-to-learn-machine-learning) (2013) * [What is the best way to study machine learning @quora](http://www.quora.com/What-is-the-best-way-to-study-machine-learning) (2012) - +* [Is there any roadmap for learning Machine Learning (ML) and its related courses at CMU Is there any roadmap for learning Machine Learning (ML) and its related courses at CMU](http://www.quora.com/Is-there-any-roadmap-for-learning-Machine-Learning-ML-and-its-related-courses-at-CMU) (2014) ## 课程资源 Tom Mitchell 和 Andrew Ng 的课都很适合入门 From 366accb77fa138e2564b052e2171d9a197ace02d Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 22:50:32 -0700 Subject: [PATCH 454/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 9148e15..2425650 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -207,6 +207,6 @@ http://www.datasciencecentral.com/ 数据科学中心网站 * If the problem is PSPACE-complete, it is AI. * If you don't know what is PSPACE-complete, it is data mining. -几篇高屋建瓴的领域概论 (参见[原文](http://machinelearningmastery.com/best-machine-learning-resources-for-getting-started/) +几篇高屋建瓴的机器学习领域概论, 参见[原文](http://machinelearningmastery.com/best-machine-learning-resources-for-getting-started/) * [The Discipline of Machine Learning](http://www.cs.cmu.edu/~tom/pubs/MachineLearning.pdf)Tom Mitchell 当年为在CMU建立机器学习系给校长写的东西。 * [A Few Useful Things to Know about Machine Learning](http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf) Pedro Domingos教授的大道理,也许入门时很多概念还不明白,上完公开课后一定要再读一遍。 From 48028d63cffb8c30c7f95fc90aacf6aab66064c4 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 22:51:58 -0700 Subject: [PATCH 455/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 2425650..def7370 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -31,7 +31,7 @@ * [tornadomeet 机器学习 笔记](http://www.cnblogs.com/tornadomeet/tag/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/) (2013) -- 学霸的学习笔记,看看小伙伴是怎样一步一步地掌握“机器学习” * [Machine Learning Roadmap: Your Self-Study Guide to Machine Learning](https://machinelearningmastery.com/machine-learning-roadmap-your-self-study-guide-to-machine-learning/) (2014) Jason Brownlee -- 虽然是英文版,但非常容易读懂。对Beginner,Novice,Intermediate,Advanced读者都有覆盖。 - * 他的这篇也非常好 [A Tour of Machine Learning Algorithms](http://machinelearningmastery.com/a-tour-of-machine-learning-algorithms/) (2013) + * [A Tour of Machine Learning Algorithms](http://machinelearningmastery.com/a-tour-of-machine-learning-algorithms/) (2013) 这篇关于机器学习算法分类的文章也非常好 * [Best Machine Learning Resources for Getting Started](http://machinelearningmastery.com/best-machine-learning-resources-for-getting-started/)(2013) 这片有中文翻译 [机器学习的最佳入门学习资源 @伯乐在线](http://blog.jobbole.com/56256/) 译者 [programmer_lin](http://www.jobbole.com/members/linwenhui/) From a7f064e9a690ec9bd781207133761c28dc9b76dc Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 22:58:17 -0700 Subject: [PATCH 456/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 7 ++++++- 1 file changed, 6 insertions(+), 1 deletion(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index def7370..b47cd37 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -18,9 +18,14 @@ 图2: 机器学习概要图 by Yaser Abu-Mostafa (Caltech) (source: http://work.caltech.edu/library/181.html) + + +图3: 机器学习实战:在python scikit learn 中选择机器学习算法 by Nishant Chandra (source: http://n-chandra.blogspot.com/2013/01/picking-machine-learning-algorithm.html) + + -图3: 机器学习和其他学科的关系: 数据科学的地铁图 by Swami Chandrasekaran (source: http://nirvacana.com/thoughts/becoming-a-data-scientist/) +图4: 机器学习和其他学科的关系: 数据科学的地铁图 by Swami Chandrasekaran (source: http://nirvacana.com/thoughts/becoming-a-data-scientist/) ## 入门攻略 From 2b4142a08905e231865c101a3fed1b88d5c22bc4 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Tue, 14 Oct 2014 23:04:23 -0700 Subject: [PATCH 457/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index b47cd37..db6c78a 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -1,5 +1,5 @@ # 机器学习入门资源不完全汇总 -2014-10-14版,好东西传送门编辑,转载请保留原作者和原文链接。 +2014-10-14版,好东西传送门编辑整理,转载请保留原作者和原文链接。 [入门攻略](#入门攻略) | [课程资源](#课程资源) | [论坛网站](#论坛网站) | [东拉西扯](#东拉西扯) From 64948279158af2cb70595acca7401c31c6c0ea4d Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 15 Oct 2014 00:12:04 -0700 Subject: [PATCH 458/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 7 +++---- 1 file changed, 3 insertions(+), 4 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index db6c78a..99bb29f 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -1,8 +1,8 @@ # 机器学习入门资源不完全汇总 -2014-10-14版,好东西传送门编辑整理,转载请保留原作者和原文链接。 +2014-10-14版, 好东西传送门编辑整理, 转载请保留原作者和原文链接。欢迎订阅[机器学习日报](http://ml.memect.com) 每天花几分钟就能了解机器学习热点。 -[入门攻略](#入门攻略) | [课程资源](#课程资源) | [论坛网站](#论坛网站) | [东拉西扯](#东拉西扯) +[基本概念](#基本概念) | [入门攻略](#入门攻略) | [课程资源](#课程资源) | [论坛网站](#论坛网站) | [东拉西扯](#东拉西扯) ## 基本概念 @@ -43,8 +43,7 @@ * 门主的几个建议 * 既要有数学基础,也要编程实践 * 别怕英文版,你不懂的大多是专业名词,将来不论写文章还是读文档都是英文为主 - -为了帮助中文用户有效跟踪发展趋势,我们做了一个[机器学习日报](http://ml.memect.com) 每天花几分钟就能长知识,网站上有样板。订阅 请给hao@memect.com发邮件,标题"订阅机器学习日报"。 + * [我是小广告] 要跟踪专业热点: 给hao@memect.com发个邮件,标题"订阅机器学习日报"。 ### 更多攻略 From 614b31f46e5fd3fb5bc6d9a0bbb64528429ea0aa Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 15 Oct 2014 00:14:20 -0700 Subject: [PATCH 459/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 99bb29f..24059e6 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -1,5 +1,5 @@ # 机器学习入门资源不完全汇总 -2014-10-14版, 好东西传送门编辑整理, 转载请保留原作者和原文链接。欢迎订阅[机器学习日报](http://ml.memect.com) 每天花几分钟就能了解机器学习热点。 +2014-10-14版, 好东西传送门编辑整理, 转载请保留原作者和原文链接。本文是[机器学习日报](http://ml.memect.com)的一个专题合集,欢迎订阅机器学习日报, 跟踪行业热点。 [基本概念](#基本概念) | [入门攻略](#入门攻略) | [课程资源](#课程资源) | [论坛网站](#论坛网站) | [东拉西扯](#东拉西扯) From 14a0f8134f09ab30e1a9ae9c0293264ec0e939b1 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 15 Oct 2014 00:24:16 -0700 Subject: [PATCH 460/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 24059e6..263b535 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -1,5 +1,5 @@ # 机器学习入门资源不完全汇总 -2014-10-14版, 好东西传送门编辑整理, 转载请保留原作者和原文链接。本文是[机器学习日报](http://ml.memect.com)的一个专题合集,欢迎订阅机器学习日报, 跟踪行业热点。 +2014-10-14版, 好东西传送门编辑整理, 转载请保留原作者和原文链接。本文是[机器学习日报](http://ml.memect.com)的一个专题合集,欢迎订阅: 给hao@memect.com发个邮件,标题"订阅机器学习日报"。 [基本概念](#基本概念) | [入门攻略](#入门攻略) | [课程资源](#课程资源) | [论坛网站](#论坛网站) | [东拉西扯](#东拉西扯) @@ -43,7 +43,7 @@ * 门主的几个建议 * 既要有数学基础,也要编程实践 * 别怕英文版,你不懂的大多是专业名词,将来不论写文章还是读文档都是英文为主 - * [我是小广告] 要跟踪专业热点: 给hao@memect.com发个邮件,标题"订阅机器学习日报"。 + * [我是小广告][我是小广告]订阅机器学习日报,跟踪业内热点资料。 ### 更多攻略 From 13c667c12e57d3308a08177d2a7d4f560416d714 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 15 Oct 2014 00:32:25 -0700 Subject: [PATCH 461/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 4 +++- 1 file changed, 3 insertions(+), 1 deletion(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 263b535..235fbcf 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -1,5 +1,7 @@ # 机器学习入门资源不完全汇总 -2014-10-14版, 好东西传送门编辑整理, 转载请保留原作者和原文链接。本文是[机器学习日报](http://ml.memect.com)的一个专题合集,欢迎订阅: 给hao@memect.com发个邮件,标题"订阅机器学习日报"。 +2014-10-14版, 好东西传送门编辑整理, http://ml.memect.com/article/machine-learning-guide.html + +转载请保留原作者和原文链接。本文是[机器学习日报](http://ml.memect.com)的一个专题合集,欢迎订阅: 给hao@memect.com发个邮件,标题"订阅机器学习日报"。 [基本概念](#基本概念) | [入门攻略](#入门攻略) | [课程资源](#课程资源) | [论坛网站](#论坛网站) | [东拉西扯](#东拉西扯) From 85ef03473e120da58294d4b3e73c243373a4e60a Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 15 Oct 2014 00:32:35 -0700 Subject: [PATCH 462/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 235fbcf..0516d0b 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -1,5 +1,5 @@ # 机器学习入门资源不完全汇总 -2014-10-14版, 好东西传送门编辑整理, http://ml.memect.com/article/machine-learning-guide.html +2014-10-14版, 好东西传送门编辑整理, 原文链接 http://ml.memect.com/article/machine-learning-guide.html 转载请保留原作者和原文链接。本文是[机器学习日报](http://ml.memect.com)的一个专题合集,欢迎订阅: 给hao@memect.com发个邮件,标题"订阅机器学习日报"。 From 8c8a6af05b30d41214b7a4b063c1074fb0680505 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 15 Oct 2014 01:14:53 -0700 Subject: [PATCH 463/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 0516d0b..3e493ac 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -185,6 +185,8 @@ http://www.52ml.net/ 我爱机器学习 http://www.mitbbs.com/bbsdoc/DataSciences.html MITBBS- 电脑网络 - 数据科学版 +http://www.guokr.com/group/262/ 果壳 > 机器学习小组 + http://cos.name/cn/forum/22 统计之都 » 统计学世界 » 数据挖掘和机器学习 http://bbs.byr.cn/#!board/ML_DM 北邮人论坛 >> 学术科技 >> 机器学习与数据挖掘 From 377c1747828839bafbc9a59ab3e6b99519e841a4 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 15 Oct 2014 01:27:46 -0700 Subject: [PATCH 464/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 15 ++++++++++----- 1 file changed, 10 insertions(+), 5 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 3e493ac..47b1555 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -1,7 +1,7 @@ # 机器学习入门资源不完全汇总 2014-10-14版, 好东西传送门编辑整理, 原文链接 http://ml.memect.com/article/machine-learning-guide.html -转载请保留原作者和原文链接。本文是[机器学习日报](http://ml.memect.com)的一个专题合集,欢迎订阅: 给hao@memect.com发个邮件,标题"订阅机器学习日报"。 +欢迎补充指正,转载请保留原作者和原文链接。本文是[机器学习日报](http://ml.memect.com)的一个专题合集,欢迎订阅: 给hao@memect.com发个邮件,标题"订阅机器学习日报"。 [基本概念](#基本概念) | [入门攻略](#入门攻略) | [课程资源](#课程资源) | [论坛网站](#论坛网站) | [东拉西扯](#东拉西扯) @@ -11,6 +11,8 @@ [机器学习](http://zh.wikipedia.org/zh/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0) 机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。 +下面从微观到宏观试着梳理一下机器学习的范畴:一个具体的算法,领域进一步细分,实战应用场景,与其他领域的关系。 + 图1: 机器学习的例子:NLTK监督学习的工作流程图 (source: http://www.nltk.org/book/ch06.html) @@ -31,13 +33,16 @@ ## 入门攻略 -* [机器学习入门者学习指南 @果壳网](http://www.guokr.com/post/512037/) (2013) 作者 [白马](http://www.guokr.com/group/i/0373595356/) -- 研究生型入门者的亲身经历 -* [有没有做机器学习的哥们?能否介绍一下是如何起步的](http://ourcoders.com/thread/show/2837/) -- 研究生型入门者的亲身经历,尤其要看[reyoung](http://ourcoders.com/user/show/25895/reyoung/)的建议 +大致分三类: 起步体悟,实战笔记,行家导读 + +* [机器学习入门者学习指南 @果壳网](http://www.guokr.com/post/512037/) (2013) 作者 [白马](http://www.guokr.com/group/i/0373595356/) -- [起步体悟] 研究生型入门者的亲身经历 + +* [有没有做机器学习的哥们?能否介绍一下是如何起步的](http://ourcoders.com/thread/show/2837/) -- [起步体悟] 研究生型入门者的亲身经历,尤其要看[reyoung](http://ourcoders.com/user/show/25895/reyoung/)的建议 -* [tornadomeet 机器学习 笔记](http://www.cnblogs.com/tornadomeet/tag/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/) (2013) -- 学霸的学习笔记,看看小伙伴是怎样一步一步地掌握“机器学习” +* [tornadomeet 机器学习 笔记](http://www.cnblogs.com/tornadomeet/tag/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/) (2013) -- [实战笔记] 学霸的学习笔记,看看小伙伴是怎样一步一步地掌握“机器学习” -* [Machine Learning Roadmap: Your Self-Study Guide to Machine Learning](https://machinelearningmastery.com/machine-learning-roadmap-your-self-study-guide-to-machine-learning/) (2014) Jason Brownlee -- 虽然是英文版,但非常容易读懂。对Beginner,Novice,Intermediate,Advanced读者都有覆盖。 +* [Machine Learning Roadmap: Your Self-Study Guide to Machine Learning](https://machinelearningmastery.com/machine-learning-roadmap-your-self-study-guide-to-machine-learning/) (2014) Jason Brownlee -- [行家导读] 虽然是英文版,但非常容易读懂。对Beginner,Novice,Intermediate,Advanced读者都有覆盖。 * [A Tour of Machine Learning Algorithms](http://machinelearningmastery.com/a-tour-of-machine-learning-algorithms/) (2013) 这篇关于机器学习算法分类的文章也非常好 * [Best Machine Learning Resources for Getting Started](http://machinelearningmastery.com/best-machine-learning-resources-for-getting-started/)(2013) 这片有中文翻译 [机器学习的最佳入门学习资源 @伯乐在线](http://blog.jobbole.com/56256/) 译者 [programmer_lin](http://www.jobbole.com/members/linwenhui/) From 0749b6e613f51207eba1878a5bd9a27efa06dd4d Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 15 Oct 2014 01:42:32 -0700 Subject: [PATCH 465/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 81 ++++++++++++++++++++++--------- 1 file changed, 57 insertions(+), 24 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 47b1555..7824733 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -63,8 +63,9 @@ ## 课程资源 Tom Mitchell 和 Andrew Ng 的课都很适合入门 +### 入门课程 -### 2011 Tom Mitchell(CMU)机器学习 +#### 2011 Tom Mitchell(CMU)机器学习 [英文原版视频与课件PDF](http://www.cs.cmu.edu/~tom/10701_sp11/lectures.shtml) 他的《机器学习》在很多课程上被选做教材,有中文版。 * Decision Trees * Probability and Estimation @@ -83,7 +84,7 @@ Tom Mitchell 和 Andrew Ng 的课都很适合入门 * Reinforcement Learning 以上为课程标题节选 -### 2014 Andrew Ng (Stanford)机器学习 +#### 2014 Andrew Ng (Stanford)机器学习 [英文原版视频](https://www.coursera.org/course/ml) 这就是针对自学而设计的,免费还有修课认证。“老师讲的是深入浅出,不用太担心数学方面的东西。而且作业也非常适合入门者,都是设计好的程序框架,有作业指南,根据作业指南填写该完成的部分就行。”(参见白马同学的入门攻略)"推荐报名,跟着上课,做课后习题和期末考试。(因为只看不干,啥都学不会)。" (参见reyoung的建议) 1. Introduction (Week 1) @@ -106,6 +107,57 @@ Tom Mitchell 和 Andrew Ng 的课都很适合入门 18. Application Example: Photo OCR 19. Conclusion +### 进阶课程 + +**2013年Yaser Abu-Mostafa (Caltech) Learning from Data** -- 内容更适合进阶 +[课程视频,课件PDF@Caltech](http://work.caltech.edu/lectures.html) + + 1. The Learning Problem + 2. Is Learning Feasible? + 3. The Linear Model I + 4. Error and Noise + 5. Training versus Testing + 6. Theory of Generalization + 7. The VC Dimension + 8. Bias-Variance Tradeoff + 9. The Linear Model II + 10. Neural Networks + 11. Overfitting + 12. Regularization + 13. Validation + 14. Support Vector Machines + 15. Kernel Methods + 16. Radial Basis Functions + 17. Three Learning Principles + 18. Epilogue + +**2014年 林軒田(国力台湾大学) 機器學習基石 (Machine Learning Foundations)** -- 内容更适合进阶,華文的教學講解 +[课程主页](https://www.coursera.org/course/ntumlone) + +When Can Machines Learn? [何時可以使用機器學習] + The Learning Problem [機器學習問題] +-- Learning to Answer Yes/No [二元分類] +-- Types of Learning [各式機器學習問題] +-- Feasibility of Learning [機器學習的可行性] + +Why Can Machines Learn? [為什麼機器可以學習] +-- Training versus Testing [訓練與測試] +-- Theory of Generalization [舉一反三的一般化理論] +-- The VC Dimension [VC 維度] +-- Noise and Error [雜訊一錯誤] + +How Can Machines Learn? [機器可以怎麼樣學習] +-- Linear Regression [線性迴歸] +-- Linear `Soft' Classification [軟性的線性分類] +-- Linear Classification beyond Yes/No [二元分類以外的分類問題] +-- Nonlinear Transformation [非線性轉換] + +How Can Machines Learn Better? [機器可以怎麼樣學得更好] +-- Hazard of Overfitting [過度訓練的危險] +-- Preventing Overfitting I: Regularization [避免過度訓練一:控制調適] +-- Preventing Overfitting II: Validation [避免過度訓練二:自我檢測] +-- Three Learning Principles [三個機器學習的重要原則] + ### 更多选择 @@ -135,28 +187,6 @@ Tom Mitchell 和 Andrew Ng 的课都很适合入门 第19集.微分动态规划 第20集.策略搜索 -**2013年Yaser Abu-Mostafa (Caltech) Learning from Data** -- 内容更适合进阶 -[课程视频,课件PDF@Caltech](http://work.caltech.edu/lectures.html) - - 1.The Learning Problem - 2.Is Learning Feasible? - 3.The Linear Model I - 4.Error and Noise - 5.Training versus Testing - 6.Theory of Generalization - 7.The VC Dimension - 8.Bias-Variance Tradeoff - 9.The Linear Model II - 10.Neural Networks - 11.Overfitting - 12.Regularization - 13.Validation - 14.Support Vector Machines - 15.Kernel Methods - 16.Radial Basis Functions - 17.Three Learning Principles - 18.Epilogue - **2012年余凯(百度)张潼(Rutgers) 机器学习公开课** -- 内容更适合进阶 [课程主页@百度文库](http://wenku.baidu.com/course/view/49e8b8f67c1cfad6195fa705) | [课件PDF@龙星计划](http://bigeye.au.tsinghua.edu.cn/DragonStar2012/download.html) @@ -223,3 +253,6 @@ http://www.datasciencecentral.com/ 数据科学中心网站 几篇高屋建瓴的机器学习领域概论, 参见[原文](http://machinelearningmastery.com/best-machine-learning-resources-for-getting-started/) * [The Discipline of Machine Learning](http://www.cs.cmu.edu/~tom/pubs/MachineLearning.pdf)Tom Mitchell 当年为在CMU建立机器学习系给校长写的东西。 * [A Few Useful Things to Know about Machine Learning](http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf) Pedro Domingos教授的大道理,也许入门时很多概念还不明白,上完公开课后一定要再读一遍。 + +几本好书 +* 李航博士的《统计学习方法》一书前段也推荐过,给个[豆瓣的链接](http://book.douban.com/subject/10590856/) From 19d41b4c52db15d0b3558c9a04a062d65300737e Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 15 Oct 2014 01:45:38 -0700 Subject: [PATCH 466/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 6 ++++-- 1 file changed, 4 insertions(+), 2 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 7824733..ceef6c3 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -1,12 +1,14 @@ # 机器学习入门资源不完全汇总 2014-10-14版, 好东西传送门编辑整理, 原文链接 http://ml.memect.com/article/machine-learning-guide.html -欢迎补充指正,转载请保留原作者和原文链接。本文是[机器学习日报](http://ml.memect.com)的一个专题合集,欢迎订阅: 给hao@memect.com发个邮件,标题"订阅机器学习日报"。 +感谢贡献者: tang_Kaka_back@新浪微博 +欢迎补充指正,转载请保留原作者和原文链接。本文是[机器学习日报](http://ml.memect.com)的一个专题合集,欢迎订阅: 给hao@memect.com发个邮件,标题"订阅机器学习日报"。 [基本概念](#基本概念) | [入门攻略](#入门攻略) | [课程资源](#课程资源) | [论坛网站](#论坛网站) | [东拉西扯](#东拉西扯) + ## 基本概念 [机器学习](http://zh.wikipedia.org/zh/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0) 机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。 @@ -38,7 +40,7 @@ * [机器学习入门者学习指南 @果壳网](http://www.guokr.com/post/512037/) (2013) 作者 [白马](http://www.guokr.com/group/i/0373595356/) -- [起步体悟] 研究生型入门者的亲身经历 -* [有没有做机器学习的哥们?能否介绍一下是如何起步的](http://ourcoders.com/thread/show/2837/) -- [起步体悟] 研究生型入门者的亲身经历,尤其要看[reyoung](http://ourcoders.com/user/show/25895/reyoung/)的建议 +* [有没有做机器学习的哥们?能否介绍一下是如何起步的 @ourcoders](http://ourcoders.com/thread/show/2837/) -- [起步体悟] 研究生型入门者的亲身经历,尤其要看[reyoung](http://ourcoders.com/user/show/25895/reyoung/)的建议 * [tornadomeet 机器学习 笔记](http://www.cnblogs.com/tornadomeet/tag/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/) (2013) -- [实战笔记] 学霸的学习笔记,看看小伙伴是怎样一步一步地掌握“机器学习” From 1417dda10d147bd58e6705478c66ee6872abc59d Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 15 Oct 2014 01:48:24 -0700 Subject: [PATCH 467/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index ceef6c3..37bf2b6 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -133,7 +133,7 @@ Tom Mitchell 和 Andrew Ng 的课都很适合入门 17. Three Learning Principles 18. Epilogue -**2014年 林軒田(国力台湾大学) 機器學習基石 (Machine Learning Foundations)** -- 内容更适合进阶,華文的教學講解 +**2014年 林軒田(国立台湾大学) 機器學習基石 (Machine Learning Foundations)** -- 内容更适合进阶,華文的教學講解 [课程主页](https://www.coursera.org/course/ntumlone) When Can Machines Learn? [何時可以使用機器學習] From 353072e2832ba63f06851885ed966334b2f251cd Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 15 Oct 2014 09:49:16 -0700 Subject: [PATCH 468/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 37bf2b6..9a8b415 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -87,7 +87,7 @@ Tom Mitchell 和 Andrew Ng 的课都很适合入门 以上为课程标题节选 #### 2014 Andrew Ng (Stanford)机器学习 - [英文原版视频](https://www.coursera.org/course/ml) 这就是针对自学而设计的,免费还有修课认证。“老师讲的是深入浅出,不用太担心数学方面的东西。而且作业也非常适合入门者,都是设计好的程序框架,有作业指南,根据作业指南填写该完成的部分就行。”(参见白马同学的入门攻略)"推荐报名,跟着上课,做课后习题和期末考试。(因为只看不干,啥都学不会)。" (参见reyoung的建议) + [英文原版视频](https://www.coursera.org/course/ml) | [果壳讨论](http://mooc.guokr.com/course/16/Machine-Learning/) 这就是针对自学而设计的,免费还有修课认证。“老师讲的是深入浅出,不用太担心数学方面的东西。而且作业也非常适合入门者,都是设计好的程序框架,有作业指南,根据作业指南填写该完成的部分就行。”(参见白马同学的入门攻略)"推荐报名,跟着上课,做课后习题和期末考试。(因为只看不干,啥都学不会)。" (参见reyoung的建议) 1. Introduction (Week 1) 2. Linear Regression with One Variable (Week 1) From af735b11e3e730bd9444809604d92e7730cab13c Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 15 Oct 2014 09:53:21 -0700 Subject: [PATCH 469/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 9a8b415..8d9ef4f 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -254,7 +254,7 @@ http://www.datasciencecentral.com/ 数据科学中心网站 几篇高屋建瓴的机器学习领域概论, 参见[原文](http://machinelearningmastery.com/best-machine-learning-resources-for-getting-started/) * [The Discipline of Machine Learning](http://www.cs.cmu.edu/~tom/pubs/MachineLearning.pdf)Tom Mitchell 当年为在CMU建立机器学习系给校长写的东西。 -* [A Few Useful Things to Know about Machine Learning](http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf) Pedro Domingos教授的大道理,也许入门时很多概念还不明白,上完公开课后一定要再读一遍。 +* [A Few Useful Things to Know about Machine Learning](http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf) Pedro Domingos教授的大道理,也许入门时很多概念还不明白,上完公开课后一定要再读一遍。这是刘知远翻译的中文版 [机器学习那些事 PDF](http://www.valleytalk.org/wp-content/uploads/2012/11/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%82%A3%E4%BA%9B%E4%BA%8B.pdf) 几本好书 * 李航博士的《统计学习方法》一书前段也推荐过,给个[豆瓣的链接](http://book.douban.com/subject/10590856/) From 042ed74708e04450a08ba2cf26eeccd89fe83ba2 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 15 Oct 2014 10:25:12 -0700 Subject: [PATCH 470/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 7 +++++-- 1 file changed, 5 insertions(+), 2 deletions(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 8d9ef4f..3fd4933 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -10,7 +10,9 @@ ## 基本概念 -[机器学习](http://zh.wikipedia.org/zh/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0) 机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。 +[机器学习](http://zh.wikipedia.org/zh/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0) "机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。**机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法**。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。" --摘自维基百科 + +[How do you explain Machine Learning and Data Mining to non Computer Science people? @quora](http://www.quora.com/How-do-you-explain-Machine-Learning-and-Data-Mining-to-non-Computer-Science-people) by Pararth Shah, 中文版 [如何向小白介绍何谓机器学习和数据挖掘?买回芒果他就懂了 @36kr](http://www.36kr.com/p/200601.html) -- 这印证了上面讲的定义 “机器学习就是从现象中发现统计规律,再利用规律预测”。当一车水果混作一团时,监督学习(supervised learning)能根据你提供的几个苹果样本帮你把所有苹果从梨,芒果中区分出来; 无监督学习(unsupervised learning)能根据已知的各种特征,无需样本自动把类似的水果分上几堆(也许是红水果和黄水果,也许是大苹果小苹果,...);关联规则学习(association rule learning) 则是帮你发现基于规则的规律,例如绿色的小苹果都有点酸。 下面从微观到宏观试着梳理一下机器学习的范畴:一个具体的算法,领域进一步细分,实战应用场景,与其他领域的关系。 @@ -256,5 +258,6 @@ http://www.datasciencecentral.com/ 数据科学中心网站 * [The Discipline of Machine Learning](http://www.cs.cmu.edu/~tom/pubs/MachineLearning.pdf)Tom Mitchell 当年为在CMU建立机器学习系给校长写的东西。 * [A Few Useful Things to Know about Machine Learning](http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf) Pedro Domingos教授的大道理,也许入门时很多概念还不明白,上完公开课后一定要再读一遍。这是刘知远翻译的中文版 [机器学习那些事 PDF](http://www.valleytalk.org/wp-content/uploads/2012/11/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%82%A3%E4%BA%9B%E4%BA%8B.pdf) -几本好书 +几本好书,书籍推荐很多高人都做过,这里就不多说了,直接给链接 * 李航博士的《统计学习方法》一书前段也推荐过,给个[豆瓣的链接](http://book.douban.com/subject/10590856/) +* [机器学习经典书籍 @算法组](http://suanfazu.com/discussion/109/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%BB%8F%E5%85%B8%E4%B9%A6%E7%B1%8D/p1) by [算法组](http://www.weibo.com/suanfazu) From c49daea3482b03032d6c9f59fc39b919ec7519b0 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 15 Oct 2014 12:20:57 -0700 Subject: [PATCH 471/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index 3fd4933..f11c484 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -259,5 +259,6 @@ http://www.datasciencecentral.com/ 数据科学中心网站 * [A Few Useful Things to Know about Machine Learning](http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf) Pedro Domingos教授的大道理,也许入门时很多概念还不明白,上完公开课后一定要再读一遍。这是刘知远翻译的中文版 [机器学习那些事 PDF](http://www.valleytalk.org/wp-content/uploads/2012/11/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E9%82%A3%E4%BA%9B%E4%BA%8B.pdf) 几本好书,书籍推荐很多高人都做过,这里就不多说了,直接给链接 -* 李航博士的《统计学习方法》一书前段也推荐过,给个[豆瓣的链接](http://book.douban.com/subject/10590856/) +* [Machine Learning in Action](http://manning.com/pharrington/) Peter Harrington 中文版 [机器学习实战 @豆瓣](http://book.douban.com/subject/24703171/) -- “这本书能让你明白:那些被吹捧得出神入化的分类算法,竟然实现起来如此简单; 那些看是高深的数学理论,其实一句话就能道明其本质; 一切复杂的事物,出发点都是非常简单的想法。” 摘自[Kord @豆瓣](http://book.douban.com/review/6249619/)的评论 +* 李航博士的书 [统计学习方法 @豆瓣](http://book.douban.com/subject/10590856/) -- 要求数学基础好 * [机器学习经典书籍 @算法组](http://suanfazu.com/discussion/109/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%BB%8F%E5%85%B8%E4%B9%A6%E7%B1%8D/p1) by [算法组](http://www.weibo.com/suanfazu) From ff1c0e5429f60bd61778f532f67d3fbff21f2860 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 15 Oct 2014 12:24:16 -0700 Subject: [PATCH 472/485] Update machine-learning-guide.md --- awesome/machine-learning-guide.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/awesome/machine-learning-guide.md b/awesome/machine-learning-guide.md index f11c484..ad3d8f4 100644 --- a/awesome/machine-learning-guide.md +++ b/awesome/machine-learning-guide.md @@ -260,5 +260,5 @@ http://www.datasciencecentral.com/ 数据科学中心网站 几本好书,书籍推荐很多高人都做过,这里就不多说了,直接给链接 * [Machine Learning in Action](http://manning.com/pharrington/) Peter Harrington 中文版 [机器学习实战 @豆瓣](http://book.douban.com/subject/24703171/) -- “这本书能让你明白:那些被吹捧得出神入化的分类算法,竟然实现起来如此简单; 那些看是高深的数学理论,其实一句话就能道明其本质; 一切复杂的事物,出发点都是非常简单的想法。” 摘自[Kord @豆瓣](http://book.douban.com/review/6249619/)的评论 -* 李航博士的书 [统计学习方法 @豆瓣](http://book.douban.com/subject/10590856/) -- 要求数学基础好 +* 李航博士的书 [统计学习方法 @豆瓣](http://book.douban.com/subject/10590856/) -- 首先这是一本好书,“如果我什么都不知道,这种干货为主的传统教科书很可能会让我讨厌机器学习的(个人观点)。但是,如果把这本书作为参考书,那将是非常好的一本,一方面算是比较权威吧,另一方面是简洁,用公式、逻辑说话,不做太多通俗的解释,比起PRML等书就简洁了很多,有着独特的魅力和市场需求。” 摘自[chentingpc @豆瓣](http://book.douban.com/review/5540889/)的评论 * [机器学习经典书籍 @算法组](http://suanfazu.com/discussion/109/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E7%BB%8F%E5%85%B8%E4%B9%A6%E7%B1%8D/p1) by [算法组](http://www.weibo.com/suanfazu) From 6e60d0c6086dbf93f21f6c0700663ecd34aac3f7 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 22 Oct 2014 07:42:25 -0700 Subject: [PATCH 473/485] Create crawler.md --- awesome/crawler.md | 16 ++++++++++++++++ 1 file changed, 16 insertions(+) create mode 100644 awesome/crawler.md diff --git a/awesome/crawler.md b/awesome/crawler.md new file mode 100644 index 0000000..bc23914 --- /dev/null +++ b/awesome/crawler.md @@ -0,0 +1,16 @@ +# 网络爬虫(Web crawler)资料 + +## 概念 +http://en.wikipedia.org/wiki/Web_crawler A Web crawler is an Internet bot that systematically browses the World Wide Web, typically for the purpose of Web indexing. A Web crawler may also be called a Web spider,[1] an ant, an automatic indexer,[2] or (in the FOAF software context) a Web scutter. + +http://zh.wikipedia.org/zh-cn/%E7%B6%B2%E8%B7%AF%E8%9C%98%E8%9B%9B 网络蜘蛛(Web spider)也叫网络爬虫(Web crawler)[1],蚂蚁(ant),自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种“自动化浏览网络”的程序,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。 + +## 基本爬虫框架和最简单的例子 + +https://gist.github.com/palianytsia/4246680 - java + +https://github.com/kezakez/python-web-crawler - python + +![](http://andreas-hess.info/programming/webcrawler/webqueue.png) +## 进阶讲义 +http://www.slideshare.net/denshe/icwe13-tutorial-webcrawling From 8a555df2bf7a857cf623cb3e012c8357ae681a28 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 22 Oct 2014 08:00:40 -0700 Subject: [PATCH 474/485] Update crawler.md --- awesome/crawler.md | 11 +++++++++-- 1 file changed, 9 insertions(+), 2 deletions(-) diff --git a/awesome/crawler.md b/awesome/crawler.md index bc23914..377436b 100644 --- a/awesome/crawler.md +++ b/awesome/crawler.md @@ -7,10 +7,17 @@ http://zh.wikipedia.org/zh-cn/%E7%B6%B2%E8%B7%AF%E8%9C%98%E8%9B%9B 网络蜘蛛 ## 基本爬虫框架和最简单的例子 +![](http://upload.wikimedia.org/wikipedia/commons/thumb/d/df/WebCrawlerArchitecture.svg/300px-WebCrawlerArchitecture.svg.png) +* queue: 数据表,包含一组URL。需要初始化,每次循环后加入未访问过的URL。要有去重机制。 高级一些还要避免爬虫陷阱。 +* scheduler:调度模块,选择queue里的URL,以设定的频率调用下载模块。注意遵循[爬虫机器人须知 Robots.txt](http://en.wikipedia.org/wiki/Robots_exclusion_standard)。 +* downloader:下载模块,给定一个URL,下载URL的网页内容(content) 以及相关元数据(http header),写到下载数据storage中;此外还要提取网页内容中提到的URL,写到queue里 +* storage:下载数据存储,同时保存网页内容(文本、图片...)和下载时的相关元数据(URL,下载时间, 文件大小, 服务器端最后更新时间...) + +下面是两个非常简单的可执行代码 https://gist.github.com/palianytsia/4246680 - java https://github.com/kezakez/python-web-crawler - python -![](http://andreas-hess.info/programming/webcrawler/webqueue.png) + ## 进阶讲义 -http://www.slideshare.net/denshe/icwe13-tutorial-webcrawling +* http://www.slideshare.net/denshe/icwe13-tutorial-webcrawling From e74bcb00395f4679a9b6f3a5ef5ea3d9256613b3 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 22 Oct 2014 08:01:15 -0700 Subject: [PATCH 475/485] Update crawler.md --- awesome/crawler.md | 7 +++---- 1 file changed, 3 insertions(+), 4 deletions(-) diff --git a/awesome/crawler.md b/awesome/crawler.md index 377436b..5763f72 100644 --- a/awesome/crawler.md +++ b/awesome/crawler.md @@ -13,10 +13,9 @@ http://zh.wikipedia.org/zh-cn/%E7%B6%B2%E8%B7%AF%E8%9C%98%E8%9B%9B 网络蜘蛛 * downloader:下载模块,给定一个URL,下载URL的网页内容(content) 以及相关元数据(http header),写到下载数据storage中;此外还要提取网页内容中提到的URL,写到queue里 * storage:下载数据存储,同时保存网页内容(文本、图片...)和下载时的相关元数据(URL,下载时间, 文件大小, 服务器端最后更新时间...) -下面是两个非常简单的可执行代码 -https://gist.github.com/palianytsia/4246680 - java - -https://github.com/kezakez/python-web-crawler - python +下面是两个非常简单的可执行代码样例 +* https://gist.github.com/palianytsia/4246680 - java +* https://github.com/kezakez/python-web-crawler - python ## 进阶讲义 From 3189ee6531cf65d560e4070361c77fe8a4ca4e8b Mon Sep 17 00:00:00 2001 From: haoawesome Date: Wed, 22 Oct 2014 09:35:13 -0700 Subject: [PATCH 476/485] Update crawler.md --- awesome/crawler.md | 16 +++++++++++----- 1 file changed, 11 insertions(+), 5 deletions(-) diff --git a/awesome/crawler.md b/awesome/crawler.md index 5763f72..482d5f2 100644 --- a/awesome/crawler.md +++ b/awesome/crawler.md @@ -8,15 +8,21 @@ http://zh.wikipedia.org/zh-cn/%E7%B6%B2%E8%B7%AF%E8%9C%98%E8%9B%9B 网络蜘蛛 ## 基本爬虫框架和最简单的例子 ![](http://upload.wikimedia.org/wikipedia/commons/thumb/d/df/WebCrawlerArchitecture.svg/300px-WebCrawlerArchitecture.svg.png) -* queue: 数据表,包含一组URL。需要初始化,每次循环后加入未访问过的URL。要有去重机制。 高级一些还要避免爬虫陷阱。 -* scheduler:调度模块,选择queue里的URL,以设定的频率调用下载模块。注意遵循[爬虫机器人须知 Robots.txt](http://en.wikipedia.org/wiki/Robots_exclusion_standard)。 -* downloader:下载模块,给定一个URL,下载URL的网页内容(content) 以及相关元数据(http header),写到下载数据storage中;此外还要提取网页内容中提到的URL,写到queue里 -* storage:下载数据存储,同时保存网页内容(文本、图片...)和下载时的相关元数据(URL,下载时间, 文件大小, 服务器端最后更新时间...) +* URL列表(queue): 一个数据表包含一组URL。需要初始化,每次循环后加入未访问过的URL。要有去重机制。 高级一些还要避免爬虫陷阱。 +* 调度器(scheduler):选择queue里的URL,以设定的频率,顺序或并发地调用下载模块。最简单实现就是for循环 + * 注意遵循[爬虫机器人须知 Robots.txt](http://en.wikipedia.org/wiki/Robots_exclusion_standard)。 +* 下载器(downloader):给定一个URL,下载URL的网页内容(content) 以及相关元数据(http header),写到下载数据storage中。一般都有HTTP客户端开源实现 + * 链接提取器(link extractors): 解析网页文本内容,提取URL,最后写到queue里。 可以任选字符串匹配,正则表达式,网页解析器(html/xml parser)等工具实现。 +* 下载数据存储(storage):,同时保存网页内容(文本、图片...)和下载时的相关元数据(URL,下载时间, 文件大小, 服务器端最后更新时间...) 下面是两个非常简单的可执行代码样例 -* https://gist.github.com/palianytsia/4246680 - java +* https://cs.nyu.edu/courses/fall02/G22.3033-008/WebCrawler.java - java * https://github.com/kezakez/python-web-crawler - python ## 进阶讲义 * http://www.slideshare.net/denshe/icwe13-tutorial-webcrawling + +## 开源工具 +* http://java-source.net/open-source/crawlers Open Source Crawlers in Java +* http://en.wikipedia.org/wiki/Web_crawler#Open-source_crawlers Open-source crawlers From e433551cc0e8b45872e78f17a46148172b23e420 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 23 Oct 2014 20:29:31 -0700 Subject: [PATCH 477/485] Update README.md --- README.md | 583 ++++++++++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 583 insertions(+) diff --git a/README.md b/README.md index 9b18498..73a76bc 100644 --- a/README.md +++ b/README.md @@ -36,6 +36,589 @@ ## 问答与传送档案 +2014-10-23 感谢 @网路冷眼 @张颖峰 @龙星镖局 @梁斌penny @王威廉 今天继续做了版式的调整,以平衡不同读者对短版和长版需求的差异。以前的短版现在作为今日焦点放在最前面。没有时间的读者可以只看这5条。如果对目前的长版有更多建议,欢迎大家回信hao@memect.com, 谢谢! [ [微博](http://www.weibo.com/5220650532/BsRphENEq) ] + +> 2014-10-23 @好东西传送门: 机器学习头条 2014-10-22 http://t.cn/R7fUQm6 1)John Hopcroft《Foundations of Data Science》 2)利用SIMD加速做索引压缩 3)Google Youtube团队公开了一个Multiview Video Game的数据 4)CMU TwitterNLP: Twitter自然语言处理 5)学习算法的Neural Turing Machine 加长版62条 http://t.cn/R7fUQmX [ [微博](http://www.weibo.com/5220650532/BsQ8toM8Q) ] + +2014-10-23 今天@连城404 推荐了q,一个用SQL处理文本数据的残暴工具。小门再推荐一个同样残暴的OrientDB,可以用SQL查询JSON。安装很简单,下载zip后解压就可以起服务器。可以从python/java/ruby等各种语言调用。http://t.cn/R7f6XJ9 有REST接口,和jq/httpie等综合使用可以实现命令行上更复杂的数据查询 [ [微博](http://www.weibo.com/5220650532/BsRlAmfyT) ] + +2014-10-23 好东西,转给搞生物信息学的伙伴们 [ [微博](http://www.weibo.com/5220650532/BsRgWAtrk) ] + +> 2014-10-22 @bitslife: 从2014美国人类遗传学学会的介绍中了解到了NextCODE, (1)、 Big Data及其Knowledge Base: 350,000 全基因组,40M变异注释。 (2)、 平台服务了 350 多篇高质量论文 (3)、 合作、共享基因组信息全球实时系统。(4)、 基因组数据分析流程(Alignment, Mapping, SNP/INDEL Calling) [ [微博](http://www.weibo.com/1895047203/BsMTQ6DOf) ] + +2014-10-23 Python头条 2014-10-22 http://t.cn/R7fMgzf 1)慕课网Python入门课程 2)Python状况:为什么PyPy是Python的未来? 3)一行代码伪装成浏览器 4)Python程序的Learning to Execute 加长版9条 http://t.cn/R7fMFzg 感谢 @慕课网 @Python开发者 @王威廉 [ [微博](http://www.weibo.com/5220650532/BsR8lujnY) ] + +2014-10-23 问:哪里有每日新闻联播要点总结? 答:新闻联播文字版在CNTV官网上就有 http://t.cn/R7fIsnP 每条新闻下面都有文本。CNTV之前CCTV上也有 例如 http://t.cn/R7fIsnv 时事一点通的《时事新闻日报道》》有每日总结, http://t.cn/a8fwZM 分国内国际,都有简短的摘要。这些都是很好的语料库。 [ [微博](http://www.weibo.com/5220650532/BsR7o7CRX) ] + +2014-10-23 感谢 @网路冷眼 @张颖峰 @龙星镖局 @梁斌penny @王威廉 今天继续做了版式的调整,以平衡不同读者对短版和长版需求的差异。以前的短版现在作为今日焦点放在最前面。没有时间的读者可以只看这5条。如果对目前的长版有更多建议,欢迎大家回信hao@memect.com, 谢谢! [ [微博](http://www.weibo.com/5220650532/BsQ8R3r5k) ] + +> 2014-10-23 @好东西传送门: 机器学习头条 2014-10-22 http://t.cn/R7fUQm6 1)John Hopcroft《Foundations of Data Science》 2)利用SIMD加速做索引压缩 3)Google Youtube团队公开了一个Multiview Video Game的数据 4)CMU TwitterNLP: Twitter自然语言处理 5)学习算法的Neural Turing Machine 加长版62条 http://t.cn/R7fUQmX [ [微博](http://www.weibo.com/5220650532/BsQ8toM8Q) ] + +2014-10-23 机器学习头条 2014-10-22 http://t.cn/R7fUQm6 1)John Hopcroft《Foundations of Data Science》 2)利用SIMD加速做索引压缩 3)Google Youtube团队公开了一个Multiview Video Game的数据 4)CMU TwitterNLP: Twitter自然语言处理 5)学习算法的Neural Turing Machine 加长版62条 http://t.cn/R7fUQmX [ [微博](http://www.weibo.com/5220650532/BsQ8toM8Q) ] + +2014-10-23 一个Python的从文本学习模板的小工具 templatemaker http://t.cn/R7fyt3x 可以从一堆输入样板句子中提取他们的不变部分,然后利用模板可以做匹配检查,成分提取等。对清理Web数据,简单的模式学习超级有用 [ [微博](http://www.weibo.com/5220650532/BsPVLCQS5) ] + +2014-10-23 一个Python的从文本学习模板的小工具 templater http://t.cn/R7fybeW 可以从一堆输入样板句子中提取他们的不变部分,然后利用模板可以做匹配检查,成分提取等。对清理Web数据,简单的模式学习超级有用 [ [微博](http://www.weibo.com/5220650532/BsPV82oy9) ] + +2014-10-23 爬虫相关资料(Java ).pdf 一组挺有用的链接 [ [微博](http://www.weibo.com/5220650532/BsPkvtPv4) ] + +> 2014-10-22 @睡眼惺忪的小叶先森: 这几天很多筒子不约而同让我提供几个编写爬虫的资料[doge]。我把我过去参考过的,整理了一下,包含了开源框架以及自己手动编写爬虫所需工具,还包括了信息抽取等。Java版本的。http://t.cn/R7VVttV @好东西传送门 @囧囧有神的小杜霉女 @whiteath [ [微博](http://www.weibo.com/2765244861/BsKmhpxJn) ] + +2014-10-23 好文章,为什么svm在文本上应该用线性核。思考:那用与它等价的感知器是不是也可以?//@神经元NL:中心:文本大部分线性可分;文本本身特征多,映射到太高维度也没用;线性核快;线性核更好优化 [ [微博](http://www.weibo.com/5220650532/BsO9cgH96) ] + +> 2014-10-22 @星空下的巫师: Linear Kernel: Why is it recommended for text classification ? http://t.cn/R7V3WUA [ [微博](http://www.weibo.com/1785748853/BsMLtezwh) ] + +2014-10-23 Python写的内存数据处理工具,很适合做小文本的命令行查询。//@黄涧石:好东西 [ [微博](http://www.weibo.com/5220650532/BsO7edz6i) ] + +> 2014-10-22 @连城404: 这个叫q的工具太残暴了,在Shell下用SQL查询各种表格状的文本文件 http://t.cn/R7VntHd q "SELECT COUNT(*) FROM ./clicks_file.csv WHERE c3 > 32.3" [ [微博](http://www.weibo.com/1883627565/BsMvGfC4L) ] + +2014-10-23 右边一般不夸人的,被他表扬的肯定不错 →_→//@phunter_lau:涵盖的很全面啊还比一般介绍的有一定深度 //@网路冷眼:作者John Hopcroft,康奈尔大学计算机科学系教授,1986年由于在算法及数据结构设计和分析方面的基础性成就,被授予图灵奖: http://t.cn/R7VnfUX [ [微博](http://www.weibo.com/5220650532/BsO5452xI) ] + +> 2014-10-22 @网路冷眼: 微软发布<数据科学基础(Foundations of Data Science)>电子书,PDF格式,下载地址:http://t.cn/R7cdbab 转需!@52nlp @好东西传送门 [ [微博](http://www.weibo.com/1715118170/BsMeH8tps) ] + +2014-10-23 //@网路冷眼:作者John Hopcroft,康奈尔大学计算机科学系教授,1986年由于在算法及数据结构设计和分析方面的基础性成就,被授予图灵奖:http://t.cn/R7VnfUX [ [微博](http://www.weibo.com/5220650532/BsNVu9cJy) ] + +> 2014-10-22 @网路冷眼: 微软发布<数据科学基础(Foundations of Data Science)>电子书,PDF格式,下载地址:http://t.cn/R7cdbab 转需!@52nlp @好东西传送门 [ [微博](http://www.weibo.com/1715118170/BsMeH8tps) ] + +2014-10-22 @老齐Py @中国云计算论坛 @Python开发者 @朝花夕拾录 为我们提供了好资源。昨天有人反映太长,所以今天加上了5条摘要,和用长微博发布的短版。欢迎大家继续提建议 [ [微博](http://www.weibo.com/5220650532/BsJECoqiR) ] + +> 2014-10-22 @好东西传送门: Python头条 2014-10-21 http://t.cn/R7V2o2a 1)[零基础学python]使用tornado表单和模板 2)clint:Python命令行工具 3)用python + hadoop编写分布式程序 4)matplotlib: 使用Python进行图表绘图 5)Writing C in Cython 加长版12条 http://t.cn/R7V2o2X [ [微博](http://www.weibo.com/5220650532/BsJDWrMar) ] + +2014-10-22 Python头条 2014-10-21 http://t.cn/R7V2o2a 1)[零基础学python]使用tornado表单和模板 2)clint:Python命令行工具 3)用python + hadoop编写分布式程序 4)matplotlib: 使用Python进行图表绘图 5)Writing C in Cython 加长版12条 http://t.cn/R7V2o2X [ [微博](http://www.weibo.com/5220650532/BsJDWrMar) ] + +2014-10-22 用python Requests爬网页的常用技巧: 一行代码伪装成浏览器 r = requests.post(url, headers={'user-agent: 'Mozilla/5.0 (Windows NT 5.1; rv:31.0) Gecko/20100101 Firefox/31.0'} ) 其他user-agent字符串 http://t.cn/hGTZFY requests库的用法 http://t.cn/R7VZfcY @Serena_pancakes [ [微博](http://www.weibo.com/5220650532/BsJrz42Ke) ] + +2014-10-22 车牌数据集(二)果然有好人Andrew McGill 整理上传2012年数据 有篇博文 http://t.cn/R7Vz75l 也有数据Github CSV 70M http://t.cn/R7Vz75j //@核桃街魔女: 一度想找匹兹堡的类似数据 //@美国中部大平原的胖胖:有意思。 [ [微博](http://www.weibo.com/5220650532/BsJmK51DT) ] + +> 2014-10-21 @好东西传送门: 刚才帮人找数据挖到一个好玩的, 搞LBS, GPS, 数据挖掘的快来围观。 http://t.cn/R7tGZFJ Github,CSV表格,明尼苏达警察局的800k车牌记录。已做过隐私保护处理, 每条记录包括: License Plate ID Latitude Longitude Time collected Reader [ [微博](http://www.weibo.com/5220650532/BsztgACau) ] + +2014-10-22 非常炫。原文的程序是用docx发布的,不方便,现在发布在gist上 http://t.cn/R7V794U [ [微博](http://www.weibo.com/5220650532/BsJkLooNj) ] + +> 2014-10-14 @Arduinos: 【arduino与人脑连接】荷兰arduinos爱好者Kayleigh Beard演示人脑控制led灯。她示范了自己制作的人脑交互作品,视频http://t.cn/R7ZgW4o,用意念控制一排led按顺序亮灭。教程http://t.cn/R7ZgW4X,源代码http://t.cn/R7ZgW4S。用到了arduino uno, MindWave Mobile脑电仪。 [ [微博](http://www.weibo.com/2524468112/BrvyLpk0E) ] + +2014-10-22 问答297 除了直接爬网站,也可以下载数据集 以前推荐过 common crawl 数据集,http://t.cn/R7cs7Nv 还有一个GoogleNews 数据集 1.2G http://t.cn/R7cs7Cs 更多相关数据集参见 http://t.cn/R7cs7Nm [ [微博](http://www.weibo.com/5220650532/BsJ3dF40k) ] + +> 2014-10-22 @Serena_pancakes: 在国外想用python抓news website用来分析词频的,可是crawling会被封IP,还没有api的话怎么办?@网路冷眼 @好东西传送门 @Python开发者 [ [微博](http://www.weibo.com/1077087607/BsIiU5Wsa) ] + +2014-10-22 一般就是降低频率,还有上Amazon EC2用spot instance,不断换IP。如果只是分析词频,不需要最新的内容,建议提取一部分Common Crawl语料库,别人已经都帮你抓好了,那里应有尽有。http://t.cn/R77RbnD [ [微博](http://www.weibo.com/5220650532/BsJ2gAUER) ] + +> 2014-10-22 @Serena_pancakes: 在国外想用python抓news website用来分析词频的,可是crawling会被封IP,还没有api的话怎么办?@网路冷眼 @好东西传送门 @Python开发者 [ [微博](http://www.weibo.com/1077087607/BsIiU5Wsa) ] + +2014-10-22 感谢 @NLPJob @龙星镖局 @AixinSG @伯乐在线官方微博 。今天的邮件试着发了一期长版(上次投票的结果70%的读者希望收到长版),因为内容长了,在摘要,版式上可能还需要新的改进,欢迎大家继续提意见。5条短版还继续以长微博发送。 [ [微博](http://www.weibo.com/5220650532/BsHaefg8j) ] + +> 2014-10-22 @好东西传送门: 机器学习头条2014-10-21 http://t.cn/R7cKd4c 1)哥伦比亚大学Michael Collins的NLP 14年秋季课程 2)王益《分布式机器学习的故事》 3)Michael Jordan: Why Big Data Could Be a Big Fail 4)深度学习、自然语言处理和表征方法 5)计算机科学会议的顶级会议最佳论文列表 加长版42条 http://t.cn/R7cKd42 [ [微博](http://www.weibo.com/5220650532/BsH8C5KS1) ] + +2014-10-22 机器学习头条2014-10-21 http://t.cn/R7cKd4c 1)哥伦比亚大学Michael Collins的NLP 14年秋季课程 2)王益《分布式机器学习的故事》 3)Michael Jordan: Why Big Data Could Be a Big Fail 4)深度学习、自然语言处理和表征方法 5)计算机科学会议的顶级会议最佳论文列表 加长版42条 http://t.cn/R7cKd42 [ [微博](http://www.weibo.com/5220650532/BsH8C5KS1) ] + +2014-10-22 我正在使用"花栗鼠"#封面图#,好漂亮,你们都快来试试! http://t.cn/zRVa3ar [ [微博](http://www.weibo.com/5220650532/BsH8p5zct) ] + +2014-10-22 《Deep Learning(深度学习)资料整理》 作者zouxy09@qq.com 36页的好的入门介绍 感谢@一尘不染zzz 整理成pdf [ [微博](http://www.weibo.com/5220650532/BsFG41AmM) ] + +> 2014-10-05 @一尘不染zzz: #深度学习#知识资料。最初是一个网友整理发布在他的BLOG上的。我不过是整理成PDF版 http://t.cn/Rhr3w3h 。#机器学习#几乎已经引发了一场信息处理的革命(搜索引擎、语音识别,图像识别,内容过滤、分类等的)相信机器学习接下来几年会在机器人领域引发另外一场让人惊奇革命。 [ [微博](http://www.weibo.com/1668848731/Bq4zGbuk1) ] + +2014-10-22 转发微博 [ [微博](http://www.weibo.com/5220650532/BsDW6yBOX) ] + +> 2014-10-21 @2gua: 几个不错的前端技术资源:「20 More Docs and Guides for Front-End Developers」http://t.cn/R7t8rDv,「Why I Love AngularJS and You Should Too」http://t.cn/R7t8rDh,「7 JS Libraries for Specific Visualizations」http://t.cn/R7t8rDP。@网路冷眼 @好东西传送门 @极客头条 @Linux中国 [ [微博](http://www.weibo.com/1609119537/BsBRaAQ53) ] + +2014-10-21 LIVAC汉语共时语料库(Linguistic Variation in Chinese Speech Communities) http://t.cn/R7chgF2 “直至2013年,LIVAC已处理逾5亿字,累积并持续提炼出约两百万词条。” 19年积累,7个特征语料收集地:香港,台湾,北京,上海, 澳门,新加坡,广州 。可惜是公司维护未开源,我辈只能望知识兴叹了 [ [微博](http://www.weibo.com/5220650532/BsDhZEsLS) ] + +2014-10-21 Pycoder's Weekly 搜罗Py万物的蟒周刊 英文版http://t.cn/zOzpHxB 中文版 http://t.cn/8FIrxNN [ [微博](http://www.weibo.com/5220650532/BsAMAjiT3) ] + +> 2014-10-21 @ZoomQuiet: Issue 137: RPython #蠎周刊# 汇集全球蠎事儿 !-) http://t.cn/R7tLoB7 [ [微博](http://www.weibo.com/1400936805/Bsz74bWSx) ] + +2014-10-21 根据过去两个月的数据,我们这个技术圈子(大体就是机器学习,自然语言处理,信息检索,计算机视觉,语义网等)最受欢迎(根据发言在圈子里的分享次数)的个人有@AixinSG @KissDev @丕子 @刘鑫Mars @梁斌penny @王威廉 @网路冷眼 @西瓜大丸子汤 @陈利人 @龙星镖局 (排名不分先后) [ [微博](http://www.weibo.com/5220650532/BsAF3615o) ] + +2014-10-21 非常有用的全美按街区人口数,种族构成地图,纽约时报出品。数据来源是2010人口普查http://t.cn/hboaoT [ [微博](http://www.weibo.com/5220650532/BsAlqhKxe) ] + +> 2014-07-26 @JadeM104: 分享一个我觉得很有用的地图,distribution of racial and ethnic groups: http://t.cn/hboaoT 出门在外小心,一切尽在不言中了 [ [微博](http://www.weibo.com/1682042892/BfjyFDvNe) ] + +2014-10-21 右边是中国最好的机器视觉公司之一。你们也对车牌感兴趣么?嗯,每个城市都有上万个交通摄像头,识别车牌可是个大买卖 //@格灵深瞳: 马!随手,不谢。 [ [微博](http://www.weibo.com/5220650532/BszSMkZbO) ] + +> 2014-10-21 @好东西传送门: 刚才帮人找数据挖到一个好玩的, 搞LBS, GPS, 数据挖掘的快来围观。 http://t.cn/R7tGZFJ Github,CSV表格,明尼苏达警察局的800k车牌记录。已做过隐私保护处理, 每条记录包括: License Plate ID Latitude Longitude Time collected Reader [ [微博](http://www.weibo.com/5220650532/BsztgACau) ] + +2014-10-21 CUHK-SEEM=香港中文大学系统工程与工程管理学系 http://t.cn/zlzfIjQ 系里的教授列表http://t.cn/R7t5DMa 与博文提到的领域接近的有林伟教授的 Text Mining Group http://t.cn/zQvzXhZ [ [微博](http://www.weibo.com/5220650532/BszHcDnr2) ] + +> 2014-10-21 @李菁求能毕业: 有木有人感兴趣来CUHK-SEEM做研究助理、工程师或者博士后,需要有计算机或者数学背景,有NLP、Data Mining、Machine learning、Social Computing相关经验优先~薪水非常可观~感兴趣的话可以发送邮件到wise.cuhk@gmail.com 我们会安排一个小的interview,具体事宜可以到时相商~求扩散求转发~~~ [ [微博](http://www.weibo.com/2249908040/Bszo1f8Qv) ] + +2014-10-21 刚才帮人找数据挖到一个好玩的, 搞LBS, GPS, 数据挖掘的快来围观。 http://t.cn/R7tGZFJ Github,CSV表格,明尼苏达警察局的800k车牌记录。已做过隐私保护处理, 每条记录包括: License Plate ID Latitude Longitude Time collected Reader [ [微博](http://www.weibo.com/5220650532/BsztgACau) ] + +2014-10-21 找到一个相关问答 http://t.cn/R7t4LTm [ [微博](http://www.weibo.com/5220650532/BszjRAXR8) ] + +> 2014-10-18 @丕子: 帮求一个车牌数据集 [ [微博](http://www.weibo.com/1665335994/Bs5HRcYyz) ] + +2014-10-21 帮转,有没有人知道线索呢? 进展整理在issue 293 http://t.cn/R7tU2dw [ [微博](http://www.weibo.com/5220650532/BszeWmrdL) ] + +> 2014-10-18 @丕子: 帮求一个车牌数据集 [ [微博](http://www.weibo.com/1665335994/Bs5HRcYyz) ] + +2014-10-21 有朋友感觉比较长,没法很快看完;另一方面,有没有漏掉的好东西呢? [ [微博](http://www.weibo.com/5220650532/BsyN3oPWs) ] + +> 2014-10-21 @好东西传送门: 刚刚发出了Python日报的第一期测试(也见长微博)。在线版:http://t.cn/R75uDpD 订阅办法见py.memect.com http://t.cn/R7UjD75 也可以给 hao@memect.com 发封邮件,标题是 "订阅Python"。Python日报没有长短版之分,每天大约会有10-20条。欢迎大家提建议 [ [微博](http://www.weibo.com/5220650532/BsxAAkvEv) ] + +2014-10-21 刚刚发出了Python日报的第一期测试(也见长微博)。在线版:http://t.cn/R75uDpD 订阅办法见py.memect.com http://t.cn/R7UjD75 也可以给 hao@memect.com 发封邮件,标题是 "订阅Python"。Python日报没有长短版之分,每天大约会有10-20条。欢迎大家提建议 [ [微博](http://www.weibo.com/5220650532/BsxAAkvEv) ] + +2014-10-21 还有,万维网联盟 (World Wide Web Consortium,W3C), 于 1994年10月在麻省理工学院(MIT)。它联合工业界制定了一大堆开放性的全球规范(Web码农的简历上的常见关键词), 例如 URI, HTML,CSS,XML,DOM, XQuery, WSDL, SVG, PNG, RDF, SPARQL ... [ [微博](http://www.weibo.com/5220650532/Bsxr4wksm) ] + +> 2014-10-21 @好东西传送门: W3C 20周年纪念大会 “万维网的未来” (The Future of the Web) http://t.cn/R75Euba 将于本月29日(当地时间下午3点至6点)在硅谷举行, 门票$150 (机票自负;-), 有在线直播。压轴戏是万维网之父Tim Berners-Lee于5:40–6:00的总结陈词, 也期待MIT media lab的 Alex 'Sandy' Pentland 教授的报告 [ [微博](http://www.weibo.com/5220650532/BsxeWdCjm) ] + +2014-10-21 W3C 20周年纪念大会 “万维网的未来” (The Future of the Web) http://t.cn/R75Euba 将于本月29日(当地时间下午3点至6点)在硅谷举行, 门票$150 (机票自负;-), 有在线直播。压轴戏是万维网之父Tim Berners-Lee于5:40–6:00的总结陈词, 也期待MIT media lab的 Alex 'Sandy' Pentland 教授的报告 [ [微博](http://www.weibo.com/5220650532/BsxeWdCjm) ] + +2014-10-21 最全的计算机科学会议的顶级会议最佳论文(Best Paper Award)列表,详列1996年以来获奖论文和下载链接!包括人工智能(AAAI CIKM KDD ICML IJCAI) 自然语言处理(ACL) 人机交互(CHI) 软件工程(FSE ICSE) 数据库(SIGMOD VLDB) 网络(WWW)等领域29个会议http://t.cn/R75EOUC 整理者是布朗大学的Jeff Huang [ [微博](http://www.weibo.com/5220650532/BsxdjsNYU) ] + +2014-10-21 感谢 @王威廉 @研究者July @干二微博 @网路冷眼 长版里继续有更多全国计算语言学会议(CCL)的讨论,值得围观 http://t.cn/R758sQj [ [微博](http://www.weibo.com/5220650532/Bsx0DrChj) ] + +> 2014-10-21 @好东西传送门: 机器学习头条 2014-10-20 http://t.cn/R758sQl 1)微电影Behind the Mic科普语音识别的历史 2)邹博之凸优化PPT 3)IBM开放Watson的API 4)CVPR2014视频分割的教程 5)Bloom filters(布隆过滤器)简介 加长版50条 http://t.cn/R758sQj [ [微博](http://www.weibo.com/5220650532/BswZ6hHwr) ] + +2014-10-21 机器学习头条 2014-10-20 http://t.cn/R758sQl 1)微电影Behind the Mic科普语音识别的历史 2)邹博之凸优化PPT 3)IBM开放Watson的API 4)CVPR2014视频分割的教程 5)Bloom filters(布隆过滤器)简介 加长版50条 http://t.cn/R758sQj [ [微博](http://www.weibo.com/5220650532/BswZ6hHwr) ] + +2014-10-21 #计算机视觉# 图一、 Flickr视觉团队官网上有一个很酷的在线演示 http://t.cn/R75H5KT 1秒钟能判断选定的图中 “有鸟吗?”、“在公园吗?” 图二、技术路线用深度学习在Hadoop和Storm平台上识别图片中的事物 http://t.cn/R75lK3J 图三、一张漫画展示研究动机; 相关论文 http://t.cn/R75H5KY [ [微博](http://www.weibo.com/5220650532/BswuGt55g) ] + +2014-10-21 Jupyter是一个从IPython衍生出来的交互式计算平台,改名的原因是IPython已经不仅支持Python计算,也支持Julia, R, Ruby等。项目主页和Scipy14上的演讲 http://t.cn/R7hRare PPT http://t.cn/R75YxA3 Github http://t.cn/R75YxAu [ [微博](http://www.weibo.com/5220650532/Bsw6LoUwz) ] + +2014-10-21 微软印度研究院的R2 Probabilistic Programming Tool项目 http://t.cn/R75WD0C 最近核心文章 R2: An Efficient MCMC Sampler for Probabilistic Programs 发表于AAAI'14 http://t.cn/R75jJId 平台代码库(C#)下载, 基于.NET Framework 4.5. 相关项目是剑桥组的 infer.net http://t.cn/SvEGTl [ [微博](http://www.weibo.com/5220650532/BsvUiFWLf) ] + +2014-10-20 与有荣焉 //@陆浑戎: 多谢推荐,都是爱发资源的盆友吧 [ [微博](http://www.weibo.com/5220650532/Bsseo0pII) ] + +> 2014-10-20 @传媒老跟班: 推荐几个账号:@陆浑戎 @设定控 @万事风过耳 @殆知阁 @好东西传送门 @次家神受 @电影贩 @蓝影屋 @一只傲骄 @电影的力量 至于原因,大家点开这些账号就知道了。 [ [微博](http://www.weibo.com/5198011111/BsrUmlJBD) ] + +2014-10-20 有人反映有墙.不知这两个能不能访问 pdf http://t.cn/R7qQcbc 代码 http://t.cn/R7qQcbf //@好东西传送门: Gaussian Mixture Models Tutorial and MATLAB Code [ [微博](http://www.weibo.com/5220650532/Bsq6ceu3K) ] + +> 2014-10-20 @赶路人林文: @好东西传送门 一篇关于GMM的文章,讲的很清晰,内有Matlab代码示范以及相关例子的代码。http://t.cn/R7q9dDT [ [微博](http://www.weibo.com/2351012892/BspbXoFZZ) ] + +2014-10-20 Gaussian Mixture Models Tutorial and MATLAB Code [ [微博](http://www.weibo.com/5220650532/BspJzex7T) ] + +> 2014-10-20 @赶路人林文: @好东西传送门 一篇关于GMM的文章,讲的很清晰,内有Matlab代码示范以及相关例子的代码。http://t.cn/R7q9dDT [ [微博](http://www.weibo.com/2351012892/BspbXoFZZ) ] + +2014-10-20 感谢 @网路冷眼 @慕知网 @西瓜大丸子汤 @龙星镖局 @CCL-2014 今天还有非常多的好内容在长版的"温故知新"中,主要是昨天CCL2014分享出来的各种干货和精彩的讨论:周志华教授和李明院士的两个特邀报告,知识图谱研讨会的PPT http://t.cn/R7qMPcd [ [微博](http://www.weibo.com/5220650532/BsojtjheH) ] + +> 2014-10-20 @好东西传送门: 机器学习头条 2014-10-19 http://t.cn/R7qMPcr 1)Datumbox开源它们自己的机器学习框架 2)@神经元NL 的Learning From Data学习笔记 3)Boosting和香农信道编码定理 4)Bengio组(蒙特利尔大学LISA组)深度学习教程 5)知识图谱:大数据语义链接的基石-李涓子 加长版39条 http://t.cn/R7qMPcd [ [微博](http://www.weibo.com/5220650532/BsoifEU3e) ] + +2014-10-20 机器学习头条 2014-10-19 http://t.cn/R7qMPcr 1)Datumbox开源它们自己的机器学习框架 2)@神经元NL 的Learning From Data学习笔记 3)Boosting和香农信道编码定理 4)Bengio组(蒙特利尔大学LISA组)深度学习教程 5)知识图谱:大数据语义链接的基石-李涓子 加长版39条 http://t.cn/R7qMPcd [ [微博](http://www.weibo.com/5220650532/BsoifEU3e) ] + +2014-10-20 非常感谢!对大家有用让我们很开心 [ [微博](http://www.weibo.com/5220650532/BsnbJoEON) ] + +> 2014-10-20 @VikingMew: 給@好东西传送门 捐了20塊錢。在意識到可以節省我多少刷微博的時間之後。 [ [微博](http://www.weibo.com/1963340133/Bsn36xsfw) ] + +2014-10-20 @廖雪峰 的Python教程,"这是小白的Python新手教程",以前推荐过,再推荐一次 [ [微博](http://www.weibo.com/5220650532/Bsmw5mlid) ] + +> 2014-10-19 @KissDev: 机器学习的书籍为何大都爱使用Python语言 ? 首先是因为python简单易用,更主要的原因是第三方模块/库太丰富了,信手拈来,这一点目前 php/go/nodejs还比不上 推荐这个教程,大概一个小时就能学会py: http://t.cn/zQXcs9S [ [微博](http://www.weibo.com/1699016425/BskpXhgUT) ] + +2014-10-20 Michael S. Brown是新加坡国立大学的教授 http://t.cn/heVofJ 他专门研究消费者电子产品中的计算机视觉问题,如相机, Xbox,投影仪等.去年的ICIP上他还做了个类似的教程From RAW to sRGB and Back: Modeling the Onboard Camera Processing Pipeline http://t.cn/R7qLUXL [ [微博](http://www.weibo.com/5220650532/BslMx6WKX) ] + +> 2014-10-19 @cvnote计算机视觉笔记: 拍照时相机对图像进行了那些处理?| ECCV'14 Tutorial《Understanding the In-Camera Image Processing Pipeline for Computer Vision》,详细介绍了相机算法中颜色变换算法的细节,可以作为了解颜色空间理论和应用的参考,搜搜资料啥的。http://t.cn/Rhc4ydF [ [微博](http://www.weibo.com/3812841100/BsjsMpNC5) ] + +2014-10-19 还有, http://t.cn/R7qPSnI Twitter Does Not Actually Predict Box Office Sales [STUDY] 提到一篇论文, 研究了Twitter和IMDB等影评网站的预测有效性 http://t.cn/zjYAeDY Why Watching Movie Tweets Won't Tell the Whole Story? //@phunter [ [微博](http://www.weibo.com/5220650532/BskG1mNF9) ] + +> 2014-10-19 @冷姿君: #冷知#发现一个网站,叫做The Internet Movie Script Database(IMSDB),上面有大量好莱坞经典电影的剧本,感兴趣的同学不要错过哦。[阴险] [ [微博](http://www.weibo.com/3888073849/BsgFBrDcR) ] + +2014-10-19 不传paper了,传个有趣的字体 [ [微博](http://www.weibo.com/5220650532/BsiJc4VLe) ] + +> 2014-10-19 @alim0x: 添加ubuntu对emoji表情的显示支持 sudo apt-get install ttf-ancient-fonts [ [微博](http://www.weibo.com/5139583946/BsiEP4Jvh) ] + +2014-10-19 IMSDB 链接直达http://t.cn/Gy8xd 搭售我们以前推过的电影评价数据MovieTweetings http://t.cn/R7GX32X 和电影海报数据库MoviePosterDB http://t.cn/R7GX326 //@phunter_lau: NLP素材,比如从剧本预测卖座与否 [ [微博](http://www.weibo.com/5220650532/BshsSg45e) ] + +> 2014-10-19 @冷姿君: #冷知#发现一个网站,叫做The Internet Movie Script Database(IMSDB),上面有大量好莱坞经典电影的剧本,感兴趣的同学不要错过哦。[阴险] [ [微博](http://www.weibo.com/3888073849/BsgFBrDcR) ] + +2014-10-19 //@velvel2: 1)Margin本身旨在降低分类器的方差(对比感知机)。2)而Gao-Zhou的工作指出Margin自身的方差也要关注,可谓是方差之方差。3)除了margin理论和统计视角,没有别的解释了?//@孙茂松: 现场报告时很多精彩之处,PPT还没有完全反映出来。那是到现场听报告者的额外bonus。 [ [微博](http://www.weibo.com/5220650532/Bsgnpil9R) ] + +> 2014-10-18 @孙茂松: 南京大学周志华教授在CCL上做大会特邀报告“Boosting 25 Years”。这是我近年来听到的最精彩的学术报告之一。400多位与会代表普遍反映报告内容深入浅出,令人耳目一新,收获很大。 @南大周志华 [ [微博](http://www.weibo.com/1970879995/BsbfNlrTe) ] + +2014-10-19 清华大学李涓子教授所在的知识工程研究室,是国内重要的语义网和知识工程研究小组之一.他们很早就开始了知识图谱相关研究.这个报告里李涓子从语义网延革的角度剖析了知识图谱的来龙去脉 @唐杰THU [ [微博](http://www.weibo.com/5220650532/Bsf9x2FIM) ] + +> 2014-10-17 @CCL-2014: 大量干货来袭(知识图谱研讨会 PPT), 知识图谱:大数据语义链接的基石-李涓子 http://t.cn/R7U4t3V [ [微博](http://www.weibo.com/5334438898/BrXVwukjE) ] + +2014-10-19 @讯飞胡国平 (@科大讯飞 ) 分享了在音乐领域和客服领域的知识图谱应用 [ [微博](http://www.weibo.com/5220650532/Bsf7Ibsmm) ] + +> 2014-10-17 @CCL-2014: 知识图谱研讨会 PPT:从应用的角度看知识图谱的价值和挑战-胡国平 http://t.cn/R7U4XAM [ [微博](http://www.weibo.com/5334438898/BrXW83Fax) ] + +2014-10-19 @沈李斌NLP 在 @出门问问 从事自然语言处理.他以前在BBN,Akamai, IBM等公司从事研究工作,在机器翻译与句法分析等领域有很多贡献 [ [微博](http://www.weibo.com/5220650532/Bsf6yEAjv) ] + +> 2014-10-17 @CCL-2014: 知识图谱研讨会 PPT: 问答系统中的知识图谱-沈李斌 http://t.cn/R7U49Vt [ [微博](http://www.weibo.com/5334438898/BrXWudI63) ] + +2014-10-19 刚刚推荐到头条 http://t.cn/R7bDGPA [ [微博](http://www.weibo.com/5220650532/Bsf1YCOLC) ] + +> 2014-10-18 @CCL-2014: 周志华教授特邀报告PPT: BOOSTING 25年 http://t.cn/R7bMKaA [ [微博](http://www.weibo.com/5334438898/Bsa7pdONv) ] + +2014-10-19 感谢@南大周志华 @孙茂松 @丕子 @bitslife @cswhjiang . 这几天重要活动是第十三届全国计算语言学会议CCL2014在华中师范大学召开,加长版里有更多汇报http://t.cn/R7bDGPA .欢迎参与会议的同仁多在微博上分享,我们会及时总结在日报里 [ [微博](http://www.weibo.com/5220650532/BseYMo69t) ] + +> 2014-10-19 @好东西传送门: 机器学习头条2014-10-18 http://t.cn/R7bDPUz 1)周志华在CCL大会做特邀报告Boosting 25 Years 2)EMNLP上两篇关于股票趋势的应用论文 3)DeepLearning University更新了162篇新文章 4)UCLA 统计软件学习资源网站 5)Vowpal Wabbit,Liblinear/SBM和StreamSVM性能比较 加长版44条 http://t.cn/R7bDPU7 [ [微博](http://www.weibo.com/5220650532/BseXnu3oZ) ] + +2014-10-19 机器学习头条2014-10-18 http://t.cn/R7bDPUz 1)周志华在CCL大会做特邀报告Boosting 25 Years 2)EMNLP上两篇关于股票趋势的应用论文 3)DeepLearning University更新了162篇新文章 4)UCLA 统计软件学习资源网站 5)Vowpal Wabbit,Liblinear/SBM和StreamSVM性能比较 加长版44条 http://t.cn/R7bDPU7 [ [微博](http://www.weibo.com/5220650532/BseXnu3oZ) ] + +2014-10-19 Python数据分析基础教程:Numpy学习指南 http://t.cn/zRCEjvM 英文原版NumPy Beginner's Guide http://t.cn/R7brKdm [ [微博](http://www.weibo.com/5220650532/BseylzC1l) ] + +> 2014-10-19 @2gua: 平板上看电子书就是舒适满满…… [ [微博](http://www.weibo.com/1609119537/Bseq5xtf2) ] + +2014-10-19 //@尘绳聋-SYSU:这个其实是Theano搞DL的tutorial,教如何用Theano实现常用的几个模型。其实Release 1.0去年9月已经出来了,瞄了一眼这个,是Oct. 18 2014的,不过基本内容好像没改动。有空再仔细看看。 [ [微博](http://www.weibo.com/5220650532/BsbGDzRkr) ] + +> 2014-10-19 @龙星镖局: 这可能是今年关于深度学习最好的材料了,深度学习一线大牛Bengio组写的教程,算法深入显出,还有实现代码,一步步展开。读完之后也可以说是搞过深度学习了呢。[good]@好东西传送门 @蒋涛CSDN @developerWorks 『』http://t.cn/zT2M85O [ [微博](http://www.weibo.com/1830516311/BsbxblR33) ] + +2014-10-18 还有,补充一个3年多前在hackernews上对该文的讨论 http://t.cn/R7b0g98 不少人也讨论了其他语言(matlab, ruby, perl, java, R .... ) 的特点以及不转到python的原因 [ [微博](http://www.weibo.com/5220650532/Bsbn5vegJ) ] + +> 2014-10-18 @好东西传送门: Why Python Rocks for Research http://t.cn/R74Duja 这篇文章里Hoyt Koepke总结了Python作为研究语言的十大优势:通用性(相对Matlab/R),可读性,高层抽象与底层操作的平衡,作为胶水语言的互操作性,文档,层次模块系统,灵活的数据结构,丰富的包,测试框架. [ [微博](http://www.weibo.com/5220650532/Bs7Xo03FG) ] + +2014-10-18 Why Python Rocks for Research http://t.cn/R74Duja 这篇文章里Hoyt Koepke总结了Python作为研究语言的十大优势:通用性(相对Matlab/R),可读性,高层抽象与底层操作的平衡,作为胶水语言的互操作性,文档,层次模块系统,灵活的数据结构,丰富的包,测试框架. [ [微博](http://www.weibo.com/5220650532/Bs7Xo03FG) ] + +2014-10-18 http://t.cn/Rh9Tsnt Science杂志和中国航天员中心人因工程重点实验室推出67页的专刊Human Performance in Space,发表了31篇中国载人航天的研究成果,如太空生理,太空中的认知行为和人机交互HCI,人体建模与绩效评估等.特别是其中HCI和认知部分对计算机科学研究也很有启发.这条新闻你想at谁? [ [微博](http://www.weibo.com/5220650532/Bs6G9rx1a) ] + +2014-10-18 Li Ming是经典著作An Introduction to Kolmogorov Complexity and Its Applications的作者.他最近对Information Distance的研究对自然语言处理,问答系统都提供了新颖视角 http://t.cn/R740ao2 [ [微博](http://www.weibo.com/5220650532/Bs6hjmVNW) ] + +> 2014-10-13 @孙茂松: CCL特邀报告:加拿大皇家学会院士李明“Approximating Semantics”,微软亚洲研究院首席研究员Junichi Tsujii“Linking Text with Data & Knowledge Bases”,长江学者周晓林“Processing Construction-based Pragmatic Constraints during Sentence Comprehension”和长江学者周志华“Boosting 25年” [ [微博](http://www.weibo.com/1970879995/BroeAdCkw) ] + +2014-10-18 非常棒!//@bitslife: 刚刚更新了162篇新文章 http://t.cn/R74K9sg [ [微博](http://www.weibo.com/5220650532/Bs5Zuv45d) ] + +> 2014-10-18 @bitslife: 看到下面一个页面,深感深度学习(Deep Learning)的应用太广了,从硬件、图像到健康、生物、大数据、生物信息再到量子计算等,Amund Tveit等维护了一个DeepLearning.University小项目:收集从2014年开始深度学习文献,相信可以作为深度学习的起点。http://t.cn/RhoE0gh Github:http://t.cn/R74KS5j [ [微博](http://www.weibo.com/1895047203/Bs5QTqlLI) ] + +2014-10-18 国内也有很好的论坛, 例如人大经济论坛 http://t.cn/hrPJFc 新界面大约是2013五六月推出的 http://t.cn/R74SKcd //@司马左右: 真是越做越漂亮,后悔没有把之前的样子截图。国内为什么没有类似的网站呢?反而是一些统计软件使用基础的商业培训和一些要什么金币的资源网站大行其道。//@沈浩老师:保留 [ [微博](http://www.weibo.com/5220650532/Bs5FsfSiy) ] + +> 2014-10-18 @好东西传送门: 推荐一个统计软件学习资源网站(UCLA统计咨询小组维护) http://t.cn/R74xS4x 覆盖众多统计软件: R, SAS, SPSS, STATA 资料合集 http://t.cn/R74xS4J 两个速查表 1. 常见数据分析方法分别推荐代码例子 http://t.cn/R74xS46 2. 按变量的数量,性质及测试方法分别推荐代码例子 http://t.cn/R74xS4X [ [微博](http://www.weibo.com/5220650532/Bs4XR5nkJ) ] + +2014-10-18 回复@phunter_lau: 我们就是松鼠银行。小松鼠们不看没关系,在我们这里永远保存的。 //@phunter_lau:似乎是松鼠症总结,肯定很多只转不看留着过冬结果来年就忘记了 [ [微博](http://www.weibo.com/5220650532/Bs5gOwHXH) ] + +> 2014-10-18 @好东西传送门: 好东西周报刚刚发出 http://t.cn/R74iqHY 如果过去一周有错过的好东西,看这个周报就好了 [呵呵] [ [微博](http://www.weibo.com/5220650532/Bs5cHeQqW) ] + +2014-10-18 //@一刹春: 这篇报告可以放在更大的背景下来看——结构主义者与实验主义者之争,例如 http://t.cn/zQtdejz Pearl曾经很不客气地说:因果推断的计量模型受到了两股势力的绑架,一个是回归主义者,另一个是准实验主义者,例如Angrist and Pischke。顺便说,Pearl获得了2011年的图灵奖。 [ [微博](http://www.weibo.com/5220650532/Bs5eUmois) ] + +> 2014-04-22 @一刹春: Judea Pearl写过一篇挺有意思的报告,比较了六本流行的本科计量教材,看它们对结构方程中因果性概念的阐述是否到位。根据他的吹毛求疵,比较接近理想标准的是Stock & Watson和Wooldridge这两本——似乎与市场的反响一致……WP出来有两年了,没想到发在一个奇怪的杂志上:http://t.cn/8sToYJA [ [微博](http://www.weibo.com/2238838664/B0UkOdFMr) ] + +2014-10-18 好东西周报刚刚发出 http://t.cn/R74iqHY 如果过去一周有错过的好东西,看这个周报就好了 [呵呵] [ [微博](http://www.weibo.com/5220650532/Bs5cHeQqW) ] + +2014-10-18 还有,这个网站维护了一个数据集列表 http://t.cn/R74J1vT 索引了一大堆用于统计分析数据集,覆盖社会科学,公众健康,人口普查,国际政治,地理信息等领域 大家一起来挖这个网站上的好东西吧! [ [微博](http://www.weibo.com/5220650532/Bs59obmD6) ] + +> 2014-10-18 @好东西传送门: 推荐一个统计软件学习资源网站(UCLA统计咨询小组维护) http://t.cn/R74xS4x 覆盖众多统计软件: R, SAS, SPSS, STATA 资料合集 http://t.cn/R74xS4J 两个速查表 1. 常见数据分析方法分别推荐代码例子 http://t.cn/R74xS46 2. 按变量的数量,性质及测试方法分别推荐代码例子 http://t.cn/R74xS4X [ [微博](http://www.weibo.com/5220650532/Bs4XR5nkJ) ] + +2014-10-18 推荐一个统计软件学习资源网站(UCLA统计咨询小组维护) http://t.cn/R74xS4x 覆盖众多统计软件: R, SAS, SPSS, STATA 资料合集 http://t.cn/R74xS4J 两个速查表 1. 常见数据分析方法分别推荐代码例子 http://t.cn/R74xS46 2. 按变量的数量,性质及测试方法分别推荐代码例子 http://t.cn/R74xS4X [ [微博](http://www.weibo.com/5220650532/Bs4XR5nkJ) ] + +2014-10-18 在加长版里,我们还看到几家相关领域的创业公司的新闻:@FacePlusPlus (人脸识别) @格灵深瞳 (视觉) Nara(推荐餐馆) Idibon(舆情追踪) 机器学习现在也是投资与创业热点 [ [微博](http://www.weibo.com/5220650532/Bs4FPvH0r) ] + +> 2014-10-18 @好东西传送门: 机器学习头条 2014-10-17 http://t.cn/R74I6IW 1)Douglas Engelbart的书Boosting Our Collective IQ 2)34种免费的数据挖掘软件 3)RecSys2014完整报告视频 4)Hadoop上的轻量级语言Guinea Pig 5)面试资料:Mitbbs数据科学版主晨钟暮鼓推荐的三本书 加长版52条 http://t.cn/R74I6Il [ [微博](http://www.weibo.com/5220650532/Bs4DIlwed) ] + +2014-10-18 今天的头条来自 @西瓜大丸子汤 @赵家平USC @AixinSG @王威廉 [ [微博](http://www.weibo.com/5220650532/Bs4FLnwdQ) ] + +> 2014-10-18 @好东西传送门: 机器学习头条 2014-10-17 http://t.cn/R74I6IW 1)Douglas Engelbart的书Boosting Our Collective IQ 2)34种免费的数据挖掘软件 3)RecSys2014完整报告视频 4)Hadoop上的轻量级语言Guinea Pig 5)面试资料:Mitbbs数据科学版主晨钟暮鼓推荐的三本书 加长版52条 http://t.cn/R74I6Il [ [微博](http://www.weibo.com/5220650532/Bs4DIlwed) ] + +2014-10-18 机器学习头条 2014-10-17 http://t.cn/R74I6IW 1)Douglas Engelbart的书Boosting Our Collective IQ 2)34种免费的数据挖掘软件 3)RecSys2014完整报告视频 4)Hadoop上的轻量级语言Guinea Pig 5)面试资料:Mitbbs数据科学版主晨钟暮鼓推荐的三本书 加长版52条 http://t.cn/R74I6Il [ [微博](http://www.weibo.com/5220650532/Bs4DIlwed) ] + +2014-10-18 http://t.cn/8sQnHYm “Better predictions. Faster.” R和Python都支持,看起来很有趣 //@ofsky: datarobot有木有,Jeremy你又要高兴了 [ [微博](http://www.weibo.com/5220650532/Bs41xbM6q) ] + +> 2014-10-18 @医学统计分析精粹: 除了Scipy和Numpy,Python通往数据科学还有一个极为强大的接口,Pandas。本网页整理了Pandas入门的几个经典资源,隆重推介。http://t.cn/R74qqAO @西瓜大丸子汤 @医学统计分析精粹 [ [微博](http://www.weibo.com/1874048763/Bs3cupl8c) ] + +2014-10-18 问: @战术核显英伟达 关于stata有什么好的书籍? 答: 资源整理 http://t.cn/R74tSJA 推荐人大经济论坛 “stata专版” 。很喜欢 hopenothing 2011年写的书单和建议 http://t.cn/R74tSJw : "要应用它,前提是要懂计量理论", "先从中文基本书籍入门,简单操作上手之后直接看英文", "不要被方法统治了思想" [ [微博](http://www.weibo.com/5220650532/Bs3IIxJTH) ] + +2014-10-18 pandas最早是从金融数据处理开始的,现在已经演变成数据科学家必备了,不可不知 [ [微博](http://www.weibo.com/5220650532/Bs3gYdRjy) ] + +> 2014-10-18 @医学统计分析精粹: 除了Scipy和Numpy,Python通往数据科学还有一个极为强大的接口,Pandas。本网页整理了Pandas入门的几个经典资源,隆重推介。http://t.cn/R74qqAO @西瓜大丸子汤 @医学统计分析精粹 [ [微博](http://www.weibo.com/1874048763/Bs3cupl8c) ] + +2014-10-17 @ShangguanRPI @朝花夕拾录 @陈涛sean @黄亮-算法时代 @老齐Py @StephanieYR @左耳朵耗子 @郑昀 @张俊林say @算文解字 @易度-潘俊勇 特别问问你们,有没有更多的python牛人应该关注? [ [微博](http://www.weibo.com/5220650532/Bs0jmD16M) ] + +> 2014-10-17 @好东西传送门: 现在问题来了,微博上Python技术谁家最强?欢迎大家推荐Python牛人们 [ [微博](http://www.weibo.com/5220650532/Bs0b07bUZ) ] + +2014-10-17 现在问题来了,微博上Python技术谁家最强?欢迎大家推荐Python牛人们 [ [微博](http://www.weibo.com/5220650532/Bs0b07bUZ) ] + +2014-10-17 Python是人类的救星 //@phunter_lau: Pig的救星,Pig这玩意语法太反人类了 [ [微博](http://www.weibo.com/5220650532/BrZuejO1L) ] + +> 2014-10-17 @王威廉: Pig是管理Hadoop任务的一个高级程序语言,在Amazon的Elastic MapReduce平台上也有支持。上学期我们大数据机器学习课程介绍了Pig,不过Pig的语法有点诡异,学生普遍反映不好调试。针对此问题,William Cohen发明了一个叫Guinea Pig(荷兰猪)的轻量级语言,基于Python,非常有意思:http://t.cn/R7yRpKp [ [微博](http://www.weibo.com/1657470871/BrW1Ckjrd) ] + +2014-10-17 //@西瓜大丸子汤: Doug是一位思想家,更是一位实践者,他发明了鼠标,超文本,计算机联网,最早的图形用户界面,远程电视会议,远程实时合作等等...见The Mother of All Demos http://t.cn/zQ7gpBt 他可以说是Web之父之父,TBL的很多思想是从他那来的, BTW,也是图灵奖得主. [ [微博](http://www.weibo.com/5220650532/BrXuc9Wcq) ] + +> 2014-10-17 @西瓜大丸子汤: 向大家推荐Douglas Engelbart的书,最短的Boosting Our Collective IQ http://t.cn/R7UZhIU 只有三十多页,但我觉得比<失控>好十倍.另外两本<Bootstrapping><The Engelbart Hypothesis>不是他写的(他才没空写),不过都是对他的采访,也比较好.Doug对人类的影响极为深远,虽然大多数人不知道 [ [微博](http://www.weibo.com/1932835417/BrXs3b0Ry) ] + +2014-10-17 推荐一篇ACM Computing Surveys 2010年综述,讲关于时间的数理模型 http://t.cn/R7yFUYT 1. 时间模型的考量维度,例如 离散/连续,顺序/分支,并发/组合,... 2. 数理模型发展史, 3. 常见时间模型分类, 例如 Petri网, 时间逻辑(Temporal Logic), 进程代数(process calculi) ... 抛砖引玉,欢迎指正 [ [微博](http://www.weibo.com/5220650532/BrX0g9W3D) ] + +2014-10-17 推荐系统必读.会议论文集.http://t.cn/RhFPLGl [ [微博](http://www.weibo.com/5220650532/BrWrN9bOy) ] + +> 2014-10-17 @AixinSG: RecSys 2014 完整报告视频, 包括每篇文章的报告 YouTube 链接 http://t.cn/R7y34x0 [ [微博](http://www.weibo.com/1025887594/BrWpTfiE9) ] + +2014-10-17 这两个东东当然好, Leetcode 前些时候才推过 http://t.cn/R7ymOb8 "crack the coding interview" 这个PDF版行吗 http://t.cn/R7ymObQ //@睡眼惺忪的小叶先森: 让大神@whiteath @_靖难_ 也推荐一下。我估计推荐leetcode和砸死代码面试 [ [微博](http://www.weibo.com/5220650532/BrWi747Jh) ] + +> 2014-10-17 @好东西传送门: 美帝码农面试资料 Mitbbs数据科学版主 晨钟暮鼓 推荐三本书:《101 Great Answers to the Toughest Interview Questions》 http://t.cn/R7yHCSP "behavior问题",《Recommender Systems》(Xiavier) http://t.cn/RhCcR9f ,《The Algorithm Design Manual》 http://t.cn/R7yHCSh "算法:graph,hash,DP" [ [微博](http://www.weibo.com/5220650532/BrVHvllVW) ] + +2014-10-17 补充一下: 要斗败烙印,还得提高情商。“The Algorithm Design Manual” 有很多人推荐过 年初是@velvel2 。而现在各公司都搞精准广告投放, Xavier Amatriain讲义自然对口, 可以先看KDD2014版(135页), 再看MLSS2014版(248页) , 所有资料都汇总到问答274了 http://t.cn/R7yEf6b 。 [ [微博](http://www.weibo.com/5220650532/BrW6cAzFI) ] + +> 2014-10-17 @好东西传送门: 美帝码农面试资料 Mitbbs数据科学版主 晨钟暮鼓 推荐三本书:《101 Great Answers to the Toughest Interview Questions》 http://t.cn/R7yHCSP "behavior问题",《Recommender Systems》(Xiavier) http://t.cn/RhCcR9f ,《The Algorithm Design Manual》 http://t.cn/R7yHCSh "算法:graph,hash,DP" [ [微博](http://www.weibo.com/5220650532/BrVHvllVW) ] + +2014-10-17 问: 关于进程代数研究的paper? 答: 资料汇总 http://t.cn/R7LN18n 进程代数process calculi用于为并发系统形式化建模,包括: π-calculus, ambient calculus, PEPA, fusion calculus, join-calculus。有本书 "Process algebra: equational theories of communicating processes" [ [微博](http://www.weibo.com/5220650532/BrW0E3a1f) ] + +2014-10-17 "Introduction To Algorithms" vs "The Algorithm Design Manual" 两本算法神作的进一步讨论: 前者是算法课的常客,概念清晰偏重理论(也是门主买过的为数不多的几本原价纸书), 而后者是编程实战利器(代码随用随抄),尤其适合准备白板面试。码农不妨看看stackoverflow的讨论 http://t.cn/R7yQ5a5 [ [微博](http://www.weibo.com/5220650532/BrVN33les) ] + +> 2014-10-17 @好东西传送门: 美帝码农面试资料 Mitbbs数据科学版主 晨钟暮鼓 推荐三本书:《101 Great Answers to the Toughest Interview Questions》 http://t.cn/R7yHCSP "behavior问题",《Recommender Systems》(Xiavier) http://t.cn/RhCcR9f ,《The Algorithm Design Manual》 http://t.cn/R7yHCSh "算法:graph,hash,DP" [ [微博](http://www.weibo.com/5220650532/BrVHvllVW) ] + +2014-10-17 美帝码农面试资料 Mitbbs数据科学版主 晨钟暮鼓 推荐三本书:《101 Great Answers to the Toughest Interview Questions》 http://t.cn/R7yHCSP "behavior问题",《Recommender Systems》(Xiavier) http://t.cn/RhCcR9f ,《The Algorithm Design Manual》 http://t.cn/R7yHCSh "算法:graph,hash,DP" [ [微博](http://www.weibo.com/5220650532/BrVHvllVW) ] + +2014-10-17 感谢@Arber @邱锡鹏 @CSDN_CODE @Jay_GraphLab 为我们分享了这些好东西.Fudan NLP和Graphlab都能不断推陈出新,产品越来越容易使用,无论是单机还是云,现在应用NLP越来越容易了. [ [微博](http://www.weibo.com/5220650532/BrUq2jBGW) ] + +> 2014-10-17 @好东西传送门: 机器学习头条 2014-10-16 http://t.cn/R7y09uG 1)Gerhard Weikum在VLDB'14的关于大数据分析的教程 2)垃圾邮件分类数据集 3)吴立德讲概率主题模型和数据科学基础 4)复旦大学推出基于云的FudanNLP 5)GraphLab Create正式发布,单机处理海量数据 加长版50条 http://t.cn/R7y09ub [ [微博](http://www.weibo.com/5220650532/BrUoMi7u7) ] + +2014-10-17 机器学习头条 2014-10-16 http://t.cn/R7y09uG 1)Gerhard Weikum在VLDB'14的关于大数据分析的教程 2)垃圾邮件分类数据集 3)吴立德讲概率主题模型和数据科学基础 4)复旦大学推出基于云的FudanNLP 5)GraphLab Create正式发布,单机处理海量数据 加长版50条 http://t.cn/R7y09ub [ [微博](http://www.weibo.com/5220650532/BrUoMi7u7) ] + +2014-10-17 RGB+Depth 深度感知计算机视觉 structure.io上有很酷的demo http://t.cn/z8rCSiR [ [微博](http://www.weibo.com/5220650532/BrU4XFuFB) ] + +> 2014-10-16 @cvnote计算机视觉笔记: CVPR'14 OpenCV 3.0 RGBD Tutorial | 由当年Kickstarter火爆的RGBD传感器 初创公司Occipital Sensor提供,今天扫了一眼Github还有源代码,使用的RGBD算法已经加入了OpenCV的contrib模块。http://t.cn/R7yyrMM [ [微博](http://www.weibo.com/3812841100/BrRxPhuYd) ] + +2014-10-17 Weikum是数据库,信息检索语义网领域的一位重要研究者,他在Max-Planc研究所。主页http://t.cn/R7yX6Je [ [微博](http://www.weibo.com/5220650532/BrSLYm4uR) ] + +> 2014-10-16 @Arber: Gerhard Weikum在VLDB'14的关于Big Data Anlytics的tutorial,非常好的总结了大数据知识库和语义这块的主要问题和技术体系。强烈建议做数据的人看看。他在下个月CIKM'14还有一个talk,估计类似。 http://t.cn/RhftLDi p.s. 看完也就知道一找的整体技术路线了~ [ [微博](http://www.weibo.com/1818327890/BrSyKkZvA) ] + +2014-10-16 http://t.cn/RPqUcVL graphlab create主页直达 [ [微博](http://www.weibo.com/5220650532/BrS1lyrW2) ] + +> 2014-10-16 @Jay_GraphLab: 经过一年多努力,GraphLab Create正式发布1.0:单机轻松处理海量图表/图(graph)/文本/图像(image)数据;机器学习模块包括推荐系统/社交网络/文本分析/最近邻搜索,还有前沿的BoostedTrees/DeepLearning/FactorizationMachine/LDA等模型;模型可以简单地被推送到云端,作为网站/App后台的智能预测服务 [ [微博](http://www.weibo.com/1863703874/BrOrBsidt) ] + +2014-10-16 转发微博 [ [微博](http://www.weibo.com/5220650532/BrPPE2d2z) ] + +> 2014-10-16 @睡眼惺忪的小叶先森: 自己做的一个Introduction to Redis,给几个需要的同学看过,反响还行 [嘻嘻] http://t.cn/R7LmBxF @好东西传送门 @whiteath @囧囧有神的小杜霉女 [ [微博](http://www.weibo.com/2765244861/BrPOVDWpU) ] + +2014-10-16 Anaconda是一个Python科学计算库的集合.与之前介绍过的Sage之重分析和数学不同,Anaconda重数据和效率,提供了诸多大数据分析工具,如Blaze(分布式数据分析), Bokeh(可视化), Numba(更快的Python代码编译) 最新的版本打包了195个科学计算包,极大方便 http://t.cn/zHsZMWW [ [微博](http://www.weibo.com/5220650532/BrPuj5NZn) ] + +2014-10-16 问:@执手共看云归醉晚汐 垃圾邮件分类有什么数据集么? 答:资料汇总 http://t.cn/R7L0GJZ 垃圾邮件数据集常见的有 UCI, enron, SpamAssassin, TREC。注意 Spam Archive dataset 有1997-2014的1个多G压缩过的垃圾邮件。尚未找到专门对垃圾邮件进一步标注分类的公开数据集 敬请指正 [ [微博](http://www.weibo.com/5220650532/BrPrACNtA) ] + +2014-10-16 找了一些 http://t.cn/R7L0GJZ 你看是你需要的吗? [ [微博](http://www.weibo.com/5220650532/BrP11gwAx) ] + +> 2014-10-09 @执手共看云归醉晚汐: 垃圾邮件分类有什么数据集么@好东西传送门 @西瓜大丸子汤 [ [微博](http://www.weibo.com/1687018055/BqMNcAfmh) ] + +2014-10-16 相关 2014-08-02 @理想主义de患者 问:有没有垃圾邮件检测的项目啊。答:比较有效的方法都是结合机器学习与人工知识的。最有名的开源项目是SpamAssassin,可以从很多语言调用如Python 。另有个开源项目Stopspam也值得关注。 http://t.cn/R7L0iI7 [ [微博](http://www.weibo.com/5220650532/BrOXC1Qkq) ] + +> 2014-10-09 @执手共看云归醉晚汐: 垃圾邮件分类有什么数据集么@好东西传送门 @西瓜大丸子汤 [ [微博](http://www.weibo.com/1687018055/BqMNcAfmh) ] + +2014-10-16 感谢 @Copper_PKU @MOOC学院 @规勒个划 @BigData大数据 提供或帮我们发现了这些好资源 [ [微博](http://www.weibo.com/5220650532/BrLpIjj3x) ] + +> 2014-10-16 @好东西传送门: 机器学习头条 2014-10-15 http://t.cn/R72BEMB 1)125页的免费电子书,Boyd的ADMM综述 2)机器学习入门资源不完全汇总 3)好课推荐:斯坦福大学《博弈论》 4)BCL发布一亿Flickr照片数据集的中国部分 5)Andrew Ng公开演讲深度学习:用大规模大脑实现机器学习 加长版50条 http://t.cn/R72BEMd [ [微博](http://www.weibo.com/5220650532/BrLoXAaeH) ] + +2014-10-16 机器学习头条 2014-10-15 http://t.cn/R72BEMB 1)125页的免费电子书,Boyd的ADMM综述 2)机器学习入门资源不完全汇总 3)好课推荐:斯坦福大学《博弈论》 4)BCL发布一亿Flickr照片数据集的中国部分 5)Andrew Ng公开演讲深度学习:用大规模大脑实现机器学习 加长版50条 http://t.cn/R72BEMd [ [微博](http://www.weibo.com/5220650532/BrLoXAaeH) ] + +2014-10-16 恭喜中国卫生政策与管理学会(海外)成立.我们的朋友里也有好多卫生经济学和统计的同仁 @陈茁博士_Adam @医学统计分析精粹 @美国中部大平原的胖胖 //@史律: 轉發微博 [ [微博](http://www.weibo.com/5220650532/BrLkYBqOZ) ] + +> 2014-10-15 @romanxu: 在@行走江湖张大水 的不懈努力下,@CHPAMS 终于在共和国国庆那天正式注册成功。祝贺大水当选第一任主席。CHPAMS从2008在波士顿的第一次酝酿到如今已六年,我有幸见证了它发展的每一个瞬间。风风雨雨,茁壮成长。有大家一片赤情,CHPAMS会越办越好。作为其首任理事,我也愿为大家服好务。www.chpams.org [ [微博](http://www.weibo.com/1651598281/BrESQzYjA) ] + +2014-10-16 125页的免费电子书,Boyd的ADMM综述 pdf直达http://t.cn/R721y3V [ [微博](http://www.weibo.com/5220650532/BrL3Ty2Dv) ] + +> 2014-10-15 @Copper_PKU: Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers http://t.cn/R72zKr9 有paper有survey 有code 简直.... [ [微博](http://www.weibo.com/1758509357/BrGu0wSnP) ] + +2014-10-16 //@刘挺: LTP是@哈工大SCIR 历时十余年研制的一套中文处理基础工具平台,开源且提供云服务,很多开发者在用。这次我们在京召开一个LTP用户的交流会,请大家提意见和建议。LTP的研制者@车万翔 等师生会介绍LTP的原理、功能和使用方法,也会有老用户介绍使用经验,欢迎大家一起来交流! [ [微博](http://www.weibo.com/5220650532/BrJlv1Oep) ] + +> 2014-10-15 @哈工大SCIR: 第一届语言技术平台用户大会(LTP-2014)将于2014年10月31日上午在京举行,届时将邀请LTP的技术团队介绍技术原理和应用、LTP用户介绍使用经验,还将组织针对LTP的研讨。本次研讨会自由报名,竭诚欢迎学术界与企业界的朋友参加。会议安排及报名方式请访问会议主页:http://t.cn/R7AgbAZ @刘挺 @车万翔 [ [微博](http://www.weibo.com/1819811883/BrFOdEolM) ] + +2014-10-15 谢了,已经更新。书前段时间推荐过,正打算改天补充一个书单;林老师的机器学习基石课加上了; 最后一门课已包括 //@tang_Kaka_back: 再加上李航博士的《统计学习方法》。如果觉得数学功底还过得去,还可以试试就是台大林轩田老师的“Machine Learning Foundation” or Caltech的“Learning from Data” [ [微博](http://www.weibo.com/5220650532/BrGwvpfOY) ] + +> 2014-10-15 @好东西传送门: 问: 本科生想学机器学习, 求推荐一个学习路线图 答: 整理了《机器学习入门资源不完全汇总》 http://t.cn/R7AkewK 推荐先看基本概念与几个路线图,参考小伙伴的进修攻略 (包括此前推的 学霸的学习笔记), 选修一门网上公开课(Tom Mitchell, Andrew Ng)系统地打好基础,理解算法实战要点。欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BrG32lkwC) ] + +2014-10-15 问: 本科生想学机器学习, 求推荐一个学习路线图 答: 整理了《机器学习入门资源不完全汇总》 http://t.cn/R7AkewK 推荐先看基本概念与几个路线图,参考小伙伴的进修攻略 (包括此前推的 学霸的学习笔记), 选修一门网上公开课(Tom Mitchell, Andrew Ng)系统地打好基础,理解算法实战要点。欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BrG32lkwC) ] + +2014-10-15 Yaha"哑哈"中文分词(作者余争) 优点:可以自定义分词方法,有正则表达式插件,人名前缀插件,地名后缀插件,新词学习功能.还有关键字提取,文本摘要,词语纠错功能,不仅是分词.Python的,使用非常简单 Github http://t.cn/R7AQyPt 在线演示 http://t.cn/R7AQyPc [ [微博](http://www.weibo.com/5220650532/BrF5hsF21) ] + +2014-10-15 规划控,GIS控,图片控,赶快来围观,200万张照片哦 [ [微博](http://www.weibo.com/5220650532/BrF0Pe9WF) ] + +> 2014-10-15 @规勒个划: BCL发布Yahoo! 提供一亿Flickr照片数据集的中国部分(下载+裁剪),下载猛戳:http://t.cn/R7ATWph @北京城市实验室BCL [ [微博](http://www.weibo.com/1012425625/BrEYPEY3x) ] + +2014-10-15 UIUC黄嘉斌(Jia-Bin Huang)的奇妙工作:图像补全.从图像里抹掉或切掉一部分,可以根据背景补上相近的建筑,物体纹理等.http://t.cn/R7AWFqg Matlab代码已经开源 http://t.cn/R7AWFqd [ [微博](http://www.weibo.com/5220650532/BrEKjBTde) ] + +2014-10-15 黄嘉斌用特殊的“主成分分析法”PCA和奇异值分解法(singular value decomposition)SVD做韩国小姐脸部特征的分析,验证了那个著名的观点“大众脸很吸引人,但最吸引人的却不是大众脸”. 英文原文http://t.cn/zTYkQB0 [ [微博](http://www.weibo.com/5220650532/BrEFncjHG) ] + +> 2013-05-07 @果壳网: 【“韩国小姐”的脸到底有多相似?】2013年“韩国小姐”选美大赛开始后,曝光的20位佳丽面容惊人的相似。那么,这些姑娘的脸到底有多么像呢?能否用科学的方法量化这种相似性?伊利诺伊大学香槟分校搞计算机视觉的博士生黄嘉斌写了篇文章,用科学的方法揭开了这个谜团:http://t.cn/zTYBfsN [ [微博](http://www.weibo.com/1850988623/zvBrGl1TL) ] + +2014-10-15 转发微博 [ [微博](http://www.weibo.com/5220650532/BrEcZzvnv) ] + +> 2014-10-15 @BigData大数据: 【Andrew Ng加盟百度后第一公开演讲】吴恩达加盟百度后第一公开演讲,演讲题目:Deep Learning: Machine Learning via Large-scale Brain http://t.cn/R7ASfYu 有兴趣的可以看看 @杨静Lillian @龙星镖局 @云泉微博 @好东西传送门 @李元超Osiris @异步步 [ [微博](http://www.weibo.com/2870219257/BrE8mAZWc) ] + +2014-10-15 感谢 @马超Terminal @李沐M @梁斌penny @cswhjiang @许扬逸Dijkstra 等讨论和推荐 parameter server那条还有一个@老师木 起的相关讨论 http://t.cn/R7ALYi5 可以一起看 [ [微博](http://www.weibo.com/5220650532/BrCBLFdk1) ] + +> 2014-10-15 @好东西传送门: 机器学习头条 2014-10-14 http://t.cn/R7ALbiR 1)spark和parameter server的讨论 2)Think系列免费电子书 3)@梁斌penny 的电商词库 4)Rob Tibshirani的15小时机器学习教程 5)用计算机视觉分析“韩国小姐”的脸到底有多相似 加长版49条 http://t.cn/R7ALbi8 [ [微博](http://www.weibo.com/5220650532/BrCykCJFk) ] + +2014-10-15 机器学习头条 2014-10-14 http://t.cn/R7ALbiR 1)spark和parameter server的讨论 2)Think系列免费电子书 3)@梁斌penny 的电商词库 4)Rob Tibshirani的15小时机器学习教程 5)用计算机视觉分析“韩国小姐”的脸到底有多相似 加长版49条 http://t.cn/R7ALbi8 [ [微博](http://www.weibo.com/5220650532/BrCykCJFk) ] + +2014-10-15 补充一下: 网易的公开课指Ng在斯坦福CS229的课程视频,有中文字幕 http://t.cn/arei5O 而Ng在Coursera 的课是简化版 http://t.cn/RPZBPZL //@好东西传送门: Ng机器学习课的网易公开课网址 http://t.cn/h5n6lh [ [微博](http://www.weibo.com/5220650532/BrCqD9lKD) ] + +> 2014-10-14 @cswhjiang: http://t.cn/Rh8103q In-depth introduction to machine learning in 15 hours of expert videos。Trevor Hastie 和 Rob Tibshirani 大神的课。适合初学者。 [ [微博](http://www.weibo.com/2358675560/BrsfHi0vv) ] + +2014-10-15 Ng机器学习课的网易公开课网址 http://t.cn/h5n6lh //@phunter_lau: 这不是这两位大爷的在线公开课么,这个基于统计角度的机器学习课倒是不太适合无基础的初学者也不是速成,学过Andrew Ng的机器学习课程想深入一些的可以看看 [ [微博](http://www.weibo.com/5220650532/BrChTb200) ] + +> 2014-10-14 @cswhjiang: http://t.cn/Rh8103q In-depth introduction to machine learning in 15 hours of expert videos。Trevor Hastie 和 Rob Tibshirani 大神的课。适合初学者。 [ [微博](http://www.weibo.com/2358675560/BrsfHi0vv) ] + +2014-10-15 //@phunter_lau: 这不是这两位大爷的在线公开课么,这个基于统计角度的机器学习课倒是不太适合无基础的初学者也不是速成,学过Andrew Ng的机器学习课程想深入一些的可以看看//@好东西传送门: 15小时学习机器学习.Tibshirani是经典Elements of Statistical Learning的作者 [ [微博](http://www.weibo.com/5220650532/BrCh3rZE9) ] + +> 2014-10-14 @cswhjiang: http://t.cn/Rh8103q In-depth introduction to machine learning in 15 hours of expert videos。Trevor Hastie 和 Rob Tibshirani 大神的课。适合初学者。 [ [微博](http://www.weibo.com/2358675560/BrsfHi0vv) ] + +2014-10-15 15小时学习机器学习.Tibshirani是经典Elements of Statistical Learning的作者.这个教程是基于他们的新书An Introduction to Statistical Learning with Applications in R (ISLR). [ [微博](http://www.weibo.com/5220650532/BrCekcOJU) ] + +> 2014-10-14 @cswhjiang: http://t.cn/Rh8103q In-depth introduction to machine learning in 15 hours of expert videos。Trevor Hastie 和 Rob Tibshirani 大神的课。适合初学者。 [ [微博](http://www.weibo.com/2358675560/BrsfHi0vv) ] + +2014-10-14 //@聪老师ZJU永远马屁精:这个讨论非常有意思。第一个人问的问题也是我一直以来的问题。ELM在learning领域太非主流了,发明人把它搞成了一个极小的圈子,供大家一起水文章。除了MSR的邓力,没听任何在learning界有所建树的牛人提过ELM。 [ [微博](http://www.weibo.com/5220650532/BrxgKiOYX) ] + +> 2014-10-14 @好东西传送门: 问: 有没有仔细介绍极限学习机ELM和S变换的文章,最好是中文的 答: 资料汇总 http://t.cn/R7wPJYa 网上社区 http://t.cn/R7wPJYS 有代码教程及年会信息。matlabsky 有两个中文资源列表。注意到reddit上学术争议 http://t.cn/R7wPJYK 猜测“ELM是 SVM with a random inflationary kernel" 敬请指点 [ [微博](http://www.weibo.com/5220650532/Brw09AHEV) ] + +2014-10-14 转发微博 [ [微博](http://www.weibo.com/5220650532/BrxdTBPJP) ] + +> 2014-10-14 @冯志伟文化博客: 回复@泛黄的鹿 对博文【关于斯坦福句法剖析器 -- 答网友】的评论:"Stanford Parser使用了SPSG(统计短语结构语法),没有考虑单词的特征,所以,不是词汇化的SPSG模型(Lixicalized SPSG)。 v 冯志伟"查看原文:http://t.cn/aoig2Z [ [微博](http://www.weibo.com/1926267847/Brxa5b0Pb) ] + +2014-10-14 不错的起步教程。传送门直达 http://t.cn/R7wfRwD [ [微博](http://www.weibo.com/5220650532/Brxdyl6Nn) ] + +> 2014-10-14 @cnodejs: Redis快速入门教程 http://t.cn/R7Z0WNO [ [微博](http://www.weibo.com/1958172255/BrxcaEez1) ] + +2014-10-14 自然语言处理的靠谱公司,帮转 //@李志飞AI:跪求Android,iOS以及其他工程师,请大家帮忙转发扩散。简历可直接发我邮箱zfli@mobvoi.com,优先处理! [ [微博](http://www.weibo.com/5220650532/BrxaXjcY5) ] + +> 2014-10-14 @出门问问: #出门问问招聘啦#几十年前,如果你说要改变世界,得到的答复很可能是“呵呵”;但今天,如果你说你要改变世界,没有人敢嘲笑你。让“改变世界”变得可信的,是一群叫做“工程师”的人。如果你也有同样的梦想,快快加入我们的队伍吧![来]http://t.cn/R7whlVj [ [微博](http://www.weibo.com/3411134394/BrwarAjEE) ] + +2014-10-14 问: 有没有仔细介绍极限学习机ELM和S变换的文章,最好是中文的 答: 资料汇总 http://t.cn/R7wPJYa 网上社区 http://t.cn/R7wPJYS 有代码教程及年会信息。matlabsky 有两个中文资源列表。注意到reddit上学术争议 http://t.cn/R7wPJYK 猜测“ELM是 SVM with a random inflationary kernel" 敬请指点 [ [微博](http://www.weibo.com/5220650532/Brw09AHEV) ] + +2014-10-14 是这本书吧 http://t.cn/R7ZFBQe 2012 年 @高哲遠_StonyBrook_CS 同学曾经尝试翻译了一些章节, http://t.cn/RvHjRLs //@MOJUN: 话说,就没人翻译那本经典《Pattern Recognition And Machine Learning》吗? [ [微博](http://www.weibo.com/5220650532/BrvQ47iwh) ] + +> 2014-10-14 @好东西传送门: [温故而知新] 免费电子书 Green tea press 上有 Think Python, Think Bayes, Think Complexity, Think Stats2 等一系列 Allen Downey 撰写的教材,下载链接 http://t.cn/hG9XvF Github有一些书的tex源码例子,相关资料请看合集 http://t.cn/R7ZmB4s @图灵社区 2011年曾推荐过 [ [微博](http://www.weibo.com/5220650532/Brv6gmKco) ] + +2014-10-14 期待梁总的分享链接 [ [微博](http://www.weibo.com/5220650532/BrvJbmyRW) ] + +> 2014-10-14 @梁斌penny: 最近有不少科研机构找我要电商词库,用于科学研究,我们曾经做过30万个细分的小类的电商词(合计8.6亿词汇),包括类号,词,和词频,如下图。 这样吧,一会我们在pennyjob中拿1万个小类(500万词)分享下,写论文肯定是够了。 [ [微博](http://www.weibo.com/1497035431/BruLAwTwB) ] + +2014-10-14 很多人问到怎么订阅<机器学习日报>.为方便大家,做了个订阅按钮在主页上,域名 ml.memect.com http://t.cn/R7ZepFz .或给 hao@memect.com 发封空信,标题是 " 订阅机器学习日报 " 即可.另外,过去几期长短版的链接都加到主页上了. [ [微博](http://www.weibo.com/5220650532/BrvCDmx41) ] + +2014-10-14 //@星空下的巫师: 去年ImageNet的第一名Zeiler&Fergus的论文有提到,今年VGG的论文Very Deep Convolutional Networks for Large-Scale Image Recognition的Part 5也有较详细的描述,可以去看看。 [ [微博](http://www.weibo.com/5220650532/Brvg8DUBh) ] + +> 2014-10-14 @姜文晖061: 有一个很弱的问题,ImageNet竞赛中,分类和定位是一个Task,可为什么大家的论文里为啥都只说分类,没说怎么用那个网络做定位。是因为太简单了,只有我不知道么?请指教[泪] @星空下的巫师 @ICT秦磊 @丕子 @欢乐的陈奇 @JOSHUA的时间轴 @孙炜晨 @木乱人先生 @好东西传送门 [ [微博](http://www.weibo.com/1254045914/BruIK9lEL) ] + +2014-10-14 [good] 期待!//@许扬逸Dijkstra: ThinkBayes中译版已经完成翻译,译者不才正是在下[黑线]。应该最近就会由人民邮电社出版。敬请期待! [ [微博](http://www.weibo.com/5220650532/Brv8Tcsrv) ] + +> 2014-10-14 @好东西传送门: [温故而知新] 免费电子书 Green tea press 上有 Think Python, Think Bayes, Think Complexity, Think Stats2 等一系列 Allen Downey 撰写的教材,下载链接 http://t.cn/hG9XvF Github有一些书的tex源码例子,相关资料请看合集 http://t.cn/R7ZmB4s @图灵社区 2011年曾推荐过 [ [微博](http://www.weibo.com/5220650532/Brv6gmKco) ] + +2014-10-14 [温故而知新] 免费电子书 Green tea press 上有 Think Python, Think Bayes, Think Complexity, Think Stats2 等一系列 Allen Downey 撰写的教材,下载链接 http://t.cn/hG9XvF Github有一些书的tex源码例子,相关资料请看合集 http://t.cn/R7ZmB4s @图灵社区 2011年曾推荐过 [ [微博](http://www.weibo.com/5220650532/Brv6gmKco) ] + +2014-10-14 感谢@火光摇曳Flickering @孙茂松 @机器学习讲座 @丕子 @任远AI 的推荐和精彩评论 [ [微博](http://www.weibo.com/5220650532/BrtOP7HJJ) ] + +> 2014-10-14 @好东西传送门: 机器学习头条 2014-10-13 http://t.cn/R7ZSYyw 1)转化率预估-2 逻辑回归技术 2)全国计算语言学学术会议10月18—19日在华中师大召开 3)A*搜索算法的可视化短教程 4)caffestudy(2)关于forward和backward-backward 5)natural language generation经典工作和方法 加长版46条 http://t.cn/R7ZSYy4 [ [微博](http://www.weibo.com/5220650532/BrtOalpeL) ] + +2014-10-14 机器学习头条 2014-10-13 http://t.cn/R7ZSYyw 1)转化率预估-2 逻辑回归技术 2)全国计算语言学学术会议10月18—19日在华中师大召开 3)A*搜索算法的可视化短教程 4)caffestudy(2)关于forward和backward-backward 5)natural language generation经典工作和方法 加长版46条 http://t.cn/R7ZSYy4 [ [微博](http://www.weibo.com/5220650532/BrtOalpeL) ] + +2014-10-14 回复@星轨1202110: ml.memect.com http://t.cn/R7ZiLYP 那里可以订阅 //@星轨1202110:新人 想知道 在哪里看机器学习 日报 [ [微博](http://www.weibo.com/5220650532/BrtmkE8Vx) ] + +> 2014-10-13 @好东西传送门: 机器学习日报做了20多期,有人喜欢短版,有人喜欢长版.目前邮箱只投放短版.咱来投个票,看如果改投长版的话(5条焦点摘要还会保留),大家还会喜欢吗? 短版例子 http://t.cn/R7zcNTQ 长版例子 http://t.cn/R7zVGyO 【你希望机器学习日报邮件发短版还是长版?】,地址 http://t.cn/R7zcJJm [ [微博](http://www.weibo.com/5220650532/BrmF4rriA) ] + +2014-10-14 回复@IT教师: 给 hao@memect.com 发封空信,标题 订阅机器学习日报 //@IT教师:怎么加入邮件列表? //@好东西传送门:52:20 长版领先.这个投票再保留一天,同时我们也在邮件列表里咨询大家意见了.如果需要切换,我们会先征求一些用户测试,看看长版的实际效果如何.谢谢已经投过票的朋友们! [ [微博](http://www.weibo.com/5220650532/BrsYPihzo) ] + +> 2014-10-13 @好东西传送门: 机器学习日报做了20多期,有人喜欢短版,有人喜欢长版.目前邮箱只投放短版.咱来投个票,看如果改投长版的话(5条焦点摘要还会保留),大家还会喜欢吗? 短版例子 http://t.cn/R7zcNTQ 长版例子 http://t.cn/R7zVGyO 【你希望机器学习日报邮件发短版还是长版?】,地址 http://t.cn/R7zcJJm [ [微博](http://www.weibo.com/5220650532/BrmF4rriA) ] + +2014-10-14 52:20 长版领先.这个投票再保留一天,同时我们也在邮件列表里咨询大家意见了.如果需要切换,我们会先征求一些用户测试,看看长版的实际效果如何.谢谢已经投过票的朋友们! [ [微博](http://www.weibo.com/5220650532/BrsViF8iK) ] + +> 2014-10-13 @好东西传送门: 机器学习日报做了20多期,有人喜欢短版,有人喜欢长版.目前邮箱只投放短版.咱来投个票,看如果改投长版的话(5条焦点摘要还会保留),大家还会喜欢吗? 短版例子 http://t.cn/R7zcNTQ 长版例子 http://t.cn/R7zVGyO 【你希望机器学习日报邮件发短版还是长版?】,地址 http://t.cn/R7zcJJm [ [微博](http://www.weibo.com/5220650532/BrmF4rriA) ] + +2014-10-14 回复@lp_挖掘机:给hao@memect.com发封空信,标题是 订阅机器学习日报 就可以了//@lp_挖掘机:回复@好东西传送门:怎么订阅这个? [ [微博](http://www.weibo.com/5220650532/BrqqtBypL) ] + +> 2014-10-13 @lp_挖掘机: 我参与了@好东西传送门 发起的投票【你希望机器学习日报邮件发短版还是长版?】,我投给了“长版,所有的东西都在邮件里,踏实,好找”这个选项。你也快来表态吧:http://t.cn/R7zcJJm [ [微博](http://www.weibo.com/2033610034/BroaixZhv) ] + +2014-10-13 //@王威廉:[good] 主题演讲和知识图谱研讨会的内容都很有意思,有条件的同学争取去学习一下。 //@刘知远THU: NLP全国年度盛会。:) @王威廉 @丕子 @龙星镖局 @好东西传送门 [ [微博](http://www.weibo.com/5220650532/Brqk9tX0v) ] + +> 2014-10-13 @孙茂松: “第十三届全国计算语言学学术会议”(CCL 2014)和 “第二届基于自然标注大数据的自然语言处理国际学术研讨会”(NLP-NABD 2014)将于今年10月18—19日在华中师大召开。大会特邀报告汇聚了四位国内外大牌学者,涵盖自然语言处理、认知及机器学习多个深刻话题。欢迎注册参加! http://t.cn/8sMoDdb [ [微博](http://www.weibo.com/1970879995/Bro598xvT) ] + +2014-10-13 推荐A*搜索算法的可视化短教程 http://t.cn/R7zO4To A*搜索是人工智能基本算法,用于高效地搜索图中两点的最佳路径, 核心是 g(n)+h(n): g(n)是从起点到顶点n的实际代价,h(n)是顶点n到目标顶点的估算代价。下图看优点: 选择最佳路径,同时降低搜索代价(不遍历所有格子) 合集 http://t.cn/R7zO4TK [ [微博](http://www.weibo.com/5220650532/BrnTyvnCT) ] + +2014-10-13 大家可以到issue254围观讨论精华区 http://t.cn/R7zomOr //@青圩小康: 转发微博 [ [微博](http://www.weibo.com/5220650532/BrnqxfpMe) ] + +> 2014-10-13 @丕子: natural language generation 经典工作和方法? @好东西传送门 [ [微博](http://www.weibo.com/1665335994/Brl62dza9) ] + +2014-10-13 //@任远AI: 我校的NLG组号称世界最大,两位教授Ehud和Yaji创建了很成功的NLG公司 http://t.cn/R7zocR9 。在我校的NLP课程 http://t.cn/R7zocRC 后半有Ehud讲授的NLG内容。爱丁堡有专门的NLG课程 http://t.cn/R7zocRK ,里面有完整的讲义和大量延伸阅读材料。会议的话看INLG( http://t.cn/R7zocRo [ [微博](http://www.weibo.com/5220650532/BrnoGjaZe) ] + +> 2014-10-13 @丕子: natural language generation 经典工作和方法? @好东西传送门 [ [微博](http://www.weibo.com/1665335994/Brl62dza9) ] + +2014-10-13 @丕子 问:natural language generation 经典工作和方法?答:BBN的David D. McDonald在NLP Handbook里有一章Natural Language Generation(自然语言生成),有20多页,讲得很全面.文后附了很多参考文献,经典的工作应该都涵盖了 http://t.cn/R7zaBVI [ [微博](http://www.weibo.com/5220650532/BrniQD1hW) ] + + +2014-10-13 机器学习日报做了20多期,有人喜欢短版,有人喜欢长版.目前邮箱只投放短版.咱来投个票,看如果改投长版的话(5条焦点摘要还会保留),大家还会喜欢吗? 短版例子 http://t.cn/R7zcNTQ 长版例子 http://t.cn/R7zVGyO 【你希望机器学习日报邮件发短版还是长版?】,地址 http://t.cn/R7zcJJm [ [微博](http://www.weibo.com/5220650532/BrmF4rriA) ] + +2014-10-13 在手机上可以看世行数据了:MacroStats to Go(世行宏观统计数据).另外搭车推一遍我们整理的数据集目录,一共20个http://t.cn/R7z5ErQ 世行数据也在其中 [ [微博](http://www.weibo.com/5220650532/BrmxneNDH) ] + +> 2014-10-12 @世界银行: #世界银行2014年秋季年会# 如果您下次访问苹果商店,请考虑下载一个既可供您娱乐又给您提供信息的应用程序吧[哈哈]。世行在年会召开之际推出MacroStats to Go(世行宏观统计数据)应用程序,将世界上最大的经济数据库之一的数据置于您手掌之中,快去下载吧,好处你知道哈[阴险]。http://t.cn/R7hLqRi [ [微博](http://www.weibo.com/1735501411/Brb5U04dp) ] + +2014-10-13 这本书也不错,推荐一下.英文原版R in a Nutsbell http://t.cn/R7zGAhJ [ [微博](http://www.weibo.com/5220650532/Brmmu3vDv) ] + +> 2014-08-26 @互动出版网china-pub: #新书到货#《R语言核心技术手册(第2版)》面向统计计算与数据可视化 业界公认R语言最佳入门 覆盖领域最全实战案例最多 数据从业者案头必备工具书。内容新增了R高性能计算、基于ggplot2的数据可视化和利用Hadoop做并行运算。本书详情:http://t.cn/RPg4urU @电子工业出版社 @刘思喆 [ [微博](http://www.weibo.com/1645536727/Bk2fPccrt) ] + +2014-10-13 好东西.更多关于ipython的资料 http://t.cn/R77F8w7 [ [微博](http://www.weibo.com/5220650532/Brlt3clvm) ] + +> 2014-10-13 @squirrel_d: ipython notebook格式的一本书,讲述如何用python进行统计分析,内容包括mcmc,hanmiltonian MC,高斯过程,狄利克莱过程等 http://t.cn/R77ulSW [ [微博](http://www.weibo.com/1978391022/BrkRxkxV4) ] + +2014-10-13 感谢最右.欢迎更多建议,我会帮着整理讨论合集和增补 //@Copper_PKU: http://t.cn/R77gFV4 给你推荐一个 我曾经参加过summer school 这个人讲了NLG的一些技术 [ [微博](http://www.weibo.com/5220650532/BrlrQoLjy) ] + +> 2014-10-13 @丕子: natural language generation 经典工作和方法? @好东西传送门 [ [微博](http://www.weibo.com/1665335994/Brl62dza9) ] + +2014-10-13 CommonCrawl简介.把以前几条和CommonCrawl这个巨大的数据集相关的微博汇总了一下.这个数据集对各行各业的人应该都有用,和Wikipedia类似.文字版 http://t.cn/R77RbnD [ [微博](http://www.weibo.com/5220650532/BrkAx26eT) ] + +2014-10-13 是一个有50亿网页的搜索索引 http://t.cn/RPIJ8V9 //@李立辉lilihui: Commoncrawl是什么?见我们以前的推荐 http://t.cn/R77QeUA http://t.cn/R77QeUw [ [微博](http://www.weibo.com/5220650532/Brkvz8DQq) ] + +> 2014-08-30 @好东西传送门: 问: @小磊_DM_中二青年 在学搜索,请问有Nutch的相关资料吗? 答: nutch主要做网络爬虫,可以和solr结合做搜索引擎。问答进展: http://t.cn/RhZN72R (卡片盒子 http://t.cn/RhZN72E 6个资源): nutch 的中英文安装短教程(此外看Nutch wiki); nutch工作流程; 最近很火的CommonCrawl也转用nutch [ [微博](http://www.weibo.com/5220650532/BkFg8v2lw) ] + +2014-10-13 感谢@蒋涛CSDN @cvnote计算机视觉笔记 @极度视界 @breezedeus 的推荐 开源版数据科学教程 尤其赞,收集了各方向近20门课程,在家就可以自学数据科学硕士 [ [微博](http://www.weibo.com/5220650532/BrkkkkQcV) ] + +> 2014-10-13 @好东西传送门: 机器学习头条 2014-10-12 http://t.cn/R77YEFk 1)开源版数据科学教程 2)usaddress解析自然语言描述的美国地址字符串 3)NEIL: Never Ending Image Learning 4)ASR corpus开放语音语料库 5)特征选择要点清单 加长版50条 http://t.cn/R77YEFF [ [微博](http://www.weibo.com/5220650532/BrkiB5rjZ) ] + +2014-10-13 机器学习头条 2014-10-12 http://t.cn/R77YEFk 1)开源版数据科学教程 2)usaddress解析自然语言描述的美国地址字符串 3)NEIL: Never Ending Image Learning 4)ASR corpus开放语音语料库 5)特征选择要点清单 加长版50条 http://t.cn/R77YEFF [ [微博](http://www.weibo.com/5220650532/BrkiB5rjZ) ] + +2014-10-12 [开源软件] usaddress 利用机器学习将自然语言描述的美国地址字符串解析为结构化数据, python 包, github 近200星。分词用正则表达式, 机器学习用 Conditional Random Fields (pyCRFsuite) 源码: http://t.cn/R7hCJbY 相关资料 http://t.cn/R7hCJbj [ [微博](http://www.weibo.com/5220650532/Brdr2jdUJ) ] + +2014-10-12 作者 Scott Krig http://t.cn/R7hiMF2 [ [微博](http://www.weibo.com/5220650532/BrcEAluXE) ] + +> 2014-10-11 @cvnote计算机视觉笔记: 好书推荐 | Computer Vision Metrics, Survey, Taxonomy and Analysis | Scott Krigs 2014最新作品,对目前流行的计算机视觉算法进行了深入浅出的讲解,包括各种图像特征描述方法、图像成像原理、距离度量、视觉算法开发的整体优化等等。最重要的是:电子版是免!费!的!http://t.cn/R7Ppb1k [ [微博](http://www.weibo.com/3812841100/Br69QEhaS) ] + +2014-10-12 好东西周报+一周的机器学习头条 总结已经发出了 http://t.cn/R7hJWhZ 过去一周我们推荐的好东西统统在这里.和以前一样Github已经同步更新 http://t.cn/RPfAgNg [ [微博](http://www.weibo.com/5220650532/BrcAeg0bC) ] + +2014-10-12 把这条单独拿出来推一下,看看搞spark的和multiboost的朋友们有什么建议? [ [微博](http://www.weibo.com/5220650532/BrbttvbrZ) ] + +> 2014-10-11 @BaiGang-: 十一之后对Spark MultiBoost做了些调整 http://t.cn/R7Pp3K3, 现在支持用mllib中的SVM和LR作为general base learner,比之前的decision stump model在训练效率上和效果上都提高了很多。欢迎fork&star http://t.cn/RhI1RB3 [熊猫] [ [微博](http://www.weibo.com/2149737874/Br6dqz8US) ] + +2014-10-12 感谢推荐者@eeyangc @上微博的猫V @Python开发者 @网路冷眼 今天的5条之外还有不错的前沿新闻,如@velvel2 推荐的Not All Neural Embeddings are Born Equal结合语言模型和翻译模型 @BaiGang- 开源的Spark MultiBoost 都在加长版中 http://t.cn/R7hy8gY [ [微博](http://www.weibo.com/5220650532/BrblmzWSf) ] + +> 2014-10-12 @好东西传送门: 机器学习头条 2014-10-11 http://t.cn/R7hy8gT 1)好书Freedman的statistical models theory and practice 2)Netflix技术分享的资源17条 3)一张图的故事概率分布之间的关系(下) 4)scikit-learn用于机器学习的Python模块 5) Spark打破了MapReduce排序世界记录 加长版69条 http://t.cn/R7hy8gY [ [微博](http://www.weibo.com/5220650532/Brbft2DRe) ] + +2014-10-12 推荐这篇!可结合读@AixinSG 推荐的如何选择最适合的推荐模型 http://t.cn/R7hU5co @xccds 推荐的特征工程的方方面面 http://t.cn/RhdVoZT [ [微博](http://www.weibo.com/5220650532/BrbiQiyJT) ] + +> 2014-10-11 @breezedeus: 特征工程在具体项目里的作用其实比算法大的多,换个角度说,算法可以认为是用来提取特征的。强烈推荐这篇讲特征选择的博文,进去后你会发现,文章论及的远不止特征选择。而且附带了丰富的参考文献,甚至处理具体问题的详细步骤。http://t.cn/R7PEiL5 [ [微博](http://www.weibo.com/1660835355/Br7jD5zSQ) ] + +2014-10-12 机器学习头条 2014-10-11 http://t.cn/R7hy8gT 1)好书Freedman的statistical models theory and practice 2)Netflix技术分享的资源17条 3)一张图的故事概率分布之间的关系(下) 4)scikit-learn用于机器学习的Python模块 5) Spark打破了MapReduce排序世界记录 加长版69条 http://t.cn/R7hy8gY [ [微博](http://www.weibo.com/5220650532/Brbft2DRe) ] + +2014-10-11 fuxi是一个很不错的推理引擎。 [ [微博](http://www.weibo.com/5220650532/Br4NK9ZoN) ] + +> 2014-10-11 @潘越_: FuXi http://t.cn/R7Pfso7 很不错,可惜没有人维护了,不支持rdflib 4.x和Python 3.x [ [微博](http://www.weibo.com/1860270543/Br4MVhRog) ] + +2014-10-11 昨天 @龙星镖局 推荐了Netflix个性化和推荐系统架构。这里我们收集了Memect的用户们分享的更多的关于Netflix技术分享的资源,一共17条,涉及推荐系统方法,大数据平台,开源系统等。特别推荐《Netflix视频推荐的背后:算法知道你想看什么》《Big Data Lessons From Netflix》http://t.cn/R7Pqfw3 [ [微博](http://www.weibo.com/5220650532/Br4iGoZ8D) ] + +2014-10-11 http://t.cn/h4PrxS 斯坦福哲学百科全书。虽然听起来有点玄,其实里面有很多和数学、计算机科学相关的内容,例如和逻辑相关的有近百条,还有语言学、概率论、脑与认知等很多精彩条目,有益开拓眼界。(另附一张西方哲学系谱图) [ [微博](http://www.weibo.com/5220650532/Br3Ryaa62) ] + +2014-10-11 LISP里有强大的宏,用MacroPy在Python里也可以实现。例如LINQ风格的数据查询语言。用宏可以自己来发明语言了。人生苦短... [ [微博](http://www.weibo.com/5220650532/Br3z4gkVl) ] + +> 2014-10-11 @好东西传送门: 接上面的Python函数式编程的讨论.已经发明的轮子主要有这几个:标准库里的functools http://t.cn/R7Pw9ne fn.py 见@InfoQ 的这篇文章 http://t.cn/zY1VzLx gf定义通用函数 http://t.cn/R7Pw9nD MacroPy宏语言http://t.cn/R7Pw9nk 此外还有 pyfunctor funcy toolz [ [微博](http://www.weibo.com/5220650532/Br3xP8En6) ] + +2014-10-11 接上面的Python函数式编程的讨论.已经发明的轮子主要有这几个:标准库里的functools http://t.cn/R7Pw9ne fn.py 见@InfoQ 的这篇文章 http://t.cn/zY1VzLx gf定义通用函数 http://t.cn/R7Pw9nD MacroPy宏语言http://t.cn/R7Pw9nk 此外还有 pyfunctor funcy toolz [ [微博](http://www.weibo.com/5220650532/Br3xP8En6) ] + +2014-10-11 谁来写写萝莉分布(Rayleigh distribution) [哈哈] //@we1559: 原po好腐。。。正态分布能打成正太分布 //@好东西传送门: 博主的(下)来了[good]. (上) 的微博: http://t.cn/R7vkfIY [ [微博](http://www.weibo.com/5220650532/Br3kM6cck) ] + +> 2014-10-11 @上微博的猫V: 【一张图的故事——概率分布之间的关系(下)】 图中概率分布之间的转化关系大致可以分成三种:1.近似关系,如正太分布可以用来近似泊松分布、二项分布和伽马分布。2.变量变换关系,如随机变量X服从均匀分布U(0,1), 则−θlnX服从指数分布。 3.特例关系,如卡方分布是伽马分布...http://t.cn/R7vmBGH [ [微博](http://www.weibo.com/1679022231/Br2cNlIcH) ] + +2014-10-11 赞.搭车推荐一个python函数式编程的报fn http://t.cn/zTHOud5 可以非常简明又易懂地实现很多函数式编程,如简化的lambda定义,序列流,尾递归,很多高级的数据遍历操作(几乎可以理解为Python上定义的一个数据查询语言),强大[威武] [ [微博](http://www.weibo.com/5220650532/Br3iBEi5o) ] + +> 2014-10-11 @申导: 拙作 《Python函数式编程》,记录了自己一点学习心得。 http://t.cn/R7vgeUp [ [微博](http://www.weibo.com/1001863751/Br2wPjdPB) ] + +2014-10-11 博主的(下)来了[good]. (上) 的微博:http://t.cn/R7vkfIY 另外再感谢一次@_散沙_民工智能_ 最早发现和分享了这张图 [ [微博](http://www.weibo.com/5220650532/Br2IfD5Zk) ] + +> 2014-10-11 @上微博的猫V: 【一张图的故事——概率分布之间的关系(下)】 图中概率分布之间的转化关系大致可以分成三种:1.近似关系,如正太分布可以用来近似泊松分布、二项分布和伽马分布。2.变量变换关系,如随机变量X服从均匀分布U(0,1), 则−θlnX服从指数分布。 3.特例关系,如卡方分布是伽马分布...http://t.cn/R7vmBGH [ [微博](http://www.weibo.com/1679022231/Br2cNlIcH) ] + +2014-10-11 感谢头条的作者和推荐者们 @龙星镖局 @InfoQ @zhujiangmail @网路冷眼 .今天Netflix的案例可以结合前天Josh Wills讲工业界和学术界机器学习的异同那条看,系统优先于算法 http://t.cn/R7vOofL [ [微博](http://www.weibo.com/5220650532/Br0xsftsa) ] + +> 2014-10-11 @好东西传送门: 机器学习头条 2014-10-10 http://t.cn/R7vNur1 1)Netflix个性化和推荐系统架构 2)Android上的相似图像推荐 3)问答:推荐识别歧义词的方法和文章 4)用Python实现逻辑回归 5)Michael Jordan解析领域中各类模型 加长版62条 [ [微博](http://www.weibo.com/5220650532/BqZYV3Xew) ] + +2014-10-11 机器学习头条 2014-10-10 http://t.cn/R7vNur1 1)Netflix个性化和推荐系统架构 2)Android上的相似图像推荐 3)问答:推荐识别歧义词的方法和文章 4)用Python实现逻辑回归 5)Michael Jordan解析领域中各类模型 加长版62条 [ [微博](http://www.weibo.com/5220650532/BqZYV3Xew) ] + +2014-10-11 机器学习头条 2014-10-10 http://t.cn/R7vNur1 1)Netflix个性化和推荐系统架构 @龙星镖局 2)Android上的相似图像推荐 @zhujiangmail 3)问答:推荐识别歧义词的方法和文章 4)用Python实现逻辑回归 @好东西传送门 5)Michael Jordan解析领域中各类模型 @网路冷眼 加长版62条 http://t.cn/R7vNur3 [ [微博](http://www.weibo.com/5220650532/BqZSA5k01) ] + +2014-10-11 感谢大家@张俊林say @昊奋 @东北大学自然语言处理实验室 @AixinSG 讨论合集已经整理到这里了 http://t.cn/R7vNvt4 [ [微博](http://www.weibo.com/5220650532/BqZFQcE4d) ] + +> 2014-10-10 @yuxyang: @好东西传送门 求推荐识别歧义词的方法和文章。比如: 苹果 有苹果手机和苹果这两个意思。金六福有金六福珠宝和金六福酒业这些意思。 如何识别这样的词 并做区分呢? [ [微博](http://www.weibo.com/1727751845/BqVqdnbPI) ] + +2014-10-11 //@侠女无敌-曾佩玲: 补充一个很好的 reading list: http://t.cn/8FqFegC //@AixinSG: @LCL-WHU 做过Word Sense Disambiguation (WSD)方面的尝试。判断哪些词可 能有歧义需要一个知识库支持,我们用的是基于Wikipedia建立的语料库;然后根据歧义词语义判断区分 http://t.cn/R7v7tl0 [ [微博](http://www.weibo.com/5220650532/BqYHa0aZX) ] + +> 2014-10-10 @yuxyang: @好东西传送门 求推荐识别歧义词的方法和文章。比如: 苹果 有苹果手机和苹果这两个意思。金六福有金六福珠宝和金六福酒业这些意思。 如何识别这样的词 并做区分呢? [ [微博](http://www.weibo.com/1727751845/BqVqdnbPI) ] + +2014-10-11 期待王斌老师的中文版! //@马少平THU:又让我们掏银子了//@王斌_IIEIR: 翻译完了校对中,勿喷//@AixinSG [ [微博](http://www.weibo.com/5220650532/BqYGAwjVr) ] + +> 2014-10-10 @好东西传送门: Taming Text是一本从实用的角度基于Java处理文本的好书.它包括了文本搜索的原理和用Solr的实现,字符串匹配.实体(如人名地名)识别和OpenNLP实现,文本聚类及工具Carrot//Mahout,文本分类的工具Lucene/Mahout/OpenNLP等 http://t.cn/htf5rQ 源代码http://t.cn/RhsDOce [ [微博](http://www.weibo.com/5220650532/BqViJ8DtN) ] + +2014-10-11 Awesome C/C++不错.统计了一下Github上的原文 http://t.cn/R7vSNTo ,大约列了350个资源 [ [微博](http://www.weibo.com/5220650532/BqYFU0u4L) ] + +> 2014-10-10 @伯乐头条: 《Github干货系列:C++资源集合》这又是一个 Awesome XXX 系列的资源整理,由 fffaraz 发起和维护。内容包括:标准库、Web应用框架、人工智能、数据库、数据可视化、图片处理、机器学习、日志、代码分析等。http://t.cn/R7vhj7w [ [微博](http://www.weibo.com/3844704614/BqWyixLV0) ] + 2014-10-10 赞好奇猫团队的杰出翻译,主译者是美女Billie Zhang http://t.cn/Rhsksfv [ [微博](http://www.weibo.com/5220650532/BqVq9uNIO) ] > 2014-10-10 @Easy: 一直不会shell编程,mark下来回头读。《Linux命令行》中文版,http://t.cn/zQG7kxb 目录见大图 PDF @微盘 下载 http://t.cn/RhskyeL [ [微博](http://www.weibo.com/1088413295/BqVlRzWjg) ] From 36983f85bfb84deb54cf68c69302f5c9b6d6a83c Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 23 Oct 2014 20:31:59 -0700 Subject: [PATCH 478/485] Update README.md --- README.md | 2 -- 1 file changed, 2 deletions(-) diff --git a/README.md b/README.md index 73a76bc..49fec96 100644 --- a/README.md +++ b/README.md @@ -58,8 +58,6 @@ 2014-10-23 一个Python的从文本学习模板的小工具 templatemaker http://t.cn/R7fyt3x 可以从一堆输入样板句子中提取他们的不变部分,然后利用模板可以做匹配检查,成分提取等。对清理Web数据,简单的模式学习超级有用 [ [微博](http://www.weibo.com/5220650532/BsPVLCQS5) ] -2014-10-23 一个Python的从文本学习模板的小工具 templater http://t.cn/R7fybeW 可以从一堆输入样板句子中提取他们的不变部分,然后利用模板可以做匹配检查,成分提取等。对清理Web数据,简单的模式学习超级有用 [ [微博](http://www.weibo.com/5220650532/BsPV82oy9) ] - 2014-10-23 爬虫相关资料(Java ).pdf 一组挺有用的链接 [ [微博](http://www.weibo.com/5220650532/BsPkvtPv4) ] > 2014-10-22 @睡眼惺忪的小叶先森: 这几天很多筒子不约而同让我提供几个编写爬虫的资料[doge]。我把我过去参考过的,整理了一下,包含了开源框架以及自己手动编写爬虫所需工具,还包括了信息抽取等。Java版本的。http://t.cn/R7VVttV @好东西传送门 @囧囧有神的小杜霉女 @whiteath [ [微博](http://www.weibo.com/2765244861/BsKmhpxJn) ] From e6151aa808e702ee512386ccf6c10f02b42aa792 Mon Sep 17 00:00:00 2001 From: haoawesome Date: Thu, 6 Nov 2014 00:53:20 -0800 Subject: [PATCH 479/485] Update README.md --- README.md | 405 ++++++++++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 405 insertions(+) diff --git a/README.md b/README.md index 49fec96..7d8bea0 100644 --- a/README.md +++ b/README.md @@ -35,6 +35,411 @@ ## 问答与传送档案 +2014-11-06 @茶是真热 推荐的微博上的运维方面人士id :第三组3个: @陈沙克 (虚拟化) @vpsee (虚拟化) @扶凯 (看他网站吧,微博上说的不多) 这些是在微博发表较多的,排名无先后。很多公司内的扫地老僧不太公开表达。完整列表http://t.cn/R78mgBL 欢迎大家继续推荐 [ [微博](http://www.weibo.com/5220650532/Bv1ICjxXT) ] + +2014-11-06 @茶是真热 推荐的微博上的运维方面人士id :第二组5个:@绿小小肥 (salt) @wilbur井源 @诸超_小石头爸爸 @大舞-ukl @王关胜 (除了很专业还有很帅) 完整列表http://t.cn/R78mgBL [ [微博](http://www.weibo.com/5220650532/Bv1HQ9wAH) ] + +2014-11-06 @茶是真热 推荐的微博上的运维方面人士id :第一组5个:@Perldaily (perl,运维工具和体系) @Argv (elk,perl) @平凡的香草 @刘天其斤 @jaseywang 完整列表http://t.cn/R78mgBL [ [微博](http://www.weibo.com/5220650532/Bv1HuyZKM) ] + +2014-11-06 Google大牛讲解深度学习规模化方法,融汇机器学习和系统的前沿。@Kurtt_Lin 做了现场摘要和点评,并分享了PPT照片。推荐到今天的微信头条 http://t.cn/R78aEoJ [ [微博](http://www.weibo.com/5220650532/Bv0fFsXo4) ] + +> 2014-11-05 @Kurtt_Lin: #Face to Face with Dr. Jeff Dean# 下午在THU FIT楼听了Jeff Dean大规模深度学习的talk,也算追了“男神”一把[呵呵]。后面与Jeff交流时感觉到,他超级nice,谦虚和善,时不时也幽默一把,结束时也很有活力地喊大家一起合影。Talk内容和ppt请见:http://t.cn/R7QcsHn [ [微博](http://www.weibo.com/1567257743/BuTRS111V) ] + +2014-11-06 感谢 @Kurtt_Lin @tedsky2 @王威廉 @网路冷眼 @王威廉 今天继续有CIKM现场报道。另外Jeff Dean清华报告也有多人从不同角度分享,都在长版中 http://t.cn/R78fAlG [ [微博](http://www.weibo.com/5220650532/BuZGVzF24) ] + +> 2014-11-06 @好东西传送门: 机器学习头条 2014-11-05 http://t.cn/R78fAl4 1)Jeff Dean大规模深度学习报告 2)压缩采样介绍 3)Yago创始人Gerhard Weikum提出“大文本”概念 4)将Elasticsearch和Apache Spark部署到云端 5)NIPS 2014的大规模分布式机器学习研讨会的论文 加长版52条 http://t.cn/R78fAlG [ [微博](http://www.weibo.com/5220650532/BuZG0yHpu) ] + +2014-11-06 机器学习头条 2014-11-05 http://t.cn/R78fAl4 1)Jeff Dean大规模深度学习报告 2)压缩采样介绍 3)Yago创始人Gerhard Weikum提出“大文本”概念 4)将Elasticsearch和Apache Spark部署到云端 5)NIPS 2014的大规模分布式机器学习研讨会的论文 加长版52条 http://t.cn/R78fAlG [ [微博](http://www.weibo.com/5220650532/BuZG0yHpu) ] + +2014-11-06 数据科学小技巧汇总小小册子 //@phunter_lau: 不错,技巧的占的部分比较大,适合摸爬滚打多年的人看看 [ [微博](http://www.weibo.com/5220650532/BuXZdC32q) ] + +> 2014-11-06 @西瓜大丸子汤: Data Science by AnalyticBridge http://t.cn/R7Qr3kL 一本小书, [ [微博](http://www.weibo.com/1932835417/BuXeOEYcv) ] + +2014-11-05 这个入门系列博文非常好,节约初学者啃大不部头的时间。推荐到今天的微信摘要版: http://t.cn/R7HNHFw [ [微博](http://www.weibo.com/5220650532/BuQCTrwWn) ] + +> 2014-11-04 @研究者July: 已写的:①决策树http://t.cn/zOmMFLa,②SVMhttp://t.cn/zOeaL7j,③K近邻http://t.cn/zjLQ8Ky,④数理统计http://t.cn/zj9kZ8a,⑤最大熵http://t.cn/R7atoLH,⑥Adaboosthttp://t.cn/R7lXmhC,⑦谱聚类http://t.cn/R7jLDaB,待写的还远不只是这些:贝叶斯网络、EM、主题模型、HMM、CRF、PCA、LDA。 [ [微博](http://www.weibo.com/1580904460/BuLqE1mj8) ] + +2014-11-05 十分感谢推荐。格灵深瞳是中国最好的计算机视觉公司之一,右边经常分享一些很好的CV学习资源,机器学习日报里也常常可以看到的。[呵呵]//@格灵深瞳: 推荐一下好东西~欢迎分享@有需要的人~[熊猫] [ [微博](http://www.weibo.com/5220650532/BuQnWao51) ] + +> 2014-10-14 @好东西传送门: 很多人问到怎么订阅<机器学习日报>.为方便大家,做了个订阅按钮在主页上,域名 ml.memect.com http://t.cn/R7ZepFz .或给 hao@memect.com 发封空信,标题是 " 订阅机器学习日报 " 即可.另外,过去几期长短版的链接都加到主页上了. [ [微博](http://www.weibo.com/5220650532/BrvCDmx41) ] + +2014-11-05 //@CSDN_CODE: 邱锡鹏教授认为,目前云计算逐渐成为一个基础设施,给很多个人以及中小企业提供了低成本的解决方案,自然语言处理技术也会逐渐成为一种基础服务。要从事自然语言处理技术相关研究和开发,最好是从某个具体问题入手,了解最新的研究进展,然后借助一些开源的工具,逐渐了解 [ [微博](http://www.weibo.com/5220650532/BuQmrmtAh) ] + +> 2014-11-05 @CSDN_CODE: #开源专访# 【复旦@邱锡鹏 教授:云时代,NLP也将是一种基础服务】之前报道过复旦大学推出了基于云的自然语言处理开源项目FudanNLP,大家反馈积极。对此我们进行了深度采访,项目负责人邱锡鹏教授谈了目前自然语言处理技术发展的两大瓶颈,一是大规模语料库,二是语义表示:http://t.cn/R7HS4EO [ [微博](http://www.weibo.com/3460619722/BuQg92KvP) ] + +2014-11-05 感谢 @研究者July @PyPINews @tedsky2 @鲁东东胖 @我爱机器学习 今天长版的重头戏是CIKM的各种现场报道,不可错过。另外最近@bitslife 也分享了很多机器学习在生物信息学中的应用,向对bioinformatics感兴趣的同学推荐。 [ [微博](http://www.weibo.com/5220650532/BuQlJm3gp) ] + +> 2014-11-05 @好东西传送门: 机器学习头条 2014-11-04 http://t.cn/R7HoMMU 1)研究者July的数据挖掘博文系统汇总 2)SnowNLP中文自然语言处理工具包 3)林智仁:线性模型+特征工程 的机遇和挑战 4)神经网络实现侧向抑制的讨论 5)Learning To Rank之LambdaMART的前世今生 加长版60条 http://t.cn/R7HoMMy [ [微博](http://www.weibo.com/5220650532/BuQkI6i3G) ] + +2014-11-05 机器学习头条 2014-11-04 http://t.cn/R7HoMMU 1)研究者July的数据挖掘博文系统汇总 2)SnowNLP中文自然语言处理工具包 3)林智仁:线性模型+特征工程 的机遇和挑战 4)神经网络实现侧向抑制的讨论 5)Learning To Rank之LambdaMART的前世今生 加长版60条 http://t.cn/R7HoMMy [ [微博](http://www.weibo.com/5220650532/BuQkI6i3G) ] + +2014-11-05 http://t.cn/hRgMJ 可视化方法的元素周期表,总结了6大类100种方法,每种都有图例。打印出来帖在案头吧 [ [微博](http://www.weibo.com/5220650532/BuOg55Tpb) ] + +2014-11-04 目测为会引发极佳讨论的问题,传送门讲收集和增补大家的问答。跟踪页 http://t.cn/R7TfwMN [ [微博](http://www.weibo.com/5220650532/BuJ5dDT40) ] + +> 2014-11-04 @丕子: PCA, SVD(其他low rank*), LDA(Topic Model), K-means, Sparse Coding,Hidden Layer of Neural Network。。。等等这一大类问题应该都可以用一套理论来解释其几何意义,与向量空间、矩阵、特征值和特征向量有关的,有阐述最本质原理的文章? 比特征值和特征向量更低层的?@好东西传送门 [ [微博](http://www.weibo.com/1665335994/BuGdVDyhN) ] + +2014-11-04 根据我们的非科学统计,在@好东西传送门 的门友中,各种微博上笔记软件的被使用次数依次是 我的印象笔记 mywiz 有道云笔记收藏 mark,比例为12 : 3 : 1.6 : 1 @印象笔记 拔得头筹 [ [微博](http://www.weibo.com/5220650532/BuICza8If) ] + +2014-11-04 @王威廉 昨天推荐的“Olivier Grisel简要总结机器学习,深度学习近年进展”,传送门做了摘要版,节选了其中的核心页面,发在微信版里了 http://t.cn/R7Tzge6 原PPT号称30分钟了解,这个摘要版大概10分钟可以读完。 [ [微博](http://www.weibo.com/5220650532/BuHZWt5fq) ] + +2014-11-04 回复@禅系一之花: 请看以前的问答整理: 2014-09-10 [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY //@禅系一之花:请问有没有用Python学习概率论的书籍呀? [ [微博](http://www.weibo.com/5220650532/BuHEimICg) ] + +> 2014-11-04 @好东西传送门: 机器学习头条 2014-11-03 http://t.cn/R7YWAZ5 1)Olivier Grisel简要总结机器学习,深度学习近年进展 2)从拉普拉斯矩阵说到谱聚类 3)SVD介绍PPT 4)张巍介绍HMM 5)MLOSS机器学习开源工具集 加长版26条 http://t.cn/R7YWAZb [ [微博](http://www.weibo.com/5220650532/BuG6rqvyJ) ] + +2014-11-04 感谢 @王威廉 @研究者July @了了JIANG @Nietzsche_复杂网络机器学习 @52nlp [ [微博](http://www.weibo.com/5220650532/BuG6vxAGT) ] + +> 2014-11-04 @好东西传送门: 机器学习头条 2014-11-03 http://t.cn/R7YWAZ5 1)Olivier Grisel简要总结机器学习,深度学习近年进展 2)从拉普拉斯矩阵说到谱聚类 3)SVD介绍PPT 4)张巍介绍HMM 5)MLOSS机器学习开源工具集 加长版26条 http://t.cn/R7YWAZb [ [微博](http://www.weibo.com/5220650532/BuG6rqvyJ) ] + +2014-11-04 机器学习头条 2014-11-03 http://t.cn/R7YWAZ5 1)Olivier Grisel简要总结机器学习,深度学习近年进展 2)从拉普拉斯矩阵说到谱聚类 3)SVD介绍PPT 4)张巍介绍HMM 5)MLOSS机器学习开源工具集 加长版26条 http://t.cn/R7YWAZb [ [微博](http://www.weibo.com/5220650532/BuG6rqvyJ) ] + +2014-11-04 跨媒体知识库构建,今年第三个重要教程 //@昊奋: 继SIGMOD和KDD的相关tutorial之后的另外一个关于KG的重量级tutorial,跨媒体知识库构建是一个趋势,特别对于移动互联网时代。不过链接有些贴错,纠正如下 http://t.cn/R7Y4g7n http://t.cn/R7Y4g7E [ [微博](http://www.weibo.com/5220650532/BuEEdbCkq) ] + +> 2014-11-03 @王海勋haixun: ACM MM 2014 Tutorial with Lexing Xie: Learning Knowledge Bases for Text and Multimedia Part 1 (http://t.cn/R7YUd9Q Part 2(http://t.cn/R7YUd9H [ [微博](http://www.weibo.com/2083726665/BuCjWCcsC) ] + +2014-11-03 好东西周报 http://t.cn/R7jhDtE 过去一周一共有66条 欢迎订阅 [ [微博](http://www.weibo.com/5220650532/BuxypsIGP) ] + +2014-11-03 好消息 //@Python开发者: 好福利,转需扩散啊!!! [ [微博](http://www.weibo.com/5220650532/BuxbkomB5) ] + +> 2014-11-03 @伯乐头条: 福利:Jetbrains 推出 PyCharm 教育版,学生和教师免费使用,详见: http://t.cn/R7l12U8 cc: @Python开发者 [ [微博](http://www.weibo.com/3844704614/BuwQnpYjN) ] + +2014-11-03 @lifelogger 推荐个opencv for python的网站 http://t.cn/R7luikW 提供很多以图像搜索为目标的相关tutorial [ [微博](http://www.weibo.com/5220650532/BuwT4FQEg) ] + +> 2014-11-01 @cvnote计算机视觉笔记: 看到一博文,讲计算机视觉的四部奇书(应该叫经典吧),分别是Hartley的《多图几何》、Gonzalez的《数字图像处理》、Szeliszi的CV:Algorithm&Application、Sonka等的《图像处理,分析与机器视觉》。前三本有看过,或理论深刻或讲解细致或涉猎广泛。感觉还真想不出更经典的作品了。各位还有什么推荐么 [ [微博](http://www.weibo.com/3812841100/BuilLhEY1) ] + +2014-11-03 100 numpy exercises 简洁有力的python数值计算入门 [ [微博](http://www.weibo.com/5220650532/BuwSwFL65) ] + +> 2014-11-03 @智博是小叮当: 100 numpy exercises The goal is both to offer a quick reference for new and old users and to provide also a set of exercices for those who teach. http://t.cn/R7l3yzj @好东西传送门 [ [微博](http://www.weibo.com/1646120672/BuwLhfhzj) ] + +2014-11-03 //@路确实脚下: 再推荐两本好书《computer vision a reference guide 》和《dictionary of computer vision and image processing》//@好东西传送门:总结各位的增补 @星空下的巫师《学习OpenCV》@Nobunaga_Means《computer&machine vision》@路确实脚下 《Moden computer vision》 [ [微博](http://www.weibo.com/5220650532/BuwS6mClz) ] + +> 2014-11-01 @cvnote计算机视觉笔记: 看到一博文,讲计算机视觉的四部奇书(应该叫经典吧),分别是Hartley的《多图几何》、Gonzalez的《数字图像处理》、Szeliszi的CV:Algorithm&Application、Sonka等的《图像处理,分析与机器视觉》。前三本有看过,或理论深刻或讲解细致或涉猎广泛。感觉还真想不出更经典的作品了。各位还有什么推荐么 [ [微博](http://www.weibo.com/3812841100/BuilLhEY1) ] + +2014-11-03 感谢 @梁斌penny @李沐M @哈工大深圳_徐睿峰 @cvnote计算机视觉笔记 @刘知远THU [ [微博](http://www.weibo.com/5220650532/BuwQYlls1) ] + +> 2014-11-03 @好东西传送门: 机器学习头条 2014-11-02 http://t.cn/R7l1KEq 1)推荐系统中bias和个性化的讨论 2)推荐系统两个最好的教程 3)电子书 《Social Media Mining An Introduction》 4)计算机视觉的四部经典 5)华为诺亚方舟实验室做的小诺机器人 加长版44条 http://t.cn/R7l1KEG [ [微博](http://www.weibo.com/5220650532/BuwQTl29A) ] + +2014-11-03 机器学习头条 2014-11-02 http://t.cn/R7l1KEq 1)推荐系统中bias和个性化的讨论 2)推荐系统两个最好的教程 3)电子书 《Social Media Mining An Introduction》 4)计算机视觉的四部经典 5)华为诺亚方舟实验室做的小诺机器人 加长版44条 http://t.cn/R7l1KEG [ [微博](http://www.weibo.com/5220650532/BuwQTl29A) ] + +2014-11-03 总结各位的增补 @星空下的巫师《学习OpenCV》@Nobunaga_Means《computer&machine vision》@路确实脚下 《Moden computer vision》 [ [微博](http://www.weibo.com/5220650532/Buwxdfsdp) ] + +> 2014-11-01 @cvnote计算机视觉笔记: 看到一博文,讲计算机视觉的四部奇书(应该叫经典吧),分别是Hartley的《多图几何》、Gonzalez的《数字图像处理》、Szeliszi的CV:Algorithm&Application、Sonka等的《图像处理,分析与机器视觉》。前三本有看过,或理论深刻或讲解细致或涉猎广泛。感觉还真想不出更经典的作品了。各位还有什么推荐么 [ [微博](http://www.weibo.com/3812841100/BuilLhEY1) ] + +2014-11-03 为云设计的开源操作系统 osv.io 这里有各种平台(本地,EC2, GCE, Capstan)上跑的指南 http://t.cn/R7lY1w6 [ [微博](http://www.weibo.com/5220650532/BuvUesnP2) ] + +> 2014-10-29 @ShangguanRPI: 下一个玩具OSv http://t.cn/RhoIkLB,极有潜力。 [ [微博](http://www.weibo.com/1663264965/BtJUhBNsY) ] + +2014-11-02 @历史无限好 想做运维,不知道从何下手,能不能推荐些初级学习的资料。@茶是真热 整理了一个答案:awesome sysadmin已经非常全面了。各种常用工具、服务、HA结构的安装配置、性能、调优均涵盖。说一些比较基础的部分:先推荐两个网站,和linux使用很相关。都是拷过来答案就用的...http://t.cn/R7WQaH2 [ [微博](http://www.weibo.com/5220650532/BupNzg4Dt) ] + +2014-11-02 kaggle竞赛的获奖感言。都是些很实在的小经验,小教训,没有空话套话 http://t.cn/zjtKTWO --kaggle的口号“no free hunch”这些大实话里都体现了 [ [微博](http://www.weibo.com/5220650532/BupKBb4rf) ] + +2014-11-02 #求助# 代网友问:ensemble learning和boosting的综述,中文的有哪些推荐? issue 314 http://t.cn/R7WHzm3 [ [微博](http://www.weibo.com/5220650532/BupH84mZB) ] + +2014-11-02 15本Hadoop好书。整理者Matthew Rathbone http://t.cn/RvNhW1M [ [微博](http://www.weibo.com/5220650532/BuptZoVCf) ] + +2014-11-02 //@phunter_lau: 我觉得很好,好比挖掘技术,Alex的讲座偏向于深入挖掘机操作技术,Xavier偏重不同工地的综合挖掘方法,结合自己实际工作的问题理解这两方面都很重要(新浪微博的推荐系统就是第一个理解不深入第二个不屑于去理解,这是反面教材) [ [微博](http://www.weibo.com/5220650532/BuoyPfeK0) ] + +> 2014-11-02 @李沐M: 翻了翻推荐系统的tutorial slides,目前发现的最好的两个:一是alex前年在berkeley上课用的,简练,清晰,重点都覆盖到了 http://t.cn/R7WtFwj 二是xavier在今年cmu夏季课程用的,4小时时长,很全面。http://t.cn/R7WtFwY @phunter_lau 你怎么看? [ [微博](http://www.weibo.com/1953709481/BunUgk0Fu) ] + +2014-11-02 http://t.cn/R7WIf7e 做了一张卡片,有和预览和pdf,如果原链接打不开的可以试试。//@李武军nju: 回复@好东西传送门:可能跟我们系的服务器有关。以前有人发现用chrome浏览器不能下载,用IE直接点击打不开,但用IE点右键“另存为”可以。 //@好东西传送门:好像打不开 [ [微博](http://www.weibo.com/5220650532/Buo8a1ONj) ] + +> 2014-11-01 @李武军nju: 昨天在我们系 计算机软件新技术国家重点实验室 青年学者论坛上 做了一个报告,简要介绍了近期我们在“大数据机器学习”方面的几点尝试,包括:哈希学习,分布式学习,随机学习。分享一下胶片: http://t.cn/R7O4Ojm [ [微博](http://www.weibo.com/2309457710/Buhn8E6cw) ] + +2014-11-02 全书pdf链接直达http://t.cn/8sHGN56 也可以分章下载 2 Graph essentials 3 Network measures 4 Network models 5 Data mining essentials 6 Community analysis 7 Information diffusion in Social Media 8 Influence and homophily 9 Recommendation in social media 10 Behavior analytics [ [微博](http://www.weibo.com/5220650532/BunExtGfV) ] + +> 2014-11-02 @哈工大深圳_徐睿峰: #SMP2014# 亚利桑那州立大学 Mining Social Media : Look ahead 推荐了一本书 《Social Media Mining An Introduction》下载地址 http://t.cn/R7WGPrZ [ [微博](http://www.weibo.com/1494777880/BunDk9NrV) ] + +2014-11-02 感谢 @李武军nju @好东西传送门 @NLPJob @Kevin_机器学习_CA @西瓜大丸子汤 另外昨天的重点新闻是第三届全国社会媒体处理大会SMP2014,龙星镖局,刘知远,梁斌等分享了会上的热点。@小诺_Noah 原来是华为的机器人——李航已经分享了slides,会放入明天的日报 [ [微博](http://www.weibo.com/5220650532/Bunj13yjw) ] + +> 2014-11-02 @好东西传送门: 机器学习头条 2014-11-01 http://t.cn/R7WLGwp 1)李武军谈大数据机器学习 2)三代机器学习算法实现的演化 3)Klein和Manning关于最大熵模型PPT 4)caffe on windows 带cudnn 5)微信公众平台新增语义理解接口 加长版44条 [ [微博](http://www.weibo.com/5220650532/BunhBifai) ] + +2014-11-02 机器学习头条 2014-11-01 http://t.cn/R7WLGwp 1)李武军谈大数据机器学习 2)三代机器学习算法实现的演化 3)Klein和Manning关于最大熵模型PPT 4)caffe on windows 带cudnn 5)微信公众平台新增语义理解接口 加长版44条 [ [微博](http://www.weibo.com/5220650532/BunhBifai) ] + +2014-11-02 好东西,在Windows上也可以跑caffe。#深度学习# [ [微博](http://www.weibo.com/5220650532/Bumya5cuQ) ] + +> 2014-11-01 @Kevin_机器学习_CA: build 了一个最新的caffe on windows 带cudnn http://t.cn/R70cmkA 需要的话可以去下载 然后把所有需要的第三方库也打包了 [ [微博](http://www.weibo.com/2798235231/BudDI8ruZ) ] + +2014-11-02 数据科学关于安全的经典文章列表:Jason Trost整理的和安全有关的重要文章,都有pdf链接,覆盖领域:入侵检测,恶意软件Malware,数据收集,脆弱性分析,隐私与匿名,数据挖掘,网络犯罪,网络战等。入门必读。http://t.cn/RP21a3E [ [微博](http://www.weibo.com/5220650532/Bumenc14Y) ] + +2014-11-02 很有用的一个Python小工具dedupe,可以在csv或者数据里做数据去重(data deduplication)和实体消解(entity-resolution) Github http://t.cn/R7OkNyx 项目文档 http://t.cn/R7OkNyI 例子http://t.cn/R7OkNyM [ [微博](http://www.weibo.com/5220650532/BulWsq7fX) ] + +2014-11-02 先抛个砖:Awesome Sysadmin列表 详列了运维各种工具 http://t.cn/Rvj361W [ [微博](http://www.weibo.com/5220650532/BulFYkusW) ] + +> 2014-07-18 @历史无限好: 感觉自己不是开发的料,想做运维,不知道从何下手,能不能推荐些初级学习的资料,特别是ubuntu的,辛苦了[嘻嘻]@好东西传送门 http://t.cn/RPZdYr7 [ [微博](http://www.weibo.com/3150925993/Be6Y08pKI) ] + +2014-11-02 今年Hadoop Summit的主题演讲视频都在线,一共12个 http://t.cn/R7Oe3LG 具体题目请看图片,涉及云计算的方方面面 [ [微博](http://www.weibo.com/5220650532/BulCsy2vd) ] + +2014-11-02 求助! 求一句话点播。如果恰好知道什么资源分享一下吧。 [ [微博](http://www.weibo.com/5220650532/BukdIlJrm) ] + +> 2014-11-02 @__initial__: 针对中文文本情感分析 有哪些现成的工具包?@好东西传送门 http://t.cn/z8AqbYq [ [微博](http://www.weibo.com/1624579831/BujP92mhz) ] + +2014-11-02 小诺机器人的秘密 //@李航博士: 报告的slides在这里。 http://t.cn/R7OHblX [ [微博](http://www.weibo.com/5220650532/BujF0dTzF) ] + +> 2014-11-01 @刘知远THU: #SMP2014# @李航博士 老师介绍华为诺亚方舟实验室做的小诺机器人 @小诺_Noah 是很有意思的方向,可以自动关注人,转发帖子,评论。未来可以用上很多技术,例如摘要,翻译,自动问答,情感分析,等等。想象空间很大。 http://t.cn/R7pi9t3 [ [微博](http://www.weibo.com/1464484735/BuelGluCo) ] + +2014-11-01 //@DP金澜涛: 第一个tutorials是关于实时数据流mining的,part I比较偏理论,对构建实时数据仓库可能有帮助。part II偏实践,除了简单介绍S4,Storm等工具以外,介绍了一些流式mining的概念和思想,非学术帝们也能看得懂,不错的tutorials。 [ [微博](http://www.weibo.com/5220650532/Bueqv4tFl) ] + +> 2014-11-01 @BigData大数据: #BigData2014#BigData虽不能称为顶会,但是毕竟是世界第一个以BigData命名的会议,去年我在加州参加了第一届,今年第二届在DC刚刚结束,第一时间放出来干货,里面四个tutorial内容够翔实 http://t.cn/R70vcWZ 重点推荐第二个邢波Eric Xing的,他们组目前做DL和系统结合很厉害@好东西传送门 @数盟社区 [ [微博](http://www.weibo.com/2870219257/BuaHM1tsU) ] + +2014-11-01 Big Data Analytics Beyond Hadoop 第一章预览http://t.cn/R70aCGK 本章中作者总结了三代机器学习算法实现的演化:第一代非分布式的, 第二代工具如Mahout和Rapidminer实现基于Hadoop的扩展,第三代如Spark和Storm实现了实时和迭代数据处理。中文摘要(作者 -之诸暇)http://t.cn/RvtTFtX [ [微博](http://www.weibo.com/5220650532/BueqhsDRY) ] + +2014-11-01 感谢 @cvnote计算机视觉笔记 @bicloud笑西西 @52nlp @出门问问 @CSDN研发频道 [ [微博](http://www.weibo.com/5220650532/BuemD7sMQ) ] + +> 2014-11-01 @好东西传送门: 机器学习头条 2014-10-31 http://t.cn/R70wAaV 1)ECCV14教程:采集处理可形变的人体动物模型 2)为什么深度学习让其他机器学习算法相形见绌 3)spark上的贝叶斯学习 4)sync2014北京大会上关于人工智能方向的圆桌会议 5)@夏粉_百度 百度推荐技术论文《智能因子分解机》 加长版49条 http://t.cn/R70wAat [ [微博](http://www.weibo.com/5220650532/BubNxjrAR) ] + +2014-11-01 Query Intent Classification By Search Session Analysis,盛大topdata team [ [微博](http://www.weibo.com/5220650532/BudeR8qS9) ] + +> 2014-10-31 @清风运文: CIKM的poster总算搞定了,期待下周能在会场聆听Google Jeff Dean和微软陆奇的讲座 [ [微博](http://www.weibo.com/1527369027/Bu9ErFRDb) ] + +2014-11-01 IEEE BigData 2014 大数据会议 [ [微博](http://www.weibo.com/5220650532/BucU3AGbF) ] + +> 2014-11-01 @BigData大数据: #BigData2014#BigData虽不能称为顶会,但是毕竟是世界第一个以BigData命名的会议,去年我在加州参加了第一届,今年第二届在DC刚刚结束,第一时间放出来干货,里面四个tutorial内容够翔实 http://t.cn/R70vcWZ 重点推荐第二个邢波Eric Xing的,他们组目前做DL和系统结合很厉害@好东西传送门 @数盟社区 [ [微博](http://www.weibo.com/2870219257/BuaHM1tsU) ] + +2014-11-01 更正:正确的题目翻译应该是“深度学习会不会让其他机器学习算法过时?” 感谢@haohao7 纠正 //@好东西传送门: Quora值得一读的讨论:为什么深度学习让其他机器学习算法相形见绌?参与人中有Google DeepMind团队的Jack Rae [ [微博](http://www.weibo.com/5220650532/BubPP8eWK) ] + +> 2014-10-31 @bicloud笑西西: Will deep learning make other Machine Learning algorithms obsolete? http://t.cn/R7pJuvQ [ [微博](http://www.weibo.com/1640260361/Bu89jsvdz) ] + +2014-11-01 Quora值得一读的讨论:为什么深度学习让其他机器学习算法相形见绌?参与人中有Google DeepMind团队的Jack Rae [ [微博](http://www.weibo.com/5220650532/BubzpecZr) ] + +> 2014-10-31 @bicloud笑西西: Will deep learning make other Machine Learning algorithms obsolete? http://t.cn/R7pJuvQ [ [微博](http://www.weibo.com/1640260361/Bu89jsvdz) ] + +2014-10-31 spark上的贝叶斯学习,用python的pymc包 [ [微博](http://www.weibo.com/5220650532/Bu7CprXpq) ] + +> 2014-10-31 @52nlp: Bayesian Machine Learning on Apache Spark http://t.cn/R7p5RJX 关键词:Markov Chain Monte Carlo (MCMC) Methods, PyMC, Spark, PyMC on Spark, Topic Modeling with MCMC, Distributed LDA on Spark with PyMC [ [微博](http://www.weibo.com/2104931705/Bu7BE77Rp) ] + +2014-10-31 《PostgreSQL 中文资料汇总》 谭峰(@francs3 ,PostgreSQL 中文社区版主)整理,挺有用的 http://t.cn/8F4CZ9J 另外作者和黄坚将《PostgreSQL 9 Admin Cookbook》翻译成了中文 [good] http://t.cn/8FBhLZm [ [微博](http://www.weibo.com/5220650532/Bu74plHpM) ] + +2014-10-31 在想以后《机器学习日报》是不是该出一个专栏叫“千万别错过的讲座”,比如这个 [ [微博](http://www.weibo.com/5220650532/Bu5IS0xTr) ] + +> 2014-10-31 @刘知远THU: Google Senior Fellow Jeff Dean 将于下周三(11月5日)14:30在清华大学FIT大楼多功能报告厅做学术报告:Scaling Deep Learning,由 @孙茂松 教授主持。欢迎对深度学习和大规模机器学习技术感兴趣的同学来与Jeff Dean面对面。 [ [微博](http://www.weibo.com/1464484735/Bu5GPvrJR) ] + +2014-10-31 这个文本可视化综述是真心好,足足一百种方法,以前最多见过其中十几种 textvis.lnu.se 瑞典Linnaeus University出品 [good] [ [微博](http://www.weibo.com/5220650532/Bu5GxvOOP) ] + +> 2014-10-30 @AixinSG: 非常直观的文本可视化综述:Text Visualization Browser: A Visual Survey of Text Visualization Techniques http://t.cn/R79Ye47 [ [微博](http://www.weibo.com/1025887594/BtUsZ5Ntg) ] + +2014-10-31 好长,里面@白硕SH 老师说的那段也不错。神经网络这一轮复兴,也许能比上一轮维持得久一点。 [ [微博](http://www.weibo.com/5220650532/Bu5xmnnIZ) ] + +> 2014-10-31 @BigData大数据: #脑机计算#目前很多很多BRAIN,什么百度Google大脑,也有脑计划,容易把人弄糊涂,最近Jordan也跳出来说别动不动把脑扯上关系,最近科学院也出了Diannao DaDiannao, 新近 @杨静Lillian 对 @潘布衣 的专访,http://t.cn/R7NcpVb 布衣明确了一些容易混淆视听的概念 不能错过 @好东西传送门 [ [微博](http://www.weibo.com/2870219257/Bu3V8apUx) ] + +2014-10-31 关于Tableau和ggplot2的比较,看这条微博 http://t.cn/R7NTgi5 @海中的沙粒 [ [微博](http://www.weibo.com/5220650532/Bu5ui4JwL) ] + +> 2014-10-20 @数据可视化Tableau: #Tableau 8 权威指南上架# 很高兴和大家分享由我们公司员工翻译的《tableau 8 权威指南》一书,该书是目前国内最详细介绍tableau最新大版本数据可视化制作的书,全书彩印,并配有视频和示例。各大网店均有售。中国传媒大学教授博导 @沈浩老师 、北大博导袁老师 @晓如微博(名字不分先后)写序推荐! [ [微博](http://www.weibo.com/3196853784/BsrPrEzlu) ] + +2014-10-31 感谢 @ICTCLAS张华平博士 @十月伤感wb @中国云计算论坛 @差哥 @AixinSG 今天的长版里注意到@齐梁后尘 和@殆知阁 起的一个话题 http://t.cn/R7NL4l2 涉及到古籍整理中的自然语言处理,貌似可以发展成有趣的话题,大家可以去那里各抒己见 [ [微博](http://www.weibo.com/5220650532/Bu2sdneLn) ] + +> 2014-10-31 @好东西传送门: 机器学习头条 2014-10-30 http://t.cn/R7NLzFG 1)SMP2014第三届全国社会媒体处理大会手册 2)100个推荐系统相关的视频 3)数据挖掘基础:分词入门 4)四种传统的自然语言生成技术及其优缺点 5)非常直观的文本可视化综述 加长版30条 http://t.cn/R7NLzFq [ [微博](http://www.weibo.com/5220650532/Bu2qiyeBs) ] + +2014-10-31 机器学习头条 2014-10-30 http://t.cn/R7NLzFG 1)SMP2014第三届全国社会媒体处理大会手册 2)100个推荐系统相关的视频 3)数据挖掘基础:分词入门 4)四种传统的自然语言生成技术及其优缺点 5)非常直观的文本可视化综述 加长版30条 http://t.cn/R7NLzFq [ [微博](http://www.weibo.com/5220650532/Bu2qiyeBs) ] + +2014-10-30 SO上一篇很好的问答:SQL和Prolog的异同。很多人可能没有意识到,SQL其实是一种logic program(逻辑程序)。它和Prolog这类逻辑程序的区别则在于SQL主要是事实和集合(关系)引擎,而prolog是规则和推理引擎(所以可以处理“语义”)。SQL主要是服务器端语言,Prolog主要是客户端语言。http://t.cn/zjUlI3G [ [微博](http://www.weibo.com/5220650532/BtWTh7TJU) ] + +2014-10-30 先记这issue 311 http://t.cn/R7Ch44x 参老问题108“求推荐靠谱的自动摘要软件/服务”的初步答案http://t.cn/RPgzu6p 另外snownlp内置了一个简单的中文摘要模块http://t.cn/8kf1c3p (TextRank算法) [ [微博](http://www.weibo.com/5220650532/BtVWPeDpX) ] + +> 2014-10-30 @流川和他的偏见: #求助#@好东西传送门 有木有什么自动摘要的工具 我真的找了好久 …… http://t.cn/R79MNO8 [ [微博](http://www.weibo.com/2560968763/BtRjqbaiC) ] + +2014-10-30 W3C主席,Web发明人Tim Berners-Lee今天在w3c 20年庆典上的主题演讲http://t.cn/R79rwZe ,系统阐述了历史回顾,万维网协作,新一代的社交网络,为什么开放性极其重要和W3C的使命。@lidingpku 做了简明摘要 http://t.cn/R79rwZF [ [微博](http://www.weibo.com/5220650532/BtVkJkDXU) ] + +2014-10-30 很好的可视化。写篇文章讲讲是怎么做的吧 [ [微博](http://www.weibo.com/5220650532/BtVg0dxAd) ] + +> 2014-10-30 @规勒个划: 基于位置微博的人口流动分析(草图),原始数据约1000余万条(6天),一个星期搭建好计算框架,跑一次2小时,不过可以分步执行,哈哈 [ [微博](http://www.weibo.com/1012425625/BtUOP2e05) ] + +2014-10-30 感谢 @Copper_PKU @杨静Lillian @hashjoin @BigData大数据 [ [微博](http://www.weibo.com/5220650532/BtUzz9yNL) ] + +> 2014-10-30 @好东西传送门: 机器学习头条 2014-10-29 http://t.cn/R79Tsst 1)A Fast And Scalable Topic-Modeling Toolbox 2)交互式搜索:改变世界的百度智能界面 3)腾讯TDW千台Spark千亿节点对相似度计算 4)Jeff Dean在RecSys上主题讲演 5)Geoff Hinton演讲视频,指点DL未来走势 加长版48条 http://t.cn/R79Tssc [ [微博](http://www.weibo.com/5220650532/BtUzqAyu5) ] + +2014-10-30 机器学习头条 2014-10-29 http://t.cn/R79Tsst 1)A Fast And Scalable Topic-Modeling Toolbox 2)交互式搜索:改变世界的百度智能界面 3)腾讯TDW千台Spark千亿节点对相似度计算 4)Jeff Dean在RecSys上主题讲演 5)Geoff Hinton演讲视频,指点DL未来走势 加长版48条 http://t.cn/R79Tssc [ [微博](http://www.weibo.com/5220650532/BtUzqAyu5) ] + +2014-10-30 五种LDA方法Distributed collapsed Gibbs sampling DCGS, Asynchronous DCGS, Fast collapsed Gibbs sampling,Fast collapsed variational inference, Efficient collapsed Gibbs sampling [ [微博](http://www.weibo.com/5220650532/BtUi478w4) ] + +> 2014-10-29 @Copper_PKU: 重新学习Topic Model鸟 找个一个不错的合集 “A Fast And Scalable Topic-Modeling Toolbox” http://t.cn/R7KkI9O [ [微博](http://www.weibo.com/1758509357/BtPotfW08) ] + +2014-10-30 转发微博 [ [微博](http://www.weibo.com/5220650532/BtUbkjBNK) ] + +> 2014-10-29 @BigData大数据: #Jeff Dean视频#高富帅Dean,MR, Spanner, Pregel等顶级系统的首席&Google Fellow,已全面转向做深度学习,刚传了一个去年斯坦福的视频做开胃小菜,本视频是Jeff本月在RecSys上主题讲演,因时间冲突Jeff罕见缺席OSDI而去RecSys,http://t.cn/R7KyzrC @数盟社区 @好东西传送门 @杨静Lillian @龙星镖局 [ [微博](http://www.weibo.com/2870219257/BtMlfDJal) ] + +2014-10-29 嗯,很好的PostgreSQL网页管理工具 //@网路冷眼: 是简约,简约而不简单[酷] //@2gua: 很简洁啊 [ [微博](http://www.weibo.com/5220650532/BtL86ALD4) ] + +> 2014-10-28 @网路冷眼: #工具分享#【pgweb:基于Web的PostgreSQL数据管理工具】http://t.cn/R7SvBMV pgweb采用Go语言编写,能运行在Mac OS,Linux和Windows等主流平台,和MySQL数据库的管理工具phpmyadmin有异曲同工之妙。@Linux中国 @好东西传送门 @伯乐头条 [ [微博](http://www.weibo.com/1715118170/BtH3U7sa4) ] + +2014-10-29 感谢 @36大数据网 @李沐M @hsunway @Python开发者 @龙星镖局 @人见人爱花见花开的土豆 。昨天回答了特征学习学习资料和深度学习用于语音识别的资料的两个问题。这些问题以前都被问过,见我们的Github http://t.cn/R7oBpCz 以后我们也会提供更方便的旧文检索方式 [ [微博](http://www.weibo.com/5220650532/BtL7Q5nl3) ] + +> 2014-10-29 @好东西传送门: 机器学习头条 2014-10-28 http://t.cn/R7oBq2I 1)@李沐M “人工特征工程+线性模型”的尽头 2)谣言的判别方法 3)Twitter开源云环境时间序列数据断层检测工具 4)50行Python代码写一个语言检测器 5)Wiki上的人工智能史 加长版39条 http://t.cn/R7oBq2x [ [微博](http://www.weibo.com/5220650532/BtL5Xl0LK) ] + +2014-10-29 机器学习头条 2014-10-28 http://t.cn/R7oBq2I 1)@李沐M “人工特征工程+线性模型”的尽头 2)谣言的判别方法 3)Twitter开源云环境时间序列数据断层检测工具 4)50行Python代码写一个语言检测器 5)Wiki上的人工智能史 加长版39条 http://t.cn/R7oBq2x [ [微博](http://www.weibo.com/5220650532/BtL5Xl0LK) ] + +2014-10-29 #求助# 有门友问,有什么关于中文文章情感分析的资料或者工具吗? [ [微博](http://www.weibo.com/5220650532/BtHYlzMWm) ] + +2014-10-29 text detection是经典图像处理问题,文章很多http://t.cn/R7o9Xmh 一个常用方法是maximally stable extremal regions (MSER) http://t.cn/R7o9Xm7 http://t.cn/R7o9Xmz Andrew Ng等最近也用无监督学习方法http://t.cn/R7o9XmA [ [微博](http://www.weibo.com/5220650532/BtHRH5OWE) ] + +> 2014-10-28 @--_木_--: 有什么方法可以把图片上的文字区域识别出来么? 不需要文字具体内容。 主要目的是想把图片上的文字都删除或者能删多少是多少。例如这个例子。有人有思路吗? @好东西传送门 @余轶南 @星空下的巫师 @西瓜大丸子汤 [ [微博](http://www.weibo.com/1826623915/BtHcV878K) ] + +2014-10-28 @xccds 以前推荐过Discover Feature Engineering, How to Engineer Features and How to Get Good at It http://t.cn/RhumtBN 这篇综述了特征工程的方方面面,作为基础很不错。另外一片@breezedeus 推荐的An Introduction to Feature Selection http://t.cn/R7PEiL5 也不错,列有进阶阅读参考文献 [ [微博](http://www.weibo.com/5220650532/BtDYzeALm) ] + +> 2014-10-28 @蜗牛爬nj: @好东西传送门 能推荐一下关于 特征学习方面的学习资料吗?最好全面一点的 [ [微博](http://www.weibo.com/2502391724/BtDWqfPxu) ] + +2014-10-28 文章的Bibtex等请看issue 307 http://t.cn/R7aUymw [ [微博](http://www.weibo.com/5220650532/BtDGn3DcG) ] + +> 2014-10-28 @好东西传送门: @姚启鹏要茁壮 问:现在关于谣言的判别有哪些方法,有没有一些机用器学习的方法来判别? @AixinSG 推荐Mei Qiaozhu在EMNLP 2011上的文章Rumor has it: Identifying Misinformation in Microblogs http://t.cn/R7ST9Xj @QPCN 推荐过www上的识别垃圾与虚假信息的教程 http://t.cn/R7ST9XW [ [微博](http://www.weibo.com/5220650532/BtDFWrFPY) ] + +2014-10-28 @姚启鹏要茁壮 问:现在关于谣言的判别有哪些方法,有没有一些机用器学习的方法来判别? @AixinSG 推荐Mei Qiaozhu在EMNLP 2011上的文章Rumor has it: Identifying Misinformation in Microblogs http://t.cn/R7ST9Xj @QPCN 推荐过www上的识别垃圾与虚假信息的教程 http://t.cn/R7ST9XW [ [微博](http://www.weibo.com/5220650532/BtDFWrFPY) ] + +2014-10-28 基于E-Divisive with Medians(EDM)的时间序列数据断层检测工具BreakoutDetection。Twitter的原文 Breakout detection in the wild http://t.cn/R7xmnGj Github项目主页http://t.cn/R7SI17A [ [微博](http://www.weibo.com/5220650532/BtDBEwcfm) ] + +> 2014-10-28 @hsunway: Twitter开源云环境时间序列数据断层检测工具BreakoutDetection http://t.cn/R7SVnjt http://t.cn/R7SI17A [ [微博](http://www.weibo.com/1733873534/BtCpLeb49) ] + +2014-10-28 请看这条老微博:2014-08-19 [资料整理] 深度学习在语音识别的应用,入门篇: http://t.cn/RP8ll1s 向 @李开复 在CMU做的Sphinx(1988)致敬。介绍几个牛人和顶级团队: 微软 (邓力 Li Deng )和谷歌 (Vincent Vanhoucke, Geoffrey E. Hinton) http://t.cn/R7SfRJ1 [ [微博](http://www.weibo.com/5220650532/BtClC82OQ) ] + +> 2014-10-28 @Syndrome_suf: @好东西传送门 @我爱机器学习 @微软亚洲研究院 各位亲爱的大大,请问deep learning应用于语音识别的经典论文有哪些啊?[得意地笑][得意地笑] [ [微博](http://www.weibo.com/1762713024/BtCcgEH8a) ] + +2014-10-28 推荐。如果要看短的有AI Landscape http://t.cn/RhTXnDF 和AI Timeline http://t.cn/R7asDqM [ [微博](http://www.weibo.com/5220650532/BtzS9jxNo) ] + +> 2014-10-28 @龙星镖局: Wiki上的人工智能史 稍长一些 并且是中文的 更适合大家读 读后不得不叹 人工智能激荡几十年啊 有一句词评价AI很适合:向来回首萧瑟处,归去,也无风雨也无晴 | 我爱计算机 @52cs @好东西传送门 @老师木 http://t.cn/R7ag4f6 [ [微博](http://www.weibo.com/1830516311/BtyUMDJJD) ] + +2014-10-28 传送门看了一遍,表示同意右边意见。作者(Eren Golge)的机器学习工作流系列文章都不错 http://t.cn/R7asuLU //@phunter_lau: 很好,比较细致全面涵盖了特征工程这一脏活累活的诸多方面 [ [微博](http://www.weibo.com/5220650532/BtzQgiLY3) ] + +> 2014-10-27 @星空下的巫师: ML Work-Flow (Part 3) - Feature Extraction - A Blog From a Human-engineer-being http://t.cn/R7aQPbR [ [微博](http://www.weibo.com/1785748853/BtxMWwGjQ) ] + +2014-10-28 感谢 @研究者July @王利锋Fandy @火光摇曳Flickering @BigData大数据 @刘洋THU 头条之外今天还有不少好内容,如52nlp推荐的几种语言常用的机器学习工具包,Kenneth Kuttler的电子书线性代数理论与应用, 李航老师的《Learning to Rank》第二版等 [ [微博](http://www.weibo.com/5220650532/BtzNItsjg) ] + +> 2014-10-28 @好东西传送门: 机器学习头条 2014-10-27 http://t.cn/R7asKVK 1)最大熵模型中的数学推导 2)word2vec笔记之基础篇、算法篇和应用篇(falao_beiliu) 3)SparseLDA算法 4)Mining Big Data with Apache Spark - Reynold Xin 5)中文计算语言学会议CCL& NLP-NABD 2014论文集可下载 加长版52条 http://t.cn/R7asKV9 [ [微博](http://www.weibo.com/5220650532/BtzMgCKRI) ] + +2014-10-28 机器学习头条 2014-10-27 http://t.cn/R7asKVK 1)最大熵模型中的数学推导 2)word2vec笔记之基础篇、算法篇和应用篇(falao_beiliu) 3)SparseLDA算法 4)Mining Big Data with Apache Spark - Reynold Xin 5)中文计算语言学会议CCL& NLP-NABD 2014论文集可下载 加长版52条 http://t.cn/R7asKV9 [ [微博](http://www.weibo.com/5220650532/BtzMgCKRI) ] + +2014-10-28 常见语言的机器学习包一览 [ [微博](http://www.weibo.com/5220650532/BtzeKcm2I) ] + +> 2014-10-27 @52nlp: Open source tools make it easier to integrate machine learning into apps written in Java, 5 ways to add machine learning to Java, JavaScript, and more http://t.cn/R7a0FKR 提到了几种语言常用的机器学习工具包, 譬如scikit-learn, PyBrain, GoLearn, Mahout, Weka, Java-ML, ConvNetJS等 [ [微博](http://www.weibo.com/2104931705/Btxj9mJOe) ] + +2014-10-27 回复@新蝾螈:不能下载的可以试试右边提到的链接//@新蝾螈:貌似不能下载。但这个行:http://t.cn/R7aVqCp, 有这本书,课程大纲还有习题答案... [ [微博](http://www.weibo.com/5220650532/BtxQs1X0O) ] + +> 2014-10-27 @好东西传送门: Brigham Young University的Kenneth Kuttler把自己的《Linear Algebra, Theory And Applications》(线性代数理论与应用)全书pdf放在网上了, 500页,很数学,比Strang那本Introduction to Linear Algebra要深一些 [ [微博](http://www.weibo.com/5220650532/BtvFKbzLD) ] + +2014-10-27 这是链接 http://t.cn/R7aGZ0H [ [微博](http://www.weibo.com/5220650532/BtvH5etwv) ] + +> 2014-10-27 @好东西传送门: Brigham Young University的Kenneth Kuttler把自己的《Linear Algebra, Theory And Applications》(线性代数理论与应用)全书pdf放在网上了, 500页,很数学,比Strang那本Introduction to Linear Algebra要深一些 [ [微博](http://www.weibo.com/5220650532/BtvFKbzLD) ] + +2014-10-27 Brigham Young University的Kenneth Kuttler把自己的《Linear Algebra, Theory And Applications》(线性代数理论与应用)全书pdf放在网上了, 500页,很数学,比Strang那本Introduction to Linear Algebra要深一些 [ [微博](http://www.weibo.com/5220650532/BtvFKbzLD) ] + +2014-10-27 又想起来@QPCN 香港城市大学的教授,社交网络研究新星 @立委_米拉 在美国工作的自然语言处理老兵,常能从统计角度之外提出有营养的看法。 [ [微博](http://www.weibo.com/5220650532/BtvyDjiKf) ] + +> 2014-10-25 @好东西传送门: 中文计算机领域几个潜力股微博帐号: @Gary南京 知识和逻辑国内最重要的教授之一 @昊奋 学贯统计与知识两界,研究与工程经验都十分扎实 @AixinSG 执教新加坡,机器学习社交网络信息检索 @phunter_lau 推荐系统专家,而且有趣。当然其他大牛很多,这几个是关注的人还不算多,但绝对不该错过的。 [ [微博](http://www.weibo.com/5220650532/BtdjfEuRo) ] + +2014-10-27 转发这条是真的觉得《Python计算机视觉编程》不错。英文版原书Programming Computer Vision with Python http://t.cn/zWUbqfY 作者放出来的电子版 http://t.cn/R7a2D3Y [ [微博](http://www.weibo.com/5220650532/Btvlif0OY) ] + +> 2014-10-27 @图灵社区: #电子书本周半价# 《Python计算机视觉编程》http://t.cn/RvnpQRY 《世界顶级创业导师的洞见》http://t.cn/RvejK6O [ [微博](http://www.weibo.com/2526195981/BtviMxPdU) ] + +2014-10-27 初学者问题:如何在机器学习的语境下能达到有坚实的数学基础? 讨论见 http://t.cn/RPlPk6o @刘赛的中国梦 提到《数据挖掘中的新方法-支持向量机》(邓乃扬) 读了这本书再读 @李航博士 《统计学习方法》就会比较容易了。此外CMU等名校的机器学习课程都列有前提要求,可资参考 [ [微博](http://www.weibo.com/5220650532/Btv9Nuvqd) ] + +2014-10-27 Learning to Rank 第二版。这里以前我们收集的40多条LTR的资料,包括第一版的Google Books预览 http://t.cn/RP5WYnc [ [微博](http://www.weibo.com/5220650532/Btv3M3Yeh) ] + +> 2014-10-27 @刘知远THU: @李航博士 老师的专著《Learning to Rank for Information Retrieval and Natural Language Processing》出第二版了,关注。http://t.cn/R7ahdDU [ [微博](http://www.weibo.com/1464484735/BtuXxvnVG) ] + +2014-10-27 Reynold Xin @hashjoin http://t.cn/R7Xrqqa http://t.cn/zjLlNrX "大胡子小弟" Aaron Davidson http://t.cn/R7XrqqS [ [微博](http://www.weibo.com/5220650532/BtufWmvMc) ] + +> 2014-10-27 @BigData大数据: #Spark视频#Reynold Xin公开演讲视频,作为DataBricks的联合FOUNDER,很少接受演讲邀请,甚至在Spark Summit China 2014 和Spark Summit 2014都不发声,这次在Data Mining Meetup中终于闻其声,带着一个大胡子小弟一起演示,有兴趣的听一下。视频地址:http://t.cn/R7X00Ns @hashjoin @好东西传送门 [ [微博](http://www.weibo.com/2870219257/BttdteqpM) ] + +2014-10-27 感谢 @Jay_GraphLab @王威廉 @研究者July @高松-GISer @KissDev [ [微博](http://www.weibo.com/5220650532/BtsJM0psi) ] + +> 2014-10-27 @好东西传送门: 机器学习头条 2014-10-26 http://t.cn/R7XaMxI 1)什么R和Python的用户值得尝试GraphLab Create 2)中文微博的依存句法分析 3)邹博的PPT教程:回归与最优化,最大熵模型 4)用条件概率模型估计全球机场埃博拉病毒传染风险 5)计算广告学斯坦福和 @北冥乘海生 的入门课程 加长版41条 http://t.cn/R7XaMxx [ [微博](http://www.weibo.com/5220650532/BtsI5oBIJ) ] + +2014-10-27 机器学习头条 2014-10-26 http://t.cn/R7XaMxI 1)什么R和Python的用户值得尝试GraphLab Create 2)中文微博的依存句法分析 3)邹博的PPT教程:回归与最优化,最大熵模型 4)用条件概率模型估计全球机场埃博拉病毒传染风险 5)计算广告学斯坦福和 @北冥乘海生 的入门课程 加长版41条 http://t.cn/R7XaMxx [ [微博](http://www.weibo.com/5220650532/BtsI5oBIJ) ] + +2014-10-27 握手!Linux下的矢量编辑,Skencil也很好用,而且是用Python写的 http://t.cn/h4Fphj EPS转化的话,Linux下最好用的是convert命令(ImageMagick的一部分): convert foo.png foo.eps http://t.cn/aouUYB [ [微博](http://www.weibo.com/5220650532/BtqEB2Tb4) ] + +> 2014-10-26 @AixinSG: 多谢@好东西传送门 推荐,见识了社交媒体上推荐的力量,一下子涨了几百粉。下一步好好看看推荐系统的东西。 顺便推荐 Inkscape, 一个很强大的开源矢量图编辑软件,我只用它一个功能,把各种图片转成EPS, 用Latex写文章的可能会用得着 [ [微博](http://www.weibo.com/1025887594/Btk4l8YKQ) ] + +2014-10-27 12年UCLA Summer School《深度学习和特征学习》 [ [微博](http://www.weibo.com/5220650532/BtpPH83mm) ] + +> 2014-10-26 @龙星镖局: 12年UCLA Summer School的主题是《深度学习和特征学习》,报告者有Hinton、LeCun、 Ng 、 Bengio、Weston 和@余凯_西二旗民工 等一线大牛。讲座PPT和视频都可以在http://t.cn/R7JRbhv 下载观看。@breezedeus @好东西传送门 @developerWorks [ [微博](http://www.weibo.com/1830516311/BtmYiB4cO) ] + +2014-10-26 回复@kingkg28-zhou: 不需要,有一点设计网页的经验最好,帮网站参谋一下网页的排版设计,然后每周在周报发出去之前帮着看一眼是不是有不妥或重复,应该10-20分钟就够了。内容都会在Github上发布 http://t.cn/RPfAgNg //@kingkg28-zhou:需要专业基础吗? [ [微博](http://www.weibo.com/5220650532/BtlH451OK) ] + +> 2014-10-26 @好东西传送门: http://t.cn/R76cfVx 刚刚发了上周的《好东西周报》。上周我们共推荐了87次好东西,最热门前十条见长微博。BTW, 《好东西周报》的网站需要一个志愿者,这个工作会是开源的,有门友感兴趣吗?在这条微博下留言或私信都可以 [ [微博](http://www.weibo.com/5220650532/BtlELCfsn) ] + +2014-10-26 http://t.cn/R76cfVx 刚刚发了上周的《好东西周报》。上周我们共推荐了87次好东西,最热门前十条见长微博。BTW, 《好东西周报》的网站需要一个志愿者,这个工作会是开源的,有门友感兴趣吗?在这条微博下留言或私信都可以 [ [微博](http://www.weibo.com/5220650532/BtlELCfsn) ] + +2014-10-26 //@龙星镖局: @刘知远THU @刘挺 @AixinSG @白硕SH @Bing_Liu_25 @黄亮-算法时代 这个材料值得nlp的童鞋看看,请大家扩散一下[呵呵] [ [微博](http://www.weibo.com/5220650532/Btlt4vaEl) ] + +> 2014-10-25 @龙星镖局: 做自然语言处理和语音识别的都应该看看大牛 Kevin Duh 的这个资料《语言的世界》(英文题目是 Languages of the World),http://t.cn/R7i2Jvj 。他从语言的定义、起源、发展、各语系的分类、特点、差异等方面对要“语言”进行了认识。如果你对所要解决的问题都没有认识,何谈研究呢? [ [微博](http://www.weibo.com/1830516311/BteMrhtLx) ] + +2014-10-26 http://t.cn/R76vke8 @龙星镖局 推荐:Kevin Duh 《Languages of the World》(语言的世界)。Duh是奈良尖端科学技术大学院大学助理教授,从事自然语言处理与机器学习。这个PPT里他简要介绍了世界各大语言的谱系,和它们的一些语言特征。交互式世界语言地图网站请看WALS http://t.cn/zOJbnFn [ [微博](http://www.weibo.com/5220650532/BtkuG1txH) ] + +2014-10-26 推荐coursera上现在的一门课Automata(自动机),主讲人斯坦福Jeff Ullman(名教材Dragon Book和Cinderella book的作者)讲了计算复杂性和可计算性的一些入门基础问题,如图灵机,上下文无关文法,NP完全问题等 http://t.cn/zOSSPKE [ [微博](http://www.weibo.com/5220650532/Btjv1xmpx) ] + +2014-10-26 论文直达传送门 http://t.cn/R7iEt4z 交互式demo传送门 http://t.cn/R7iEt4h 用的是很基础的贝叶斯概率。 [ [微博](http://www.weibo.com/5220650532/BtjplisEg) ] + +> 2014-10-26 @高松-GISer: #关注埃博拉# 德国复杂系统研究小组Brockmann Lab利用全球航空网络和航空客流数据、根据条件概率模型估计了各机场和全球各大区域的病毒传染风险指数。把结果利用D3+JS Web可视化表达出来 http://t.cn/R7iXyFU [ [微博](http://www.weibo.com/1638623287/BtgEylClD) ] + +2014-10-26 这本书的v1有简体中文版 http://t.cn/R7iHHIa 解释繁略得当,例子实用。第二版大大扩展了Git Tools,新增Github一章,比第一版更能帮助大家少走弯路 [ [微博](http://www.weibo.com/5220650532/Btj5Sdr1t) ] + +> 2014-10-25 @网路冷眼: #干货分享#【免费的电子书Pro Git发布2.0】http://t.cn/R7izIzo Git方面最重要采用共享协议的电子书发布英文第2版,提供PDF, mobi和ePub三种格式免费下载 。1.0有中文在线版本。[doge]@2gua 请收深夜福利!cc @好东西传送门 @伯乐头条 @孢子响马 @极客头条 @developerWorks [ [微博](http://www.weibo.com/1715118170/Btfo60pID) ] + +2014-10-26 感谢 @KissDev @包云岗 @bruinxiong 特别是 @龙星镖局 昨天一口气推荐了好几个好资源,除了头条里这条还有深度学习干货集,Mehryar Mohri《Foundations of Machine Learning》Jordan《On the Computational and Statistical Interface and Big Data》 [ [微博](http://www.weibo.com/5220650532/Btj2cpiJo) ] + +> 2014-10-26 @好东西传送门: 机器学习头条 2014-10-25 http://t.cn/R7iTf3f 1)Kevin Duh 《语言的世界》 2)数据科学领域酷的免费数据集 3)LinkedIn工程师:面向搜索的大规模机器学习 4)@陈云霁 等:机器学习超级计算机DaDianNao 5)胡哲:从CVPR 2014看计算机视觉领域的最新热点 加长版56条 http://t.cn/R7iTf3V [ [微博](http://www.weibo.com/5220650532/BtiYktmcm) ] + +2014-10-26 机器学习头条 2014-10-25 http://t.cn/R7iTf3f 1)Kevin Duh 《语言的世界》 2)数据科学领域酷的免费数据集 3)LinkedIn工程师:面向搜索的大规模机器学习 4)@陈云霁 等:机器学习超级计算机DaDianNao 5)胡哲:从CVPR 2014看计算机视觉领域的最新热点 加长版56条 http://t.cn/R7iTf3V [ [微博](http://www.weibo.com/5220650532/BtiYktmcm) ] + +2014-10-26 潜力股+1 最右PayPal数据科学负责人。欢迎大家继续推荐! //@phunter_lau: 我推荐右边,你点了这片文章就会乖乖回来关注他的 http://t.cn/RhDrpIl //@丁磊-data: 膜拜 [ [微博](http://www.weibo.com/5220650532/Btge5tkSC) ] + +> 2014-10-25 @好东西传送门: 中文计算机领域几个潜力股微博帐号: @Gary南京 知识和逻辑国内最重要的教授之一 @昊奋 学贯统计与知识两界,研究与工程经验都十分扎实 @AixinSG 执教新加坡,机器学习社交网络信息检索 @phunter_lau 推荐系统专家,而且有趣。当然其他大牛很多,这几个是关注的人还不算多,但绝对不该错过的。 [ [微博](http://www.weibo.com/5220650532/BtdjfEuRo) ] + +2014-10-25 摘要:Devavrat Shah和Kang Zhang从各大Bitcoin交易所收集了五个月的价格数据,利用“Bayesian regression”来预测价格 [ [微博](http://www.weibo.com/5220650532/Btfknv8Jm) ] + +> 2014-10-25 @网路冷眼: 【麻省理工学院科学家能够预测比特币价格】http://t.cn/R7xOxQt 麻省理工学院计算机科学和人工智能实验室和信息和决策系统实验室研究人员最近开发出机器学习算法,可以预测比特币的价格波动,50天时间内这个团队使投资翻番。 [威武] @好东西传送门 [ [微博](http://www.weibo.com/1715118170/Bt9lDdkpp) ] + +2014-10-25 Dileep Bhandarkar, IEEE Fellow. Amazing Journey From Mainframes To Smartphones 原文是pdf [ [微博](http://www.weibo.com/5220650532/BtfiIlprC) ] + +> 2014-10-25 @effectivewang: Computer History这个不错 http://t.cn/R7i2b13 高通VP讲芯片历史 @好东西传送门 [ [微博](http://www.weibo.com/1801673705/BteLInxSS) ] + +2014-10-25 中文计算机领域几个潜力股微博帐号: @Gary南京 知识和逻辑国内最重要的教授之一 @昊奋 学贯统计与知识两界,研究与工程经验都十分扎实 @AixinSG 执教新加坡,机器学习社交网络信息检索 @phunter_lau 推荐系统专家,而且有趣。当然其他大牛很多,这几个是关注的人还不算多,但绝对不该错过的。 [ [微博](http://www.weibo.com/5220650532/BtdjfEuRo) ] + +2014-10-25 //@昊奋:要了解更多schema.org的质量和语义等,可以挪步iswc2014 peter的analyzing schema.org,以及chris bizer对于lod和schema.org的全面比较 [ [微博](http://www.weibo.com/5220650532/BtdfehmmW) ] + +> 2014-10-24 @Gary南京: google跟facebook在KDD2014关于知识图谱的一个比较全面的介绍,值得看看:http://t.cn/R7IDq3E [ [微博](http://www.weibo.com/2784224080/BsZkfdlQD) ] + +2014-10-25 Python日报 2014-10-24 http://t.cn/R7JEphe 比较新颖的有@ARGV 推荐的pygrok正则表达式包 @Python开发者 推荐的pycrumbs 可以和更新的Awesome Python参照着看 http://t.cn/RvmZMyi Pypi更新里有一个新的任务队列工具WorQ。Python日报近期还会改版,增加更丰富的内容。 [ [微博](http://www.weibo.com/5220650532/Btdaok9SC) ] + +2014-10-25 @陆浑戎 @设定控 @殆知阁 几位文史类的资源帝,有人问能不能找到49年以前的《南洋学报》,你们有没有印象或者线索? [ [微博](http://www.weibo.com/5220650532/BtcahsUR2) ] + +2014-10-25 //@李航博士: 强烈推荐#WSDM2015#的主题报告。你可能不知道Michael Franklin,但了解Spark;你可能没听说过Thorsten Joachims,但用过SVMLight;你也许不知晓Lada Adamic,但耳闻过Information Diffusion。尚有更过精彩的内容即将公布。 [ [微博](http://www.weibo.com/5220650532/Btc6WjbEi) ] + +> 2014-10-25 @WSDM2015: WSDM 2015邀请了数据科学领域的三位大牛来做主题报告:分别是Facebook的Lada Adamic,UC Berkeley的Michael Franklin,和Cornell的Thorsten Joachims。详细介绍:http://t.cn/R7Jyy0g [ [微博](http://www.weibo.com/5144018575/BtaF5pIgr) ] + +2014-10-25 请看以前的两条问答:《智能问答系统:心得点评与文献列表》 http://t.cn/R7JfGkY 《现今有哪些成功的智能问答系统》http://t.cn/R7JfGkQ 还有最近 @沈李斌NLP 的《问答系统中的知识图谱》http://t.cn/R7JfGkT [ [微博](http://www.weibo.com/5220650532/Btbkbbjx3) ] + +> 2014-10-25 @tornadomeet: @好东西传送门 帮找一些问答系统的好资料,ths. [ [微博](http://www.weibo.com/1750766782/Btb9mnFZt) ] + +2014-10-25 感谢 @星空下的巫师 @52nlp @Surah_Li @数盟社区 @Gary南京 今天的邮件继续测试发送了长版。不知道大家在阅读时间,打开速度,排版方面有什么意见?欢迎在下面留言告诉我。 [ [微博](http://www.weibo.com/5220650532/Bt8Rjy80c) ] + +> 2014-10-25 @好东西传送门: 机器学习头条 2014-10-24 http://t.cn/R7xuJTA 1)R语言的SVM教程 2)用 IBM Watson和Bluemix构造问答系统的详解 3)Robert Tibshirani讲Lasso应用于癌症检测PPT 4)机器学习中的范数规则化:L0、L1与L2范数 5)KDD2014上的知识图谱介绍 加长版45条 http://t.cn/R7xuJT2 [ [微博](http://www.weibo.com/5220650532/Bt8QEshPl) ] + +2014-10-25 机器学习头条 2014-10-24 http://t.cn/R7xuJTA 1)R语言的SVM教程 2)用 IBM Watson和Bluemix构造问答系统的详解 3)Robert Tibshirani讲Lasso应用于癌症检测PPT 4)机器学习中的范数规则化:L0、L1与L2范数 5)KDD2014上的知识图谱介绍 加长版45条 http://t.cn/R7xuJT2 [ [微博](http://www.weibo.com/5220650532/Bt8QEshPl) ] + +2014-10-25 问:有没有好用的python的excel工具库?答:功能文档都较全的有python-pptx 和openpyxl 这两个支持读写,创建电子表格。另外以读为主的有python-xlsx pyXLSX 转化excel为csv的有xlsx2csv 。当然也可以先转化excel为csv,用csv或unicodecsv包来处理。链接都在 http://t.cn/R7x8C4y [ [微博](http://www.weibo.com/5220650532/Bt851Bj3Q) ] + +2014-10-25 补充Michael Jordan原文 Why Big Data Could Be a Big Fail -- IEEE Spectrum http://t.cn/R7tmf96 . 乐村吐槽说Hinton是那种人,总想从生物学合理的角度理解大脑怎么工作,最后总是搞出来有点用但其实生物上并不靠谱的东西 [ [微博](http://www.weibo.com/5220650532/Bt7TPdJDj) ] + +> 2014-10-24 @张本宇: Yann LeCun关于Michael Jordan关于deep learning的IEEE访谈的Facebook长贴:http://t.cn/R7x6OAF,有访谈编辑的反驳,有大神Hilton的躺枪,有Jordan新博客的传送门。各种欢乐。@好东西传送门 [ [微博](http://www.weibo.com/1947318904/Bt5I2l1TL) ] + +2014-10-25 不错 [ [微博](http://www.weibo.com/5220650532/Bt7380fc7) ] + +> 2014-10-24 @whiteath: 一个小时的演讲,涵盖了很多python的特性 // A Few of My Favorite [Python] Things http://t.cn/R7xP6gQ [ [微博](http://www.weibo.com/1913607345/Bt3YZCowT) ] + +2014-10-24 osdi(操作系统设计与实现大h大会)全部视频 [ [微博](http://www.weibo.com/5220650532/Bt2iJpUNZ) ] + +> 2014-10-24 @BigData大数据: #OSDI2014#OSID http://t.cn/RPNqTrv 已经放出来全部讲演的视频,这次效率无比高,第一先推荐 Parameter Server 真心话讲,这次@李沐M 的英文比上次刚回美国暑期学校的英文听起来舒服多了,正如自己说的:还是北京待久了不会说英文了[嘻嘻] [ [微博](http://www.weibo.com/2870219257/Bt24N6fBl) ] + +2014-10-24 转发微博 [ [微博](http://www.weibo.com/5220650532/Bt2eKmeNU) ] + +> 2014-10-24 @陈天奇怪: 推荐一下之我们和@李航博士 @鲁东东胖 的ICDM论文:) A Parallel and Efficient Algorithm for Learning to Match http://t.cn/R7MolL6 。一般推荐等匹配问题的state-of-art都是基于特征的矩阵分解模型,但是这类模型很难并行化。我们的工作解决了基于特征的匹配模型的并行化问题 [ [微博](http://www.weibo.com/2397265244/Bt1SS4UZi) ] + +2014-10-24 机器学习头条 2014-10-23 http://t.cn/R7MPNz6 1)gradient boosting的tutorial 2)知识图谱PPT: 语义网上的本体推理by漆桂林 3)知识图谱PPT: 垂直知识图谱构造工具与行业应用by阮彤 4)Java NLP工具包RainbowNLP 5)Python的从文本学习模板的小工具templatemaker 加长版29条 http://t.cn/R7MPNza [ [微博](http://www.weibo.com/5220650532/Bt2dRolim) ] + +2014-10-24 回复@战术核显英伟达: 是的,所有的微博都回来了。而且我们以后会更积极地备份历史数据到Github上。只要是好东西,就永远不能让它消失 http://t.cn/RPfAgNg //@战术核显英伟达:问下所有微博都恢复了么? [ [微博](http://www.weibo.com/5220650532/Bt26uih0q) ] + +> 2014-10-24 @好东西传送门: 朋友们,我回来了!过去这一天多谢好多朋友关心和帮助,在此一并谢过! [ [微博](http://www.weibo.com/5220650532/Bt239afdZ) ] + +2014-10-24 朋友们,我回来了!过去这一天多谢好多朋友关心和帮助,在此一并谢过! [ [微博](http://www.weibo.com/5220650532/Bt239afdZ) ] 2014-10-23 感谢 @网路冷眼 @张颖峰 @龙星镖局 @梁斌penny @王威廉 今天继续做了版式的调整,以平衡不同读者对短版和长版需求的差异。以前的短版现在作为今日焦点放在最前面。没有时间的读者可以只看这5条。如果对目前的长版有更多建议,欢迎大家回信hao@memect.com, 谢谢! [ [微博](http://www.weibo.com/5220650532/BsRphENEq) ] From fd8cd73e03ccab191f6dc7272c1612757f9f1c8c Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E5=A5=BD=E4=B8=9C=E8=A5=BF=E4=BC=A0=E9=80=81=E9=97=A8?= Date: Sat, 22 Nov 2014 09:17:44 -0800 Subject: [PATCH 480/485] Create semanticweb-dl --- awesome/semanticweb-dl | 64 ++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 64 insertions(+) create mode 100644 awesome/semanticweb-dl diff --git a/awesome/semanticweb-dl b/awesome/semanticweb-dl new file mode 100644 index 0000000..675795b --- /dev/null +++ b/awesome/semanticweb-dl @@ -0,0 +1,64 @@ + 徐涵W3China 2014-11-21 08:00 +《黄智生博士谈语义网与Web 3.0》时隔多年,这篇5年前的访谈至今很大程度上仍然受用。@好东西传送门http://t.cn/RzA6G69 +好东西传送门 转发于2014-11-21 10:10 +在知识图谱已广为人知的今天,回顾这篇访谈很有必要。 +Gary南京 转发于2014-11-22 06:57 +谈语义Web最好不要把OWL和描述逻辑的作用过分夸大,因为本体不等于描述逻辑,语义Web的实现不一定要描述逻辑,描述逻辑很多东西在Web上是无用的 +任远AI 转发于2014-11-22 07:04 +OWL作为一个逻辑上的探索还是非常有价值的,提供了可计算性,完备性,正确性都有保障的情况下的一个表达能力的(近似)上界。 +徐涵W3China 转发于2014-11-22 08:05 +逻辑专家谈描述逻辑! +昊奋 转发于2014-11-22 08:48 +任何时候都有符合当前潮流需要大力推广的技术,至少在这几年,基于描述逻辑和owl知识表示的任何技术还只能停留在科研范围,不过说不定过了几年又会得到重视,deep semantic或许是一个好的名字,也应该会走从shallow learning到deep learning发展的路。 +Gary南京 转发于2014-11-22 10:22 +OWL和描述逻辑只是众多推理和表示方法中的一种,其实没那么重要,之所以最近几年红火,只是学术界吹捧的,发了很多没什么用的论文,真正实用性是很差的,一旦没有实用性,就会被抛弃,这就是近两年来描述逻辑冷下去的原因,脱离实际的推理是不会有什么影响力的 +昊奋 转发于2014-11-22 10:37 +由漆教授作这样的逻辑推理专家做出如此反思和结论,更值得称赞,同时也比我等不做逻辑的人大谈特谈来得更能让人信服 +Gary南京 转发于2014-11-22 10:48 +呵呵,@昊奋 对推理的理解也是比较深的,我之所以说这些,是因为我不认为我自己的搞描述逻辑的,我不会把自己限制在某个门派,只要是有意思的东西都可以做,其实目前真正有用的还是早期的那些产生式规则、语义网络的东西 +昊奋 转发于2014-11-22 11:05 +回复@Gary南京:这种开放的精神值得赞 +任远AI 转发于2014-11-22 12:04 +赞同不应有门派之间。不过科研成果的实用性还是很难预计的。像语义网络在早期发展的时候也没特别大的影响力,这两年才在知识图谱之类的工业界应用上开始发挥作用。所以以后逻辑方法会有怎么样的前景还很不好说。 +任远AI 转发于2014-11-22 12:09 +如果漆教授可以再详细阐述一下描述逻辑之所以实用性差的问题核心,以及结合实际的推理技术应具备的特征,会是一个很有价值的课题! +昊奋 转发于2014-11-22 12:37 +这个提议很好,不过挺难回答好,如果说清楚会对业界和学术界影响很大 +Gary南京 转发于2014-11-22 13:21 +这个要全面分析是很难的,我也是在思考当中,不过今年年初在Huddersfield的一个聚集了OWL推理的一些精英的研讨会上,大家对OWL的在大公司中是否有用的讨论中,发现其实很少有公司在用,其实OWL比较有用的也就DL-Lite, EL,就算这两个影响力其实是有限的。我说OWL实用性差就是基于此次讨论做的 +Gary南京 转发于2014-11-22 13:26 +另外,要注意的是,搞逻辑的总觉得自己的东西很有用,其实现在逻辑是基于知识库才有威力的,而真正有多少知识库是描述逻辑可以用的?知识获取的瓶颈突破不了,逻辑只是纸上谈兵而以,这就是KR不如ML和NLP的主要原因,而KR届真正意识到这点的人很少 +任远AI 转发于2014-11-22 16:23 +回复@Gary南京:我个人觉得描述逻辑的研究的出发点是相当有野心的,试图找出各种概念模型的一个可判定的最大“并集”,以此来解决异构知识的整合问题。可是工程和认知上实现并集的代价太大了,目前能做的其实只是各种模型的“交集”,这也是为什么越轻的DL相对越常用的原因。复杂DL只在极特定的领域可用 +Gary南京 转发于2014-11-22 16:46 +回复@任远AI:描述逻辑是否有用这个问题其实不需要去争论,因为肯定是有用的。不过在Web上,知识的表示是多样性的,描述逻辑只是其中一种而以,不需要过分的夸大,这就是我的观点,08年以前就是过分夸大了,照成泡沫,现在也差不多爆掉了 +Gary南京 转发于2014-11-22 16:52 +如果你去看看现在搞描述逻辑的人都在做什么你就会发现,所谓的OWL 2其实没多大影响力,大部分人都在搞DL-Lite, EL, OWL 2 RL,这其实就是对的,很多时候,越是简单的越实用。我其实对OWL 2一直就觉得没多大用,都是搞研究的人在空想的,应用中不一定是这样,只有根植于生活中的东西才有生命力 +任远AI 转发于2014-11-22 16:55 +KR和知识获取本来应该是相互依存的关系。但现在知识获取有瓶颈,KR的人等不下去,于是只能想象出一些情境来做研究。以后Linked Data和WikiData可能会给KR提供一个更扎实的基础。 +Gary南京 转发于2014-11-22 16:59 +表面上看是KR的人等不下去了,其实本质上是做KR的人没有应用驱动的去思考问题,只会去从理论方向去想问题,容易脱离实际,我觉得要真正做好KR,就需要去了解应用,而不是纸上谈兵。现在KR届的人思想太僵化,抱着自己的一某三分地不放,没有创新,最终很多组都会消亡 +任远AI 转发于2014-11-22 17:02 +这点我赞同,其实Ian和Franz早期搞DL的时候还是基于Galen和SNOMED之类的本体的,还是贴近实践的。只是搞逻辑的天生喜欢精巧复杂的东西,喜欢探讨理论上的可能性。这个算是KR领域的一个基因了。。。 +任远AI 转发于2014-11-22 17:15 +我觉得主要是逻辑这个圈子和工程师思维八字不合。像做ML或者NLP的可以说针对某个特定的应用对某个经典的模型进行改进提升了n%的精度。这种文章在KR里面是很难发的,你必须说你这个改进不是ad hoc的,有可推广性,是某种意义上的最优解。这就逼到理论的路子上去了。 +任远AI 转发于2014-11-22 17:29 +回复@Gary南京:哈哈哈深有同感。其实搞理论,搞证明,搞复杂的东西没啥错。为理论而理论,而证明而证明,而复杂而复杂就没必要的。有时候看到很多文章,框架定理一套套,证明了一堆很玄的东西,看得你热血沸腾,最后实质可以用的就那么一丁点。我就不说是谁了[doge][doge][doge] +昊奋 转发于2014-11-22 17:54 +KR只是解决知识表示和知识模型的问题,但终究还有知识获取等问题。所以要成功,一定是开放,拥抱其他领域,针对具体的问题,踏踏实实的做出一些东西。ML和NLP的深入人心也是靠做出来的 +昊奋 转发于2014-11-22 17:55 +已经很明显地说明是谁了,[嘻嘻] +昊奋 转发于2014-11-22 18:01 +一般要确定你做的是本体编辑还是ontology population还是ontology learning,对于编辑,可以用protégé或各种基于wiki的本体编辑,如果是population,如NELL等基于本体的学习算法可用,这时是生成实例,如果是最后一种情况,MPI的PATTY等可以参考,这种可以学习新的本体模式 +Gary南京 转发于2014-11-22 18:03 +回复@昊奋:是的,ML和NLP也很多灌水的论文,基本上没多大用,只是因为有应用支撑才红火起来的 +任远AI 转发于2014-11-22 18:14 +手工本体编辑很难规模化,大的本体都是十多年的努力才做成的。也许以后要用自动翻译之类的方法来生成本体 +昊奋 转发于2014-11-22 18:17 +所以在本体编辑的时候需要借助搜索或其他途径来获取现有相关本体并达到复用的目的。 +昊奋 转发于2014-11-22 18:32 +回复@anklebreaker11: 领域本体的构建请先查阅是否有相关的本体或者是否可以从通用的本体或知识库中抽取一个子集来获得。接着,再是类似NELL的方法来进一步扩充实例知识。 +昊奋 转发于2014-11-22 18:48 +回复@anklebreaker11: 医学领域比较复杂,不过你可以先了解一下LODD (linked open drug data) 以及 linked life science中涉及到的如snomed-ct等本体。另外,很多本体是包含中文标签的。当然如果涉及中医,可能需要更多依赖中文的资料,特别是医古文书籍等进行开放式抽取等。 + +​ From 78784baf59c5089040dd97a7b58a465be839c877 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E5=A5=BD=E4=B8=9C=E8=A5=BF=E4=BC=A0=E9=80=81=E9=97=A8?= Date: Sun, 23 Nov 2014 18:52:42 -0800 Subject: [PATCH 481/485] Update chinese-word-similarity.md --- awesome/chinese-word-similarity.md | 4 ++++ 1 file changed, 4 insertions(+) diff --git a/awesome/chinese-word-similarity.md b/awesome/chinese-word-similarity.md index 437c1b2..28f9374 100644 --- a/awesome/chinese-word-similarity.md +++ b/awesome/chinese-word-similarity.md @@ -80,6 +80,10 @@ http://www.weibo.com/1895401411/BhVDWofI5 http://www.weibo.com/5220650532/BnmMGBraU +@刘知远THU 转发于2014-11-23 10:09 +不少同学都在关注GloVe和word2vec并好奇它们的异同。贵系本科生史天泽利用NIPS上neural word embedding as implicit matrix factorization的结论,对两者优化目标做了简单分析和实验验证,结论整理成Linking GloVe with word2vec放在arxiv上,供大家参考,欢迎讨论和建议。http://t.cn/RzyMrkm [呵呵] + + ### ESA (Explicit Semantic Analysis) http://en.wikipedia.org/wiki/Explicit_semantic_analysis From 415f64fe90fe80d936e4dd9048fc72c3ae3246bf Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E5=A5=BD=E4=B8=9C=E8=A5=BF=E4=BC=A0=E9=80=81=E9=97=A8?= Date: Sat, 29 Nov 2014 22:42:05 -0800 Subject: [PATCH 482/485] Update manifold-learning.md --- awesome/manifold-learning.md | 2 ++ 1 file changed, 2 insertions(+) diff --git a/awesome/manifold-learning.md b/awesome/manifold-learning.md index 5a33a79..1ec4d33 100644 --- a/awesome/manifold-learning.md +++ b/awesome/manifold-learning.md @@ -1,3 +1,5 @@ +讨论与进展 issue 26 https://github.com/memect/hao/issues/26 + ## Introduction http://blog.sina.com.cn/s/blog_eccca60e0101h1d6.html @cmdyz 流形学习 (Manifold Learning) From 3ed4199a8c97e0f2f28df6a6035b08ad1d19fc67 Mon Sep 17 00:00:00 2001 From: Memect Date: Thu, 12 Feb 2015 23:24:41 -0800 Subject: [PATCH 483/485] Create archive-2014.md --- archive-2014.md | 2355 +++++++++++++++++++++++++++++++++++++++++++++++ 1 file changed, 2355 insertions(+) create mode 100644 archive-2014.md diff --git a/archive-2014.md b/archive-2014.md new file mode 100644 index 0000000..44e86a1 --- /dev/null +++ b/archive-2014.md @@ -0,0 +1,2355 @@ + +2014-11-06 @茶是真热 推荐的微博上的运维方面人士id :第三组3个: @陈沙克 (虚拟化) @vpsee (虚拟化) @扶凯 (看他网站吧,微博上说的不多) 这些是在微博发表较多的,排名无先后。很多公司内的扫地老僧不太公开表达。完整列表http://t.cn/R78mgBL 欢迎大家继续推荐 [ [微博](http://www.weibo.com/5220650532/Bv1ICjxXT) ] + +2014-11-06 @茶是真热 推荐的微博上的运维方面人士id :第二组5个:@绿小小肥 (salt) @wilbur井源 @诸超_小石头爸爸 @大舞-ukl @王关胜 (除了很专业还有很帅) 完整列表http://t.cn/R78mgBL [ [微博](http://www.weibo.com/5220650532/Bv1HQ9wAH) ] + +2014-11-06 @茶是真热 推荐的微博上的运维方面人士id :第一组5个:@Perldaily (perl,运维工具和体系) @Argv (elk,perl) @平凡的香草 @刘天其斤 @jaseywang 完整列表http://t.cn/R78mgBL [ [微博](http://www.weibo.com/5220650532/Bv1HuyZKM) ] + +2014-11-06 Google大牛讲解深度学习规模化方法,融汇机器学习和系统的前沿。@Kurtt_Lin 做了现场摘要和点评,并分享了PPT照片。推荐到今天的微信头条 http://t.cn/R78aEoJ [ [微博](http://www.weibo.com/5220650532/Bv0fFsXo4) ] + +> 2014-11-05 @Kurtt_Lin: #Face to Face with Dr. Jeff Dean# 下午在THU FIT楼听了Jeff Dean大规模深度学习的talk,也算追了“男神”一把[呵呵]。后面与Jeff交流时感觉到,他超级nice,谦虚和善,时不时也幽默一把,结束时也很有活力地喊大家一起合影。Talk内容和ppt请见:http://t.cn/R7QcsHn [ [微博](http://www.weibo.com/1567257743/BuTRS111V) ] + +2014-11-06 感谢 @Kurtt_Lin @tedsky2 @王威廉 @网路冷眼 @王威廉 今天继续有CIKM现场报道。另外Jeff Dean清华报告也有多人从不同角度分享,都在长版中 http://t.cn/R78fAlG [ [微博](http://www.weibo.com/5220650532/BuZGVzF24) ] + +> 2014-11-06 @好东西传送门: 机器学习头条 2014-11-05 http://t.cn/R78fAl4 1)Jeff Dean大规模深度学习报告 2)压缩采样介绍 3)Yago创始人Gerhard Weikum提出“大文本”概念 4)将Elasticsearch和Apache Spark部署到云端 5)NIPS 2014的大规模分布式机器学习研讨会的论文 加长版52条 http://t.cn/R78fAlG [ [微博](http://www.weibo.com/5220650532/BuZG0yHpu) ] + +2014-11-06 机器学习头条 2014-11-05 http://t.cn/R78fAl4 1)Jeff Dean大规模深度学习报告 2)压缩采样介绍 3)Yago创始人Gerhard Weikum提出“大文本”概念 4)将Elasticsearch和Apache Spark部署到云端 5)NIPS 2014的大规模分布式机器学习研讨会的论文 加长版52条 http://t.cn/R78fAlG [ [微博](http://www.weibo.com/5220650532/BuZG0yHpu) ] + +2014-11-06 数据科学小技巧汇总小小册子 //@phunter_lau: 不错,技巧的占的部分比较大,适合摸爬滚打多年的人看看 [ [微博](http://www.weibo.com/5220650532/BuXZdC32q) ] + +> 2014-11-06 @西瓜大丸子汤: Data Science by AnalyticBridge http://t.cn/R7Qr3kL 一本小书, [ [微博](http://www.weibo.com/1932835417/BuXeOEYcv) ] + +2014-11-05 这个入门系列博文非常好,节约初学者啃大不部头的时间。推荐到今天的微信摘要版: http://t.cn/R7HNHFw [ [微博](http://www.weibo.com/5220650532/BuQCTrwWn) ] + +> 2014-11-04 @研究者July: 已写的:①决策树http://t.cn/zOmMFLa,②SVMhttp://t.cn/zOeaL7j,③K近邻http://t.cn/zjLQ8Ky,④数理统计http://t.cn/zj9kZ8a,⑤最大熵http://t.cn/R7atoLH,⑥Adaboosthttp://t.cn/R7lXmhC,⑦谱聚类http://t.cn/R7jLDaB,待写的还远不只是这些:贝叶斯网络、EM、主题模型、HMM、CRF、PCA、LDA。 [ [微博](http://www.weibo.com/1580904460/BuLqE1mj8) ] + +2014-11-05 十分感谢推荐。格灵深瞳是中国最好的计算机视觉公司之一,右边经常分享一些很好的CV学习资源,机器学习日报里也常常可以看到的。[呵呵]//@格灵深瞳: 推荐一下好东西~欢迎分享@有需要的人~[熊猫] [ [微博](http://www.weibo.com/5220650532/BuQnWao51) ] + +> 2014-10-14 @好东西传送门: 很多人问到怎么订阅<机器学习日报>.为方便大家,做了个订阅按钮在主页上,域名 ml.memect.com http://t.cn/R7ZepFz .或给 hao@memect.com 发封空信,标题是 " 订阅机器学习日报 " 即可.另外,过去几期长短版的链接都加到主页上了. [ [微博](http://www.weibo.com/5220650532/BrvCDmx41) ] + +2014-11-05 //@CSDN_CODE: 邱锡鹏教授认为,目前云计算逐渐成为一个基础设施,给很多个人以及中小企业提供了低成本的解决方案,自然语言处理技术也会逐渐成为一种基础服务。要从事自然语言处理技术相关研究和开发,最好是从某个具体问题入手,了解最新的研究进展,然后借助一些开源的工具,逐渐了解 [ [微博](http://www.weibo.com/5220650532/BuQmrmtAh) ] + +> 2014-11-05 @CSDN_CODE: #开源专访# 【复旦@邱锡鹏 教授:云时代,NLP也将是一种基础服务】之前报道过复旦大学推出了基于云的自然语言处理开源项目FudanNLP,大家反馈积极。对此我们进行了深度采访,项目负责人邱锡鹏教授谈了目前自然语言处理技术发展的两大瓶颈,一是大规模语料库,二是语义表示:http://t.cn/R7HS4EO [ [微博](http://www.weibo.com/3460619722/BuQg92KvP) ] + +2014-11-05 感谢 @研究者July @PyPINews @tedsky2 @鲁东东胖 @我爱机器学习 今天长版的重头戏是CIKM的各种现场报道,不可错过。另外最近@bitslife 也分享了很多机器学习在生物信息学中的应用,向对bioinformatics感兴趣的同学推荐。 [ [微博](http://www.weibo.com/5220650532/BuQlJm3gp) ] + +> 2014-11-05 @好东西传送门: 机器学习头条 2014-11-04 http://t.cn/R7HoMMU 1)研究者July的数据挖掘博文系统汇总 2)SnowNLP中文自然语言处理工具包 3)林智仁:线性模型+特征工程 的机遇和挑战 4)神经网络实现侧向抑制的讨论 5)Learning To Rank之LambdaMART的前世今生 加长版60条 http://t.cn/R7HoMMy [ [微博](http://www.weibo.com/5220650532/BuQkI6i3G) ] + +2014-11-05 机器学习头条 2014-11-04 http://t.cn/R7HoMMU 1)研究者July的数据挖掘博文系统汇总 2)SnowNLP中文自然语言处理工具包 3)林智仁:线性模型+特征工程 的机遇和挑战 4)神经网络实现侧向抑制的讨论 5)Learning To Rank之LambdaMART的前世今生 加长版60条 http://t.cn/R7HoMMy [ [微博](http://www.weibo.com/5220650532/BuQkI6i3G) ] + +2014-11-05 http://t.cn/hRgMJ 可视化方法的元素周期表,总结了6大类100种方法,每种都有图例。打印出来帖在案头吧 [ [微博](http://www.weibo.com/5220650532/BuOg55Tpb) ] + +2014-11-04 目测为会引发极佳讨论的问题,传送门讲收集和增补大家的问答。跟踪页 http://t.cn/R7TfwMN [ [微博](http://www.weibo.com/5220650532/BuJ5dDT40) ] + +> 2014-11-04 @丕子: PCA, SVD(其他low rank*), LDA(Topic Model), K-means, Sparse Coding,Hidden Layer of Neural Network。。。等等这一大类问题应该都可以用一套理论来解释其几何意义,与向量空间、矩阵、特征值和特征向量有关的,有阐述最本质原理的文章? 比特征值和特征向量更低层的?@好东西传送门 [ [微博](http://www.weibo.com/1665335994/BuGdVDyhN) ] + +2014-11-04 根据我们的非科学统计,在@好东西传送门 的门友中,各种微博上笔记软件的被使用次数依次是 我的印象笔记 mywiz 有道云笔记收藏 mark,比例为12 : 3 : 1.6 : 1 @印象笔记 拔得头筹 [ [微博](http://www.weibo.com/5220650532/BuICza8If) ] + +2014-11-04 @王威廉 昨天推荐的“Olivier Grisel简要总结机器学习,深度学习近年进展”,传送门做了摘要版,节选了其中的核心页面,发在微信版里了 http://t.cn/R7Tzge6 原PPT号称30分钟了解,这个摘要版大概10分钟可以读完。 [ [微博](http://www.weibo.com/5220650532/BuHZWt5fq) ] + +2014-11-04 回复@禅系一之花: 请看以前的问答整理: 2014-09-10 [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY //@禅系一之花:请问有没有用Python学习概率论的书籍呀? [ [微博](http://www.weibo.com/5220650532/BuHEimICg) ] + +> 2014-11-04 @好东西传送门: 机器学习头条 2014-11-03 http://t.cn/R7YWAZ5 1)Olivier Grisel简要总结机器学习,深度学习近年进展 2)从拉普拉斯矩阵说到谱聚类 3)SVD介绍PPT 4)张巍介绍HMM 5)MLOSS机器学习开源工具集 加长版26条 http://t.cn/R7YWAZb [ [微博](http://www.weibo.com/5220650532/BuG6rqvyJ) ] + +2014-11-04 感谢 @王威廉 @研究者July @了了JIANG @Nietzsche_复杂网络机器学习 @52nlp [ [微博](http://www.weibo.com/5220650532/BuG6vxAGT) ] + +> 2014-11-04 @好东西传送门: 机器学习头条 2014-11-03 http://t.cn/R7YWAZ5 1)Olivier Grisel简要总结机器学习,深度学习近年进展 2)从拉普拉斯矩阵说到谱聚类 3)SVD介绍PPT 4)张巍介绍HMM 5)MLOSS机器学习开源工具集 加长版26条 http://t.cn/R7YWAZb [ [微博](http://www.weibo.com/5220650532/BuG6rqvyJ) ] + +2014-11-04 机器学习头条 2014-11-03 http://t.cn/R7YWAZ5 1)Olivier Grisel简要总结机器学习,深度学习近年进展 2)从拉普拉斯矩阵说到谱聚类 3)SVD介绍PPT 4)张巍介绍HMM 5)MLOSS机器学习开源工具集 加长版26条 http://t.cn/R7YWAZb [ [微博](http://www.weibo.com/5220650532/BuG6rqvyJ) ] + +2014-11-04 跨媒体知识库构建,今年第三个重要教程 //@昊奋: 继SIGMOD和KDD的相关tutorial之后的另外一个关于KG的重量级tutorial,跨媒体知识库构建是一个趋势,特别对于移动互联网时代。不过链接有些贴错,纠正如下 http://t.cn/R7Y4g7n http://t.cn/R7Y4g7E [ [微博](http://www.weibo.com/5220650532/BuEEdbCkq) ] + +> 2014-11-03 @王海勋haixun: ACM MM 2014 Tutorial with Lexing Xie: Learning Knowledge Bases for Text and Multimedia Part 1 (http://t.cn/R7YUd9Q Part 2(http://t.cn/R7YUd9H [ [微博](http://www.weibo.com/2083726665/BuCjWCcsC) ] + +2014-11-03 好东西周报 http://t.cn/R7jhDtE 过去一周一共有66条 欢迎订阅 [ [微博](http://www.weibo.com/5220650532/BuxypsIGP) ] + +2014-11-03 好消息 //@Python开发者: 好福利,转需扩散啊!!! [ [微博](http://www.weibo.com/5220650532/BuxbkomB5) ] + +> 2014-11-03 @伯乐头条: 福利:Jetbrains 推出 PyCharm 教育版,学生和教师免费使用,详见: http://t.cn/R7l12U8 cc: @Python开发者 [ [微博](http://www.weibo.com/3844704614/BuwQnpYjN) ] + +2014-11-03 @lifelogger 推荐个opencv for python的网站 http://t.cn/R7luikW 提供很多以图像搜索为目标的相关tutorial [ [微博](http://www.weibo.com/5220650532/BuwT4FQEg) ] + +> 2014-11-01 @cvnote计算机视觉笔记: 看到一博文,讲计算机视觉的四部奇书(应该叫经典吧),分别是Hartley的《多图几何》、Gonzalez的《数字图像处理》、Szeliszi的CV:Algorithm&Application、Sonka等的《图像处理,分析与机器视觉》。前三本有看过,或理论深刻或讲解细致或涉猎广泛。感觉还真想不出更经典的作品了。各位还有什么推荐么 [ [微博](http://www.weibo.com/3812841100/BuilLhEY1) ] + +2014-11-03 100 numpy exercises 简洁有力的python数值计算入门 [ [微博](http://www.weibo.com/5220650532/BuwSwFL65) ] + +> 2014-11-03 @智博是小叮当: 100 numpy exercises The goal is both to offer a quick reference for new and old users and to provide also a set of exercices for those who teach. http://t.cn/R7l3yzj @好东西传送门 [ [微博](http://www.weibo.com/1646120672/BuwLhfhzj) ] + +2014-11-03 //@路确实脚下: 再推荐两本好书《computer vision a reference guide 》和《dictionary of computer vision and image processing》//@好东西传送门:总结各位的增补 @星空下的巫师《学习OpenCV》@Nobunaga_Means《computer&machine vision》@路确实脚下 《Moden computer vision》 [ [微博](http://www.weibo.com/5220650532/BuwS6mClz) ] + +> 2014-11-01 @cvnote计算机视觉笔记: 看到一博文,讲计算机视觉的四部奇书(应该叫经典吧),分别是Hartley的《多图几何》、Gonzalez的《数字图像处理》、Szeliszi的CV:Algorithm&Application、Sonka等的《图像处理,分析与机器视觉》。前三本有看过,或理论深刻或讲解细致或涉猎广泛。感觉还真想不出更经典的作品了。各位还有什么推荐么 [ [微博](http://www.weibo.com/3812841100/BuilLhEY1) ] + +2014-11-03 感谢 @梁斌penny @李沐M @哈工大深圳_徐睿峰 @cvnote计算机视觉笔记 @刘知远THU [ [微博](http://www.weibo.com/5220650532/BuwQYlls1) ] + +> 2014-11-03 @好东西传送门: 机器学习头条 2014-11-02 http://t.cn/R7l1KEq 1)推荐系统中bias和个性化的讨论 2)推荐系统两个最好的教程 3)电子书 《Social Media Mining An Introduction》 4)计算机视觉的四部经典 5)华为诺亚方舟实验室做的小诺机器人 加长版44条 http://t.cn/R7l1KEG [ [微博](http://www.weibo.com/5220650532/BuwQTl29A) ] + +2014-11-03 机器学习头条 2014-11-02 http://t.cn/R7l1KEq 1)推荐系统中bias和个性化的讨论 2)推荐系统两个最好的教程 3)电子书 《Social Media Mining An Introduction》 4)计算机视觉的四部经典 5)华为诺亚方舟实验室做的小诺机器人 加长版44条 http://t.cn/R7l1KEG [ [微博](http://www.weibo.com/5220650532/BuwQTl29A) ] + +2014-11-03 总结各位的增补 @星空下的巫师《学习OpenCV》@Nobunaga_Means《computer&machine vision》@路确实脚下 《Moden computer vision》 [ [微博](http://www.weibo.com/5220650532/Buwxdfsdp) ] + +> 2014-11-01 @cvnote计算机视觉笔记: 看到一博文,讲计算机视觉的四部奇书(应该叫经典吧),分别是Hartley的《多图几何》、Gonzalez的《数字图像处理》、Szeliszi的CV:Algorithm&Application、Sonka等的《图像处理,分析与机器视觉》。前三本有看过,或理论深刻或讲解细致或涉猎广泛。感觉还真想不出更经典的作品了。各位还有什么推荐么 [ [微博](http://www.weibo.com/3812841100/BuilLhEY1) ] + +2014-11-03 为云设计的开源操作系统 osv.io 这里有各种平台(本地,EC2, GCE, Capstan)上跑的指南 http://t.cn/R7lY1w6 [ [微博](http://www.weibo.com/5220650532/BuvUesnP2) ] + +> 2014-10-29 @ShangguanRPI: 下一个玩具OSv http://t.cn/RhoIkLB,极有潜力。 [ [微博](http://www.weibo.com/1663264965/BtJUhBNsY) ] + +2014-11-02 @历史无限好 想做运维,不知道从何下手,能不能推荐些初级学习的资料。@茶是真热 整理了一个答案:awesome sysadmin已经非常全面了。各种常用工具、服务、HA结构的安装配置、性能、调优均涵盖。说一些比较基础的部分:先推荐两个网站,和linux使用很相关。都是拷过来答案就用的...http://t.cn/R7WQaH2 [ [微博](http://www.weibo.com/5220650532/BupNzg4Dt) ] + +2014-11-02 kaggle竞赛的获奖感言。都是些很实在的小经验,小教训,没有空话套话 http://t.cn/zjtKTWO --kaggle的口号“no free hunch”这些大实话里都体现了 [ [微博](http://www.weibo.com/5220650532/BupKBb4rf) ] + +2014-11-02 #求助# 代网友问:ensemble learning和boosting的综述,中文的有哪些推荐? issue 314 http://t.cn/R7WHzm3 [ [微博](http://www.weibo.com/5220650532/BupH84mZB) ] + +2014-11-02 15本Hadoop好书。整理者Matthew Rathbone http://t.cn/RvNhW1M [ [微博](http://www.weibo.com/5220650532/BuptZoVCf) ] + +2014-11-02 //@phunter_lau: 我觉得很好,好比挖掘技术,Alex的讲座偏向于深入挖掘机操作技术,Xavier偏重不同工地的综合挖掘方法,结合自己实际工作的问题理解这两方面都很重要(新浪微博的推荐系统就是第一个理解不深入第二个不屑于去理解,这是反面教材) [ [微博](http://www.weibo.com/5220650532/BuoyPfeK0) ] + +> 2014-11-02 @李沐M: 翻了翻推荐系统的tutorial slides,目前发现的最好的两个:一是alex前年在berkeley上课用的,简练,清晰,重点都覆盖到了 http://t.cn/R7WtFwj 二是xavier在今年cmu夏季课程用的,4小时时长,很全面。http://t.cn/R7WtFwY @phunter_lau 你怎么看? [ [微博](http://www.weibo.com/1953709481/BunUgk0Fu) ] + +2014-11-02 http://t.cn/R7WIf7e 做了一张卡片,有和预览和pdf,如果原链接打不开的可以试试。//@李武军nju: 回复@好东西传送门:可能跟我们系的服务器有关。以前有人发现用chrome浏览器不能下载,用IE直接点击打不开,但用IE点右键“另存为”可以。 //@好东西传送门:好像打不开 [ [微博](http://www.weibo.com/5220650532/Buo8a1ONj) ] + +> 2014-11-01 @李武军nju: 昨天在我们系 计算机软件新技术国家重点实验室 青年学者论坛上 做了一个报告,简要介绍了近期我们在“大数据机器学习”方面的几点尝试,包括:哈希学习,分布式学习,随机学习。分享一下胶片: http://t.cn/R7O4Ojm [ [微博](http://www.weibo.com/2309457710/Buhn8E6cw) ] + +2014-11-02 全书pdf链接直达http://t.cn/8sHGN56 也可以分章下载 2 Graph essentials 3 Network measures 4 Network models 5 Data mining essentials 6 Community analysis 7 Information diffusion in Social Media 8 Influence and homophily 9 Recommendation in social media 10 Behavior analytics [ [微博](http://www.weibo.com/5220650532/BunExtGfV) ] + +> 2014-11-02 @哈工大深圳_徐睿峰: #SMP2014# 亚利桑那州立大学 Mining Social Media : Look ahead 推荐了一本书 《Social Media Mining An Introduction》下载地址 http://t.cn/R7WGPrZ [ [微博](http://www.weibo.com/1494777880/BunDk9NrV) ] + +2014-11-02 感谢 @李武军nju @好东西传送门 @NLPJob @Kevin_机器学习_CA @西瓜大丸子汤 另外昨天的重点新闻是第三届全国社会媒体处理大会SMP2014,龙星镖局,刘知远,梁斌等分享了会上的热点。@小诺_Noah 原来是华为的机器人——李航已经分享了slides,会放入明天的日报 [ [微博](http://www.weibo.com/5220650532/Bunj13yjw) ] + +> 2014-11-02 @好东西传送门: 机器学习头条 2014-11-01 http://t.cn/R7WLGwp 1)李武军谈大数据机器学习 2)三代机器学习算法实现的演化 3)Klein和Manning关于最大熵模型PPT 4)caffe on windows 带cudnn 5)微信公众平台新增语义理解接口 加长版44条 [ [微博](http://www.weibo.com/5220650532/BunhBifai) ] + +2014-11-02 机器学习头条 2014-11-01 http://t.cn/R7WLGwp 1)李武军谈大数据机器学习 2)三代机器学习算法实现的演化 3)Klein和Manning关于最大熵模型PPT 4)caffe on windows 带cudnn 5)微信公众平台新增语义理解接口 加长版44条 [ [微博](http://www.weibo.com/5220650532/BunhBifai) ] + +2014-11-02 好东西,在Windows上也可以跑caffe。#深度学习# [ [微博](http://www.weibo.com/5220650532/Bumya5cuQ) ] + +> 2014-11-01 @Kevin_机器学习_CA: build 了一个最新的caffe on windows 带cudnn http://t.cn/R70cmkA 需要的话可以去下载 然后把所有需要的第三方库也打包了 [ [微博](http://www.weibo.com/2798235231/BudDI8ruZ) ] + +2014-11-02 数据科学关于安全的经典文章列表:Jason Trost整理的和安全有关的重要文章,都有pdf链接,覆盖领域:入侵检测,恶意软件Malware,数据收集,脆弱性分析,隐私与匿名,数据挖掘,网络犯罪,网络战等。入门必读。http://t.cn/RP21a3E [ [微博](http://www.weibo.com/5220650532/Bumenc14Y) ] + +2014-11-02 很有用的一个Python小工具dedupe,可以在csv或者数据里做数据去重(data deduplication)和实体消解(entity-resolution) Github http://t.cn/R7OkNyx 项目文档 http://t.cn/R7OkNyI 例子http://t.cn/R7OkNyM [ [微博](http://www.weibo.com/5220650532/BulWsq7fX) ] + +2014-11-02 先抛个砖:Awesome Sysadmin列表 详列了运维各种工具 http://t.cn/Rvj361W [ [微博](http://www.weibo.com/5220650532/BulFYkusW) ] + +> 2014-07-18 @历史无限好: 感觉自己不是开发的料,想做运维,不知道从何下手,能不能推荐些初级学习的资料,特别是ubuntu的,辛苦了[嘻嘻]@好东西传送门 http://t.cn/RPZdYr7 [ [微博](http://www.weibo.com/3150925993/Be6Y08pKI) ] + +2014-11-02 今年Hadoop Summit的主题演讲视频都在线,一共12个 http://t.cn/R7Oe3LG 具体题目请看图片,涉及云计算的方方面面 [ [微博](http://www.weibo.com/5220650532/BulCsy2vd) ] + +2014-11-02 求助! 求一句话点播。如果恰好知道什么资源分享一下吧。 [ [微博](http://www.weibo.com/5220650532/BukdIlJrm) ] + +> 2014-11-02 @__initial__: 针对中文文本情感分析 有哪些现成的工具包?@好东西传送门 http://t.cn/z8AqbYq [ [微博](http://www.weibo.com/1624579831/BujP92mhz) ] + +2014-11-02 小诺机器人的秘密 //@李航博士: 报告的slides在这里。 http://t.cn/R7OHblX [ [微博](http://www.weibo.com/5220650532/BujF0dTzF) ] + +> 2014-11-01 @刘知远THU: #SMP2014# @李航博士 老师介绍华为诺亚方舟实验室做的小诺机器人 @小诺_Noah 是很有意思的方向,可以自动关注人,转发帖子,评论。未来可以用上很多技术,例如摘要,翻译,自动问答,情感分析,等等。想象空间很大。 http://t.cn/R7pi9t3 [ [微博](http://www.weibo.com/1464484735/BuelGluCo) ] + +2014-11-01 //@DP金澜涛: 第一个tutorials是关于实时数据流mining的,part I比较偏理论,对构建实时数据仓库可能有帮助。part II偏实践,除了简单介绍S4,Storm等工具以外,介绍了一些流式mining的概念和思想,非学术帝们也能看得懂,不错的tutorials。 [ [微博](http://www.weibo.com/5220650532/Bueqv4tFl) ] + +> 2014-11-01 @BigData大数据: #BigData2014#BigData虽不能称为顶会,但是毕竟是世界第一个以BigData命名的会议,去年我在加州参加了第一届,今年第二届在DC刚刚结束,第一时间放出来干货,里面四个tutorial内容够翔实 http://t.cn/R70vcWZ 重点推荐第二个邢波Eric Xing的,他们组目前做DL和系统结合很厉害@好东西传送门 @数盟社区 [ [微博](http://www.weibo.com/2870219257/BuaHM1tsU) ] + +2014-11-01 Big Data Analytics Beyond Hadoop 第一章预览http://t.cn/R70aCGK 本章中作者总结了三代机器学习算法实现的演化:第一代非分布式的, 第二代工具如Mahout和Rapidminer实现基于Hadoop的扩展,第三代如Spark和Storm实现了实时和迭代数据处理。中文摘要(作者 -之诸暇)http://t.cn/RvtTFtX [ [微博](http://www.weibo.com/5220650532/BueqhsDRY) ] + +2014-11-01 感谢 @cvnote计算机视觉笔记 @bicloud笑西西 @52nlp @出门问问 @CSDN研发频道 [ [微博](http://www.weibo.com/5220650532/BuemD7sMQ) ] + +> 2014-11-01 @好东西传送门: 机器学习头条 2014-10-31 http://t.cn/R70wAaV 1)ECCV14教程:采集处理可形变的人体动物模型 2)为什么深度学习让其他机器学习算法相形见绌 3)spark上的贝叶斯学习 4)sync2014北京大会上关于人工智能方向的圆桌会议 5)@夏粉_百度 百度推荐技术论文《智能因子分解机》 加长版49条 http://t.cn/R70wAat [ [微博](http://www.weibo.com/5220650532/BubNxjrAR) ] + +2014-11-01 Query Intent Classification By Search Session Analysis,盛大topdata team [ [微博](http://www.weibo.com/5220650532/BudeR8qS9) ] + +> 2014-10-31 @清风运文: CIKM的poster总算搞定了,期待下周能在会场聆听Google Jeff Dean和微软陆奇的讲座 [ [微博](http://www.weibo.com/1527369027/Bu9ErFRDb) ] + +2014-11-01 IEEE BigData 2014 大数据会议 [ [微博](http://www.weibo.com/5220650532/BucU3AGbF) ] + +> 2014-11-01 @BigData大数据: #BigData2014#BigData虽不能称为顶会,但是毕竟是世界第一个以BigData命名的会议,去年我在加州参加了第一届,今年第二届在DC刚刚结束,第一时间放出来干货,里面四个tutorial内容够翔实 http://t.cn/R70vcWZ 重点推荐第二个邢波Eric Xing的,他们组目前做DL和系统结合很厉害@好东西传送门 @数盟社区 [ [微博](http://www.weibo.com/2870219257/BuaHM1tsU) ] + +2014-11-01 更正:正确的题目翻译应该是“深度学习会不会让其他机器学习算法过时?” 感谢@haohao7 纠正 //@好东西传送门: Quora值得一读的讨论:为什么深度学习让其他机器学习算法相形见绌?参与人中有Google DeepMind团队的Jack Rae [ [微博](http://www.weibo.com/5220650532/BubPP8eWK) ] + +> 2014-10-31 @bicloud笑西西: Will deep learning make other Machine Learning algorithms obsolete? http://t.cn/R7pJuvQ [ [微博](http://www.weibo.com/1640260361/Bu89jsvdz) ] + +2014-11-01 Quora值得一读的讨论:为什么深度学习让其他机器学习算法相形见绌?参与人中有Google DeepMind团队的Jack Rae [ [微博](http://www.weibo.com/5220650532/BubzpecZr) ] + +> 2014-10-31 @bicloud笑西西: Will deep learning make other Machine Learning algorithms obsolete? http://t.cn/R7pJuvQ [ [微博](http://www.weibo.com/1640260361/Bu89jsvdz) ] + +2014-10-31 spark上的贝叶斯学习,用python的pymc包 [ [微博](http://www.weibo.com/5220650532/Bu7CprXpq) ] + +> 2014-10-31 @52nlp: Bayesian Machine Learning on Apache Spark http://t.cn/R7p5RJX 关键词:Markov Chain Monte Carlo (MCMC) Methods, PyMC, Spark, PyMC on Spark, Topic Modeling with MCMC, Distributed LDA on Spark with PyMC [ [微博](http://www.weibo.com/2104931705/Bu7BE77Rp) ] + +2014-10-31 《PostgreSQL 中文资料汇总》 谭峰(@francs3 ,PostgreSQL 中文社区版主)整理,挺有用的 http://t.cn/8F4CZ9J 另外作者和黄坚将《PostgreSQL 9 Admin Cookbook》翻译成了中文 [good] http://t.cn/8FBhLZm [ [微博](http://www.weibo.com/5220650532/Bu74plHpM) ] + +2014-10-31 在想以后《机器学习日报》是不是该出一个专栏叫“千万别错过的讲座”,比如这个 [ [微博](http://www.weibo.com/5220650532/Bu5IS0xTr) ] + +> 2014-10-31 @刘知远THU: Google Senior Fellow Jeff Dean 将于下周三(11月5日)14:30在清华大学FIT大楼多功能报告厅做学术报告:Scaling Deep Learning,由 @孙茂松 教授主持。欢迎对深度学习和大规模机器学习技术感兴趣的同学来与Jeff Dean面对面。 [ [微博](http://www.weibo.com/1464484735/Bu5GPvrJR) ] + +2014-10-31 这个文本可视化综述是真心好,足足一百种方法,以前最多见过其中十几种 textvis.lnu.se 瑞典Linnaeus University出品 [good] [ [微博](http://www.weibo.com/5220650532/Bu5GxvOOP) ] + +> 2014-10-30 @AixinSG: 非常直观的文本可视化综述:Text Visualization Browser: A Visual Survey of Text Visualization Techniques http://t.cn/R79Ye47 [ [微博](http://www.weibo.com/1025887594/BtUsZ5Ntg) ] + +2014-10-31 好长,里面@白硕SH 老师说的那段也不错。神经网络这一轮复兴,也许能比上一轮维持得久一点。 [ [微博](http://www.weibo.com/5220650532/Bu5xmnnIZ) ] + +> 2014-10-31 @BigData大数据: #脑机计算#目前很多很多BRAIN,什么百度Google大脑,也有脑计划,容易把人弄糊涂,最近Jordan也跳出来说别动不动把脑扯上关系,最近科学院也出了Diannao DaDiannao, 新近 @杨静Lillian 对 @潘布衣 的专访,http://t.cn/R7NcpVb 布衣明确了一些容易混淆视听的概念 不能错过 @好东西传送门 [ [微博](http://www.weibo.com/2870219257/Bu3V8apUx) ] + +2014-10-31 关于Tableau和ggplot2的比较,看这条微博 http://t.cn/R7NTgi5 @海中的沙粒 [ [微博](http://www.weibo.com/5220650532/Bu5ui4JwL) ] + +> 2014-10-20 @数据可视化Tableau: #Tableau 8 权威指南上架# 很高兴和大家分享由我们公司员工翻译的《tableau 8 权威指南》一书,该书是目前国内最详细介绍tableau最新大版本数据可视化制作的书,全书彩印,并配有视频和示例。各大网店均有售。中国传媒大学教授博导 @沈浩老师 、北大博导袁老师 @晓如微博(名字不分先后)写序推荐! [ [微博](http://www.weibo.com/3196853784/BsrPrEzlu) ] + +2014-10-31 感谢 @ICTCLAS张华平博士 @十月伤感wb @中国云计算论坛 @差哥 @AixinSG 今天的长版里注意到@齐梁后尘 和@殆知阁 起的一个话题 http://t.cn/R7NL4l2 涉及到古籍整理中的自然语言处理,貌似可以发展成有趣的话题,大家可以去那里各抒己见 [ [微博](http://www.weibo.com/5220650532/Bu2sdneLn) ] + +> 2014-10-31 @好东西传送门: 机器学习头条 2014-10-30 http://t.cn/R7NLzFG 1)SMP2014第三届全国社会媒体处理大会手册 2)100个推荐系统相关的视频 3)数据挖掘基础:分词入门 4)四种传统的自然语言生成技术及其优缺点 5)非常直观的文本可视化综述 加长版30条 http://t.cn/R7NLzFq [ [微博](http://www.weibo.com/5220650532/Bu2qiyeBs) ] + +2014-10-31 机器学习头条 2014-10-30 http://t.cn/R7NLzFG 1)SMP2014第三届全国社会媒体处理大会手册 2)100个推荐系统相关的视频 3)数据挖掘基础:分词入门 4)四种传统的自然语言生成技术及其优缺点 5)非常直观的文本可视化综述 加长版30条 http://t.cn/R7NLzFq [ [微博](http://www.weibo.com/5220650532/Bu2qiyeBs) ] + +2014-10-30 SO上一篇很好的问答:SQL和Prolog的异同。很多人可能没有意识到,SQL其实是一种logic program(逻辑程序)。它和Prolog这类逻辑程序的区别则在于SQL主要是事实和集合(关系)引擎,而prolog是规则和推理引擎(所以可以处理“语义”)。SQL主要是服务器端语言,Prolog主要是客户端语言。http://t.cn/zjUlI3G [ [微博](http://www.weibo.com/5220650532/BtWTh7TJU) ] + +2014-10-30 先记这issue 311 http://t.cn/R7Ch44x 参老问题108“求推荐靠谱的自动摘要软件/服务”的初步答案http://t.cn/RPgzu6p 另外snownlp内置了一个简单的中文摘要模块http://t.cn/8kf1c3p (TextRank算法) [ [微博](http://www.weibo.com/5220650532/BtVWPeDpX) ] + +> 2014-10-30 @流川和他的偏见: #求助#@好东西传送门 有木有什么自动摘要的工具 我真的找了好久 …… http://t.cn/R79MNO8 [ [微博](http://www.weibo.com/2560968763/BtRjqbaiC) ] + +2014-10-30 W3C主席,Web发明人Tim Berners-Lee今天在w3c 20年庆典上的主题演讲http://t.cn/R79rwZe ,系统阐述了历史回顾,万维网协作,新一代的社交网络,为什么开放性极其重要和W3C的使命。@lidingpku 做了简明摘要 http://t.cn/R79rwZF [ [微博](http://www.weibo.com/5220650532/BtVkJkDXU) ] + +2014-10-30 很好的可视化。写篇文章讲讲是怎么做的吧 [ [微博](http://www.weibo.com/5220650532/BtVg0dxAd) ] + +> 2014-10-30 @规勒个划: 基于位置微博的人口流动分析(草图),原始数据约1000余万条(6天),一个星期搭建好计算框架,跑一次2小时,不过可以分步执行,哈哈 [ [微博](http://www.weibo.com/1012425625/BtUOP2e05) ] + +2014-10-30 感谢 @Copper_PKU @杨静Lillian @hashjoin @BigData大数据 [ [微博](http://www.weibo.com/5220650532/BtUzz9yNL) ] + +> 2014-10-30 @好东西传送门: 机器学习头条 2014-10-29 http://t.cn/R79Tsst 1)A Fast And Scalable Topic-Modeling Toolbox 2)交互式搜索:改变世界的百度智能界面 3)腾讯TDW千台Spark千亿节点对相似度计算 4)Jeff Dean在RecSys上主题讲演 5)Geoff Hinton演讲视频,指点DL未来走势 加长版48条 http://t.cn/R79Tssc [ [微博](http://www.weibo.com/5220650532/BtUzqAyu5) ] + +2014-10-30 机器学习头条 2014-10-29 http://t.cn/R79Tsst 1)A Fast And Scalable Topic-Modeling Toolbox 2)交互式搜索:改变世界的百度智能界面 3)腾讯TDW千台Spark千亿节点对相似度计算 4)Jeff Dean在RecSys上主题讲演 5)Geoff Hinton演讲视频,指点DL未来走势 加长版48条 http://t.cn/R79Tssc [ [微博](http://www.weibo.com/5220650532/BtUzqAyu5) ] + +2014-10-30 五种LDA方法Distributed collapsed Gibbs sampling DCGS, Asynchronous DCGS, Fast collapsed Gibbs sampling,Fast collapsed variational inference, Efficient collapsed Gibbs sampling [ [微博](http://www.weibo.com/5220650532/BtUi478w4) ] + +> 2014-10-29 @Copper_PKU: 重新学习Topic Model鸟 找个一个不错的合集 “A Fast And Scalable Topic-Modeling Toolbox” http://t.cn/R7KkI9O [ [微博](http://www.weibo.com/1758509357/BtPotfW08) ] + +2014-10-30 转发微博 [ [微博](http://www.weibo.com/5220650532/BtUbkjBNK) ] + +> 2014-10-29 @BigData大数据: #Jeff Dean视频#高富帅Dean,MR, Spanner, Pregel等顶级系统的首席&Google Fellow,已全面转向做深度学习,刚传了一个去年斯坦福的视频做开胃小菜,本视频是Jeff本月在RecSys上主题讲演,因时间冲突Jeff罕见缺席OSDI而去RecSys,http://t.cn/R7KyzrC @数盟社区 @好东西传送门 @杨静Lillian @龙星镖局 [ [微博](http://www.weibo.com/2870219257/BtMlfDJal) ] + +2014-10-29 嗯,很好的PostgreSQL网页管理工具 //@网路冷眼: 是简约,简约而不简单[酷] //@2gua: 很简洁啊 [ [微博](http://www.weibo.com/5220650532/BtL86ALD4) ] + +> 2014-10-28 @网路冷眼: #工具分享#【pgweb:基于Web的PostgreSQL数据管理工具】http://t.cn/R7SvBMV pgweb采用Go语言编写,能运行在Mac OS,Linux和Windows等主流平台,和MySQL数据库的管理工具phpmyadmin有异曲同工之妙。@Linux中国 @好东西传送门 @伯乐头条 [ [微博](http://www.weibo.com/1715118170/BtH3U7sa4) ] + +2014-10-29 感谢 @36大数据网 @李沐M @hsunway @Python开发者 @龙星镖局 @人见人爱花见花开的土豆 。昨天回答了特征学习学习资料和深度学习用于语音识别的资料的两个问题。这些问题以前都被问过,见我们的Github http://t.cn/R7oBpCz 以后我们也会提供更方便的旧文检索方式 [ [微博](http://www.weibo.com/5220650532/BtL7Q5nl3) ] + +> 2014-10-29 @好东西传送门: 机器学习头条 2014-10-28 http://t.cn/R7oBq2I 1)@李沐M “人工特征工程+线性模型”的尽头 2)谣言的判别方法 3)Twitter开源云环境时间序列数据断层检测工具 4)50行Python代码写一个语言检测器 5)Wiki上的人工智能史 加长版39条 http://t.cn/R7oBq2x [ [微博](http://www.weibo.com/5220650532/BtL5Xl0LK) ] + +2014-10-29 机器学习头条 2014-10-28 http://t.cn/R7oBq2I 1)@李沐M “人工特征工程+线性模型”的尽头 2)谣言的判别方法 3)Twitter开源云环境时间序列数据断层检测工具 4)50行Python代码写一个语言检测器 5)Wiki上的人工智能史 加长版39条 http://t.cn/R7oBq2x [ [微博](http://www.weibo.com/5220650532/BtL5Xl0LK) ] + +2014-10-29 #求助# 有门友问,有什么关于中文文章情感分析的资料或者工具吗? [ [微博](http://www.weibo.com/5220650532/BtHYlzMWm) ] + +2014-10-29 text detection是经典图像处理问题,文章很多http://t.cn/R7o9Xmh 一个常用方法是maximally stable extremal regions (MSER) http://t.cn/R7o9Xm7 http://t.cn/R7o9Xmz Andrew Ng等最近也用无监督学习方法http://t.cn/R7o9XmA [ [微博](http://www.weibo.com/5220650532/BtHRH5OWE) ] + +> 2014-10-28 @--_木_--: 有什么方法可以把图片上的文字区域识别出来么? 不需要文字具体内容。 主要目的是想把图片上的文字都删除或者能删多少是多少。例如这个例子。有人有思路吗? @好东西传送门 @余轶南 @星空下的巫师 @西瓜大丸子汤 [ [微博](http://www.weibo.com/1826623915/BtHcV878K) ] + +2014-10-28 @xccds 以前推荐过Discover Feature Engineering, How to Engineer Features and How to Get Good at It http://t.cn/RhumtBN 这篇综述了特征工程的方方面面,作为基础很不错。另外一片@breezedeus 推荐的An Introduction to Feature Selection http://t.cn/R7PEiL5 也不错,列有进阶阅读参考文献 [ [微博](http://www.weibo.com/5220650532/BtDYzeALm) ] + +> 2014-10-28 @蜗牛爬nj: @好东西传送门 能推荐一下关于 特征学习方面的学习资料吗?最好全面一点的 [ [微博](http://www.weibo.com/2502391724/BtDWqfPxu) ] + +2014-10-28 文章的Bibtex等请看issue 307 http://t.cn/R7aUymw [ [微博](http://www.weibo.com/5220650532/BtDGn3DcG) ] + +> 2014-10-28 @好东西传送门: @姚启鹏要茁壮 问:现在关于谣言的判别有哪些方法,有没有一些机用器学习的方法来判别? @AixinSG 推荐Mei Qiaozhu在EMNLP 2011上的文章Rumor has it: Identifying Misinformation in Microblogs http://t.cn/R7ST9Xj @QPCN 推荐过www上的识别垃圾与虚假信息的教程 http://t.cn/R7ST9XW [ [微博](http://www.weibo.com/5220650532/BtDFWrFPY) ] + +2014-10-28 @姚启鹏要茁壮 问:现在关于谣言的判别有哪些方法,有没有一些机用器学习的方法来判别? @AixinSG 推荐Mei Qiaozhu在EMNLP 2011上的文章Rumor has it: Identifying Misinformation in Microblogs http://t.cn/R7ST9Xj @QPCN 推荐过www上的识别垃圾与虚假信息的教程 http://t.cn/R7ST9XW [ [微博](http://www.weibo.com/5220650532/BtDFWrFPY) ] + +2014-10-28 基于E-Divisive with Medians(EDM)的时间序列数据断层检测工具BreakoutDetection。Twitter的原文 Breakout detection in the wild http://t.cn/R7xmnGj Github项目主页http://t.cn/R7SI17A [ [微博](http://www.weibo.com/5220650532/BtDBEwcfm) ] + +> 2014-10-28 @hsunway: Twitter开源云环境时间序列数据断层检测工具BreakoutDetection http://t.cn/R7SVnjt http://t.cn/R7SI17A [ [微博](http://www.weibo.com/1733873534/BtCpLeb49) ] + +2014-10-28 请看这条老微博:2014-08-19 [资料整理] 深度学习在语音识别的应用,入门篇: http://t.cn/RP8ll1s 向 @李开复 在CMU做的Sphinx(1988)致敬。介绍几个牛人和顶级团队: 微软 (邓力 Li Deng )和谷歌 (Vincent Vanhoucke, Geoffrey E. Hinton) http://t.cn/R7SfRJ1 [ [微博](http://www.weibo.com/5220650532/BtClC82OQ) ] + +> 2014-10-28 @Syndrome_suf: @好东西传送门 @我爱机器学习 @微软亚洲研究院 各位亲爱的大大,请问deep learning应用于语音识别的经典论文有哪些啊?[得意地笑][得意地笑] [ [微博](http://www.weibo.com/1762713024/BtCcgEH8a) ] + +2014-10-28 推荐。如果要看短的有AI Landscape http://t.cn/RhTXnDF 和AI Timeline http://t.cn/R7asDqM [ [微博](http://www.weibo.com/5220650532/BtzS9jxNo) ] + +> 2014-10-28 @龙星镖局: Wiki上的人工智能史 稍长一些 并且是中文的 更适合大家读 读后不得不叹 人工智能激荡几十年啊 有一句词评价AI很适合:向来回首萧瑟处,归去,也无风雨也无晴 | 我爱计算机 @52cs @好东西传送门 @老师木 http://t.cn/R7ag4f6 [ [微博](http://www.weibo.com/1830516311/BtyUMDJJD) ] + +2014-10-28 传送门看了一遍,表示同意右边意见。作者(Eren Golge)的机器学习工作流系列文章都不错 http://t.cn/R7asuLU //@phunter_lau: 很好,比较细致全面涵盖了特征工程这一脏活累活的诸多方面 [ [微博](http://www.weibo.com/5220650532/BtzQgiLY3) ] + +> 2014-10-27 @星空下的巫师: ML Work-Flow (Part 3) - Feature Extraction - A Blog From a Human-engineer-being http://t.cn/R7aQPbR [ [微博](http://www.weibo.com/1785748853/BtxMWwGjQ) ] + +2014-10-28 感谢 @研究者July @王利锋Fandy @火光摇曳Flickering @BigData大数据 @刘洋THU 头条之外今天还有不少好内容,如52nlp推荐的几种语言常用的机器学习工具包,Kenneth Kuttler的电子书线性代数理论与应用, 李航老师的《Learning to Rank》第二版等 [ [微博](http://www.weibo.com/5220650532/BtzNItsjg) ] + +> 2014-10-28 @好东西传送门: 机器学习头条 2014-10-27 http://t.cn/R7asKVK 1)最大熵模型中的数学推导 2)word2vec笔记之基础篇、算法篇和应用篇(falao_beiliu) 3)SparseLDA算法 4)Mining Big Data with Apache Spark - Reynold Xin 5)中文计算语言学会议CCL& NLP-NABD 2014论文集可下载 加长版52条 http://t.cn/R7asKV9 [ [微博](http://www.weibo.com/5220650532/BtzMgCKRI) ] + +2014-10-28 机器学习头条 2014-10-27 http://t.cn/R7asKVK 1)最大熵模型中的数学推导 2)word2vec笔记之基础篇、算法篇和应用篇(falao_beiliu) 3)SparseLDA算法 4)Mining Big Data with Apache Spark - Reynold Xin 5)中文计算语言学会议CCL& NLP-NABD 2014论文集可下载 加长版52条 http://t.cn/R7asKV9 [ [微博](http://www.weibo.com/5220650532/BtzMgCKRI) ] + +2014-10-28 常见语言的机器学习包一览 [ [微博](http://www.weibo.com/5220650532/BtzeKcm2I) ] + +> 2014-10-27 @52nlp: Open source tools make it easier to integrate machine learning into apps written in Java, 5 ways to add machine learning to Java, JavaScript, and more http://t.cn/R7a0FKR 提到了几种语言常用的机器学习工具包, 譬如scikit-learn, PyBrain, GoLearn, Mahout, Weka, Java-ML, ConvNetJS等 [ [微博](http://www.weibo.com/2104931705/Btxj9mJOe) ] + +2014-10-27 回复@新蝾螈:不能下载的可以试试右边提到的链接//@新蝾螈:貌似不能下载。但这个行:http://t.cn/R7aVqCp, 有这本书,课程大纲还有习题答案... [ [微博](http://www.weibo.com/5220650532/BtxQs1X0O) ] + +> 2014-10-27 @好东西传送门: Brigham Young University的Kenneth Kuttler把自己的《Linear Algebra, Theory And Applications》(线性代数理论与应用)全书pdf放在网上了, 500页,很数学,比Strang那本Introduction to Linear Algebra要深一些 [ [微博](http://www.weibo.com/5220650532/BtvFKbzLD) ] + +2014-10-27 这是链接 http://t.cn/R7aGZ0H [ [微博](http://www.weibo.com/5220650532/BtvH5etwv) ] + +> 2014-10-27 @好东西传送门: Brigham Young University的Kenneth Kuttler把自己的《Linear Algebra, Theory And Applications》(线性代数理论与应用)全书pdf放在网上了, 500页,很数学,比Strang那本Introduction to Linear Algebra要深一些 [ [微博](http://www.weibo.com/5220650532/BtvFKbzLD) ] + +2014-10-27 Brigham Young University的Kenneth Kuttler把自己的《Linear Algebra, Theory And Applications》(线性代数理论与应用)全书pdf放在网上了, 500页,很数学,比Strang那本Introduction to Linear Algebra要深一些 [ [微博](http://www.weibo.com/5220650532/BtvFKbzLD) ] + +2014-10-27 又想起来@QPCN 香港城市大学的教授,社交网络研究新星 @立委_米拉 在美国工作的自然语言处理老兵,常能从统计角度之外提出有营养的看法。 [ [微博](http://www.weibo.com/5220650532/BtvyDjiKf) ] + +> 2014-10-25 @好东西传送门: 中文计算机领域几个潜力股微博帐号: @Gary南京 知识和逻辑国内最重要的教授之一 @昊奋 学贯统计与知识两界,研究与工程经验都十分扎实 @AixinSG 执教新加坡,机器学习社交网络信息检索 @phunter_lau 推荐系统专家,而且有趣。当然其他大牛很多,这几个是关注的人还不算多,但绝对不该错过的。 [ [微博](http://www.weibo.com/5220650532/BtdjfEuRo) ] + +2014-10-27 转发这条是真的觉得《Python计算机视觉编程》不错。英文版原书Programming Computer Vision with Python http://t.cn/zWUbqfY 作者放出来的电子版 http://t.cn/R7a2D3Y [ [微博](http://www.weibo.com/5220650532/Btvlif0OY) ] + +> 2014-10-27 @图灵社区: #电子书本周半价# 《Python计算机视觉编程》http://t.cn/RvnpQRY 《世界顶级创业导师的洞见》http://t.cn/RvejK6O [ [微博](http://www.weibo.com/2526195981/BtviMxPdU) ] + +2014-10-27 初学者问题:如何在机器学习的语境下能达到有坚实的数学基础? 讨论见 http://t.cn/RPlPk6o @刘赛的中国梦 提到《数据挖掘中的新方法-支持向量机》(邓乃扬) 读了这本书再读 @李航博士 《统计学习方法》就会比较容易了。此外CMU等名校的机器学习课程都列有前提要求,可资参考 [ [微博](http://www.weibo.com/5220650532/Btv9Nuvqd) ] + +2014-10-27 Learning to Rank 第二版。这里以前我们收集的40多条LTR的资料,包括第一版的Google Books预览 http://t.cn/RP5WYnc [ [微博](http://www.weibo.com/5220650532/Btv3M3Yeh) ] + +> 2014-10-27 @刘知远THU: @李航博士 老师的专著《Learning to Rank for Information Retrieval and Natural Language Processing》出第二版了,关注。http://t.cn/R7ahdDU [ [微博](http://www.weibo.com/1464484735/BtuXxvnVG) ] + +2014-10-27 Reynold Xin @hashjoin http://t.cn/R7Xrqqa http://t.cn/zjLlNrX "大胡子小弟" Aaron Davidson http://t.cn/R7XrqqS [ [微博](http://www.weibo.com/5220650532/BtufWmvMc) ] + +> 2014-10-27 @BigData大数据: #Spark视频#Reynold Xin公开演讲视频,作为DataBricks的联合FOUNDER,很少接受演讲邀请,甚至在Spark Summit China 2014 和Spark Summit 2014都不发声,这次在Data Mining Meetup中终于闻其声,带着一个大胡子小弟一起演示,有兴趣的听一下。视频地址:http://t.cn/R7X00Ns @hashjoin @好东西传送门 [ [微博](http://www.weibo.com/2870219257/BttdteqpM) ] + +2014-10-27 感谢 @Jay_GraphLab @王威廉 @研究者July @高松-GISer @KissDev [ [微博](http://www.weibo.com/5220650532/BtsJM0psi) ] + +> 2014-10-27 @好东西传送门: 机器学习头条 2014-10-26 http://t.cn/R7XaMxI 1)什么R和Python的用户值得尝试GraphLab Create 2)中文微博的依存句法分析 3)邹博的PPT教程:回归与最优化,最大熵模型 4)用条件概率模型估计全球机场埃博拉病毒传染风险 5)计算广告学斯坦福和 @北冥乘海生 的入门课程 加长版41条 http://t.cn/R7XaMxx [ [微博](http://www.weibo.com/5220650532/BtsI5oBIJ) ] + +2014-10-27 机器学习头条 2014-10-26 http://t.cn/R7XaMxI 1)什么R和Python的用户值得尝试GraphLab Create 2)中文微博的依存句法分析 3)邹博的PPT教程:回归与最优化,最大熵模型 4)用条件概率模型估计全球机场埃博拉病毒传染风险 5)计算广告学斯坦福和 @北冥乘海生 的入门课程 加长版41条 http://t.cn/R7XaMxx [ [微博](http://www.weibo.com/5220650532/BtsI5oBIJ) ] + +2014-10-27 握手!Linux下的矢量编辑,Skencil也很好用,而且是用Python写的 http://t.cn/h4Fphj EPS转化的话,Linux下最好用的是convert命令(ImageMagick的一部分): convert foo.png foo.eps http://t.cn/aouUYB [ [微博](http://www.weibo.com/5220650532/BtqEB2Tb4) ] + +> 2014-10-26 @AixinSG: 多谢@好东西传送门 推荐,见识了社交媒体上推荐的力量,一下子涨了几百粉。下一步好好看看推荐系统的东西。 顺便推荐 Inkscape, 一个很强大的开源矢量图编辑软件,我只用它一个功能,把各种图片转成EPS, 用Latex写文章的可能会用得着 [ [微博](http://www.weibo.com/1025887594/Btk4l8YKQ) ] + +2014-10-27 12年UCLA Summer School《深度学习和特征学习》 [ [微博](http://www.weibo.com/5220650532/BtpPH83mm) ] + +> 2014-10-26 @龙星镖局: 12年UCLA Summer School的主题是《深度学习和特征学习》,报告者有Hinton、LeCun、 Ng 、 Bengio、Weston 和@余凯_西二旗民工 等一线大牛。讲座PPT和视频都可以在http://t.cn/R7JRbhv 下载观看。@breezedeus @好东西传送门 @developerWorks [ [微博](http://www.weibo.com/1830516311/BtmYiB4cO) ] + +2014-10-26 回复@kingkg28-zhou: 不需要,有一点设计网页的经验最好,帮网站参谋一下网页的排版设计,然后每周在周报发出去之前帮着看一眼是不是有不妥或重复,应该10-20分钟就够了。内容都会在Github上发布 http://t.cn/RPfAgNg //@kingkg28-zhou:需要专业基础吗? [ [微博](http://www.weibo.com/5220650532/BtlH451OK) ] + +> 2014-10-26 @好东西传送门: http://t.cn/R76cfVx 刚刚发了上周的《好东西周报》。上周我们共推荐了87次好东西,最热门前十条见长微博。BTW, 《好东西周报》的网站需要一个志愿者,这个工作会是开源的,有门友感兴趣吗?在这条微博下留言或私信都可以 [ [微博](http://www.weibo.com/5220650532/BtlELCfsn) ] + +2014-10-26 http://t.cn/R76cfVx 刚刚发了上周的《好东西周报》。上周我们共推荐了87次好东西,最热门前十条见长微博。BTW, 《好东西周报》的网站需要一个志愿者,这个工作会是开源的,有门友感兴趣吗?在这条微博下留言或私信都可以 [ [微博](http://www.weibo.com/5220650532/BtlELCfsn) ] + +2014-10-26 //@龙星镖局: @刘知远THU @刘挺 @AixinSG @白硕SH @Bing_Liu_25 @黄亮-算法时代 这个材料值得nlp的童鞋看看,请大家扩散一下[呵呵] [ [微博](http://www.weibo.com/5220650532/Btlt4vaEl) ] + +> 2014-10-25 @龙星镖局: 做自然语言处理和语音识别的都应该看看大牛 Kevin Duh 的这个资料《语言的世界》(英文题目是 Languages of the World),http://t.cn/R7i2Jvj 。他从语言的定义、起源、发展、各语系的分类、特点、差异等方面对要“语言”进行了认识。如果你对所要解决的问题都没有认识,何谈研究呢? [ [微博](http://www.weibo.com/1830516311/BteMrhtLx) ] + +2014-10-26 http://t.cn/R76vke8 @龙星镖局 推荐:Kevin Duh 《Languages of the World》(语言的世界)。Duh是奈良尖端科学技术大学院大学助理教授,从事自然语言处理与机器学习。这个PPT里他简要介绍了世界各大语言的谱系,和它们的一些语言特征。交互式世界语言地图网站请看WALS http://t.cn/zOJbnFn [ [微博](http://www.weibo.com/5220650532/BtkuG1txH) ] + +2014-10-26 推荐coursera上现在的一门课Automata(自动机),主讲人斯坦福Jeff Ullman(名教材Dragon Book和Cinderella book的作者)讲了计算复杂性和可计算性的一些入门基础问题,如图灵机,上下文无关文法,NP完全问题等 http://t.cn/zOSSPKE [ [微博](http://www.weibo.com/5220650532/Btjv1xmpx) ] + +2014-10-26 论文直达传送门 http://t.cn/R7iEt4z 交互式demo传送门 http://t.cn/R7iEt4h 用的是很基础的贝叶斯概率。 [ [微博](http://www.weibo.com/5220650532/BtjplisEg) ] + +> 2014-10-26 @高松-GISer: #关注埃博拉# 德国复杂系统研究小组Brockmann Lab利用全球航空网络和航空客流数据、根据条件概率模型估计了各机场和全球各大区域的病毒传染风险指数。把结果利用D3+JS Web可视化表达出来 http://t.cn/R7iXyFU [ [微博](http://www.weibo.com/1638623287/BtgEylClD) ] + +2014-10-26 这本书的v1有简体中文版 http://t.cn/R7iHHIa 解释繁略得当,例子实用。第二版大大扩展了Git Tools,新增Github一章,比第一版更能帮助大家少走弯路 [ [微博](http://www.weibo.com/5220650532/Btj5Sdr1t) ] + +> 2014-10-25 @网路冷眼: #干货分享#【免费的电子书Pro Git发布2.0】http://t.cn/R7izIzo Git方面最重要采用共享协议的电子书发布英文第2版,提供PDF, mobi和ePub三种格式免费下载 。1.0有中文在线版本。[doge]@2gua 请收深夜福利!cc @好东西传送门 @伯乐头条 @孢子响马 @极客头条 @developerWorks [ [微博](http://www.weibo.com/1715118170/Btfo60pID) ] + +2014-10-26 感谢 @KissDev @包云岗 @bruinxiong 特别是 @龙星镖局 昨天一口气推荐了好几个好资源,除了头条里这条还有深度学习干货集,Mehryar Mohri《Foundations of Machine Learning》Jordan《On the Computational and Statistical Interface and Big Data》 [ [微博](http://www.weibo.com/5220650532/Btj2cpiJo) ] + +> 2014-10-26 @好东西传送门: 机器学习头条 2014-10-25 http://t.cn/R7iTf3f 1)Kevin Duh 《语言的世界》 2)数据科学领域酷的免费数据集 3)LinkedIn工程师:面向搜索的大规模机器学习 4)@陈云霁 等:机器学习超级计算机DaDianNao 5)胡哲:从CVPR 2014看计算机视觉领域的最新热点 加长版56条 http://t.cn/R7iTf3V [ [微博](http://www.weibo.com/5220650532/BtiYktmcm) ] + +2014-10-26 机器学习头条 2014-10-25 http://t.cn/R7iTf3f 1)Kevin Duh 《语言的世界》 2)数据科学领域酷的免费数据集 3)LinkedIn工程师:面向搜索的大规模机器学习 4)@陈云霁 等:机器学习超级计算机DaDianNao 5)胡哲:从CVPR 2014看计算机视觉领域的最新热点 加长版56条 http://t.cn/R7iTf3V [ [微博](http://www.weibo.com/5220650532/BtiYktmcm) ] + +2014-10-26 潜力股+1 最右PayPal数据科学负责人。欢迎大家继续推荐! //@phunter_lau: 我推荐右边,你点了这片文章就会乖乖回来关注他的 http://t.cn/RhDrpIl //@丁磊-data: 膜拜 [ [微博](http://www.weibo.com/5220650532/Btge5tkSC) ] + +> 2014-10-25 @好东西传送门: 中文计算机领域几个潜力股微博帐号: @Gary南京 知识和逻辑国内最重要的教授之一 @昊奋 学贯统计与知识两界,研究与工程经验都十分扎实 @AixinSG 执教新加坡,机器学习社交网络信息检索 @phunter_lau 推荐系统专家,而且有趣。当然其他大牛很多,这几个是关注的人还不算多,但绝对不该错过的。 [ [微博](http://www.weibo.com/5220650532/BtdjfEuRo) ] + +2014-10-25 摘要:Devavrat Shah和Kang Zhang从各大Bitcoin交易所收集了五个月的价格数据,利用“Bayesian regression”来预测价格 [ [微博](http://www.weibo.com/5220650532/Btfknv8Jm) ] + +> 2014-10-25 @网路冷眼: 【麻省理工学院科学家能够预测比特币价格】http://t.cn/R7xOxQt 麻省理工学院计算机科学和人工智能实验室和信息和决策系统实验室研究人员最近开发出机器学习算法,可以预测比特币的价格波动,50天时间内这个团队使投资翻番。 [威武] @好东西传送门 [ [微博](http://www.weibo.com/1715118170/Bt9lDdkpp) ] + +2014-10-25 Dileep Bhandarkar, IEEE Fellow. Amazing Journey From Mainframes To Smartphones 原文是pdf [ [微博](http://www.weibo.com/5220650532/BtfiIlprC) ] + +> 2014-10-25 @effectivewang: Computer History这个不错 http://t.cn/R7i2b13 高通VP讲芯片历史 @好东西传送门 [ [微博](http://www.weibo.com/1801673705/BteLInxSS) ] + +2014-10-25 中文计算机领域几个潜力股微博帐号: @Gary南京 知识和逻辑国内最重要的教授之一 @昊奋 学贯统计与知识两界,研究与工程经验都十分扎实 @AixinSG 执教新加坡,机器学习社交网络信息检索 @phunter_lau 推荐系统专家,而且有趣。当然其他大牛很多,这几个是关注的人还不算多,但绝对不该错过的。 [ [微博](http://www.weibo.com/5220650532/BtdjfEuRo) ] + +2014-10-25 //@昊奋:要了解更多schema.org的质量和语义等,可以挪步iswc2014 peter的analyzing schema.org,以及chris bizer对于lod和schema.org的全面比较 [ [微博](http://www.weibo.com/5220650532/BtdfehmmW) ] + +> 2014-10-24 @Gary南京: google跟facebook在KDD2014关于知识图谱的一个比较全面的介绍,值得看看:http://t.cn/R7IDq3E [ [微博](http://www.weibo.com/2784224080/BsZkfdlQD) ] + +2014-10-25 Python日报 2014-10-24 http://t.cn/R7JEphe 比较新颖的有@ARGV 推荐的pygrok正则表达式包 @Python开发者 推荐的pycrumbs 可以和更新的Awesome Python参照着看 http://t.cn/RvmZMyi Pypi更新里有一个新的任务队列工具WorQ。Python日报近期还会改版,增加更丰富的内容。 [ [微博](http://www.weibo.com/5220650532/Btdaok9SC) ] + +2014-10-25 @陆浑戎 @设定控 @殆知阁 几位文史类的资源帝,有人问能不能找到49年以前的《南洋学报》,你们有没有印象或者线索? [ [微博](http://www.weibo.com/5220650532/BtcahsUR2) ] + +2014-10-25 //@李航博士: 强烈推荐#WSDM2015#的主题报告。你可能不知道Michael Franklin,但了解Spark;你可能没听说过Thorsten Joachims,但用过SVMLight;你也许不知晓Lada Adamic,但耳闻过Information Diffusion。尚有更过精彩的内容即将公布。 [ [微博](http://www.weibo.com/5220650532/Btc6WjbEi) ] + +> 2014-10-25 @WSDM2015: WSDM 2015邀请了数据科学领域的三位大牛来做主题报告:分别是Facebook的Lada Adamic,UC Berkeley的Michael Franklin,和Cornell的Thorsten Joachims。详细介绍:http://t.cn/R7Jyy0g [ [微博](http://www.weibo.com/5144018575/BtaF5pIgr) ] + +2014-10-25 请看以前的两条问答:《智能问答系统:心得点评与文献列表》 http://t.cn/R7JfGkY 《现今有哪些成功的智能问答系统》http://t.cn/R7JfGkQ 还有最近 @沈李斌NLP 的《问答系统中的知识图谱》http://t.cn/R7JfGkT [ [微博](http://www.weibo.com/5220650532/Btbkbbjx3) ] + +> 2014-10-25 @tornadomeet: @好东西传送门 帮找一些问答系统的好资料,ths. [ [微博](http://www.weibo.com/1750766782/Btb9mnFZt) ] + +2014-10-25 感谢 @星空下的巫师 @52nlp @Surah_Li @数盟社区 @Gary南京 今天的邮件继续测试发送了长版。不知道大家在阅读时间,打开速度,排版方面有什么意见?欢迎在下面留言告诉我。 [ [微博](http://www.weibo.com/5220650532/Bt8Rjy80c) ] + +> 2014-10-25 @好东西传送门: 机器学习头条 2014-10-24 http://t.cn/R7xuJTA 1)R语言的SVM教程 2)用 IBM Watson和Bluemix构造问答系统的详解 3)Robert Tibshirani讲Lasso应用于癌症检测PPT 4)机器学习中的范数规则化:L0、L1与L2范数 5)KDD2014上的知识图谱介绍 加长版45条 http://t.cn/R7xuJT2 [ [微博](http://www.weibo.com/5220650532/Bt8QEshPl) ] + +2014-10-25 机器学习头条 2014-10-24 http://t.cn/R7xuJTA 1)R语言的SVM教程 2)用 IBM Watson和Bluemix构造问答系统的详解 3)Robert Tibshirani讲Lasso应用于癌症检测PPT 4)机器学习中的范数规则化:L0、L1与L2范数 5)KDD2014上的知识图谱介绍 加长版45条 http://t.cn/R7xuJT2 [ [微博](http://www.weibo.com/5220650532/Bt8QEshPl) ] + +2014-10-25 问:有没有好用的python的excel工具库?答:功能文档都较全的有python-pptx 和openpyxl 这两个支持读写,创建电子表格。另外以读为主的有python-xlsx pyXLSX 转化excel为csv的有xlsx2csv 。当然也可以先转化excel为csv,用csv或unicodecsv包来处理。链接都在 http://t.cn/R7x8C4y [ [微博](http://www.weibo.com/5220650532/Bt851Bj3Q) ] + +2014-10-25 补充Michael Jordan原文 Why Big Data Could Be a Big Fail -- IEEE Spectrum http://t.cn/R7tmf96 . 乐村吐槽说Hinton是那种人,总想从生物学合理的角度理解大脑怎么工作,最后总是搞出来有点用但其实生物上并不靠谱的东西 [ [微博](http://www.weibo.com/5220650532/Bt7TPdJDj) ] + +> 2014-10-24 @张本宇: Yann LeCun关于Michael Jordan关于deep learning的IEEE访谈的Facebook长贴:http://t.cn/R7x6OAF,有访谈编辑的反驳,有大神Hilton的躺枪,有Jordan新博客的传送门。各种欢乐。@好东西传送门 [ [微博](http://www.weibo.com/1947318904/Bt5I2l1TL) ] + +2014-10-25 不错 [ [微博](http://www.weibo.com/5220650532/Bt7380fc7) ] + +> 2014-10-24 @whiteath: 一个小时的演讲,涵盖了很多python的特性 // A Few of My Favorite [Python] Things http://t.cn/R7xP6gQ [ [微博](http://www.weibo.com/1913607345/Bt3YZCowT) ] + +2014-10-24 osdi(操作系统设计与实现大h大会)全部视频 [ [微博](http://www.weibo.com/5220650532/Bt2iJpUNZ) ] + +> 2014-10-24 @BigData大数据: #OSDI2014#OSID http://t.cn/RPNqTrv 已经放出来全部讲演的视频,这次效率无比高,第一先推荐 Parameter Server 真心话讲,这次@李沐M 的英文比上次刚回美国暑期学校的英文听起来舒服多了,正如自己说的:还是北京待久了不会说英文了[嘻嘻] [ [微博](http://www.weibo.com/2870219257/Bt24N6fBl) ] + +2014-10-24 转发微博 [ [微博](http://www.weibo.com/5220650532/Bt2eKmeNU) ] + +> 2014-10-24 @陈天奇怪: 推荐一下之我们和@李航博士 @鲁东东胖 的ICDM论文:) A Parallel and Efficient Algorithm for Learning to Match http://t.cn/R7MolL6 。一般推荐等匹配问题的state-of-art都是基于特征的矩阵分解模型,但是这类模型很难并行化。我们的工作解决了基于特征的匹配模型的并行化问题 [ [微博](http://www.weibo.com/2397265244/Bt1SS4UZi) ] + +2014-10-24 机器学习头条 2014-10-23 http://t.cn/R7MPNz6 1)gradient boosting的tutorial 2)知识图谱PPT: 语义网上的本体推理by漆桂林 3)知识图谱PPT: 垂直知识图谱构造工具与行业应用by阮彤 4)Java NLP工具包RainbowNLP 5)Python的从文本学习模板的小工具templatemaker 加长版29条 http://t.cn/R7MPNza [ [微博](http://www.weibo.com/5220650532/Bt2dRolim) ] + +2014-10-24 回复@战术核显英伟达: 是的,所有的微博都回来了。而且我们以后会更积极地备份历史数据到Github上。只要是好东西,就永远不能让它消失 http://t.cn/RPfAgNg //@战术核显英伟达:问下所有微博都恢复了么? [ [微博](http://www.weibo.com/5220650532/Bt26uih0q) ] + +> 2014-10-24 @好东西传送门: 朋友们,我回来了!过去这一天多谢好多朋友关心和帮助,在此一并谢过! [ [微博](http://www.weibo.com/5220650532/Bt239afdZ) ] + +2014-10-24 朋友们,我回来了!过去这一天多谢好多朋友关心和帮助,在此一并谢过! [ [微博](http://www.weibo.com/5220650532/Bt239afdZ) ] + +2014-10-23 感谢 @网路冷眼 @张颖峰 @龙星镖局 @梁斌penny @王威廉 今天继续做了版式的调整,以平衡不同读者对短版和长版需求的差异。以前的短版现在作为今日焦点放在最前面。没有时间的读者可以只看这5条。如果对目前的长版有更多建议,欢迎大家回信hao@memect.com, 谢谢! [ [微博](http://www.weibo.com/5220650532/BsRphENEq) ] + +> 2014-10-23 @好东西传送门: 机器学习头条 2014-10-22 http://t.cn/R7fUQm6 1)John Hopcroft《Foundations of Data Science》 2)利用SIMD加速做索引压缩 3)Google Youtube团队公开了一个Multiview Video Game的数据 4)CMU TwitterNLP: Twitter自然语言处理 5)学习算法的Neural Turing Machine 加长版62条 http://t.cn/R7fUQmX [ [微博](http://www.weibo.com/5220650532/BsQ8toM8Q) ] + +2014-10-23 今天@连城404 推荐了q,一个用SQL处理文本数据的残暴工具。小门再推荐一个同样残暴的OrientDB,可以用SQL查询JSON。安装很简单,下载zip后解压就可以起服务器。可以从python/java/ruby等各种语言调用。http://t.cn/R7f6XJ9 有REST接口,和jq/httpie等综合使用可以实现命令行上更复杂的数据查询 [ [微博](http://www.weibo.com/5220650532/BsRlAmfyT) ] + +2014-10-23 好东西,转给搞生物信息学的伙伴们 [ [微博](http://www.weibo.com/5220650532/BsRgWAtrk) ] + +> 2014-10-22 @bitslife: 从2014美国人类遗传学学会的介绍中了解到了NextCODE, (1)、 Big Data及其Knowledge Base: 350,000 全基因组,40M变异注释。 (2)、 平台服务了 350 多篇高质量论文 (3)、 合作、共享基因组信息全球实时系统。(4)、 基因组数据分析流程(Alignment, Mapping, SNP/INDEL Calling) [ [微博](http://www.weibo.com/1895047203/BsMTQ6DOf) ] + +2014-10-23 Python头条 2014-10-22 http://t.cn/R7fMgzf 1)慕课网Python入门课程 2)Python状况:为什么PyPy是Python的未来? 3)一行代码伪装成浏览器 4)Python程序的Learning to Execute 加长版9条 http://t.cn/R7fMFzg 感谢 @慕课网 @Python开发者 @王威廉 [ [微博](http://www.weibo.com/5220650532/BsR8lujnY) ] + +2014-10-23 问:哪里有每日新闻联播要点总结? 答:新闻联播文字版在CNTV官网上就有 http://t.cn/R7fIsnP 每条新闻下面都有文本。CNTV之前CCTV上也有 例如 http://t.cn/R7fIsnv 时事一点通的《时事新闻日报道》》有每日总结, http://t.cn/a8fwZM 分国内国际,都有简短的摘要。这些都是很好的语料库。 [ [微博](http://www.weibo.com/5220650532/BsR7o7CRX) ] + +2014-10-23 感谢 @网路冷眼 @张颖峰 @龙星镖局 @梁斌penny @王威廉 今天继续做了版式的调整,以平衡不同读者对短版和长版需求的差异。以前的短版现在作为今日焦点放在最前面。没有时间的读者可以只看这5条。如果对目前的长版有更多建议,欢迎大家回信hao@memect.com, 谢谢! [ [微博](http://www.weibo.com/5220650532/BsQ8R3r5k) ] + +> 2014-10-23 @好东西传送门: 机器学习头条 2014-10-22 http://t.cn/R7fUQm6 1)John Hopcroft《Foundations of Data Science》 2)利用SIMD加速做索引压缩 3)Google Youtube团队公开了一个Multiview Video Game的数据 4)CMU TwitterNLP: Twitter自然语言处理 5)学习算法的Neural Turing Machine 加长版62条 http://t.cn/R7fUQmX [ [微博](http://www.weibo.com/5220650532/BsQ8toM8Q) ] + +2014-10-23 机器学习头条 2014-10-22 http://t.cn/R7fUQm6 1)John Hopcroft《Foundations of Data Science》 2)利用SIMD加速做索引压缩 3)Google Youtube团队公开了一个Multiview Video Game的数据 4)CMU TwitterNLP: Twitter自然语言处理 5)学习算法的Neural Turing Machine 加长版62条 http://t.cn/R7fUQmX [ [微博](http://www.weibo.com/5220650532/BsQ8toM8Q) ] + +2014-10-23 一个Python的从文本学习模板的小工具 templatemaker http://t.cn/R7fyt3x 可以从一堆输入样板句子中提取他们的不变部分,然后利用模板可以做匹配检查,成分提取等。对清理Web数据,简单的模式学习超级有用 [ [微博](http://www.weibo.com/5220650532/BsPVLCQS5) ] + +2014-10-23 爬虫相关资料(Java ).pdf 一组挺有用的链接 [ [微博](http://www.weibo.com/5220650532/BsPkvtPv4) ] + +> 2014-10-22 @睡眼惺忪的小叶先森: 这几天很多筒子不约而同让我提供几个编写爬虫的资料[doge]。我把我过去参考过的,整理了一下,包含了开源框架以及自己手动编写爬虫所需工具,还包括了信息抽取等。Java版本的。http://t.cn/R7VVttV @好东西传送门 @囧囧有神的小杜霉女 @whiteath [ [微博](http://www.weibo.com/2765244861/BsKmhpxJn) ] + +2014-10-23 好文章,为什么svm在文本上应该用线性核。思考:那用与它等价的感知器是不是也可以?//@神经元NL:中心:文本大部分线性可分;文本本身特征多,映射到太高维度也没用;线性核快;线性核更好优化 [ [微博](http://www.weibo.com/5220650532/BsO9cgH96) ] + +> 2014-10-22 @星空下的巫师: Linear Kernel: Why is it recommended for text classification ? http://t.cn/R7V3WUA [ [微博](http://www.weibo.com/1785748853/BsMLtezwh) ] + +2014-10-23 Python写的内存数据处理工具,很适合做小文本的命令行查询。//@黄涧石:好东西 [ [微博](http://www.weibo.com/5220650532/BsO7edz6i) ] + +> 2014-10-22 @连城404: 这个叫q的工具太残暴了,在Shell下用SQL查询各种表格状的文本文件 http://t.cn/R7VntHd q "SELECT COUNT(*) FROM ./clicks_file.csv WHERE c3 > 32.3" [ [微博](http://www.weibo.com/1883627565/BsMvGfC4L) ] + +2014-10-23 右边一般不夸人的,被他表扬的肯定不错 →_→//@phunter_lau:涵盖的很全面啊还比一般介绍的有一定深度 //@网路冷眼:作者John Hopcroft,康奈尔大学计算机科学系教授,1986年由于在算法及数据结构设计和分析方面的基础性成就,被授予图灵奖: http://t.cn/R7VnfUX [ [微博](http://www.weibo.com/5220650532/BsO5452xI) ] + +> 2014-10-22 @网路冷眼: 微软发布<数据科学基础(Foundations of Data Science)>电子书,PDF格式,下载地址:http://t.cn/R7cdbab 转需!@52nlp @好东西传送门 [ [微博](http://www.weibo.com/1715118170/BsMeH8tps) ] + +2014-10-23 //@网路冷眼:作者John Hopcroft,康奈尔大学计算机科学系教授,1986年由于在算法及数据结构设计和分析方面的基础性成就,被授予图灵奖:http://t.cn/R7VnfUX [ [微博](http://www.weibo.com/5220650532/BsNVu9cJy) ] + +> 2014-10-22 @网路冷眼: 微软发布<数据科学基础(Foundations of Data Science)>电子书,PDF格式,下载地址:http://t.cn/R7cdbab 转需!@52nlp @好东西传送门 [ [微博](http://www.weibo.com/1715118170/BsMeH8tps) ] + +2014-10-22 @老齐Py @中国云计算论坛 @Python开发者 @朝花夕拾录 为我们提供了好资源。昨天有人反映太长,所以今天加上了5条摘要,和用长微博发布的短版。欢迎大家继续提建议 [ [微博](http://www.weibo.com/5220650532/BsJECoqiR) ] + +> 2014-10-22 @好东西传送门: Python头条 2014-10-21 http://t.cn/R7V2o2a 1)[零基础学python]使用tornado表单和模板 2)clint:Python命令行工具 3)用python + hadoop编写分布式程序 4)matplotlib: 使用Python进行图表绘图 5)Writing C in Cython 加长版12条 http://t.cn/R7V2o2X [ [微博](http://www.weibo.com/5220650532/BsJDWrMar) ] + +2014-10-22 Python头条 2014-10-21 http://t.cn/R7V2o2a 1)[零基础学python]使用tornado表单和模板 2)clint:Python命令行工具 3)用python + hadoop编写分布式程序 4)matplotlib: 使用Python进行图表绘图 5)Writing C in Cython 加长版12条 http://t.cn/R7V2o2X [ [微博](http://www.weibo.com/5220650532/BsJDWrMar) ] + +2014-10-22 用python Requests爬网页的常用技巧: 一行代码伪装成浏览器 r = requests.post(url, headers={'user-agent: 'Mozilla/5.0 (Windows NT 5.1; rv:31.0) Gecko/20100101 Firefox/31.0'} ) 其他user-agent字符串 http://t.cn/hGTZFY requests库的用法 http://t.cn/R7VZfcY @Serena_pancakes [ [微博](http://www.weibo.com/5220650532/BsJrz42Ke) ] + +2014-10-22 车牌数据集(二)果然有好人Andrew McGill 整理上传2012年数据 有篇博文 http://t.cn/R7Vz75l 也有数据Github CSV 70M http://t.cn/R7Vz75j //@核桃街魔女: 一度想找匹兹堡的类似数据 //@美国中部大平原的胖胖:有意思。 [ [微博](http://www.weibo.com/5220650532/BsJmK51DT) ] + +> 2014-10-21 @好东西传送门: 刚才帮人找数据挖到一个好玩的, 搞LBS, GPS, 数据挖掘的快来围观。 http://t.cn/R7tGZFJ Github,CSV表格,明尼苏达警察局的800k车牌记录。已做过隐私保护处理, 每条记录包括: License Plate ID Latitude Longitude Time collected Reader [ [微博](http://www.weibo.com/5220650532/BsztgACau) ] + +2014-10-22 非常炫。原文的程序是用docx发布的,不方便,现在发布在gist上 http://t.cn/R7V794U [ [微博](http://www.weibo.com/5220650532/BsJkLooNj) ] + +> 2014-10-14 @Arduinos: 【arduino与人脑连接】荷兰arduinos爱好者Kayleigh Beard演示人脑控制led灯。她示范了自己制作的人脑交互作品,视频http://t.cn/R7ZgW4o,用意念控制一排led按顺序亮灭。教程http://t.cn/R7ZgW4X,源代码http://t.cn/R7ZgW4S。用到了arduino uno, MindWave Mobile脑电仪。 [ [微博](http://www.weibo.com/2524468112/BrvyLpk0E) ] + +2014-10-22 问答297 除了直接爬网站,也可以下载数据集 以前推荐过 common crawl 数据集,http://t.cn/R7cs7Nv 还有一个GoogleNews 数据集 1.2G http://t.cn/R7cs7Cs 更多相关数据集参见 http://t.cn/R7cs7Nm [ [微博](http://www.weibo.com/5220650532/BsJ3dF40k) ] + +> 2014-10-22 @Serena_pancakes: 在国外想用python抓news website用来分析词频的,可是crawling会被封IP,还没有api的话怎么办?@网路冷眼 @好东西传送门 @Python开发者 [ [微博](http://www.weibo.com/1077087607/BsIiU5Wsa) ] + +2014-10-22 一般就是降低频率,还有上Amazon EC2用spot instance,不断换IP。如果只是分析词频,不需要最新的内容,建议提取一部分Common Crawl语料库,别人已经都帮你抓好了,那里应有尽有。http://t.cn/R77RbnD [ [微博](http://www.weibo.com/5220650532/BsJ2gAUER) ] + +> 2014-10-22 @Serena_pancakes: 在国外想用python抓news website用来分析词频的,可是crawling会被封IP,还没有api的话怎么办?@网路冷眼 @好东西传送门 @Python开发者 [ [微博](http://www.weibo.com/1077087607/BsIiU5Wsa) ] + +2014-10-22 感谢 @NLPJob @龙星镖局 @AixinSG @伯乐在线官方微博 。今天的邮件试着发了一期长版(上次投票的结果70%的读者希望收到长版),因为内容长了,在摘要,版式上可能还需要新的改进,欢迎大家继续提意见。5条短版还继续以长微博发送。 [ [微博](http://www.weibo.com/5220650532/BsHaefg8j) ] + +> 2014-10-22 @好东西传送门: 机器学习头条2014-10-21 http://t.cn/R7cKd4c 1)哥伦比亚大学Michael Collins的NLP 14年秋季课程 2)王益《分布式机器学习的故事》 3)Michael Jordan: Why Big Data Could Be a Big Fail 4)深度学习、自然语言处理和表征方法 5)计算机科学会议的顶级会议最佳论文列表 加长版42条 http://t.cn/R7cKd42 [ [微博](http://www.weibo.com/5220650532/BsH8C5KS1) ] + +2014-10-22 机器学习头条2014-10-21 http://t.cn/R7cKd4c 1)哥伦比亚大学Michael Collins的NLP 14年秋季课程 2)王益《分布式机器学习的故事》 3)Michael Jordan: Why Big Data Could Be a Big Fail 4)深度学习、自然语言处理和表征方法 5)计算机科学会议的顶级会议最佳论文列表 加长版42条 http://t.cn/R7cKd42 [ [微博](http://www.weibo.com/5220650532/BsH8C5KS1) ] + +2014-10-22 我正在使用"花栗鼠"#封面图#,好漂亮,你们都快来试试! http://t.cn/zRVa3ar [ [微博](http://www.weibo.com/5220650532/BsH8p5zct) ] + +2014-10-22 《Deep Learning(深度学习)资料整理》 作者zouxy09@qq.com 36页的好的入门介绍 感谢@一尘不染zzz 整理成pdf [ [微博](http://www.weibo.com/5220650532/BsFG41AmM) ] + +> 2014-10-05 @一尘不染zzz: #深度学习#知识资料。最初是一个网友整理发布在他的BLOG上的。我不过是整理成PDF版 http://t.cn/Rhr3w3h 。#机器学习#几乎已经引发了一场信息处理的革命(搜索引擎、语音识别,图像识别,内容过滤、分类等的)相信机器学习接下来几年会在机器人领域引发另外一场让人惊奇革命。 [ [微博](http://www.weibo.com/1668848731/Bq4zGbuk1) ] + +2014-10-22 转发微博 [ [微博](http://www.weibo.com/5220650532/BsDW6yBOX) ] + +> 2014-10-21 @2gua: 几个不错的前端技术资源:「20 More Docs and Guides for Front-End Developers」http://t.cn/R7t8rDv,「Why I Love AngularJS and You Should Too」http://t.cn/R7t8rDh,「7 JS Libraries for Specific Visualizations」http://t.cn/R7t8rDP。@网路冷眼 @好东西传送门 @极客头条 @Linux中国 [ [微博](http://www.weibo.com/1609119537/BsBRaAQ53) ] + +2014-10-21 LIVAC汉语共时语料库(Linguistic Variation in Chinese Speech Communities) http://t.cn/R7chgF2 “直至2013年,LIVAC已处理逾5亿字,累积并持续提炼出约两百万词条。” 19年积累,7个特征语料收集地:香港,台湾,北京,上海, 澳门,新加坡,广州 。可惜是公司维护未开源,我辈只能望知识兴叹了 [ [微博](http://www.weibo.com/5220650532/BsDhZEsLS) ] + +2014-10-21 Pycoder's Weekly 搜罗Py万物的蟒周刊 英文版http://t.cn/zOzpHxB 中文版 http://t.cn/8FIrxNN [ [微博](http://www.weibo.com/5220650532/BsAMAjiT3) ] + +> 2014-10-21 @ZoomQuiet: Issue 137: RPython #蠎周刊# 汇集全球蠎事儿 !-) http://t.cn/R7tLoB7 [ [微博](http://www.weibo.com/1400936805/Bsz74bWSx) ] + +2014-10-21 根据过去两个月的数据,我们这个技术圈子(大体就是机器学习,自然语言处理,信息检索,计算机视觉,语义网等)最受欢迎(根据发言在圈子里的分享次数)的个人有@AixinSG @KissDev @丕子 @刘鑫Mars @梁斌penny @王威廉 @网路冷眼 @西瓜大丸子汤 @陈利人 @龙星镖局 (排名不分先后) [ [微博](http://www.weibo.com/5220650532/BsAF3615o) ] + +2014-10-21 非常有用的全美按街区人口数,种族构成地图,纽约时报出品。数据来源是2010人口普查http://t.cn/hboaoT [ [微博](http://www.weibo.com/5220650532/BsAlqhKxe) ] + +> 2014-07-26 @JadeM104: 分享一个我觉得很有用的地图,distribution of racial and ethnic groups: http://t.cn/hboaoT 出门在外小心,一切尽在不言中了 [ [微博](http://www.weibo.com/1682042892/BfjyFDvNe) ] + +2014-10-21 右边是中国最好的机器视觉公司之一。你们也对车牌感兴趣么?嗯,每个城市都有上万个交通摄像头,识别车牌可是个大买卖 //@格灵深瞳: 马!随手,不谢。 [ [微博](http://www.weibo.com/5220650532/BszSMkZbO) ] + +> 2014-10-21 @好东西传送门: 刚才帮人找数据挖到一个好玩的, 搞LBS, GPS, 数据挖掘的快来围观。 http://t.cn/R7tGZFJ Github,CSV表格,明尼苏达警察局的800k车牌记录。已做过隐私保护处理, 每条记录包括: License Plate ID Latitude Longitude Time collected Reader [ [微博](http://www.weibo.com/5220650532/BsztgACau) ] + +2014-10-21 CUHK-SEEM=香港中文大学系统工程与工程管理学系 http://t.cn/zlzfIjQ 系里的教授列表http://t.cn/R7t5DMa 与博文提到的领域接近的有林伟教授的 Text Mining Group http://t.cn/zQvzXhZ [ [微博](http://www.weibo.com/5220650532/BszHcDnr2) ] + +> 2014-10-21 @李菁求能毕业: 有木有人感兴趣来CUHK-SEEM做研究助理、工程师或者博士后,需要有计算机或者数学背景,有NLP、Data Mining、Machine learning、Social Computing相关经验优先~薪水非常可观~感兴趣的话可以发送邮件到wise.cuhk@gmail.com 我们会安排一个小的interview,具体事宜可以到时相商~求扩散求转发~~~ [ [微博](http://www.weibo.com/2249908040/Bszo1f8Qv) ] + +2014-10-21 刚才帮人找数据挖到一个好玩的, 搞LBS, GPS, 数据挖掘的快来围观。 http://t.cn/R7tGZFJ Github,CSV表格,明尼苏达警察局的800k车牌记录。已做过隐私保护处理, 每条记录包括: License Plate ID Latitude Longitude Time collected Reader [ [微博](http://www.weibo.com/5220650532/BsztgACau) ] + +2014-10-21 找到一个相关问答 http://t.cn/R7t4LTm [ [微博](http://www.weibo.com/5220650532/BszjRAXR8) ] + +> 2014-10-18 @丕子: 帮求一个车牌数据集 [ [微博](http://www.weibo.com/1665335994/Bs5HRcYyz) ] + +2014-10-21 帮转,有没有人知道线索呢? 进展整理在issue 293 http://t.cn/R7tU2dw [ [微博](http://www.weibo.com/5220650532/BszeWmrdL) ] + +> 2014-10-18 @丕子: 帮求一个车牌数据集 [ [微博](http://www.weibo.com/1665335994/Bs5HRcYyz) ] + +2014-10-21 有朋友感觉比较长,没法很快看完;另一方面,有没有漏掉的好东西呢? [ [微博](http://www.weibo.com/5220650532/BsyN3oPWs) ] + +> 2014-10-21 @好东西传送门: 刚刚发出了Python日报的第一期测试(也见长微博)。在线版:http://t.cn/R75uDpD 订阅办法见py.memect.com http://t.cn/R7UjD75 也可以给 hao@memect.com 发封邮件,标题是 "订阅Python"。Python日报没有长短版之分,每天大约会有10-20条。欢迎大家提建议 [ [微博](http://www.weibo.com/5220650532/BsxAAkvEv) ] + +2014-10-21 刚刚发出了Python日报的第一期测试(也见长微博)。在线版:http://t.cn/R75uDpD 订阅办法见py.memect.com http://t.cn/R7UjD75 也可以给 hao@memect.com 发封邮件,标题是 "订阅Python"。Python日报没有长短版之分,每天大约会有10-20条。欢迎大家提建议 [ [微博](http://www.weibo.com/5220650532/BsxAAkvEv) ] + +2014-10-21 还有,万维网联盟 (World Wide Web Consortium,W3C), 于 1994年10月在麻省理工学院(MIT)。它联合工业界制定了一大堆开放性的全球规范(Web码农的简历上的常见关键词), 例如 URI, HTML,CSS,XML,DOM, XQuery, WSDL, SVG, PNG, RDF, SPARQL ... [ [微博](http://www.weibo.com/5220650532/Bsxr4wksm) ] + +> 2014-10-21 @好东西传送门: W3C 20周年纪念大会 “万维网的未来” (The Future of the Web) http://t.cn/R75Euba 将于本月29日(当地时间下午3点至6点)在硅谷举行, 门票$150 (机票自负;-), 有在线直播。压轴戏是万维网之父Tim Berners-Lee于5:40–6:00的总结陈词, 也期待MIT media lab的 Alex 'Sandy' Pentland 教授的报告 [ [微博](http://www.weibo.com/5220650532/BsxeWdCjm) ] + +2014-10-21 W3C 20周年纪念大会 “万维网的未来” (The Future of the Web) http://t.cn/R75Euba 将于本月29日(当地时间下午3点至6点)在硅谷举行, 门票$150 (机票自负;-), 有在线直播。压轴戏是万维网之父Tim Berners-Lee于5:40–6:00的总结陈词, 也期待MIT media lab的 Alex 'Sandy' Pentland 教授的报告 [ [微博](http://www.weibo.com/5220650532/BsxeWdCjm) ] + +2014-10-21 最全的计算机科学会议的顶级会议最佳论文(Best Paper Award)列表,详列1996年以来获奖论文和下载链接!包括人工智能(AAAI CIKM KDD ICML IJCAI) 自然语言处理(ACL) 人机交互(CHI) 软件工程(FSE ICSE) 数据库(SIGMOD VLDB) 网络(WWW)等领域29个会议http://t.cn/R75EOUC 整理者是布朗大学的Jeff Huang [ [微博](http://www.weibo.com/5220650532/BsxdjsNYU) ] + +2014-10-21 感谢 @王威廉 @研究者July @干二微博 @网路冷眼 长版里继续有更多全国计算语言学会议(CCL)的讨论,值得围观 http://t.cn/R758sQj [ [微博](http://www.weibo.com/5220650532/Bsx0DrChj) ] + +> 2014-10-21 @好东西传送门: 机器学习头条 2014-10-20 http://t.cn/R758sQl 1)微电影Behind the Mic科普语音识别的历史 2)邹博之凸优化PPT 3)IBM开放Watson的API 4)CVPR2014视频分割的教程 5)Bloom filters(布隆过滤器)简介 加长版50条 http://t.cn/R758sQj [ [微博](http://www.weibo.com/5220650532/BswZ6hHwr) ] + +2014-10-21 机器学习头条 2014-10-20 http://t.cn/R758sQl 1)微电影Behind the Mic科普语音识别的历史 2)邹博之凸优化PPT 3)IBM开放Watson的API 4)CVPR2014视频分割的教程 5)Bloom filters(布隆过滤器)简介 加长版50条 http://t.cn/R758sQj [ [微博](http://www.weibo.com/5220650532/BswZ6hHwr) ] + +2014-10-21 #计算机视觉# 图一、 Flickr视觉团队官网上有一个很酷的在线演示 http://t.cn/R75H5KT 1秒钟能判断选定的图中 “有鸟吗?”、“在公园吗?” 图二、技术路线用深度学习在Hadoop和Storm平台上识别图片中的事物 http://t.cn/R75lK3J 图三、一张漫画展示研究动机; 相关论文 http://t.cn/R75H5KY [ [微博](http://www.weibo.com/5220650532/BswuGt55g) ] + +2014-10-21 Jupyter是一个从IPython衍生出来的交互式计算平台,改名的原因是IPython已经不仅支持Python计算,也支持Julia, R, Ruby等。项目主页和Scipy14上的演讲 http://t.cn/R7hRare PPT http://t.cn/R75YxA3 Github http://t.cn/R75YxAu [ [微博](http://www.weibo.com/5220650532/Bsw6LoUwz) ] + +2014-10-21 微软印度研究院的R2 Probabilistic Programming Tool项目 http://t.cn/R75WD0C 最近核心文章 R2: An Efficient MCMC Sampler for Probabilistic Programs 发表于AAAI'14 http://t.cn/R75jJId 平台代码库(C#)下载, 基于.NET Framework 4.5. 相关项目是剑桥组的 infer.net http://t.cn/SvEGTl [ [微博](http://www.weibo.com/5220650532/BsvUiFWLf) ] + +2014-10-20 与有荣焉 //@陆浑戎: 多谢推荐,都是爱发资源的盆友吧 [ [微博](http://www.weibo.com/5220650532/Bsseo0pII) ] + +> 2014-10-20 @传媒老跟班: 推荐几个账号:@陆浑戎 @设定控 @万事风过耳 @殆知阁 @好东西传送门 @次家神受 @电影贩 @蓝影屋 @一只傲骄 @电影的力量 至于原因,大家点开这些账号就知道了。 [ [微博](http://www.weibo.com/5198011111/BsrUmlJBD) ] + +2014-10-20 有人反映有墙.不知这两个能不能访问 pdf http://t.cn/R7qQcbc 代码 http://t.cn/R7qQcbf //@好东西传送门: Gaussian Mixture Models Tutorial and MATLAB Code [ [微博](http://www.weibo.com/5220650532/Bsq6ceu3K) ] + +> 2014-10-20 @赶路人林文: @好东西传送门 一篇关于GMM的文章,讲的很清晰,内有Matlab代码示范以及相关例子的代码。http://t.cn/R7q9dDT [ [微博](http://www.weibo.com/2351012892/BspbXoFZZ) ] + +2014-10-20 Gaussian Mixture Models Tutorial and MATLAB Code [ [微博](http://www.weibo.com/5220650532/BspJzex7T) ] + +> 2014-10-20 @赶路人林文: @好东西传送门 一篇关于GMM的文章,讲的很清晰,内有Matlab代码示范以及相关例子的代码。http://t.cn/R7q9dDT [ [微博](http://www.weibo.com/2351012892/BspbXoFZZ) ] + +2014-10-20 感谢 @网路冷眼 @慕知网 @西瓜大丸子汤 @龙星镖局 @CCL-2014 今天还有非常多的好内容在长版的"温故知新"中,主要是昨天CCL2014分享出来的各种干货和精彩的讨论:周志华教授和李明院士的两个特邀报告,知识图谱研讨会的PPT http://t.cn/R7qMPcd [ [微博](http://www.weibo.com/5220650532/BsojtjheH) ] + +> 2014-10-20 @好东西传送门: 机器学习头条 2014-10-19 http://t.cn/R7qMPcr 1)Datumbox开源它们自己的机器学习框架 2)@神经元NL 的Learning From Data学习笔记 3)Boosting和香农信道编码定理 4)Bengio组(蒙特利尔大学LISA组)深度学习教程 5)知识图谱:大数据语义链接的基石-李涓子 加长版39条 http://t.cn/R7qMPcd [ [微博](http://www.weibo.com/5220650532/BsoifEU3e) ] + +2014-10-20 机器学习头条 2014-10-19 http://t.cn/R7qMPcr 1)Datumbox开源它们自己的机器学习框架 2)@神经元NL 的Learning From Data学习笔记 3)Boosting和香农信道编码定理 4)Bengio组(蒙特利尔大学LISA组)深度学习教程 5)知识图谱:大数据语义链接的基石-李涓子 加长版39条 http://t.cn/R7qMPcd [ [微博](http://www.weibo.com/5220650532/BsoifEU3e) ] + +2014-10-20 非常感谢!对大家有用让我们很开心 [ [微博](http://www.weibo.com/5220650532/BsnbJoEON) ] + +> 2014-10-20 @VikingMew: 給@好东西传送门 捐了20塊錢。在意識到可以節省我多少刷微博的時間之後。 [ [微博](http://www.weibo.com/1963340133/Bsn36xsfw) ] + +2014-10-20 @廖雪峰 的Python教程,"这是小白的Python新手教程",以前推荐过,再推荐一次 [ [微博](http://www.weibo.com/5220650532/Bsmw5mlid) ] + +> 2014-10-19 @KissDev: 机器学习的书籍为何大都爱使用Python语言 ? 首先是因为python简单易用,更主要的原因是第三方模块/库太丰富了,信手拈来,这一点目前 php/go/nodejs还比不上 推荐这个教程,大概一个小时就能学会py: http://t.cn/zQXcs9S [ [微博](http://www.weibo.com/1699016425/BskpXhgUT) ] + +2014-10-20 Michael S. Brown是新加坡国立大学的教授 http://t.cn/heVofJ 他专门研究消费者电子产品中的计算机视觉问题,如相机, Xbox,投影仪等.去年的ICIP上他还做了个类似的教程From RAW to sRGB and Back: Modeling the Onboard Camera Processing Pipeline http://t.cn/R7qLUXL [ [微博](http://www.weibo.com/5220650532/BslMx6WKX) ] + +> 2014-10-19 @cvnote计算机视觉笔记: 拍照时相机对图像进行了那些处理?| ECCV'14 Tutorial《Understanding the In-Camera Image Processing Pipeline for Computer Vision》,详细介绍了相机算法中颜色变换算法的细节,可以作为了解颜色空间理论和应用的参考,搜搜资料啥的。http://t.cn/Rhc4ydF [ [微博](http://www.weibo.com/3812841100/BsjsMpNC5) ] + +2014-10-19 还有, http://t.cn/R7qPSnI Twitter Does Not Actually Predict Box Office Sales [STUDY] 提到一篇论文, 研究了Twitter和IMDB等影评网站的预测有效性 http://t.cn/zjYAeDY Why Watching Movie Tweets Won't Tell the Whole Story? //@phunter [ [微博](http://www.weibo.com/5220650532/BskG1mNF9) ] + +> 2014-10-19 @冷姿君: #冷知#发现一个网站,叫做The Internet Movie Script Database(IMSDB),上面有大量好莱坞经典电影的剧本,感兴趣的同学不要错过哦。[阴险] [ [微博](http://www.weibo.com/3888073849/BsgFBrDcR) ] + +2014-10-19 不传paper了,传个有趣的字体 [ [微博](http://www.weibo.com/5220650532/BsiJc4VLe) ] + +> 2014-10-19 @alim0x: 添加ubuntu对emoji表情的显示支持 sudo apt-get install ttf-ancient-fonts [ [微博](http://www.weibo.com/5139583946/BsiEP4Jvh) ] + +2014-10-19 IMSDB 链接直达http://t.cn/Gy8xd 搭售我们以前推过的电影评价数据MovieTweetings http://t.cn/R7GX32X 和电影海报数据库MoviePosterDB http://t.cn/R7GX326 //@phunter_lau: NLP素材,比如从剧本预测卖座与否 [ [微博](http://www.weibo.com/5220650532/BshsSg45e) ] + +> 2014-10-19 @冷姿君: #冷知#发现一个网站,叫做The Internet Movie Script Database(IMSDB),上面有大量好莱坞经典电影的剧本,感兴趣的同学不要错过哦。[阴险] [ [微博](http://www.weibo.com/3888073849/BsgFBrDcR) ] + +2014-10-19 //@velvel2: 1)Margin本身旨在降低分类器的方差(对比感知机)。2)而Gao-Zhou的工作指出Margin自身的方差也要关注,可谓是方差之方差。3)除了margin理论和统计视角,没有别的解释了?//@孙茂松: 现场报告时很多精彩之处,PPT还没有完全反映出来。那是到现场听报告者的额外bonus。 [ [微博](http://www.weibo.com/5220650532/Bsgnpil9R) ] + +> 2014-10-18 @孙茂松: 南京大学周志华教授在CCL上做大会特邀报告“Boosting 25 Years”。这是我近年来听到的最精彩的学术报告之一。400多位与会代表普遍反映报告内容深入浅出,令人耳目一新,收获很大。 @南大周志华 [ [微博](http://www.weibo.com/1970879995/BsbfNlrTe) ] + +2014-10-19 清华大学李涓子教授所在的知识工程研究室,是国内重要的语义网和知识工程研究小组之一.他们很早就开始了知识图谱相关研究.这个报告里李涓子从语义网延革的角度剖析了知识图谱的来龙去脉 @唐杰THU [ [微博](http://www.weibo.com/5220650532/Bsf9x2FIM) ] + +> 2014-10-17 @CCL-2014: 大量干货来袭(知识图谱研讨会 PPT), 知识图谱:大数据语义链接的基石-李涓子 http://t.cn/R7U4t3V [ [微博](http://www.weibo.com/5334438898/BrXVwukjE) ] + +2014-10-19 @讯飞胡国平 (@科大讯飞 ) 分享了在音乐领域和客服领域的知识图谱应用 [ [微博](http://www.weibo.com/5220650532/Bsf7Ibsmm) ] + +> 2014-10-17 @CCL-2014: 知识图谱研讨会 PPT:从应用的角度看知识图谱的价值和挑战-胡国平 http://t.cn/R7U4XAM [ [微博](http://www.weibo.com/5334438898/BrXW83Fax) ] + +2014-10-19 @沈李斌NLP 在 @出门问问 从事自然语言处理.他以前在BBN,Akamai, IBM等公司从事研究工作,在机器翻译与句法分析等领域有很多贡献 [ [微博](http://www.weibo.com/5220650532/Bsf6yEAjv) ] + +> 2014-10-17 @CCL-2014: 知识图谱研讨会 PPT: 问答系统中的知识图谱-沈李斌 http://t.cn/R7U49Vt [ [微博](http://www.weibo.com/5334438898/BrXWudI63) ] + +2014-10-19 刚刚推荐到头条 http://t.cn/R7bDGPA [ [微博](http://www.weibo.com/5220650532/Bsf1YCOLC) ] + +> 2014-10-18 @CCL-2014: 周志华教授特邀报告PPT: BOOSTING 25年 http://t.cn/R7bMKaA [ [微博](http://www.weibo.com/5334438898/Bsa7pdONv) ] + +2014-10-19 感谢@南大周志华 @孙茂松 @丕子 @bitslife @cswhjiang . 这几天重要活动是第十三届全国计算语言学会议CCL2014在华中师范大学召开,加长版里有更多汇报http://t.cn/R7bDGPA .欢迎参与会议的同仁多在微博上分享,我们会及时总结在日报里 [ [微博](http://www.weibo.com/5220650532/BseYMo69t) ] + +> 2014-10-19 @好东西传送门: 机器学习头条2014-10-18 http://t.cn/R7bDPUz 1)周志华在CCL大会做特邀报告Boosting 25 Years 2)EMNLP上两篇关于股票趋势的应用论文 3)DeepLearning University更新了162篇新文章 4)UCLA 统计软件学习资源网站 5)Vowpal Wabbit,Liblinear/SBM和StreamSVM性能比较 加长版44条 http://t.cn/R7bDPU7 [ [微博](http://www.weibo.com/5220650532/BseXnu3oZ) ] + +2014-10-19 机器学习头条2014-10-18 http://t.cn/R7bDPUz 1)周志华在CCL大会做特邀报告Boosting 25 Years 2)EMNLP上两篇关于股票趋势的应用论文 3)DeepLearning University更新了162篇新文章 4)UCLA 统计软件学习资源网站 5)Vowpal Wabbit,Liblinear/SBM和StreamSVM性能比较 加长版44条 http://t.cn/R7bDPU7 [ [微博](http://www.weibo.com/5220650532/BseXnu3oZ) ] + +2014-10-19 Python数据分析基础教程:Numpy学习指南 http://t.cn/zRCEjvM 英文原版NumPy Beginner's Guide http://t.cn/R7brKdm [ [微博](http://www.weibo.com/5220650532/BseylzC1l) ] + +> 2014-10-19 @2gua: 平板上看电子书就是舒适满满…… [ [微博](http://www.weibo.com/1609119537/Bseq5xtf2) ] + +2014-10-19 //@尘绳聋-SYSU:这个其实是Theano搞DL的tutorial,教如何用Theano实现常用的几个模型。其实Release 1.0去年9月已经出来了,瞄了一眼这个,是Oct. 18 2014的,不过基本内容好像没改动。有空再仔细看看。 [ [微博](http://www.weibo.com/5220650532/BsbGDzRkr) ] + +> 2014-10-19 @龙星镖局: 这可能是今年关于深度学习最好的材料了,深度学习一线大牛Bengio组写的教程,算法深入显出,还有实现代码,一步步展开。读完之后也可以说是搞过深度学习了呢。[good]@好东西传送门 @蒋涛CSDN @developerWorks 『』http://t.cn/zT2M85O [ [微博](http://www.weibo.com/1830516311/BsbxblR33) ] + +2014-10-18 还有,补充一个3年多前在hackernews上对该文的讨论 http://t.cn/R7b0g98 不少人也讨论了其他语言(matlab, ruby, perl, java, R .... ) 的特点以及不转到python的原因 [ [微博](http://www.weibo.com/5220650532/Bsbn5vegJ) ] + +> 2014-10-18 @好东西传送门: Why Python Rocks for Research http://t.cn/R74Duja 这篇文章里Hoyt Koepke总结了Python作为研究语言的十大优势:通用性(相对Matlab/R),可读性,高层抽象与底层操作的平衡,作为胶水语言的互操作性,文档,层次模块系统,灵活的数据结构,丰富的包,测试框架. [ [微博](http://www.weibo.com/5220650532/Bs7Xo03FG) ] + +2014-10-18 Why Python Rocks for Research http://t.cn/R74Duja 这篇文章里Hoyt Koepke总结了Python作为研究语言的十大优势:通用性(相对Matlab/R),可读性,高层抽象与底层操作的平衡,作为胶水语言的互操作性,文档,层次模块系统,灵活的数据结构,丰富的包,测试框架. [ [微博](http://www.weibo.com/5220650532/Bs7Xo03FG) ] + +2014-10-18 http://t.cn/Rh9Tsnt Science杂志和中国航天员中心人因工程重点实验室推出67页的专刊Human Performance in Space,发表了31篇中国载人航天的研究成果,如太空生理,太空中的认知行为和人机交互HCI,人体建模与绩效评估等.特别是其中HCI和认知部分对计算机科学研究也很有启发.这条新闻你想at谁? [ [微博](http://www.weibo.com/5220650532/Bs6G9rx1a) ] + +2014-10-18 Li Ming是经典著作An Introduction to Kolmogorov Complexity and Its Applications的作者.他最近对Information Distance的研究对自然语言处理,问答系统都提供了新颖视角 http://t.cn/R740ao2 [ [微博](http://www.weibo.com/5220650532/Bs6hjmVNW) ] + +> 2014-10-13 @孙茂松: CCL特邀报告:加拿大皇家学会院士李明“Approximating Semantics”,微软亚洲研究院首席研究员Junichi Tsujii“Linking Text with Data & Knowledge Bases”,长江学者周晓林“Processing Construction-based Pragmatic Constraints during Sentence Comprehension”和长江学者周志华“Boosting 25年” [ [微博](http://www.weibo.com/1970879995/BroeAdCkw) ] + +2014-10-18 非常棒!//@bitslife: 刚刚更新了162篇新文章 http://t.cn/R74K9sg [ [微博](http://www.weibo.com/5220650532/Bs5Zuv45d) ] + +> 2014-10-18 @bitslife: 看到下面一个页面,深感深度学习(Deep Learning)的应用太广了,从硬件、图像到健康、生物、大数据、生物信息再到量子计算等,Amund Tveit等维护了一个DeepLearning.University小项目:收集从2014年开始深度学习文献,相信可以作为深度学习的起点。http://t.cn/RhoE0gh Github:http://t.cn/R74KS5j [ [微博](http://www.weibo.com/1895047203/Bs5QTqlLI) ] + +2014-10-18 国内也有很好的论坛, 例如人大经济论坛 http://t.cn/hrPJFc 新界面大约是2013五六月推出的 http://t.cn/R74SKcd //@司马左右: 真是越做越漂亮,后悔没有把之前的样子截图。国内为什么没有类似的网站呢?反而是一些统计软件使用基础的商业培训和一些要什么金币的资源网站大行其道。//@沈浩老师:保留 [ [微博](http://www.weibo.com/5220650532/Bs5FsfSiy) ] + +> 2014-10-18 @好东西传送门: 推荐一个统计软件学习资源网站(UCLA统计咨询小组维护) http://t.cn/R74xS4x 覆盖众多统计软件: R, SAS, SPSS, STATA 资料合集 http://t.cn/R74xS4J 两个速查表 1. 常见数据分析方法分别推荐代码例子 http://t.cn/R74xS46 2. 按变量的数量,性质及测试方法分别推荐代码例子 http://t.cn/R74xS4X [ [微博](http://www.weibo.com/5220650532/Bs4XR5nkJ) ] + +2014-10-18 回复@phunter_lau: 我们就是松鼠银行。小松鼠们不看没关系,在我们这里永远保存的。 //@phunter_lau:似乎是松鼠症总结,肯定很多只转不看留着过冬结果来年就忘记了 [ [微博](http://www.weibo.com/5220650532/Bs5gOwHXH) ] + +> 2014-10-18 @好东西传送门: 好东西周报刚刚发出 http://t.cn/R74iqHY 如果过去一周有错过的好东西,看这个周报就好了 [呵呵] [ [微博](http://www.weibo.com/5220650532/Bs5cHeQqW) ] + +2014-10-18 //@一刹春: 这篇报告可以放在更大的背景下来看——结构主义者与实验主义者之争,例如 http://t.cn/zQtdejz Pearl曾经很不客气地说:因果推断的计量模型受到了两股势力的绑架,一个是回归主义者,另一个是准实验主义者,例如Angrist and Pischke。顺便说,Pearl获得了2011年的图灵奖。 [ [微博](http://www.weibo.com/5220650532/Bs5eUmois) ] + +> 2014-04-22 @一刹春: Judea Pearl写过一篇挺有意思的报告,比较了六本流行的本科计量教材,看它们对结构方程中因果性概念的阐述是否到位。根据他的吹毛求疵,比较接近理想标准的是Stock & Watson和Wooldridge这两本——似乎与市场的反响一致……WP出来有两年了,没想到发在一个奇怪的杂志上:http://t.cn/8sToYJA [ [微博](http://www.weibo.com/2238838664/B0UkOdFMr) ] + +2014-10-18 好东西周报刚刚发出 http://t.cn/R74iqHY 如果过去一周有错过的好东西,看这个周报就好了 [呵呵] [ [微博](http://www.weibo.com/5220650532/Bs5cHeQqW) ] + +2014-10-18 还有,这个网站维护了一个数据集列表 http://t.cn/R74J1vT 索引了一大堆用于统计分析数据集,覆盖社会科学,公众健康,人口普查,国际政治,地理信息等领域 大家一起来挖这个网站上的好东西吧! [ [微博](http://www.weibo.com/5220650532/Bs59obmD6) ] + +> 2014-10-18 @好东西传送门: 推荐一个统计软件学习资源网站(UCLA统计咨询小组维护) http://t.cn/R74xS4x 覆盖众多统计软件: R, SAS, SPSS, STATA 资料合集 http://t.cn/R74xS4J 两个速查表 1. 常见数据分析方法分别推荐代码例子 http://t.cn/R74xS46 2. 按变量的数量,性质及测试方法分别推荐代码例子 http://t.cn/R74xS4X [ [微博](http://www.weibo.com/5220650532/Bs4XR5nkJ) ] + +2014-10-18 推荐一个统计软件学习资源网站(UCLA统计咨询小组维护) http://t.cn/R74xS4x 覆盖众多统计软件: R, SAS, SPSS, STATA 资料合集 http://t.cn/R74xS4J 两个速查表 1. 常见数据分析方法分别推荐代码例子 http://t.cn/R74xS46 2. 按变量的数量,性质及测试方法分别推荐代码例子 http://t.cn/R74xS4X [ [微博](http://www.weibo.com/5220650532/Bs4XR5nkJ) ] + +2014-10-18 在加长版里,我们还看到几家相关领域的创业公司的新闻:@FacePlusPlus (人脸识别) @格灵深瞳 (视觉) Nara(推荐餐馆) Idibon(舆情追踪) 机器学习现在也是投资与创业热点 [ [微博](http://www.weibo.com/5220650532/Bs4FPvH0r) ] + +> 2014-10-18 @好东西传送门: 机器学习头条 2014-10-17 http://t.cn/R74I6IW 1)Douglas Engelbart的书Boosting Our Collective IQ 2)34种免费的数据挖掘软件 3)RecSys2014完整报告视频 4)Hadoop上的轻量级语言Guinea Pig 5)面试资料:Mitbbs数据科学版主晨钟暮鼓推荐的三本书 加长版52条 http://t.cn/R74I6Il [ [微博](http://www.weibo.com/5220650532/Bs4DIlwed) ] + +2014-10-18 今天的头条来自 @西瓜大丸子汤 @赵家平USC @AixinSG @王威廉 [ [微博](http://www.weibo.com/5220650532/Bs4FLnwdQ) ] + +> 2014-10-18 @好东西传送门: 机器学习头条 2014-10-17 http://t.cn/R74I6IW 1)Douglas Engelbart的书Boosting Our Collective IQ 2)34种免费的数据挖掘软件 3)RecSys2014完整报告视频 4)Hadoop上的轻量级语言Guinea Pig 5)面试资料:Mitbbs数据科学版主晨钟暮鼓推荐的三本书 加长版52条 http://t.cn/R74I6Il [ [微博](http://www.weibo.com/5220650532/Bs4DIlwed) ] + +2014-10-18 机器学习头条 2014-10-17 http://t.cn/R74I6IW 1)Douglas Engelbart的书Boosting Our Collective IQ 2)34种免费的数据挖掘软件 3)RecSys2014完整报告视频 4)Hadoop上的轻量级语言Guinea Pig 5)面试资料:Mitbbs数据科学版主晨钟暮鼓推荐的三本书 加长版52条 http://t.cn/R74I6Il [ [微博](http://www.weibo.com/5220650532/Bs4DIlwed) ] + +2014-10-18 http://t.cn/8sQnHYm “Better predictions. Faster.” R和Python都支持,看起来很有趣 //@ofsky: datarobot有木有,Jeremy你又要高兴了 [ [微博](http://www.weibo.com/5220650532/Bs41xbM6q) ] + +> 2014-10-18 @医学统计分析精粹: 除了Scipy和Numpy,Python通往数据科学还有一个极为强大的接口,Pandas。本网页整理了Pandas入门的几个经典资源,隆重推介。http://t.cn/R74qqAO @西瓜大丸子汤 @医学统计分析精粹 [ [微博](http://www.weibo.com/1874048763/Bs3cupl8c) ] + +2014-10-18 问: @战术核显英伟达 关于stata有什么好的书籍? 答: 资源整理 http://t.cn/R74tSJA 推荐人大经济论坛 “stata专版” 。很喜欢 hopenothing 2011年写的书单和建议 http://t.cn/R74tSJw : "要应用它,前提是要懂计量理论", "先从中文基本书籍入门,简单操作上手之后直接看英文", "不要被方法统治了思想" [ [微博](http://www.weibo.com/5220650532/Bs3IIxJTH) ] + +2014-10-18 pandas最早是从金融数据处理开始的,现在已经演变成数据科学家必备了,不可不知 [ [微博](http://www.weibo.com/5220650532/Bs3gYdRjy) ] + +> 2014-10-18 @医学统计分析精粹: 除了Scipy和Numpy,Python通往数据科学还有一个极为强大的接口,Pandas。本网页整理了Pandas入门的几个经典资源,隆重推介。http://t.cn/R74qqAO @西瓜大丸子汤 @医学统计分析精粹 [ [微博](http://www.weibo.com/1874048763/Bs3cupl8c) ] + +2014-10-17 @ShangguanRPI @朝花夕拾录 @陈涛sean @黄亮-算法时代 @老齐Py @StephanieYR @左耳朵耗子 @郑昀 @张俊林say @算文解字 @易度-潘俊勇 特别问问你们,有没有更多的python牛人应该关注? [ [微博](http://www.weibo.com/5220650532/Bs0jmD16M) ] + +> 2014-10-17 @好东西传送门: 现在问题来了,微博上Python技术谁家最强?欢迎大家推荐Python牛人们 [ [微博](http://www.weibo.com/5220650532/Bs0b07bUZ) ] + +2014-10-17 现在问题来了,微博上Python技术谁家最强?欢迎大家推荐Python牛人们 [ [微博](http://www.weibo.com/5220650532/Bs0b07bUZ) ] + +2014-10-17 Python是人类的救星 //@phunter_lau: Pig的救星,Pig这玩意语法太反人类了 [ [微博](http://www.weibo.com/5220650532/BrZuejO1L) ] + +> 2014-10-17 @王威廉: Pig是管理Hadoop任务的一个高级程序语言,在Amazon的Elastic MapReduce平台上也有支持。上学期我们大数据机器学习课程介绍了Pig,不过Pig的语法有点诡异,学生普遍反映不好调试。针对此问题,William Cohen发明了一个叫Guinea Pig(荷兰猪)的轻量级语言,基于Python,非常有意思:http://t.cn/R7yRpKp [ [微博](http://www.weibo.com/1657470871/BrW1Ckjrd) ] + +2014-10-17 //@西瓜大丸子汤: Doug是一位思想家,更是一位实践者,他发明了鼠标,超文本,计算机联网,最早的图形用户界面,远程电视会议,远程实时合作等等...见The Mother of All Demos http://t.cn/zQ7gpBt 他可以说是Web之父之父,TBL的很多思想是从他那来的, BTW,也是图灵奖得主. [ [微博](http://www.weibo.com/5220650532/BrXuc9Wcq) ] + +> 2014-10-17 @西瓜大丸子汤: 向大家推荐Douglas Engelbart的书,最短的Boosting Our Collective IQ http://t.cn/R7UZhIU 只有三十多页,但我觉得比<失控>好十倍.另外两本<Bootstrapping><The Engelbart Hypothesis>不是他写的(他才没空写),不过都是对他的采访,也比较好.Doug对人类的影响极为深远,虽然大多数人不知道 [ [微博](http://www.weibo.com/1932835417/BrXs3b0Ry) ] + +2014-10-17 推荐一篇ACM Computing Surveys 2010年综述,讲关于时间的数理模型 http://t.cn/R7yFUYT 1. 时间模型的考量维度,例如 离散/连续,顺序/分支,并发/组合,... 2. 数理模型发展史, 3. 常见时间模型分类, 例如 Petri网, 时间逻辑(Temporal Logic), 进程代数(process calculi) ... 抛砖引玉,欢迎指正 [ [微博](http://www.weibo.com/5220650532/BrX0g9W3D) ] + +2014-10-17 推荐系统必读.会议论文集.http://t.cn/RhFPLGl [ [微博](http://www.weibo.com/5220650532/BrWrN9bOy) ] + +> 2014-10-17 @AixinSG: RecSys 2014 完整报告视频, 包括每篇文章的报告 YouTube 链接 http://t.cn/R7y34x0 [ [微博](http://www.weibo.com/1025887594/BrWpTfiE9) ] + +2014-10-17 这两个东东当然好, Leetcode 前些时候才推过 http://t.cn/R7ymOb8 "crack the coding interview" 这个PDF版行吗 http://t.cn/R7ymObQ //@睡眼惺忪的小叶先森: 让大神@whiteath @_靖难_ 也推荐一下。我估计推荐leetcode和砸死代码面试 [ [微博](http://www.weibo.com/5220650532/BrWi747Jh) ] + +> 2014-10-17 @好东西传送门: 美帝码农面试资料 Mitbbs数据科学版主 晨钟暮鼓 推荐三本书:《101 Great Answers to the Toughest Interview Questions》 http://t.cn/R7yHCSP "behavior问题",《Recommender Systems》(Xiavier) http://t.cn/RhCcR9f ,《The Algorithm Design Manual》 http://t.cn/R7yHCSh "算法:graph,hash,DP" [ [微博](http://www.weibo.com/5220650532/BrVHvllVW) ] + +2014-10-17 补充一下: 要斗败烙印,还得提高情商。“The Algorithm Design Manual” 有很多人推荐过 年初是@velvel2 。而现在各公司都搞精准广告投放, Xavier Amatriain讲义自然对口, 可以先看KDD2014版(135页), 再看MLSS2014版(248页) , 所有资料都汇总到问答274了 http://t.cn/R7yEf6b 。 [ [微博](http://www.weibo.com/5220650532/BrW6cAzFI) ] + +> 2014-10-17 @好东西传送门: 美帝码农面试资料 Mitbbs数据科学版主 晨钟暮鼓 推荐三本书:《101 Great Answers to the Toughest Interview Questions》 http://t.cn/R7yHCSP "behavior问题",《Recommender Systems》(Xiavier) http://t.cn/RhCcR9f ,《The Algorithm Design Manual》 http://t.cn/R7yHCSh "算法:graph,hash,DP" [ [微博](http://www.weibo.com/5220650532/BrVHvllVW) ] + +2014-10-17 问: 关于进程代数研究的paper? 答: 资料汇总 http://t.cn/R7LN18n 进程代数process calculi用于为并发系统形式化建模,包括: π-calculus, ambient calculus, PEPA, fusion calculus, join-calculus。有本书 "Process algebra: equational theories of communicating processes" [ [微博](http://www.weibo.com/5220650532/BrW0E3a1f) ] + +2014-10-17 "Introduction To Algorithms" vs "The Algorithm Design Manual" 两本算法神作的进一步讨论: 前者是算法课的常客,概念清晰偏重理论(也是门主买过的为数不多的几本原价纸书), 而后者是编程实战利器(代码随用随抄),尤其适合准备白板面试。码农不妨看看stackoverflow的讨论 http://t.cn/R7yQ5a5 [ [微博](http://www.weibo.com/5220650532/BrVN33les) ] + +> 2014-10-17 @好东西传送门: 美帝码农面试资料 Mitbbs数据科学版主 晨钟暮鼓 推荐三本书:《101 Great Answers to the Toughest Interview Questions》 http://t.cn/R7yHCSP "behavior问题",《Recommender Systems》(Xiavier) http://t.cn/RhCcR9f ,《The Algorithm Design Manual》 http://t.cn/R7yHCSh "算法:graph,hash,DP" [ [微博](http://www.weibo.com/5220650532/BrVHvllVW) ] + +2014-10-17 美帝码农面试资料 Mitbbs数据科学版主 晨钟暮鼓 推荐三本书:《101 Great Answers to the Toughest Interview Questions》 http://t.cn/R7yHCSP "behavior问题",《Recommender Systems》(Xiavier) http://t.cn/RhCcR9f ,《The Algorithm Design Manual》 http://t.cn/R7yHCSh "算法:graph,hash,DP" [ [微博](http://www.weibo.com/5220650532/BrVHvllVW) ] + +2014-10-17 感谢@Arber @邱锡鹏 @CSDN_CODE @Jay_GraphLab 为我们分享了这些好东西.Fudan NLP和Graphlab都能不断推陈出新,产品越来越容易使用,无论是单机还是云,现在应用NLP越来越容易了. [ [微博](http://www.weibo.com/5220650532/BrUq2jBGW) ] + +> 2014-10-17 @好东西传送门: 机器学习头条 2014-10-16 http://t.cn/R7y09uG 1)Gerhard Weikum在VLDB'14的关于大数据分析的教程 2)垃圾邮件分类数据集 3)吴立德讲概率主题模型和数据科学基础 4)复旦大学推出基于云的FudanNLP 5)GraphLab Create正式发布,单机处理海量数据 加长版50条 http://t.cn/R7y09ub [ [微博](http://www.weibo.com/5220650532/BrUoMi7u7) ] + +2014-10-17 机器学习头条 2014-10-16 http://t.cn/R7y09uG 1)Gerhard Weikum在VLDB'14的关于大数据分析的教程 2)垃圾邮件分类数据集 3)吴立德讲概率主题模型和数据科学基础 4)复旦大学推出基于云的FudanNLP 5)GraphLab Create正式发布,单机处理海量数据 加长版50条 http://t.cn/R7y09ub [ [微博](http://www.weibo.com/5220650532/BrUoMi7u7) ] + +2014-10-17 RGB+Depth 深度感知计算机视觉 structure.io上有很酷的demo http://t.cn/z8rCSiR [ [微博](http://www.weibo.com/5220650532/BrU4XFuFB) ] + +> 2014-10-16 @cvnote计算机视觉笔记: CVPR'14 OpenCV 3.0 RGBD Tutorial | 由当年Kickstarter火爆的RGBD传感器 初创公司Occipital Sensor提供,今天扫了一眼Github还有源代码,使用的RGBD算法已经加入了OpenCV的contrib模块。http://t.cn/R7yyrMM [ [微博](http://www.weibo.com/3812841100/BrRxPhuYd) ] + +2014-10-17 Weikum是数据库,信息检索语义网领域的一位重要研究者,他在Max-Planc研究所。主页http://t.cn/R7yX6Je [ [微博](http://www.weibo.com/5220650532/BrSLYm4uR) ] + +> 2014-10-16 @Arber: Gerhard Weikum在VLDB'14的关于Big Data Anlytics的tutorial,非常好的总结了大数据知识库和语义这块的主要问题和技术体系。强烈建议做数据的人看看。他在下个月CIKM'14还有一个talk,估计类似。 http://t.cn/RhftLDi p.s. 看完也就知道一找的整体技术路线了~ [ [微博](http://www.weibo.com/1818327890/BrSyKkZvA) ] + +2014-10-16 http://t.cn/RPqUcVL graphlab create主页直达 [ [微博](http://www.weibo.com/5220650532/BrS1lyrW2) ] + +> 2014-10-16 @Jay_GraphLab: 经过一年多努力,GraphLab Create正式发布1.0:单机轻松处理海量图表/图(graph)/文本/图像(image)数据;机器学习模块包括推荐系统/社交网络/文本分析/最近邻搜索,还有前沿的BoostedTrees/DeepLearning/FactorizationMachine/LDA等模型;模型可以简单地被推送到云端,作为网站/App后台的智能预测服务 [ [微博](http://www.weibo.com/1863703874/BrOrBsidt) ] + +2014-10-16 转发微博 [ [微博](http://www.weibo.com/5220650532/BrPPE2d2z) ] + +> 2014-10-16 @睡眼惺忪的小叶先森: 自己做的一个Introduction to Redis,给几个需要的同学看过,反响还行 [嘻嘻] http://t.cn/R7LmBxF @好东西传送门 @whiteath @囧囧有神的小杜霉女 [ [微博](http://www.weibo.com/2765244861/BrPOVDWpU) ] + +2014-10-16 Anaconda是一个Python科学计算库的集合.与之前介绍过的Sage之重分析和数学不同,Anaconda重数据和效率,提供了诸多大数据分析工具,如Blaze(分布式数据分析), Bokeh(可视化), Numba(更快的Python代码编译) 最新的版本打包了195个科学计算包,极大方便 http://t.cn/zHsZMWW [ [微博](http://www.weibo.com/5220650532/BrPuj5NZn) ] + +2014-10-16 问:@执手共看云归醉晚汐 垃圾邮件分类有什么数据集么? 答:资料汇总 http://t.cn/R7L0GJZ 垃圾邮件数据集常见的有 UCI, enron, SpamAssassin, TREC。注意 Spam Archive dataset 有1997-2014的1个多G压缩过的垃圾邮件。尚未找到专门对垃圾邮件进一步标注分类的公开数据集 敬请指正 [ [微博](http://www.weibo.com/5220650532/BrPrACNtA) ] + +2014-10-16 找了一些 http://t.cn/R7L0GJZ 你看是你需要的吗? [ [微博](http://www.weibo.com/5220650532/BrP11gwAx) ] + +> 2014-10-09 @执手共看云归醉晚汐: 垃圾邮件分类有什么数据集么@好东西传送门 @西瓜大丸子汤 [ [微博](http://www.weibo.com/1687018055/BqMNcAfmh) ] + +2014-10-16 相关 2014-08-02 @理想主义de患者 问:有没有垃圾邮件检测的项目啊。答:比较有效的方法都是结合机器学习与人工知识的。最有名的开源项目是SpamAssassin,可以从很多语言调用如Python 。另有个开源项目Stopspam也值得关注。 http://t.cn/R7L0iI7 [ [微博](http://www.weibo.com/5220650532/BrOXC1Qkq) ] + +> 2014-10-09 @执手共看云归醉晚汐: 垃圾邮件分类有什么数据集么@好东西传送门 @西瓜大丸子汤 [ [微博](http://www.weibo.com/1687018055/BqMNcAfmh) ] + +2014-10-16 感谢 @Copper_PKU @MOOC学院 @规勒个划 @BigData大数据 提供或帮我们发现了这些好资源 [ [微博](http://www.weibo.com/5220650532/BrLpIjj3x) ] + +> 2014-10-16 @好东西传送门: 机器学习头条 2014-10-15 http://t.cn/R72BEMB 1)125页的免费电子书,Boyd的ADMM综述 2)机器学习入门资源不完全汇总 3)好课推荐:斯坦福大学《博弈论》 4)BCL发布一亿Flickr照片数据集的中国部分 5)Andrew Ng公开演讲深度学习:用大规模大脑实现机器学习 加长版50条 http://t.cn/R72BEMd [ [微博](http://www.weibo.com/5220650532/BrLoXAaeH) ] + +2014-10-16 机器学习头条 2014-10-15 http://t.cn/R72BEMB 1)125页的免费电子书,Boyd的ADMM综述 2)机器学习入门资源不完全汇总 3)好课推荐:斯坦福大学《博弈论》 4)BCL发布一亿Flickr照片数据集的中国部分 5)Andrew Ng公开演讲深度学习:用大规模大脑实现机器学习 加长版50条 http://t.cn/R72BEMd [ [微博](http://www.weibo.com/5220650532/BrLoXAaeH) ] + +2014-10-16 恭喜中国卫生政策与管理学会(海外)成立.我们的朋友里也有好多卫生经济学和统计的同仁 @陈茁博士_Adam @医学统计分析精粹 @美国中部大平原的胖胖 //@史律: 轉發微博 [ [微博](http://www.weibo.com/5220650532/BrLkYBqOZ) ] + +> 2014-10-15 @romanxu: 在@行走江湖张大水 的不懈努力下,@CHPAMS 终于在共和国国庆那天正式注册成功。祝贺大水当选第一任主席。CHPAMS从2008在波士顿的第一次酝酿到如今已六年,我有幸见证了它发展的每一个瞬间。风风雨雨,茁壮成长。有大家一片赤情,CHPAMS会越办越好。作为其首任理事,我也愿为大家服好务。www.chpams.org [ [微博](http://www.weibo.com/1651598281/BrESQzYjA) ] + +2014-10-16 125页的免费电子书,Boyd的ADMM综述 pdf直达http://t.cn/R721y3V [ [微博](http://www.weibo.com/5220650532/BrL3Ty2Dv) ] + +> 2014-10-15 @Copper_PKU: Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers http://t.cn/R72zKr9 有paper有survey 有code 简直.... [ [微博](http://www.weibo.com/1758509357/BrGu0wSnP) ] + +2014-10-16 //@刘挺: LTP是@哈工大SCIR 历时十余年研制的一套中文处理基础工具平台,开源且提供云服务,很多开发者在用。这次我们在京召开一个LTP用户的交流会,请大家提意见和建议。LTP的研制者@车万翔 等师生会介绍LTP的原理、功能和使用方法,也会有老用户介绍使用经验,欢迎大家一起来交流! [ [微博](http://www.weibo.com/5220650532/BrJlv1Oep) ] + +> 2014-10-15 @哈工大SCIR: 第一届语言技术平台用户大会(LTP-2014)将于2014年10月31日上午在京举行,届时将邀请LTP的技术团队介绍技术原理和应用、LTP用户介绍使用经验,还将组织针对LTP的研讨。本次研讨会自由报名,竭诚欢迎学术界与企业界的朋友参加。会议安排及报名方式请访问会议主页:http://t.cn/R7AgbAZ @刘挺 @车万翔 [ [微博](http://www.weibo.com/1819811883/BrFOdEolM) ] + +2014-10-15 谢了,已经更新。书前段时间推荐过,正打算改天补充一个书单;林老师的机器学习基石课加上了; 最后一门课已包括 //@tang_Kaka_back: 再加上李航博士的《统计学习方法》。如果觉得数学功底还过得去,还可以试试就是台大林轩田老师的“Machine Learning Foundation” or Caltech的“Learning from Data” [ [微博](http://www.weibo.com/5220650532/BrGwvpfOY) ] + +> 2014-10-15 @好东西传送门: 问: 本科生想学机器学习, 求推荐一个学习路线图 答: 整理了《机器学习入门资源不完全汇总》 http://t.cn/R7AkewK 推荐先看基本概念与几个路线图,参考小伙伴的进修攻略 (包括此前推的 学霸的学习笔记), 选修一门网上公开课(Tom Mitchell, Andrew Ng)系统地打好基础,理解算法实战要点。欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BrG32lkwC) ] + +2014-10-15 问: 本科生想学机器学习, 求推荐一个学习路线图 答: 整理了《机器学习入门资源不完全汇总》 http://t.cn/R7AkewK 推荐先看基本概念与几个路线图,参考小伙伴的进修攻略 (包括此前推的 学霸的学习笔记), 选修一门网上公开课(Tom Mitchell, Andrew Ng)系统地打好基础,理解算法实战要点。欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BrG32lkwC) ] + +2014-10-15 Yaha"哑哈"中文分词(作者余争) 优点:可以自定义分词方法,有正则表达式插件,人名前缀插件,地名后缀插件,新词学习功能.还有关键字提取,文本摘要,词语纠错功能,不仅是分词.Python的,使用非常简单 Github http://t.cn/R7AQyPt 在线演示 http://t.cn/R7AQyPc [ [微博](http://www.weibo.com/5220650532/BrF5hsF21) ] + +2014-10-15 规划控,GIS控,图片控,赶快来围观,200万张照片哦 [ [微博](http://www.weibo.com/5220650532/BrF0Pe9WF) ] + +> 2014-10-15 @规勒个划: BCL发布Yahoo! 提供一亿Flickr照片数据集的中国部分(下载+裁剪),下载猛戳:http://t.cn/R7ATWph @北京城市实验室BCL [ [微博](http://www.weibo.com/1012425625/BrEYPEY3x) ] + +2014-10-15 UIUC黄嘉斌(Jia-Bin Huang)的奇妙工作:图像补全.从图像里抹掉或切掉一部分,可以根据背景补上相近的建筑,物体纹理等.http://t.cn/R7AWFqg Matlab代码已经开源 http://t.cn/R7AWFqd [ [微博](http://www.weibo.com/5220650532/BrEKjBTde) ] + +2014-10-15 黄嘉斌用特殊的“主成分分析法”PCA和奇异值分解法(singular value decomposition)SVD做韩国小姐脸部特征的分析,验证了那个著名的观点“大众脸很吸引人,但最吸引人的却不是大众脸”. 英文原文http://t.cn/zTYkQB0 [ [微博](http://www.weibo.com/5220650532/BrEFncjHG) ] + +> 2013-05-07 @果壳网: 【“韩国小姐”的脸到底有多相似?】2013年“韩国小姐”选美大赛开始后,曝光的20位佳丽面容惊人的相似。那么,这些姑娘的脸到底有多么像呢?能否用科学的方法量化这种相似性?伊利诺伊大学香槟分校搞计算机视觉的博士生黄嘉斌写了篇文章,用科学的方法揭开了这个谜团:http://t.cn/zTYBfsN [ [微博](http://www.weibo.com/1850988623/zvBrGl1TL) ] + +2014-10-15 转发微博 [ [微博](http://www.weibo.com/5220650532/BrEcZzvnv) ] + +> 2014-10-15 @BigData大数据: 【Andrew Ng加盟百度后第一公开演讲】吴恩达加盟百度后第一公开演讲,演讲题目:Deep Learning: Machine Learning via Large-scale Brain http://t.cn/R7ASfYu 有兴趣的可以看看 @杨静Lillian @龙星镖局 @云泉微博 @好东西传送门 @李元超Osiris @异步步 [ [微博](http://www.weibo.com/2870219257/BrE8mAZWc) ] + +2014-10-15 感谢 @马超Terminal @李沐M @梁斌penny @cswhjiang @许扬逸Dijkstra 等讨论和推荐 parameter server那条还有一个@老师木 起的相关讨论 http://t.cn/R7ALYi5 可以一起看 [ [微博](http://www.weibo.com/5220650532/BrCBLFdk1) ] + +> 2014-10-15 @好东西传送门: 机器学习头条 2014-10-14 http://t.cn/R7ALbiR 1)spark和parameter server的讨论 2)Think系列免费电子书 3)@梁斌penny 的电商词库 4)Rob Tibshirani的15小时机器学习教程 5)用计算机视觉分析“韩国小姐”的脸到底有多相似 加长版49条 http://t.cn/R7ALbi8 [ [微博](http://www.weibo.com/5220650532/BrCykCJFk) ] + +2014-10-15 机器学习头条 2014-10-14 http://t.cn/R7ALbiR 1)spark和parameter server的讨论 2)Think系列免费电子书 3)@梁斌penny 的电商词库 4)Rob Tibshirani的15小时机器学习教程 5)用计算机视觉分析“韩国小姐”的脸到底有多相似 加长版49条 http://t.cn/R7ALbi8 [ [微博](http://www.weibo.com/5220650532/BrCykCJFk) ] + +2014-10-15 补充一下: 网易的公开课指Ng在斯坦福CS229的课程视频,有中文字幕 http://t.cn/arei5O 而Ng在Coursera 的课是简化版 http://t.cn/RPZBPZL //@好东西传送门: Ng机器学习课的网易公开课网址 http://t.cn/h5n6lh [ [微博](http://www.weibo.com/5220650532/BrCqD9lKD) ] + +> 2014-10-14 @cswhjiang: http://t.cn/Rh8103q In-depth introduction to machine learning in 15 hours of expert videos。Trevor Hastie 和 Rob Tibshirani 大神的课。适合初学者。 [ [微博](http://www.weibo.com/2358675560/BrsfHi0vv) ] + +2014-10-15 Ng机器学习课的网易公开课网址 http://t.cn/h5n6lh //@phunter_lau: 这不是这两位大爷的在线公开课么,这个基于统计角度的机器学习课倒是不太适合无基础的初学者也不是速成,学过Andrew Ng的机器学习课程想深入一些的可以看看 [ [微博](http://www.weibo.com/5220650532/BrChTb200) ] + +> 2014-10-14 @cswhjiang: http://t.cn/Rh8103q In-depth introduction to machine learning in 15 hours of expert videos。Trevor Hastie 和 Rob Tibshirani 大神的课。适合初学者。 [ [微博](http://www.weibo.com/2358675560/BrsfHi0vv) ] + +2014-10-15 //@phunter_lau: 这不是这两位大爷的在线公开课么,这个基于统计角度的机器学习课倒是不太适合无基础的初学者也不是速成,学过Andrew Ng的机器学习课程想深入一些的可以看看//@好东西传送门: 15小时学习机器学习.Tibshirani是经典Elements of Statistical Learning的作者 [ [微博](http://www.weibo.com/5220650532/BrCh3rZE9) ] + +> 2014-10-14 @cswhjiang: http://t.cn/Rh8103q In-depth introduction to machine learning in 15 hours of expert videos。Trevor Hastie 和 Rob Tibshirani 大神的课。适合初学者。 [ [微博](http://www.weibo.com/2358675560/BrsfHi0vv) ] + +2014-10-15 15小时学习机器学习.Tibshirani是经典Elements of Statistical Learning的作者.这个教程是基于他们的新书An Introduction to Statistical Learning with Applications in R (ISLR). [ [微博](http://www.weibo.com/5220650532/BrCekcOJU) ] + +> 2014-10-14 @cswhjiang: http://t.cn/Rh8103q In-depth introduction to machine learning in 15 hours of expert videos。Trevor Hastie 和 Rob Tibshirani 大神的课。适合初学者。 [ [微博](http://www.weibo.com/2358675560/BrsfHi0vv) ] + +2014-10-14 //@聪老师ZJU永远马屁精:这个讨论非常有意思。第一个人问的问题也是我一直以来的问题。ELM在learning领域太非主流了,发明人把它搞成了一个极小的圈子,供大家一起水文章。除了MSR的邓力,没听任何在learning界有所建树的牛人提过ELM。 [ [微博](http://www.weibo.com/5220650532/BrxgKiOYX) ] + +> 2014-10-14 @好东西传送门: 问: 有没有仔细介绍极限学习机ELM和S变换的文章,最好是中文的 答: 资料汇总 http://t.cn/R7wPJYa 网上社区 http://t.cn/R7wPJYS 有代码教程及年会信息。matlabsky 有两个中文资源列表。注意到reddit上学术争议 http://t.cn/R7wPJYK 猜测“ELM是 SVM with a random inflationary kernel" 敬请指点 [ [微博](http://www.weibo.com/5220650532/Brw09AHEV) ] + +2014-10-14 转发微博 [ [微博](http://www.weibo.com/5220650532/BrxdTBPJP) ] + +> 2014-10-14 @冯志伟文化博客: 回复@泛黄的鹿 对博文【关于斯坦福句法剖析器 -- 答网友】的评论:"Stanford Parser使用了SPSG(统计短语结构语法),没有考虑单词的特征,所以,不是词汇化的SPSG模型(Lixicalized SPSG)。 v 冯志伟"查看原文:http://t.cn/aoig2Z [ [微博](http://www.weibo.com/1926267847/Brxa5b0Pb) ] + +2014-10-14 不错的起步教程。传送门直达 http://t.cn/R7wfRwD [ [微博](http://www.weibo.com/5220650532/Brxdyl6Nn) ] + +> 2014-10-14 @cnodejs: Redis快速入门教程 http://t.cn/R7Z0WNO [ [微博](http://www.weibo.com/1958172255/BrxcaEez1) ] + +2014-10-14 自然语言处理的靠谱公司,帮转 //@李志飞AI:跪求Android,iOS以及其他工程师,请大家帮忙转发扩散。简历可直接发我邮箱zfli@mobvoi.com,优先处理! [ [微博](http://www.weibo.com/5220650532/BrxaXjcY5) ] + +> 2014-10-14 @出门问问: #出门问问招聘啦#几十年前,如果你说要改变世界,得到的答复很可能是“呵呵”;但今天,如果你说你要改变世界,没有人敢嘲笑你。让“改变世界”变得可信的,是一群叫做“工程师”的人。如果你也有同样的梦想,快快加入我们的队伍吧![来]http://t.cn/R7whlVj [ [微博](http://www.weibo.com/3411134394/BrwarAjEE) ] + +2014-10-14 问: 有没有仔细介绍极限学习机ELM和S变换的文章,最好是中文的 答: 资料汇总 http://t.cn/R7wPJYa 网上社区 http://t.cn/R7wPJYS 有代码教程及年会信息。matlabsky 有两个中文资源列表。注意到reddit上学术争议 http://t.cn/R7wPJYK 猜测“ELM是 SVM with a random inflationary kernel" 敬请指点 [ [微博](http://www.weibo.com/5220650532/Brw09AHEV) ] + +2014-10-14 是这本书吧 http://t.cn/R7ZFBQe 2012 年 @高哲遠_StonyBrook_CS 同学曾经尝试翻译了一些章节, http://t.cn/RvHjRLs //@MOJUN: 话说,就没人翻译那本经典《Pattern Recognition And Machine Learning》吗? [ [微博](http://www.weibo.com/5220650532/BrvQ47iwh) ] + +> 2014-10-14 @好东西传送门: [温故而知新] 免费电子书 Green tea press 上有 Think Python, Think Bayes, Think Complexity, Think Stats2 等一系列 Allen Downey 撰写的教材,下载链接 http://t.cn/hG9XvF Github有一些书的tex源码例子,相关资料请看合集 http://t.cn/R7ZmB4s @图灵社区 2011年曾推荐过 [ [微博](http://www.weibo.com/5220650532/Brv6gmKco) ] + +2014-10-14 期待梁总的分享链接 [ [微博](http://www.weibo.com/5220650532/BrvJbmyRW) ] + +> 2014-10-14 @梁斌penny: 最近有不少科研机构找我要电商词库,用于科学研究,我们曾经做过30万个细分的小类的电商词(合计8.6亿词汇),包括类号,词,和词频,如下图。 这样吧,一会我们在pennyjob中拿1万个小类(500万词)分享下,写论文肯定是够了。 [ [微博](http://www.weibo.com/1497035431/BruLAwTwB) ] + +2014-10-14 很多人问到怎么订阅<机器学习日报>.为方便大家,做了个订阅按钮在主页上,域名 ml.memect.com http://t.cn/R7ZepFz .或给 hao@memect.com 发封空信,标题是 " 订阅机器学习日报 " 即可.另外,过去几期长短版的链接都加到主页上了. [ [微博](http://www.weibo.com/5220650532/BrvCDmx41) ] + +2014-10-14 //@星空下的巫师: 去年ImageNet的第一名Zeiler&Fergus的论文有提到,今年VGG的论文Very Deep Convolutional Networks for Large-Scale Image Recognition的Part 5也有较详细的描述,可以去看看。 [ [微博](http://www.weibo.com/5220650532/Brvg8DUBh) ] + +> 2014-10-14 @姜文晖061: 有一个很弱的问题,ImageNet竞赛中,分类和定位是一个Task,可为什么大家的论文里为啥都只说分类,没说怎么用那个网络做定位。是因为太简单了,只有我不知道么?请指教[泪] @星空下的巫师 @ICT秦磊 @丕子 @欢乐的陈奇 @JOSHUA的时间轴 @孙炜晨 @木乱人先生 @好东西传送门 [ [微博](http://www.weibo.com/1254045914/BruIK9lEL) ] + +2014-10-14 [good] 期待!//@许扬逸Dijkstra: ThinkBayes中译版已经完成翻译,译者不才正是在下[黑线]。应该最近就会由人民邮电社出版。敬请期待! [ [微博](http://www.weibo.com/5220650532/Brv8Tcsrv) ] + +> 2014-10-14 @好东西传送门: [温故而知新] 免费电子书 Green tea press 上有 Think Python, Think Bayes, Think Complexity, Think Stats2 等一系列 Allen Downey 撰写的教材,下载链接 http://t.cn/hG9XvF Github有一些书的tex源码例子,相关资料请看合集 http://t.cn/R7ZmB4s @图灵社区 2011年曾推荐过 [ [微博](http://www.weibo.com/5220650532/Brv6gmKco) ] + +2014-10-14 [温故而知新] 免费电子书 Green tea press 上有 Think Python, Think Bayes, Think Complexity, Think Stats2 等一系列 Allen Downey 撰写的教材,下载链接 http://t.cn/hG9XvF Github有一些书的tex源码例子,相关资料请看合集 http://t.cn/R7ZmB4s @图灵社区 2011年曾推荐过 [ [微博](http://www.weibo.com/5220650532/Brv6gmKco) ] + +2014-10-14 感谢@火光摇曳Flickering @孙茂松 @机器学习讲座 @丕子 @任远AI 的推荐和精彩评论 [ [微博](http://www.weibo.com/5220650532/BrtOP7HJJ) ] + +> 2014-10-14 @好东西传送门: 机器学习头条 2014-10-13 http://t.cn/R7ZSYyw 1)转化率预估-2 逻辑回归技术 2)全国计算语言学学术会议10月18—19日在华中师大召开 3)A*搜索算法的可视化短教程 4)caffestudy(2)关于forward和backward-backward 5)natural language generation经典工作和方法 加长版46条 http://t.cn/R7ZSYy4 [ [微博](http://www.weibo.com/5220650532/BrtOalpeL) ] + +2014-10-14 机器学习头条 2014-10-13 http://t.cn/R7ZSYyw 1)转化率预估-2 逻辑回归技术 2)全国计算语言学学术会议10月18—19日在华中师大召开 3)A*搜索算法的可视化短教程 4)caffestudy(2)关于forward和backward-backward 5)natural language generation经典工作和方法 加长版46条 http://t.cn/R7ZSYy4 [ [微博](http://www.weibo.com/5220650532/BrtOalpeL) ] + +2014-10-14 回复@星轨1202110: ml.memect.com http://t.cn/R7ZiLYP 那里可以订阅 //@星轨1202110:新人 想知道 在哪里看机器学习 日报 [ [微博](http://www.weibo.com/5220650532/BrtmkE8Vx) ] + +> 2014-10-13 @好东西传送门: 机器学习日报做了20多期,有人喜欢短版,有人喜欢长版.目前邮箱只投放短版.咱来投个票,看如果改投长版的话(5条焦点摘要还会保留),大家还会喜欢吗? 短版例子 http://t.cn/R7zcNTQ 长版例子 http://t.cn/R7zVGyO 【你希望机器学习日报邮件发短版还是长版?】,地址 http://t.cn/R7zcJJm [ [微博](http://www.weibo.com/5220650532/BrmF4rriA) ] + +2014-10-14 回复@IT教师: 给 hao@memect.com 发封空信,标题 订阅机器学习日报 //@IT教师:怎么加入邮件列表? //@好东西传送门:52:20 长版领先.这个投票再保留一天,同时我们也在邮件列表里咨询大家意见了.如果需要切换,我们会先征求一些用户测试,看看长版的实际效果如何.谢谢已经投过票的朋友们! [ [微博](http://www.weibo.com/5220650532/BrsYPihzo) ] + +> 2014-10-13 @好东西传送门: 机器学习日报做了20多期,有人喜欢短版,有人喜欢长版.目前邮箱只投放短版.咱来投个票,看如果改投长版的话(5条焦点摘要还会保留),大家还会喜欢吗? 短版例子 http://t.cn/R7zcNTQ 长版例子 http://t.cn/R7zVGyO 【你希望机器学习日报邮件发短版还是长版?】,地址 http://t.cn/R7zcJJm [ [微博](http://www.weibo.com/5220650532/BrmF4rriA) ] + +2014-10-14 52:20 长版领先.这个投票再保留一天,同时我们也在邮件列表里咨询大家意见了.如果需要切换,我们会先征求一些用户测试,看看长版的实际效果如何.谢谢已经投过票的朋友们! [ [微博](http://www.weibo.com/5220650532/BrsViF8iK) ] + +> 2014-10-13 @好东西传送门: 机器学习日报做了20多期,有人喜欢短版,有人喜欢长版.目前邮箱只投放短版.咱来投个票,看如果改投长版的话(5条焦点摘要还会保留),大家还会喜欢吗? 短版例子 http://t.cn/R7zcNTQ 长版例子 http://t.cn/R7zVGyO 【你希望机器学习日报邮件发短版还是长版?】,地址 http://t.cn/R7zcJJm [ [微博](http://www.weibo.com/5220650532/BrmF4rriA) ] + +2014-10-14 回复@lp_挖掘机:给hao@memect.com发封空信,标题是 订阅机器学习日报 就可以了//@lp_挖掘机:回复@好东西传送门:怎么订阅这个? [ [微博](http://www.weibo.com/5220650532/BrqqtBypL) ] + +> 2014-10-13 @lp_挖掘机: 我参与了@好东西传送门 发起的投票【你希望机器学习日报邮件发短版还是长版?】,我投给了“长版,所有的东西都在邮件里,踏实,好找”这个选项。你也快来表态吧:http://t.cn/R7zcJJm [ [微博](http://www.weibo.com/2033610034/BroaixZhv) ] + +2014-10-13 //@王威廉:[good] 主题演讲和知识图谱研讨会的内容都很有意思,有条件的同学争取去学习一下。 //@刘知远THU: NLP全国年度盛会。:) @王威廉 @丕子 @龙星镖局 @好东西传送门 [ [微博](http://www.weibo.com/5220650532/Brqk9tX0v) ] + +> 2014-10-13 @孙茂松: “第十三届全国计算语言学学术会议”(CCL 2014)和 “第二届基于自然标注大数据的自然语言处理国际学术研讨会”(NLP-NABD 2014)将于今年10月18—19日在华中师大召开。大会特邀报告汇聚了四位国内外大牌学者,涵盖自然语言处理、认知及机器学习多个深刻话题。欢迎注册参加! http://t.cn/8sMoDdb [ [微博](http://www.weibo.com/1970879995/Bro598xvT) ] + +2014-10-13 推荐A*搜索算法的可视化短教程 http://t.cn/R7zO4To A*搜索是人工智能基本算法,用于高效地搜索图中两点的最佳路径, 核心是 g(n)+h(n): g(n)是从起点到顶点n的实际代价,h(n)是顶点n到目标顶点的估算代价。下图看优点: 选择最佳路径,同时降低搜索代价(不遍历所有格子) 合集 http://t.cn/R7zO4TK [ [微博](http://www.weibo.com/5220650532/BrnTyvnCT) ] + +2014-10-13 大家可以到issue254围观讨论精华区 http://t.cn/R7zomOr //@青圩小康: 转发微博 [ [微博](http://www.weibo.com/5220650532/BrnqxfpMe) ] + +> 2014-10-13 @丕子: natural language generation 经典工作和方法? @好东西传送门 [ [微博](http://www.weibo.com/1665335994/Brl62dza9) ] + +2014-10-13 //@任远AI: 我校的NLG组号称世界最大,两位教授Ehud和Yaji创建了很成功的NLG公司 http://t.cn/R7zocR9 。在我校的NLP课程 http://t.cn/R7zocRC 后半有Ehud讲授的NLG内容。爱丁堡有专门的NLG课程 http://t.cn/R7zocRK ,里面有完整的讲义和大量延伸阅读材料。会议的话看INLG( http://t.cn/R7zocRo [ [微博](http://www.weibo.com/5220650532/BrnoGjaZe) ] + +> 2014-10-13 @丕子: natural language generation 经典工作和方法? @好东西传送门 [ [微博](http://www.weibo.com/1665335994/Brl62dza9) ] + +2014-10-13 @丕子 问:natural language generation 经典工作和方法?答:BBN的David D. McDonald在NLP Handbook里有一章Natural Language Generation(自然语言生成),有20多页,讲得很全面.文后附了很多参考文献,经典的工作应该都涵盖了 http://t.cn/R7zaBVI [ [微博](http://www.weibo.com/5220650532/BrniQD1hW) ] + + +2014-10-13 机器学习日报做了20多期,有人喜欢短版,有人喜欢长版.目前邮箱只投放短版.咱来投个票,看如果改投长版的话(5条焦点摘要还会保留),大家还会喜欢吗? 短版例子 http://t.cn/R7zcNTQ 长版例子 http://t.cn/R7zVGyO 【你希望机器学习日报邮件发短版还是长版?】,地址 http://t.cn/R7zcJJm [ [微博](http://www.weibo.com/5220650532/BrmF4rriA) ] + +2014-10-13 在手机上可以看世行数据了:MacroStats to Go(世行宏观统计数据).另外搭车推一遍我们整理的数据集目录,一共20个http://t.cn/R7z5ErQ 世行数据也在其中 [ [微博](http://www.weibo.com/5220650532/BrmxneNDH) ] + +> 2014-10-12 @世界银行: #世界银行2014年秋季年会# 如果您下次访问苹果商店,请考虑下载一个既可供您娱乐又给您提供信息的应用程序吧[哈哈]。世行在年会召开之际推出MacroStats to Go(世行宏观统计数据)应用程序,将世界上最大的经济数据库之一的数据置于您手掌之中,快去下载吧,好处你知道哈[阴险]。http://t.cn/R7hLqRi [ [微博](http://www.weibo.com/1735501411/Brb5U04dp) ] + +2014-10-13 这本书也不错,推荐一下.英文原版R in a Nutsbell http://t.cn/R7zGAhJ [ [微博](http://www.weibo.com/5220650532/Brmmu3vDv) ] + +> 2014-08-26 @互动出版网china-pub: #新书到货#《R语言核心技术手册(第2版)》面向统计计算与数据可视化 业界公认R语言最佳入门 覆盖领域最全实战案例最多 数据从业者案头必备工具书。内容新增了R高性能计算、基于ggplot2的数据可视化和利用Hadoop做并行运算。本书详情:http://t.cn/RPg4urU @电子工业出版社 @刘思喆 [ [微博](http://www.weibo.com/1645536727/Bk2fPccrt) ] + +2014-10-13 好东西.更多关于ipython的资料 http://t.cn/R77F8w7 [ [微博](http://www.weibo.com/5220650532/Brlt3clvm) ] + +> 2014-10-13 @squirrel_d: ipython notebook格式的一本书,讲述如何用python进行统计分析,内容包括mcmc,hanmiltonian MC,高斯过程,狄利克莱过程等 http://t.cn/R77ulSW [ [微博](http://www.weibo.com/1978391022/BrkRxkxV4) ] + +2014-10-13 感谢最右.欢迎更多建议,我会帮着整理讨论合集和增补 //@Copper_PKU: http://t.cn/R77gFV4 给你推荐一个 我曾经参加过summer school 这个人讲了NLG的一些技术 [ [微博](http://www.weibo.com/5220650532/BrlrQoLjy) ] + +> 2014-10-13 @丕子: natural language generation 经典工作和方法? @好东西传送门 [ [微博](http://www.weibo.com/1665335994/Brl62dza9) ] + +2014-10-13 CommonCrawl简介.把以前几条和CommonCrawl这个巨大的数据集相关的微博汇总了一下.这个数据集对各行各业的人应该都有用,和Wikipedia类似.文字版 http://t.cn/R77RbnD [ [微博](http://www.weibo.com/5220650532/BrkAx26eT) ] + +2014-10-13 是一个有50亿网页的搜索索引 http://t.cn/RPIJ8V9 //@李立辉lilihui: Commoncrawl是什么?见我们以前的推荐 http://t.cn/R77QeUA http://t.cn/R77QeUw [ [微博](http://www.weibo.com/5220650532/Brkvz8DQq) ] + +> 2014-08-30 @好东西传送门: 问: @小磊_DM_中二青年 在学搜索,请问有Nutch的相关资料吗? 答: nutch主要做网络爬虫,可以和solr结合做搜索引擎。问答进展: http://t.cn/RhZN72R (卡片盒子 http://t.cn/RhZN72E 6个资源): nutch 的中英文安装短教程(此外看Nutch wiki); nutch工作流程; 最近很火的CommonCrawl也转用nutch [ [微博](http://www.weibo.com/5220650532/BkFg8v2lw) ] + +2014-10-13 感谢@蒋涛CSDN @cvnote计算机视觉笔记 @极度视界 @breezedeus 的推荐 开源版数据科学教程 尤其赞,收集了各方向近20门课程,在家就可以自学数据科学硕士 [ [微博](http://www.weibo.com/5220650532/BrkkkkQcV) ] + +> 2014-10-13 @好东西传送门: 机器学习头条 2014-10-12 http://t.cn/R77YEFk 1)开源版数据科学教程 2)usaddress解析自然语言描述的美国地址字符串 3)NEIL: Never Ending Image Learning 4)ASR corpus开放语音语料库 5)特征选择要点清单 加长版50条 http://t.cn/R77YEFF [ [微博](http://www.weibo.com/5220650532/BrkiB5rjZ) ] + +2014-10-13 机器学习头条 2014-10-12 http://t.cn/R77YEFk 1)开源版数据科学教程 2)usaddress解析自然语言描述的美国地址字符串 3)NEIL: Never Ending Image Learning 4)ASR corpus开放语音语料库 5)特征选择要点清单 加长版50条 http://t.cn/R77YEFF [ [微博](http://www.weibo.com/5220650532/BrkiB5rjZ) ] + +2014-10-12 [开源软件] usaddress 利用机器学习将自然语言描述的美国地址字符串解析为结构化数据, python 包, github 近200星。分词用正则表达式, 机器学习用 Conditional Random Fields (pyCRFsuite) 源码: http://t.cn/R7hCJbY 相关资料 http://t.cn/R7hCJbj [ [微博](http://www.weibo.com/5220650532/Brdr2jdUJ) ] + +2014-10-12 作者 Scott Krig http://t.cn/R7hiMF2 [ [微博](http://www.weibo.com/5220650532/BrcEAluXE) ] + +> 2014-10-11 @cvnote计算机视觉笔记: 好书推荐 | Computer Vision Metrics, Survey, Taxonomy and Analysis | Scott Krigs 2014最新作品,对目前流行的计算机视觉算法进行了深入浅出的讲解,包括各种图像特征描述方法、图像成像原理、距离度量、视觉算法开发的整体优化等等。最重要的是:电子版是免!费!的!http://t.cn/R7Ppb1k [ [微博](http://www.weibo.com/3812841100/Br69QEhaS) ] + +2014-10-12 好东西周报+一周的机器学习头条 总结已经发出了 http://t.cn/R7hJWhZ 过去一周我们推荐的好东西统统在这里.和以前一样Github已经同步更新 http://t.cn/RPfAgNg [ [微博](http://www.weibo.com/5220650532/BrcAeg0bC) ] + +2014-10-12 把这条单独拿出来推一下,看看搞spark的和multiboost的朋友们有什么建议? [ [微博](http://www.weibo.com/5220650532/BrbttvbrZ) ] + +> 2014-10-11 @BaiGang-: 十一之后对Spark MultiBoost做了些调整 http://t.cn/R7Pp3K3, 现在支持用mllib中的SVM和LR作为general base learner,比之前的decision stump model在训练效率上和效果上都提高了很多。欢迎fork&star http://t.cn/RhI1RB3 [熊猫] [ [微博](http://www.weibo.com/2149737874/Br6dqz8US) ] + +2014-10-12 感谢推荐者@eeyangc @上微博的猫V @Python开发者 @网路冷眼 今天的5条之外还有不错的前沿新闻,如@velvel2 推荐的Not All Neural Embeddings are Born Equal结合语言模型和翻译模型 @BaiGang- 开源的Spark MultiBoost 都在加长版中 http://t.cn/R7hy8gY [ [微博](http://www.weibo.com/5220650532/BrblmzWSf) ] + +> 2014-10-12 @好东西传送门: 机器学习头条 2014-10-11 http://t.cn/R7hy8gT 1)好书Freedman的statistical models theory and practice 2)Netflix技术分享的资源17条 3)一张图的故事概率分布之间的关系(下) 4)scikit-learn用于机器学习的Python模块 5) Spark打破了MapReduce排序世界记录 加长版69条 http://t.cn/R7hy8gY [ [微博](http://www.weibo.com/5220650532/Brbft2DRe) ] + +2014-10-12 推荐这篇!可结合读@AixinSG 推荐的如何选择最适合的推荐模型 http://t.cn/R7hU5co @xccds 推荐的特征工程的方方面面 http://t.cn/RhdVoZT [ [微博](http://www.weibo.com/5220650532/BrbiQiyJT) ] + +> 2014-10-11 @breezedeus: 特征工程在具体项目里的作用其实比算法大的多,换个角度说,算法可以认为是用来提取特征的。强烈推荐这篇讲特征选择的博文,进去后你会发现,文章论及的远不止特征选择。而且附带了丰富的参考文献,甚至处理具体问题的详细步骤。http://t.cn/R7PEiL5 [ [微博](http://www.weibo.com/1660835355/Br7jD5zSQ) ] + +2014-10-12 机器学习头条 2014-10-11 http://t.cn/R7hy8gT 1)好书Freedman的statistical models theory and practice 2)Netflix技术分享的资源17条 3)一张图的故事概率分布之间的关系(下) 4)scikit-learn用于机器学习的Python模块 5) Spark打破了MapReduce排序世界记录 加长版69条 http://t.cn/R7hy8gY [ [微博](http://www.weibo.com/5220650532/Brbft2DRe) ] + +2014-10-11 fuxi是一个很不错的推理引擎。 [ [微博](http://www.weibo.com/5220650532/Br4NK9ZoN) ] + +> 2014-10-11 @潘越_: FuXi http://t.cn/R7Pfso7 很不错,可惜没有人维护了,不支持rdflib 4.x和Python 3.x [ [微博](http://www.weibo.com/1860270543/Br4MVhRog) ] + +2014-10-11 昨天 @龙星镖局 推荐了Netflix个性化和推荐系统架构。这里我们收集了Memect的用户们分享的更多的关于Netflix技术分享的资源,一共17条,涉及推荐系统方法,大数据平台,开源系统等。特别推荐《Netflix视频推荐的背后:算法知道你想看什么》《Big Data Lessons From Netflix》http://t.cn/R7Pqfw3 [ [微博](http://www.weibo.com/5220650532/Br4iGoZ8D) ] + +2014-10-11 http://t.cn/h4PrxS 斯坦福哲学百科全书。虽然听起来有点玄,其实里面有很多和数学、计算机科学相关的内容,例如和逻辑相关的有近百条,还有语言学、概率论、脑与认知等很多精彩条目,有益开拓眼界。(另附一张西方哲学系谱图) [ [微博](http://www.weibo.com/5220650532/Br3Ryaa62) ] + +2014-10-11 LISP里有强大的宏,用MacroPy在Python里也可以实现。例如LINQ风格的数据查询语言。用宏可以自己来发明语言了。人生苦短... [ [微博](http://www.weibo.com/5220650532/Br3z4gkVl) ] + +> 2014-10-11 @好东西传送门: 接上面的Python函数式编程的讨论.已经发明的轮子主要有这几个:标准库里的functools http://t.cn/R7Pw9ne fn.py 见@InfoQ 的这篇文章 http://t.cn/zY1VzLx gf定义通用函数 http://t.cn/R7Pw9nD MacroPy宏语言http://t.cn/R7Pw9nk 此外还有 pyfunctor funcy toolz [ [微博](http://www.weibo.com/5220650532/Br3xP8En6) ] + +2014-10-11 接上面的Python函数式编程的讨论.已经发明的轮子主要有这几个:标准库里的functools http://t.cn/R7Pw9ne fn.py 见@InfoQ 的这篇文章 http://t.cn/zY1VzLx gf定义通用函数 http://t.cn/R7Pw9nD MacroPy宏语言http://t.cn/R7Pw9nk 此外还有 pyfunctor funcy toolz [ [微博](http://www.weibo.com/5220650532/Br3xP8En6) ] + +2014-10-11 谁来写写萝莉分布(Rayleigh distribution) [哈哈] //@we1559: 原po好腐。。。正态分布能打成正太分布 //@好东西传送门: 博主的(下)来了[good]. (上) 的微博: http://t.cn/R7vkfIY [ [微博](http://www.weibo.com/5220650532/Br3kM6cck) ] + +> 2014-10-11 @上微博的猫V: 【一张图的故事——概率分布之间的关系(下)】 图中概率分布之间的转化关系大致可以分成三种:1.近似关系,如正太分布可以用来近似泊松分布、二项分布和伽马分布。2.变量变换关系,如随机变量X服从均匀分布U(0,1), 则−θlnX服从指数分布。 3.特例关系,如卡方分布是伽马分布...http://t.cn/R7vmBGH [ [微博](http://www.weibo.com/1679022231/Br2cNlIcH) ] + +2014-10-11 赞.搭车推荐一个python函数式编程的报fn http://t.cn/zTHOud5 可以非常简明又易懂地实现很多函数式编程,如简化的lambda定义,序列流,尾递归,很多高级的数据遍历操作(几乎可以理解为Python上定义的一个数据查询语言),强大[威武] [ [微博](http://www.weibo.com/5220650532/Br3iBEi5o) ] + +> 2014-10-11 @申导: 拙作 《Python函数式编程》,记录了自己一点学习心得。 http://t.cn/R7vgeUp [ [微博](http://www.weibo.com/1001863751/Br2wPjdPB) ] + +2014-10-11 博主的(下)来了[good]. (上) 的微博:http://t.cn/R7vkfIY 另外再感谢一次@_散沙_民工智能_ 最早发现和分享了这张图 [ [微博](http://www.weibo.com/5220650532/Br2IfD5Zk) ] + +> 2014-10-11 @上微博的猫V: 【一张图的故事——概率分布之间的关系(下)】 图中概率分布之间的转化关系大致可以分成三种:1.近似关系,如正太分布可以用来近似泊松分布、二项分布和伽马分布。2.变量变换关系,如随机变量X服从均匀分布U(0,1), 则−θlnX服从指数分布。 3.特例关系,如卡方分布是伽马分布...http://t.cn/R7vmBGH [ [微博](http://www.weibo.com/1679022231/Br2cNlIcH) ] + +2014-10-11 感谢头条的作者和推荐者们 @龙星镖局 @InfoQ @zhujiangmail @网路冷眼 .今天Netflix的案例可以结合前天Josh Wills讲工业界和学术界机器学习的异同那条看,系统优先于算法 http://t.cn/R7vOofL [ [微博](http://www.weibo.com/5220650532/Br0xsftsa) ] + +> 2014-10-11 @好东西传送门: 机器学习头条 2014-10-10 http://t.cn/R7vNur1 1)Netflix个性化和推荐系统架构 2)Android上的相似图像推荐 3)问答:推荐识别歧义词的方法和文章 4)用Python实现逻辑回归 5)Michael Jordan解析领域中各类模型 加长版62条 [ [微博](http://www.weibo.com/5220650532/BqZYV3Xew) ] + +2014-10-11 机器学习头条 2014-10-10 http://t.cn/R7vNur1 1)Netflix个性化和推荐系统架构 2)Android上的相似图像推荐 3)问答:推荐识别歧义词的方法和文章 4)用Python实现逻辑回归 5)Michael Jordan解析领域中各类模型 加长版62条 [ [微博](http://www.weibo.com/5220650532/BqZYV3Xew) ] + +2014-10-11 机器学习头条 2014-10-10 http://t.cn/R7vNur1 1)Netflix个性化和推荐系统架构 @龙星镖局 2)Android上的相似图像推荐 @zhujiangmail 3)问答:推荐识别歧义词的方法和文章 4)用Python实现逻辑回归 @好东西传送门 5)Michael Jordan解析领域中各类模型 @网路冷眼 加长版62条 http://t.cn/R7vNur3 [ [微博](http://www.weibo.com/5220650532/BqZSA5k01) ] + +2014-10-11 感谢大家@张俊林say @昊奋 @东北大学自然语言处理实验室 @AixinSG 讨论合集已经整理到这里了 http://t.cn/R7vNvt4 [ [微博](http://www.weibo.com/5220650532/BqZFQcE4d) ] + +> 2014-10-10 @yuxyang: @好东西传送门 求推荐识别歧义词的方法和文章。比如: 苹果 有苹果手机和苹果这两个意思。金六福有金六福珠宝和金六福酒业这些意思。 如何识别这样的词 并做区分呢? [ [微博](http://www.weibo.com/1727751845/BqVqdnbPI) ] + +2014-10-11 //@侠女无敌-曾佩玲: 补充一个很好的 reading list: http://t.cn/8FqFegC //@AixinSG: @LCL-WHU 做过Word Sense Disambiguation (WSD)方面的尝试。判断哪些词可 能有歧义需要一个知识库支持,我们用的是基于Wikipedia建立的语料库;然后根据歧义词语义判断区分 http://t.cn/R7v7tl0 [ [微博](http://www.weibo.com/5220650532/BqYHa0aZX) ] + +> 2014-10-10 @yuxyang: @好东西传送门 求推荐识别歧义词的方法和文章。比如: 苹果 有苹果手机和苹果这两个意思。金六福有金六福珠宝和金六福酒业这些意思。 如何识别这样的词 并做区分呢? [ [微博](http://www.weibo.com/1727751845/BqVqdnbPI) ] + +2014-10-11 期待王斌老师的中文版! //@马少平THU:又让我们掏银子了//@王斌_IIEIR: 翻译完了校对中,勿喷//@AixinSG [ [微博](http://www.weibo.com/5220650532/BqYGAwjVr) ] + +> 2014-10-10 @好东西传送门: Taming Text是一本从实用的角度基于Java处理文本的好书.它包括了文本搜索的原理和用Solr的实现,字符串匹配.实体(如人名地名)识别和OpenNLP实现,文本聚类及工具Carrot//Mahout,文本分类的工具Lucene/Mahout/OpenNLP等 http://t.cn/htf5rQ 源代码http://t.cn/RhsDOce [ [微博](http://www.weibo.com/5220650532/BqViJ8DtN) ] + +2014-10-11 Awesome C/C++不错.统计了一下Github上的原文 http://t.cn/R7vSNTo ,大约列了350个资源 [ [微博](http://www.weibo.com/5220650532/BqYFU0u4L) ] + +> 2014-10-10 @伯乐头条: 《Github干货系列:C++资源集合》这又是一个 Awesome XXX 系列的资源整理,由 fffaraz 发起和维护。内容包括:标准库、Web应用框架、人工智能、数据库、数据可视化、图片处理、机器学习、日志、代码分析等。http://t.cn/R7vhj7w [ [微博](http://www.weibo.com/3844704614/BqWyixLV0) ] + +2014-10-10 赞好奇猫团队的杰出翻译,主译者是美女Billie Zhang http://t.cn/Rhsksfv [ [微博](http://www.weibo.com/5220650532/BqVq9uNIO) ] + +> 2014-10-10 @Easy: 一直不会shell编程,mark下来回头读。《Linux命令行》中文版,http://t.cn/zQG7kxb 目录见大图 PDF @微盘 下载 http://t.cn/RhskyeL [ [微博](http://www.weibo.com/1088413295/BqVlRzWjg) ] + +2014-10-10 约翰霍普金斯大学JHU作为自然语言处理的一个重镇,其CLSP Seminars广邀重要学者讲学.例如近三期是Isidoros Doxa讲LSA, Jackie CK Cheung讲分布式语义,Yoshua Bengio讲生成模型的深度学习.多年来400多个讲座都在这里.关键学者和话题,在此一目了然 http://t.cn/RhskULw [ [微博](http://www.weibo.com/5220650532/BqVlSrrjT) ] + +2014-10-10 Taming Text是一本从实用的角度基于Java处理文本的好书.它包括了文本搜索的原理和用Solr的实现,字符串匹配.实体(如人名地名)识别和OpenNLP实现,文本聚类及工具Carrot//Mahout,文本分类的工具Lucene/Mahout/OpenNLP等 http://t.cn/htf5rQ 源代码http://t.cn/RhsDOce [ [微博](http://www.weibo.com/5220650532/BqViJ8DtN) ] + +2014-10-10 用Python实现逻辑回归Logistic Regression。LR是一种强大而简单的机器学习模型,例如Gmail的收件箱分类就使用了LR算法。这篇文章里Kevin Markham介绍了用scikit-learn实现LR的步骤,综合运用statsmodels pandas matplotlib patsy和scikit-learn,一步步教你如何分析数据与建模 http://t.cn/RhsNbFA [ [微博](http://www.weibo.com/5220650532/BqTn7ax4n) ] + +2014-10-10 名字显然是在向《Parallel Distributed Processing》这本经典致敬 http://t.cn/RhsLEzv 那是McClelland自己28年前的书了 [ [微博](http://www.weibo.com/5220650532/BqR442xQy) ] + +> 2014-06-13 @王晓伟alex: 分享一本关于分布式并行处理的数据《Explorations in Parallel Distributed Processing: A Handbook of Models, Programs, and Exercises》,作者是斯坦福的James L. McClelland。着重介绍了各种神级网络算法的分布式实现,做Distributed Deep Learning 的童鞋可以参考下。网址:http://t.cn/8kltYYT [ [微博](http://www.weibo.com/1932676664/B8MYbbNQy) ] + +2014-10-10 总结:@陈佳威_有荷有兰要发光 @哇噻大魔王 推荐ODPS; @陈天奇怪 @范涛_中科大 推荐xgboost http://t.cn/8sVIdCB @irwenqiang 推荐pGBRT http://t.cn/zjaDoYX [ [微博](http://www.weibo.com/5220650532/BqQVI3hLe) ] + +> 2014-10-09 @龙星镖局: 求助:有没支持大规模训练的开源GBDT? [ [微博](http://www.weibo.com/1830516311/BqNjVsVPX) ] + + +---- + +2014-10-09 @Mindey 君对SageMath云平台计算环境的介绍更赞,有优酷视频 http://t.cn/RhF9Ma8 //@Mindey: It is awesome tool indeed! [ [微博](http://www.weibo.com/5220650532/BqLSGDu6S) ] + +> 2014-10-09 @好东西传送门: Sage是一个Python的强大的数学工具箱合集,基本上常见数学计算都有支持:代数方程,微积分,微分方程,多项式,线性代数,群论,数论,拓扑学代数几何,椭圆曲线,可视化....详细列表见长微博。相比某其他软件要上万块才能有的专业包,Sage是个不错的选择。手册 http://t.cn/RhFK6tr [ [微博](http://www.weibo.com/5220650532/BqLO71d2P) ] + + +2014-10-09 机器学习头条 2014-10-08 http://t.cn/RhFwt4M 亚马逊提供的海量公共数据集等5条,见长微博。感谢@52cs @Geffory_ima @lidingpku @黄小非 [ [微博](http://www.weibo.com/5220650532/BqKiR7u0Q) ] + +2014-10-09 2)广告系统工程师谈工业界与学术界机器学习的异同 @52cs [ [微博](http://www.weibo.com/5220650532/BqKcNegej) ] + +2014-10-09 LingPipe非常值得考虑。项目主页 http://t.cn/RhF7H2U 而且有一本很不错的307页的免费电子书 http://t.cn/RhF7H24 [ [微博](http://www.weibo.com/5220650532/BqJHy2bg9) ] + +> 2014-10-08 @ImportNew: 《计算语言工具包LingPipe》LingPipe是一个开源的NLP计算语言工具包,采用Java书写,支持多语言,多领域,多类型的语言处理功能(包括中文分词),并提供Eclipse插件。http://t.cn/Rh37RdQ @黄小非 分享 [ [微博](http://www.weibo.com/2991905905/Bqze22laq) ] + +2014-10-09 过去多年的Web上的知识管理的文章尽在其中。想了解知识图谱,语义搜索等的来龙去脉,不能不过目。而且有完整的元数据!很容易开发出新的有趣的应用。可参考ISWC 2010的应用 http://t.cn/zjau1FF [ [微博](http://www.weibo.com/5220650532/BqJD3CB1S) ] + +> 2014-10-08 @lidingpku: International Semantic Web Conference - ISWC 2014 (10月18至23) 的全部论文(公开访问preprint PDF) 已经上传到github上了,http://t.cn/RhDmjvw 历年(2001-2014)相关的元数据(RDF,JSON, CSV格式) 也整理好了,可以下载 http://t.cn/RhDmjvA 大家有空挑挑错吧 [ [微博](http://www.weibo.com/5219449194/BqB6iy0rF) ] + +2014-10-09 推荐系统前沿必读。DBLP的列表页更好用 http://t.cn/RhFPLGl 每篇文章都有pdf下载 [ [微博](http://www.weibo.com/5220650532/BqJwqls9C) ] + +> 2014-10-09 @疯狂的雪SDU: Proceedings of the 8th ACM Conference on Recommender Systems #RecSys2014# is available. http://t.cn/Rhkkqqc [ [微博](http://www.weibo.com/2174081740/BqJfqheeD) ] + +2014-10-09 //@星空下的巫师: 原话是:kind of going against what people in research have been finding, but that’s what makes it interesting @董力at北航 @鲁东东胖 [ [微博](http://www.weibo.com/5220650532/BqJqCpmr7) ] + +> 2014-10-09 @BigData大数据: #OSDI2014#第一篇DL 微软的ADAM系统 彻底把Lecun 革命了 这个Imagine Net准确率提高的有猛 系统的力量真是无限 亮点在最后一张图 Deep Learning Guys 怎么想?@好东西传送门 @深度学习研究院IDL @云泉微博 @中国计算机学会CCF @杨静Lillian @百度技术沙龙 @chengangcs @CCF技术动态 [ [微博](http://www.weibo.com/2870219257/BqFIOpprZ) ] + +2014-10-09 CppCon2014,C++最重要的年度会议PPT一览 http://t.cn/RhksQxB 中文导读请看@顾露-Gu_Lu 的http://t.cn/RhksQx3 [ [微博](http://www.weibo.com/5220650532/BqJq98Rzy) ] + +2014-10-09 几个要点:系统优先于算法;并不存在清晰的优化目标函数;系统常变人员常变(所以简单可理解非常非常重要);各种折衷,而要产生这些折衷也需要容易理解的方法和结果。 [ [微博](http://www.weibo.com/5220650532/BqGDN1TV0) ] + +> 2014-10-08 @52cs: 前Google广告系统工程师Josh Wills 讲述工业界和学术界机器学习的异同,总结的真的好!http://t.cn/RhkU1Sj [ [微博](http://www.weibo.com/5172229575/BqDWNdAZm) ] + +2014-10-09 摘要:逻辑回归的并行化最主要的就是对目标函数梯度计算的并行化,可以很容易将每个迭代过程拆分,由不同的节点进行独立计算,然后归并。MPI_L-BFGS实验效果最佳 http://t.cn/SAJ2SN http://t.cn/RhkN3x3 //@孙明明_SmarterChina: @Memect [ [微博](http://www.weibo.com/5220650532/BqFNz0JYP) ] + +> 2014-02-12 @fengyoung: 并行逻辑回归: 逻辑回归(Logistic Regression,简称LR)是机器学习中十分常用的一种分类算法,在互联网领域得到了广泛的应用,无论是在广告系统中进行CTR预估,推荐系统中的预估转换率,反垃...文字版>> http://t.cn/8FpoAyz (新浪长微博>> http://t.cn/zOXAaic) [ [微博](http://www.weibo.com/1824056637/AwpIi1ie6) ] + + +---- + +2014-10-08 今年的OSDI内容很丰富 [ [微博](http://www.weibo.com/5220650532/BqFfbjCfp) ] + +> 2014-10-08 @BigData大数据: #OSDI2014#重磅Session来了 做深度学习的 做系统的都不能错过 深度学习的Session 这也是OSDI第一加上深度学习的DL ML的Guy也不能错过 这次的Session Chair 是Rezimi @云泉微博 @云泉微博 @中国计算机学会CCF @Hadoop中国 @好东西传送门 @hashjoin [ [微博](http://www.weibo.com/2870219257/BqFch5Q6W) ] + +2014-10-08 其他主要是科学类:儿童人体测量, 80年的按日全球天气,23万种材料安全,NASA的地球卫星地图,OpenStreetMap,石油数据, 2000多种稀疏矩阵,SDSS( @斯隆数字化巡天 ) [ [微博](http://www.weibo.com/5220650532/BqCf4mnKB) ] + +2014-10-08 社会与经济类的有:美国1980/1990/2000年人口普查,美国2003-2006经济,美国工商业,美联储经济数据时间序列2万个,日本人口统计,美国劳工部统计,美国交通部各种统计,完整的美国街道名与地址 [ [微博](http://www.weibo.com/5220650532/BqCduygRc) ] + +2014-10-08 计算机类的有:Apache基金会邮件列表,Common Crawl50亿网页(以前推荐过),DBpedia结构化知识库,Freebase知识图谱(这三个以前推荐过),安然电子邮件, 4万多个USENET新闻组数,M-Lab的互联网性能诊断,谷歌图书的ngram语言模型 @昊奋 @Gary南京 [ [微博](http://www.weibo.com/5220650532/BqC1qEYkF) ] + +2014-10-08 生物类的数据有:人体基因组,千人基因组计划,老鼠杂交数据,丹尼索瓦人基因组, Ensembl真核生物基因组,50个物种的基因序列,GenBank基因银行,Unigene转录组,PubSem有机小分子生物活性,等 [ [微博](http://www.weibo.com/5220650532/BqBYki5zi) ] + +> 2014-10-08 @好东西传送门: 《亚马逊提供的海量公共数据集》在大数据分析时,一个困难是存储困难,下载耗时。亚马逊AWS云服务平台上为此提供了很多常用的大规模数据集,从各行业数据到百科数据,无需下载即可在AWS EC2上使用。这里我们介绍了目前在线的五十多个数据集,和如何使用的基本方法。文字版http://t.cn/RhDrPhn [ [微博](http://www.weibo.com/5220650532/BqBtMrKK0) ] + + +2014-10-08 补充:MovieTweetings包含12万条电影的观众评价,收集自7个月的Twitter流,平均每天有500多。项目介绍PPT http://t.cn/RhDgH81 [ [微博](http://www.weibo.com/5220650532/BqBIn0PTy) ] + +> 2014-10-07 @AixinSG: 这个数据集看着挺有意思的 MovieTweetings:A Movie Rating Dataset Collected From Twitter http://t.cn/zRqz834 [ [微博](http://www.weibo.com/1025887594/BqvlpfkjW) ] + +2014-10-08 《亚马逊提供的海量公共数据集》在大数据分析时,一个困难是存储困难,下载耗时。亚马逊AWS云服务平台上为此提供了很多常用的大规模数据集,从各行业数据到百科数据,无需下载即可在AWS EC2上使用。这里我们介绍了目前在线的五十多个数据集,和如何使用的基本方法。文字版http://t.cn/RhDrPhn [ [微博](http://www.weibo.com/5220650532/BqBtMrKK0) ] + +2014-10-08 C++好东西. 博主非常用心,整理了 教程和介绍 (beginner) 思维和理念 (intermediate) 工程实践 (intermediate) 专题 (general) 工具和库 (general) 几大类,篇篇都做了中文导读. [ [微博](http://www.weibo.com/5220650532/BqA4ODaV4) ] + +> 2014-09-23 @顾露-Gu_Lu: (Gu Lu's Blog) CppCon2014 分类合辑 & 十大推荐阅读列表 - http://t.cn/RhOPqAu [ [微博](http://www.weibo.com/1752458857/BohlfqkeM) ] + +2014-10-08 刚才忘了链接 http://t.cn/RhD0OAz http://t.cn/RhD0OAZ //@好东西传送门: 说的是.Amazon Public Dataset里有两个气象数据集:NASA NEX遥感与卫星数据,和全球(9000多气象站)1929-2009逐日天气数据,直接挂载EC2就能用,连下载都不用 //@大脸撑在小胸: 值得收藏。PS: 麻烦的是下载读取和处理 [ [微博](http://www.weibo.com/5220650532/BqzZrCPHs) ] + +> 2014-10-07 @好东西传送门: @IT莲接 推荐的<史上最全的的气象科研数据来源> http://t.cn/Rhgppds 来自@数据堂 , 列举了综合资料库,天气情况,降水资料,全球土壤资料,风场资料,海洋风场,海浪,海表温度,冰芯,台风等50多个数据集 部分数据集我们做了更直观的卡片预览 http://t.cn/RheCw1Z [ [微博](http://www.weibo.com/5220650532/BqrkwDlyl) ] + +2014-10-08 说的是.Amazon Public Dataset里有两个气象数据集:NASA NEX遥感与卫星数据,和全球(9000多气象站)1929-2009逐日天气数据,直接挂载EC2就能用,连下载都不用 //@大脸撑在小胸: 值得收藏。PS:气象资料一般来说获取途径并不是大问题,麻烦的是下载读取和处理[doge] [ [微博](http://www.weibo.com/5220650532/BqzelxhW3) ] + +> 2014-10-07 @好东西传送门: @IT莲接 推荐的<史上最全的的气象科研数据来源> http://t.cn/Rhgppds 来自@数据堂 , 列举了综合资料库,天气情况,降水资料,全球土壤资料,风场资料,海洋风场,海浪,海表温度,冰芯,台风等50多个数据集 部分数据集我们做了更直观的卡片预览 http://t.cn/RheCw1Z [ [微博](http://www.weibo.com/5220650532/BqrkwDlyl) ] + +2014-10-08 @吴楚东南坼乾坤日夜浮 补充了Hunspell http://t.cn/RhDXuOs @西瓜大丸子汤 补充了Enchant和PyEnchant http://t.cn/RhDXuOF 都是比Aspell更进步的拼写检查开源软件 [ [微博](http://www.weibo.com/5220650532/Bqzazf8lB) ] + +> 2014-10-07 @好东西传送门: 问:英文语法检测,拼写错误有开源引擎吗?答:拼写检查推荐Aspell http://t.cn/zjfqk4q 语法检查工具这里有列表http://t.cn/RheHWdP 推荐试试Link Grammar http://t.cn/h47cEM 它可检查是不是合乎语法.如果需要自定义的规则,可以把它的结果再过滤一下 [ [微博](http://www.weibo.com/5220650532/BqstnpYCx) ] + +---- + +2014-10-07 python好工具 [ [微博](http://www.weibo.com/5220650532/BqsYRtj2D) ] + +> 2014-10-07 @Python开发者: 《Online Python Tutor:Python 初学者的好帮手》一个免费教育工具,可帮助学生攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。通过这个工具,教师或学生可以直接在 Web 浏览器中编写 Python 代码,并一步一步可视化地执行程序……http://t.cn/8kp54hk [ [微博](http://www.weibo.com/5305630013/BqqKcFiJv) ] + +2014-10-07 增强现实Augmented Reality对物流企业有什么价值?DHL研发中心最近发布28页的报告,描述了增强现实对快递与后勤产业各环节可能起到的作用:仓储,运输,递送,增值服务等.值得传统企业参考 http://t.cn/Rhe8wMx [ [微博](http://www.weibo.com/5220650532/BqszFssx9) ] + +2014-10-07 问:英文语法检测,拼写错误有开源引擎吗?答:拼写检查推荐Aspell http://t.cn/zjfqk4q 语法检查工具这里有列表http://t.cn/RheHWdP 推荐试试Link Grammar http://t.cn/h47cEM 它可检查是不是合乎语法.如果需要自定义的规则,可以把它的结果再过滤一下 [ [微博](http://www.weibo.com/5220650532/BqstnpYCx) ] + +2014-10-07 按年绘制了各政权的领土变迁,可以弥补谭其骧版的《中国历史地图集》一个朝代只有一个时间点,不能反映变迁的不足.五千年的历程浓缩为72分钟的视频 http://t.cn/RheVuga (刚才发的链接错了) [ [微博](http://www.weibo.com/5220650532/BqrsA0Hel) ] + +> 2014-10-01 @推遍天下: #推遍阅读#中国历史地图详细版version2.0。作者布哈林,是A站的一位up主。他把每个朝代精确成一个个大事件,将各个时间点做成地图,标注十分细致,中国和外国的考证都很充分。同时配上了如章回体目录一样的对联,非常带感。简直是历史地图控的最爱。http://t.cn/8kmDxfN @贫铀穿甲普拉斯 [ [微博](http://www.weibo.com/3047892900/Bpwc0nphV) ] + +2014-10-07 @IT莲接 推荐的<史上最全的的气象科研数据来源> http://t.cn/Rhgppds 来自@数据堂 , 列举了综合资料库,天气情况,降水资料,全球土壤资料,风场资料,海洋风场,海浪,海表温度,冰芯,台风等50多个数据集 部分数据集我们做了更直观的卡片预览 http://t.cn/RheCw1Z [ [微博](http://www.weibo.com/5220650532/BqrkwDlyl) ] + +2014-10-07 按年绘制了各政权的领土变迁,可以弥补谭其骧版的《中国历史地图集》一个朝代只有一个时间点,不能反映变迁的不足 五千年的历程浓缩为72分钟的视频 http://t.cn/Rhe9xeN [ [微博](http://www.weibo.com/5220650532/BqrfKi28G) ] + +> 2014-10-01 @推遍天下: #推遍阅读#中国历史地图详细版version2.0。作者布哈林,是A站的一位up主。他把每个朝代精确成一个个大事件,将各个时间点做成地图,标注十分细致,中国和外国的考证都很充分。同时配上了如章回体目录一样的对联,非常带感。简直是历史地图控的最爱。http://t.cn/8kmDxfN @贫铀穿甲普拉斯 [ [微博](http://www.weibo.com/3047892900/Bpwc0nphV) ] + +2014-10-07 来自最好的学术网络搜索ArnetMiner @唐杰THU [ [微博](http://www.weibo.com/5220650532/Bqpfao9aS) ] + +> 2014-10-07 @蔡学镛: 过去十八年,计算机科学领域,最好的论文,以及最常被引用的论文,通通在这里 [good]: http://t.cn/zYPysop [ [微博](http://www.weibo.com/1614282004/BqmV793yy) ] + +2014-10-07 关注 //@郑思遥:Arrikis 这篇的作者在这条路上已经走了好多年了,最早从08年开始就有文章要革操作系统的命,09年在sosp上发布barrelfish多内核操作系统。这帮人一直在做工作去支撑当时的多内核设计,这篇也是在barrelfish基础上做的,更完善更实际了,很值得学习 //@网路冷眼:转发微博 [ [微博](http://www.weibo.com/5220650532/Bqnoo5T2v) ] + +> 2014-10-06 @BigData大数据: #OSDI2014#第一时间快报。OSDI金球奖 最佳三篇论文出来了 这次热门GraphX落选 爆出大冷门 两篇来自底层OS 底层要革命了!还有一篇来自微软@微软亚洲研究院 Cloud 调度 Maven @chengangcs @龙星镖局 @李元超Osiris @好东西传送门 @chengangcs [ [微博](http://www.weibo.com/2870219257/BqlWWhOWi) ] + + +---- + +2014-10-06 会议主页 http://t.cn/RhItLb6 不熟悉这个会的 见@李沐M 前几天的科普http://t.cn/Rhg6IL3 欢迎大家来科普这届的潜在亮点和看点 @hashjoin @包云岗 [ [微博](http://www.weibo.com/5220650532/BqhZghUyp) ] + +> 2014-10-06 @BigData大数据: #OSDI2014#起飞了 期望能赶上晚上盛大的欢迎晚宴 OSDI是系统领域的风向标 无数老的大数据技术都是通过这个舞台介绍给全世界 比如MapReduce Spanner等 对于新的重要大数据技术 比如GraphX 微软的Adam 还有GPUNet都会在明天后天推荐给全学界业界 让我们一起期待 @好东西传送门 http://t.cn/z810m9f [ [微博](http://www.weibo.com/2870219257/Bqfv6itz6) ] + +2014-10-06 感谢作者 Liqizhou http://t.cn/zjf6Z67 同时推荐作者的另一篇文章 机器学习概要 http://t.cn/Rhgib8l,列举了各种方法的提纲 [ [微博](http://www.weibo.com/5220650532/BqhSagq7l) ] + +> 2014-10-06 @格灵深瞳: AdaBoost 算法的主要思想之一就是在训练集上维护一套权重分布,初始化时 ,Adaboost 为训练集的每个训练例指定相同的权重 1/m。接着调用弱学习算法进行迭代学习。每次迭代后更新训练集上不同样本的权值,对训练失败的样本赋以较大的权重。【AdaBoosting和online Boosting】http://t.cn/RhgIlYM [ [微博](http://www.weibo.com/3769368692/BqhuG3vea) ] + +2014-10-06 城市规划,社交媒体分析与自然语言处理的交叉研究 [ [微博](http://www.weibo.com/5220650532/BqgByoL6a) ] + +> 2014-10-05 @宋彦-规划: 分享下我的高富帅博士生@waholulu-陈炎 的高大上研究。话说他刚抓取了几天的Chicago的40万个twitter点如图。接下来开始分析阶段了,例如可以看看城市活动的热点,还可以用text sentiment analysis分析twitter的态度(积极/消极)和感情(愤怒惊喜啥的)并与城市场所对接,大家有什么好主意我们来实现! [ [微博](http://www.weibo.com/2610584165/Bqa80jeNa) ] + +2014-10-05 强烈推荐!Github上完整目录: http://t.cn/RP75CfG 现在已经完成语言的基本介绍,在写第三部分网站构建 [ [微博](http://www.weibo.com/5220650532/Bq8zd9tP1) ] + +> 2014-10-04 @老齐Py: @Jayin_Ton 推荐到我的网站上看完整的《零基础学python》,目前正在写tornado做网站部分。地址:http://t.cn/Rh6wm17 [ [微博](http://www.weibo.com/1449482283/Bq2g5k3rr) ] + +2014-10-05 感谢刘知远老师! //@刘知远THU: 整理得很好啊,分享!研究生的时候曾在水木上整理了一些资源,转眼几年NLP已经关版被微博取代了。技术大势,浩浩汤汤,不进则退,大家努力。:) [ [微博](http://www.weibo.com/5220650532/Bq7zgEVgv) ] + +> 2014-10-04 @好东西传送门: 《NLP常用信息资源》原资源主要是水木上的zibuyu整理的,@算文解字 推荐。这里我们综合了一些新的内容整理了一个初步的列表,包含了一些网站、课程、研究小组、重要学者、工具等。文字版 http://t.cn/RhrZUWq 部分资源的卡片预览 http://t.cn/RhrZUWG [ [微博](http://www.weibo.com/5220650532/BpZ5eBCdx) ] + + +2014-10-05 很不错的文章。再补充一个技巧:用书名的isbn来搜往往会有惊喜 [ [微博](http://www.weibo.com/5220650532/Bq728oZ5G) ] + +> 2014-10-04 @武汉大学: 【我是怎么找电子书的】目前主页君所见最为齐全的搜索电子书的方法和软件汇总——中文、外文、学术资源、古典文籍,甚至竖版图书!直接网页格式,方便复制链接。别问我挖掘技术谁最强,各有所长,试过就知道[偷笑]http://t.cn/RhBT4av [ [微博](http://www.weibo.com/1666177401/BpXEI9Aon) ] + +2014-10-05 昨天推荐的文章《线性回归,偏差、方差权衡》,很抱歉没有及时发现原作者@LeftNotEasy 出处是http://t.cn/hrvcPf 他的博客里还有很多经典文章:机器学习中的数学系列:回归、梯度下降、线性回归、模型组合、LDA、PCA、SVD; 机器学习中的算法系列: 决策树 - 随机森林与GBDT(我们以前推荐过) SVM基础 [ [微博](http://www.weibo.com/5220650532/Bq6GNbQUF) ] + +2014-10-05 //@算文解字:赞!最应该感谢的是 @刘知远THU 哈,不解释 :) 另外书里边,很多NLPer还很推崇宗成庆老师的《统计自然语言处理》,已经出第2版了,内容很新。 [ [微博](http://www.weibo.com/5220650532/Bq3LcDWuu) ] + +> 2014-10-04 @好东西传送门: 《NLP常用信息资源》原资源主要是水木上的zibuyu整理的,@算文解字 推荐。这里我们综合了一些新的内容整理了一个初步的列表,包含了一些网站、课程、研究小组、重要学者、工具等。文字版 http://t.cn/RhrZUWq 部分资源的卡片预览 http://t.cn/RhrZUWG [ [微博](http://www.weibo.com/5220650532/BpZ5eBCdx) ] + + +---- + + +2014-10-04 《NLP常用信息资源》原资源主要是水木上的zibuyu整理的,@算文解字 推荐。这里我们综合了一些新的内容整理了一个初步的列表,包含了一些网站、课程、研究小组、重要学者、工具等。文字版 http://t.cn/RhrZUWq 部分资源的卡片预览 http://t.cn/RhrZUWG [ [微博](http://www.weibo.com/5220650532/BpZ5eBCdx) ] + +2014-10-04 //@十月伤感wb: 【进段广告】我们今年SIGIR文章 Your Neighbors Affect Your Ratings 算是推荐系统里的特征工程,利用商家跟邻近商家的相互影响来提高rating prediction效果。主页 http://t.cn/RhBSY0S ACM http://t.cn/RhBSY0a [ [微博](http://www.weibo.com/5220650532/BpYUb4HJ0) ] + +> 2014-10-03 @AixinSG: 如何选择最适合的推荐模型 Choosing a Recommender Model 转自 GraphLab Blog http://t.cn/RhWlFCg [ [微博](http://www.weibo.com/1025887594/BpRAnsYWV) ] + +2014-10-04 在加长版里还有个“触类旁通”栏目,列举了有趣的其他话题。比如@GK同人于野 发起的机器人书写的图灵测试的话题 http://t.cn/RhBmK6x 提到机器故意犯错误伪装自己是人的例子 http://t.cn/Rh1eJ0z (Youtube) [哈哈] [ [微博](http://www.weibo.com/5220650532/BpXbccKMv) ] + +> 2014-10-04 @好东西传送门: 机器学习头条2014-10-03 http://t.cn/RhBRuRz 1) 选择最适合的推荐模型 @AixinSG 2) 线性回归,偏差、方差权衡 @AustinCody 3) 决策树模型组合之随机森林与GBDT @格灵深瞳 4) 谷歌的线性规划工具glop和运筹学工具集or-tools @王威廉 5) 神经网络黑客指南 @安人心智 加长版21条 http://t.cn/RhBRuRZ [ [微博](http://www.weibo.com/5220650532/BpWJlA8lf) ] + +2014-10-04 原文有不错的Python讲解 //@AixinSG: 讲根据数据的特性选择最适合的模型。再往后退一步,从最原始数据得到针对具体推荐问题的最佳表述就有点特征工程的意思了。几年前有个比赛,我同事是评审,说收到的报告有3种:1. 做实验,解释结果 2. 分析数据,选择模型,解释结果 3. 分析数据,实验,然后解释 [ [微博](http://www.weibo.com/5220650532/BpWK0m6sJ) ] + +> 2014-10-03 @AixinSG: 如何选择最适合的推荐模型 Choosing a Recommender Model 转自 GraphLab Blog http://t.cn/RhWlFCg [ [微博](http://www.weibo.com/1025887594/BpRAnsYWV) ] + +2014-10-04 机器学习头条2014-10-03 http://t.cn/RhBRuRz 1) 选择最适合的推荐模型 @AixinSG 2) 线性回归,偏差、方差权衡 @AustinCody 3) 决策树模型组合之随机森林与GBDT @格灵深瞳 4) 谷歌的线性规划工具glop和运筹学工具集or-tools @王威廉 5) 神经网络黑客指南 @安人心智 加长版21条 http://t.cn/RhBRuRZ [ [微博](http://www.weibo.com/5220650532/BpWJlA8lf) ] + +2014-10-04 一篇不错的介绍线性回归的文章 [ [微博](http://www.weibo.com/5220650532/BpWrOtXYa) ] + +> 2014-10-03 @AustinCody: 真正的线性回归,不仅会考虑使得曲线与给定点集的拟合程度最好,还会考虑模型最简单,这个话题我们将在本章后面的偏差、方差的权衡中深入的说。概率分布是一个可爱又可恨的东西,当我们能够准确的预知某些数据的分布时。。。。。。 http://t.cn/RhBy6ym [ [微博](http://www.weibo.com/5106435191/BpRuqaTPz) ] + +---- + +2014-10-03 经典文章 Greedy function approximation : A Gradient Boosting Machine http://t.cn/Rh1dW44 并行实现推荐 @陈天奇怪 的xgboost,实际例子见@phunter_lau 最近的文章 http://t.cn/RhKAWac 更多GBDT http://t.cn/Rh1dW4y [ [微博](http://www.weibo.com/5220650532/BpPEBdnO4) ] + +> 2014-10-03 @格灵深瞳: 模型组合与决策树相关的算法比较多,这些算法最终的结果是生成N棵树,这样可以大大的减少单决策树带来的毛病,有点类似于三个臭皮匠等于一个诸葛亮的做法,虽然这几百棵决策树中的每一棵都很简单,但是他们组合起来确是很强大。【决策树模型组合之随机森林与GBDT】http://t.cn/Rh1uZ1Y [ [微博](http://www.weibo.com/3769368692/BpP51Bkvo) ] + +2014-10-03 Hacker's guide to Neural Networks 教程是用Javascript写的神经网络. 同一作者以前写的convnetjs http://t.cn/Rh1dfKB [ [微博](http://www.weibo.com/5220650532/BpPCL7EB5) ] + +> 2014-10-03 @安人心智: #脑技术# 【神经网络黑客指南】现在,最火莫过于深度学习(Deep Learning),怎样更好学习它?可以让你在浏览器中,跑起深度学习效果的超酷开源项目convnetjs作者karpathy告诉你,最佳技巧是,当你开始写代码,一切将变得清晰。他刚发布了一本图书,不断在线更新:http://t.cn/RhSJkOz [ [微博](http://www.weibo.com/2710875561/BpNDGlONo) ] + +2014-10-03 补充一个线性规划的Python包 PuLP http://t.cn/Rh1d4hV 是GLPK的一个外壳。 非常简单好用 [ [微博](http://www.weibo.com/5220650532/BpPBLFRx6) ] + +> 2014-10-03 @王威廉: 线性规划是在优化、机器学习以及自然语言处理中经常遇到的重要问题。谷歌近日开源了他们的线性规划工具glop。另外,谷歌的开源运筹学工具集or-tools中还包括有各种约束优化问题,线性优化问题,背包问题以及图算法的工具。Google Code下载: http://t.cn/Rh1Wwze [ [微博](http://www.weibo.com/1657470871/BpNM0fzQG) ] + +2014-10-03 和@DonaldErvinKnuth 这条参照着看 [呵呵] http://t.cn/Rh1rdx8 还有@李沐M 的这条 http://t.cn/Rh1rdxQ [ [微博](http://www.weibo.com/5220650532/BpPzP7Lns) ] + +> 2014-10-03 @晨曦Stephen: Hinton祖师爷来talk, 讲他被nips rejected的paper~问他如何评价最近imagenet challenge的趋势,他说going deeper just work, but that's boring and rubbish, computer vision不应该走这个方向..... [ [微博](http://www.weibo.com/2097352953/BpMXNxxgK) ] + +2014-10-03 nolearn十分的Pythonic, 非常简单,和scikit-learn一样好用。项目文档http://t.cn/Rh1rpyM 目前实现了convnet和dbn [ [微博](http://www.weibo.com/5220650532/BpPxHCtSM) ] + +> 2014-10-03 @xccds: 两个很好的deep leaning实例示范,用python的nolearn包来实施http://t.cn/Rh11bsl 用R的H2O包来做 http://t.cn/Rh0RNZS [ [微博](http://www.weibo.com/1400524015/BpPirqnf4) ] + +2014-10-03 //@张俊林say: 我个人还是首推《统计自然语言处理》,尽管从内容角度讲有点旧因为毕竟出版了10年了,但是可以很好地培养成利用统计思路解决NLP实际问题的思维框架,这一点其它教材都比不上这本。//@好东西传送门: 推荐吴俣的这篇文章. Stanford那门NLP公开课 http://t.cn/zTagx9z [ [微博](http://www.weibo.com/5220650532/BpPu9brIo) ] + +> 2014-09-21 @gerrylin: 自然语言处理怎么最快入门? #读知乎# http://t.cn/RhN1Qhi [ [微博](http://www.weibo.com/1424552461/Bo3dtAHyS) ] + +2014-10-03 机器学习头条 2014-10-02 http://t.cn/Rh1WlIL 1)自然语言处理怎么最快入门 by吴俣 @gerrylin 2) 公开课 “矩阵与线性方程组” by马辉 @清华MOOCs 3) String Re-writing Kernel @李航博士 4) Google用深度学习做反垃圾 @我爱机器学习 5)免费电子书Math for CS @velvel2 加长版 http://t.cn/Rh1WlIy [ [微博](http://www.weibo.com/5220650532/BpNQFxwHJ) ] + +2014-10-03 //@赶路人林文: Coursera上面有两门NLP的课程,个人比较喜欢哥伦比亚大学的Michael Collins。随课程有相关的阅读材料。NLP with python 只要懂一点python就基本没问题,英文版最佳,入门必备。//@好东西传送门: 推荐吴俣的这篇文章. Stanford那门NLP公开课 http://t.cn/zTagx9z [ [微博](http://www.weibo.com/5220650532/BpMhEdL6y) ] + +> 2014-09-21 @gerrylin: 自然语言处理怎么最快入门? #读知乎# http://t.cn/RhN1Qhi [ [微博](http://www.weibo.com/1424552461/Bo3dtAHyS) ] + +---- + +2014-10-02 推荐吴俣的这篇文章. Stanford那门NLP公开课 http://t.cn/zTagx9z 同推荐, 讲得非常好, 适合入门 Python的包列了pattern scikit-learn 小门再补充NLTK gensim和textblob [ [微博](http://www.weibo.com/5220650532/BpGQm0Cu0) ] + +> 2014-09-21 @gerrylin: 自然语言处理怎么最快入门? #读知乎# http://t.cn/RhN1Qhi [ [微博](http://www.weibo.com/1424552461/Bo3dtAHyS) ] + +2014-10-02 @传媒老跟班 最近整理了一个<论文检测> http://t.cn/Rh3nerp 列举了9个中英文系统 PaperPass Copycheck 维普通达 万方数据 Viper 中国搜 Turnitin Dustball PPVS 值得参考 [ [微博](http://www.weibo.com/5220650532/BpGKxukMy) ] + +> 2014-08-20 @好东西传送门: 问: @sxhfut 能否推荐一下英文论文的学术不端检测系统或网站,免费的或者收费的靠谱的 答: 关键词Plagiarism, 初步答案与进展: http://t.cn/RPn5uwR Turnitin收费,有很多学校用户; Viper 有免费windows单机版; Plagium 免费在线不限长度, 上了两个排行榜,可以同时用几个交叉检测。欢迎补充指正。 [ [微博](http://www.weibo.com/5220650532/Bjdaxhu6s) ] + +2014-10-02 Finlay-Liu @ Github 推荐了冈萨雷斯的<数字图像处理>, 其中第4章频域处理,第5章图像复原都与图像增强相关 http://t.cn/Rh3nUXI [ [微博](http://www.weibo.com/5220650532/BpGFWm6CQ) ] + +> 2014-10-01 @好东西传送门: @小白_小可乐 问:有没有图像增强方面的学习资料啊? 答:图像增强主要分为空域方法和频域方法两大类.这里收集了几篇综述文章 http://t.cn/Rhua1eo 讨论页 http://t.cn/RPlPCU5 欢迎CV领域的专家增补 [ [微博](http://www.weibo.com/5220650532/BpwA4yquC) ] + +2014-10-02 强烈推荐!另外再推一次李航博士的新书《Semantic Matching in Search》阐述了搜索中语义匹配的基本方法. 预览与目录 http://t.cn/RPiq2hc [ [微博](http://www.weibo.com/5220650532/BpFDZ9jIP) ] + +> 2014-10-02 @李航博士: 最近在台湾做报告时讲 Semantic Matching,回来后把其中介绍 String Re-writing Kernel的部分整理成了短文。http://t.cn/Rh3Kt0z 这个工作曾获得ACL 2012 Best Student Paper Award。与@布凡THU @朱小燕THU 合作的工作。 [ [微博](http://www.weibo.com/2060750830/BpEVUFTGH) ] + +2014-10-02 机器学习头条2014-10-01 http://t.cn/Rh36jCa 1)ACM COSN社交网络会议文章下载 @AixinSG 2) 特征工程的方方面面 @xccds 3) semdom英语常用词和词组语义归类 @莫水田 4) Spark MLlib分布式决策树性能提升了2-5倍 @hashjoin 5) Chris Adolph的最大似然课程 @romanxu 加长版23条 http://t.cn/Rh36jCX [ [微博](http://www.weibo.com/5220650532/BpEpmtBzf) ] + +---- + +2014-10-01 不错。没列什么公式,但很有insights//@Copper_PKU:转发微博 [ [微博](http://www.weibo.com/5220650532/BpyQKk4lh) ] + +> 2014-10-01 @xccds: http://t.cn/RhumtBN 这篇综述了特征工程的方方面面,值得一读。 [ [微博](http://www.weibo.com/1400524015/BpyMkpCvZ) ] + +2014-10-01 semdom,一个很不错的分类树,也可以算本体ontology或者常识知识库,含1800语义类.很友好的Creative Commons授权证 [ [微博](http://www.weibo.com/5220650532/BpxI5lUaR) ] + +> 2014-10-01 @莫水田: 我曾想按照语义来给英语常用词和词组归类,不过缺乏能力和行动力,昨晚上发现原来有人已经做了 http://t.cn/RhuOrs3,这个“语义” 网上各种词类都有,较神奇。 多写描绘叙事短文,写时参阅语义网、Oxford Pictorial English Dictionary 和Dictionary of Phrasal Verbs, 那写出生动的英语几年可待~ [ [微博](http://www.weibo.com/1940113775/BpxwV2F4B) ] + +2014-10-01 赞MLlib http://t.cn/Rhuofir 补充一个PPT MLlib Decision Trees at SF Scala-BAML Meetup http://t.cn/Rhuofid [ [微博](http://www.weibo.com/5220650532/BpwK2shmJ) ] + +> 2014-10-01 @hashjoin: 决策树是数据挖掘中常用的一个算法。在社区和Databricks的合作下,Spark MLlib 1.1对分布式决策树进行了大量的优化,最新版本比上一个版本性能提升了2 - 5倍。这篇博客介绍了几个重要的优化和具体的性能提升 http://t.cn/RhuSxCX [ [微博](http://www.weibo.com/1630850750/BpwDEuAWI) ] + +2014-10-01 运维必须知道的15个项目:docker轻量级容器 vagrant部署应用 statsd统计汇总 ansible自动化部署 capistrano远程自动化 salt基础组件通信 sentry处理错误日志 fabric远程调用 chef配置管理 logstash日志处理 peppet服务器自动化 essay 项目部署 等,他们的Github信息一览:http://t.cn/RhuSEzM [ [微博](http://www.weibo.com/5220650532/BpwGe4OJP) ] + +2014-10-01 @小白_小可乐 问:有没有图像增强方面的学习资料啊? 答:图像增强主要分为空域方法和频域方法两大类.这里收集了几篇综述文章 http://t.cn/Rhua1eo 讨论页 http://t.cn/RPlPCU5 欢迎CV领域的专家增补 [ [微博](http://www.weibo.com/5220650532/BpwA4yquC) ] + +2014-10-01 //@Noodles-Xu:/@road2stat:各位HR看过来![太开心]//@统计之都: 作者是统计之都主站编辑之一高涛@三水成海 ,目前研三正在找工作中,欢迎勾搭//@xebro:博主另外几篇很不错的总结:PKU暑期高维统计学习心得 http://t.cn/RhmR6OA ,以及作者收集的当时PKU暑期讲座的相当全的材料 http://t.cn/RhmR6Ow [ [微博](http://www.weibo.com/5220650532/BpvrH2Mbb) ] + +> 2014-09-30 @张磊-机器学习: 一篇对ADMM原理及并行化方法总结的很棒的文章,大家耐着性子看完吧:http://t.cn/RPoPFOm [ [微博](http://www.weibo.com/1822639887/Bpn1t6FGN) ] + +2014-10-01 文名 <从HTML Components的衰落看Web Components的危机>下面有好多大牛在参与讨论,大家快去[围观] [ [微博](http://www.weibo.com/5220650532/Bpvacimsu) ] + +> 2014-10-01 @民工精髓V: 看到大家对Angular,React和Polymer的讨论,我写了一些对Web Components的看法,欢迎大家探讨:http://t.cn/RhmdVXZ [ [微博](http://www.weibo.com/1858846672/BprVLmDJs) ] + +2014-10-01 机器学习头条2014-09-30 http://t.cn/RhubqP6 1)天猫推荐算法大赛Top 9团队访谈 @万物皆三NLP 2) Radim Řehůřek: Multicore LDA in Python @星空下的巫师 3)正文抽取的开源代码 @KissDev 4) 量子机器学习 @尹璋琦THU 5) 通过机器学习算法找到真爱 @王威廉 加长版32条 http://t.cn/RhubqPX [ [微博](http://www.weibo.com/5220650532/BpuZGa9Is) ] + +2014-10-01 @romanxu 刚才推荐了华盛顿大学统计课Chris Adolph教授的课程Maximum Likelihood Methods for the Social Sciences 为方便浏览,把他的课件都做了预览卡片这这里 http://t.cn/Rhu4DdQ 这门课比较理论联系实际,适合非统计或计算机专业来学. [ [微博](http://www.weibo.com/5220650532/BpuXs9hy3) ] + +2014-10-01 转发理由:涵盖各种模型,如二进制数据,有序数据,称名数据(有名字但无顺序),可数数据,缺失数据,等,都可由最大似然方法处理 [ [微博](http://www.weibo.com/5220650532/BpuUahYSR) ] + +> 2014-10-01 @romanxu: 隆重推荐:统计课maximum likelihood的教授Chris Adolph,哈佛血统,年轻有为。完全的共享派:编程用R,不用STATA;文字处理用LaTex不用Office;课件完全公开http://t.cn/RP1QErM。还不遗余力给学生写了牛文:Social Science Computing for the Mac in 15 Steps and $29 (http://t.cn/RhuPgl2 [ [微博](http://www.weibo.com/1651598281/BptaEgzO8) ] + +2014-10-01 对前几天推荐过的概率分布关系图的详细解释来了[good] //@许扬逸Dijkstra [ [微博](http://www.weibo.com/5220650532/Bpslq2GEk) ] + +> 2014-09-28 @上微博的猫V: 【一张图的故事——概率分布之间的关系(上)】 概率分布之间的关系是个有趣的话题。若要一张图简要概述概率分布之间的关系,下图是经典。本文将从上到下,从左到右解释这张图。本来要全部写完才发布的。不过考虑到明天就回家了,家里没有网肯定写不了,所以先发布… http://t.cn/RhEZ2HJ [ [微博](http://www.weibo.com/1679022231/Bp8OT644W) ] + +---- + +2014-09-30 @杜威Dewey 问:互联网应用的分布式数据库存储使用网络存储有什么好方案吗 答:讨论总结现在在issue 62 http://t.cn/RhmtmqT Nexenta、OpenFiler这些开源软件能否上生产环境有几篇近几年的文章. tildelingu老师给了更精华的总结.见长微博 [ [微博](http://www.weibo.com/5220650532/BpoikzVBI) ] + +2014-09-30 推荐.加入我们Python资源区的正文提取专题.那里还列举了十多种其他工具 http://t.cn/Rhm2qhw [ [微博](http://www.weibo.com/5220650532/BpnqyjwL1) ] + +> 2014-09-30 @KissDev: 正文抽取的开源代码,基于文本密度的html2article: http://t.cn/8FvHNOY 基于标签比例的机器学习Dragnet: http://t.cn/RhnDNg0 专注新闻类网页提取的Newspaper: http://t.cn/RhnDNgW 集成goose等三种算法的readbilitybundle http://t.cn/RhnDNgO 我觉得最好的方法还可能是视觉系方法 [ [微博](http://www.weibo.com/1699016425/BpmqDx5GK) ] + + +2014-09-30 机器学习头条2014-09-29 http://t.cn/RhnECPX 1 机器学习视频课程 @雅虎北京全球研发中心 2 麻省理工Gilbert Strang的《线性代数》课程 @王威廉 3 大数据处理资源、工具 @bitslife 4 R语言抓取实时股票数据的API (作者 @Jincheng9 ) 5 推荐书《语言本能》@西瓜大丸子汤 加长版http://t.cn/RhnECPS [ [微博](http://www.weibo.com/5220650532/BpljlEKUi) ] + +2014-09-30 跨平台的优秀编辑器。非常好的中文介绍 [ [微博](http://www.weibo.com/5220650532/BpkCaxyG9) ] + +> 2014-09-28 @慕课网: #IT技术分享#【Sublime Text 全程指引】本文系统全面的介绍了Sublime Text,旨在成为最优秀的Sublime Text中文教程,分享给大家。绝对干货,一般人我不告诉。[推荐]原文地址:http://t.cn/Rh8uSA2 [ [微博](http://www.weibo.com/3306361973/Bp4YIuj6T) ] + +2014-09-30 转发理由:awesome-bigdata 600多个数据存储、分析相关项目。Github 地址: http://t.cn/RhE6VaJ 作者Onur Akpolat [ [微博](http://www.weibo.com/5220650532/BpjUBs0Av) ] + +> 2014-09-29 @bitslife: 大数据数据处理资源、工具不完备列表, 从框架、分布式编程、分布式文件系统、键值数据模型、图数据模型、数据可视化、列存储、机器学习等。很赞的资源汇总。 http://t.cn/8FwSiyK [ [微博](http://www.weibo.com/1895047203/Bpcpu3os6) ] + +---- + +2014-09-29 讨论242 不完全整理贴 http://t.cn/RhE8U44 补充了一篇论文 When Stopword Lists Make the Difference 一个很好玩的发现,英文里9个词的stopword list 与500多词的单子效果差异不大,法语类似。至于中文 ...还希望专家多讲讲 [ [微博](http://www.weibo.com/5220650532/Bpe3p9Ien) ] + +> 2014-09-28 @AixinSG: 相对于常规网页或新闻,我觉得停用词在用户生成内容里面会更重要一些,现在更倾向于在索引中保留每个词。Stop stopping stop words: a look at Common Terms Query http://t.cn/Rh8DFRh [ [微博](http://www.weibo.com/1025887594/Bp2RkCBrH) ] + +2014-09-29 Python的可穿透防火墙的轻量代理 主页 http://t.cn/Rvc8VZG 使用说明 http://t.cn/zQZIZMd //@Easy: 和Goagent比起来,除了可以自建服务器更稳定外,SS是全局代理,所以Dropbox等客户端也可以用了 [ [微博](http://www.weibo.com/5220650532/BpdRZ9EmC) ] + +> 2014-09-29 @Easy: 最近换用Shadowsocks科学上网,非常爽,推荐一把。Mac有客户端,全局代理,自动绕过国内网站,还能手工加名单。谷歌Play市场有应用可用。如果不爱用公用服务器,可以自己搭,一条命令:「 pip install shadowsocks 」顺便放个DO的10美刀优惠 http://t.cn/RP1OvQK [ [微博](http://www.weibo.com/1088413295/BpdNG20WK) ] + +2014-09-29 问: 大数据安全或隐私的现状综述? 答: 资料整理 http://t.cn/RhETCi9 推荐一篇2014年综述 Security Issues in Cloud Environments, A Survey 很新很全面: 对比此前10篇相关综述, 覆盖工业界话题, 引用315篇论文。粗分8大类: 软件, 存储与计算, 虚拟化, 互联网与服务, 网络, 访问控制, 信任, 法律 [ [微博](http://www.weibo.com/5220650532/BpdPema1O) ] + +2014-09-29 mysql数据库进化图 [ [微博](http://www.weibo.com/5220650532/BpdBgBVtY) ] + +> 2014-09-29 @MySQL_DBA: 分享图片 [ [微博](http://www.weibo.com/1979536592/Bpdwwyb0k) ] + +2014-09-29 推荐一个基于R语言的API (作者 @Jincheng9 ) 从新浪财经上抓取实时股票和指数数据,包括前收盘价,开盘价,当前价格,今日最高价,今日最低价,成交额等 http://t.cn/RhRahT6 [ [微博](http://www.weibo.com/5220650532/BpbVHeNjs) ] + +---- + +2014-09-28 求指点//@Nick蓝色风暴:接着上一话题,对于随机游走,比如是基于Uniform分布的游走,就是在[current-x1,current+x2]这个区间均匀随机一个数(x1和x2是常量)。而当x1=x2时,是对称随机游走,也就是M算法;当x1不等于x2时,是不对称游走,也就是MH算法。请问我的理解对吗?请大牛们指教@研究者July [ [微博](http://www.weibo.com/5220650532/Bp61jjF8f) ] + +> 2014-09-28 @Nick蓝色风暴: 最近学习MCMC的经典MH算法,被几个不同版本的代码实现给搞糊涂了,关键步骤在于如何得到下一个状态,好像大概分为Independent MCMC和Random Walk MCMC这两种。我现在的理解:独立MCMC是给定一个固定分布,要得到下一个状态就从这个分布里随机一个数;随机游走就是根据当前状态值来随机得到下一个状态。 [ [微博](http://www.weibo.com/1096796232/Bp5OoccYv) ] + +2014-09-28 这个讨论很有意义,明天小门会帮着整理合集,请各位专家继续 //@章成志: 是的,要看具体场合,实际上,“停用词”这个概念来源于信息检索、文本分类这样的任务,通常那些区分性较低(idf低)的词很多就是停用词,如果做情感分类等任务,有些词不但不能停用反而很重要。 [ [微博](http://www.weibo.com/5220650532/Bp5joiZta) ] + +> 2014-09-28 @AixinSG: 相对于常规网页或新闻,我觉得停用词在用户生成内容里面会更重要一些,现在更倾向于在索引中保留每个词。Stop stopping stop words: a look at Common Terms Query http://t.cn/Rh8DFRh [ [微博](http://www.weibo.com/1025887594/Bp2RkCBrH) ] + +2014-09-28 传送理由:Rob Fergus的用深度学习做计算机是觉的NIPS 2013教程。有mp4, mp3, pdf各种下载 pdf传送门 http://t.cn/RhRXlO1 他是纽约大学教授,目前也在Facebook工作,他2014年的8篇论文 http://t.cn/RhRXlO3 [ [微博](http://www.weibo.com/5220650532/Bp5f4inDt) ] + +> 2014-09-28 @老淘: Tutorials Session A - Deep Learning for Computer Vision - Microsoft Research http://t.cn/RhR7Jhg [ [微博](http://www.weibo.com/1849537887/Bp3lUetVx) ] + +2014-09-28 传送门的小伙伴们应该会喜欢这本书,非常有趣的视角,非常重要的话题。 [ [微博](http://www.weibo.com/5220650532/Bp543bsWU) ] + +> 2014-09-28 @GK同人于野: 我的书《万万没想到:用理工科思维理解世界》出版了,现已开始在京东预售 http://t.cn/RhRxvhy 此书按三个主题 - 反常识思维、成功学的解药、霍金的答案 - 精选并完善了我的文章,其中重点篇目做了很大程度的补充和改写,加入不少新内容,使其达到2014年最新知识。赵南元老师(@荒川围脖 )慷慨作序! [ [微博](http://www.weibo.com/2089800791/Bp4YdqYKG) ] + +2014-09-28 //@海中的沙粒:回复@ComplexLY:我有一本R数据可视化手册的书,就是教你如何用ggplot2来做数据可视化,说实话跟Tableau做的图,没法比,很多感觉需要用adobe illustrator 来修正下才拿的出手,嘿嘿,真的有点渣 //@ComplexLY:ggplot2 //@海中的沙粒:竟然忘记Python这个跟R差不多的软件了,这个更强悍 [ [微博](http://www.weibo.com/5220650532/Bp2L3dxFO) ] + +> 2014-09-28 @海中的沙粒: STATA ,SPSS的学术性意义比较强,STATA的几类回归分析上是最经典的,SPSS在方差分析上非常厉害,SAS适合数据库数据量更大等量级的分析,R比较综合性,编程性上属于难度中等,matlab更倾向于学计算机语言的,编程性更强,数据分析性机器计算更多,总得来说,R是最关键的,因为综合性 [ [微博](http://www.weibo.com/1843007450/Bp1euBodP) ] + +---- + +2014-09-27 R工具包的分类汇总 (CRAN Task Views, 34种常见任务,每个任务又各自分类列举若干常用相关工具包) http://t.cn/RhQy8o5 例如: 机器学习,自然语言处理,时间序列分析,空间信息分析,多重变量分析,计量经济学,心理统计学,社会学统计,化学计量学,环境科学,药物代谢动力学 等 [ [微博](http://www.weibo.com/5220650532/BoTv056xB) ] + + +2014-09-27 问: 请问用于复杂网络分析R软件包? 答: 资料汇总 http://t.cn/RhQwuXT 推荐两个经典包 statnet, igraph 。 R社区有个很全的分类列表覆盖几十个包; 还有几个不错的在线入门课程与学习资料 例如 Stanford的“R for Social Network Analysis” [ [微博](http://www.weibo.com/5220650532/BoT592e2T) ] + +---- + +2014-09-26 赞Search Formula-1 !//@张颖峰: 如果说常规搜索已经是个解决了的问题(比如elasticsearch等等),为什么还要重新造这个轮子,答案是,更好的可定制性以及更快速的性能。尽管代码质量有待提高,但做为经过高压环境验证的完整解决方案,必将给开发者以更充足的空间来按需补充和裁剪。Apache License [ [微博](http://www.weibo.com/5220650532/BoLJTjP1R) ] + +> 2014-09-26 @张颖峰: 也许现在有些早,但苦于没有更多的成员和时间来完善文档,所以还是赶在这个周末之前把我们之前一直完善的引擎对外宣布了,这就是C++编写的高性能分布式搜索存储一体化引擎,主要面向开发者。http://t.cn/RhT3I3B @好东西传送门 [ [微博](http://www.weibo.com/1788077877/BoLngj2V3) ] + +2014-09-26 回复@民工_李江: 非常感谢补充 课程链接 http://t.cn/zYsV43a //@民工_李江:Mattew Jackson在Coursera上有门相关的课: social and economic networks,好像这期刚开始不久 [ [微博](http://www.weibo.com/5220650532/BoKGBEX1J) ] + +> 2014-09-26 @好东西传送门: 问: 求经济学方向社会网络资料? 答: 文献汇总 http://t.cn/RhTlXMC 社会网络(social network)基础知识先看维基百科和在线教材"Introduction to social network methods". 四篇经济学方向文章, 推荐斯坦福教授Matthew Jackson (2010) "An Overview of Social Networks and Economic Applications" 96页 [ [微博](http://www.weibo.com/5220650532/BoKB6Eafx) ] + + +2014-09-26 问:有没有最新的讲述人工智能发展史,现状,展望的资料? 答:人工智能(Artificial Intelligence) 领域综述有一个很好玩的图 "AI Landscape" (2008年AI Magazine附送的海报), 再配上一个AI历史大事件的时间轴demo “ Companion Timeline of Artificial Intelligence History” http://t.cn/RhTXnDF [ [微博](http://www.weibo.com/5220650532/BoJAcrUuy) ] + +2014-09-26 不错,这个应该是第二版 @Vamei 2013年的第一版还有些有趣的图片 http://t.cn/zYtMBGK //@西瓜大丸子汤: 推荐给@好东西传送门 //@Vamei:原作者来认领 [ [微博](http://www.weibo.com/5220650532/BoHdz858S) ] + +> 2014-09-25 @Linux中国: #Python 语言的发展简史# Python是我喜欢的语言,简洁,优美,容易使用。前两天,我很激昂的向朋友宣传Python的好处。 好吧,我承认Python不错,但它为什么叫Python呢? 呃,似乎是一个电视剧的名字。 那你说的Guido是美国人么? 他从Google换到Dropb…http://t.cn/RhYgiGm [ [微博](http://www.weibo.com/1772191555/BoG25tiMh) ] + +2014-09-25 这个scrum guide是个经典,对scrum困惑的同学可以看看。同时推荐好文 "The 2013 Scrum Guide changes" http://t.cn/RhjdQ1W 1. Artefact Transparency strengthened 2. Sprint Planning 3. Definition of Ready 4. Time boxes relaxed for most meetings 5. Daily Scrum purpose clarified [ [微博](http://www.weibo.com/5220650532/BoBCqkL9Z) ] + +> 2014-09-25 @朱少民: 当Scrum 的应用爆炸式增长时,形形色色的Scrum变种就出现了,不少公司已经忘记了Scrum 的价值和原则,为此,Scrum Alliance、scrum.org等联合发布了对Scrum的指导文件: http://t.cn/Rhjrrbs [ [微博](http://www.weibo.com/1652927771/BoByZyCjh) ] + +2014-09-25 问: 求计算神经科学资料? 答: 1. 资源门户网站(学者,论文,课程一网打尽) "Computational Neuroscience on the Web" http://t.cn/RhjQAgV 2. 暑期学校(2010至2014共5期) http://t.cn/RhjQAgc 3. 还有华盛顿大学公开课 "Computational Neuroscience" 谢 @苏梦Neuro-Gatsby @课程图谱 @要有光LTBL 推荐 [ [微博](http://www.weibo.com/5220650532/BoAQg5kj6) ] + +2014-09-25 [计算机视觉数据集不完全汇总] http://t.cn/Rhj0T9K 经典热点数据集: ImageNet,Flickr,MNIST 数据集目录: YACVID(200+),ComputerVisionOnline(100+),CVpapers(100+),CVOnline(100+),UIUC,UCSD,NICTA... 感谢 @丕子 @邹宇华 @李岩ICT人脸识别 @网路冷眼 @王威廉 @金连文 @数据堂 zhubenfulovepoem 推荐 [ [微博](http://www.weibo.com/5220650532/BoAbfmDPA) ] + +2014-09-24 搞数据挖掘的同仁怎么看? 气象学专业呢? //@复旦陈硕frank: 转发微博 [ [微博](http://www.weibo.com/5220650532/Bot0Cl2BQ) ] + +> 2014-09-24 @中国社会科学院金融评论: Journal of Economic Literature最新一期的文章http://t.cn/RhlbJno 对近年来采用高频面板数据研究天气(相对于以往低频数据刻画的“气候”)经济效应的文献进行了评述。作为这一领域的外行,感觉这篇有趣的综述除了有助于找各种IV之外,在某些具体事实和技巧上也很有启发。 [ [微博](http://www.weibo.com/3205772127/BosQWsyNb) ] + +2014-09-24 可以看看教学录像,这个课可为两种目标服务:第一、了解计算生物学中的挑战性问题,寻求更好的计算方法,应用前沿的机器学习方法(很好奇深度学习的应用)第二、理解可以使用计算方法,尤其是现成的机器学习工具,把它们应用到生物学、医学前沿问题中 Bioinformatics, Health informatics //@医学统计 [ [微博](http://www.weibo.com/5220650532/Bosjr9NpC) ] + +> 2014-09-24 @好东西传送门: 一张图表解析生物信息学中算法的实际应用(摘自"An Introduction to Bioinformatics Algorithms")同时推荐该书作者Pavel Pevzner (UCSD教授, ACM院士) Coursera公开课Bioinformatics Algorithms (今年10月开课) http://t.cn/RhWs4Cp YouTube教学视频 http://t.cn/RhWs4CO 需要较强的数学及算法基础 [ [微博](http://www.weibo.com/5220650532/BorSV49Fo) ] + +2014-09-24 一张图表解析生物信息学中算法的实际应用(摘自"An Introduction to Bioinformatics Algorithms")同时推荐该书作者Pavel Pevzner (UCSD教授, ACM院士) Coursera公开课Bioinformatics Algorithms (今年10月开课) http://t.cn/RhWs4Cp YouTube教学视频 http://t.cn/RhWs4CO 需要较强的数学及算法基础 [ [微博](http://www.weibo.com/5220650532/BorSV49Fo) ] + +2014-09-24 推荐 @tornadomeet 整理的 《本人常用资源整理(ing...)》 http://t.cn/zO1YaAE #深度学习#, #机器学习#,#数据挖掘#, #计算机视觉#,优化,数学,Linux,领域牛人,课程 ... ;-) 此人的博客可以归类为 #学霸的学习笔记# [ [微博](http://www.weibo.com/5220650532/BortzCrYs) ] + +2014-09-24 回复@尘绳聋-SYSU: 补上 @tornadomeet 原作 “机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)” http://t.cn/zRoZPzP 现在已经写了25个笔记! //@尘绳聋-SYSU:数盟的链接里没有标明原作:@tornadomeet [ [微博](http://www.weibo.com/5220650532/Borpttofb) ] + +> 2014-09-24 @陈利人: 好文!常见面试之机器学习算法思想简单梳理 http://t.cn/RhWuNHg [ [微博](http://www.weibo.com/1915548291/Bor6t48ji) ] + +2014-09-24 感谢! 附09年MLSS主页 http://t.cn/zl1sHfi 09年MLSS 所有还幻灯片打包下载 51M ZIP http://t.cn/RhWBmXr //@bigiceberg: mark,其中09年UK的mlss最经典。 [ [微博](http://www.weibo.com/5220650532/Borng7Ukv) ] + +> 2014-09-24 @好东西传送门: 机器学习暑期学校MLSS全集(2002-): MLSS汇集了机器学习界名师,提供基础教程,展示领域进展, 免费讲义下载 -- 是了解领域前沿的好去处。全集罗列了过去的26次课和未来的8次课, 基本上欧洲,美国,澳洲,亚洲各自一摊。原始链接 www.mlss.cc 我们做了个github版补全了缺失链接 http://t.cn/RhWRlBo [ [微博](http://www.weibo.com/5220650532/BoqHnj2qe) ] + +2014-09-24 //@AixinSG: 我们做过hashtag扩散的研究 http://t.cn/RhWmsw8 Google Scholar上也有了一些相关的引用文章 http://t.cn/RhWmswE 相对来说扩散要比溯源容易做,溯源很不容易验证 [ [微博](http://www.weibo.com/5220650532/Bor4eu5sU) ] + +> 2014-09-24 @好东西传送门: 问: 做基于话题的社交网络中的溯源,寻找源头用户, 求文章? 答: 找到5篇论文 http://t.cn/RhW6Suk 特别推荐Guille等"在线社交网络中信息扩散综述"(SIGMOD Record 2013)脑图, 讲了三个挑战及相关解法: 发现有趣话题,扩散过程建模, 识别高影响力节点。此外还有几篇溯源算法研究及一篇Science相关好文 [ [微博](http://www.weibo.com/5220650532/BoqRO7Mzg) ] + +2014-09-24 问: 做基于话题的社交网络中的溯源,寻找源头用户, 求文章? 答: 找到5篇论文 http://t.cn/RhW6Suk 特别推荐Guille等"在线社交网络中信息扩散综述"(SIGMOD Record 2013)脑图, 讲了三个挑战及相关解法: 发现有趣话题,扩散过程建模, 识别高影响力节点。此外还有几篇溯源算法研究及一篇Science相关好文 [ [微博](http://www.weibo.com/5220650532/BoqRO7Mzg) ] + +2014-09-24 机器学习暑期学校MLSS全集(2002-): MLSS汇集了机器学习界名师,提供基础教程,展示领域进展, 免费讲义下载 -- 是了解领域前沿的好去处。全集罗列了过去的26次课和未来的8次课, 基本上欧洲,美国,澳洲,亚洲各自一摊。原始链接 www.mlss.cc 我们做了个github版补全了缺失链接 http://t.cn/RhWRlBo [ [微博](http://www.weibo.com/5220650532/BoqHnj2qe) ] + +2014-09-23 [资料合集] http://t.cn/RhOz6bQ 情感分析(sentiment analysis) 两本经典综述PDF下载: A Survey of Opinion Mining and Sentiment Analysis (2012) by Bing Liu; Opinion mining and sentiment analysis (2008) by Bo Pang, Lillian Lee, 另附Richard Socher等深度学习用于情感分析的论文 欢迎补充 [ [微博](http://www.weibo.com/5220650532/Bohx6Ahic) ] + +2014-09-23 回复@禅系一之花: 谢谢提示。《傅立叶变换的简易指南》 http://t.cn/8srbg2x 译者:Taurelasse //@禅系一之花:译言上有翻译版 //@好东西传送门:感谢右边传送 An Interactive Guide To The Fourier Transform //@赶路人林文: http://t.cn/zjN3lQ6 这个傅里叶转换的文章是我看到 [ [微博](http://www.weibo.com/5220650532/Boh4Y1Doi) ] + +> 2014-09-19 @好东西传送门: 问: @ShawnLeesr 给找一些好到逆天的 1.信号处理 2 傅里叶变换 3.小波变换的入门资料吧 答: 资料整理 http://t.cn/RhKNdKs 推 @Heinrich_DMU 傅里叶分析之掐死教程。进阶有Stanford傅立叶变换课(Brad Osgood) http://t.cn/RhKNdKF , MIT小波分析课(Gilbert Strang) http://t.cn/RhKNd9v 请指正补充 [ [微博](http://www.weibo.com/5220650532/BnHcFiekf) ] + +2014-09-23 //@AllAboutStorage: Freebase小介绍(目标结构化internet)。母公司2010年被Google收购,其技术应该被用到了Google Knowledge Graph这个项目中。感兴趣的同学还可以看一看Google的图数据库Cayley http://t.cn/RvHuYpL 。其介绍就清楚写明:Cayley是受Google知识图谱以及Freebase背后的图数据库启发。 [ [微博](http://www.weibo.com/5220650532/Boh3LyNLP) ] + +> 2014-09-23 @好东西传送门: @low_accepted 问:求Freebase Wikipedia Extraction (WEX)的数据集(66GB大小,tsv格式) 答:AWS上有66GB版本的ESB snap-1781757e,挂靠在EC2上免下载。刚才实验了可用。WEX把维基百科英文版的模板、信息框、目录等转化为XML格式 http://t.cn/Rh0kIXp 更多Freebase资源 http://t.cn/Rh0kIX0 [ [微博](http://www.weibo.com/5220650532/Bogtpf4Jr) ] + +2014-09-23 问: @神经明亮的人 求perl教程呀? 答: 资料合集 http://t.cn/RhOvrpN Randal Schwartz 的learning Perl(小骆驼)是公认的入门教程, 浅显短小, 建议看英文版。更短有Learn Perl in about 2 hours 30 minutes. 更多看perlmonks.org和perl-tutorial.org的教程合集. 进阶看大骆驼Programming Perl 欢迎补充 [ [微博](http://www.weibo.com/5220650532/Boh22i7QV) ] + +2014-09-23 @low_accepted 问:求Freebase Wikipedia Extraction (WEX)的数据集(66GB大小,tsv格式) 答:AWS上有66GB版本的ESB snap-1781757e,挂靠在EC2上免下载。刚才实验了可用。WEX把维基百科英文版的模板、信息框、目录等转化为XML格式 http://t.cn/Rh0kIXp 更多Freebase资源 http://t.cn/Rh0kIX0 [ [微博](http://www.weibo.com/5220650532/Bogtpf4Jr) ] + +2014-09-23 感谢右边传送 An Interactive Guide To The Fourier Transform //@赶路人林文: http://t.cn/zjN3lQ6 这个傅里叶转换的文章是我看到的最棒的,无比生动。特别适合文科生,八年没碰过物理,五年没碰过数学的我都看懂了。有时间一定把这个翻译成中文。 [ [微博](http://www.weibo.com/5220650532/BofcOk20k) ] + +> 2014-09-19 @好东西传送门: 问: @ShawnLeesr 给找一些好到逆天的 1.信号处理 2 傅里叶变换 3.小波变换的入门资料吧 答: 资料整理 http://t.cn/RhKNdKs 推 @Heinrich_DMU 傅里叶分析之掐死教程。进阶有Stanford傅立叶变换课(Brad Osgood) http://t.cn/RhKNdKF , MIT小波分析课(Gilbert Strang) http://t.cn/RhKNd9v 请指正补充 [ [微博](http://www.weibo.com/5220650532/BnHcFiekf) ] + +2014-09-22 Yar, Yac, Yaf 都是 @Laruence 直接在GITHUB上开源的 http://t.cn/zWiKwkj , Zend Optimizer 也有他 http://t.cn/Rh0h8RZ [ [微博](http://www.weibo.com/5220650532/BoaTCoZbG) ] + +> 2014-09-22 @Laruence: 又要写总结报告了, 这是目前微博俩年来达成的LNMP的技术结构图..... 也就这么些东西, 大部分都是开源的, 欢迎借鉴. [ [微博](http://www.weibo.com/1170999921/BoaKMhnJp) ] + +2014-09-22 问: 增强现实近几年的文章或者相关资料特别是关于PTAM的资料? 答: 资料汇总 http://t.cn/Rh0v03Y PTAM是"即时定位与地图构建" (Simultaneous localization and mapping, SLAM, 机器人视觉的研究方向)的重要进展, 概念于2007年ISMAR最佳论文中提出。2014 CVPR 有一组段教程涉及相关研究 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BoaJeg31R) ] + +2014-09-22 传送好东西 #自然语言处理# 论文“Distributed Representations of Sentences and Documents ” Quoc V. Le, Tomas Mikolov, ICML 2014 链接 http://t.cn/RhpdQqv PV = Paragraph Vector [ [微博](http://www.weibo.com/5220650532/BoabnoAha) ] + +> 2014-09-22 @ustczen: “Distributed Representations of Sentences and Documents ”中提到的句子向量化算法PV-DM在github上已经有了基于gensim的python实现:http://t.cn/RPDxH82,word2vec论坛有人用它在IMDB数据集上尝试做情感分类,效果没有论文声称的那么牛,但可以参考下实现。@好东西传送门 [ [微博](http://www.weibo.com/2872565912/Bo9xyfdib) ] + +2014-09-22 感谢@hnlyjzh 搬运! Large Scale Visual Recognition Challenge视频免梯子下载 [ [微博](http://www.weibo.com/5220650532/Bo6SLASYp) ] + +> 2014-09-21 @hnlyjzh: ILSVRC2014的视频在这里http://t.cn/RhNBfX6 @好东西传送门 [ [微博](http://www.weibo.com/1244843177/Bo3i6cufT) ] + +2014-09-21 继续传送 //@ICT秦磊: 转了GoogLeNet,放在优酷上。 http://t.cn/RhN58TY 好东西传送门: 帮转,在YouTube上的,看看有没有大神帮忙传送回国 [ [微博](http://www.weibo.com/5220650532/Bo0laE8yh) ] + +> 2014-09-20 @贾旭kul_visics: @好东西传送门 ILSVRC2014 videos http://t.cn/RhCTDKX [ [微博](http://www.weibo.com/3195545915/BnUjy7FgT) ] + +2014-09-21 转发理论:一张图简明扼要总结了各种概率分布的关系,对机器学习和统计都极具参考价值。另补充维基百科上无版权的图 http://t.cn/zjyvP9q 并有对各种分布的详细解释 [ [微博](http://www.weibo.com/5220650532/BnYMPiRcz) ] + +> 2014-09-21 @_散沙_民工智能_: 基础中的基础,各路大数据科学家首先忽略的东西。晚安 http://t.cn/z8AJfHW [ [微博](http://www.weibo.com/1438548745/BnWtujF4q) ] + +2014-09-20 帮转,在YouTube上的,看看有没有大神帮忙传送回国 [ [微博](http://www.weibo.com/5220650532/BnVt2ffR0) ] + +> 2014-09-20 @贾旭kul_visics: @好东西传送门 ILSVRC2014 videos http://t.cn/RhCTDKX [ [微博](http://www.weibo.com/3195545915/BnUjy7FgT) ] + +2014-09-20 问: @情非得已小屋 推荐点关于推荐系统的综述么? 答: 问答207 http://t.cn/RhCt7lc 强推KDD2014讲义 "the recommender problem revisited": 第一部分Xavier Amatriain的综述(135页, 2014机器学习夏季学校版有248页), 第二部分"Context Aware Recommendation" (64页) 谢 @小飞鱼_露 @明风Andy 推荐 [ [微博](http://www.weibo.com/5220650532/BnRHSq1xl) ] + +2014-09-20 问: @水月小和尚 求隐私保护的资料 答: http://t.cn/Rh9egwV 隐私保护是大数据时代的重要问题。先推荐一篇2010年综述privacy-preserving data publishing 讲数据发布中的攻击模型, 隐私模型和匿名算法(看附图) 1.3节还列了一些综述, 讲"数据挖掘、数据查询、统计数据发布"中实现隐私保护 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BnPOcry6i) ] + +2014-09-20 过去一周新增的问答和推荐资源都整理到Github上了http://t.cn/Rh9NSVm 到目前为止有360条主题。要找以前推荐过的资源直接可以在页面上Ctrl+F搜索。BTW,如果你想订阅每周更新,发邮箱给我的私信吧 [ [微博](http://www.weibo.com/5220650532/BnMt3bdgh) ] + + +2014-09-19 Large-Scale Distributed Computer Vision As A Cloud Service [ [微博](http://www.weibo.com/5220650532/BnImw9owp) ] + +> 2014-09-19 @Rachel____Zhang: 发现了一个好东西,cloudcv http://t.cn/RhKuArr . 基于GraphLab with GPU支持在线object detection, classification和feature extraction(用的是Caffe),提供了MATLAB和Python的API。http://t.cn/8FItstH 还有提供ILSVRC2014 的各种feature... [ [微博](http://www.weibo.com/2607574543/BnIlCguKb) ] + +2014-09-19 推荐Cyrille Rossant博士新书 “IPython cookbook” http://t.cn/RhKH1qp 所有例子在Github上以IPython Notebook方式开源 http://t.cn/RhKH1q0 此书覆盖挺广:基础知识( IPython交互式计算环境,性能分析与优化,高性能计算,数据可视化); 实战短例子(例如统计,机器学习,信号处理,视频与音频等) [ [微博](http://www.weibo.com/5220650532/BnHSNrqZT) ] + +2014-09-19 问: @ShawnLeesr 给找一些好到逆天的 1.信号处理 2 傅里叶变换 3.小波变换的入门资料吧 答: 资料整理 http://t.cn/RhKNdKs 推 @Heinrich_DMU 傅里叶分析之掐死教程。进阶有Stanford傅立叶变换课(Brad Osgood) http://t.cn/RhKNdKF , MIT小波分析课(Gilbert Strang) http://t.cn/RhKNd9v 请指正补充 [ [微博](http://www.weibo.com/5220650532/BnHcFiekf) ] + +2014-09-19 [有趣的数据] 一个新推出的可交互地图应用把英国(United Kingdom)的河流的水文数据(river level) 放在网上 http://t.cn/RhK9AoB 。地图每一点对应一个水文观测站,好玩的是大家可以在Twitter上当这个观测站的粉丝:牛津附近的 gauge 2100 http://t.cn/RhK9Aor 居然有12粉 [ [微博](http://www.weibo.com/5220650532/BnH0ncHSp) ] + +2014-09-19 好东西! [ [微博](http://www.weibo.com/5220650532/BnGKXl9Ic) ] + +> 2014-09-19 @设定控: 一篇在各大社交网站上广为转载的电子图书馆列表,来自译言网,《最好的免费电子图书馆指南(上)》http://t.cn/zYcbH8t 《最好的免费电子图书馆指南(下)》http://t.cn/z84nsDZ 事实我发的很多电子书网站就来自这里,这贴几乎无所不包,学术政治经济资源都有,楼主还没翻译完,有时间多刷新一下吧。 [ [微博](http://www.weibo.com/2142733793/BnGfghg3X) ] + +2014-09-19 赞!Gradient Boosting Tree也参我们以前收集的专题 http://t.cn/RhKc1F5 有Python Go C++多种语言的实现 [ [微博](http://www.weibo.com/5220650532/BnFUv89IL) ] + +> 2014-09-19 @phunter_lau: 我的 Kaggle Higgs Challenge单个模型获胜解答,公开排行榜3.75最终排行榜得分3.73,排名25th/1792,差不多前几十里唯一一个非组合模型的解答。至于为什么不用组合模型,因为我不会。。。 链接 http://t.cn/RhKAWac 附图方便不能上wordpress的同学观看。至于英语描述,不要在意这些细节。 [ [微博](http://www.weibo.com/1770891687/BnE9rmOpe) ] + +2014-09-19 推荐一篇综述,将Context Aware Computing 在物联网里的应用 《Context aware computing for the internet of things: A survey》 http://t.cn/RhKqJTg 分析了过去十年50个相关项目,覆盖Context生命周期的四个阶段 Acquisition(获取), Modeling(建模), Reasoning(推理), Distribution(发布) [ [微博](http://www.weibo.com/5220650532/BnFso1697) ] + +2014-09-19 回复@tang_Kaka_back: 大致看了一下pypi,4万多库里只有5千多的python3库 //@tang_Kaka_back:回复@好东西传送门:[good]Python3的一些库跟进还是太慢了。从unicode的角度我个人还是喜欢3 //@tang_Kaka_back:我记得我一年前在找python3的爬虫都没有太好的,于是自己就着自己的项目写了个。现在已经有支持 [ [微博](http://www.weibo.com/5220650532/BnDabp9IQ) ] + +> 2014-09-18 @好东西传送门: 问: @子_相 目前支持Python 3的各种Web Crawler包?输入HTML, 输出是能支持Xpath 和CSS式的selector查询的object,有没有比较宽松容错的parser? 答: http://t.cn/RhL3mGP 不完善初步答案 MechanicalSoup和robobrowser都支持python3; beautifulSoup4 支持多种html parser处理HTML和CSS 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BnyQKbcKJ) ] + +2014-09-19 回复@小粗腿正在减肥中: 你是指这个吗? http://t.cn/RhosnXP Information Hiding conference (1996-2014) 点链接可以看每一届会议的论文目录。要下载论文通常可以 1. 祭出搜索引擎 标题+PDF 2. 通过图书馆查期刊 3.联系通信作者 ... //@小粗腿正在减肥中: [ [微博](http://www.weibo.com/5220650532/BnD1wdQBF) ] + +> 2014-09-18 @好东西传送门: 问:求信息隐藏的资料 答:初步进展 http://t.cn/RhogJv4 信息隐藏(digital watermarking, steganography and steganalysis, anonymity and privacy)有一个国际年会 IIH-MSP (1996-2014)。 Zoran Duric 有2006年有一门短课程, Peter Wayner 有一本2009年的专著。@永远的孤岛 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BnCrqqYLC) ] + +2014-09-18 问:求信息隐藏的资料 答:初步进展 http://t.cn/RhogJv4 信息隐藏(digital watermarking, steganography and steganalysis, anonymity and privacy)有一个国际年会 IIH-MSP (1996-2014)。 Zoran Duric 有2006年有一门短课程, Peter Wayner 有一本2009年的专著。@永远的孤岛 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BnCrqqYLC) ] + +2014-09-18 [数据集] 美国各政府部门2000至2014财年的支出记录, 每条记录包括 哪个部门拨发的,什么时间,干什么用,多少钱,获得拨款的地址 等字段。可以直接查询数据 http://t.cn/RhotbLK 也可以下载数据 http://t.cn/RhotbLo (点 archives 标签, 按月下载) [ [微博](http://www.weibo.com/5220650532/Bnz8SvZTF) ] + +2014-09-18 问: @子_相 目前支持Python 3的各种Web Crawler包?输入HTML, 输出是能支持Xpath 和CSS式的selector查询的object,有没有比较宽松容错的parser? 答: http://t.cn/RhL3mGP 不完善初步答案 MechanicalSoup和robobrowser都支持python3; beautifulSoup4 支持多种html parser处理HTML和CSS 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BnyQKbcKJ) ] + +2014-09-18 传送好东西并传送问题 @左耳朵耗子 //@文艺复兴记: 我遇到过一类典型的有问题的编写可测试代码的方法,例:实现一个Stack类。有人这样做:把Stack内部的数据结构(比如动态数组)暴露出来,然后分别写两个测试用例test_push和test_pop,每个测试用例都去检查Stack内部数据结构的状态。问题在哪里? [ [微博](http://www.weibo.com/5220650532/Bnys4axnX) ] + +> 2014-09-18 @reeze: Google员工写的:《编写可测的代码》 http://t.cn/RhSENMV 代码可测性非常重要,规模越大越重要,可测的程序可以更容易的编写更多的测试来保证代码的质量。 [ [微博](http://www.weibo.com/1548943797/BnxVP6DMx) ] + +2014-09-18 好东西 回复@blue_tracks: 论文PDF 链接有问题. 是否考虑放到 arxiv.org 这样方便别人引用,源代码是这个(不在master上)吗? http://t.cn/RhoADCF [ [微博](http://www.weibo.com/5220650532/Bnymun0FA) ] + +> 2014-09-18 @blue_tracks: NIPS投稿得到887高分,但是最后因为一个math typo被干掉,郁闷过后现在paper和实验配置都已公开。 idea极其简洁, 在中间层加入监督信息的架构可以适用于任何网络结构, 我们有理论和多个数据集的实验证明这种策略能够有效防止梯度发散,据说GoogLeNet今年也用了类似的想法 http://t.cn/Rhoz0BO @winsty [ [微博](http://www.weibo.com/1240701945/Bny5ShuSM) ] + +2014-09-18 特别推荐一本免费电子书: 微软研究院邓力和俞栋合写的“Deep Learning Methods and Applications” (2014) http://t.cn/RhoPwll 近200页篇幅对深度学习的方法和应用做了比较全面地综述。还有 @高杰_Speech 推荐 微软研究院出品C++开源Computational networks工具包 CNTK http://t.cn/Rhy4u3l [ [微博](http://www.weibo.com/5220650532/BnxSMyLB3) ] + +2014-09-18 哈哈, 原来是微软研究院出品 Computational Network Toolkit (CNTK) 俞栋 Dong Yu etc. "An Introduction to Computational Networks and the Computational Network Toolkit", Microsoft Technical Report, 2014. http://t.cn/RhSscXz //@liushengbing: 只支持windows的ML包真是第一次见 [ [微博](http://www.weibo.com/5220650532/BnxKrvfUY) ] + +> 2014-09-12 @高杰_Speech: 推荐新的Deep learning工具包 CNTK, http://t.cn/Rhy4u3l C++实现,CPU/GPU支持,DNN/CNN/RNN/LSTM,目前只支持windows [ [微博](http://www.weibo.com/2436946631/BmEk7BQfM) ] + +2014-09-18 不错 补充一下 ILSVRC2014 的日程上包括了各大参赛队15分钟报告幻灯片下载链接,还有各种讨论的东东 http://t.cn/RhSF13U //@潘炎_SYSU: 相应的论文链接在: http://t.cn/RhSdt1V [ [微博](http://www.weibo.com/5220650532/BnxIm4KOD) ] + +> 2014-09-18 @潘炎_SYSU: GoogleLeNet放出他们在ILSVRC 2014的slides了:http://t.cn/RhSdCVa [ [微博](http://www.weibo.com/1889275224/Bnxk2a7zQ) ] + +2014-09-18 问: @微热闹 请教是否有MAPREDUCE实现的PLSI算法 答: http://t.cn/RhSnzB7 先来三篇相关文章: UIUC “Parallel PLSI on Spark”, 清华“Parallel PLSA ...” 南大“P2LSA and P2LSA+: Two Paralleled Probabilistic Latent Semantic Analysis Algorithms Based on the MapReduce Model” 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BnwGrtAwU) ] + +2014-09-18 关于数据清理(Data Cleaning) 有一篇2000年的经典文章 "Data Cleaning: Problems and Current Approaches" http://t.cn/RhSE7LZ 该文综述了结构化数据中质量问题的分类和来源,并给出了相应例子。该文对了解当前大数据中"噪音”有一定指导意义。#抛砖引玉# 欢迎补充推荐好东西 [ [微博](http://www.weibo.com/5220650532/BnwznznUE) ] + +2014-09-18 问: 关于挖掘话题层级结构(topic hierarchy)的研究和应用? 答: http://t.cn/RhSTd26 早期有CAM模型(IJCAI'99), 近来有Blei基于"bayesian nonparametric inference"的工作, Berant的"entailment graph", 微软ProBase. Twitter用它分类(kdd'14). 认知科学看"How to Grow a Mind"(science'11) 欢迎指正 [ [微博](http://www.weibo.com/5220650532/BnvY6x7Oq) ] + +2014-09-17 #温故而知新# Gary Anthes (科普作家)的 Deep Learning Comes of Age 算是科普文章了,短短几页谈了深度学习过去与现状的要点,还推荐了一个不错的参考论文书单。正好 🚪 正在传送 深度学习入门资料 http://t.cn/RhaTq9c 该文应该被”录用“ 又 @自觉自愿来看老婆微博 也推荐该文 [ [微博](http://www.weibo.com/5220650532/BnoQ6ksvb) ] + +> 2013-05-30 @星空下的巫师: "A wave of excitement today comes from the application of unsupervised learning to deep neural nets." Deep Learning Comes of Age | June 2013 | Communications of the ACM http://t.cn/zH5EdjT [ [微博](http://www.weibo.com/1785748853/zz47bmU5h) ] + +2014-09-17 问:@聪Hit 有没有关于深度学习的。特别是针对初学者的一些文章。 答: 深度学习综述不乏大部头,如微软邓力等写的“Deep Learning Methods and Applications”。推些短文:"A Primer on Deep Learning" 科普入门, 基于python theano范例学习, 邓侃Deep Learning系列 资料 http://t.cn/RhaISCG 欢迎指正 [ [微博](http://www.weibo.com/5220650532/Bnnfrjm3x) ] + +2014-09-17 问:@vincent是正能量 有没有synonym mining的survy paper,以及比较核心的一些paper? 答: 问答资料 http://t.cn/Rha5DJE Wordnet synset 人工构造了同义词(synonym)集合, 自动方法通常依靠语义相关分析(semantic similarity) 微软有相关项目, 我们有技术资料整理贴 http://t.cn/Rha5DJR [ [微博](http://www.weibo.com/5220650532/BnmMGBraU) ] + +2014-09-17 [专题] 主题模型 工具推Gensim和LDAvis http://t.cn/RhabYR5 理论部分推荐 @52nlp 的《如何计算两个文档的相似度》@rickjin 的《LDA数学八卦》@Copper_PKU 的《Probabilistic Topic Model》和 沈志勇 的《主题模型简介》http://t.cn/RhabYRt 研究前沿推Twitter和Google的实战 http://t.cn/RhabYRc [ [微博](http://www.weibo.com/5220650532/BnmjIC2Tr) ] + +2014-09-17 [专题] 主题模型 工具推Gensim和LDAvis http://t.cn/RhabYR5 理论部分推荐 @52nlp 的《如何计算两个文档的相似度》@rickjin 的《LDA数学八卦》@@Copper_PKU的《Probabilistic Topic Model》和 沈志勇 的《主题模型简介》http://t.cn/RhabYRt 研究前沿推Twitter和Google的实战 http://t.cn/RhabYRc [ [微博](http://www.weibo.com/5220650532/Bnmjn3rmn) ] + +2014-09-16 Luke现在是Google Product Director 关心手机平台Ux设计地同学们可以下载资料了,PDF有78页 http://t.cn/zQan8tv //@DataMooc: //@developerWorks: 这个很不错,LukeW 大神的 Blog 是长期订阅的,推荐。PDF 下载地址: http://t.cn/RhXST8L [ [微博](http://www.weibo.com/5220650532/Bnh75kMAe) ] + +> 2014-09-16 @英特尔XDK: Luke Wroblewski 大神正式的把他从 2012-2014年写的关于 #Mobile Design# 的文章整理成了 iBook 和 PDF 发布了,大家可以从他的网站上得到下载链接 http://t.cn/RhXVIlD。您也可以从 @英特尔开发人员专区 来了解他的文章和视频 http://t.cn/RhXVIlk [ [微博](http://www.weibo.com/5075403624/Bng3ijjEq) ] + +2014-09-16 转发理由:深度学习在分词等领域的应用。论文PDF http://t.cn/RhX2U9t HTML版 http://t.cn/RhX2U95 [ [微博](http://www.weibo.com/5220650532/Bnf4S6g8I) ] + +> 2014-09-15 @裴文哲: 终于找到了 http://t.cn/Rh6GFMi 我在ACL2014的oral presentation: Max Margin Tensor Neural Network for Chinese Word Segmentation 介绍了Deep Learning在序列标注任务中的新模型 slides做的略挫 希望大牛们轻喷 [ [微博](http://www.weibo.com/2110794314/Bn8SNfgHJ) ] + +2014-09-16 转发理由:依存文法分析对于关系提取,问答系统和知识图谱建设都有突出价值,而且速度较快。 [ [微博](http://www.weibo.com/5220650532/BneFP04pJ) ] + +> 2014-09-16 @李正华NLP: 我们这次在coling 2014上做的题为“Dependency Parsing: Past, Present, and Future”的tutorial slides已经整理好并放在我的主页上:http://t.cn/RhXvXVn,请大家多提宝贵意见,欢迎讨论交流。 [ [微博](http://www.weibo.com/1890969215/BnevukUcc) ] + +2014-09-16 回复@海中的沙粒: 发这个好东西时有点纠结,很多人见过,也有很多人没见过。但是作为数据,它的价值的确高,第一省得去翻统计年鉴,第二 CSV很容易导入Excel,python,matlab, R, 省了不少数据清理时间 (转就是收藏,不论你是不是 @ 谁的印象笔记 ) //@海中的沙粒:好像转过,再转一次吧,嘿嘿,反正 [ [微博](http://www.weibo.com/5220650532/BneyPc0Qp) ] + +> 2014-09-16 @好东西传送门: 推荐 @新浪财经 "中国宏观经济数据" http://t.cn/Rh6us2R 涵盖: 国民经济, 价格指数, 居民收入, 固定资产投资, 景气指数, 对外经济贸易, 金融信息, 国家财政, 行业信息。有图表且数据可CSV导出。轻松解决问题189 我国CPI和货币供应量M2 M1 M0月度环比数据 http://t.cn/Rh6HucY [ [微博](http://www.weibo.com/5220650532/Bndsqh1hJ) ] + +2014-09-16 读综述帮助了解领域,写综述展示对领域的掌握程度。找文献时要聚焦在目标课题下,避免贪多求全或者枝蔓。 高质量的例子可以参考计算机领域的综述期刊(ACM Computing Survey) 附DBLP的每期链接 http://t.cn/Rh6rH83 //@陆浑戎: 转发微博 [ [微博](http://www.weibo.com/5220650532/BndSKAQj8) ] + +> 2014-09-15 @传媒老跟班: 【文献综述】文献综述的写法http://t.cn/Rh6onsx;本科毕业论文如何撰写文献综述?http://t.cn/zHKQB8G;如何写文献综述?http://t.cn/zHKQB8b;克雷斯威尔五步文献综述法http://t.cn/Rh6onsa;社会科学研究中的文献综述:原则、结构和问题http://t.cn/zHKQB8q,供大家参考。 [ [微博](http://www.weibo.com/5198011111/BnapLe2fO) ] + +2014-09-16 转发理由:包括n-gram,带Freebase标注的8亿文档, Wikilinks 4000万页面链接标注,人工标注的wikipedia公众人物到Freebase映射, 3900万Wikipedia Infobox编辑历史,词与实体的映射 [ [微博](http://www.weibo.com/5220650532/BndMfgjn7) ] + +> 2014-09-15 @龙星镖局: Google近年来发布的有关文本挖掘、自然语言处理的数据集。http://t.cn/z8sMlZv [ [微博](http://www.weibo.com/1830516311/Bn7Q3zieO) ] + +2014-09-16 问: @海中的沙粒 点餐,介绍Matlab的入门级编程语言的书,电子文献,或者网页类 答: 任选一个套餐用最快速度翻完掌握全局,具体细节使用时再读。资料汇总 http://t.cn/Rh63woo 有18页的短教程,MIT的5节课讲义,Rutgus经济系博士的讲义。此外大餐看官方手册"Matlab Primer" [ [微博](http://www.weibo.com/5220650532/BndHDcwWV) ] + +2014-09-16 推荐 @新浪财经 "中国宏观经济数据" http://t.cn/Rh6us2R 涵盖: 国民经济, 价格指数, 居民收入, 固定资产投资, 景气指数, 对外经济贸易, 金融信息, 国家财政, 行业信息。有图表且数据可CSV导出。轻松解决问题189 我国CPI和货币供应量M2 M1 M0月度环比数据 http://t.cn/Rh6HucY [ [微博](http://www.weibo.com/5220650532/Bndsqh1hJ) ] + +2014-09-16 问: @国产_小翁:能不能帮我找到HMAX模型的matlab源码? 答: 资料汇总 http://t.cn/Rh69oet HMAX ("Hierarchical Model and X") 是Poggio于1999年提出的概念, 用于解决(Object recognition)的多层次神经网络。Poggio的MIT实验室CBCL在Google code有纯matlab源码 欢迎指正 [ [微博](http://www.weibo.com/5220650532/Bndd4cmz5) ] + +2014-09-16 要不搜索一下,用这个关键词 win7 library-ms fix 找到相关的问答 http://t.cn/Rh6juZn http://t.cn/Rh6juZm 更多相关结果看这里 http://t.cn/Rh6juZE 此外可以直接问微软 @微软中国 [ [微博](http://www.weibo.com/5220650532/BnbJ2h4gS) ] + +> 2014-09-15 @举头三尺有大神: 求助各位大神@好东西传送门 @破破的桥 @林楚方 。win7库出现这种情况。不能打开,不能新建,还原默认还是无法解决。 [ [微博](http://www.weibo.com/2809984842/Bn8VQnsUW) ] + +2014-09-16 如果你注了NIPS ,这个workshop就不另外收费了,看注册页 http://t.cn/Rh696S3 //@duinduin:要另外注册么? //@好东西传送门:Automated Knowledge Base Construction (AKBC) 2013 http://t.cn/Rhi9Tr5 2014年的和NIPS一起开,期待! //@昊奋: AKBC算是一个引领知识库构建的专题workshop。推荐的这 [ [微博](http://www.weibo.com/5220650532/BnazMCYTf) ] + +> 2014-09-15 @小飞鱼_露: @好东西传送门 想问下身边有没有了解知识图谱 (knowledge graph) 的大神,能否推荐一些文章和教程? [ [微博](http://www.weibo.com/1761583707/Bn4ljd4QQ) ] + +2014-09-15 //@算文解字:5. 这哥们很能掰,而很多章节分别阐述了他对人工智能、医疗科技、清洁能源、90年代互联网历史、融资甚至帝王之术的独特看法。很多地方只是略略扫了一眼,总感觉是可读性很强。原始Note: http://t.cn/zYvtV0F 最近已经整理成书“Zero to One” @好东西传送门 前两天推荐过 [ [微博](http://www.weibo.com/5220650532/BnahOEAAQ) ] + +> 2014-09-15 @算文解字: 1 昨天读了Peter Theil CS183的笔记。他认为从0到1的过程是一个发现只有少数人才掌握的真相,即#秘密#的过程。简单的早被发现,变为常识应用在从1到n的复制阶段,而无解的秘密则毫无价值,因此需要找中等难度但可解的秘密。他提到的秘密有垄断、幂律、渠道的重要性以及元秘密:世界上仍有很多秘密。 [ [微博](http://www.weibo.com/1884715211/Bn9gN4EYh) ] + +2014-09-15 Automated Knowledge Base Construction (AKBC) 2013 http://t.cn/Rhi9Tr5 2014年的和NIPS一起开,期待!//@昊奋: AKBC算是一个引领知识库构建的专题workshop。推荐的这个paper算是一个比较有指导性意见的文章,推荐! [ [微博](http://www.weibo.com/5220650532/Bn4YS4wfC) ] + +> 2014-09-15 @小飞鱼_露: @好东西传送门 想问下身边有没有了解知识图谱 (knowledge graph) 的大神,能否推荐一些文章和教程? [ [微博](http://www.weibo.com/1761583707/Bn4ljd4QQ) ] + +2014-09-15 这个和昨天推荐的entity linking的两个教程结合看最佳 http://t.cn/RhiS9gW 。RPI Heng Ji出品 //@Copper_PKU: 我推荐一个reading list: http://t.cn/8FqFegC 不知道有人推荐过没有 这个主页很不错//@好东西传送门: 在我们的github主页上搜“知识图谱” http://t.cn/RhiX0pi [ [微博](http://www.weibo.com/5220650532/Bn4Iwe0wd) ] + +> 2014-09-15 @小飞鱼_露: @好东西传送门 想问下身边有没有了解知识图谱 (knowledge graph) 的大神,能否推荐一些文章和教程? [ [微博](http://www.weibo.com/1761583707/Bn4ljd4QQ) ] + +2014-09-15 在我们的github主页上搜“知识图谱” http://t.cn/RhiX0pi 有不少以前的问题了。专家推荐 @昊奋 @孙明明_SmarterChina @Gary南京 @李志飞AI 还有去年第一届全国中文知识图谱研讨会的嘉宾 http://t.cn/8k2VD2H 该网页还有很多PPT [ [微博](http://www.weibo.com/5220650532/Bn4y7coge) ] + +> 2014-09-15 @小飞鱼_露: @好东西传送门 想问下身边有没有了解知识图谱 (knowledge graph) 的大神,能否推荐一些文章和教程? [ [微博](http://www.weibo.com/1761583707/Bn4ljd4QQ) ] + +2014-09-15 问: @秦彦霞_HIT 求教,哪里有大规模Twitter数据(只包含tweet即可,最好billion级别)可在文章中引用或致谢。 答:资料汇总 http://t.cn/RhiIgsl Archiveteam 2012至2014每月都有几十G的tweet JSON数据。此外 数据堂、snap和nist也有数据 @kite1988 @齐浩亮 提供了资料, 参考twitter专家 @AixinSG [ [微博](http://www.weibo.com/5220650532/Bn3USp5oO) ] + +2014-09-14 谢谢补充,ACL2014 A tutorial on Wikification and Entity Linking http://t.cn/RhJHk2Q 是个203页的PPT //@唐都钰HIT-SCIR: 还有今年ACL. Dan Roth. Heng ji 的tutorial [ [微博](http://www.weibo.com/5220650532/BmYLL8mDL) ] + +> 2014-09-14 @好东西传送门: @昊奋 推荐:Edgar Meij (Yahoo Labs)的Entity Linking and Retrieval教程。该教程最早在WWW 2013做过,深受好评,后来在SIGIR 2013, WSDM 2014不断更新。这组是今年6月最新的在Montreal做的版本,分为实体链接,实体检索和语义搜索三部分 http://t.cn/RhJHfzc [ [微博](http://www.weibo.com/5220650532/BmYGPj6rK) ] + +2014-09-14 @昊奋 推荐:Edgar Meij (Yahoo Labs)的Entity Linking and Retrieval教程。该教程最早在WWW 2013做过,深受好评,后来在SIGIR 2013, WSDM 2014不断更新。这组是今年6月最新的在Montreal做的版本,分为实体链接,实体检索和语义搜索三部分 http://t.cn/RhJHfzc [ [微博](http://www.weibo.com/5220650532/BmYGPj6rK) ] + +2014-09-14 问: @Joyce-Yuan- 对于拼写错误(real-word error) 求中文类似资料? 答: 详见 http://t.cn/RhJSrlc 拼写错误分non-word和real-word, 中英文难点不同。SIGHAN7的Bake-off 2013: Chinese Spelling Check 有很多论文(十月CLP14在武汉开), 英文spelling correction看Peter Novig 07年文章(21行python实现) [ [微博](http://www.weibo.com/5220650532/BmXdqD5Eh) ] + +2014-09-13 问: @V井颠V 对国内中长文章(300~5000字)近似新闻门户网站频道粒度的自动分类,有好的模型方法? 答: 资料整理 http://t.cn/Rhx4dAf 考虑statistical topic model, 推荐UIUC翟成祥短教程 http://weibo.com/5220650532/BhWo26Y93 ,软件包Gensim,Mallet,Stanford; kdd14有twitter分类好文 欢迎补充 [ [微博](http://www.weibo.com/5220650532/BmNjFtkeg) ] + +2014-09-13 问: @钱知易 帮我找找Berkeley detector(边缘检测)的代码(C++,Matlab) 答:资料整理 http://t.cn/RhMkEbD 是Michael Maire的工作 “Contour Detection and Image Segmentation"(CVPR2011) , 找到他们组的原始代码(gPb),还有Hyunho Lee的改进算法(gPb-junctions) 卡片盒子 http://t.cn/RhMkEbe [ [微博](http://www.weibo.com/5220650532/BmLNZ10CR) ] + +2014-09-13 问: 求助关于统计学方面的入门知识,主要是写企业上报数据,我们收集整理完数据之后以样本信息推断总体情况,并分析和推测总体的特征和规律 答: 相关资料 http://t.cn/RhMDApx * http://t.cn/hrmAiI 中国统计网, 从excel开始 * http://t.cn/hbvjNH 统计学知识社区, 侧重R @统计之都 @陈茁博士_Adam [ [微博](http://www.weibo.com/5220650532/BmLDph6KB) ] + +2014-09-13 回复@波多野丽猪: 多谢补充 http://t.cn/RhMe2Pp Fuseki: serving RDF data over HTTP //@波多野丽猪:一般python的话用sparql wrapper是ivan herman他们弄的,比较靠谱;其实假如有了一个endpoint,用fuseki里面sparql on http调用也可以,当然需要关联上fuseki的jar, [ [微博](http://www.weibo.com/5220650532/BmLwarUeq) ] + +> 2014-09-13 @好东西传送门: 问: @扛着甘蔗 有没有python访问使用dbpedia,freebase,等这些知识库查询的demo? 答: stackoverflow 有相关例子,找了一些相关资源 http://t.cn/RhMdlpG 有一个用freebase实现entity linking的例子 Quepy有例子展示如何将自然语言问题转化为数据库查询 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BmLjK6gVv) ] + +2014-09-13 常见的语音算法phonetic algorithm就是设定一组规则,将文字映射到某种音标符号系统。例如最原始的Soundex算法 扔掉所有元音,映射 b, f, p, v → 1 然后通过比较映射后符号串的差异来计算发音相似度。原帖中的脑图列举了常见英语(及德语)映射算法以及相关开源代码(python, java, go, ruby, perl) [ [微博](http://www.weibo.com/5220650532/BmLqi92Vx) ] + +> 2014-09-11 @好东西传送门: 问:@付超群 不知道有没有中文发音相似度计算算法或者类库?比如北京 百斤 鼻颈 背景 如果可以顺道比较英文更好,比如peking,beking 答: 关于算法和开源代码整理了一个 #脑图#,问答进展和相关资料在 http://t.cn/Rhf5xio 还收录了一些相关论文(含汉语) 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BmsMAeh0K) ] + +2014-09-13 可以结合以前推荐的图数据库专题看 http://t.cn/RhMgVCF [ [微博](http://www.weibo.com/5220650532/BmLpwdOXs) ] + +> 2014-09-13 @西瓜大丸子汤: 赞OrientDB,超级方便灵活,JSON进,SQL出,随时可以改数据结构,即使不做图计算也有用。MySQL, ElasticSearch, MongoDB, Neo4j, Redis一圈下来,还是OrientDB最符合我的需要,表达力最好,学习成本最低。速度OK不算最好,不过机器速度根本不是系统瓶颈,而且有很多优化的办法。 http://t.cn/RhMgLvG [ [微博](http://www.weibo.com/1932835417/BmLo6bLIV) ] + +2014-09-13 问: @扛着甘蔗 有没有python访问使用dbpedia,freebase,等这些知识库查询的demo? 答: stackoverflow 有相关例子,找了一些相关资源 http://t.cn/RhMdlpG 有一个用freebase实现entity linking的例子 Quepy有例子展示如何将自然语言问题转化为数据库查询 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BmLjK6gVv) ] + +2014-09-13 推荐一个很惊艳的免费图库列表(来自wikimedia):很多public domain图片库完全免费没有版权问题,还有不少基于知识共享许可(creative commons)的免费图片库 http://t.cn/RhMu3GQ 内容包罗万象:生物,科学,历史,天文,地图,各国风情,艺术,体育... 有的图库有上千万张图片。附图为长微博级目录 [ [微博](http://www.weibo.com/5220650532/BmKnCgD1s) ] + +2014-09-13 传送理由:人工智能资源库 3000+资源,12个分类,根据喜好,点击率排序 //@王海勋haixun: 转发微博 [ [微博](http://www.weibo.com/5220650532/BmJ7XfW8r) ] + +> 2014-09-12 @BoxingChen: 开源工具和开放的数据越来越多,口碑如何?怎么选择呢?open AI Resource http://t.cn/RhMCIKC 收集了AI领域的很多工具和数据,分类让大家点赞和评论。机器学习领域暂时获赞领先的工具是libsvm,NLP领域的是斯坦福POS tagger。去那找你需要的open source,也去那为你喜欢的,或自己的工具点个赞吧。 [ [微博](http://www.weibo.com/1767949300/BmHFV4Te9) ] + + + +2014-09-13 传送: Searchable full-text transcripts of WWDC sessions (2010-2014)音频转字幕,全文检索所有录像发言 [ [微博](http://www.weibo.com/5220650532/BmIenexms) ] + +> 2014-09-12 @容芳志: 每年Apple WWDC大会的keynote和课程文字版都在这里,整理的太好了,忍不住分享: http://t.cn/z8exsaz [ [微博](http://www.weibo.com/1776143133/BmCBXyoqs) ] + +2014-09-12 讨论得很热闹, github几十楼整理了相关资料: entity linking/extraction/resolution, relation extraction; 咱还时光逆流传送了几个去年相关微博到评论里,尤其是李志飞那条里有不少高人评论,千万别错过。有没有人讲讲 michael jordan 'full merger of "data" and "knowledge"' http://t.cn/RhMwimZ [ [微博](http://www.weibo.com/5220650532/BmEOb3aqm) ] + +> 2014-09-12 @好东西传送门: 代人请教: #语义识别包含哪些关键技术# ? 咱先推荐 @白硕SH 老师近日的访谈《语义技术探索》阐述了相关基本概念 http://t.cn/RvWEZdm 请各位专家帮忙梳理思路、推荐入门资料 @刘群MT-to-Death @刘知远THU @52nlp @孙明明_SmarterChina @昊奋 @波多野丽猪 我们会把相关资料更新到 http://t.cn/RhICLfS [ [微博](http://www.weibo.com/5220650532/BmBEvzLES) ] + +2014-09-12 一点拙见,计算机在一些领域已经做得比人好了;而人对自然语言处理期望更高一些, 图灵测试 和 人脸识别 哪个难度更大?顺路给个文字版传送门 http://t.cn/RhMZVIV //@xierqi: 没想到Jordan对text一直这么有兴趣。抛开Deep Learning不讲,当前计算机对text的理解能力是否比image、vision要好不少? [ [微博](http://www.weibo.com/5220650532/BmEHn5jwn) ] + +> 2014-09-11 @王海勋haixun: Someone asked Michael Jordan if he's to lead a research project with 1 billion dollar funding, what will he do? Here is his answer. [ [微博](http://www.weibo.com/2083726665/BmyEhvaCd) ] + +2014-09-12 这本书还没上市呢,还没有电子书。着急的同学可以先看Blake Masters 的笔记 http://t.cn/zYvtV0F Notes Essays—Peter Thiel’s CS183: Startup—Stanford, 2012 顺路科普一下 Peter Thiel, Paypal 的联合创始人,facebook的天使投资人 http://t.cn/RhMhPTs [ [微博](http://www.weibo.com/5220650532/BmEoXfLhN) ] + +> 2014-09-12 @好东西传送门: 推荐Peter Thiel新书《Zero to One: Notes on Startups, or How to Build the Future》(9月16日才出版) http://t.cn/RhMPClT 基于他2012年CS183课的讲义。有人预读后赞了他的三个观点: 创始人要追求垄断, 用破坏性创新参加市场竞争不如开发新市场, 对精益创业的反思。咱做了个脑图(水平有限,欢迎指正) [ [微博](http://www.weibo.com/5220650532/BmEmhug9C) ] + +2014-09-12 推荐Peter Thiel新书《Zero to One: Notes on Startups, or How to Build the Future》(9月16日才出版) http://t.cn/RhMPClT 基于他2012年CS183课的讲义。有人预读后赞了他的三个观点: 创始人要追求垄断, 用破坏性创新参加市场竞争不如开发新市场, 对精益创业的反思。咱做了个脑图(水平有限,欢迎指正) [ [微博](http://www.weibo.com/5220650532/BmEmhug9C) ] + +2014-09-12 问: @波多野丽猪 有没有人了解建立partial order lattice的算法? 应该是Formal Concept Analysis(FCA)的东西。我有一堆logical term set, 想要建立一个关于set subsumption的lattice 答: FCA很相关 http://t.cn/RhIE0Sy 推荐Poelmans等的综述(分析了一千多论文) 并参考association rule 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BmD42j7k0) ] + +2014-09-12 要专注、要市场驱动 “an eighth waste was... manufacturing goods or services that do not meet customer demand or specifications.” http://t.cn/RhIjiTc //@张颖峰: 我倒是觉得这本书更容易给一些没头脑的创业者以快速迭代为借口连续不断试错,最后反而忘了自己要做什么,从而导致更大的浪费。 [ [微博](http://www.weibo.com/5220650532/BmCsnmc20) ] + +> 2014-09-12 @好东西传送门: 从 #精益生产# 到 #精益创业# 《精益创业》是近年很火的创业手册, 其核心理念是:快速迭代,减少浪费,避免不必要的开发。作者Eric Ries的观点来自#工业工程#书籍。他吸收了丰田lean manufacturing的成功经验:用最少工作创造价值, 尽可能降低浪费 - 例如著名的零库存思想. 书单 http://t.cn/RhICRq5 [ [微博](http://www.weibo.com/5220650532/BmBK1rnHP) ] + +2014-09-12 从 #精益生产# 到 #精益创业# 《精益创业》是近年很火的创业手册, 其核心理念是:快速迭代,减少浪费,避免不必要的开发。作者Eric Ries的观点来自#工业工程#书籍。他吸收了丰田lean manufacturing的成功经验:用最少工作创造价值, 尽可能降低浪费 - 例如著名的零库存思想. 书单 http://t.cn/RhICRq5 [ [微博](http://www.weibo.com/5220650532/BmBK1rnHP) ] + +2014-09-12 代人请教: #语义识别包含哪些关键技术# ? 咱先推荐 @白硕SH 老师近日的访谈《语义技术探索》阐述了相关基本概念 http://t.cn/RvWEZdm 请各位专家帮忙梳理思路、推荐入门资料 @刘群MT-to-Death @刘知远THU @52nlp @孙明明_SmarterChina @昊奋 @波多野丽猪 我们会把相关资料更新到 http://t.cn/RhICLfS [ [微博](http://www.weibo.com/5220650532/BmBEvzLES) ] + +2014-09-12 问:求Morden Japanese Society Study资料文献, 最好economy相关 答:http://t.cn/RhIoU0o《菊与刀》(The Chrysanthemum and the Sword)和《纵式社会的人际关系》(タテ社会の人間関係)都是研究日本近代社会(自明治维新起)的经典著作。《A Short Economic History of Modern Japan》300+学术引用 [ [微博](http://www.weibo.com/5220650532/BmB8tzbaE) ] + +2014-09-12 [赞]补充《GPU高性能编程CUDA实战》豆瓣书评 http://t.cn/htUpV0 pdf网上有 [ [微博](http://www.weibo.com/5220650532/BmzhXfaOu) ] + +> 2014-09-12 @Rachel____Zhang: 感谢某童鞋推荐CUDA Application Design and Development,看了目录和开头一章,感觉和《GPU高性能编程CUDA实战》结合起来看会收获更快[嘻嘻]代码在这里http://t.cn/RhIt1JA [ [微博](http://www.weibo.com/2607574543/Bmz3lvXTZ) ] + +2014-09-11 谢谢指正,是我们理解有误。那四本也是博士级的,向大家道歉🙇 //@王树森CS: 同意右边。除了第1本,其余根本不是入门的,我不知道微博上的人有几个能看得懂而且会去看。发这个东西的人要么不懂,要么骗粉。//@梁斌penny: 书看了,再把试验做一遍,我估计怎么也得需要4-5年。 [ [微博](http://www.weibo.com/5220650532/BmvfRfWTw) ] + +> 2014-09-11 @好东西传送门: #机器学习# 大牛Michael Jordan教授(Andrew Ng的博士导师) 近日在Reddit上推荐的书单。以前的书单12本针对有志于在机器学习领域奉献青春的博士生,这次新推荐了4本覆盖基础概念图书,帮助工业界读者在几个月内理解概念然后出活 。书单看这里 http://t.cn/RhfxqAz 卡片盒子 http://t.cn/RhfxqA7 [ [微博](http://www.weibo.com/5220650532/BmtoM2jCK) ] + +2014-09-11 赞王益的博客 注意未公开的“Google Rephil"//@丕子: 嗯,王益之前一blog分析了这个: http://t.cn/RhfXqBu , 另外Google PLDA+有10K topics, Rephil有100K,Peacock有1000K topics..//@lib_ustc: 对,训练出来的topic中的概率主要还是集中在高频信息上,对长尾描述较弱//@丕子: 长尾信息丢失太多了 [ [微博](http://www.weibo.com/5220650532/BmuiNg9dC) ] + +> 2014-09-11 @大山坡的春: 今天Jimmy Lin表示他在twitter的时候把topic models都试过了,没有一个work的~然后说,我告诉你个只有ir圈子里的人才晓得的topic model的毛病。。。#强迫症都没救了 @仙人掌不浇水 @丕子 [ [微博](http://www.weibo.com/1653082237/Bmtr4a69Q) ] + +2014-09-11 [笔记]Michael Jordan论#深度学习# http://t.cn/RhfoAhi 1. layer,parallel,ensemble有用,不能限于模拟人脑思维 2. backpropagation是关键, 本质是supervised learning 3. 很多成功案例是大规模样本+监督学习 4. 很少用在工业界咨询,不少其它问题(7个例子) 5. 机器学习要接近system与数据库, 远离AI [ [微博](http://www.weibo.com/5220650532/BmtY3eXDx) ] + +2014-09-11 #机器学习# 大牛Michael Jordan教授(Andrew Ng的博士导师) 近日在Reddit上推荐的书单。以前的书单12本针对有志于在机器学习领域奉献青春的博士生,这次新推荐了4本覆盖基础概念图书,帮助工业界读者在几个月内理解概念然后出活 。书单看这里 http://t.cn/RhfxqAz 卡片盒子 http://t.cn/RhfxqA7 [ [微博](http://www.weibo.com/5220650532/BmtoM2jCK) ] + +2014-09-11 择日不如今日: Statistics With Ruby: Time Series and General Linear Models http://t.cn/RhffVQ3 问答166 http://t.cn/RhffVQu [ [微博](http://www.weibo.com/5220650532/Bmt9bsMDN) ] + +> 2014-09-11 @2gua: 其实,我一直希望哪一天能用Ruby进行数据分析,stats with Ruby......哪一天,哪一天......[doge] [ [微博](http://www.weibo.com/1609119537/Bmt7v95Fn) ] + +2014-09-11 问:@付超群 不知道有没有中文发音相似度计算算法或者类库?比如北京 百斤 鼻颈 背景 如果可以顺道比较英文更好,比如peking,beking 答: 关于算法和开源代码整理了一个 #脑图#,问答进展和相关资料在 http://t.cn/Rhf5xio 还收录了一些相关论文(含汉语) 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BmsMAeh0K) ] + +2014-09-11 #夜读春秋# GDP与汇率数据是经济、金融研究的基本盘! (数据资源整理: http://t.cn/RhVDKg5 ) 1.世界银行的全球各国GDP(1983-2013)http://t.cn/hFsNY 2. 美联储汇率数据(H.10): http://t.cn/RhVDKgq (1996-2014) 3. 那台北的GDP呢? http://t.cn/RhVgFWl ,http://t.cn/zOMb9mJ [ [微博](http://www.weibo.com/5220650532/Bmpx29PN5) ] + +2014-09-10 #NLP# 诸君,"城市规划" 领域词表来了, 还等什么呢? 数据传送门 http://t.cn/RhVVYBk 感谢 @国际城市规划 //@规划中国: //@国际城市规划: 编撰词典对我等难度太大,欢迎有缘人慢慢加入积累 http://t.cn/RhVcLWx //@城规田宝江: 好想法!//@中大袁媛: 可以出版一本专业英语的词典或教材 [ [微博](http://www.weibo.com/5220650532/Bmm8O31VG) ] + +2014-09-10 #机器学习# 领域大牛 Michael Jordan 是Andrew Ng的博士导师,擅长 recurrent neural networks , Bayesian nonparametric analysis, probabilistic graphical models, spectral methods, kernel machines 机会难得有问题赶紧上Reddit上问,http://t.cn/aOioBZ [ [微博](http://www.weibo.com/5220650532/Bmm3VbIR5) ] + +2014-09-10 问: @chico2011 @leo_lq 求推荐金融交易风险评估方面的文献 答: 资源列表 http://t.cn/RhVqWuZ 金融风险管理领域全局观参见 Financial Institutions Management: A Risk Management Approach (沃顿学院教科书)。量化评估方法(含风险价值 VaR)有2011年综述, 此外咱做了个VaR相关概念的脑图 请补充指正 [ [微博](http://www.weibo.com/5220650532/BmlXxt5hC) ] + +2014-09-10 张天雷 《概率编程语言与贝叶斯方法实践》 //@小猴机器人: 来,给个中文介绍哈, http://t.cn/RPwbEPz [ [微博](http://www.weibo.com/5220650532/BmkyPihT4) ] + +2014-09-10 加进列表了 pdf传送门 http://t.cn/RhcFi0l //@诸神善待民科组: 图是种方法Method,不是模型 Model,没说到 Bayesian Reasoning and Machine Learning 真是不开心,这比 Koller 的 PGM 好读,好处是图多,我就喜欢看图说话的小二班 [ [微博](http://www.weibo.com/5220650532/BmkxhgVMr) ] + +2014-09-10 [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] + +2014-09-10 US News 全美大学排名数据集: 新鲜出炉2015年排名前150的综合大学(national university)和文理学院(national liberal art college) . 资源列表 http://t.cn/RhcYKC2 包括1983-2007, 2008, 2009, 2010, 2011-2015 数据,应该比较全了. 欢迎补充 [ [微博](http://www.weibo.com/5220650532/BmizVr1sS) ] + +2014-09-10 DBPedia 2014: 458万东西: 144万人, 73万地点, 41万作品(含12万音乐专辑, 8.7万电影,1.9万视频游戏), 24万组织(含5.8万公司,4.9万教育机构), 25万物种等 [ [微博](http://www.weibo.com/5220650532/BmizMhrjB) ] + +2014-09-09 http://t.cn/zOpIrjJ 中文语言资源联盟,英文译名Chinese Linguistic Data Consortium,缩写为CLDC, 有少数民族语言,方言数据 //@龙星镖局:有专门放入方言的nlp研究 吗?@白硕SH 老师 //@殆知阁:转发微博 [ [微博](http://www.weibo.com/5220650532/BmcCdeWno) ] + +2014-09-09 好东西 ,向 迷渡 justjavac (索引的作者)致敬! 顺路推荐一下他的另一个工作 "Google 全球 IP 地址库" , http://t.cn/RvabGv5 //@justjavac: 我说今天怎么收到好多私信呢,原来根源在这儿啊。//@CSDN_CODE:Mark! [ [微博](http://www.weibo.com/5220650532/BmcoO4bqA) ] + +2014-09-09 找到一组相关测试数据集(VAST challenge 2003-现在),基本上就是用户利用可视化工具,根据特定需要分析大规模业务数据,继而推理验证猜想。 例如分析预测恐怖袭击,发现金融犯罪嫌疑人,有一篇总结文章值得一读: http://t.cn/Rhtmw01 [ [微博](http://www.weibo.com/5220650532/BmbO4EuMd) ] + +2014-09-09 问: @海中的沙粒 点餐,我想要更多关于可视分析学的资料? 答: 可视分析学(Visual Analytics) 利用可视化方法支持对大规模复杂(科学)数据的人机协同分析推理。问答进展收录: 经典, 综述, 社区, 会议等资源 http://t.cn/Rht6xF8 看附图, 一分钟理解其定位、原理以及跨学科特性。 [ [微博](http://www.weibo.com/5220650532/BmbGkaI7Z) ] + +2014-09-09 问:@_绝影_ 求助 刚开始做图像融合相关领域研究,请问有哪些大牛? 答:进展 http://t.cn/RhqD63F 图像融合(Image Fusion)在计算机视觉(computer vision), 遥感(remote sensing)和医学图像(Medical Image)上都有应用,可追踪会议IPCV,ICIFE, 期刊IJCV 及综述。大牛欢迎专家传送 [ [微博](http://www.weibo.com/5220650532/Bm9jvfke6) ] + +2014-09-09 转发理由:开放政府数据。另外推荐RPI的 Linking Open Government Data,收录了1800多个数据集,100亿RDF三元组 http://t.cn/RhtMeAj [ [微博](http://www.weibo.com/5220650532/Bm8UryKa7) ] + +2014-09-09 #夜读春秋# 最近JWT(JSON Web Token,是一种基于JSON的认证安全协议)势头很火,这里找了一个48页的幻灯片,帮你快速了解这些概念的含义,并提供一定全局观 http://t.cn/Rht40uL 该作者(Brian Campbell)还有一个更新的幻灯片讲JWT和JOSE http://t.cn/Rht40uw [ [微博](http://www.weibo.com/5220650532/Bm6KQB6nM) ] + +2014-09-08 @phunter_lau 推荐了 Peter Norvig的regex生成器 http://t.cn/8FGNh2J http://t.cn/8FnLiON @孙明明_SmarterChina 推荐了Bartoli等基于遗传算法的实现 http://t.cn/zlmNYLJ @布尔乔亚之犬 推荐了SO上一个很好的讨论贴 http://t.cn/Rh5H2za [good] [ [微博](http://www.weibo.com/5220650532/Bm2SOaRyu) ] + +2014-09-08 黄昌宁 赵海 《中文分词十年回顾 》http://t.cn/Rh5Xe3S //@龙星镖局: 有个 中文分词十年 孙老师搜一下 [ [微博](http://www.weibo.com/5220650532/Bm1jmwaCk) ] + +2014-09-07 Tomas Mikolov http://t.cn/Rhq2QVU 很有意思。0.1c版更新等了近九个月,恐怕是跳槽耽误的。他今年5月从Google跳到Facebook, 工作之余还努力维护word2vec开源代码。爱看源代码的可以直接读diff http://t.cn/Rhq2QVZ [ [微博](http://www.weibo.com/5220650532/BlRmn38uo) ] + +2014-09-06 问: @V井颠V 对国内中长文章(300~5000字)近似新闻门户网站频道粒度的自动分类,有好的模型方法吗? 答: 进展 http://t.cn/RhGTzfI 考虑 statistical topic model, 推荐UIUC翟成祥 ( http://weibo.com/5220650532/BhWo26Y93 ) , Stanford 和Umass 都有软件包 国内工作欢迎补充 [ [微博](http://www.weibo.com/5220650532/BlMR9kjJ7) ] + +2014-09-06 感谢推荐,当然是好东西! //@尘绳聋-SYSU: 那个网站还有个R for big data: http://t.cn/zHXfTF1 之前看人推荐过biglm, bigrf等pkg//@尘绳聋-SYSU: [晕] 传说wiseRF比sklearn里的RF更scale更快,不知道是不是真的[威武] [ [微博](http://www.weibo.com/5220650532/BlMJyCoRe) ] + +2014-09-06 非常感谢,这本书是亚马逊的Computer Vision类畅销书第一名 卡片盒子添加了新链接 //@维尔茨:对于计算机视觉/图像强烈推荐Szeliski的Computer Vision: Algorithms and Applications。传送门:http://t.cn/RhbF7jr好东西传送门: 不好意思,你是找第二版吗? 可以问问 @没有我找不到的电子书 [ [微博](http://www.weibo.com/5220650532/BlIbspyg8) ] + +2014-09-06 回复@ustczen: 感谢传送好东西。这是新加坡国立 Min-Yen Kan (靳民彦) 教授 研究组的工作 http://t.cn/SwJHvL @52nlp 2011年转过他们短信捐赠请求 http://t.cn/RhbDbIV //@ustczen:回复@好东西传送门:所以我老年痴呆又犯了么。。附链接:http://t.cn/hrXXWz [ [微博](http://www.weibo.com/5220650532/BlHNqyCgt) ] + +2014-09-06 问:@龙星镖局 如果要从零学习图像或语音分析,要从那几本书开始? 答: 问答进展 http://t.cn/Rhbeix0 网络问答结果和相关课程大多推荐这几本经典老教科书:Digital Image Processing (3rd Edition) (2007), Speech and Language Processing, 2nd Edition (2008), 卡片盒子: http://t.cn/Rhbeixp [ [微博](http://www.weibo.com/5220650532/BlHHF1jr2) ] + +2014-09-06 [开放数据]印尼政府开放数据 data.ukp.go.id http://t.cn/Rhbrjfv 于2014-09-05上线,有700 多数据集。要使用数据恐怕先要能读懂印尼语(拼写属于拉丁语系,最早源于荷兰语)。此外,2014统计数据表明印尼有2.5亿人,是排名世界人口第四大国。 [ [微博](http://www.weibo.com/5220650532/BlHkREGAC) ] + +2014-09-06 监控页面变化的开源项目page-monitor 传送理由: github上的好东西,快800星了。 作者的博客也很有深度,而且竟然用issue tracker写博客,赞! 这是个例子 http://t.cn/8s35KgP [ [微博](http://www.weibo.com/5220650532/BlH9sz9H9) ] + +2014-09-06 问:@三鹿无毒奶粉 请问贵博关于航班准时预测和机票价格预测有那些相关的论文和模型 答:问答进展 http://t.cn/RhbBwy9 不少人用回归模型 航班准时预测(flight delay):有几篇MIT的文章;机票价格预测(ticket price): 有不少专利(发明人包括USC Craig Knoblock 教授) 卡片盒子 http://t.cn/RhbBwyK [ [微博](http://www.weibo.com/5220650532/BlH4Tc57x) ] + +2014-09-06 传送理由:右边的链接真是好东西 -- 不止配色工具,还有大量字体,图片、纹理,壁纸等众多素材资源网站一网打尽。 //@设定控: 配色工具网站汇总 http://t.cn/RPbMz7M [ [微博](http://www.weibo.com/5220650532/BlGYiyx88) ] + +2014-09-06 问: @ShawnAtLoss 请问哪边可以找到比较全面的关于大数据的survey 答: 问答进展: http://t.cn/Rhb1b0Z 推荐两类阅读:1 大数据领域地图,覆盖相关 技术,应用,公司 等 2. github好资源合集 http://t.cn/Rhb1b0w 1K+星,上百链接. 卡片盒子(现有6个资源): http://t.cn/Rhb1b0A 欢迎补充 [ [微博](http://www.weibo.com/5220650532/BlGU6teFP) ] + +2014-09-06 [推荐] 一张很好的脑图胜过千言万语,帮助你获得python的大数据处理工具全局观。http://t.cn/Rhb3P8I [ [微博](http://www.weibo.com/5220650532/BlGE7oFdz) ] + +2014-09-05 转发理由:非常酷的星系生死大片!本超星系团呈羽毛形状,因为有个巨大的吸引子(就是羽毛的中心),不断吞噬星系。这些“羽毛”的绒线就是星系赴死即将遵循的轨迹。在图中银河系只是微不足道的一个小点 [ [微博](http://www.weibo.com/5220650532/BlzOYbTRu) ] + +2014-09-05 //@ShangguanRPI: 在前东家也做过一样的数据分析,结论也几乎一致。用的数据集来自usps登记的过去10年所有地址更换记录,不确定census的数据是否也来自这个源。 [ [微博](http://www.weibo.com/5220650532/BlzHefKoa) ] + +2014-09-05 转发理由:世界基本经济数据的可视化,地图均给出了数据出处 [ [微博](http://www.weibo.com/5220650532/BlzmDai0F) ] + +2014-09-05 美国著名房地产公司trulia近日利用政府开放数据 http://t.cn/Rh4Htwl 分析了近年美国人口迁移的倾向:就近,房价低,人口密度小,低失业率 http://t.cn/Rh4HtwO [ [微博](http://www.weibo.com/5220650532/BlyKPBSIT) ] + +2014-09-05 http://t.cn/Rh4W25z 今年欧洲python大会的一个35页在线讲义幻灯片,用实例介绍如何用python实现概率编程,尤其是pymc3 阅读时间大约半小时 [ [微博](http://www.weibo.com/5220650532/Blyi3aVGF) ] + +2014-09-05 [问题求传送] 问:@开机就好ing 有没有比较好的Gbrank的相关的开源实现 答:就是 Zhaohui Zheng SIGIR '07 文章“A regression framework for learning ranking ...” 里提到的GBRank (guardian boosted) 问答进展看 http://t.cn/Rh4C8hd 初步好像有一个C++ 开源代码 http://t.cn/Rh4C8hg 欢迎补充 [ [微博](http://www.weibo.com/5220650532/BlxKpwU1D) ] + +2014-09-04 [资料整理] PDF版 http://t.cn/RhUOt6p 《智能问答系统:心得点评与文献列表》覆盖几个知名的问答系统:Halo (Aura); Siri;IBM Watson (DeepQA); True Knowledge;Facebook Graph Search 重点评论了知识图谱和语义web技术在自动智能问答系统中的应用与前景 [ [微博](http://www.weibo.com/5220650532/BlqyBe19Z) ] + +2014-09-04 旧闻回顾: Siri开发者成立人工智能公司Viv Labs (注意 网址是 viv.ai ), 花两年时间开发了能自动学习的智能个人助理系统Viv:将自然语言表达的复杂问题与搜索结合 相关Wired报导( http://t.cn/RhUtTwq 8月12日) 有微博原发评论 @网路冷眼 @新浪科技 (看 @张栋_机器学习 评论) http://t.cn/RhUtTw5 [ [微博](http://www.weibo.com/5220650532/BloN1gTeu) ] + +2014-09-04 问: @simba0626 请问现今有哪些成功的智能问答系统? 答: 问答进展 http://t.cn/RhUq00L 成功不好定义,基本用了知识图谱, 例如 IBM DeepQA (watson), wolfram alpha, Apple Siri, Google now。当然学术界也有一群人在做开放领域的图灵测试,如Eugen http://t.cn/RhUq00y 相关文献待会整理个资源合集 [ [微博](http://www.weibo.com/5220650532/BloyuzoCh) ] + +2014-09-03 回复@统计之都: 非常感谢 这可是今年7月新鲜出炉的文章,Gilles Louppe http://t.cn/RhyvpGz //@统计之都:Gilles Louppe的博士论文《随机森林:从理论到实践》,PDF下载地址http://t.cn/RP8JQyC。 [ [微博](http://www.weibo.com/5220650532/BlfvG3fm9) ] + +2014-09-03 问: @董伟_dzw259 哪里能够找到比较详细介绍随机森林的paper吗? 答: http://t.cn/RhLFi4R 随机森林(random forests)原作者之一 Leo Breiman 在“机器学习”2001年期刊有长文。推荐哥伦比亚大学教授Lauren Hannah的讲义。中文 @LeftNotEasy 2011年博文. 资料卡片: http://t.cn/RhLFzN1 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/Blfhkk0qI) ] + +2014-09-03 问:@子_相 求推荐一个PHP上的内存cache 的mod 答: http://t.cn/RhLeSxQ APC曾是首选(towser451@github 也推荐), 但php5.5用opcache作bytecode cache后, APC user data cache就被删改成APCu。@Laruence (APC, opcache的lead)2013博文指出APC效率问题,并因此开发YAC。卡片盒子: http://t.cn/RhLeSx8 [ [微博](http://www.weibo.com/5220650532/BleQ8wKSv) ] + +2014-09-03 在Neural Networks and Deep Learning第四章有对这个定理的可视化阐述,简洁易懂 http://t.cn/RhL8X74 该书我们以前在深度学习系列里也推荐过 http://t.cn/RhLmjtj [ [微博](http://www.weibo.com/5220650532/BlcZI7vdh) ] + +2014-09-01 转发理由:Larochelle是加拿大Université de Sherbrooke的教授。他是蒙特利尔大学Yoshua Bengio的博士,多伦多大学Geoffrey Hinton的博士后,师承深度学习的两大重镇 [ [微博](http://www.weibo.com/5220650532/BkVuU0EdN) ] + +2014-09-01 传送原因:用SQL访问Elasticsearch大大方便了查询构造。以前有类似项目ELSeQL, 但已很久没有更新了 @温少 @elasticsearch @Medcl [ [微博](http://www.weibo.com/5220650532/BkU1JcW8K) ] + +2014-08-31 传送理由:开源的推荐系统,从各种语言调用都方便 [ [微博](http://www.weibo.com/5220650532/BkOEij8Pb) ] + +2014-08-31 @Copper_PKU 的讲义前段时间推荐过,这个也很赞。 [ [微博](http://www.weibo.com/5220650532/BkOCelqIv) ] + +2014-08-31 传送问题,问答进展 http://t.cn/Rhw4h2m 看过YAC吗? http://t.cn/zYrnBVx [ [微博](http://www.weibo.com/5220650532/BkK3q8zJ6) ] + +2014-08-30 增补两个相关组织: @九章算法 的专业培训可(程序员的新东方)http://t.cn/RhwAzyN 。 @灵魂机器 组织的程序员北美求职 (肉身翻墙)http://t.cn/RhwAzyp len(卡片盒子)=8 [ [微博](http://www.weibo.com/5220650532/BkJlm0cyz) ] + +2014-08-30 半夜推荐 Leetcode 资源整理合集。 它目前有150道题,是程序员肉身翻墙的好东西,也适合快速提高自我修养。精选资料在我的卡片盒子里 http://t.cn/RhwwCGL 现在有6项: @灵魂机器 (Frank Dai) 的刷题宝典,若干人的涮题体验。这是一个会成长的卡片盒子,欢迎添加好东西。 [ [微博](http://www.weibo.com/5220650532/BkJheojHW) ] + + +2014-08-30 SAS base 今年KDnudgget数据分析常用工具民意调查( http://t.cn/RhZ0HjY )排名第9,而排名靠前的都有免费版。现在SAS推这个免费版,很好奇它明年的排名 //@刘政-SAS: 回复@侯广_充电ing:大学免费版跟我要,有base, graph, miner, or, 计量经济学和时间序列。//@侯广_充电ing:全国数学建模马上就要开始 [ [微博](http://www.weibo.com/5220650532/BkFytfb9v) ] + +2014-08-30 问: @小磊_DM_中二青年 在学搜索,请问有Nutch的相关资料吗? 答: nutch主要做网络爬虫,可以和solr结合做搜索引擎。问答进展: http://t.cn/RhZN72R (卡片盒子 http://t.cn/RhZN72E 6个资源): nutch 的中英文安装短教程(此外看Nutch wiki); nutch工作流程; 最近很火的CommonCrawl也转用nutch [ [微博](http://www.weibo.com/5220650532/BkFg8v2lw) ] + +2014-08-30 回复@icanswimwell: 美国的数据前几天才发过 http://t.cn/RhZJNoM (卡片盒子现有19项 http://t.cn/RhZJNox ) 美国政府在data.gov开放了十多万个免费、免版权的公开数据集 //@icanswimwell:感谢分享~~要有美国的就更好啦[挖鼻屎][挖鼻屎] [ [微博](http://www.weibo.com/5220650532/BkEg1kOpm) ] + +2014-08-30 回复@山雨清新: 原帖就是一个卡片盒子,链接可以在那里找到,现在已经16项了。同附链接 (200k book,1M rating)书籍 http://t.cn/RhZMPWc (10k movie, 10M rating)电影 http://t.cn/RhZMPWt //@山雨清新:请问新增补的两个评论数据集的链接? 找了下,没找到 //@好东西传送门:回复@好东西传送 [ [微博](http://www.weibo.com/5220650532/BkDZfdlu2) ] + +2014-08-30 回复@好东西传送门: 又增补了两个评论数据集: (10k movie, 10M rating)电影; (200k book,1M rating)书籍 //@好东西传送门:回复@海中的沙粒: 感谢提醒,这一次主要是针对该问题的资源整理,目前列表里原来有12项,现在有增补了CMU的ClueWeb2009网页数据集(10亿页),NIST TREC的测试数据 [ [微博](http://www.weibo.com/5220650532/BkDzbsk24) ] + +2014-08-30 [资料整理] @鱼片的小露宝 我正在学习hadoop,我想知道从哪里可以获取一些原始数据样本(就好像hadoop权威指南里面所说的NCDC的气象数据日志)来做数据分析的练习? 答: 一些大数据与目录: http://t.cn/RhZqcq9 气象遥感数据因有图片通常比较大;政府数据包罗万象;(社交)网络数据边多。 [ [微博](http://www.weibo.com/5220650532/BkD1Yu1WE) ] + +2014-08-30 [数据资源] 日本政治、经济、地理数据大全(免费,可下载)http://t.cn/RhZb561 日本开放政府数据网站测试版(www.data.gov.jp)于2014年发布,现有来自21个政府部门的10,411个数据集。 其他数据源:历年人口、工业、经济普查数据; 政府预算数据; 地理信息数据;1947-2003议会选举数据 等 [ [微博](http://www.weibo.com/5220650532/BkCwfoJ0Y) ] + +2014-08-29 [好文略读|机器学习] Big data opportunities and challenges: Discussions from data analytics perspectives (综述,@南大周志华 等著)http://t.cn/Rh7IH66 感谢推荐人 @刘知远THU @RAYMOND__WU 等 [ [微博](http://www.weibo.com/5220650532/BkuQ30GSA) ] + +2014-08-29 Google2014 KDD 的文章,讲他们自动知识图谱提取项目Knowledge Vault的最新进展,比较了人肉众包生成的知识图谱(dbpedia, freebase,...): http://t.cn/RhhjLVe Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion [ [微博](http://www.weibo.com/5220650532/Bkt39dyDU) ] + +2014-08-28 问: @钱知易: 能不能帮我找找大规模图像检索方面的资料以及这个领域的牛人(国内国外)? 答: 初步结果:http://t.cn/RPe5HBt 中科大 杨晓冬有一个很全面的计算机视觉领域资料整理。兰晓松 在科学网上著有专家列表,2014年9月自动化所有一个“计算机视觉前沿研讨会” ,列举了许多国内著名专家 [ [微博](http://www.weibo.com/5220650532/BklQZALi7) ] + +2014-08-28 问: @Don0719 有没有做正电子无损检测的大佬或者相关的书籍、文献啊? 答: 欢迎材料学问题。 问答进展看这里 http://t.cn/RPsI3yE 推荐R. Krause Rehberg 2010年的幻灯片。正电子湮没研究论文很多,还有专门国际会议。无损检测相关找到6篇。欢迎专家补充指正。 [ [微博](http://www.weibo.com/5220650532/BklhZul43) ] + +2014-08-27 问:@月光馆果果妈 请问从语音和视频资源共同进行学习的算法谁比较有研究啊 答: 深度学习是当前趋势(斯坦福,微软,谷歌都这样)。专家 Andrew Ng, Geoffrey Hinton, Li Deng, Louis-Philippe Morency, Ruslan Salakhutdinov, 微博技术控:@言语挖挖 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BkdhGpY4d) ] + +2014-08-27 传送一个关于学术笑话: 论文评审分两类,一种呢是评审截止日期早就过了,另一种是还没过期的。“There are two types of manuscript reviews. Those that are overdue, and those that are not overdue yet.” 如果看数据分布的话,估计最常见的是“明天就是评审截止日了,咋一篇都没审呢?” [ [微博](http://www.weibo.com/5220650532/BkctZ33Iu) ] + +2014-08-27 非常感谢 @董力at北航 他本科时候做的一个KDD2012demo http://t.cn/RPDwF8S (情感细分为厌恶、愤怒、高兴、悲伤四类 )很好玩,分析各省人民的情绪彼岸花,小心地图炮呦?能下载数据。 此外他以前还推荐过 http://t.cn/Sc68lv Sentiment Symposium Tutorial [ [微博](http://www.weibo.com/5220650532/Bkco7lkJU) ] + +2014-08-27 非常感谢 @posa88 推荐 lingpipe的影评数据(基于IMDB)由康奈尔的 Lillian Lee 和 Bo Pang 提供 //@posa88:大连理工这个库用过,还行:http://t.cn/RPesat2 ,http://t.cn/bln2a [ [微博](http://www.weibo.com/5220650532/BkcgExrKL) ] + +2014-08-27 问: @蒋宁平 求推荐中文情感计算资源,包括中文情感词库,尤其是细分情感种类的(比如喜爱,愤怒,悲伤…等)。 答:问答进展:http://t.cn/RPeutqb 初步答案:斯坦福有公开课和基于深度学习的成果。知乎有资源列表。刘兵教授有综述。数据看 NTUSD, 知网。微博问 @TT小和子 @黠之大者 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BkbzO54pR) ] + +2014-08-27 回复@DataMooc: 有相关问答,整理中,参见 http://t.cn/RPmIw2I //@DataMooc:有没有Python版的中文分词开源工具? //@好东西传送门:搭车再次推荐ansj, 孙健写的很有用的中文分词工具。http://weibo.com/5220650532/Bh9WGeljD //@ansj: 应该不是[衰] //@好东西传送门:@夏二货爱吃 [ [微博](http://www.weibo.com/5220650532/Bkb1stYmh) ] + +2014-08-27 搭车再次推荐ansj, 孙健写的很有用的中文分词工具。http://weibo.com/5220650532/Bh9WGeljD //@ansj: 应该不是[衰] //@好东西传送门:@夏二货爱吃胡萝卜: 万恶的微软官网居然用自动翻译!是孙剑 //@夏二货爱吃胡萝卜:@图像视觉研究:的确是说错了。是孙剑。 //@严浩RB:这个孙健是写ansj的那个吗? [ [微博](http://www.weibo.com/5220650532/Bk8kLotLu) ] + +2014-08-26 问:@pkuxkxjason 求推荐靠谱的自动摘要软件/服务。特别是针对科技类内容的。答: 问题进展 http://t.cn/RPg0Dkn 两个quora回答但实用工具可靠性低。还要请 @算文解字 指点迷津,他说过 “单文档summerization不是被snippet判死刑了么?” 找到相关文章 http://t.cn/RPg0DkH [ [微博](http://www.weibo.com/5220650532/Bk4hHahVS) ] + +2014-08-26 问答进展:http://t.cn/RPgpH65 有不少IEEE Fellow, 华人还有 UIUC马毅(现在上海) 微软亚洲研究院:孙健 。到CVPR, ICCV上多看看能找到不少当打的大小牛 [ [微博](http://www.weibo.com/5220650532/Bk4aUlKJi) ] + +2014-08-26 问: @杨洋MQ Social Network 中 Spammer Detection 方面 都有哪些 中文、英文的数据集?答: 初步回答:http://t.cn/RPgtKAl 公开的大多是email,中文较老有2006 TREC , 2005 CCERT;英文有Twitter数据集和Spammer列表。近年未公开:Berkeley, ASU有Twitter研究; 国内要联系上交大。求更多链接 [ [微博](http://www.weibo.com/5220650532/Bk2BaFaY2) ] + +2014-08-25 //@昊奋: 这个之前通过@好东西传送门 介绍知识图谱时,介绍过这个probabilistic kb。其实离真正大规模可用还有很长路要走。所谓的可信大部分可在freebase中找到,也就是说freebase的质量和规模决定了很多 [ [微博](http://www.weibo.com/5220650532/BjVr9tH7z) ] + +2014-08-25 //@velvel2: 1)首位华人AAAI fellow杨强博士研究转移学习很多年了。多任务学习是其中一种 http://t.cn/aepeZn 2)Bengio的深度学习新书有一章也是关于转移学习和多任务学习的 http://t.cn/RPdxFds [ [微博](http://www.weibo.com/5220650532/BjVr0j8uQ) ] + +2014-08-24 回复@phunter_lau: 感谢有爱心的专家 传送理由: 面试官的面经 //@phunter_lau:回复@好东西传送门:复制粘贴一下“我都是国外面经,都是谈谈你之前做过啥,你就做过啥讲了就行了。我们一般不测试面试人什么问题,默认他简历上说的都是真实的,然后拿几个实际问题看看他的看法和解决方向如何就基本上知道 [ [微博](http://www.weibo.com/5220650532/BjLGK2IJe) ] + +2014-08-24 问: @尘绳聋-SYSU 大大ML面经来一发?急需 答:假设需要的是软件工程师求职,寻找机器学习(machine learning)面经。建议多看题,把自己的知识强化。很多问答系统都有常见面试问题列表, 初步有 reddit, stackoverflow, quora, 知乎 等。问答进展: http://t.cn/RPB1Sxf 欢迎补充指正,尤其是具体面经 [ [微博](http://www.weibo.com/5220650532/BjLqu8Kw0) ] + +2014-08-24 回复@AixinSG: 多谢补充,NUS 在这方面做的很不错,链接传送 http://t.cn/RPB3zgO 还有一篇相关的是 Addressing cold-start in app recommendation: latent user models constructed from twitter followers //@AixinSG:SIGIR14 有一篇 New and Improved: Modeling Versions to Improve App Recom [ [微博](http://www.weibo.com/5220650532/BjLil85H7) ] + +2014-08-24 问: @应豪超 :有关于手机app推荐的文章吗 答: 就是找论文,关键词 Recommender Systems that Suggest Mobile Applications 。 初步结果 找到一个2011年移动推荐讨论班的幻灯片(领域综述),一篇IUI2013 (列举feature), 一篇SIGIR 2013, 还有若干相关, 问答进展: http://t.cn/RPBuvdZ 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BjLc4frgA) ] + +2014-08-24 传送理由:清晰的解题思路。补充一下,Haijie Gu 是GraphLab的联合创始人,现在CMU读博士。GraphLab 2013年融资6百多万美元。 (原文格式更好看一些,http://t.cn/RPBR5pm) [ [微博](http://www.weibo.com/5220650532/BjKQej5rE) ] + +2014-08-24 转发理由: 你懂的 //@何_登成: //@传媒老跟班:@设定控 做过一个谷歌专题 http://t.cn/RvnDzSG ,提供了多种访问谷歌的方式,大家可以看看。尤其推荐其中提到的#美国在线# http://t.cn/hVO8E ,该站搜索结果就是谷歌的结果,速度很快。 [ [微博](http://www.weibo.com/5220650532/BjKjCjeBa) ] + +2014-08-24 回复@MD_1stUP锐之翼: 全是野生的,所有物种活动活动观察记录网上都有,这是一条荷兰阿姆斯特丹的观察记录: http://t.cn/RPB5AWt 超市里只卖养殖的,野生的恐怕只能依律就地销毁 //@MD_1stUP锐之翼:是入侵华人超市吧[哼] [ [微博](http://www.weibo.com/5220650532/BjHn5uCyE) ] + +2014-08-24 问: @十月伤感wb 可否推荐些基于社交网络的推荐算法的资料,以及数据集,特别是数据集的下载地址谢谢了做推荐的很多都需要 答: [初步传送] 关于数据集: 斯坦福大规模网络数据集大全 (SNAP) http://t.cn/RPBqrcJ 关于推荐系统:看这里 http://t.cn/RPBqrci 问答进展: http://t.cn/RPBqrc6 求指点 [ [微博](http://www.weibo.com/5220650532/BjHkmuGpo) ] + +2014-08-24 @斯库里 传送理由:为广泛传播的社交媒体消息提供严谨的科学依据 http://weibo.com/1820578701/Be7W6AouY [ [微博](http://www.weibo.com/5220650532/BjHe7o3sj) ] + +2014-08-24 大闸蟹来了。近年来全国满街都是阳澄湖大闸蟹的招牌,可你知道吗,大闸蟹也正在入侵欧美呢! 早上查了全球生物多样性信息库(GBIF, 5亿条带GPS定位的物种活动记录), Eriocheir sinensis (Chinese mitten crab)找到3400+记录: 分布在欧洲沿海,北美东部与五大湖区。当然, 阳澄湖不算 http://t.cn/RPBGJ8y [ [微博](http://www.weibo.com/5220650532/BjH4ksrJq) ] + +2014-08-24 网站上的数据早已分门别类整理好了,生物学者都可以直接查询使用。待会整个关于大闸蟹的 //@珏黛佳人GenderIT: WOW //@玛酷嘟纳噜多昕之张: 怎麼處理這些數據..? //@黠之大者://@浙大陈为: //@好东西传送门: 在论文后面的507,825,517 (5亿) 条免费开放的带GPS坐标的全球物种观察记录才是关键 [ [微博](http://www.weibo.com/5220650532/BjGVc2pNI) ] + +2014-08-23 说起松鼠,就想起著名的 @科学松鼠会 这里的松鼠其实只是一个引子,在论文后面的507,825,517 (5亿) 条免费开放的带GPS坐标的全球物种观察记录才是关键,用到数据的800篇论文证明了数据的重要价值,值得传播 //@Coder_Chenzhi: 还是红松鼠好看,一直对云大的灰松鼠无感,总感觉灰松鼠的尾巴像锅刷。。 [ [微博](http://www.weibo.com/5220650532/BjBpWuJFO) ] + +2014-08-23 问:@七哥爱吃山楂片 能帮忙收集一下,国内外机器学习领域大牛的主页吗? 答:这是一个不完整的名单,仅限于美国 http://t.cn/RP1Pp3s (资料卡片:http://t.cn/RP1Pp1v )有不少资深院士级大拿,也有冉冉升起的助理教授。一家之言,欢迎补充指正。 图推中国教授 [ [微博](http://www.weibo.com/5220650532/Bjzxm9LTz) ] + +2014-08-23 可爱的灰松鼠竟然是入侵者, 占领了土著红松鼠的家园!如何估测外来物种与土著物种的分布范围呢?全球生物多样性信息库(GBIF)已为1百多万物种建立了5亿条活动记录, 此开放数据被800余专业论文使用。某论文用大量松鼠活动记录, 分析出气候因素与分布范围的相关性。GBIF资料: http://t.cn/RP3FuVI [ [微博](http://www.weibo.com/5220650532/BjzcTAdjn) ] + +2014-08-22 问: @蓝莲斯基:有没有关于uplift建模的资料? 最好先是具体案例,然后是论文讲解,希望能看到近来综述总结的论文 答:增量建模(uplift)可用来寻找“可说服”的人群,属于市场推广。找到 一些关于美国的银行的用例,还有保险业中的应用论文。初步问答进展 http://t.cn/RP3A4IC ,欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/Bjtl15SUk) ] + +2014-08-22 问: @AOzil 计算广告学的基本问题,如何以最小的代价,去评估一个媒体或是交易所的流量是否有价值?现在做法是各种投放,发现成本较高。 答: riverliu81 "以最小的代价去评估一个广告渠道为投放者带来的价值", copy成熟竞争对手; 小成本投放, 比较转化率; 电子邮件为王。问答进展 http://t.cn/RP3wGuN [ [微博](http://www.weibo.com/5220650532/BjtgulxuW) ] + +2014-08-22 [资料整理] 分段线性模型资料与软件 -- 入门篇 http://t.cn/RP3zJLu (cardbox http://t.cn/RP3zJL1 两个基本教程,一个进阶教程;各种编程语言的例子Mathematica, SAS, Matlab, R, python, RapidMinder 关键词: Piecewise linear regression 贡献者: @视觉动物晴木明川 @heavenfireray @禅系一之花 [ [微博](http://www.weibo.com/5220650532/Bjt7Oy7lt) ] + +2014-08-22 基于维基百科的统计:用一张地图把各国家/地区同与其相关的英文单词关联起来 http://t.cn/RPuKQqo 中国是dynasty和china。有好几个国家都是“World”: 英国,法国、德国还有日本。 越南倒是和French连上了,很有喜感。 [ [微博](http://www.weibo.com/5220650532/BjqGFkQTm) ] + +2014-08-21 [求传送] @isnowfy 问一下有没有免费的能用的中文的分词,标注,树库的数据呢,好多数据一个是不能免费获取,做为爱好者不知道哪里能得到数据自己来搞搞呢。初步线索:分词参@ansj 的推荐 http://t.cn/RPmMfFk 和@刘邵博 的词库 http://t.cn/RPmMfFD 免费中文树库求推荐 [ [微博](http://www.weibo.com/5220650532/BjjvY9yPu) ] + +2014-08-21 小知识:电影海报里最常用的颜色是橙色和蓝色 。MoviePosterDB里有最全的电影海报数据库 http://t.cn/hqtlge 想想拿它能做什么有趣的应用吧? [ [微博](http://www.weibo.com/5220650532/BjiJE9Nku) ] + +2014-08-21 问:@chico2011 @leo_lq 求推荐金融交易风险评估方面的paper 答: 找到 Financial Engineering and Risk Management Part I (Columbia University on Coursera),但风险评估相关的只简单的介绍了一下VaR。还找到bitcoin和real estate相关论文 问答进展: http://t.cn/RPn8foN 求进一步传送 [ [微博](http://www.weibo.com/5220650532/BjgMzsOJi) ] + +2014-08-21 [资源整理] MultiTask Learning资源合集 http://t.cn/RPnTjps 2014KDD最佳博士论文提名, WSDM2014最佳论文, 及与深度学习的结合。传送来自微博的优秀中文评论 @唐小sin @王威廉 @黄厝海滨 @李航博士 @李沐M@Copper_PKU @复旦李斌 @eeyangc @李晗littlefool @李亚超NLP @lby9 http://t.cn/RPnTj0v [ [微博](http://www.weibo.com/5220650532/Bjgysd9gF) ] + +2014-08-21 [资源整理]MultiTask Learning 资源合集。传送:#SIGKDD#2014最佳博士论文提名,#WSDM2014# 最佳论文,#ICML#2008 经典论文,以及如何与深度学习的结合。并传送大量优秀中文评论 @唐小sin @王威廉 @黄厝海滨 @李航博士 @李沐M@Copper_PKU @复旦李斌 @eeyangc @李晗littlefool @李亚超NLP @lby9 [ [微博](http://www.weibo.com/5220650532/BjgwRvPbW) ] + +2014-08-21 问:@理想主义de患者 有没有音视频流媒体方面的资料啊? 例如g729, g726 答:找到博达(broadcom)的对比贴(Codec Comparision) 问答进展: http://t.cn/RPnYhXO ....... 传送第一站完成,求大家帮忙继续传送,门也会继续帮助把问题澄清。 [ [微博](http://www.weibo.com/5220650532/Bjgoro55J) ] + +2014-08-21 问: (微信用户) 谁能推荐一个免费的网上会议系统(国内也能连的)? webex什么都要收费 答: 朋友推荐: uberconference, freeconferencecall,Moxtra。hackernews 推荐五个。看看开源 BigBlueButton http://t.cn/RPnWKl6。此外 bluejeans视频会议很牛但很贵。问答记录:http://t.cn/RPnWKlX 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/Bjg6j2sTY) ] + +2014-08-20 问: @sxhfut 能否推荐一下英文论文的学术不端检测系统或网站,免费的或者收费的靠谱的 答: 关键词Plagiarism, 初步答案与进展: http://t.cn/RPn5uwR Turnitin收费,有很多学校用户; Viper 有免费windows单机版; Plagium 免费在线不限长度, 上了两个排行榜,可以同时用几个交叉检测。欢迎补充指正。 [ [微博](http://www.weibo.com/5220650532/Bjdaxhu6s) ] + +2014-08-20 http://t.cn/RPEIus6 "Brewing Deep Networks With Caffe" 补一个他前段时间在CVPR关于Caffe的讲座 //@我爱机器学习: Caffe作者,学习 [ [微博](http://www.weibo.com/5220650532/Bj90I5mWA) ] + +2014-08-20 图片一向是知识产权斗争中的一个重要领域,英国的GettyImage 提供免费图片引用服务 http://t.cn/RPELwwS "You can embed a Getty Images photo on a website, social media site or blog for free and without having to buy a licence, as long as the photo is not used for commercial purposes" [ [微博](http://www.weibo.com/5220650532/Bj88Q5yfS) ] + +2014-08-20 谢谢补充 The repository has been designed in 2009 by Reza Zafarani and Huan Liu. Huan Liu 是ASU的资深教授,各种院士 AAAI, ACM (Distinguished Scientist), AAAS, ASEE, IEEE (Fellow), SIAM; http://t.cn/zHsb5qk 回复 @唐小sin:http://t.cn/zjBLh8P ASU的一些数据,貌似还有豆瓣的 //@好东西 [ [微博](http://www.weibo.com/5220650532/Bj819a13Z) ] + +2014-08-20 这是一个学术讨论贴,@郑梓豪爱文艺 在这里 http://t.cn/RPRegxF 更详细地描述了他遇到的研究问题,和初步想法,很希望能得到指点,并且与同学们讨论研究。先代他谢过了。 [ [微博](http://www.weibo.com/5220650532/Bj7IFeAHf) ] + +2014-08-20 回复@CodeColorist: 非常感谢,这个数据集非常好 http://t.cn/RPEhoMR “Collection and sharing of data for scientific analysis of Internet traffic, topology, routing, performance, and security-related events” 适合科研 //@CodeColorist:这个项目里自治系统(ASN)的数据是20 [ [微博](http://www.weibo.com/5220650532/Bj7HbCJiI) ] + +2014-08-20 问: @andeguangshaqianwanjian 传送门啊,有python做神经网络(时间序列预测方面)的资料没 答: 准备一些入门知识 http://t.cn/RPRFdBG 基于神经网络的方案:试试Pandas; Github上有 theano-rnn 开源演示; 常规python时间序列分析 可以用scikit timeseries; 此外还有一些背景知识供你参考。 [ [微博](http://www.weibo.com/5220650532/Bj7qMhxSx) ] + +2014-08-20 [求指点] @郑梓豪爱文艺 网络媒体上发现热门话题的方法,如何在一个小「话题」,比如「机器学习」中发现新动态。 我想改进现有的热度函数heat算法,例如采用新参数(讨论者属性的混乱程度), 或分析用户行为在时间轴上的异常分布。 问题进展: http://t.cn/RPRegxF 找到的一些相关文献, 但都比较旧 [ [微博](http://www.weibo.com/5220650532/Bj7aZ0hZj) ] + +2014-08-20 斯坦福大规模网络数据集大全(Stanford Large Network Dataset Collection, SNAP) http://t.cn/RPRgvZQ 由斯坦福教授Jure Leskovec整理。免费,清理过,可下载。十多种不同类型的网络数据集(社交;在线社区;电子邮件;引用;Web, ...)。 Friendster数据集有6千5百万节点,18亿条边。 [ [微博](http://www.weibo.com/5220650532/Bj6Zvszak) ] + +2014-08-20 [资源整理] 提高网站页面响应速度的解决方案 http://t.cn/RPRrPLn : 最简单用DNS A-Record, 反向代理及负载均衡 可以先考虑ngix, 进一步可用proxy分流 感谢贡献者: mahak(github), @BUPTGuo , @情非得已小屋, @新世界_玉兔 , @52cs [ [微博](http://www.weibo.com/5220650532/Bj6Lajkko) ] + +2014-08-20 [推荐] Google研究员贾扬清 @fs_Yangqing 分享GoogLeNet在2014大规模视觉识别挑战赛的经验(Large Scale Visual Recognition Challenge 2014)。"个人觉得,更有意思的是 how to get the number 而不是 what the number is。我从classification和detection两个track分别聊一下" http://t.cn/RPR1pLX [ [微博](http://www.weibo.com/5220650532/Bj6zoraCR) ] + +2014-08-20 [续求助] 问: @杜威Dewey 比较 nextenta、nutanix? 答: 讨论与进展 http://t.cn/RPRunNs 有一篇不错的谷歌话题热度分析: http://t.cn/RPR3wtD 1.nutanix 与nextenta分类不同, 前者是 Boxed Storage, 后者是 Software-only Storage; 2.nutanix在增长,也有很多对手, nextenta 在下降, 仍占绝对优势 [ [微博](http://www.weibo.com/5220650532/Bj6ntaatp) ] + +2014-08-20 [求助] 问: @杜威Dewey 互联网应用的分布式数据库存储使用网络存储有什么好方案吗?相对于昂贵的FC-SAN,性能一般的NAS,IP-SAN是不是比较好的选择。Nexenta、OpenFiler这些开源软件能上生产环境吗?有人说nextenta不合适用于互联网架构,说nutanix不错, 怎么看? 讨论与进展: http://t.cn/RPRunNs [ [微博](http://www.weibo.com/5220650532/Bj6kAEAn4) ] + +2014-08-20 [知识]"星系动物园"(GalaxyZoo, http://t.cn/RPRnHTO )是邀请公众协助在网络上为上百万个星系在线上进行分类的天文学计划。2007年上线, 第一版两年分类了90万星系,免费数据下载 http://t.cn/RPRnHTl ; 2014 Kaggle Galaxy Zoo challenge头名用深度学习自动分类(RMSE 0.07467) http://t.cn/RPRnHTW [ [微博](http://www.weibo.com/5220650532/Bj60Vsc3k) ] + +2014-08-20 罗马帝国的40张地图 http://t.cn/RPRnTsJ 罗马的兴起,罗马的对外战争,罗马内战,罗马与中国和印度的贸易,罗马的衰落与遗产,尽在图中。 [ [微博](http://www.weibo.com/5220650532/Bj60OmI1b) ] + +2014-08-20 原来GIF小动画也这么有用又好玩,果然是数据结构入门利器。 里面的例子里给的代码不熟悉,貌似伪码。 [ [微博](http://www.weibo.com/5220650532/Bj5wH9EYO) ] + +2014-08-20 http://t.cn/RPRHgdY 补充树木计划链接 [good]//@复旦大学星空讲坛: 几天前星空还转过港中大的树木计划,希望旦旦也可以有自己的植物库[可怜] [ [微博](http://www.weibo.com/5220650532/Bj5fV5r3d) ] + +2014-08-19 生物百科全书 Encyclopedia of Life(EOL) 是一个免费在线全球物种档案馆。它自2008年上线就涵盖了3万物种,到2011年九月已经达到70万物种, 目标是在10年内为1百90万余已知的物种建立档案。http://t.cn/RP8mYWn @陆浑戎 推荐的《中国植物志》在线版、台湾生命大百科 都可以算是全球EOL联盟的一部分 [ [微博](http://www.weibo.com/5220650532/Bj16laqQn) ] + +2014-08-19 问: @jimmy_000 卷积神经网络CNN的“卷积”是一个什么样的过程? 它是怎样将图像的编码从像素level 上升到NxN区块的 答: 初步答案 http://t.cn/RP8QjNH 看看Andrew Ng 写的短教程Convolutional Neural Network, 中文有bzjia的Deep Learning学习随记。@赵家平USC 讲了不少深度学习在图像处理的前沿成果 [ [微博](http://www.weibo.com/5220650532/Bj0JM11rm) ] + +2014-08-19 [资料整理] 深度学习在语音识别的应用,入门篇: http://t.cn/RP8ll1s 向 @李开复 在CMU做的Sphinx(1988)致敬。介绍几个牛人和顶级团队: 微软 (邓力 Li Deng )和谷歌 (Vincent Vanhoucke, Geoffrey E. Hinton)。 [ [微博](http://www.weibo.com/5220650532/Bj0jOqW9v) ] + +2014-08-19 [资源整理] 不平衡数据分类(Imbalanced data classification): http://t.cn/RP8NM2s 经典文献 MetaCost (Domingo, 1999), SMOTE(2002 Chawla), 以及2004 CMU Yanjun Qi 的综述(现UVA教授);工具与数据集(WEKA,NLTK), GITHUB SMOTE的实现。感谢 @AixinSG @刘知远THU @xierqi @eacl_newsmth [ [微博](http://www.weibo.com/5220650532/BiZQEloKK) ] + +2014-08-19 问: @唐小sin 有没有multi-task learning的相关学习资料呢? 答: 维基百科上有不少经典文献。AAAI和ICML都有论文(北大/清华)。找到今年Honglak Lee (U Michigan 教授)的短教程。Lan Žagar 博士论文(2014) Ranking by Multitask Learning. 问答追踪: http://t.cn/RP8a3Ax 求补充 [ [微博](http://www.weibo.com/5220650532/BiZl47k80) ] + +2014-08-19 [资源整理 ] 中文词汇语义相似度计算方法与工具 http://t.cn/RP8IYvH 包括:python gensim,word2vector, GloVe, Explicit Semantic Analysis 资料卡片: http://t.cn/RP8IYvT 感谢 @杜振东_java @刘知远THU @昊奋 @算文解字 @Mr_UnderWaterrrrrr @朱鉴 @西瓜大丸子汤 @董力at北航 @尘绳聋-SYSU [ [微博](http://www.weibo.com/5220650532/BiYH4E1Gw) ] + +2014-08-18 搭车推荐 @赵家平USC 的微博 "Sebastian Seung 用CNN重建了老鼠视网膜里的plexiform layer;UCI的学者在nature上撰文说DL用于发现 希格斯玻色子"; Jeff Hinton组deep CNN(CovNets)在ImageNet; Fei-Fei组的 video classification with CNN 看问答进展:http://t.cn/RPQxZNF [ [微博](http://www.weibo.com/5220650532/BiUmllrLL) ] + +2014-08-18 非常感谢,身边的图像拼接/全景图应用:谷歌街景, iphone拍照, 汽车摄像头//@图像视觉研究: Lowe的Automatic Panoramic Image Stitching using Invariant Features绝对经典,OpenCV的拼接就是基于这个框架。另外沈向洋的Construction of Panoramic Image Mosaics with Global and Local Alignment也经典 [ [微博](http://www.weibo.com/5220650532/BiU6AsAmL) ] + +2014-08-18 问: @思考中的芦苇 有没有视频图像配准相关的资料呢?比如说卫星拍了一段地面上的遥感视频,如何从这段视频中提取出许多帧图像,然后进行图像配准,组成一幅地图呢? 答: 关键词Image Alignment and Stitching, remote sensing, 问答进展见http://t.cn/RPQ63GQ 求交流指点 [ [微博](http://www.weibo.com/5220650532/BiRyc2QGH) ] + +2014-08-18 阶段小结: 感谢热心专家 @唐小sin @善良的右行 推荐的好东西, 现在问答追踪 ( http://t.cn/RPQXlim )里已经有十几条相关文献了. 整理了一个总结, http://t.cn/RPQXliQ 看看行不行,欢迎参与编辑 [ [微博](http://www.weibo.com/5220650532/BiRkGCx0v) ] + +2014-08-18 回复@善良的右行: 这几个推荐文章都很好呀,第一篇引用率都快400了. 要不是了解领域,谁能想到这个关键词呢, influential spreaders . //@善良的右行:@好东西传送门 惭愧,我也是菜鸟,当然很乐意共享:Identification of influentialspreaders in complex networks;Leaders in Social Networks, the De [ [微博](http://www.weibo.com/5220650532/BiRevEmzM) ] + +2014-08-18 回复@唐小sin: 这篇文章很不错哦, 还对比了TunkRank, Topic-sensitive PageRank (TSPR) //@唐小sin:任何influence的文章都可以哪来读读,而至于意见领袖不妨看看twitterrank [ [微博](http://www.weibo.com/5220650532/BiRagmjE9) ] + +2014-08-18 发现重要节点一直是社交网络研究的重要问题, 研究热点大约在2007~2010社交媒体蓬勃发展的时候, 2014年已经有influential user identification的综述了.鉴于这类研究的算法并不困难,但数据量较大且较难获得,研究前沿已经逐渐从学术界转移到工业界/创业应用。http://t.cn/RPQfWRW [ [微博](http://www.weibo.com/5220650532/BiR72BfHw) ] + +2014-08-18 感谢指正, 能不能推荐几个好东西, 咱也找找 social network analysis 的文献 回复@善良的右行: 这几篇论文略旧……当然引用率是不用说的……貌似问题本质是重要节点挖掘 [ [微博](http://www.weibo.com/5220650532/BiQWI1oD2) ] + +2014-08-18 问: @马辰The_answer:主页君能否推荐一些用深度学习做推荐的文章资料 答: 问答进展 http://t.cn/RPQMg7Q 找到一篇今年8月新鲜出炉, Spotify的实习生博文: Recommending music on Spotify with deep learning .今年2月有人讲Netflix的电影推荐. 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BiQUcxKod) ] + +2014-08-18 问: @山东工商学院白建磊 有没有新媒体意见领袖领域方面的文献可以推荐? 答: 问答进展 http://t.cn/RPQfWRW . 初步推荐: 意见领袖 (opinion leader), user influence, twitter, 有几篇引用率很高的论文分析了Twitter用户影响力. 还有, 社交媒体信息传播综述. 欢迎补充指正. [ [微博](http://www.weibo.com/5220650532/BiQH4deoc) ] + +2014-08-17 //@见习烟酒生:出轨检测。。居然还有这么实用的案例//@西瓜大丸子汤:里面有一篇“女人是如何发现另一半出轨的” [哈哈] [ [微博](http://www.weibo.com/5220650532/BiGM9wr1F) ] + +2014-08-16 [求指点] @小白_小可乐:能帮忙找点"背景建模"的资料么?就是图像前景提取的方法. 关键词: 图像前景提取(Foreground Extraction), 视频分析, 背景建模(background object detection) 问答进展看这里: http://t.cn/RPTWX7w [ [微博](http://www.weibo.com/5220650532/BiBA9tX99) ] + +2014-08-16 大家一定要看韩家伟老师的异常检测讲义(是他数据挖掘教材第三版的第12章),就56页. 简明扼要! 直接给个讲义PPT 下载传送门 http://t.cn/RPTLh7M [ [微博](http://www.weibo.com/5220650532/BixYpiSEk) ] + +2014-08-16 问:@ai_东沂 异常检测应用在文本挖掘 答: 异常检测(outlier/anomaly detection)和文本挖掘(text mining)都是大课题。几篇异常检测综述(如韩家伟的讲义) 与应用(如发现金融欺诈); 几个异常检测用在文本挖掘的综述(如在对话流中发现新话题),以及话题模型的文献(如翟成祥的讲义) http://t.cn/RPYnZD8 [ [微博](http://www.weibo.com/5220650532/BixPQANza) ] + +2014-08-16 @维尔茨 问:有木有关于循环神经网络在segmented sequence labeling方面的papers? 答:多伦多大学Alex Graves有专著. 基于recurrent neural networks(RNN)研究, @ICT_朱亚东 推荐Herbert Jaeger的短教程. Jürgen Schmidhuber教授收集了60多相关论文, 微软研究院用RNN做自然语言处理 http://t.cn/RPYQVsY [ [微博](http://www.weibo.com/5220650532/BiuoeCGpy) ] + +2014-08-15 [实事求是学大数据] @猴山寨主找夫人 问:是否能提供一个入门级的大数据指导方案.答:盲目上大数据技术很容易浪费学习时间和运营成本。这里我们列了一个极简版,面向的是普通基础、需要从一般数据处理任务逐步扩展到大数据的用户,见长微博。完整导读见本文文字版 http://t.cn/RPjCbl7 [ [微博](http://www.weibo.com/5220650532/BimdAmKqK) ] + +2014-08-15 [good]//@孙明明_SmarterChina:这些资料都没有提到manifold Learning中的一篇非常重要的文献:Yoshua Bengio 的 Non-Local Estimation of Manifold Structure http://t.cn/RPj5iYv。 这个文章揭示了LLE/ISOMap代表的一类流形学习方法无法直接广泛应用的宿命。 [ [微博](http://www.weibo.com/5220650532/BijiQaRyl) ] + +2014-08-15 Apex出品 [good]//@zwner:个人觉得最普适有效的经典算法是SVD++ http://t.cn/RPjLPjx,在推荐模型本身上最有深度的是MF-GBRT http://t.cn/RPjLPjM。如果你想用一个code快速实现不少推荐算法,那请毫不犹豫使用我们的SVDFeature http://t.cn/zYRnUMA [ [微博](http://www.weibo.com/5220650532/BiiWGqD5P) ] + +2014-08-14 这个例子很合适送给@oyyNyanCat “机器学习数据挖掘方面的简单有趣应用” http://t.cn/RPlYDZx [ [微博](http://www.weibo.com/5220650532/BifsXvfQC) ] + +2014-08-14 特别推荐。最优化,逻辑回归,最大熵,主题模型,深度学习,相似度,搜索,一脉下来,整理的深入浅出,非常清晰。传送门君以前读过前一半,现在终于写全了! [ [微博](http://www.weibo.com/5220650532/BidtPx8pa) ] + +2014-08-13 最新数据显示: 美国Snapchat的用户渗透率稳步上升,在18-34岁的消费者市场首次超过Twitter。主要动力来自18-24岁人群的追捧。 http://t.cn/RPWBC1c [ [微博](http://www.weibo.com/5220650532/Bi90saK6K) ] + +2014-08-13 最近我们推荐过四组深度学习的资源,分别为语音检索,文本挖掘/自然语言处理,图像检索,最热深度学习Github项目。为方便大家浏览/粘帖,现在制作成可下载的PPT,每页是一个推荐资源的预览。百度云盘 http://t.cn/RPWoSHq slideshare http://t.cn/RPWoSHb 原始PPT http://t.cn/RPWoSH4 [ [微博](http://www.weibo.com/5220650532/Bi6AwyhV1) ] + +2014-08-13 http://t.cn/RPW6muz ACL2014 Semantic Parsing Workshop的slides 感谢@老淘 @波多野丽猪 推荐 [ [微博](http://www.weibo.com/5220650532/Bi6fQ8wYq) ] + +2014-08-13 //@ansj: @52nlp @好东西传送门 @v_小峰_v 墙裂推荐.应该是史上公开的最大最完整的中文词库了 [ [微博](http://www.weibo.com/5220650532/Bi65w5qIN) ] + +2014-08-13 回复@Liufool: 非常感谢,这个补充太专业了,果然是windows高手。话说微软的语音识别还是很牛的,你看这个当入门文档行吗? http://t.cn/RPWwj0A 顺带说一句, 曾经亲眼看见一个盲人科学家用语音操控windows笔记本。 //@Liufool:microsoft speech platform是服务器版windows可免费应用的语音识别, [ [微博](http://www.weibo.com/5220650532/Bi4olbouK) ] + +2014-08-13 问:@VoidStars 请问想提取一段文本里的中文姓名(0~1个) 有好的开源库和教程吗 答: 常见方法就是分词,再利用姓名词库和上下文关系来确定。 知呼有一个综述。google有专利。 @52nlp 也有大量博文讲中文分词。开源工具比较有名的有jieba, snownlp, stanford-nlp-ner. http://t.cn/RPWP2h1 [ [微博](http://www.weibo.com/5220650532/Bi3VHfSFP) ] + +2014-08-13 问: @yongsun 有没有开源或者免费的英文语音识别软件/或项目?打算翻译一些冰球教学的视频,想结合识别结果来进行听译 答: Windows7/8 自带语音识别功能,Google Chrome有基于云端服务的识别插件,软件方面Nuaunce的Dragon很牛(SIRI就是靠它做语音识别). 开源软件列表看维基百科。http://t.cn/RPODalA [ [微博](http://www.weibo.com/5220650532/Bi3ti7wAd) ] + +2014-08-13 问: 做 logistic regression 有啥好用的库吗? 需要处理几十万个 features, 然后几十亿个training data的。 features 是极其稀疏的,Sparsity大概万分之一左右吧 答: 有不少开源库: Spark(MLlib), Mahout, R+Hadoop, Hadoop, Scalding(Conjecture)。有2014分析指出SPARK比较快。http://t.cn/RPOddon [ [微博](http://www.weibo.com/5220650532/Bi3axDIR8) ] + +2014-08-13 [问题求领养] @不非否nonono:请问有没有关于causality与Bayesian Network有关的资料?http://t.cn/RPOR7Iv。除了Judea Pearl的书,大家有什么推荐?有没有你觉得比较好的教程?BTW, 以前在Python站上有过不少和贝叶斯相关的推荐资源 http://t.cn/RPOrpGD [ [微博](http://www.weibo.com/5220650532/Bi2Z7mgEI) ] + +2014-08-12 @刘知远THU 推荐:翟成祥老师(UIUC)的综述专著:Statistical Language Models for Information Retrieval(信息检索中的统计语言模式)(2008),从BM25到PLSA, LDA,回顾了领域发展并总结了未来的挑战。 [ [微博](http://www.weibo.com/5220650532/BhWzutAft) ] + +2014-08-12 [NLP讲义下载,125页,PDF] 翟成祥老师(UIUC)今年在澳大利亚数据库博士短训班的教程:"Statistical Methods for Mining Big Text Data" 介绍两种基于统计语言模型(Statistics Language Model)的基本话题模型(Topic Model): LDA和PLSA的原理及应用。最后列出六个未来研究课题。http://t.cn/RPO7vtW [ [微博](http://www.weibo.com/5220650532/BhWo26Y93) ] + +2014-08-12 //@昊奋: 对于ESA,如果单纯使用wikipedia,由于中文维基百科的语料相比英语小很多,所以其实不满足ESA本身需要有高覆盖率的好处,需要自行采用百度百科或互动百科进行处理。我们会考虑利用zhishi.me来为大家提供ESA的服务。 [ [微博](http://www.weibo.com/5220650532/BhWfVt47c) ] + +2014-08-12 这个问题还有很多其他选择方案,如知网。一些正在issue 67下讨论 http://t.cn/RP0pPIt 欢迎去那增补(留言请留下你的微博号) [ [讨论](https://github.com/memect/hao/issues/67) ] [ [微博](http://www.weibo.com/5220650532/BhWeO3CJx) ] + +2014-08-12 @talkto廖华 请问有没有好用的中文词汇的语义相似度计算工具?答:多种分布式表示方法都可以计算语义相似度,中英文均可以处理。如近来的word2vec http://t.cn/RPOvesp 和glove。@刘知远THU 推荐ESA(Explicit semantic analysis),在稳定性上可能更优,一些开源项目和文章如下 http://t.cn/RPOvesj [ [微博](http://www.weibo.com/5220650532/BhWdIDon6) ] + + + + +2014-08-12 问:@all_shuffle cassandra调优的资料 +答:可以去datastax和cassandra wiki去找资料。优化点含数据建模、读写I/O、存储压缩、JVM。要注意cassandra版本。也可以看看Ebay, Netflix的应用案例。http://memect.co/ioPLBIK [ [微博](http://www.weibo.com/5220650532/BhTnSbw2s) ] +

+ +2014-08-10 @唐小sin 问:现在社交网络的研究焦点在哪? 答:感谢清华大学@唐杰THU 教授提供答案,在他与密歇根大学梅俏竹教授合写的综述《数据挖掘学科发展报告》第2.2 部分“社交网络分析和图挖掘研究”分析了诸多前沿方向,如网络结构分析、图模式挖掘、信息传播和影响力建模等,可供参考 http://t.cn/RPNVntW +http://www.weibo.com/5220650532/BhCrZ8DO1?mod=weibotime + +2014-08-10 http://t.cn/RPNLDbW 用Python打造图像分析应用你需要知道的15个软件包:计算基础Numpy Scipy 图像基础matoplotlib PIL/Pillow 图像进阶OpenCV SimpleCV mahotas scikit-learn ilastik 其他pprocess h5py scikit-image Medpy 完整列表 http://t.cn/RPNLDb0 +http://www.weibo.com/5220650532/BhBkrkfWg?mod=weibotime + +2014-08-09 如何用Python打造高可用性网站?这组来自highscalability的文章展示了如何利用Python服务以亿计用户的网站,包括耳熟能详的Youtube(视频)、Reddit和Digg(新闻分享)、Dropbox(云存储)、Instagram和Pinterest(图片分享)等。下次有人疑问Python的性能,和ta分享这组文章吧 http://t.cn/RPCutKS +http://www.weibo.com/5220650532/BhxxQjtja?mod=weibotime + +2014-08-09 @我爱机器学习 问: 判断两张图片是否是同一内容(只考虑光照、倾斜、模糊、偏移等因素)的资料有否?答:@CD--挨踢民工巍然 推荐了lire,OpenIMAJ @申砾 推荐了pHash。lire和OpenIMAJ都是java的,openimag可以处理视频,关键点匹配,人脸识别等。pHash是C++的图像哈希软件 http://t.cn/RP9aFVz +http://www.weibo.com/5220650532/BhqBFulcq?mod=weibotime + + + +2014-08-08 问: @ 红星照大龙 有没有机器学习对具体设备(比如四轴,双足机器人,运动控制)在控制性能方面提升(稳定性,响应速度)的工具或者资料? +答:是不是Robot Learning或Adaptive Control,请看综述,工具,研究组和学会。两篇维基的参考资料都挺好。http://memect.co/Ehc3uFo [ [微博](http://www.weibo.com/5220650532/Bhl75C7mP) ] +

+ + + +2014-08-08 问: @ai_东沂 木有关于社会化标签挖掘的相关资料? +答: 社会化标签(folksonomy)在十年前很热了一阵,相关研究也主要集中在那一段时间(印第安那的一个博士生整理了一个文献清单)。还有两个综述论文(KDD那篇来自韩家伟的学生,另一篇KER来自一个语义Web的研究组)。不太全面,欢迎指正。http://memect.co/eOcfnQA [ [微博](http://www.weibo.com/5220650532/Bhl1QAnEn) ] +

+ + + +2014-08-08 问:@图像视觉研究 有没有经典的Multi-Class boosting的相关资料推荐推荐? 答:找到几篇经典论文,几个幻灯片、录像以及工具包。相关学校有MIT,UCSD,Stanford,umich等。软件有C++, Pythton (scikit-learn) 实现,也有几个GITHUB开源软件。http://memect.co/fVshb4Z [ [微博](http://www.weibo.com/5220650532/BhgJ0hHvLY?mod=weibotime) ] +

+ + + +2014-08-08 问:@andeguangshaqianwanjian 求python做神经网络的资料 答:找到十个工具,pythonWiki5个,Github里2个,其他(好像比前两类常用)3个。http://memect.co/no0jyMY + [ [微博](http://www.weibo.com/5220650532/BhkMjyL4g?mod=weibotime) ] +



+ + + + +2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第六组:一些大的数据仓库,如data360.org, R datasets Package, Google Public Data, Infochimps, datamob http://data.memect.com/?tag=publicdomain+hao60 [ [微博](http://www.weibo.com/5220650532/Bhbllse6Y?mod=weibotime) ] +

+ + + + +2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第五组:理工科数据8类,包括地理、航天、癌症、气候、农业、生物等 http://t.cn/RPSkuaV 社会科学5类,包括GSS社会调查、劳动就业、Pew Research研究所的数据、UCLA数据门户 http://t.cn/RPSkuac [ [微博](http://www.weibo.com/5220650532/Bhbj57moY?mod=weibotime) ] +

+ + + +2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第四组:SNAP斯坦福的网络数据集 http://t.cn/RPSkGc9 ,Time Series Data Library近800个时间序列数据(经济、水文、气象、农业各种)http://t.cn/RPSkGci 一些大学实验室的数据集,如OSU金融、CMU统计、UCLA SOCR概率 http://t.cn/RPSkGc6 [ [微博](http://www.weibo.com/5220650532/BhbfM2eN5?mod=weibotime) ] +

+ + + +2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第三组:政府数据,有美国的data.gov,英国的data.gov.uk、澳大利亚数据、加拿大数据、联合国数据、三藩市、纽约市、伦敦市数据。用DataMarket搜索和可视化数据 http://t.cn/RPSDceG [ [微博](http://www.weibo.com/5220650532/Bhbaxj6xo?mod=weibotime) ] +

+ + + + +2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第二组:机器学习数据源20+,包括Amazon Public Data(一共56个超大数据,如人类基因组,Common Crawl全球网页, Freebase,Wikipedia等各种宝贝)、航空、天气、医疗、音乐、电影、社交网络,Web点击 http://t.cn/RPSev91 [ [微博](http://www.weibo.com/5220650532/Bhb3qqHUg?mod=weibotime) ] + + + +2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第一组:经济数据4个http://t.cn/RPSgSkR 世界银行Indictors, EconData, AEA(美国经济协会)RFE, GapMinder 金融数据8个:CBOE Futures Exchange, St Louis Fed, NASDAQ, OANDA, Quandl,Google/Yahoo http://t.cn/RPSgSkE [ [微博](http://www.weibo.com/5220650532/Bhb0wrN4O?mod=weibotime) ] + + + +2014-08-07 ansj分词的作者@ansj 为我们介绍中文分词。工具有Java的Ansj分词、结巴分词Python版与C++版。基础文章《中文分词的原理与实践》。常用的算法:条件随机场CRF, 隐马尔科夫模型HMM。常用数据结构:Trie树和双数组 http://t.cn/RPSQlCE @ansj发起了nlpcn.org开放自由的NLP平台,NLPer都该去瞅瞅 [ [微博](http://www.weibo.com/5220650532/Bh9WGeljD?mod=weibotime) ] + + + +2014-08-07 美国疾病控制与预防中心卫生经济学家 @陈茁博士_Adam 提供:准确的**卫生统计数据**是卫生经济政策的基础。这里提供了一组最重要的数据站点,包括国际组织(WHO, OECD, Worldbank, UNICEF)、美国政府部门(CDC, CMS,AHRQ)、中国的卫生计生统计。更多参芝加哥大学卫生统计数据门户 http://t.cn/RPSa7hk [ [微博](http://www.weibo.com/5220650532/Bh8lRehxo?ref=) ] + + + +2014-08-06 @uso小驴酱 问**sparse representation for computer vision** CV领域教授Lyu回答: ECCV2012有计算机视觉稀疏表示的教程 。主讲人Yi Ma, Allen Yang, John Wright均是该领域核心专家。讲座包括了理论基础与实践。合集中还包括相关的Fast l-1和Convex Optimization方法 http://t.cn/RPam664 [ [讨论](https://github.com/memect/hao/issues/25) ] [ [微博](http://www.weibo.com/5220650532/Bh2vHlUlG?mod=weibotime) ] + + + +2014-08-06 W3C研究员@吴伟1st 推荐: **关系数据库RDB转RDF的工具**。RDF是网页元数据交换的国际标准,是知识图谱和链数据发布的首选语言。从传统的关系数据库到互联、有丰富语义的数据,已有大量转化和查询工具。这一组推荐包括了Oracle和Virtuoso工业实现和很多开源、研究项目、R2ML语言 http://t.cn/RPaNM6h [ [讨论](https://github.com/memect/hao/issues/52) ] [微博](http://www.weibo.com/5220650532/Bh173BPZf?mod=weibotime) ] + + + +2014-08-06 @昊奋 推荐:在这个机器学习大行其道的年代,了解规则系统,以及他们之间的结合是很有必要的。推荐纽约州立大学Stonybrook分校Senlin Liang的工作**OpenRuleBench:比较了5种不同类型的规则系统**,演绎数据库, 语义规则引擎, 基于Prolog系统等,如jena, dlv jess xsb owlim http://t.cn/RPaGJHV [ [微博](http://www.weibo.com/5220650532/BgZ9CtRHL?mod=weibotime) ] + +
+ + +2014-08-06 [经典资料] **Google云计算的7个里程碑**: GFS(文件系统), MapReduce(计算模型), BigTable(结构数据存储NoSQL), Dremel(大数据查询分析), Colossus(GFS第2版), Spanner(BigTable+分布式事务管理), Compute Engine(云计算平台,AWS竞争对手)。含原论文、幻灯片、短教程以及业内风评 http://t.cn/RPaU89N [ [微博](http://www.weibo.com/5220650532/BgYHoimrP?mod=weibotime) ] + +* 2014-08-05 [公开课] **斯坦福的计算广告学入门**。整个教程一共9讲,包括市场设计、文字广告、上下文广告、展示广告、广告定向、广告推荐、和新形式广告。这是网上为数不多的计算广告学公开教程,由两位Yahoo科学家Andrei Broder和Vanja Josifovski,主讲,乃多年实战经验总结。http://t.cn/RPX0423 [ [微博](http://www.weibo.com/5220650532/BgT8YwOqI?mod=weibotime) ] + +* 2014-08-05 **回答集编程(Answer Set Programming)是一种强大的规则推理语言**。它可以用于解决那些困难(例如NP-hard)的问题。从数据库查询,自然语言理解,生物信息学,到石油勘探,ASP有非常广泛的应用。@Logician_wolfel 推荐了一组最新的ASP教程 http://t.cn/RP6kRm4 有逻辑的问题请教他没错 [ [微博](http://www.weibo.com/5220650532/BgPw08I4B?mod=weibotime) ] + +* 2014-08-04 @昊奋 **关于知识图谱的第二组推荐**:知识图谱的构建及其应用,介绍了probabilisic KB(Google) KnowledgeVault,Sonya, Satori/Probase (Microsoft),YAGO,LOD2等重要的知识图谱系统。知识库构建,实体抽取、实体链接,查询理解和扩展, 语义搜索,等基础技术汇集在10篇核心文献http://t.cn/RP6JCGn [ [微博](http://www.weibo.com/5220650532/BgJPZo8jJ?mod=weibotime) ] + +* 2014-08-04 @西瓜大丸子汤 问:**识别水贴(微博,回复,留言)和有价值的贴**。这个各路英雄有没有能指点一下的? @刘知远THU 答:刚看到 软件学报 上有篇研究综述:网络水军识别研究。 @QPCN 答:今年www有个tutorial,utah state的lee,关键词crowdturfing 汇总如下: http://t.cn/RP6MOOV 欢迎增补 [ [微博](http://www.weibo.com/5220650532/BgJEbslQz?mod=weibotime) ] + +* 2014-08-04 **SSDB是一个高性能 NoSQL 数据库**, 支持哈希表,集合,列表等数据结构。它作为redis的替代或补充,可以用很小的内存代价实现十亿级别数据的存储。工具与生态系统生长非常迅速,已为众多互联网企业所使用。核心推荐资源 http://t.cn/RPi1q47 所有资源http://t.cn/RPi1q4h 作者是@ideawu [ [讨论](https://github.com/memect/hao/issues/51) ] [ [微博](http://www.weibo.com/5220650532/BgGtV6K6H?mod=weibotime) ] + +* 2014-08-04 **极客杨的OCR工具箱**:Tesseract 是目前应用最广泛的免费开源OCR工具(背后有Google的支持)。商业产品有ABBYY的finereader,还有Adobe;国产的有文通和汉王。当前热点是将OCR移植到智能手机上拓展新的输入渠道、IOS有基于Tesseract的实现,Android有高通vuforia API。资料卡片流: http://t.cn/RPiRyYc [ [讨论](https://github.com/memect/hao/issues/43) ] [ [微博](http://www.weibo.com/5220650532/BgFEdjQG7?mod=weibotime) ] + +* 2014-08-04 @AOzil 问:**可否推荐一些创意自适应的资料** 答:Creative Optimization是一种面向用户自动优化广告内容与展示的技术。斯坦福大学计算广告学入门 http://t.cn/RPiQ6Zn 阐述了基本概念 10个相关厂家从不同侧面的介绍与宣传 http://t.cn/RPiQ6Zm 新闻 和国内专家@刘铁岩 的评论 http://t.cn/RPiQ6ZR [ [讨论](https://github.com/memect/hao/issues/23) ] [ [微博](http://www.weibo.com/5220650532/BgFbclmQD?mod=weibotime) ] + +* 2014-08-04 @zbyufei 问:**基于python开发的Code online系统有哪些。类似于Cloud9 IDE的**。@登州知府 答:开源Online IDE的开发语言比较常见的是Node.js, Java和PHP,python的真没怎么见过。支持Python的IDE,@南京话zen好听 推荐 koding.com @康积华_绩点侠 推荐codeskulptor,所有IDE列表见 http://t.cn/RPxOOPE [ [讨论](https://github.com/memect/hao/issues/22) ] [ [微博](http://www.weibo.com/5220650532/BgEQUaeo2?ref=) ] + +* 2014-08-03 @孙明明_SmarterChina 特别推荐@李航博士 和@徐君_ 的新书**《Semantic Matching in Search》该书阐述了搜索中语义匹配的基本方法**,如查询重写,关键词依赖,翻译,主题模型, 潜在空间模型Latent Space Model, 学习匹配Learning to Matching等。作者提供了电子版下载。预览与目录 http://t.cn/RPiq2hc [ [微博](http://www.weibo.com/5220650532/BgAwzD3LJ?mod=weibotime) ] + +* 2014-08-03 [微综述] 搜索专家 @孙明明_SmarterChina **在"知识图谱与搜索引擎"中推荐了建立知识图谱和利用知识图谱的12篇重要文献**,涵盖利用百科数据,挖掘生成知识图谱,搜索引擎页面排序,利用实体标注、语义匹配,查询中的实体映射等前沿话题。导读 http://t.cn/RPiGS3l 文献列表 http://t.cn/RPiGS3O [ [微博](http://www.weibo.com/5220650532/BgArxBPIn?mod=weibotime) ] + +* 2014-08-02 产品设计的死循环(参见高尔定律第二原则)。附:**高尔定律(Gall's law)** 1、成功复杂系统是从已经成功的简单系统演进而来;2、凭空设计出来的复杂系统不会成功、再怎么打补丁也不行,只能推倒重来;3,简单系统未必成功。 [ [微博](http://www.weibo.com/5220650532/BgshmzO5g?mod=weibotime) ] + +* 2014-08-02 **Sibyl是Google正在使用的分布式机器学习平台**。它于2010年在大规模分布系统论坛(LADIS)就做过主题报告,今年又到DSN做了一次主题报告(视频林大原则讲得很清楚)。到底这四年有什么变化,看看下图(含四个关键幻灯片)就明白了。相关资料合集传送门: http://t.cn/RPxQZIN [ [微博](http://www.weibo.com/5220650532/BgnsoEEqV?mod=weibotime) ] + +* 2014-08-02 @理想主义de患者 问:**有没有垃圾邮件检测的项目啊**。答:比较有效的方法都是结合机器学习与人工知识的。最有名的开源项目是SpamAssassin,可以从很多语言调用如Python 。另有个开源项目Stopspam也值得关注。更早基于机器学习的项目合集中也有个列表 http://t.cn/RPxTJgO [ [讨论](https://github.com/memect/hao/issues/44) ] [ [微博](http://www.weibo.com/5220650532/BgnagiCeE?mod=weibotime) ] + +* 2014-08-02 @羊_o羊o羊爱小破厂 问:**需要tornado的资料**。答:Tornado是一个非阻塞式Python网络框架,并发性能优于大多数其他Python框架。这组资料是基本介绍,中英文都有 http://t.cn/RPxYjIs 更多见Python精华区Tornado资料 http://t.cn/RPxYjMv 稍后我们会分期介绍它与Gevent, Nodejs, Flask的比较 [ [讨论](https://github.com/memect/hao/issues/24) ] [ [微博](http://www.weibo.com/5220650532/Bgn0l5KPA?mod=weibotime) ] + +* 2014-08-02 @钱知易 问有没有**机器学习和深度学习在多媒体信息检索领域的资源**?答:机器学习应用太广,本条只涉及深度学习。其中图像检索@姚鹏鹏YPP 已问过,见答案http://t.cn/RPxj0Y6 语音检索,Google语音组和微软邓力等是领先的,他们主页上的文章基本代表了前沿,一些教程在此 http://t.cn/RPxj0Yi [ [讨论](https://github.com/memect/hao/issues/39) ] [ [微博](http://www.weibo.com/5220650532/BgmM3uZBv?mod=weibotime) ] + +* 2014-08-02 世界级专家精选讲义第一组,今天推出RPI的**James Hendler** (维基百科介绍 http://t.cn/RPxlN6p )**研究领域人工智能和Web科学**,前IEEE Intelligent Systems主编。合集有40个讲义 http://t.cn/RPxlN60 17个视频 http://t.cn/RPxlN6W 特别推荐3个 http://t.cn/RPxlN6O 全集 http://t.cn/RPxlN6l [ [微博](http://www.weibo.com/5220650532/Bgmqdh2r2?ref=home) ] + +* 2014-08-02 [求援] @zbyufei 问:**基于python开发的Code online系统有哪些。类似于Cloud9 IDE的**。进展:主页君找到了9个支持Python的在线IDE,如ideone, repl.it, codepad http://t.cn/RPxOOPE 但没有发现基于python开发的开源系统。向社区达人求援!更新汇报 http://t.cn/RPxOOPn [ [讨论](https://github.com/memect/hao/issues/22) ] [ [微博](http://www.weibo.com/5220650532/BglNC5j9G?mod=weibotime) ] + +* 2014-08-02 推荐一个emacs的很长长长长长长长长....的英文迷你教程,有无数小动画,非常容易懂,看得出是下了功夫的。进去看两眼您就赶紧藏转发吧,这还只是第一部。我怎么觉得这跟一口气看完某韩国连续剧一样一样的呀。http://t.cn/RPxLa51 同意它是有史以来最长的emacs教程请举手! [ [微博](http://www.weibo.com/5220650532/BghEm0kZ8?mod=weibotime) ] + +* 2014-08-01 问:wechat:泡泡龙: 我想知道**query意图分析(query分类)有哪些方法**? 答:搜索关键词: query意图分析 ,query intent,query classification,user intent。 2009 年的一个综述(有幻灯片)。淘宝搜索Query的15个类型;本地搜索(微软专家);图像搜索(雅虎专家)。卡片合集:http://t.cn/RPxPp13 [ [讨论](https://github.com/memect/hao/issues/40) ] [ [微博](http://www.weibo.com/5220650532/BggTn4qtw?mod=weibotime) ] + + +* 2014-08-01 @小77you 问:**关于graph DB有哪些开源的东东**。@昊奋 答:Graph DB有两个分支,一个来自SW,以RDF triple store起家,括Jena, Virtuoso, AllegroGraph等 。另一个分支来自NoSQL,以Property Graph作为底层数据模型,包括Neo4J,Titan等,导读http://t.cn/RPxPAnt 15个数据库 http://t.cn/RPxPAn5 [ [讨论](https://github.com/memect/hao/issues/37) ] [ [微博](http://www.weibo.com/5220650532/BggQIrfwF?mod=weibotime) ] + + +* 2014-08-01 讲一下**Facebook新的开源Javascript类库immutable.js** http://t.cn/RPMDhro 此项目受David Nolen (ClojureScript大神)的Mori影响,支持多种Immutable数据结构(如哈希映射)并超出目前很火的react.js ,支持微软的TypeScript。immutable数据结构在javascript中利于降低存储代价,提高数据版本控制的效率 [ [微博](http://www.weibo.com/5220650532/Bggnuc9sC?mod=weibotime) ] + +* 2014-08-01 **社会机器Social Machine**是Web发明人Berners-Lee和语义网领袖Hendler提出的概念:人与机器/人工智能如何协同工作,完成复杂问题?中国的人肉搜索是他们认为最好的例子,与中国学者合作做了大量研究。@QPCN 教授提供了该主题精炼导读 http://t.cn/RPMNDa5 并列出最重要的文献与讲义http://t.cn/RPMNDaq [ [微博](http://www.weibo.com/5220650532/BgeheoG89) ] + + +* 2014-08-01 @瀟灑小弟 问:**有木有深度学习在文本挖掘或者自然语言处理(NLP)方面的好的资源**? @panjf1987 提供答案:被推荐过最多是Richard Socher 的Deep Learning for Natural Language Processing (without Magic) 这个tutorial在NAACL 2013和ACL 2012都做过。讲稿,视频,参考文献整理如下http://t.cn/RPMSxHq [ [讨论](https://github.com/memect/hao/issues/30) ] [ [微博](http://www.weibo.com/5220650532/BgdnWpEmo) ] + +* 2014-07-31 **知识图谱的构建离不开人的参与,众包**作为一种新兴的方式来获取廉价的标注,评测甚至群体智慧会发挥越来越重要的作用。国内这领域的权威专家 @昊奋 推荐了一组必读文章,有概述、医疗领域知识库众包、众包的链接数据管理、概率推理和众包结合、考虑用户模式的众包、实体链接的众包 http://t.cn/RPI33jW [ [微博](http://www.weibo.com/5220650532/Bg7zDv1UR) ] + +* 2014-07-31 @认知计算_Watson 推荐**IBM Watson系统最新**的介绍文章:Watson在医疗的应用,Watson中的关系提取,多尺度流形学习(Manifold Learning)方法 http://t.cn/RPIxcVY [流形学习两篇文章也供@uso小驴酱 参考] 大数据专区现在有93篇Watson的论文和报导。http://t.cn/RPIxcVl [ [讨论](https://github.com/memect/hao/issues/26) ] [ [微博](http://www.weibo.com/5220650532/Bg4PA3tOC) ] + +* 2014-07-30 @noavailableAccount 问:**有没有KVM(kernel-based Virtual Machine)的学习资料** 答:http://t.cn/RPfGM0H 有个cmu课程(24~27)覆盖了虚拟化的重要文献。最相关的有两篇经典论文;几个幻灯片与短教程;一个英文社区。几个中文博客的对比类概述。还有一本国内风评不错的教科书 [ [讨论](https://github.com/memect/hao/issues/21) ] [ [微博](http://www.weibo.com/5220650532/BfW1Su1ou) ] + +* 2014-07-30 感谢@北京-小武 推荐的**云计算白皮书**,已收录到大数据精华区 http://t.cn/RPfx7P7 为方便大家快速浏览,文中所有的图表已摘出来单列,更加节约略读时间 [ [微博](http://www.weibo.com/5220650532/BfWFKh91b) ] + +* 2014-07-29 @鱼片的小露宝 问:**希望大数据分析和机器学习方向推荐一些书,最好是java而且比较基础容易上手的**。答: Kirk Borne推荐过15本书 http://t.cn/RPcpSHG 用Java入门可以先学Weka Mahout和MLTK。这有一组入门资源 http://t.cn/RPcpSHb @朝花夕拾录 推荐过的CMU机器学习暑期班也非常好 http://t.cn/RPcpSHq [ [讨论](https://github.com/memect/hao/issues/20) ] [ [微博](http://www.weibo.com/5220650532/BfKdEzlLP) ] + +* 2014-07-29 问:@北冥渔翁 **我要找windows服务器维护管理进阶的资料** 答:服务器管理进阶通常是由新需求触发的,例如系统升级,效率优化,安全补丁,软件安装。这里 http://t.cn/RPcOYXo 罗列了一本免费书,几个博客与论坛, 希望微软专家(尤其是MVP)补充指正 @肥九叔 @曾经胖哥 @月光博客 @Edi_Wang [ [讨论](https://github.com/memect/hao/issues/19) ] [ [微博](http://www.weibo.com/5220650532/BfKMJFqJM) ] + +* 2014-07-29 @norvid 问:**求数据仓库的元数据的相关综述资料**。 答:数据仓库自2000年起逐渐从学术研究转到工业应用。热点是大数据挖掘,但元数据仍是数据链接聚合之关键。http://t.cn/RPV4wmy 罗列几个综述。推荐看uzh的幻灯片和Gartner分析报告。搜索词:logical data warehouse, Ontology-based Data Warehouse [ [讨论](https://github.com/memect/hao/issues/16) ] [ [微博](http://www.weibo.com/5220650532/BfOvkc0cq) ] + +* 2014-07-29 @娄琦天天刷围脖: **请问有没有Python集成Fortran项目的实例**?答:历史上有F2Py作为Python的Fortran接口,现在已经集成到Numpy里了。numpy底层很多计算都是Fortran的,所以大量Python项目已经在间接用Fortran。具体的语法例子看这里 http://t.cn/RPVqpLo [ [讨论](https://github.com/memect/hao/issues/15) ] [ [微博](http://www.weibo.com/5220650532/BfOOplhPX) ] + +* 2014-07-29 @心心xi 问:**可否推荐一些关于recommendation的相关论文呢**? 答:有三组不错的资源 @小飞鱼_露 推荐了20多篇论文 http://t.cn/RPcWrNz 其中有@唐杰THU 的工作。@清风运文 列举过推荐系统的19个开源工具 http://t.cn/RPcWrN7 @朝花夕拾录 刚分享了大数据上的推荐系统 http://t.cn/RPcWrNP [ [讨论](https://github.com/memect/hao/issues/18) ] [ [微博](http://www.weibo.com/5220650532/BfL4N1XKw) ] + +* 2014-07-29 @winsty 提到了**梯度提升决策树Gradient Boost Decision Tree (GBDT)** 这是一种模型组合的方法,利用简单模型的组合克服过拟合等问题。目前在推荐/Learn to Rank中广泛使用,如Yandex,也被称为MART/GBRT。这里列出几篇核心论文和R/Python/C++多种实现源码 http://t.cn/RPVUDs7 [ [微博](http://www.weibo.com/5220650532/BfOuusZDX?mod=weibotime) ] + + +* 2014-07-29 @LDL_BIT 问:**有哪些文章讲了多层感知器MLP的拟合能力问题?尤其是拟合多项式的能力**?答:当使用非线性的激活函数,MLP是图灵完备的,可以模拟任何函数,当然包括多项式函数。这称为普适逼近原理(Universal approximation theorem)。深度学习则提高了逼近的效率。经典论文见 http://t.cn/RPVAYZ4 [ [讨论](https://github.com/memect/hao/issues/34) ] [ [微博](http://www.weibo.com/5220650532/BfO8hcCYx?mod=weibotime) ] + * @LDL_BIT 增补:最近就这个问题设计了个小实验,今天也看到一篇讲多项式学习问题的论文,见我的博客http://t.cn/RPSAXV0 注:文章是ICML 2014 “Learning Polynomials with Neural Networks” http://t.cn/RPSnyZi [ [微博](http://www.weibo.com/5220650532/BhahP5biF?mod=weibotime) ] + +* 2014-07-27 [续http://t.cn/RP5WYnt ] @小飞鱼_露 问:**能否推荐一些关于 Learning to Rank 的相关论文,教程,应用呢**?答2:前次推荐了25篇文章,主要是相关算法。@刘知远THU 和 @老师木 进一步推荐了 @刘铁岩 和 @李航博士 的综述和专著,更适合入门 http://t.cn/RP5WYn5 全部LTR资源 http://t.cn/RP5WYnc [ [讨论](https://github.com/memect/hao/issues/17) ] [ [微博](http://www.weibo.com/5220650532/Bfvpro1Kq) ] + +* 2014-07-27 @小飞鱼露 问:**能否推荐一些关于 Learning to Rank 的相关论文,教程,以及一些应用呢**?答:我们咨询了相关专家 @梁斌penny 并得到@白硕SH @熊辰炎 @ICT朱亚东 等精彩讨论,总结在这里 http://t.cn/RP50MiI 根据他们的推荐,我们收集了25篇重要论文 http://t.cn/RP50Mif 可根据专家推荐选读 [ [讨论](https://github.com/memect/hao/issues/17) ] [ [微博](http://www.weibo.com/5220650532/Bfv7TnT6Y) ] + +* 2014-07-26 @姚鹏鹏YPP 问:**能不能推荐深度学习或者机器学习在图像检索中的应用的论文**?答:最权威的索引可以说是最近CVPR 2014上的深度学习在计算机视觉上的教程,主讲人全是本领域的大拿,一共13个讲稿,基础/进阶/实践全有,顺着每个后面附的文献列表可以把领域内重要论文一网打尽了。http://t.cn/RPqzoPJ 这几个资料更具体,有百度和Facebook的图像搜索方法 http://t.cn/RPqUBaK [ [讨论](https://github.com/memect/hao/issues/31) ] [ [微博](http://www.weibo.com/5220650532/BfibJnVlU) ] + +* 2014-07-26 **David MacKay的Information Theory, Inference, and Learning Algorithms** 以统计为纲,把经典信息论,机器学习,神经网络等领域统一阐述,深得好评,在微博上先后有@黄厝海滨 @陈利人 @算文解字 @陈晓鸣在硅谷 等专家推荐。这里总结该书的相关资料,讲稿,视频和PDF电子版都有 http://t.cn/RPqyzr0 [ [微博](http://www.weibo.com/5220650532/BfjuOkpun?mod=weibotime) ] + +* 2014-07-25 @shirleyChou1 问:**请问有没有Python + machine learning 从入门到进阶的完整link list呢**? 答: @52nlp 有个很好的总结,推荐去看 http://t.cn/RPboC0p 他提到的17个工具的开源代码按火爆程度列表在这里 http://t.cn/RPG2U0H。还有更多的机器学习包看这里 http://t.cn/RPGqlmf 入选的都是几百上千星的 [ [讨论](https://github.com/memect/hao/issues/8) ] [ [微博](http://www.weibo.com/5220650532/BfbXodqda) ] + +* 2014-07-25 [资源合集] **欧洲python大会(7月21到 27号)50多个视频与十多个幻灯片**。最火话题:Python能从Haskell学到什么 http://t.cn/RPbBxX5 其他一些热点PPT:Pypy编译器进展, 图数据库,消息传递与并发,用pymc3和Scikit-learn做机器学习,OpenStack云计算平台。更多好东西见 http://t.cn/RPbBxXq [ [微博](http://www.weibo.com/5220650532/Bf9Rfwjpq?mod=weibotime) ] + +* 2014-07-25 [资源合集] http://t.cn/RPb1ewQ **Github上13个最热门的NoSQL数据库排名**。第一的是键值数据库Redis,近万颗星。第二,三是RethinkDB和MongoDB,两大竞争的文档数据库。第四是pouchdb,2800星,一个Javascript的可以跑在浏览器的数据库。图数据库Titan第五。其他有flockdb couchdb riak ravendb orientdb等 [ [微博](http://www.weibo.com/5220650532/Bf9MHlbQA?mod=weibotime) ] + +* 2014-07-25 @AngelZywei 问:**推荐一下图像模糊检测的一些开源项目和资料吧**。答:图像失焦和清晰度检测,有梯度检测,边缘检测等原理,具体的实现有拉普拉斯变换,Hough变换,小波变换等方法。这一组推荐资源13个,分为5篇经典论文,5个开源项目 (bash, python,C,C++, Clojure)和3篇问答 http://t.cn/RPGfOkO [ [讨论](https://github.com/memect/hao/issues/13) ] [ [微博](http://www.weibo.com/5220650532/Bfcp2DVON) ] + +* 2014-07-24 前几天@52cs **推荐@52nlp 在52nlp.cn 上列一批计算机高质量书籍**,可惜很多链接都失效了。当时承诺帮大家找到可下载的版本,今天终于有空先找了第一批“特别推荐系列”里的7篇,提供了免登录下载。原作者有@52nlp @朱鉴 @陈涛sean @rickjin 非常非常感谢他们!http://t.cn/RPbU1Lu (更多待续) [ [微博](http://www.weibo.com/5220650532/Bf3S0sHZ4?mod=weibotime) ] + +* 2014-07-24 @国产哈利波特007 问:**能帮我找下数据挖掘方面的算法吗**?答:推荐从这几本免费的数据挖掘与数据分析书开始。其中A Programmer’s Guide to Data Mining简明扼要,适合入门。Data Mining Algorithms In R解释了基本概念。Mining of Massive Datasets 可以进阶阅读。 http://t.cn/RP4Wmhu [ [讨论](https://github.com/memect/hao/issues/11) ] [ [微博](http://www.weibo.com/5220650532/Bf1Pe5Re3) ] + +* 2014-07-24 **去年2月Nature指出Google在流感预测上出现重大错误**:过高估计发病几率。今年3月Science讲了两个原因:抛弃传统方法过度依赖大数据,算法难以有效过滤网络舆情。前段时间纽约时报也讨论了大数据的局限。这里我们汇总了6篇相关文章,从正反两方面提供参考 http://t.cn/RP4CnFU 感谢 @lidingpku 提供 [ [微博](http://www.weibo.com/5220650532/Bf0921Nfs?mod=weibotime) ] + +* 2014-07-23 @tang_Kaka_back 问:**有没有时间序列分析的相关资料**?答:这里收集了一组时间序列分析入门资源。分为三组:第一组是三本电子书,都是经典,其中两本免费 http://t.cn/RPUHGWb 第二组是9个教程,来自博客和中外大学课件 http://t.cn/RPUHGWL 第三组是维基百科上的核心概念介绍 http://t.cn/RPUHGW2 [ [讨论](https://github.com/memect/hao/issues/14) ] [ [微博](http://www.weibo.com/5220650532/BeTczsXJx) ] + * 三本推荐教材是 《时间序列分析及应用(R语言) 》 《A little Book of R for Time Series》 《Forecasting: principles and practice》 后两本书是免费的,FPP是讲理论的,R的那本是实战。三本书基本上把时间序列分析基本的方方面面都覆盖到了 [ [微博](http://www.weibo.com/1932835417/BeTglxDEq) ] + * 第二组教程里有两个PPT http://t.cn/RPUnWmz http://t.cn/RPUnWmh 一个讲理论一个讲实战。在几篇博客里,特别推荐@敲代码的张洋 的 “时间序列分析基础” http://t.cn/RPUnWmP 基本概念,ARIMA/Ar/MA模型,R的实现都有,非常适合入门 [ [微博](http://www.weibo.com/5220650532/BeTHpBuXZ?mod=weibotime) ] + * 第三组基本概念,也推荐看这个博客上的图 http://t.cn/RPUmVGK , 简明扼要,要搞懂什么概念一目了然。基础概念有时域分析,频域分析,ARIMA模型和各种变种。英文维基介绍的很清楚 [ [微博](http://www.weibo.com/5220650532/BeTKjzWXc?mod=weibotime) ] + * 续时间序列分析入门24个资源 http://t.cn/RPUuHJU 再推荐更多进阶内容。Memect大数据精华区有很多Hadoop上的时间序列分析文章 http://t.cn/RPUmu9T Python精华区有统计实战和StatsModels等包的介绍 http://t.cn/RPUmu9H 最后推荐一个统计专家的专辑,有很多有趣的统计文章 http://t.cn/RPUmu9Q [完] [ [微博](http://www.weibo.com/5220650532/BeTRQs0iB?mod=weibotime) ] + +* 2014-07-23 http://t.cn/RPUxwc6 **万维网科学暑期学校的PPT上线了** Web Science Summer School 2014: Age of Data 院士级巨头Wendy Hall (ACM前主席),Nigel Shadbolt (英国政府公开数据领导者),Jim Hendler(语义网之父)等主讲。内容涉及链接数据,开放数据,数据分析等。共41个资源 感谢@lidingpku 推荐 [ [微博](http://www.weibo.com/5220650532/BeRusDWdT?mod=weibotime) ] + +* 2014-07-22 @呯呀么呯 问:**识别交通标志,怎么确定图片里有交通标志,具体在哪里**?答:这个应该算目标识别和物体识别,CV的经典教程都有object recognition的内容可以参考。具体到交通标志识别,Github上有些开源代码 Matlab C++ Java的都有http://t.cn/RPLR99i 计算机视觉@DeepGlint赵勇 是专家,推荐关注 [ [讨论](https://github.com/memect/hao/issues/12) ] [ [微博](http://www.weibo.com/5220650532/BeFSRtUKj) ] + * @朝花夕拾录: 正好发现一篇学术界的综述文,An overview of traffic sign detection methods http://t.cn/RPLdXUw [ [微博](http://www.weibo.com/3204614242/BeHKUs2la) ] + +* 2014-07-22 问:@北冥渔翁:**日常维护管理的有吗?dba方面**? 答:oracle dba在学习官方文档外,可以跟踪大神的博客,篇幅都不长且能很快掌握很多有用的实战经验。此外面试问题也反映了dba的技术要点。合集传送门 http://t.cn/RPLRu9v 推荐资深dba微博 @yangtingkun 有很多好文摘 http://t.cn/RPLRu9P [ [讨论](https://github.com/memect/hao/issues/10) ] [ [微博](http://www.weibo.com/5220650532/BeFY0AW0V) ] + * @老熊的三分地 (Jun Xiong) 也是Oracle DBA的资深专家,特别推荐他的同名的中文博客 laoxiong.net http://t.cn/a9OBev 很多干货 [ [微博](http://www.weibo.com/5220650532/BeHz6bKWo?mod=weibotime) ] + +* 2014-07-21 @AixinSG 昨天推荐了**CommonCrawl** .这是Google Adsense之父Gil Elbaz离开Google后,为了实现开放数据的理想创立的(他另一个项目是Factual)项目理想是解决大搜索引擎对数据的垄断,鼓励中小企业利用Web数据创业.最新的数据有50亿页面,541T.这里搜集CC相关资源 http://t.cn/RP2Hwxp 待续 [ [微博](http://www.weibo.com/5220650532/BexYIu4TO?mod=weibotime) ] + * 续1 这么大的数据显然没法下载处理 好在AWS提供了存储 http://t.cn/RP2Hn6t 可以直接跑Elastic MapReduce http://t.cn/RP2Hn6c 这里有示范代码 [ [微博](http://www.weibo.com/5220650532/Bey6WuG8B?mod=weibotime) ] + * http://t.cn/RP2D8XL 续2 CommonCrawl提供了MapReduce的示范教程 http://t.cn/RP2QGbz 更实战的例子来自Web Data Commons项目 http://t.cn/RP2QGbZ 综合使用了S3 EC2 SQS ElasticMapReduce 他们利用了100个EC2实例.在另一个例子里Lucky Oyster的工程师只用100美元,14个小时完成了4亿实体的索引 [ [微博](http://www.weibo.com/5220650532/BezJGC9aO?mod=weibotime) ] + * 续3 为了从这么大的数据里找到有用的信息,CC也提供了搜索引擎.如果想自己构造搜索引擎,它的数据格式也是公开的 http://t.cn/RP2RC0c [ [微博](http://www.weibo.com/5220650532/BeyvP1oY7?mod=weibotime) ] + * 续4处理500T处理即使在AWS上也太贵,太耗时了.好在matpalm提供了过滤和部分利用CC数据集的方法.它也集成了一些简单的文本处理和自然语言理解: boilerpipe, tika和stanford parser http://t.cn/RP2Ebmu [ [微博](http://www.weibo.com/5220650532/BeyAODJb8?mod=weibotime) ] + * 续5 CC更强大的应用在于提取结构化数据.正如Wikipedia培育了DBPedia和Freebase,CC在两个方向培养了更大的潜在市场:RDFa, Microdata等网页内嵌语义数据(至少30%的网页已经有这种数据),和网页链接结构图.Web Data Commons只是开始,工业应用前途无量 http://t.cn/RP2EXuC [ [微博](http://www.weibo.com/5220650532/BeyCm6821?mod=weibotime) ] + * 续6,最后提一下CC项目的关键人物Gil Elbaz,Nova Spivack等,他们都是用结构化数据改造现有的Web的传道士和战士,为此奋斗十年以上了.在学术界,这就是语义网的研究,如Jim Hendler也在CC顾问委员会里.http://t.cn/RP2n7vp CC的出现,可以说为语义网走向现实又提供了一个有力的武器 [ [微博](http://www.weibo.com/5220650532/BeyGAdEcQ?mod=weibotime) ] + +* 2014-07-21 **18个最热深度学习Github项目逐一介绍(合集)** http://t.cn/RPLwc9n 有 convnetjs, DeepLearnToolbox, Yusuke Sugomori's code, Lisa Lab's DeepLearningTutorials, deepnet, rbm-mnist 等。主流深度学习模型如DBN RBM CNN等都有,实现语言包括Python, C/C++, Matlab, Javascript, Java, Scala [ [微博](http://www.weibo.com/5220650532/BeANTBes5?mod=weibotime) ] + * 1)DeepLearningBenchmarks http://t.cn/RP2ZJi9 29星, 比较了Theano和其他几个实现的性能:eblearn, python numpy, torch5, torch 7。 不过列表有些老,都是2011年前的,新的项目没有加进去。 [ [微博](http://www.weibo.com/5220650532/BerraaXiZ?mod=weibotime) ] + * 2) n42 ,21星,一个nodejs的实现,可以直接npm install n42。实现了4个算法:Newral Network,Logistics Regressio,Stacked denoised Autoencodern,Deep Belief Nets。代码不长,适合学习。 [ [微博](http://www.weibo.com/5220650532/BeruFnfUA?mod=weibotime) ] + * 3)宗师Hinton的代码,23星,是Matlab的。实现了autoencoder,Restricted Boltzmann Machine(RBM) 。这个应用在图像领域。宗师出品,重要性不用解释。 [ [微博](http://www.weibo.com/5220650532/BerwWAQkE?mod=weibotime) ] + * 4)UFLDL-tutorial ,作者Dan Luu,94星 ,这是斯坦福深度学习公开课和 Andrew Ng's UFLDL(无监督特征学习和深度学习)教程的所有练习的解答。代码是Matlab的,作者声称对Octave兼容,所以理论上甚至可以从python调用。非常适合入门。 [ [微博](http://www.weibo.com/5220650532/BerzZ9Cuk?mod=weibotime) ] + * 5)kaggle-blackbox ,作者Zając,53星 ,这是2013年Kaggle无监督学习竞赛的一个实现 。它实现了一个随机森林算法和一个稀疏滤波算法。语言是Matlab,也可以用Octave跑。文档和说明参见 http://t.cn/RP2AUW6 [ [微博](http://www.weibo.com/5220650532/BerGcbw4R?mod=weibotime) ] + * 6) stanford_dl_ex http://t.cn/RP2A0tn 这是另一个斯坦福深度学习公开课的习题解答,24星,作者Andrew Maas 和Sameep Tandon。语言是Matlab。同样适合入门学习。 [ [微博](http://www.weibo.com/5220650532/BerJH4dN2?mod=weibotime) ] + * 7) Yusuke Sugomori(巣籠悠輔)的深度学习实现 http://t.cn/RP2As94 。这个有近600星,提供了5种语言的实现:Python, C/C++, Java, Scala,囊括了各种主流深度学习算法:DBN, CDBN,RBM, CRBM,dA, SdA, LR等。 [ [微博](http://www.weibo.com/5220650532/BerNd8giv?mod=weibotime) ] + * 8) convnetjs http://t.cn/RP22k0g 这个是目前最火的项目,有1300+颗星,实现了卷积神经网络,可以用来做分类,回归,强化学习等。可以直接npm install convnetjs。convnetjs上有很多很酷的可视化演示 [ [微博](http://www.weibo.com/5220650532/BerVgwlO9?mod=weibotime) ] + * 9) libdeep 这是个C的实现,目前54星。在Linux上可以安装到系统库,然后就可以在其他项目里调用了。如果追求性能,这是个好选择。 [ [微博](http://www.weibo.com/5220650532/Bes2crpZS?mod=weibotime) ] + * 10)rbm-mnist http://t.cn/RP2ySp8 这个是hinton matlab代码( http://t.cn/RP2ySpR )的C++改写,189星。它还实现了Rasmussen的共轭梯度Conjugate Gradient算法。 [ [微博](http://www.weibo.com/5220650532/Bes6Z7Wi7?mod=weibotime) ] + * 11) deepnet ,这个是GPU实现的深度学习算法,前向网络,RBM,DBN,Autoencoder, DBM, CNN包括了,底层用的CUDA 。目前282星。实现语言是Python,做到了简洁性与计算性能的良好结合,特别推荐。 [ [微博](http://www.weibo.com/5220650532/Besc1sHIk?mod=weibotime) ] + * 12) neural-networks-and-deep-learning,243星 ,这是作者的书Neural Networks and Deep Learning的配套代码,语言是Python。这本书是免费的,不过还没有写完,可以预览前几章 http://t.cn/RP2Ur99 [ [微博](http://www.weibo.com/5220650532/BesippKUH?mod=weibotime) ] + * 13)Lisa Lab的DeepLearningTutorials,也就是deeplearning.net上的教程和源代码。Python实现,是基于pylearn2和Theano的。目前500多星,非常火爆。他们的wiki上很不错的资源列表,如论文和数据集 http://t.cn/RP24oCB [ [微博](http://www.weibo.com/5220650532/Besnu8P7O?mod=weibotime) ] + * 14)OpenDL http://t.cn/RP24mYU 这是个很新的实现, 是基于spark的。语言是Java。除了spark还用到了Mallet机器学习包和JBlas线性代数包。更多spark参考请看大数据精华区的专题 http://t.cn/RP24mYb 。 [ [微博](http://www.weibo.com/5220650532/Besq1klg4?mod=weibotime) ] + * 15)deeplearning-class-2011 这个也是 UFLDF课程的一个实现,31星,语言是Octave,Matlab和Python (NumPy) [ [微博](http://www.weibo.com/5220650532/Bessvi1EA?mod=weibotime) ] + * 16) @丕子 的PG_DEEP 这是一个C++实现的Demo,目前有20星。代码相对简单,非常适合入门学习。 [ [微博](http://www.weibo.com/5220650532/BesurfAwg?mod=weibotime) ] + * 17) medal=Matlab Environment for Deep Architecture Learning,37星,是一个Matlab的示范库,也实现了RBM,DBN, CRNM等主流的模型。 [ [微博](http://t.cn/RPwDcRB) ] + * 18)DeepLearnToolbox ,Matlab实现中最热门的库,700多星,囊括了CNN, DBN, SAE, CAE等主流模型。非常简单好用。 [完] [ [微博](http://www.weibo.com/5220650532/Besx8dq9o?mod=weibotime) ] + +* 2014-07-21 问:@apple2811 **我需要Linux的资料** 答:不太清楚具体需要哪一类,先推荐些通用的:1)六篇入门导读,包括Linux的基本知识,学习Linux的攻略,以及在线学习资源列表 http://t.cn/RPLyqp0 2) 六个社区网站(中英文各半),包括官方网站,流量最大的社区,以及问答论坛 http://t.cn/RPLyqpO [ [讨论](https://github.com/memect/hao/issues/9) ] [ [微博](http://www.weibo.com/5220650532/BeBaq8acb) ] + +* 2014-07-21 问:@如果起居录 **语义网用于GIS、RS领域** 答:OGC在2000年制定GML1.0时就有RDFS版(不过后来给放弃了)。目前有W3C的Geospatial Semantic Web Community Group,几个国际工作会议,很多项目都与开放政府数据有关;GeoSPARQL, LinkedGeoData;数据库空间索引。合集传送门:http://t.cn/RPLGgIh [ [讨论](https://github.com/memect/hao/issues/3) ] [ [微博](http://www.weibo.com/5220650532/BeBCPyrVV) ] + +* 2014-07-21 问: @北冥渔翁 **oracle、 mysql 入门进阶** 答:数据库入门进阶资料包括: 参考书、在线教程、以及社区论坛的问答、例程与博客。参考书基本能上网找到电子版。先各举四个重要资源,不断更新中。1.mysql资源:注意MariaDB http://t.cn/RPLyXyb 2.oracle资源:侧重性能优化 http://t.cn/RPLyXyG [ [讨论](https://github.com/memect/hao/issues/7) ] [ [微博](http://www.weibo.com/5220650532/BeBbAvTj4?mod=weibotime) ] + ** 2014-07-22 学习数据库, @何_登成 的微博一定要追!他最近推荐的一些MySQL的资源整理在这里 http://t.cn/RPLg6Gd [ [微博](http://www.weibo.com/5220650532/BeHRXulrk?mod=weibotime) ] + +* 2014-07-18 @小77you 提问:**java 进阶的课程主要学哪些**? 回答:整理了一组资源,见 http://t.cn/RPZBw3D 。讲讲大原则,关键还是看你的兴趣与职业发展取向。 1. 读书学习:改善编程风格,加强团队合作能力;系统架构与设计;后台性能优化; 2. 浪迹江湖:跟踪最新技术;通过网络交流共同进步。 [ [讨论](https://github.com/memect/hao/issues/2) ] [ [微博](http://www.weibo.com/5220650532/Be6Io9BwN) ] + +* 2014-07-18 问:@曲线救己的fighter **求hive** 答:正好有一组经大数据专家 @ShangguanRPI 整理的Hive资源(2012至今已经有27个帖子了) http://t.cn/RPwI2lO 在这个比较贴里,作者详细比较了Hive和其他的Hadoop上的SQL工具 http://www.weibo.com/1932835417/BaukhlfIT [ [讨论](https://github.com/memect/hao/issues/4) ] [ [微博](http://www.weibo.com/5220650532/Be9Uxd5QX) ] + +* 2014-07-18 问: @apple2811 **我需要找js的资料**? 答:见 http://t.cn/RPwtZB0 进阶主题包括 jquery, node.js, pattern, functional, closures, 性能优化 、可视化等。 推荐进阶阅读: 1、90页例程覆盖JS技术要点。 2、纽约大学的JS进阶课 3、原Yahoo大牛 Douglas Crockford的书,被无数人推重 [ [讨论](https://github.com/memect/hao/issues/5) ] [ [微博](http://www.weibo.com/5220650532/Be9tM2Iuj) ] + +* 2014-07-18 @lovesherlock 问:**有没有可以保存自己微博信息的软件或者代码什么的**? 答:我们现在小范围开放个人微博信息的保存, 例如此前推荐的大牛骆逸的微博合集收藏 http://t.cn/RPZdL42 我们也提供单条微博的收藏,把微博变成可引用的卡片,例如 http://t.cn/RPZdL4y 纯图片 http://t.cn/RPZdL4L 图文 [ [讨论](https://github.com/memect/hao/issues/6) ] [ [微博](http://www.weibo.com/5220650532/Be6UJpAkm) ] + +* 2014-07-16 @跛嘞盖儿蹭马路牙子上卡秃噜皮了 问:**数据具有统计分析的价值么?请问能不能结合链数据的特点和R来谈谈**。简答如下:Linked Data作为数据的一种,当然也可以做统计分析。可以看作Statistical relational learning的扩展。全文 http://t.cn/RP7oQxk 推荐资源的合集 http://t.cn/RP7oQxF [ [讨论](https://github.com/memect/hao/issues/1) ] [ [微博](http://www.weibo.com/3161813504/BdMlxjDb0) ] + +## 文摘与点评 + +* 2014-07-22 @龙星计划 计算机方面的经典资料可以参见这个博客。http://t.cn/Rv6rzrj 维护者@52cs [ [微博](http://www.weibo.com/1830516311/BeNwacwCd) ] + + +* 2014-07-22 @AixinSG 推荐大数据综述文章 Toward Scalable Systems for Big Data Analytics: A Technology Tutorial 36页长文免费下载 http://t.cn/RPLDPNK 文章引用接近300篇文献,涵盖数据生成,获取,存储,及分析等主要技术综述 @云教授之云媒体 [ [微博](http://www.weibo.com/1025887594/BeI3I8mMZ) ] + + +* 2014-07-21 @城市数据派-UDParty(城市规划) +【全球 55 个城市数据分享平台( Urban Observatory)】城市瞭望台( Urban Observatory)项目:全球 55 个大城市在此分享城市数据,这将是世界上第一个真正意义上的公共瞭望台。同步对比影响世界城市的重要因素,交通、人口、道路速度、开放空间、年轻人口、老年人口等。详见:http://t.cn/RPLqc8T [ [微博](http://www.weibo.com/3926512618/BeBFodmIo) ] + + +* 2014-07-19 @LiLei-Berkeley +Probabilistic Programming summer school 在Portland顺利结束 教学资料见 http://t.cn/RPAURgG 来自Berkeley,MIT, Stanford等大学企业的教授和研究员讲解了 BLOG, Church, Figaro, Venture 等概率程序语言。 @jxwuyi [ [微博](http://www.weibo.com/5068751438/BehRmyljr) ] + + +* 2014-07-19 @AixinSG 大牛给的信息检索方面综述文章列表,涵盖IR方向N多问题 http://t.cn/RPAL69M [ [微博](http://www.weibo.com/1025887594/Behxw9itr) ] + + +* 2014-07-18 @我爱机器学习 【Awesome Machine Learning】http://t.cn/RPZ80gD 一个超级完整的机器学习开源库总结,如果你认为这个碉堡了,那后面这个列表会更让你惊讶:【Awesome Awesomeness】http://t.cn/RPZ80gk 各种编程语言等都有汇总,值得收藏以备不时之需。 [ [微博](http://www.weibo.com/5066241201/Be5JrDaVM) ] + + +* 2014-07-17 @朝花夕拾录 [资源贴] cassendra 2.1 beta rc3新特性:1、 用户自定义数据类型(UDT):支持集合类型Set和Map,以及其上的二级索引; 2、读写速度提高超过50%;3、行数据的聚集(cluster)与缓存(cache);4、counter设计优化,提高安全和一致性;5、更好的压缩机制,用commit log绕过直接读写 http://t.cn/RPzKcaH [ [微博](http://www.weibo.com/3204614242/BdUTtkSrl) ] + + +* 2014-07-17 @唐杰THU 推荐密歇根的H V Jagadish、康奈尔及微软Partner Scientist JOHANNES GEHRKE, Fellow RAGHU RAMAKRISHNAN等数据库专家在Communication of ACM上关于《大数据技术挑战》,从数据获取、抽取、清洗、集成和建模几个过程阐述其中的数据不一致、不完整、动态、隐私等面临的挑战。http://t.cn/RPzk8wG [ [微博](http://www.weibo.com/2126427211/BdYGPBxV8) ] + + +* 2014-07-17 @hbyido 大量的专业书 数学书下载,推荐 万千合集站 一个专注于资源整理、分类和提供免费下载服务的网站 http://t.cn/RvUYeY7 http://t.cn/RvUYeY7 [ [微博](http://www.weibo.com/1646706835/Be1wvuzmc) ] + + +* 2014-07-16 @西瓜大丸子汤 Jim Hendler今天的视频和PPT: Semantic Web: The Inside Story 强烈推荐搞人工智能的同仁都看看 http://t.cn/RP7CLin 语义网作为符号主义走向应用的尝试,也曾获得与深度学习类似的投资与眼球。结合前两天关于AI winter的讨论,其在今天尤其有参考意义 http://t.cn/RP7CLim @王海勋haixun @Gary南京 [ [微博](http://www.weibo.com/1932835417/BdMYzDNz6) ] + +* 2014-07-16 @西瓜大丸子汤 http://t.cn/RP7Q1pR 深度学习70+条学习资源。这70多条是从Memect用户过去两年的阅读列表里精选出来的,每一条都经过了人工的过滤。从入门到进阶,各大个公司的应用案例,各种软件包的介绍,实战汇报,基本都是实用内容,理论联系实际。随后我们还会特约专家加以导读和点评。[ [微博](http://www.weibo.com/1932835417/BdOlKoAE0) ] + + +* 2014-07-16 @52nlp "线性代数的学习及相关资源" http://t.cn/zOQBTSC , 这个里面汇集了资源,包括电子版教材, “找到一个不错的电子版,非扫描版并且是第4版:Introduction to Linear Algebra_4ED_Strang” ,昨天有同学私信说爱问的已经废了,刚才上传到百度网盘并做了私密分享,感兴趣的同学请在该文尾部找答案。 [ [微博](http://www.weibo.com/2104931705/BdOSF3lrP) ] + + +* 2014-07-16 @朝花夕拾录 [资源贴]续上文 http://t.cn/RP7N6AS 目前整理出了80多个大数据可视化工具:http://t.cn/RP7N6AK javascript类51个,地图类有21个 ,图表类34个,svg类15个;继续增补中,欢迎指正。 --题外话,大数据可视化也要用美女打广告。猜猜那个帅哥是哪个工具的“代言人”,期待大数据展会的“数模” [ [微博](http://www.weibo.com/3204614242/BdNc7rpSB) ] + +* 2014-07-15 @朝花夕拾录 [资源帖]12个#大数据#可视化工具合集汇总,超过一半2014年新出炉。涵盖超过50个#可视化工具#(表格,地图,时间轴,动态图表,树,有向图等),大约80% #javascript#包,例如d3.js,timeline.js,Springy.js。如果说大数据分析是一场足球赛,那数据可视化就是临门一脚。 http://t.cn/RPh1qz5 [ [微博](http://www.weibo.com/3204614242/BdGhf1CNK) ] + +* 2014-07-13 @西瓜大丸子汤 http://t.cn/RPvS3im 大数据书籍推荐新增 Cloudera Impala;Apache Sqoop Cookbook;Outlier Detection for Temporal Data;Big Data Now: 2013 Edition。免费pdf推荐:Social Media Mining ,另有9本免费的数据挖掘与数据分析 http://t.cn/RPvS3in [ [微博](http://www.weibo.com/1932835417/BdlrtpCfV) ] + * @西瓜大丸子汤 9本免费的数据挖掘书之1)Mining of Massive Datasets 斯坦福三大教授Leskovec Rajaraman Ullman 联手推出的免费书,500多页,不是简单的数据挖掘,而是大数据挖掘 http://t.cn/RPv8GTa 这本书的第三章相似分析,第五章链接分析,第九章广告系统当年在我工作中很有用 更多大数据书http://t.cn/RPvS3im [ [微博](http://www.weibo.com/1932835417/BdnvPATOn) ] + * @西瓜大丸子汤 9本免费的数据挖掘书之2)Data Jujitsu(数据柔术)如何解剖复杂数据,利用替代分析技巧,利用人工分析如Mechanical Turk。我觉的这本书最好和Bad Data一起看 http://t.cn/RPvEhRz 数据挖掘的真实效果80%在数据清理和人工,不是算法。传送门 http://t.cn/RPvEhRZ 更多大数据书http://t.cn/RPvS3im [ [微博](http://www.weibo.com/1932835417/BdnHhEApb) ] + * @西瓜大丸子汤 9本免费的数据挖掘书之3)Data Mining Algorithms In R http://t.cn/RPPm0Bk 这是一本Wiki书,也就是维基百科上有关的条目组织形成的书。覆盖了:降维方法,常见模式挖掘, 序列数据挖掘,聚类,分类,和R的数据挖掘包导航(RWeka gausspred optimsimplex 等)更多大数据书http://t.cn/RPvS3im [ [微博](http://www.weibo.com/1932835417/BdwSOo0ap) ] + * @西瓜大丸子汤 9本免费的数据挖掘书之3.1)续上http://t.cn/RPP33gn Data Mining Algorithms In R这书原始格式是网页,不易阅读下载,特制作pdf版,266页 http://t.cn/RPP33gR 。同时推荐Yanchang Zhao的R and Data Mining,160页,都是实战例子 http://t.cn/RPP33gE 如觉得好请支持作者 http://t.cn/RPP33gm [ [微博](http://www.weibo.com/1932835417/Bdx6JeqYf) ] + * 9本免费的数据挖掘书之4) Theory and Applications for Advanced Text Mining http://t.cn/RPP10t2 这是本理论书,作者大都是学术界的。主题是高级的文本挖掘,如关系提取,时间关系提取,文章总结,本体学习,实体提取等各种高大上专题。了解前沿不可不看。更多大数据书http://t.cn/RPvS3im [ [微博](http://www.weibo.com/1932835417/BdxbrtlOf) ] + +* 2014-07-13 @鲍捷AI http://t.cn/RPvxGHA OpenRefine是一个数据清理的优秀工具。它根源于MIT David Karger实验室的研究。该实验室在交互式数据处理的前沿。David Huynh把这个研究带到MetaWeb,也即Freebase团队。被Google收购后,工具改称Google Refine。后来开源成为OpenRefine。这组资源包括了9个必读博客和教程 [ [微博](http://www.weibo.com/3161813504/BdkfSsGI5) ] + ** @西瓜大丸子汤: Freebase是Google知识图谱的前身。从Wikipedia到Freebase再到知识图谱,不仅有机器的数据清理,也有海量的人工数据清理任务。Google Refine在其中的作用不容低估。具体数值不详,不过来自类似系统TrueKnowledge的报告说:0.1%的手工编辑就可以覆盖10%的用户查询 http://t.cn/RPvxjIF [ [微博](http://www.weibo.com/1932835417/Bdkn96ZY7) ] + +* 2014-07-13 @西瓜大丸子汤 http://t.cn/RPvoO88 Python免费书54本,都可以pdf下载。从入门到自然语言处理,科学计算,概率论,经济学,生物信息学,多媒体,密码学,计算机视觉,游戏,社交媒体分析...必有一本适合您 [ [微博](http://www.weibo.com/1932835417/BdlxBqVj1) ] + +* 2014-07-12 @赵家平USC Jeff Hinton组把deep CNN(CovNets)在ImageNet上train好的模型放到网上了,试了下classification, retrieval, image2text的在线demo, amazing! http://t.cn/Rvs0Pvj 最重要的是他们的source code以及installation & documentation 也一并公布,超过Rob Fergus学生的Clarifai http://t.cn/8kL993u [ [微博](http://www.weibo.com/2288385870/Bdcr2jitr) ] + +* 2014-07-12 @西瓜大丸子汤 http://t.cn/RvsoYMd @骆逸 的微博里提到很多Python干货。从过去两年的微博里选出一百多条,有适合入门的书籍和教程推荐,有机器学习,网络编程,推荐系统,各种实战总结(360, instgram),PyCon等等。http://t.cn/RvsQc5G 和机器学习有关的帖子质量也很高,不少也是和python有关的. 我当年学Python的时候就从@骆逸 的帖子里受益匪浅。大牛以前在雅虎,如今是毕肯互动的CEO [ [微博](http://www.weibo.com/1932835417/BdbNddaCA) ] + +* 2014-07-12 @西瓜大丸子汤 http://t.cn/Rvs9BBQ 语义网同仁的福利:本体映射Ontology Mapping项目汇总,一共20多个。入选的都是现在还在活跃的项目,很多都有开源代码。早年的一些项目现在不怎么维护的看这里 http://t.cn/Rvs9BBH @老淘 @潘越_ 徐涵W3China @白硕SH @顾进广 @胡安-格里斯 @昊奋 @唐杰THU @程龚_NJU @汪鹏_SEU [ [微博](http://www.weibo.com/1932835417/Bdc2HxX6g) ] + +* 2014-07-12 @朝花夕拾录 #Swift# 资源合集: 官方博客今日(7/11)上线,并两个相关博客。还有4个社区资源导航贴合集,包括 @SwiftLanguage 提供的中文版。最后是Swift PDF合集(包括 8个WWDC的演讲稿,两个官方iBook参考书的PDF版)http://t.cn/RvsJrLy [ [微博](http://www.weibo.com/3204614242/Bdascij7d) ] + +* 2014-07-11 @网路冷眼 必须观看的Javascript视频!!!】GitHub网站上 http://t.cn/RvFF0AU 收录了2009年至今必须观看的Javascript视频,其作者Nicholas Zakas,Douglas Crockford...都是Javascript江湖响当当的人物,精彩不容错过! [ [微博](http://www.weibo.com/1715118170/Bd7K4yyRG) ] + +* 2014-07-11 @网路冷眼 Docker现在大火,http://t.cn/RvF7fxB 推出史上最全Docker中文资料集萃。真的狠赞![赞] [ [微博](http://www.weibo.com/1715118170/Bd7A4CXMs) ] + +* 2014-07-11 @西瓜大丸子汤 Python贝叶斯工具续 http://t.cn/RvFf2Q9 前面介绍过PyMC,Infer.net 此外@朝花夕拾录 还介绍过emcee和pystan。在实战中怎么用呢?bayesian-python这个系列收集了14篇相关文章。http://t.cn/RvFfwUy 这5篇总结了几个工具的实战例程。要节约时间就看系列第一篇总结的表,一目了然 http://t.cn/RvFfwUL [ [微博](http://www.weibo.com/1932835417/Bd1jO3N6N) ] + +* 2014-07-10 @西瓜大丸子汤 刚才说到python优化,举个具体的例子 Gensim的作者把word2vec(深度学习)做了几个经典优化:循环,numpy/BLAS,cython,多线程(真的可以)结果效率提高了上千倍,比Google开源出来的原始C版本还快3倍。他最近还写了个word2vec教程。无论是学习word2vec还是python优化,都不可不看 http://t.cn/Rvkt0Hk [ [微博](http://www.weibo.com/1932835417/BcSwEc2iu) ] + +* 2014-07-10 @朝花夕拾录 白宫和麻省理工于今年三月举办了“大数据的个人隐私研讨会”。麻省理工校长主持,白宫大数据顾问、美国商业部部长作了主题演讲,还有一堆麻省理工和哈佛的教授研讨了关键技术,包括数据库,加密,匿名,日志分析,语义推理等。相关资源包括每个演讲的视频,以及八个可下载的PPT。http://t.cn/Rvk5BnL [ [微博](http://www.weibo.com/3204614242/BcSoNduiM) ] + ** 刚刚整理出了4个大数据信息安全关键问题: *数据收集,如何签订合理的用户知情协议 *数据共享,如何保障透明度,控制使用权限,防止数据泄露 *数据使用,如何避免重新识别攻击,防止意外地侵犯个人权益 *数据监管:如何在不同的环境(国家、政府、组织、政策)中监管大数据的运营 [ [微博](http://www.weibo.com/3204614242/BcSJGkVZQ) ] + +* 2014-07-09 @西瓜大丸子汤 http://t.cn/RvDWJ20 23个python的机器学习包,从常见的scikit-learn, pylearn2,经典的matlab替代orange, 到最新最酷的Theano(深度学习)和torch 7 (well,其实lua,不过从ipython调用很容易),基本常用的通用python机器学习平台都有了。 [ [微博](http://www.weibo.com/1932835417/BcLRAbXWr) ] + +* 2014-07-09 @西瓜大丸子汤 在推荐一本我最近正在看的书Probabilistic Programming and Bayesian Methods for Hackers 贝叶斯方法实战,用Python来解释各种概率推理方法,有代码有真相。基于PyMC 包,解剖了MCMC ,大数定律,金融分析等概念与应用。Github上已经有5000颗星。更多python统计方法资源 http://t.cn/RvDJLy6 [ [微博](http://www.weibo.com/1932835417/BcKj0k0Wx) ] + +* 2014-07-09 @朝花夕拾录 #大数据#产业化的一个重要指标:超过20家美国商学院(例如UVA,RPI,GWU)开设了大数据和数据分析硕士课程,而且有一半学校的课程只要一年就能毕业。这个可是转型成高富帅的绝佳机会呦。http://t.cn/RvDVtXm --我是分割线-- 呵呵,还有个IIT,这可不是印度学校,是伊利诺伊理工大学。 [ [微博](http://www.weibo.com/3204614242/BcJOW5uIt) ] + +* 2014-07-09 @西瓜大丸子汤 Spark Summit 2013的PPT和教程合集整理在此 http://t.cn/RvDVO9I ,一共33个。和昨天放出了60个Spark Summit 2014的PPT一起,基本涵盖了近期spark的动态与产业布局。http://t.cn/RvewMsv 和去年比,今年峰会的内容无论数量还是应用的广度与深度,都大幅增长了。例如去年没有自然语言处理,今年有两个 [ [微博](http://www.weibo.com/1932835417/BcJR80Opo) ] + +* 2014-07-08 @何_登成 分享下最近看的几篇关于分布式KV/NoSQL的论文与资料:1. aerospike http://t.cn/RveVR9I 2. facebook memcache http://t.cn/RvjMGCj 3. redis cluster http://t.cn/zRPS3Q8 4. 腾讯CKV http://t.cn/8s7PSiN 5. 淘宝Tair http://t.cn/zjkhVoF 简单点评:架构大同小异,各有特色,可相互借鉴。[ [微博](http://www.weibo.com/2216172320/BcB68hq0Q) ] + +* 2014-07-08 @西瓜大丸子汤 Spark Summit 2014全部PPT合集 http://t.cn/RvewMsv Spark是新一代大数据处理平台,基于内存的集群计算使它比MapReduce快一百倍,非常适合迭代计算和并行机器学习。合集包括了全部60个演讲的PPT(除了一个链接失效)预览和下载。AMP Lab, Databricks, Cloudera, MapR, Amazon等重量级厂家一网打尽 [ [微博](http://www.weibo.com/1932835417/BczEbsqJz) ] + +* 2014-07-07 @西瓜大丸子汤 +继续推荐几个python NLP的资源。http://t.cn/RvgckyQ NLTK book是入门必读。 http://t.cn/RvgckyY @陈涛sean 做了中文翻译《用Python进行自然语言处理》可免费下载。http://t.cn/RvgckyH Jimmy Lin(前马里兰教授)有书和博客讲并行NLP http://t.cn/RvgckyT 基于Hadoop 和MR [ [微博](http://www.weibo.com/1932835417/BcsuDegCM) ] + +* 2014-07-07 @ansj 500w 的公司名录,只包含公司名称 , 用来做组织机构命名实体识别.链接: http://t.cn/Rvgy9sg 密码: 3a1q http://t.cn/Rvgy9oC [ [微博](http://www.weibo.com/1434895303/BcrHqhZMK) ] + +* 2014-07-06 @西瓜大丸子汤 http://t.cn/RvdhLRA Text Processing in Python 一本讲python文本处理的小书,涵盖了基本字符串,正则表达式,状态机,和互联网文本处理的基本点。印刷版在亚马逊上卖41刀,文字电子版免费下载 [ [微博](http://www.weibo.com/1932835417/Bch0GlR1u) ] + +* 2014-07-05 @王威廉 +鉴于大家对Wasserman的统计笔记反响不错,我就再推荐一本他的经典统计入门教材All of Statistics: A Concise Course in Statistical Inference http://t.cn/RvrzVBw pdf: http://t.cn/RvrzVBA 这本书获得过国际贝叶斯分析协会的DeGroot奖。[ [微博](http://www.weibo.com/1657470871/Bc7QqbYSV) ] + +* 2014-07-04 @西瓜大丸子汤 把最近比较重要的关于Watson的资料分了类 十多个pdf http://t.cn/Rv1BOxx IBM自己的介绍 http://t.cn/Rv1BOxX 媒体报导 http://t.cn/Rv1BOx6 Watson在卫生领域的应用 http://t.cn/Rv1BOxJ 音频视频 http://t.cn/Rv1BOxi 其他应用 http://t.cn/Rv1BOxa [ [微博](http://www.weibo.com/1932835417/BbXC4v3ec) ] + +* 2014-07-04 @朝花夕拾录 七月三日新鲜出炉 #大数据#资源帖。。。24个知名掌门级别(CxO)大数据专家及其推特账号。有来自于大企业的(例如Google, KDnuggets, TeraData,IBM,和Ford ),但更多的来自创新企业。咱不指望他们都会编Hadoop程序,但他们在业内的影响力那是刚刚嘀--全是推特万人大V。 http://t.cn/RvBJqDr [ [微博](http://www.weibo.com/3204614242/Bc1c2bbHT) ] + +* 2014-07-03 @西瓜大丸子汤 http://t.cn/Rv3gsW2 今天的一大新闻是IBM的BlueMix:基于Watson自然语言问答系统的云服务。以前的工作也和问题有关,这里先放几篇读过的Watson的文章和slides。AAAI Magzine 2010的文章有点老,不过作为提纲还是推荐一读。IBM Journal 2012专辑选了3篇文章,在语言解析与语义数据的应用 [ [微博](http://www.weibo.com/1932835417/BbPNRnN0J) ] + +* 2014-06-24 @西瓜大丸子汤 http://t.cn/RvYTJ3r 《世界杯的大数据和小数据》这组专题汇集了2010和2014年世界杯的数据。2010年BBC利用语义数据做了动态新闻发布,降低记者写作和BBC的内容发布成本。OpenLink今天发布了2014世界杯数据的RDF版,包括各队,球员和分组的可查询数据。还有football.db历年的数据,和World Cup in JSON [ [微博](http://www.weibo.com/1932835417/Bar9NnkmF) ] + +* 2014-06-24 @ShangguanRPI +作为看到整篇整篇java mapreduce代码就想吐的scala脑残粉,肯定不能放过scalding。放出平时积累的一点scalding的学习资料,http://t.cn/RvYmfSX。 + + +* 2014-06-21 @朝花夕拾录[资源帖]十几个图像处理中常用的python包。NumPy和SciPy必装,图像处理:PIL/PILLOW入门,SimpleCV进阶,OpenCV专业。还有Mahotas ,ilastik,MedPy多用于生物医学多维图像处理。辅助工具:scikit-learn机器学习,sh5py数值数据存储(numpy数组),pprocess并发处理。http://t.cn/RvWmogb [ [微博](http://www.weibo.com/3204614242/B9YZ3ftu3) ] + +* 2014-06-21 @朝花夕拾录 [资源帖] pypy3.2.1(Fulcrum,支点)于6月20日发布。http://t.cn/RvlC1JG 是第一个pypy3稳定版,支持python3.2.5,改进了unicode,JIT,GC。 参考:cpython, jython(java), ironpython (.net). 讨论:还不支持numpy,ctypes(但有numpypy);windows 64bit还不支持;有人测出了7倍加速(一般4~5倍)。[ [微博](http://www.weibo.com/3204614242/Ba5pTw5bo) ] + +* 2014-06-20 @朝花夕拾录 五篇python贝叶斯入门短文,以及三个常用工具: emcee , pymc, pystan, http://t.cn/RvOj4nM 顺路说说统计学两大门派: 频率派(Frequentists)和 贝叶斯派(Bayesians) *Frequentists的长远目标是只有5%的时间犯错误 *Bayesians隐约期待马,瞥见一头驴,坚信(95%的可能性)他看到了一头骡子 [ [微博](http://www.weibo.com/3204614242/B9MZ7kdEv) ] + +* 2014-06-20 @ShangguanRPI Pivotal是一家新兴的大数据和企业PaaS解决方案提供商,由EMC、Vmware和GE在2013年合资成立,将自家的大数据技术重新架构在Hadoop平台上。这个专题资源汇总了20多篇Pivotal产品的介绍和新闻,如MPP SQL on Hadoop,在Docker上部署Hadoop,如何用PivotalR做大数据分析等 http://t.cn/RvOBEIF。[ [微博](http://www.weibo.com/1663264965/B9QvKpz94) ] + +* 2014-06-19 @朝花夕拾录 #大数据专题# 12个与#2014世界杯#相关的在线资源:(1)总结如何预测冠军得主;(2)大数据应用例程(bing, sas, rapidminner); (3)免费在线数据库,可下载(football.io, json api)。 http://t.cn/Rv0OOd2 [ [微博](http://www.weibo.com/3204614242/B9EtcxrE4) ] + +* 2013-09-20 @developerWorks 免费电子书《面向程序员的数据挖掘实战指南》,侧重实例,以 Python 语言讲解。目前已完成6章,仍在更新中,并且提供 PDF 下载。http://t.cn/zWQEQH8 作者:Ron Zacharski cc @ResysChina [ [微博](http://www.weibo.com/1894238970/Aai5HCiWx) ] + +* 2013-01-28 @陈利人 【机器学习中的数学系列】回归、梯度下降 http://t.cn/hDoULu ;线性回归,偏差、方差权衡 http://t.cn/Sxppf2 ;模型组合之Boosting与Gradient Boosting http://t.cn/SP05f3 ;线性判别分析, 主成分分析 http://t.cn/SAeY2U ;强大的矩阵奇异值分解及其应用 http://t.cn/akJxgj [ [微博](http://www.weibo.com/1915548291/zgzoTcvzL) ] + +## 通知与声明 + +2014-09-10 @好东西传送门 的粉丝里谁转发好东西最多?前10名:1 @Noodles-Xu 2 @LR机器学习计算机视觉 3 @海中的沙粒 4 @hbyido 5 @-单世民- 6 @武文骁很忙也很胖 7 @侠女无敌-曾佩玲 8 @彤言彤趣 9 @yutho 10 @季波USTC [good] [ [微博](http://www.weibo.com/5220650532/BmiMf0Fu4) ] + + + + +2014-08-06 @好东西传送门 是开源的,任何人都可以贡献好的文献、代码或商业产品。你可以fork一份github库,并在awesome目录下建立一个文件,内容就是链接(文字描述可选)例 http://t.cn/RPal5fW 提交一个pull请求,剩下的就交给传送门了。您的贡献会被署名 [ [微博](http://www.weibo.com/5220650532/Bh2oIc33V?mod=weibotime) ] + +
+ + +2014-08-04 @好东西传送门 开源5天,已经有了88颗星。这里解释一下开源政策:为了鼓励好东西的传播,我们采用了Creative Commons Attribution-NonCommercial-ShareAlike 4.0许可证:Github上的内容可以被自由分享和改编,但需用同样的许可证发布,致谢@好东西传送门 并不得用于商用 http://t.cn/RPiYr2f [ [微博](http://www.weibo.com/5220650532/BgEucqeEz?ref=) ] + +* 2014-07-31 开源的好东西传送门:今天我们已经把所有的问答和文摘都整理到Github上了,查看别人已经问过的问题更加容易。你可以一键复制,拥有自己不会丢失的好东西列表。也可以关注项目获得更新通知。如果你关心大数据、机器学习、数据库、Web、Python(话题增长中)去加星收藏吧 http://t.cn/RPfAgNg [ [微博](http://www.weibo.com/5220650532/Bg436jjPL?mod=weibotime) ] + +* 2014-07-31 这样认领问题:去Github Issue列表下面 http://t.cn/RPI5jaZ 找一个感兴趣的问题,回复你想分享的资源链接,也可附简单评语。请留下你的微博帐号(或其他联系方式),好东西传送门会整理后贴出你的答案并注明贡献者是你 [ [微博](http://www.weibo.com/5220650532/Bg3zxFnR5?mod=weibotime) ] + +* 2014-07-30 传送门也有微信了,去扫描吧。或者按名字直接加“好东西传送门”。微信会更多承载每日精华整理的功能。如果错过了微博上的好东西,微信上还会看到。转发一下,让更多人看到最精彩的技术好东西! [ [微博](http://www.weibo.com/5220650532/BfXB5Esip?mod=weibotime) ] + +* 2014-07-30 http://t.cn/RPfAgNg 好东西传送门所有问答和推荐资源合集现在都放在Github上了!每个问题都有自己的讨论页,可讨论增补。目前还有十多条未完成问题,欢迎各位专家帮忙认领回答!8月5日前转发最多的两条答案将获赠 @TechCrunch中国 国际创新北京峰会双日VIP票,本来3200一张哦! [ [微博](http://www.weibo.com/5220650532/BfVwN1Q2a?mod=weibotime) ] + +* 2014-07-28 回复@silverhawk_ny:轻问答就是相对知乎这样的“重”问答工具而言,利用机器生成大量的知识卡片,问答时回答问题的人只要利用自己的知识,快速组织卡片。一般这个过程不需要写长文,几分钟就可以完成,所以叫“轻”//@silverhawk_ny:轻问答是什么意思? [ [微博](http://www.weibo.com/5220650532/BfE4rFyXR?mod=weibotime) ] + +* 2014-07-28 《好东西传送门到底是什么?》 很多人问这个帐号到底是什么?答:它是一个网上资料的人肉搜索引擎。它集成了一群微博上的好人,以最简练的方式,帮大家找到最精华的资源。达到这个目的手段有三:知识卡片,人肉知识桥梁,轻问答。这是不是你想要的“好东西传送门”?欢迎讨论!http://t.cn/RPtMEmu [ [微博](http://www.weibo.com/5220650532/BfCrt3FO2?mod=weibotime) ] + From 3d51d50dd080767bdd5f8e2c0416a94430f0a964 Mon Sep 17 00:00:00 2001 From: Memect Date: Thu, 12 Feb 2015 23:25:44 -0800 Subject: [PATCH 484/485] Update README.md --- README.md | 2357 +---------------------------------------------------- 1 file changed, 2 insertions(+), 2355 deletions(-) diff --git a/README.md b/README.md index 7d8bea0..8e8694c 100644 --- a/README.md +++ b/README.md @@ -32,2361 +32,8 @@ - ## 问答与传送档案 -2014-11-06 @茶是真热 推荐的微博上的运维方面人士id :第三组3个: @陈沙克 (虚拟化) @vpsee (虚拟化) @扶凯 (看他网站吧,微博上说的不多) 这些是在微博发表较多的,排名无先后。很多公司内的扫地老僧不太公开表达。完整列表http://t.cn/R78mgBL 欢迎大家继续推荐 [ [微博](http://www.weibo.com/5220650532/Bv1ICjxXT) ] - -2014-11-06 @茶是真热 推荐的微博上的运维方面人士id :第二组5个:@绿小小肥 (salt) @wilbur井源 @诸超_小石头爸爸 @大舞-ukl @王关胜 (除了很专业还有很帅) 完整列表http://t.cn/R78mgBL [ [微博](http://www.weibo.com/5220650532/Bv1HQ9wAH) ] - -2014-11-06 @茶是真热 推荐的微博上的运维方面人士id :第一组5个:@Perldaily (perl,运维工具和体系) @Argv (elk,perl) @平凡的香草 @刘天其斤 @jaseywang 完整列表http://t.cn/R78mgBL [ [微博](http://www.weibo.com/5220650532/Bv1HuyZKM) ] - -2014-11-06 Google大牛讲解深度学习规模化方法,融汇机器学习和系统的前沿。@Kurtt_Lin 做了现场摘要和点评,并分享了PPT照片。推荐到今天的微信头条 http://t.cn/R78aEoJ [ [微博](http://www.weibo.com/5220650532/Bv0fFsXo4) ] - -> 2014-11-05 @Kurtt_Lin: #Face to Face with Dr. Jeff Dean# 下午在THU FIT楼听了Jeff Dean大规模深度学习的talk,也算追了“男神”一把[呵呵]。后面与Jeff交流时感觉到,他超级nice,谦虚和善,时不时也幽默一把,结束时也很有活力地喊大家一起合影。Talk内容和ppt请见:http://t.cn/R7QcsHn [ [微博](http://www.weibo.com/1567257743/BuTRS111V) ] - -2014-11-06 感谢 @Kurtt_Lin @tedsky2 @王威廉 @网路冷眼 @王威廉 今天继续有CIKM现场报道。另外Jeff Dean清华报告也有多人从不同角度分享,都在长版中 http://t.cn/R78fAlG [ [微博](http://www.weibo.com/5220650532/BuZGVzF24) ] - -> 2014-11-06 @好东西传送门: 机器学习头条 2014-11-05 http://t.cn/R78fAl4 1)Jeff Dean大规模深度学习报告 2)压缩采样介绍 3)Yago创始人Gerhard Weikum提出“大文本”概念 4)将Elasticsearch和Apache Spark部署到云端 5)NIPS 2014的大规模分布式机器学习研讨会的论文 加长版52条 http://t.cn/R78fAlG [ [微博](http://www.weibo.com/5220650532/BuZG0yHpu) ] - -2014-11-06 机器学习头条 2014-11-05 http://t.cn/R78fAl4 1)Jeff Dean大规模深度学习报告 2)压缩采样介绍 3)Yago创始人Gerhard Weikum提出“大文本”概念 4)将Elasticsearch和Apache Spark部署到云端 5)NIPS 2014的大规模分布式机器学习研讨会的论文 加长版52条 http://t.cn/R78fAlG [ [微博](http://www.weibo.com/5220650532/BuZG0yHpu) ] - -2014-11-06 数据科学小技巧汇总小小册子 //@phunter_lau: 不错,技巧的占的部分比较大,适合摸爬滚打多年的人看看 [ [微博](http://www.weibo.com/5220650532/BuXZdC32q) ] - -> 2014-11-06 @西瓜大丸子汤: Data Science by AnalyticBridge http://t.cn/R7Qr3kL 一本小书, [ [微博](http://www.weibo.com/1932835417/BuXeOEYcv) ] - -2014-11-05 这个入门系列博文非常好,节约初学者啃大不部头的时间。推荐到今天的微信摘要版: http://t.cn/R7HNHFw [ [微博](http://www.weibo.com/5220650532/BuQCTrwWn) ] - -> 2014-11-04 @研究者July: 已写的:①决策树http://t.cn/zOmMFLa,②SVMhttp://t.cn/zOeaL7j,③K近邻http://t.cn/zjLQ8Ky,④数理统计http://t.cn/zj9kZ8a,⑤最大熵http://t.cn/R7atoLH,⑥Adaboosthttp://t.cn/R7lXmhC,⑦谱聚类http://t.cn/R7jLDaB,待写的还远不只是这些:贝叶斯网络、EM、主题模型、HMM、CRF、PCA、LDA。 [ [微博](http://www.weibo.com/1580904460/BuLqE1mj8) ] - -2014-11-05 十分感谢推荐。格灵深瞳是中国最好的计算机视觉公司之一,右边经常分享一些很好的CV学习资源,机器学习日报里也常常可以看到的。[呵呵]//@格灵深瞳: 推荐一下好东西~欢迎分享@有需要的人~[熊猫] [ [微博](http://www.weibo.com/5220650532/BuQnWao51) ] - -> 2014-10-14 @好东西传送门: 很多人问到怎么订阅<机器学习日报>.为方便大家,做了个订阅按钮在主页上,域名 ml.memect.com http://t.cn/R7ZepFz .或给 hao@memect.com 发封空信,标题是 " 订阅机器学习日报 " 即可.另外,过去几期长短版的链接都加到主页上了. [ [微博](http://www.weibo.com/5220650532/BrvCDmx41) ] - -2014-11-05 //@CSDN_CODE: 邱锡鹏教授认为,目前云计算逐渐成为一个基础设施,给很多个人以及中小企业提供了低成本的解决方案,自然语言处理技术也会逐渐成为一种基础服务。要从事自然语言处理技术相关研究和开发,最好是从某个具体问题入手,了解最新的研究进展,然后借助一些开源的工具,逐渐了解 [ [微博](http://www.weibo.com/5220650532/BuQmrmtAh) ] - -> 2014-11-05 @CSDN_CODE: #开源专访# 【复旦@邱锡鹏 教授:云时代,NLP也将是一种基础服务】之前报道过复旦大学推出了基于云的自然语言处理开源项目FudanNLP,大家反馈积极。对此我们进行了深度采访,项目负责人邱锡鹏教授谈了目前自然语言处理技术发展的两大瓶颈,一是大规模语料库,二是语义表示:http://t.cn/R7HS4EO [ [微博](http://www.weibo.com/3460619722/BuQg92KvP) ] - -2014-11-05 感谢 @研究者July @PyPINews @tedsky2 @鲁东东胖 @我爱机器学习 今天长版的重头戏是CIKM的各种现场报道,不可错过。另外最近@bitslife 也分享了很多机器学习在生物信息学中的应用,向对bioinformatics感兴趣的同学推荐。 [ [微博](http://www.weibo.com/5220650532/BuQlJm3gp) ] - -> 2014-11-05 @好东西传送门: 机器学习头条 2014-11-04 http://t.cn/R7HoMMU 1)研究者July的数据挖掘博文系统汇总 2)SnowNLP中文自然语言处理工具包 3)林智仁:线性模型+特征工程 的机遇和挑战 4)神经网络实现侧向抑制的讨论 5)Learning To Rank之LambdaMART的前世今生 加长版60条 http://t.cn/R7HoMMy [ [微博](http://www.weibo.com/5220650532/BuQkI6i3G) ] - -2014-11-05 机器学习头条 2014-11-04 http://t.cn/R7HoMMU 1)研究者July的数据挖掘博文系统汇总 2)SnowNLP中文自然语言处理工具包 3)林智仁:线性模型+特征工程 的机遇和挑战 4)神经网络实现侧向抑制的讨论 5)Learning To Rank之LambdaMART的前世今生 加长版60条 http://t.cn/R7HoMMy [ [微博](http://www.weibo.com/5220650532/BuQkI6i3G) ] - -2014-11-05 http://t.cn/hRgMJ 可视化方法的元素周期表,总结了6大类100种方法,每种都有图例。打印出来帖在案头吧 [ [微博](http://www.weibo.com/5220650532/BuOg55Tpb) ] - -2014-11-04 目测为会引发极佳讨论的问题,传送门讲收集和增补大家的问答。跟踪页 http://t.cn/R7TfwMN [ [微博](http://www.weibo.com/5220650532/BuJ5dDT40) ] - -> 2014-11-04 @丕子: PCA, SVD(其他low rank*), LDA(Topic Model), K-means, Sparse Coding,Hidden Layer of Neural Network。。。等等这一大类问题应该都可以用一套理论来解释其几何意义,与向量空间、矩阵、特征值和特征向量有关的,有阐述最本质原理的文章? 比特征值和特征向量更低层的?@好东西传送门 [ [微博](http://www.weibo.com/1665335994/BuGdVDyhN) ] - -2014-11-04 根据我们的非科学统计,在@好东西传送门 的门友中,各种微博上笔记软件的被使用次数依次是 我的印象笔记 mywiz 有道云笔记收藏 mark,比例为12 : 3 : 1.6 : 1 @印象笔记 拔得头筹 [ [微博](http://www.weibo.com/5220650532/BuICza8If) ] - -2014-11-04 @王威廉 昨天推荐的“Olivier Grisel简要总结机器学习,深度学习近年进展”,传送门做了摘要版,节选了其中的核心页面,发在微信版里了 http://t.cn/R7Tzge6 原PPT号称30分钟了解,这个摘要版大概10分钟可以读完。 [ [微博](http://www.weibo.com/5220650532/BuHZWt5fq) ] - -2014-11-04 回复@禅系一之花: 请看以前的问答整理: 2014-09-10 [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY //@禅系一之花:请问有没有用Python学习概率论的书籍呀? [ [微博](http://www.weibo.com/5220650532/BuHEimICg) ] - -> 2014-11-04 @好东西传送门: 机器学习头条 2014-11-03 http://t.cn/R7YWAZ5 1)Olivier Grisel简要总结机器学习,深度学习近年进展 2)从拉普拉斯矩阵说到谱聚类 3)SVD介绍PPT 4)张巍介绍HMM 5)MLOSS机器学习开源工具集 加长版26条 http://t.cn/R7YWAZb [ [微博](http://www.weibo.com/5220650532/BuG6rqvyJ) ] - -2014-11-04 感谢 @王威廉 @研究者July @了了JIANG @Nietzsche_复杂网络机器学习 @52nlp [ [微博](http://www.weibo.com/5220650532/BuG6vxAGT) ] - -> 2014-11-04 @好东西传送门: 机器学习头条 2014-11-03 http://t.cn/R7YWAZ5 1)Olivier Grisel简要总结机器学习,深度学习近年进展 2)从拉普拉斯矩阵说到谱聚类 3)SVD介绍PPT 4)张巍介绍HMM 5)MLOSS机器学习开源工具集 加长版26条 http://t.cn/R7YWAZb [ [微博](http://www.weibo.com/5220650532/BuG6rqvyJ) ] - -2014-11-04 机器学习头条 2014-11-03 http://t.cn/R7YWAZ5 1)Olivier Grisel简要总结机器学习,深度学习近年进展 2)从拉普拉斯矩阵说到谱聚类 3)SVD介绍PPT 4)张巍介绍HMM 5)MLOSS机器学习开源工具集 加长版26条 http://t.cn/R7YWAZb [ [微博](http://www.weibo.com/5220650532/BuG6rqvyJ) ] - -2014-11-04 跨媒体知识库构建,今年第三个重要教程 //@昊奋: 继SIGMOD和KDD的相关tutorial之后的另外一个关于KG的重量级tutorial,跨媒体知识库构建是一个趋势,特别对于移动互联网时代。不过链接有些贴错,纠正如下 http://t.cn/R7Y4g7n http://t.cn/R7Y4g7E [ [微博](http://www.weibo.com/5220650532/BuEEdbCkq) ] - -> 2014-11-03 @王海勋haixun: ACM MM 2014 Tutorial with Lexing Xie: Learning Knowledge Bases for Text and Multimedia Part 1 (http://t.cn/R7YUd9Q Part 2(http://t.cn/R7YUd9H [ [微博](http://www.weibo.com/2083726665/BuCjWCcsC) ] - -2014-11-03 好东西周报 http://t.cn/R7jhDtE 过去一周一共有66条 欢迎订阅 [ [微博](http://www.weibo.com/5220650532/BuxypsIGP) ] - -2014-11-03 好消息 //@Python开发者: 好福利,转需扩散啊!!! [ [微博](http://www.weibo.com/5220650532/BuxbkomB5) ] - -> 2014-11-03 @伯乐头条: 福利:Jetbrains 推出 PyCharm 教育版,学生和教师免费使用,详见: http://t.cn/R7l12U8 cc: @Python开发者 [ [微博](http://www.weibo.com/3844704614/BuwQnpYjN) ] - -2014-11-03 @lifelogger 推荐个opencv for python的网站 http://t.cn/R7luikW 提供很多以图像搜索为目标的相关tutorial [ [微博](http://www.weibo.com/5220650532/BuwT4FQEg) ] - -> 2014-11-01 @cvnote计算机视觉笔记: 看到一博文,讲计算机视觉的四部奇书(应该叫经典吧),分别是Hartley的《多图几何》、Gonzalez的《数字图像处理》、Szeliszi的CV:Algorithm&Application、Sonka等的《图像处理,分析与机器视觉》。前三本有看过,或理论深刻或讲解细致或涉猎广泛。感觉还真想不出更经典的作品了。各位还有什么推荐么 [ [微博](http://www.weibo.com/3812841100/BuilLhEY1) ] - -2014-11-03 100 numpy exercises 简洁有力的python数值计算入门 [ [微博](http://www.weibo.com/5220650532/BuwSwFL65) ] - -> 2014-11-03 @智博是小叮当: 100 numpy exercises The goal is both to offer a quick reference for new and old users and to provide also a set of exercices for those who teach. http://t.cn/R7l3yzj @好东西传送门 [ [微博](http://www.weibo.com/1646120672/BuwLhfhzj) ] - -2014-11-03 //@路确实脚下: 再推荐两本好书《computer vision a reference guide 》和《dictionary of computer vision and image processing》//@好东西传送门:总结各位的增补 @星空下的巫师《学习OpenCV》@Nobunaga_Means《computer&machine vision》@路确实脚下 《Moden computer vision》 [ [微博](http://www.weibo.com/5220650532/BuwS6mClz) ] - -> 2014-11-01 @cvnote计算机视觉笔记: 看到一博文,讲计算机视觉的四部奇书(应该叫经典吧),分别是Hartley的《多图几何》、Gonzalez的《数字图像处理》、Szeliszi的CV:Algorithm&Application、Sonka等的《图像处理,分析与机器视觉》。前三本有看过,或理论深刻或讲解细致或涉猎广泛。感觉还真想不出更经典的作品了。各位还有什么推荐么 [ [微博](http://www.weibo.com/3812841100/BuilLhEY1) ] - -2014-11-03 感谢 @梁斌penny @李沐M @哈工大深圳_徐睿峰 @cvnote计算机视觉笔记 @刘知远THU [ [微博](http://www.weibo.com/5220650532/BuwQYlls1) ] - -> 2014-11-03 @好东西传送门: 机器学习头条 2014-11-02 http://t.cn/R7l1KEq 1)推荐系统中bias和个性化的讨论 2)推荐系统两个最好的教程 3)电子书 《Social Media Mining An Introduction》 4)计算机视觉的四部经典 5)华为诺亚方舟实验室做的小诺机器人 加长版44条 http://t.cn/R7l1KEG [ [微博](http://www.weibo.com/5220650532/BuwQTl29A) ] - -2014-11-03 机器学习头条 2014-11-02 http://t.cn/R7l1KEq 1)推荐系统中bias和个性化的讨论 2)推荐系统两个最好的教程 3)电子书 《Social Media Mining An Introduction》 4)计算机视觉的四部经典 5)华为诺亚方舟实验室做的小诺机器人 加长版44条 http://t.cn/R7l1KEG [ [微博](http://www.weibo.com/5220650532/BuwQTl29A) ] - -2014-11-03 总结各位的增补 @星空下的巫师《学习OpenCV》@Nobunaga_Means《computer&machine vision》@路确实脚下 《Moden computer vision》 [ [微博](http://www.weibo.com/5220650532/Buwxdfsdp) ] - -> 2014-11-01 @cvnote计算机视觉笔记: 看到一博文,讲计算机视觉的四部奇书(应该叫经典吧),分别是Hartley的《多图几何》、Gonzalez的《数字图像处理》、Szeliszi的CV:Algorithm&Application、Sonka等的《图像处理,分析与机器视觉》。前三本有看过,或理论深刻或讲解细致或涉猎广泛。感觉还真想不出更经典的作品了。各位还有什么推荐么 [ [微博](http://www.weibo.com/3812841100/BuilLhEY1) ] - -2014-11-03 为云设计的开源操作系统 osv.io 这里有各种平台(本地,EC2, GCE, Capstan)上跑的指南 http://t.cn/R7lY1w6 [ [微博](http://www.weibo.com/5220650532/BuvUesnP2) ] - -> 2014-10-29 @ShangguanRPI: 下一个玩具OSv http://t.cn/RhoIkLB,极有潜力。 [ [微博](http://www.weibo.com/1663264965/BtJUhBNsY) ] - -2014-11-02 @历史无限好 想做运维,不知道从何下手,能不能推荐些初级学习的资料。@茶是真热 整理了一个答案:awesome sysadmin已经非常全面了。各种常用工具、服务、HA结构的安装配置、性能、调优均涵盖。说一些比较基础的部分:先推荐两个网站,和linux使用很相关。都是拷过来答案就用的...http://t.cn/R7WQaH2 [ [微博](http://www.weibo.com/5220650532/BupNzg4Dt) ] - -2014-11-02 kaggle竞赛的获奖感言。都是些很实在的小经验,小教训,没有空话套话 http://t.cn/zjtKTWO --kaggle的口号“no free hunch”这些大实话里都体现了 [ [微博](http://www.weibo.com/5220650532/BupKBb4rf) ] - -2014-11-02 #求助# 代网友问:ensemble learning和boosting的综述,中文的有哪些推荐? issue 314 http://t.cn/R7WHzm3 [ [微博](http://www.weibo.com/5220650532/BupH84mZB) ] - -2014-11-02 15本Hadoop好书。整理者Matthew Rathbone http://t.cn/RvNhW1M [ [微博](http://www.weibo.com/5220650532/BuptZoVCf) ] - -2014-11-02 //@phunter_lau: 我觉得很好,好比挖掘技术,Alex的讲座偏向于深入挖掘机操作技术,Xavier偏重不同工地的综合挖掘方法,结合自己实际工作的问题理解这两方面都很重要(新浪微博的推荐系统就是第一个理解不深入第二个不屑于去理解,这是反面教材) [ [微博](http://www.weibo.com/5220650532/BuoyPfeK0) ] - -> 2014-11-02 @李沐M: 翻了翻推荐系统的tutorial slides,目前发现的最好的两个:一是alex前年在berkeley上课用的,简练,清晰,重点都覆盖到了 http://t.cn/R7WtFwj 二是xavier在今年cmu夏季课程用的,4小时时长,很全面。http://t.cn/R7WtFwY @phunter_lau 你怎么看? [ [微博](http://www.weibo.com/1953709481/BunUgk0Fu) ] - -2014-11-02 http://t.cn/R7WIf7e 做了一张卡片,有和预览和pdf,如果原链接打不开的可以试试。//@李武军nju: 回复@好东西传送门:可能跟我们系的服务器有关。以前有人发现用chrome浏览器不能下载,用IE直接点击打不开,但用IE点右键“另存为”可以。 //@好东西传送门:好像打不开 [ [微博](http://www.weibo.com/5220650532/Buo8a1ONj) ] - -> 2014-11-01 @李武军nju: 昨天在我们系 计算机软件新技术国家重点实验室 青年学者论坛上 做了一个报告,简要介绍了近期我们在“大数据机器学习”方面的几点尝试,包括:哈希学习,分布式学习,随机学习。分享一下胶片: http://t.cn/R7O4Ojm [ [微博](http://www.weibo.com/2309457710/Buhn8E6cw) ] - -2014-11-02 全书pdf链接直达http://t.cn/8sHGN56 也可以分章下载 2 Graph essentials 3 Network measures 4 Network models 5 Data mining essentials 6 Community analysis 7 Information diffusion in Social Media 8 Influence and homophily 9 Recommendation in social media 10 Behavior analytics [ [微博](http://www.weibo.com/5220650532/BunExtGfV) ] - -> 2014-11-02 @哈工大深圳_徐睿峰: #SMP2014# 亚利桑那州立大学 Mining Social Media : Look ahead 推荐了一本书 《Social Media Mining An Introduction》下载地址 http://t.cn/R7WGPrZ [ [微博](http://www.weibo.com/1494777880/BunDk9NrV) ] - -2014-11-02 感谢 @李武军nju @好东西传送门 @NLPJob @Kevin_机器学习_CA @西瓜大丸子汤 另外昨天的重点新闻是第三届全国社会媒体处理大会SMP2014,龙星镖局,刘知远,梁斌等分享了会上的热点。@小诺_Noah 原来是华为的机器人——李航已经分享了slides,会放入明天的日报 [ [微博](http://www.weibo.com/5220650532/Bunj13yjw) ] - -> 2014-11-02 @好东西传送门: 机器学习头条 2014-11-01 http://t.cn/R7WLGwp 1)李武军谈大数据机器学习 2)三代机器学习算法实现的演化 3)Klein和Manning关于最大熵模型PPT 4)caffe on windows 带cudnn 5)微信公众平台新增语义理解接口 加长版44条 [ [微博](http://www.weibo.com/5220650532/BunhBifai) ] - -2014-11-02 机器学习头条 2014-11-01 http://t.cn/R7WLGwp 1)李武军谈大数据机器学习 2)三代机器学习算法实现的演化 3)Klein和Manning关于最大熵模型PPT 4)caffe on windows 带cudnn 5)微信公众平台新增语义理解接口 加长版44条 [ [微博](http://www.weibo.com/5220650532/BunhBifai) ] - -2014-11-02 好东西,在Windows上也可以跑caffe。#深度学习# [ [微博](http://www.weibo.com/5220650532/Bumya5cuQ) ] - -> 2014-11-01 @Kevin_机器学习_CA: build 了一个最新的caffe on windows 带cudnn http://t.cn/R70cmkA 需要的话可以去下载 然后把所有需要的第三方库也打包了 [ [微博](http://www.weibo.com/2798235231/BudDI8ruZ) ] - -2014-11-02 数据科学关于安全的经典文章列表:Jason Trost整理的和安全有关的重要文章,都有pdf链接,覆盖领域:入侵检测,恶意软件Malware,数据收集,脆弱性分析,隐私与匿名,数据挖掘,网络犯罪,网络战等。入门必读。http://t.cn/RP21a3E [ [微博](http://www.weibo.com/5220650532/Bumenc14Y) ] - -2014-11-02 很有用的一个Python小工具dedupe,可以在csv或者数据里做数据去重(data deduplication)和实体消解(entity-resolution) Github http://t.cn/R7OkNyx 项目文档 http://t.cn/R7OkNyI 例子http://t.cn/R7OkNyM [ [微博](http://www.weibo.com/5220650532/BulWsq7fX) ] - -2014-11-02 先抛个砖:Awesome Sysadmin列表 详列了运维各种工具 http://t.cn/Rvj361W [ [微博](http://www.weibo.com/5220650532/BulFYkusW) ] - -> 2014-07-18 @历史无限好: 感觉自己不是开发的料,想做运维,不知道从何下手,能不能推荐些初级学习的资料,特别是ubuntu的,辛苦了[嘻嘻]@好东西传送门 http://t.cn/RPZdYr7 [ [微博](http://www.weibo.com/3150925993/Be6Y08pKI) ] - -2014-11-02 今年Hadoop Summit的主题演讲视频都在线,一共12个 http://t.cn/R7Oe3LG 具体题目请看图片,涉及云计算的方方面面 [ [微博](http://www.weibo.com/5220650532/BulCsy2vd) ] - -2014-11-02 求助! 求一句话点播。如果恰好知道什么资源分享一下吧。 [ [微博](http://www.weibo.com/5220650532/BukdIlJrm) ] - -> 2014-11-02 @__initial__: 针对中文文本情感分析 有哪些现成的工具包?@好东西传送门 http://t.cn/z8AqbYq [ [微博](http://www.weibo.com/1624579831/BujP92mhz) ] - -2014-11-02 小诺机器人的秘密 //@李航博士: 报告的slides在这里。 http://t.cn/R7OHblX [ [微博](http://www.weibo.com/5220650532/BujF0dTzF) ] - -> 2014-11-01 @刘知远THU: #SMP2014# @李航博士 老师介绍华为诺亚方舟实验室做的小诺机器人 @小诺_Noah 是很有意思的方向,可以自动关注人,转发帖子,评论。未来可以用上很多技术,例如摘要,翻译,自动问答,情感分析,等等。想象空间很大。 http://t.cn/R7pi9t3 [ [微博](http://www.weibo.com/1464484735/BuelGluCo) ] - -2014-11-01 //@DP金澜涛: 第一个tutorials是关于实时数据流mining的,part I比较偏理论,对构建实时数据仓库可能有帮助。part II偏实践,除了简单介绍S4,Storm等工具以外,介绍了一些流式mining的概念和思想,非学术帝们也能看得懂,不错的tutorials。 [ [微博](http://www.weibo.com/5220650532/Bueqv4tFl) ] - -> 2014-11-01 @BigData大数据: #BigData2014#BigData虽不能称为顶会,但是毕竟是世界第一个以BigData命名的会议,去年我在加州参加了第一届,今年第二届在DC刚刚结束,第一时间放出来干货,里面四个tutorial内容够翔实 http://t.cn/R70vcWZ 重点推荐第二个邢波Eric Xing的,他们组目前做DL和系统结合很厉害@好东西传送门 @数盟社区 [ [微博](http://www.weibo.com/2870219257/BuaHM1tsU) ] - -2014-11-01 Big Data Analytics Beyond Hadoop 第一章预览http://t.cn/R70aCGK 本章中作者总结了三代机器学习算法实现的演化:第一代非分布式的, 第二代工具如Mahout和Rapidminer实现基于Hadoop的扩展,第三代如Spark和Storm实现了实时和迭代数据处理。中文摘要(作者 -之诸暇)http://t.cn/RvtTFtX [ [微博](http://www.weibo.com/5220650532/BueqhsDRY) ] - -2014-11-01 感谢 @cvnote计算机视觉笔记 @bicloud笑西西 @52nlp @出门问问 @CSDN研发频道 [ [微博](http://www.weibo.com/5220650532/BuemD7sMQ) ] - -> 2014-11-01 @好东西传送门: 机器学习头条 2014-10-31 http://t.cn/R70wAaV 1)ECCV14教程:采集处理可形变的人体动物模型 2)为什么深度学习让其他机器学习算法相形见绌 3)spark上的贝叶斯学习 4)sync2014北京大会上关于人工智能方向的圆桌会议 5)@夏粉_百度 百度推荐技术论文《智能因子分解机》 加长版49条 http://t.cn/R70wAat [ [微博](http://www.weibo.com/5220650532/BubNxjrAR) ] - -2014-11-01 Query Intent Classification By Search Session Analysis,盛大topdata team [ [微博](http://www.weibo.com/5220650532/BudeR8qS9) ] - -> 2014-10-31 @清风运文: CIKM的poster总算搞定了,期待下周能在会场聆听Google Jeff Dean和微软陆奇的讲座 [ [微博](http://www.weibo.com/1527369027/Bu9ErFRDb) ] - -2014-11-01 IEEE BigData 2014 大数据会议 [ [微博](http://www.weibo.com/5220650532/BucU3AGbF) ] - -> 2014-11-01 @BigData大数据: #BigData2014#BigData虽不能称为顶会,但是毕竟是世界第一个以BigData命名的会议,去年我在加州参加了第一届,今年第二届在DC刚刚结束,第一时间放出来干货,里面四个tutorial内容够翔实 http://t.cn/R70vcWZ 重点推荐第二个邢波Eric Xing的,他们组目前做DL和系统结合很厉害@好东西传送门 @数盟社区 [ [微博](http://www.weibo.com/2870219257/BuaHM1tsU) ] - -2014-11-01 更正:正确的题目翻译应该是“深度学习会不会让其他机器学习算法过时?” 感谢@haohao7 纠正 //@好东西传送门: Quora值得一读的讨论:为什么深度学习让其他机器学习算法相形见绌?参与人中有Google DeepMind团队的Jack Rae [ [微博](http://www.weibo.com/5220650532/BubPP8eWK) ] - -> 2014-10-31 @bicloud笑西西: Will deep learning make other Machine Learning algorithms obsolete? http://t.cn/R7pJuvQ [ [微博](http://www.weibo.com/1640260361/Bu89jsvdz) ] - -2014-11-01 Quora值得一读的讨论:为什么深度学习让其他机器学习算法相形见绌?参与人中有Google DeepMind团队的Jack Rae [ [微博](http://www.weibo.com/5220650532/BubzpecZr) ] - -> 2014-10-31 @bicloud笑西西: Will deep learning make other Machine Learning algorithms obsolete? http://t.cn/R7pJuvQ [ [微博](http://www.weibo.com/1640260361/Bu89jsvdz) ] - -2014-10-31 spark上的贝叶斯学习,用python的pymc包 [ [微博](http://www.weibo.com/5220650532/Bu7CprXpq) ] - -> 2014-10-31 @52nlp: Bayesian Machine Learning on Apache Spark http://t.cn/R7p5RJX 关键词:Markov Chain Monte Carlo (MCMC) Methods, PyMC, Spark, PyMC on Spark, Topic Modeling with MCMC, Distributed LDA on Spark with PyMC [ [微博](http://www.weibo.com/2104931705/Bu7BE77Rp) ] - -2014-10-31 《PostgreSQL 中文资料汇总》 谭峰(@francs3 ,PostgreSQL 中文社区版主)整理,挺有用的 http://t.cn/8F4CZ9J 另外作者和黄坚将《PostgreSQL 9 Admin Cookbook》翻译成了中文 [good] http://t.cn/8FBhLZm [ [微博](http://www.weibo.com/5220650532/Bu74plHpM) ] - -2014-10-31 在想以后《机器学习日报》是不是该出一个专栏叫“千万别错过的讲座”,比如这个 [ [微博](http://www.weibo.com/5220650532/Bu5IS0xTr) ] - -> 2014-10-31 @刘知远THU: Google Senior Fellow Jeff Dean 将于下周三(11月5日)14:30在清华大学FIT大楼多功能报告厅做学术报告:Scaling Deep Learning,由 @孙茂松 教授主持。欢迎对深度学习和大规模机器学习技术感兴趣的同学来与Jeff Dean面对面。 [ [微博](http://www.weibo.com/1464484735/Bu5GPvrJR) ] - -2014-10-31 这个文本可视化综述是真心好,足足一百种方法,以前最多见过其中十几种 textvis.lnu.se 瑞典Linnaeus University出品 [good] [ [微博](http://www.weibo.com/5220650532/Bu5GxvOOP) ] - -> 2014-10-30 @AixinSG: 非常直观的文本可视化综述:Text Visualization Browser: A Visual Survey of Text Visualization Techniques http://t.cn/R79Ye47 [ [微博](http://www.weibo.com/1025887594/BtUsZ5Ntg) ] - -2014-10-31 好长,里面@白硕SH 老师说的那段也不错。神经网络这一轮复兴,也许能比上一轮维持得久一点。 [ [微博](http://www.weibo.com/5220650532/Bu5xmnnIZ) ] - -> 2014-10-31 @BigData大数据: #脑机计算#目前很多很多BRAIN,什么百度Google大脑,也有脑计划,容易把人弄糊涂,最近Jordan也跳出来说别动不动把脑扯上关系,最近科学院也出了Diannao DaDiannao, 新近 @杨静Lillian 对 @潘布衣 的专访,http://t.cn/R7NcpVb 布衣明确了一些容易混淆视听的概念 不能错过 @好东西传送门 [ [微博](http://www.weibo.com/2870219257/Bu3V8apUx) ] - -2014-10-31 关于Tableau和ggplot2的比较,看这条微博 http://t.cn/R7NTgi5 @海中的沙粒 [ [微博](http://www.weibo.com/5220650532/Bu5ui4JwL) ] - -> 2014-10-20 @数据可视化Tableau: #Tableau 8 权威指南上架# 很高兴和大家分享由我们公司员工翻译的《tableau 8 权威指南》一书,该书是目前国内最详细介绍tableau最新大版本数据可视化制作的书,全书彩印,并配有视频和示例。各大网店均有售。中国传媒大学教授博导 @沈浩老师 、北大博导袁老师 @晓如微博(名字不分先后)写序推荐! [ [微博](http://www.weibo.com/3196853784/BsrPrEzlu) ] - -2014-10-31 感谢 @ICTCLAS张华平博士 @十月伤感wb @中国云计算论坛 @差哥 @AixinSG 今天的长版里注意到@齐梁后尘 和@殆知阁 起的一个话题 http://t.cn/R7NL4l2 涉及到古籍整理中的自然语言处理,貌似可以发展成有趣的话题,大家可以去那里各抒己见 [ [微博](http://www.weibo.com/5220650532/Bu2sdneLn) ] - -> 2014-10-31 @好东西传送门: 机器学习头条 2014-10-30 http://t.cn/R7NLzFG 1)SMP2014第三届全国社会媒体处理大会手册 2)100个推荐系统相关的视频 3)数据挖掘基础:分词入门 4)四种传统的自然语言生成技术及其优缺点 5)非常直观的文本可视化综述 加长版30条 http://t.cn/R7NLzFq [ [微博](http://www.weibo.com/5220650532/Bu2qiyeBs) ] - -2014-10-31 机器学习头条 2014-10-30 http://t.cn/R7NLzFG 1)SMP2014第三届全国社会媒体处理大会手册 2)100个推荐系统相关的视频 3)数据挖掘基础:分词入门 4)四种传统的自然语言生成技术及其优缺点 5)非常直观的文本可视化综述 加长版30条 http://t.cn/R7NLzFq [ [微博](http://www.weibo.com/5220650532/Bu2qiyeBs) ] - -2014-10-30 SO上一篇很好的问答:SQL和Prolog的异同。很多人可能没有意识到,SQL其实是一种logic program(逻辑程序)。它和Prolog这类逻辑程序的区别则在于SQL主要是事实和集合(关系)引擎,而prolog是规则和推理引擎(所以可以处理“语义”)。SQL主要是服务器端语言,Prolog主要是客户端语言。http://t.cn/zjUlI3G [ [微博](http://www.weibo.com/5220650532/BtWTh7TJU) ] - -2014-10-30 先记这issue 311 http://t.cn/R7Ch44x 参老问题108“求推荐靠谱的自动摘要软件/服务”的初步答案http://t.cn/RPgzu6p 另外snownlp内置了一个简单的中文摘要模块http://t.cn/8kf1c3p (TextRank算法) [ [微博](http://www.weibo.com/5220650532/BtVWPeDpX) ] - -> 2014-10-30 @流川和他的偏见: #求助#@好东西传送门 有木有什么自动摘要的工具 我真的找了好久 …… http://t.cn/R79MNO8 [ [微博](http://www.weibo.com/2560968763/BtRjqbaiC) ] - -2014-10-30 W3C主席,Web发明人Tim Berners-Lee今天在w3c 20年庆典上的主题演讲http://t.cn/R79rwZe ,系统阐述了历史回顾,万维网协作,新一代的社交网络,为什么开放性极其重要和W3C的使命。@lidingpku 做了简明摘要 http://t.cn/R79rwZF [ [微博](http://www.weibo.com/5220650532/BtVkJkDXU) ] - -2014-10-30 很好的可视化。写篇文章讲讲是怎么做的吧 [ [微博](http://www.weibo.com/5220650532/BtVg0dxAd) ] - -> 2014-10-30 @规勒个划: 基于位置微博的人口流动分析(草图),原始数据约1000余万条(6天),一个星期搭建好计算框架,跑一次2小时,不过可以分步执行,哈哈 [ [微博](http://www.weibo.com/1012425625/BtUOP2e05) ] - -2014-10-30 感谢 @Copper_PKU @杨静Lillian @hashjoin @BigData大数据 [ [微博](http://www.weibo.com/5220650532/BtUzz9yNL) ] - -> 2014-10-30 @好东西传送门: 机器学习头条 2014-10-29 http://t.cn/R79Tsst 1)A Fast And Scalable Topic-Modeling Toolbox 2)交互式搜索:改变世界的百度智能界面 3)腾讯TDW千台Spark千亿节点对相似度计算 4)Jeff Dean在RecSys上主题讲演 5)Geoff Hinton演讲视频,指点DL未来走势 加长版48条 http://t.cn/R79Tssc [ [微博](http://www.weibo.com/5220650532/BtUzqAyu5) ] - -2014-10-30 机器学习头条 2014-10-29 http://t.cn/R79Tsst 1)A Fast And Scalable Topic-Modeling Toolbox 2)交互式搜索:改变世界的百度智能界面 3)腾讯TDW千台Spark千亿节点对相似度计算 4)Jeff Dean在RecSys上主题讲演 5)Geoff Hinton演讲视频,指点DL未来走势 加长版48条 http://t.cn/R79Tssc [ [微博](http://www.weibo.com/5220650532/BtUzqAyu5) ] - -2014-10-30 五种LDA方法Distributed collapsed Gibbs sampling DCGS, Asynchronous DCGS, Fast collapsed Gibbs sampling,Fast collapsed variational inference, Efficient collapsed Gibbs sampling [ [微博](http://www.weibo.com/5220650532/BtUi478w4) ] - -> 2014-10-29 @Copper_PKU: 重新学习Topic Model鸟 找个一个不错的合集 “A Fast And Scalable Topic-Modeling Toolbox” http://t.cn/R7KkI9O [ [微博](http://www.weibo.com/1758509357/BtPotfW08) ] - -2014-10-30 转发微博 [ [微博](http://www.weibo.com/5220650532/BtUbkjBNK) ] - -> 2014-10-29 @BigData大数据: #Jeff Dean视频#高富帅Dean,MR, Spanner, Pregel等顶级系统的首席&Google Fellow,已全面转向做深度学习,刚传了一个去年斯坦福的视频做开胃小菜,本视频是Jeff本月在RecSys上主题讲演,因时间冲突Jeff罕见缺席OSDI而去RecSys,http://t.cn/R7KyzrC @数盟社区 @好东西传送门 @杨静Lillian @龙星镖局 [ [微博](http://www.weibo.com/2870219257/BtMlfDJal) ] - -2014-10-29 嗯,很好的PostgreSQL网页管理工具 //@网路冷眼: 是简约,简约而不简单[酷] //@2gua: 很简洁啊 [ [微博](http://www.weibo.com/5220650532/BtL86ALD4) ] - -> 2014-10-28 @网路冷眼: #工具分享#【pgweb:基于Web的PostgreSQL数据管理工具】http://t.cn/R7SvBMV pgweb采用Go语言编写,能运行在Mac OS,Linux和Windows等主流平台,和MySQL数据库的管理工具phpmyadmin有异曲同工之妙。@Linux中国 @好东西传送门 @伯乐头条 [ [微博](http://www.weibo.com/1715118170/BtH3U7sa4) ] - -2014-10-29 感谢 @36大数据网 @李沐M @hsunway @Python开发者 @龙星镖局 @人见人爱花见花开的土豆 。昨天回答了特征学习学习资料和深度学习用于语音识别的资料的两个问题。这些问题以前都被问过,见我们的Github http://t.cn/R7oBpCz 以后我们也会提供更方便的旧文检索方式 [ [微博](http://www.weibo.com/5220650532/BtL7Q5nl3) ] - -> 2014-10-29 @好东西传送门: 机器学习头条 2014-10-28 http://t.cn/R7oBq2I 1)@李沐M “人工特征工程+线性模型”的尽头 2)谣言的判别方法 3)Twitter开源云环境时间序列数据断层检测工具 4)50行Python代码写一个语言检测器 5)Wiki上的人工智能史 加长版39条 http://t.cn/R7oBq2x [ [微博](http://www.weibo.com/5220650532/BtL5Xl0LK) ] - -2014-10-29 机器学习头条 2014-10-28 http://t.cn/R7oBq2I 1)@李沐M “人工特征工程+线性模型”的尽头 2)谣言的判别方法 3)Twitter开源云环境时间序列数据断层检测工具 4)50行Python代码写一个语言检测器 5)Wiki上的人工智能史 加长版39条 http://t.cn/R7oBq2x [ [微博](http://www.weibo.com/5220650532/BtL5Xl0LK) ] - -2014-10-29 #求助# 有门友问,有什么关于中文文章情感分析的资料或者工具吗? [ [微博](http://www.weibo.com/5220650532/BtHYlzMWm) ] - -2014-10-29 text detection是经典图像处理问题,文章很多http://t.cn/R7o9Xmh 一个常用方法是maximally stable extremal regions (MSER) http://t.cn/R7o9Xm7 http://t.cn/R7o9Xmz Andrew Ng等最近也用无监督学习方法http://t.cn/R7o9XmA [ [微博](http://www.weibo.com/5220650532/BtHRH5OWE) ] - -> 2014-10-28 @--_木_--: 有什么方法可以把图片上的文字区域识别出来么? 不需要文字具体内容。 主要目的是想把图片上的文字都删除或者能删多少是多少。例如这个例子。有人有思路吗? @好东西传送门 @余轶南 @星空下的巫师 @西瓜大丸子汤 [ [微博](http://www.weibo.com/1826623915/BtHcV878K) ] - -2014-10-28 @xccds 以前推荐过Discover Feature Engineering, How to Engineer Features and How to Get Good at It http://t.cn/RhumtBN 这篇综述了特征工程的方方面面,作为基础很不错。另外一片@breezedeus 推荐的An Introduction to Feature Selection http://t.cn/R7PEiL5 也不错,列有进阶阅读参考文献 [ [微博](http://www.weibo.com/5220650532/BtDYzeALm) ] - -> 2014-10-28 @蜗牛爬nj: @好东西传送门 能推荐一下关于 特征学习方面的学习资料吗?最好全面一点的 [ [微博](http://www.weibo.com/2502391724/BtDWqfPxu) ] - -2014-10-28 文章的Bibtex等请看issue 307 http://t.cn/R7aUymw [ [微博](http://www.weibo.com/5220650532/BtDGn3DcG) ] - -> 2014-10-28 @好东西传送门: @姚启鹏要茁壮 问:现在关于谣言的判别有哪些方法,有没有一些机用器学习的方法来判别? @AixinSG 推荐Mei Qiaozhu在EMNLP 2011上的文章Rumor has it: Identifying Misinformation in Microblogs http://t.cn/R7ST9Xj @QPCN 推荐过www上的识别垃圾与虚假信息的教程 http://t.cn/R7ST9XW [ [微博](http://www.weibo.com/5220650532/BtDFWrFPY) ] - -2014-10-28 @姚启鹏要茁壮 问:现在关于谣言的判别有哪些方法,有没有一些机用器学习的方法来判别? @AixinSG 推荐Mei Qiaozhu在EMNLP 2011上的文章Rumor has it: Identifying Misinformation in Microblogs http://t.cn/R7ST9Xj @QPCN 推荐过www上的识别垃圾与虚假信息的教程 http://t.cn/R7ST9XW [ [微博](http://www.weibo.com/5220650532/BtDFWrFPY) ] - -2014-10-28 基于E-Divisive with Medians(EDM)的时间序列数据断层检测工具BreakoutDetection。Twitter的原文 Breakout detection in the wild http://t.cn/R7xmnGj Github项目主页http://t.cn/R7SI17A [ [微博](http://www.weibo.com/5220650532/BtDBEwcfm) ] - -> 2014-10-28 @hsunway: Twitter开源云环境时间序列数据断层检测工具BreakoutDetection http://t.cn/R7SVnjt http://t.cn/R7SI17A [ [微博](http://www.weibo.com/1733873534/BtCpLeb49) ] - -2014-10-28 请看这条老微博:2014-08-19 [资料整理] 深度学习在语音识别的应用,入门篇: http://t.cn/RP8ll1s 向 @李开复 在CMU做的Sphinx(1988)致敬。介绍几个牛人和顶级团队: 微软 (邓力 Li Deng )和谷歌 (Vincent Vanhoucke, Geoffrey E. Hinton) http://t.cn/R7SfRJ1 [ [微博](http://www.weibo.com/5220650532/BtClC82OQ) ] - -> 2014-10-28 @Syndrome_suf: @好东西传送门 @我爱机器学习 @微软亚洲研究院 各位亲爱的大大,请问deep learning应用于语音识别的经典论文有哪些啊?[得意地笑][得意地笑] [ [微博](http://www.weibo.com/1762713024/BtCcgEH8a) ] - -2014-10-28 推荐。如果要看短的有AI Landscape http://t.cn/RhTXnDF 和AI Timeline http://t.cn/R7asDqM [ [微博](http://www.weibo.com/5220650532/BtzS9jxNo) ] - -> 2014-10-28 @龙星镖局: Wiki上的人工智能史 稍长一些 并且是中文的 更适合大家读 读后不得不叹 人工智能激荡几十年啊 有一句词评价AI很适合:向来回首萧瑟处,归去,也无风雨也无晴 | 我爱计算机 @52cs @好东西传送门 @老师木 http://t.cn/R7ag4f6 [ [微博](http://www.weibo.com/1830516311/BtyUMDJJD) ] - -2014-10-28 传送门看了一遍,表示同意右边意见。作者(Eren Golge)的机器学习工作流系列文章都不错 http://t.cn/R7asuLU //@phunter_lau: 很好,比较细致全面涵盖了特征工程这一脏活累活的诸多方面 [ [微博](http://www.weibo.com/5220650532/BtzQgiLY3) ] - -> 2014-10-27 @星空下的巫师: ML Work-Flow (Part 3) - Feature Extraction - A Blog From a Human-engineer-being http://t.cn/R7aQPbR [ [微博](http://www.weibo.com/1785748853/BtxMWwGjQ) ] - -2014-10-28 感谢 @研究者July @王利锋Fandy @火光摇曳Flickering @BigData大数据 @刘洋THU 头条之外今天还有不少好内容,如52nlp推荐的几种语言常用的机器学习工具包,Kenneth Kuttler的电子书线性代数理论与应用, 李航老师的《Learning to Rank》第二版等 [ [微博](http://www.weibo.com/5220650532/BtzNItsjg) ] - -> 2014-10-28 @好东西传送门: 机器学习头条 2014-10-27 http://t.cn/R7asKVK 1)最大熵模型中的数学推导 2)word2vec笔记之基础篇、算法篇和应用篇(falao_beiliu) 3)SparseLDA算法 4)Mining Big Data with Apache Spark - Reynold Xin 5)中文计算语言学会议CCL& NLP-NABD 2014论文集可下载 加长版52条 http://t.cn/R7asKV9 [ [微博](http://www.weibo.com/5220650532/BtzMgCKRI) ] - -2014-10-28 机器学习头条 2014-10-27 http://t.cn/R7asKVK 1)最大熵模型中的数学推导 2)word2vec笔记之基础篇、算法篇和应用篇(falao_beiliu) 3)SparseLDA算法 4)Mining Big Data with Apache Spark - Reynold Xin 5)中文计算语言学会议CCL& NLP-NABD 2014论文集可下载 加长版52条 http://t.cn/R7asKV9 [ [微博](http://www.weibo.com/5220650532/BtzMgCKRI) ] - -2014-10-28 常见语言的机器学习包一览 [ [微博](http://www.weibo.com/5220650532/BtzeKcm2I) ] - -> 2014-10-27 @52nlp: Open source tools make it easier to integrate machine learning into apps written in Java, 5 ways to add machine learning to Java, JavaScript, and more http://t.cn/R7a0FKR 提到了几种语言常用的机器学习工具包, 譬如scikit-learn, PyBrain, GoLearn, Mahout, Weka, Java-ML, ConvNetJS等 [ [微博](http://www.weibo.com/2104931705/Btxj9mJOe) ] - -2014-10-27 回复@新蝾螈:不能下载的可以试试右边提到的链接//@新蝾螈:貌似不能下载。但这个行:http://t.cn/R7aVqCp, 有这本书,课程大纲还有习题答案... [ [微博](http://www.weibo.com/5220650532/BtxQs1X0O) ] - -> 2014-10-27 @好东西传送门: Brigham Young University的Kenneth Kuttler把自己的《Linear Algebra, Theory And Applications》(线性代数理论与应用)全书pdf放在网上了, 500页,很数学,比Strang那本Introduction to Linear Algebra要深一些 [ [微博](http://www.weibo.com/5220650532/BtvFKbzLD) ] - -2014-10-27 这是链接 http://t.cn/R7aGZ0H [ [微博](http://www.weibo.com/5220650532/BtvH5etwv) ] - -> 2014-10-27 @好东西传送门: Brigham Young University的Kenneth Kuttler把自己的《Linear Algebra, Theory And Applications》(线性代数理论与应用)全书pdf放在网上了, 500页,很数学,比Strang那本Introduction to Linear Algebra要深一些 [ [微博](http://www.weibo.com/5220650532/BtvFKbzLD) ] - -2014-10-27 Brigham Young University的Kenneth Kuttler把自己的《Linear Algebra, Theory And Applications》(线性代数理论与应用)全书pdf放在网上了, 500页,很数学,比Strang那本Introduction to Linear Algebra要深一些 [ [微博](http://www.weibo.com/5220650532/BtvFKbzLD) ] - -2014-10-27 又想起来@QPCN 香港城市大学的教授,社交网络研究新星 @立委_米拉 在美国工作的自然语言处理老兵,常能从统计角度之外提出有营养的看法。 [ [微博](http://www.weibo.com/5220650532/BtvyDjiKf) ] - -> 2014-10-25 @好东西传送门: 中文计算机领域几个潜力股微博帐号: @Gary南京 知识和逻辑国内最重要的教授之一 @昊奋 学贯统计与知识两界,研究与工程经验都十分扎实 @AixinSG 执教新加坡,机器学习社交网络信息检索 @phunter_lau 推荐系统专家,而且有趣。当然其他大牛很多,这几个是关注的人还不算多,但绝对不该错过的。 [ [微博](http://www.weibo.com/5220650532/BtdjfEuRo) ] - -2014-10-27 转发这条是真的觉得《Python计算机视觉编程》不错。英文版原书Programming Computer Vision with Python http://t.cn/zWUbqfY 作者放出来的电子版 http://t.cn/R7a2D3Y [ [微博](http://www.weibo.com/5220650532/Btvlif0OY) ] - -> 2014-10-27 @图灵社区: #电子书本周半价# 《Python计算机视觉编程》http://t.cn/RvnpQRY 《世界顶级创业导师的洞见》http://t.cn/RvejK6O [ [微博](http://www.weibo.com/2526195981/BtviMxPdU) ] - -2014-10-27 初学者问题:如何在机器学习的语境下能达到有坚实的数学基础? 讨论见 http://t.cn/RPlPk6o @刘赛的中国梦 提到《数据挖掘中的新方法-支持向量机》(邓乃扬) 读了这本书再读 @李航博士 《统计学习方法》就会比较容易了。此外CMU等名校的机器学习课程都列有前提要求,可资参考 [ [微博](http://www.weibo.com/5220650532/Btv9Nuvqd) ] - -2014-10-27 Learning to Rank 第二版。这里以前我们收集的40多条LTR的资料,包括第一版的Google Books预览 http://t.cn/RP5WYnc [ [微博](http://www.weibo.com/5220650532/Btv3M3Yeh) ] - -> 2014-10-27 @刘知远THU: @李航博士 老师的专著《Learning to Rank for Information Retrieval and Natural Language Processing》出第二版了,关注。http://t.cn/R7ahdDU [ [微博](http://www.weibo.com/1464484735/BtuXxvnVG) ] - -2014-10-27 Reynold Xin @hashjoin http://t.cn/R7Xrqqa http://t.cn/zjLlNrX "大胡子小弟" Aaron Davidson http://t.cn/R7XrqqS [ [微博](http://www.weibo.com/5220650532/BtufWmvMc) ] - -> 2014-10-27 @BigData大数据: #Spark视频#Reynold Xin公开演讲视频,作为DataBricks的联合FOUNDER,很少接受演讲邀请,甚至在Spark Summit China 2014 和Spark Summit 2014都不发声,这次在Data Mining Meetup中终于闻其声,带着一个大胡子小弟一起演示,有兴趣的听一下。视频地址:http://t.cn/R7X00Ns @hashjoin @好东西传送门 [ [微博](http://www.weibo.com/2870219257/BttdteqpM) ] - -2014-10-27 感谢 @Jay_GraphLab @王威廉 @研究者July @高松-GISer @KissDev [ [微博](http://www.weibo.com/5220650532/BtsJM0psi) ] - -> 2014-10-27 @好东西传送门: 机器学习头条 2014-10-26 http://t.cn/R7XaMxI 1)什么R和Python的用户值得尝试GraphLab Create 2)中文微博的依存句法分析 3)邹博的PPT教程:回归与最优化,最大熵模型 4)用条件概率模型估计全球机场埃博拉病毒传染风险 5)计算广告学斯坦福和 @北冥乘海生 的入门课程 加长版41条 http://t.cn/R7XaMxx [ [微博](http://www.weibo.com/5220650532/BtsI5oBIJ) ] - -2014-10-27 机器学习头条 2014-10-26 http://t.cn/R7XaMxI 1)什么R和Python的用户值得尝试GraphLab Create 2)中文微博的依存句法分析 3)邹博的PPT教程:回归与最优化,最大熵模型 4)用条件概率模型估计全球机场埃博拉病毒传染风险 5)计算广告学斯坦福和 @北冥乘海生 的入门课程 加长版41条 http://t.cn/R7XaMxx [ [微博](http://www.weibo.com/5220650532/BtsI5oBIJ) ] - -2014-10-27 握手!Linux下的矢量编辑,Skencil也很好用,而且是用Python写的 http://t.cn/h4Fphj EPS转化的话,Linux下最好用的是convert命令(ImageMagick的一部分): convert foo.png foo.eps http://t.cn/aouUYB [ [微博](http://www.weibo.com/5220650532/BtqEB2Tb4) ] - -> 2014-10-26 @AixinSG: 多谢@好东西传送门 推荐,见识了社交媒体上推荐的力量,一下子涨了几百粉。下一步好好看看推荐系统的东西。 顺便推荐 Inkscape, 一个很强大的开源矢量图编辑软件,我只用它一个功能,把各种图片转成EPS, 用Latex写文章的可能会用得着 [ [微博](http://www.weibo.com/1025887594/Btk4l8YKQ) ] - -2014-10-27 12年UCLA Summer School《深度学习和特征学习》 [ [微博](http://www.weibo.com/5220650532/BtpPH83mm) ] - -> 2014-10-26 @龙星镖局: 12年UCLA Summer School的主题是《深度学习和特征学习》,报告者有Hinton、LeCun、 Ng 、 Bengio、Weston 和@余凯_西二旗民工 等一线大牛。讲座PPT和视频都可以在http://t.cn/R7JRbhv 下载观看。@breezedeus @好东西传送门 @developerWorks [ [微博](http://www.weibo.com/1830516311/BtmYiB4cO) ] - -2014-10-26 回复@kingkg28-zhou: 不需要,有一点设计网页的经验最好,帮网站参谋一下网页的排版设计,然后每周在周报发出去之前帮着看一眼是不是有不妥或重复,应该10-20分钟就够了。内容都会在Github上发布 http://t.cn/RPfAgNg //@kingkg28-zhou:需要专业基础吗? [ [微博](http://www.weibo.com/5220650532/BtlH451OK) ] - -> 2014-10-26 @好东西传送门: http://t.cn/R76cfVx 刚刚发了上周的《好东西周报》。上周我们共推荐了87次好东西,最热门前十条见长微博。BTW, 《好东西周报》的网站需要一个志愿者,这个工作会是开源的,有门友感兴趣吗?在这条微博下留言或私信都可以 [ [微博](http://www.weibo.com/5220650532/BtlELCfsn) ] - -2014-10-26 http://t.cn/R76cfVx 刚刚发了上周的《好东西周报》。上周我们共推荐了87次好东西,最热门前十条见长微博。BTW, 《好东西周报》的网站需要一个志愿者,这个工作会是开源的,有门友感兴趣吗?在这条微博下留言或私信都可以 [ [微博](http://www.weibo.com/5220650532/BtlELCfsn) ] - -2014-10-26 //@龙星镖局: @刘知远THU @刘挺 @AixinSG @白硕SH @Bing_Liu_25 @黄亮-算法时代 这个材料值得nlp的童鞋看看,请大家扩散一下[呵呵] [ [微博](http://www.weibo.com/5220650532/Btlt4vaEl) ] - -> 2014-10-25 @龙星镖局: 做自然语言处理和语音识别的都应该看看大牛 Kevin Duh 的这个资料《语言的世界》(英文题目是 Languages of the World),http://t.cn/R7i2Jvj 。他从语言的定义、起源、发展、各语系的分类、特点、差异等方面对要“语言”进行了认识。如果你对所要解决的问题都没有认识,何谈研究呢? [ [微博](http://www.weibo.com/1830516311/BteMrhtLx) ] - -2014-10-26 http://t.cn/R76vke8 @龙星镖局 推荐:Kevin Duh 《Languages of the World》(语言的世界)。Duh是奈良尖端科学技术大学院大学助理教授,从事自然语言处理与机器学习。这个PPT里他简要介绍了世界各大语言的谱系,和它们的一些语言特征。交互式世界语言地图网站请看WALS http://t.cn/zOJbnFn [ [微博](http://www.weibo.com/5220650532/BtkuG1txH) ] - -2014-10-26 推荐coursera上现在的一门课Automata(自动机),主讲人斯坦福Jeff Ullman(名教材Dragon Book和Cinderella book的作者)讲了计算复杂性和可计算性的一些入门基础问题,如图灵机,上下文无关文法,NP完全问题等 http://t.cn/zOSSPKE [ [微博](http://www.weibo.com/5220650532/Btjv1xmpx) ] - -2014-10-26 论文直达传送门 http://t.cn/R7iEt4z 交互式demo传送门 http://t.cn/R7iEt4h 用的是很基础的贝叶斯概率。 [ [微博](http://www.weibo.com/5220650532/BtjplisEg) ] - -> 2014-10-26 @高松-GISer: #关注埃博拉# 德国复杂系统研究小组Brockmann Lab利用全球航空网络和航空客流数据、根据条件概率模型估计了各机场和全球各大区域的病毒传染风险指数。把结果利用D3+JS Web可视化表达出来 http://t.cn/R7iXyFU [ [微博](http://www.weibo.com/1638623287/BtgEylClD) ] - -2014-10-26 这本书的v1有简体中文版 http://t.cn/R7iHHIa 解释繁略得当,例子实用。第二版大大扩展了Git Tools,新增Github一章,比第一版更能帮助大家少走弯路 [ [微博](http://www.weibo.com/5220650532/Btj5Sdr1t) ] - -> 2014-10-25 @网路冷眼: #干货分享#【免费的电子书Pro Git发布2.0】http://t.cn/R7izIzo Git方面最重要采用共享协议的电子书发布英文第2版,提供PDF, mobi和ePub三种格式免费下载 。1.0有中文在线版本。[doge]@2gua 请收深夜福利!cc @好东西传送门 @伯乐头条 @孢子响马 @极客头条 @developerWorks [ [微博](http://www.weibo.com/1715118170/Btfo60pID) ] - -2014-10-26 感谢 @KissDev @包云岗 @bruinxiong 特别是 @龙星镖局 昨天一口气推荐了好几个好资源,除了头条里这条还有深度学习干货集,Mehryar Mohri《Foundations of Machine Learning》Jordan《On the Computational and Statistical Interface and Big Data》 [ [微博](http://www.weibo.com/5220650532/Btj2cpiJo) ] - -> 2014-10-26 @好东西传送门: 机器学习头条 2014-10-25 http://t.cn/R7iTf3f 1)Kevin Duh 《语言的世界》 2)数据科学领域酷的免费数据集 3)LinkedIn工程师:面向搜索的大规模机器学习 4)@陈云霁 等:机器学习超级计算机DaDianNao 5)胡哲:从CVPR 2014看计算机视觉领域的最新热点 加长版56条 http://t.cn/R7iTf3V [ [微博](http://www.weibo.com/5220650532/BtiYktmcm) ] - -2014-10-26 机器学习头条 2014-10-25 http://t.cn/R7iTf3f 1)Kevin Duh 《语言的世界》 2)数据科学领域酷的免费数据集 3)LinkedIn工程师:面向搜索的大规模机器学习 4)@陈云霁 等:机器学习超级计算机DaDianNao 5)胡哲:从CVPR 2014看计算机视觉领域的最新热点 加长版56条 http://t.cn/R7iTf3V [ [微博](http://www.weibo.com/5220650532/BtiYktmcm) ] - -2014-10-26 潜力股+1 最右PayPal数据科学负责人。欢迎大家继续推荐! //@phunter_lau: 我推荐右边,你点了这片文章就会乖乖回来关注他的 http://t.cn/RhDrpIl //@丁磊-data: 膜拜 [ [微博](http://www.weibo.com/5220650532/Btge5tkSC) ] - -> 2014-10-25 @好东西传送门: 中文计算机领域几个潜力股微博帐号: @Gary南京 知识和逻辑国内最重要的教授之一 @昊奋 学贯统计与知识两界,研究与工程经验都十分扎实 @AixinSG 执教新加坡,机器学习社交网络信息检索 @phunter_lau 推荐系统专家,而且有趣。当然其他大牛很多,这几个是关注的人还不算多,但绝对不该错过的。 [ [微博](http://www.weibo.com/5220650532/BtdjfEuRo) ] - -2014-10-25 摘要:Devavrat Shah和Kang Zhang从各大Bitcoin交易所收集了五个月的价格数据,利用“Bayesian regression”来预测价格 [ [微博](http://www.weibo.com/5220650532/Btfknv8Jm) ] - -> 2014-10-25 @网路冷眼: 【麻省理工学院科学家能够预测比特币价格】http://t.cn/R7xOxQt 麻省理工学院计算机科学和人工智能实验室和信息和决策系统实验室研究人员最近开发出机器学习算法,可以预测比特币的价格波动,50天时间内这个团队使投资翻番。 [威武] @好东西传送门 [ [微博](http://www.weibo.com/1715118170/Bt9lDdkpp) ] - -2014-10-25 Dileep Bhandarkar, IEEE Fellow. Amazing Journey From Mainframes To Smartphones 原文是pdf [ [微博](http://www.weibo.com/5220650532/BtfiIlprC) ] - -> 2014-10-25 @effectivewang: Computer History这个不错 http://t.cn/R7i2b13 高通VP讲芯片历史 @好东西传送门 [ [微博](http://www.weibo.com/1801673705/BteLInxSS) ] - -2014-10-25 中文计算机领域几个潜力股微博帐号: @Gary南京 知识和逻辑国内最重要的教授之一 @昊奋 学贯统计与知识两界,研究与工程经验都十分扎实 @AixinSG 执教新加坡,机器学习社交网络信息检索 @phunter_lau 推荐系统专家,而且有趣。当然其他大牛很多,这几个是关注的人还不算多,但绝对不该错过的。 [ [微博](http://www.weibo.com/5220650532/BtdjfEuRo) ] - -2014-10-25 //@昊奋:要了解更多schema.org的质量和语义等,可以挪步iswc2014 peter的analyzing schema.org,以及chris bizer对于lod和schema.org的全面比较 [ [微博](http://www.weibo.com/5220650532/BtdfehmmW) ] - -> 2014-10-24 @Gary南京: google跟facebook在KDD2014关于知识图谱的一个比较全面的介绍,值得看看:http://t.cn/R7IDq3E [ [微博](http://www.weibo.com/2784224080/BsZkfdlQD) ] - -2014-10-25 Python日报 2014-10-24 http://t.cn/R7JEphe 比较新颖的有@ARGV 推荐的pygrok正则表达式包 @Python开发者 推荐的pycrumbs 可以和更新的Awesome Python参照着看 http://t.cn/RvmZMyi Pypi更新里有一个新的任务队列工具WorQ。Python日报近期还会改版,增加更丰富的内容。 [ [微博](http://www.weibo.com/5220650532/Btdaok9SC) ] - -2014-10-25 @陆浑戎 @设定控 @殆知阁 几位文史类的资源帝,有人问能不能找到49年以前的《南洋学报》,你们有没有印象或者线索? [ [微博](http://www.weibo.com/5220650532/BtcahsUR2) ] - -2014-10-25 //@李航博士: 强烈推荐#WSDM2015#的主题报告。你可能不知道Michael Franklin,但了解Spark;你可能没听说过Thorsten Joachims,但用过SVMLight;你也许不知晓Lada Adamic,但耳闻过Information Diffusion。尚有更过精彩的内容即将公布。 [ [微博](http://www.weibo.com/5220650532/Btc6WjbEi) ] - -> 2014-10-25 @WSDM2015: WSDM 2015邀请了数据科学领域的三位大牛来做主题报告:分别是Facebook的Lada Adamic,UC Berkeley的Michael Franklin,和Cornell的Thorsten Joachims。详细介绍:http://t.cn/R7Jyy0g [ [微博](http://www.weibo.com/5144018575/BtaF5pIgr) ] - -2014-10-25 请看以前的两条问答:《智能问答系统:心得点评与文献列表》 http://t.cn/R7JfGkY 《现今有哪些成功的智能问答系统》http://t.cn/R7JfGkQ 还有最近 @沈李斌NLP 的《问答系统中的知识图谱》http://t.cn/R7JfGkT [ [微博](http://www.weibo.com/5220650532/Btbkbbjx3) ] - -> 2014-10-25 @tornadomeet: @好东西传送门 帮找一些问答系统的好资料,ths. [ [微博](http://www.weibo.com/1750766782/Btb9mnFZt) ] - -2014-10-25 感谢 @星空下的巫师 @52nlp @Surah_Li @数盟社区 @Gary南京 今天的邮件继续测试发送了长版。不知道大家在阅读时间,打开速度,排版方面有什么意见?欢迎在下面留言告诉我。 [ [微博](http://www.weibo.com/5220650532/Bt8Rjy80c) ] - -> 2014-10-25 @好东西传送门: 机器学习头条 2014-10-24 http://t.cn/R7xuJTA 1)R语言的SVM教程 2)用 IBM Watson和Bluemix构造问答系统的详解 3)Robert Tibshirani讲Lasso应用于癌症检测PPT 4)机器学习中的范数规则化:L0、L1与L2范数 5)KDD2014上的知识图谱介绍 加长版45条 http://t.cn/R7xuJT2 [ [微博](http://www.weibo.com/5220650532/Bt8QEshPl) ] - -2014-10-25 机器学习头条 2014-10-24 http://t.cn/R7xuJTA 1)R语言的SVM教程 2)用 IBM Watson和Bluemix构造问答系统的详解 3)Robert Tibshirani讲Lasso应用于癌症检测PPT 4)机器学习中的范数规则化:L0、L1与L2范数 5)KDD2014上的知识图谱介绍 加长版45条 http://t.cn/R7xuJT2 [ [微博](http://www.weibo.com/5220650532/Bt8QEshPl) ] - -2014-10-25 问:有没有好用的python的excel工具库?答:功能文档都较全的有python-pptx 和openpyxl 这两个支持读写,创建电子表格。另外以读为主的有python-xlsx pyXLSX 转化excel为csv的有xlsx2csv 。当然也可以先转化excel为csv,用csv或unicodecsv包来处理。链接都在 http://t.cn/R7x8C4y [ [微博](http://www.weibo.com/5220650532/Bt851Bj3Q) ] - -2014-10-25 补充Michael Jordan原文 Why Big Data Could Be a Big Fail -- IEEE Spectrum http://t.cn/R7tmf96 . 乐村吐槽说Hinton是那种人,总想从生物学合理的角度理解大脑怎么工作,最后总是搞出来有点用但其实生物上并不靠谱的东西 [ [微博](http://www.weibo.com/5220650532/Bt7TPdJDj) ] - -> 2014-10-24 @张本宇: Yann LeCun关于Michael Jordan关于deep learning的IEEE访谈的Facebook长贴:http://t.cn/R7x6OAF,有访谈编辑的反驳,有大神Hilton的躺枪,有Jordan新博客的传送门。各种欢乐。@好东西传送门 [ [微博](http://www.weibo.com/1947318904/Bt5I2l1TL) ] - -2014-10-25 不错 [ [微博](http://www.weibo.com/5220650532/Bt7380fc7) ] - -> 2014-10-24 @whiteath: 一个小时的演讲,涵盖了很多python的特性 // A Few of My Favorite [Python] Things http://t.cn/R7xP6gQ [ [微博](http://www.weibo.com/1913607345/Bt3YZCowT) ] - -2014-10-24 osdi(操作系统设计与实现大h大会)全部视频 [ [微博](http://www.weibo.com/5220650532/Bt2iJpUNZ) ] - -> 2014-10-24 @BigData大数据: #OSDI2014#OSID http://t.cn/RPNqTrv 已经放出来全部讲演的视频,这次效率无比高,第一先推荐 Parameter Server 真心话讲,这次@李沐M 的英文比上次刚回美国暑期学校的英文听起来舒服多了,正如自己说的:还是北京待久了不会说英文了[嘻嘻] [ [微博](http://www.weibo.com/2870219257/Bt24N6fBl) ] - -2014-10-24 转发微博 [ [微博](http://www.weibo.com/5220650532/Bt2eKmeNU) ] - -> 2014-10-24 @陈天奇怪: 推荐一下之我们和@李航博士 @鲁东东胖 的ICDM论文:) A Parallel and Efficient Algorithm for Learning to Match http://t.cn/R7MolL6 。一般推荐等匹配问题的state-of-art都是基于特征的矩阵分解模型,但是这类模型很难并行化。我们的工作解决了基于特征的匹配模型的并行化问题 [ [微博](http://www.weibo.com/2397265244/Bt1SS4UZi) ] - -2014-10-24 机器学习头条 2014-10-23 http://t.cn/R7MPNz6 1)gradient boosting的tutorial 2)知识图谱PPT: 语义网上的本体推理by漆桂林 3)知识图谱PPT: 垂直知识图谱构造工具与行业应用by阮彤 4)Java NLP工具包RainbowNLP 5)Python的从文本学习模板的小工具templatemaker 加长版29条 http://t.cn/R7MPNza [ [微博](http://www.weibo.com/5220650532/Bt2dRolim) ] - -2014-10-24 回复@战术核显英伟达: 是的,所有的微博都回来了。而且我们以后会更积极地备份历史数据到Github上。只要是好东西,就永远不能让它消失 http://t.cn/RPfAgNg //@战术核显英伟达:问下所有微博都恢复了么? [ [微博](http://www.weibo.com/5220650532/Bt26uih0q) ] - -> 2014-10-24 @好东西传送门: 朋友们,我回来了!过去这一天多谢好多朋友关心和帮助,在此一并谢过! [ [微博](http://www.weibo.com/5220650532/Bt239afdZ) ] - -2014-10-24 朋友们,我回来了!过去这一天多谢好多朋友关心和帮助,在此一并谢过! [ [微博](http://www.weibo.com/5220650532/Bt239afdZ) ] - -2014-10-23 感谢 @网路冷眼 @张颖峰 @龙星镖局 @梁斌penny @王威廉 今天继续做了版式的调整,以平衡不同读者对短版和长版需求的差异。以前的短版现在作为今日焦点放在最前面。没有时间的读者可以只看这5条。如果对目前的长版有更多建议,欢迎大家回信hao@memect.com, 谢谢! [ [微博](http://www.weibo.com/5220650532/BsRphENEq) ] - -> 2014-10-23 @好东西传送门: 机器学习头条 2014-10-22 http://t.cn/R7fUQm6 1)John Hopcroft《Foundations of Data Science》 2)利用SIMD加速做索引压缩 3)Google Youtube团队公开了一个Multiview Video Game的数据 4)CMU TwitterNLP: Twitter自然语言处理 5)学习算法的Neural Turing Machine 加长版62条 http://t.cn/R7fUQmX [ [微博](http://www.weibo.com/5220650532/BsQ8toM8Q) ] - -2014-10-23 今天@连城404 推荐了q,一个用SQL处理文本数据的残暴工具。小门再推荐一个同样残暴的OrientDB,可以用SQL查询JSON。安装很简单,下载zip后解压就可以起服务器。可以从python/java/ruby等各种语言调用。http://t.cn/R7f6XJ9 有REST接口,和jq/httpie等综合使用可以实现命令行上更复杂的数据查询 [ [微博](http://www.weibo.com/5220650532/BsRlAmfyT) ] - -2014-10-23 好东西,转给搞生物信息学的伙伴们 [ [微博](http://www.weibo.com/5220650532/BsRgWAtrk) ] - -> 2014-10-22 @bitslife: 从2014美国人类遗传学学会的介绍中了解到了NextCODE, (1)、 Big Data及其Knowledge Base: 350,000 全基因组,40M变异注释。 (2)、 平台服务了 350 多篇高质量论文 (3)、 合作、共享基因组信息全球实时系统。(4)、 基因组数据分析流程(Alignment, Mapping, SNP/INDEL Calling) [ [微博](http://www.weibo.com/1895047203/BsMTQ6DOf) ] - -2014-10-23 Python头条 2014-10-22 http://t.cn/R7fMgzf 1)慕课网Python入门课程 2)Python状况:为什么PyPy是Python的未来? 3)一行代码伪装成浏览器 4)Python程序的Learning to Execute 加长版9条 http://t.cn/R7fMFzg 感谢 @慕课网 @Python开发者 @王威廉 [ [微博](http://www.weibo.com/5220650532/BsR8lujnY) ] - -2014-10-23 问:哪里有每日新闻联播要点总结? 答:新闻联播文字版在CNTV官网上就有 http://t.cn/R7fIsnP 每条新闻下面都有文本。CNTV之前CCTV上也有 例如 http://t.cn/R7fIsnv 时事一点通的《时事新闻日报道》》有每日总结, http://t.cn/a8fwZM 分国内国际,都有简短的摘要。这些都是很好的语料库。 [ [微博](http://www.weibo.com/5220650532/BsR7o7CRX) ] - -2014-10-23 感谢 @网路冷眼 @张颖峰 @龙星镖局 @梁斌penny @王威廉 今天继续做了版式的调整,以平衡不同读者对短版和长版需求的差异。以前的短版现在作为今日焦点放在最前面。没有时间的读者可以只看这5条。如果对目前的长版有更多建议,欢迎大家回信hao@memect.com, 谢谢! [ [微博](http://www.weibo.com/5220650532/BsQ8R3r5k) ] - -> 2014-10-23 @好东西传送门: 机器学习头条 2014-10-22 http://t.cn/R7fUQm6 1)John Hopcroft《Foundations of Data Science》 2)利用SIMD加速做索引压缩 3)Google Youtube团队公开了一个Multiview Video Game的数据 4)CMU TwitterNLP: Twitter自然语言处理 5)学习算法的Neural Turing Machine 加长版62条 http://t.cn/R7fUQmX [ [微博](http://www.weibo.com/5220650532/BsQ8toM8Q) ] - -2014-10-23 机器学习头条 2014-10-22 http://t.cn/R7fUQm6 1)John Hopcroft《Foundations of Data Science》 2)利用SIMD加速做索引压缩 3)Google Youtube团队公开了一个Multiview Video Game的数据 4)CMU TwitterNLP: Twitter自然语言处理 5)学习算法的Neural Turing Machine 加长版62条 http://t.cn/R7fUQmX [ [微博](http://www.weibo.com/5220650532/BsQ8toM8Q) ] - -2014-10-23 一个Python的从文本学习模板的小工具 templatemaker http://t.cn/R7fyt3x 可以从一堆输入样板句子中提取他们的不变部分,然后利用模板可以做匹配检查,成分提取等。对清理Web数据,简单的模式学习超级有用 [ [微博](http://www.weibo.com/5220650532/BsPVLCQS5) ] - -2014-10-23 爬虫相关资料(Java ).pdf 一组挺有用的链接 [ [微博](http://www.weibo.com/5220650532/BsPkvtPv4) ] - -> 2014-10-22 @睡眼惺忪的小叶先森: 这几天很多筒子不约而同让我提供几个编写爬虫的资料[doge]。我把我过去参考过的,整理了一下,包含了开源框架以及自己手动编写爬虫所需工具,还包括了信息抽取等。Java版本的。http://t.cn/R7VVttV @好东西传送门 @囧囧有神的小杜霉女 @whiteath [ [微博](http://www.weibo.com/2765244861/BsKmhpxJn) ] - -2014-10-23 好文章,为什么svm在文本上应该用线性核。思考:那用与它等价的感知器是不是也可以?//@神经元NL:中心:文本大部分线性可分;文本本身特征多,映射到太高维度也没用;线性核快;线性核更好优化 [ [微博](http://www.weibo.com/5220650532/BsO9cgH96) ] - -> 2014-10-22 @星空下的巫师: Linear Kernel: Why is it recommended for text classification ? http://t.cn/R7V3WUA [ [微博](http://www.weibo.com/1785748853/BsMLtezwh) ] - -2014-10-23 Python写的内存数据处理工具,很适合做小文本的命令行查询。//@黄涧石:好东西 [ [微博](http://www.weibo.com/5220650532/BsO7edz6i) ] - -> 2014-10-22 @连城404: 这个叫q的工具太残暴了,在Shell下用SQL查询各种表格状的文本文件 http://t.cn/R7VntHd q "SELECT COUNT(*) FROM ./clicks_file.csv WHERE c3 > 32.3" [ [微博](http://www.weibo.com/1883627565/BsMvGfC4L) ] - -2014-10-23 右边一般不夸人的,被他表扬的肯定不错 →_→//@phunter_lau:涵盖的很全面啊还比一般介绍的有一定深度 //@网路冷眼:作者John Hopcroft,康奈尔大学计算机科学系教授,1986年由于在算法及数据结构设计和分析方面的基础性成就,被授予图灵奖: http://t.cn/R7VnfUX [ [微博](http://www.weibo.com/5220650532/BsO5452xI) ] - -> 2014-10-22 @网路冷眼: 微软发布<数据科学基础(Foundations of Data Science)>电子书,PDF格式,下载地址:http://t.cn/R7cdbab 转需!@52nlp @好东西传送门 [ [微博](http://www.weibo.com/1715118170/BsMeH8tps) ] - -2014-10-23 //@网路冷眼:作者John Hopcroft,康奈尔大学计算机科学系教授,1986年由于在算法及数据结构设计和分析方面的基础性成就,被授予图灵奖:http://t.cn/R7VnfUX [ [微博](http://www.weibo.com/5220650532/BsNVu9cJy) ] - -> 2014-10-22 @网路冷眼: 微软发布<数据科学基础(Foundations of Data Science)>电子书,PDF格式,下载地址:http://t.cn/R7cdbab 转需!@52nlp @好东西传送门 [ [微博](http://www.weibo.com/1715118170/BsMeH8tps) ] - -2014-10-22 @老齐Py @中国云计算论坛 @Python开发者 @朝花夕拾录 为我们提供了好资源。昨天有人反映太长,所以今天加上了5条摘要,和用长微博发布的短版。欢迎大家继续提建议 [ [微博](http://www.weibo.com/5220650532/BsJECoqiR) ] - -> 2014-10-22 @好东西传送门: Python头条 2014-10-21 http://t.cn/R7V2o2a 1)[零基础学python]使用tornado表单和模板 2)clint:Python命令行工具 3)用python + hadoop编写分布式程序 4)matplotlib: 使用Python进行图表绘图 5)Writing C in Cython 加长版12条 http://t.cn/R7V2o2X [ [微博](http://www.weibo.com/5220650532/BsJDWrMar) ] - -2014-10-22 Python头条 2014-10-21 http://t.cn/R7V2o2a 1)[零基础学python]使用tornado表单和模板 2)clint:Python命令行工具 3)用python + hadoop编写分布式程序 4)matplotlib: 使用Python进行图表绘图 5)Writing C in Cython 加长版12条 http://t.cn/R7V2o2X [ [微博](http://www.weibo.com/5220650532/BsJDWrMar) ] - -2014-10-22 用python Requests爬网页的常用技巧: 一行代码伪装成浏览器 r = requests.post(url, headers={'user-agent: 'Mozilla/5.0 (Windows NT 5.1; rv:31.0) Gecko/20100101 Firefox/31.0'} ) 其他user-agent字符串 http://t.cn/hGTZFY requests库的用法 http://t.cn/R7VZfcY @Serena_pancakes [ [微博](http://www.weibo.com/5220650532/BsJrz42Ke) ] - -2014-10-22 车牌数据集(二)果然有好人Andrew McGill 整理上传2012年数据 有篇博文 http://t.cn/R7Vz75l 也有数据Github CSV 70M http://t.cn/R7Vz75j //@核桃街魔女: 一度想找匹兹堡的类似数据 //@美国中部大平原的胖胖:有意思。 [ [微博](http://www.weibo.com/5220650532/BsJmK51DT) ] - -> 2014-10-21 @好东西传送门: 刚才帮人找数据挖到一个好玩的, 搞LBS, GPS, 数据挖掘的快来围观。 http://t.cn/R7tGZFJ Github,CSV表格,明尼苏达警察局的800k车牌记录。已做过隐私保护处理, 每条记录包括: License Plate ID Latitude Longitude Time collected Reader [ [微博](http://www.weibo.com/5220650532/BsztgACau) ] - -2014-10-22 非常炫。原文的程序是用docx发布的,不方便,现在发布在gist上 http://t.cn/R7V794U [ [微博](http://www.weibo.com/5220650532/BsJkLooNj) ] - -> 2014-10-14 @Arduinos: 【arduino与人脑连接】荷兰arduinos爱好者Kayleigh Beard演示人脑控制led灯。她示范了自己制作的人脑交互作品,视频http://t.cn/R7ZgW4o,用意念控制一排led按顺序亮灭。教程http://t.cn/R7ZgW4X,源代码http://t.cn/R7ZgW4S。用到了arduino uno, MindWave Mobile脑电仪。 [ [微博](http://www.weibo.com/2524468112/BrvyLpk0E) ] - -2014-10-22 问答297 除了直接爬网站,也可以下载数据集 以前推荐过 common crawl 数据集,http://t.cn/R7cs7Nv 还有一个GoogleNews 数据集 1.2G http://t.cn/R7cs7Cs 更多相关数据集参见 http://t.cn/R7cs7Nm [ [微博](http://www.weibo.com/5220650532/BsJ3dF40k) ] - -> 2014-10-22 @Serena_pancakes: 在国外想用python抓news website用来分析词频的,可是crawling会被封IP,还没有api的话怎么办?@网路冷眼 @好东西传送门 @Python开发者 [ [微博](http://www.weibo.com/1077087607/BsIiU5Wsa) ] - -2014-10-22 一般就是降低频率,还有上Amazon EC2用spot instance,不断换IP。如果只是分析词频,不需要最新的内容,建议提取一部分Common Crawl语料库,别人已经都帮你抓好了,那里应有尽有。http://t.cn/R77RbnD [ [微博](http://www.weibo.com/5220650532/BsJ2gAUER) ] - -> 2014-10-22 @Serena_pancakes: 在国外想用python抓news website用来分析词频的,可是crawling会被封IP,还没有api的话怎么办?@网路冷眼 @好东西传送门 @Python开发者 [ [微博](http://www.weibo.com/1077087607/BsIiU5Wsa) ] - -2014-10-22 感谢 @NLPJob @龙星镖局 @AixinSG @伯乐在线官方微博 。今天的邮件试着发了一期长版(上次投票的结果70%的读者希望收到长版),因为内容长了,在摘要,版式上可能还需要新的改进,欢迎大家继续提意见。5条短版还继续以长微博发送。 [ [微博](http://www.weibo.com/5220650532/BsHaefg8j) ] - -> 2014-10-22 @好东西传送门: 机器学习头条2014-10-21 http://t.cn/R7cKd4c 1)哥伦比亚大学Michael Collins的NLP 14年秋季课程 2)王益《分布式机器学习的故事》 3)Michael Jordan: Why Big Data Could Be a Big Fail 4)深度学习、自然语言处理和表征方法 5)计算机科学会议的顶级会议最佳论文列表 加长版42条 http://t.cn/R7cKd42 [ [微博](http://www.weibo.com/5220650532/BsH8C5KS1) ] - -2014-10-22 机器学习头条2014-10-21 http://t.cn/R7cKd4c 1)哥伦比亚大学Michael Collins的NLP 14年秋季课程 2)王益《分布式机器学习的故事》 3)Michael Jordan: Why Big Data Could Be a Big Fail 4)深度学习、自然语言处理和表征方法 5)计算机科学会议的顶级会议最佳论文列表 加长版42条 http://t.cn/R7cKd42 [ [微博](http://www.weibo.com/5220650532/BsH8C5KS1) ] - -2014-10-22 我正在使用"花栗鼠"#封面图#,好漂亮,你们都快来试试! http://t.cn/zRVa3ar [ [微博](http://www.weibo.com/5220650532/BsH8p5zct) ] - -2014-10-22 《Deep Learning(深度学习)资料整理》 作者zouxy09@qq.com 36页的好的入门介绍 感谢@一尘不染zzz 整理成pdf [ [微博](http://www.weibo.com/5220650532/BsFG41AmM) ] - -> 2014-10-05 @一尘不染zzz: #深度学习#知识资料。最初是一个网友整理发布在他的BLOG上的。我不过是整理成PDF版 http://t.cn/Rhr3w3h 。#机器学习#几乎已经引发了一场信息处理的革命(搜索引擎、语音识别,图像识别,内容过滤、分类等的)相信机器学习接下来几年会在机器人领域引发另外一场让人惊奇革命。 [ [微博](http://www.weibo.com/1668848731/Bq4zGbuk1) ] - -2014-10-22 转发微博 [ [微博](http://www.weibo.com/5220650532/BsDW6yBOX) ] - -> 2014-10-21 @2gua: 几个不错的前端技术资源:「20 More Docs and Guides for Front-End Developers」http://t.cn/R7t8rDv,「Why I Love AngularJS and You Should Too」http://t.cn/R7t8rDh,「7 JS Libraries for Specific Visualizations」http://t.cn/R7t8rDP。@网路冷眼 @好东西传送门 @极客头条 @Linux中国 [ [微博](http://www.weibo.com/1609119537/BsBRaAQ53) ] - -2014-10-21 LIVAC汉语共时语料库(Linguistic Variation in Chinese Speech Communities) http://t.cn/R7chgF2 “直至2013年,LIVAC已处理逾5亿字,累积并持续提炼出约两百万词条。” 19年积累,7个特征语料收集地:香港,台湾,北京,上海, 澳门,新加坡,广州 。可惜是公司维护未开源,我辈只能望知识兴叹了 [ [微博](http://www.weibo.com/5220650532/BsDhZEsLS) ] - -2014-10-21 Pycoder's Weekly 搜罗Py万物的蟒周刊 英文版http://t.cn/zOzpHxB 中文版 http://t.cn/8FIrxNN [ [微博](http://www.weibo.com/5220650532/BsAMAjiT3) ] - -> 2014-10-21 @ZoomQuiet: Issue 137: RPython #蠎周刊# 汇集全球蠎事儿 !-) http://t.cn/R7tLoB7 [ [微博](http://www.weibo.com/1400936805/Bsz74bWSx) ] - -2014-10-21 根据过去两个月的数据,我们这个技术圈子(大体就是机器学习,自然语言处理,信息检索,计算机视觉,语义网等)最受欢迎(根据发言在圈子里的分享次数)的个人有@AixinSG @KissDev @丕子 @刘鑫Mars @梁斌penny @王威廉 @网路冷眼 @西瓜大丸子汤 @陈利人 @龙星镖局 (排名不分先后) [ [微博](http://www.weibo.com/5220650532/BsAF3615o) ] - -2014-10-21 非常有用的全美按街区人口数,种族构成地图,纽约时报出品。数据来源是2010人口普查http://t.cn/hboaoT [ [微博](http://www.weibo.com/5220650532/BsAlqhKxe) ] - -> 2014-07-26 @JadeM104: 分享一个我觉得很有用的地图,distribution of racial and ethnic groups: http://t.cn/hboaoT 出门在外小心,一切尽在不言中了 [ [微博](http://www.weibo.com/1682042892/BfjyFDvNe) ] - -2014-10-21 右边是中国最好的机器视觉公司之一。你们也对车牌感兴趣么?嗯,每个城市都有上万个交通摄像头,识别车牌可是个大买卖 //@格灵深瞳: 马!随手,不谢。 [ [微博](http://www.weibo.com/5220650532/BszSMkZbO) ] - -> 2014-10-21 @好东西传送门: 刚才帮人找数据挖到一个好玩的, 搞LBS, GPS, 数据挖掘的快来围观。 http://t.cn/R7tGZFJ Github,CSV表格,明尼苏达警察局的800k车牌记录。已做过隐私保护处理, 每条记录包括: License Plate ID Latitude Longitude Time collected Reader [ [微博](http://www.weibo.com/5220650532/BsztgACau) ] - -2014-10-21 CUHK-SEEM=香港中文大学系统工程与工程管理学系 http://t.cn/zlzfIjQ 系里的教授列表http://t.cn/R7t5DMa 与博文提到的领域接近的有林伟教授的 Text Mining Group http://t.cn/zQvzXhZ [ [微博](http://www.weibo.com/5220650532/BszHcDnr2) ] - -> 2014-10-21 @李菁求能毕业: 有木有人感兴趣来CUHK-SEEM做研究助理、工程师或者博士后,需要有计算机或者数学背景,有NLP、Data Mining、Machine learning、Social Computing相关经验优先~薪水非常可观~感兴趣的话可以发送邮件到wise.cuhk@gmail.com 我们会安排一个小的interview,具体事宜可以到时相商~求扩散求转发~~~ [ [微博](http://www.weibo.com/2249908040/Bszo1f8Qv) ] - -2014-10-21 刚才帮人找数据挖到一个好玩的, 搞LBS, GPS, 数据挖掘的快来围观。 http://t.cn/R7tGZFJ Github,CSV表格,明尼苏达警察局的800k车牌记录。已做过隐私保护处理, 每条记录包括: License Plate ID Latitude Longitude Time collected Reader [ [微博](http://www.weibo.com/5220650532/BsztgACau) ] - -2014-10-21 找到一个相关问答 http://t.cn/R7t4LTm [ [微博](http://www.weibo.com/5220650532/BszjRAXR8) ] - -> 2014-10-18 @丕子: 帮求一个车牌数据集 [ [微博](http://www.weibo.com/1665335994/Bs5HRcYyz) ] - -2014-10-21 帮转,有没有人知道线索呢? 进展整理在issue 293 http://t.cn/R7tU2dw [ [微博](http://www.weibo.com/5220650532/BszeWmrdL) ] - -> 2014-10-18 @丕子: 帮求一个车牌数据集 [ [微博](http://www.weibo.com/1665335994/Bs5HRcYyz) ] - -2014-10-21 有朋友感觉比较长,没法很快看完;另一方面,有没有漏掉的好东西呢? [ [微博](http://www.weibo.com/5220650532/BsyN3oPWs) ] - -> 2014-10-21 @好东西传送门: 刚刚发出了Python日报的第一期测试(也见长微博)。在线版:http://t.cn/R75uDpD 订阅办法见py.memect.com http://t.cn/R7UjD75 也可以给 hao@memect.com 发封邮件,标题是 "订阅Python"。Python日报没有长短版之分,每天大约会有10-20条。欢迎大家提建议 [ [微博](http://www.weibo.com/5220650532/BsxAAkvEv) ] - -2014-10-21 刚刚发出了Python日报的第一期测试(也见长微博)。在线版:http://t.cn/R75uDpD 订阅办法见py.memect.com http://t.cn/R7UjD75 也可以给 hao@memect.com 发封邮件,标题是 "订阅Python"。Python日报没有长短版之分,每天大约会有10-20条。欢迎大家提建议 [ [微博](http://www.weibo.com/5220650532/BsxAAkvEv) ] - -2014-10-21 还有,万维网联盟 (World Wide Web Consortium,W3C), 于 1994年10月在麻省理工学院(MIT)。它联合工业界制定了一大堆开放性的全球规范(Web码农的简历上的常见关键词), 例如 URI, HTML,CSS,XML,DOM, XQuery, WSDL, SVG, PNG, RDF, SPARQL ... [ [微博](http://www.weibo.com/5220650532/Bsxr4wksm) ] - -> 2014-10-21 @好东西传送门: W3C 20周年纪念大会 “万维网的未来” (The Future of the Web) http://t.cn/R75Euba 将于本月29日(当地时间下午3点至6点)在硅谷举行, 门票$150 (机票自负;-), 有在线直播。压轴戏是万维网之父Tim Berners-Lee于5:40–6:00的总结陈词, 也期待MIT media lab的 Alex 'Sandy' Pentland 教授的报告 [ [微博](http://www.weibo.com/5220650532/BsxeWdCjm) ] - -2014-10-21 W3C 20周年纪念大会 “万维网的未来” (The Future of the Web) http://t.cn/R75Euba 将于本月29日(当地时间下午3点至6点)在硅谷举行, 门票$150 (机票自负;-), 有在线直播。压轴戏是万维网之父Tim Berners-Lee于5:40–6:00的总结陈词, 也期待MIT media lab的 Alex 'Sandy' Pentland 教授的报告 [ [微博](http://www.weibo.com/5220650532/BsxeWdCjm) ] - -2014-10-21 最全的计算机科学会议的顶级会议最佳论文(Best Paper Award)列表,详列1996年以来获奖论文和下载链接!包括人工智能(AAAI CIKM KDD ICML IJCAI) 自然语言处理(ACL) 人机交互(CHI) 软件工程(FSE ICSE) 数据库(SIGMOD VLDB) 网络(WWW)等领域29个会议http://t.cn/R75EOUC 整理者是布朗大学的Jeff Huang [ [微博](http://www.weibo.com/5220650532/BsxdjsNYU) ] - -2014-10-21 感谢 @王威廉 @研究者July @干二微博 @网路冷眼 长版里继续有更多全国计算语言学会议(CCL)的讨论,值得围观 http://t.cn/R758sQj [ [微博](http://www.weibo.com/5220650532/Bsx0DrChj) ] - -> 2014-10-21 @好东西传送门: 机器学习头条 2014-10-20 http://t.cn/R758sQl 1)微电影Behind the Mic科普语音识别的历史 2)邹博之凸优化PPT 3)IBM开放Watson的API 4)CVPR2014视频分割的教程 5)Bloom filters(布隆过滤器)简介 加长版50条 http://t.cn/R758sQj [ [微博](http://www.weibo.com/5220650532/BswZ6hHwr) ] - -2014-10-21 机器学习头条 2014-10-20 http://t.cn/R758sQl 1)微电影Behind the Mic科普语音识别的历史 2)邹博之凸优化PPT 3)IBM开放Watson的API 4)CVPR2014视频分割的教程 5)Bloom filters(布隆过滤器)简介 加长版50条 http://t.cn/R758sQj [ [微博](http://www.weibo.com/5220650532/BswZ6hHwr) ] - -2014-10-21 #计算机视觉# 图一、 Flickr视觉团队官网上有一个很酷的在线演示 http://t.cn/R75H5KT 1秒钟能判断选定的图中 “有鸟吗?”、“在公园吗?” 图二、技术路线用深度学习在Hadoop和Storm平台上识别图片中的事物 http://t.cn/R75lK3J 图三、一张漫画展示研究动机; 相关论文 http://t.cn/R75H5KY [ [微博](http://www.weibo.com/5220650532/BswuGt55g) ] - -2014-10-21 Jupyter是一个从IPython衍生出来的交互式计算平台,改名的原因是IPython已经不仅支持Python计算,也支持Julia, R, Ruby等。项目主页和Scipy14上的演讲 http://t.cn/R7hRare PPT http://t.cn/R75YxA3 Github http://t.cn/R75YxAu [ [微博](http://www.weibo.com/5220650532/Bsw6LoUwz) ] - -2014-10-21 微软印度研究院的R2 Probabilistic Programming Tool项目 http://t.cn/R75WD0C 最近核心文章 R2: An Efficient MCMC Sampler for Probabilistic Programs 发表于AAAI'14 http://t.cn/R75jJId 平台代码库(C#)下载, 基于.NET Framework 4.5. 相关项目是剑桥组的 infer.net http://t.cn/SvEGTl [ [微博](http://www.weibo.com/5220650532/BsvUiFWLf) ] - -2014-10-20 与有荣焉 //@陆浑戎: 多谢推荐,都是爱发资源的盆友吧 [ [微博](http://www.weibo.com/5220650532/Bsseo0pII) ] - -> 2014-10-20 @传媒老跟班: 推荐几个账号:@陆浑戎 @设定控 @万事风过耳 @殆知阁 @好东西传送门 @次家神受 @电影贩 @蓝影屋 @一只傲骄 @电影的力量 至于原因,大家点开这些账号就知道了。 [ [微博](http://www.weibo.com/5198011111/BsrUmlJBD) ] - -2014-10-20 有人反映有墙.不知这两个能不能访问 pdf http://t.cn/R7qQcbc 代码 http://t.cn/R7qQcbf //@好东西传送门: Gaussian Mixture Models Tutorial and MATLAB Code [ [微博](http://www.weibo.com/5220650532/Bsq6ceu3K) ] - -> 2014-10-20 @赶路人林文: @好东西传送门 一篇关于GMM的文章,讲的很清晰,内有Matlab代码示范以及相关例子的代码。http://t.cn/R7q9dDT [ [微博](http://www.weibo.com/2351012892/BspbXoFZZ) ] - -2014-10-20 Gaussian Mixture Models Tutorial and MATLAB Code [ [微博](http://www.weibo.com/5220650532/BspJzex7T) ] - -> 2014-10-20 @赶路人林文: @好东西传送门 一篇关于GMM的文章,讲的很清晰,内有Matlab代码示范以及相关例子的代码。http://t.cn/R7q9dDT [ [微博](http://www.weibo.com/2351012892/BspbXoFZZ) ] - -2014-10-20 感谢 @网路冷眼 @慕知网 @西瓜大丸子汤 @龙星镖局 @CCL-2014 今天还有非常多的好内容在长版的"温故知新"中,主要是昨天CCL2014分享出来的各种干货和精彩的讨论:周志华教授和李明院士的两个特邀报告,知识图谱研讨会的PPT http://t.cn/R7qMPcd [ [微博](http://www.weibo.com/5220650532/BsojtjheH) ] - -> 2014-10-20 @好东西传送门: 机器学习头条 2014-10-19 http://t.cn/R7qMPcr 1)Datumbox开源它们自己的机器学习框架 2)@神经元NL 的Learning From Data学习笔记 3)Boosting和香农信道编码定理 4)Bengio组(蒙特利尔大学LISA组)深度学习教程 5)知识图谱:大数据语义链接的基石-李涓子 加长版39条 http://t.cn/R7qMPcd [ [微博](http://www.weibo.com/5220650532/BsoifEU3e) ] - -2014-10-20 机器学习头条 2014-10-19 http://t.cn/R7qMPcr 1)Datumbox开源它们自己的机器学习框架 2)@神经元NL 的Learning From Data学习笔记 3)Boosting和香农信道编码定理 4)Bengio组(蒙特利尔大学LISA组)深度学习教程 5)知识图谱:大数据语义链接的基石-李涓子 加长版39条 http://t.cn/R7qMPcd [ [微博](http://www.weibo.com/5220650532/BsoifEU3e) ] - -2014-10-20 非常感谢!对大家有用让我们很开心 [ [微博](http://www.weibo.com/5220650532/BsnbJoEON) ] - -> 2014-10-20 @VikingMew: 給@好东西传送门 捐了20塊錢。在意識到可以節省我多少刷微博的時間之後。 [ [微博](http://www.weibo.com/1963340133/Bsn36xsfw) ] - -2014-10-20 @廖雪峰 的Python教程,"这是小白的Python新手教程",以前推荐过,再推荐一次 [ [微博](http://www.weibo.com/5220650532/Bsmw5mlid) ] - -> 2014-10-19 @KissDev: 机器学习的书籍为何大都爱使用Python语言 ? 首先是因为python简单易用,更主要的原因是第三方模块/库太丰富了,信手拈来,这一点目前 php/go/nodejs还比不上 推荐这个教程,大概一个小时就能学会py: http://t.cn/zQXcs9S [ [微博](http://www.weibo.com/1699016425/BskpXhgUT) ] - -2014-10-20 Michael S. Brown是新加坡国立大学的教授 http://t.cn/heVofJ 他专门研究消费者电子产品中的计算机视觉问题,如相机, Xbox,投影仪等.去年的ICIP上他还做了个类似的教程From RAW to sRGB and Back: Modeling the Onboard Camera Processing Pipeline http://t.cn/R7qLUXL [ [微博](http://www.weibo.com/5220650532/BslMx6WKX) ] - -> 2014-10-19 @cvnote计算机视觉笔记: 拍照时相机对图像进行了那些处理?| ECCV'14 Tutorial《Understanding the In-Camera Image Processing Pipeline for Computer Vision》,详细介绍了相机算法中颜色变换算法的细节,可以作为了解颜色空间理论和应用的参考,搜搜资料啥的。http://t.cn/Rhc4ydF [ [微博](http://www.weibo.com/3812841100/BsjsMpNC5) ] - -2014-10-19 还有, http://t.cn/R7qPSnI Twitter Does Not Actually Predict Box Office Sales [STUDY] 提到一篇论文, 研究了Twitter和IMDB等影评网站的预测有效性 http://t.cn/zjYAeDY Why Watching Movie Tweets Won't Tell the Whole Story? //@phunter [ [微博](http://www.weibo.com/5220650532/BskG1mNF9) ] - -> 2014-10-19 @冷姿君: #冷知#发现一个网站,叫做The Internet Movie Script Database(IMSDB),上面有大量好莱坞经典电影的剧本,感兴趣的同学不要错过哦。[阴险] [ [微博](http://www.weibo.com/3888073849/BsgFBrDcR) ] - -2014-10-19 不传paper了,传个有趣的字体 [ [微博](http://www.weibo.com/5220650532/BsiJc4VLe) ] - -> 2014-10-19 @alim0x: 添加ubuntu对emoji表情的显示支持 sudo apt-get install ttf-ancient-fonts [ [微博](http://www.weibo.com/5139583946/BsiEP4Jvh) ] - -2014-10-19 IMSDB 链接直达http://t.cn/Gy8xd 搭售我们以前推过的电影评价数据MovieTweetings http://t.cn/R7GX32X 和电影海报数据库MoviePosterDB http://t.cn/R7GX326 //@phunter_lau: NLP素材,比如从剧本预测卖座与否 [ [微博](http://www.weibo.com/5220650532/BshsSg45e) ] - -> 2014-10-19 @冷姿君: #冷知#发现一个网站,叫做The Internet Movie Script Database(IMSDB),上面有大量好莱坞经典电影的剧本,感兴趣的同学不要错过哦。[阴险] [ [微博](http://www.weibo.com/3888073849/BsgFBrDcR) ] - -2014-10-19 //@velvel2: 1)Margin本身旨在降低分类器的方差(对比感知机)。2)而Gao-Zhou的工作指出Margin自身的方差也要关注,可谓是方差之方差。3)除了margin理论和统计视角,没有别的解释了?//@孙茂松: 现场报告时很多精彩之处,PPT还没有完全反映出来。那是到现场听报告者的额外bonus。 [ [微博](http://www.weibo.com/5220650532/Bsgnpil9R) ] - -> 2014-10-18 @孙茂松: 南京大学周志华教授在CCL上做大会特邀报告“Boosting 25 Years”。这是我近年来听到的最精彩的学术报告之一。400多位与会代表普遍反映报告内容深入浅出,令人耳目一新,收获很大。 @南大周志华 [ [微博](http://www.weibo.com/1970879995/BsbfNlrTe) ] - -2014-10-19 清华大学李涓子教授所在的知识工程研究室,是国内重要的语义网和知识工程研究小组之一.他们很早就开始了知识图谱相关研究.这个报告里李涓子从语义网延革的角度剖析了知识图谱的来龙去脉 @唐杰THU [ [微博](http://www.weibo.com/5220650532/Bsf9x2FIM) ] - -> 2014-10-17 @CCL-2014: 大量干货来袭(知识图谱研讨会 PPT), 知识图谱:大数据语义链接的基石-李涓子 http://t.cn/R7U4t3V [ [微博](http://www.weibo.com/5334438898/BrXVwukjE) ] - -2014-10-19 @讯飞胡国平 (@科大讯飞 ) 分享了在音乐领域和客服领域的知识图谱应用 [ [微博](http://www.weibo.com/5220650532/Bsf7Ibsmm) ] - -> 2014-10-17 @CCL-2014: 知识图谱研讨会 PPT:从应用的角度看知识图谱的价值和挑战-胡国平 http://t.cn/R7U4XAM [ [微博](http://www.weibo.com/5334438898/BrXW83Fax) ] - -2014-10-19 @沈李斌NLP 在 @出门问问 从事自然语言处理.他以前在BBN,Akamai, IBM等公司从事研究工作,在机器翻译与句法分析等领域有很多贡献 [ [微博](http://www.weibo.com/5220650532/Bsf6yEAjv) ] - -> 2014-10-17 @CCL-2014: 知识图谱研讨会 PPT: 问答系统中的知识图谱-沈李斌 http://t.cn/R7U49Vt [ [微博](http://www.weibo.com/5334438898/BrXWudI63) ] - -2014-10-19 刚刚推荐到头条 http://t.cn/R7bDGPA [ [微博](http://www.weibo.com/5220650532/Bsf1YCOLC) ] - -> 2014-10-18 @CCL-2014: 周志华教授特邀报告PPT: BOOSTING 25年 http://t.cn/R7bMKaA [ [微博](http://www.weibo.com/5334438898/Bsa7pdONv) ] - -2014-10-19 感谢@南大周志华 @孙茂松 @丕子 @bitslife @cswhjiang . 这几天重要活动是第十三届全国计算语言学会议CCL2014在华中师范大学召开,加长版里有更多汇报http://t.cn/R7bDGPA .欢迎参与会议的同仁多在微博上分享,我们会及时总结在日报里 [ [微博](http://www.weibo.com/5220650532/BseYMo69t) ] - -> 2014-10-19 @好东西传送门: 机器学习头条2014-10-18 http://t.cn/R7bDPUz 1)周志华在CCL大会做特邀报告Boosting 25 Years 2)EMNLP上两篇关于股票趋势的应用论文 3)DeepLearning University更新了162篇新文章 4)UCLA 统计软件学习资源网站 5)Vowpal Wabbit,Liblinear/SBM和StreamSVM性能比较 加长版44条 http://t.cn/R7bDPU7 [ [微博](http://www.weibo.com/5220650532/BseXnu3oZ) ] - -2014-10-19 机器学习头条2014-10-18 http://t.cn/R7bDPUz 1)周志华在CCL大会做特邀报告Boosting 25 Years 2)EMNLP上两篇关于股票趋势的应用论文 3)DeepLearning University更新了162篇新文章 4)UCLA 统计软件学习资源网站 5)Vowpal Wabbit,Liblinear/SBM和StreamSVM性能比较 加长版44条 http://t.cn/R7bDPU7 [ [微博](http://www.weibo.com/5220650532/BseXnu3oZ) ] - -2014-10-19 Python数据分析基础教程:Numpy学习指南 http://t.cn/zRCEjvM 英文原版NumPy Beginner's Guide http://t.cn/R7brKdm [ [微博](http://www.weibo.com/5220650532/BseylzC1l) ] - -> 2014-10-19 @2gua: 平板上看电子书就是舒适满满…… [ [微博](http://www.weibo.com/1609119537/Bseq5xtf2) ] - -2014-10-19 //@尘绳聋-SYSU:这个其实是Theano搞DL的tutorial,教如何用Theano实现常用的几个模型。其实Release 1.0去年9月已经出来了,瞄了一眼这个,是Oct. 18 2014的,不过基本内容好像没改动。有空再仔细看看。 [ [微博](http://www.weibo.com/5220650532/BsbGDzRkr) ] - -> 2014-10-19 @龙星镖局: 这可能是今年关于深度学习最好的材料了,深度学习一线大牛Bengio组写的教程,算法深入显出,还有实现代码,一步步展开。读完之后也可以说是搞过深度学习了呢。[good]@好东西传送门 @蒋涛CSDN @developerWorks 『』http://t.cn/zT2M85O [ [微博](http://www.weibo.com/1830516311/BsbxblR33) ] - -2014-10-18 还有,补充一个3年多前在hackernews上对该文的讨论 http://t.cn/R7b0g98 不少人也讨论了其他语言(matlab, ruby, perl, java, R .... ) 的特点以及不转到python的原因 [ [微博](http://www.weibo.com/5220650532/Bsbn5vegJ) ] - -> 2014-10-18 @好东西传送门: Why Python Rocks for Research http://t.cn/R74Duja 这篇文章里Hoyt Koepke总结了Python作为研究语言的十大优势:通用性(相对Matlab/R),可读性,高层抽象与底层操作的平衡,作为胶水语言的互操作性,文档,层次模块系统,灵活的数据结构,丰富的包,测试框架. [ [微博](http://www.weibo.com/5220650532/Bs7Xo03FG) ] - -2014-10-18 Why Python Rocks for Research http://t.cn/R74Duja 这篇文章里Hoyt Koepke总结了Python作为研究语言的十大优势:通用性(相对Matlab/R),可读性,高层抽象与底层操作的平衡,作为胶水语言的互操作性,文档,层次模块系统,灵活的数据结构,丰富的包,测试框架. [ [微博](http://www.weibo.com/5220650532/Bs7Xo03FG) ] - -2014-10-18 http://t.cn/Rh9Tsnt Science杂志和中国航天员中心人因工程重点实验室推出67页的专刊Human Performance in Space,发表了31篇中国载人航天的研究成果,如太空生理,太空中的认知行为和人机交互HCI,人体建模与绩效评估等.特别是其中HCI和认知部分对计算机科学研究也很有启发.这条新闻你想at谁? [ [微博](http://www.weibo.com/5220650532/Bs6G9rx1a) ] - -2014-10-18 Li Ming是经典著作An Introduction to Kolmogorov Complexity and Its Applications的作者.他最近对Information Distance的研究对自然语言处理,问答系统都提供了新颖视角 http://t.cn/R740ao2 [ [微博](http://www.weibo.com/5220650532/Bs6hjmVNW) ] - -> 2014-10-13 @孙茂松: CCL特邀报告:加拿大皇家学会院士李明“Approximating Semantics”,微软亚洲研究院首席研究员Junichi Tsujii“Linking Text with Data & Knowledge Bases”,长江学者周晓林“Processing Construction-based Pragmatic Constraints during Sentence Comprehension”和长江学者周志华“Boosting 25年” [ [微博](http://www.weibo.com/1970879995/BroeAdCkw) ] - -2014-10-18 非常棒!//@bitslife: 刚刚更新了162篇新文章 http://t.cn/R74K9sg [ [微博](http://www.weibo.com/5220650532/Bs5Zuv45d) ] - -> 2014-10-18 @bitslife: 看到下面一个页面,深感深度学习(Deep Learning)的应用太广了,从硬件、图像到健康、生物、大数据、生物信息再到量子计算等,Amund Tveit等维护了一个DeepLearning.University小项目:收集从2014年开始深度学习文献,相信可以作为深度学习的起点。http://t.cn/RhoE0gh Github:http://t.cn/R74KS5j [ [微博](http://www.weibo.com/1895047203/Bs5QTqlLI) ] - -2014-10-18 国内也有很好的论坛, 例如人大经济论坛 http://t.cn/hrPJFc 新界面大约是2013五六月推出的 http://t.cn/R74SKcd //@司马左右: 真是越做越漂亮,后悔没有把之前的样子截图。国内为什么没有类似的网站呢?反而是一些统计软件使用基础的商业培训和一些要什么金币的资源网站大行其道。//@沈浩老师:保留 [ [微博](http://www.weibo.com/5220650532/Bs5FsfSiy) ] - -> 2014-10-18 @好东西传送门: 推荐一个统计软件学习资源网站(UCLA统计咨询小组维护) http://t.cn/R74xS4x 覆盖众多统计软件: R, SAS, SPSS, STATA 资料合集 http://t.cn/R74xS4J 两个速查表 1. 常见数据分析方法分别推荐代码例子 http://t.cn/R74xS46 2. 按变量的数量,性质及测试方法分别推荐代码例子 http://t.cn/R74xS4X [ [微博](http://www.weibo.com/5220650532/Bs4XR5nkJ) ] - -2014-10-18 回复@phunter_lau: 我们就是松鼠银行。小松鼠们不看没关系,在我们这里永远保存的。 //@phunter_lau:似乎是松鼠症总结,肯定很多只转不看留着过冬结果来年就忘记了 [ [微博](http://www.weibo.com/5220650532/Bs5gOwHXH) ] - -> 2014-10-18 @好东西传送门: 好东西周报刚刚发出 http://t.cn/R74iqHY 如果过去一周有错过的好东西,看这个周报就好了 [呵呵] [ [微博](http://www.weibo.com/5220650532/Bs5cHeQqW) ] - -2014-10-18 //@一刹春: 这篇报告可以放在更大的背景下来看——结构主义者与实验主义者之争,例如 http://t.cn/zQtdejz Pearl曾经很不客气地说:因果推断的计量模型受到了两股势力的绑架,一个是回归主义者,另一个是准实验主义者,例如Angrist and Pischke。顺便说,Pearl获得了2011年的图灵奖。 [ [微博](http://www.weibo.com/5220650532/Bs5eUmois) ] - -> 2014-04-22 @一刹春: Judea Pearl写过一篇挺有意思的报告,比较了六本流行的本科计量教材,看它们对结构方程中因果性概念的阐述是否到位。根据他的吹毛求疵,比较接近理想标准的是Stock & Watson和Wooldridge这两本——似乎与市场的反响一致……WP出来有两年了,没想到发在一个奇怪的杂志上:http://t.cn/8sToYJA [ [微博](http://www.weibo.com/2238838664/B0UkOdFMr) ] - -2014-10-18 好东西周报刚刚发出 http://t.cn/R74iqHY 如果过去一周有错过的好东西,看这个周报就好了 [呵呵] [ [微博](http://www.weibo.com/5220650532/Bs5cHeQqW) ] - -2014-10-18 还有,这个网站维护了一个数据集列表 http://t.cn/R74J1vT 索引了一大堆用于统计分析数据集,覆盖社会科学,公众健康,人口普查,国际政治,地理信息等领域 大家一起来挖这个网站上的好东西吧! [ [微博](http://www.weibo.com/5220650532/Bs59obmD6) ] - -> 2014-10-18 @好东西传送门: 推荐一个统计软件学习资源网站(UCLA统计咨询小组维护) http://t.cn/R74xS4x 覆盖众多统计软件: R, SAS, SPSS, STATA 资料合集 http://t.cn/R74xS4J 两个速查表 1. 常见数据分析方法分别推荐代码例子 http://t.cn/R74xS46 2. 按变量的数量,性质及测试方法分别推荐代码例子 http://t.cn/R74xS4X [ [微博](http://www.weibo.com/5220650532/Bs4XR5nkJ) ] - -2014-10-18 推荐一个统计软件学习资源网站(UCLA统计咨询小组维护) http://t.cn/R74xS4x 覆盖众多统计软件: R, SAS, SPSS, STATA 资料合集 http://t.cn/R74xS4J 两个速查表 1. 常见数据分析方法分别推荐代码例子 http://t.cn/R74xS46 2. 按变量的数量,性质及测试方法分别推荐代码例子 http://t.cn/R74xS4X [ [微博](http://www.weibo.com/5220650532/Bs4XR5nkJ) ] - -2014-10-18 在加长版里,我们还看到几家相关领域的创业公司的新闻:@FacePlusPlus (人脸识别) @格灵深瞳 (视觉) Nara(推荐餐馆) Idibon(舆情追踪) 机器学习现在也是投资与创业热点 [ [微博](http://www.weibo.com/5220650532/Bs4FPvH0r) ] - -> 2014-10-18 @好东西传送门: 机器学习头条 2014-10-17 http://t.cn/R74I6IW 1)Douglas Engelbart的书Boosting Our Collective IQ 2)34种免费的数据挖掘软件 3)RecSys2014完整报告视频 4)Hadoop上的轻量级语言Guinea Pig 5)面试资料:Mitbbs数据科学版主晨钟暮鼓推荐的三本书 加长版52条 http://t.cn/R74I6Il [ [微博](http://www.weibo.com/5220650532/Bs4DIlwed) ] - -2014-10-18 今天的头条来自 @西瓜大丸子汤 @赵家平USC @AixinSG @王威廉 [ [微博](http://www.weibo.com/5220650532/Bs4FLnwdQ) ] - -> 2014-10-18 @好东西传送门: 机器学习头条 2014-10-17 http://t.cn/R74I6IW 1)Douglas Engelbart的书Boosting Our Collective IQ 2)34种免费的数据挖掘软件 3)RecSys2014完整报告视频 4)Hadoop上的轻量级语言Guinea Pig 5)面试资料:Mitbbs数据科学版主晨钟暮鼓推荐的三本书 加长版52条 http://t.cn/R74I6Il [ [微博](http://www.weibo.com/5220650532/Bs4DIlwed) ] - -2014-10-18 机器学习头条 2014-10-17 http://t.cn/R74I6IW 1)Douglas Engelbart的书Boosting Our Collective IQ 2)34种免费的数据挖掘软件 3)RecSys2014完整报告视频 4)Hadoop上的轻量级语言Guinea Pig 5)面试资料:Mitbbs数据科学版主晨钟暮鼓推荐的三本书 加长版52条 http://t.cn/R74I6Il [ [微博](http://www.weibo.com/5220650532/Bs4DIlwed) ] - -2014-10-18 http://t.cn/8sQnHYm “Better predictions. Faster.” R和Python都支持,看起来很有趣 //@ofsky: datarobot有木有,Jeremy你又要高兴了 [ [微博](http://www.weibo.com/5220650532/Bs41xbM6q) ] - -> 2014-10-18 @医学统计分析精粹: 除了Scipy和Numpy,Python通往数据科学还有一个极为强大的接口,Pandas。本网页整理了Pandas入门的几个经典资源,隆重推介。http://t.cn/R74qqAO @西瓜大丸子汤 @医学统计分析精粹 [ [微博](http://www.weibo.com/1874048763/Bs3cupl8c) ] - -2014-10-18 问: @战术核显英伟达 关于stata有什么好的书籍? 答: 资源整理 http://t.cn/R74tSJA 推荐人大经济论坛 “stata专版” 。很喜欢 hopenothing 2011年写的书单和建议 http://t.cn/R74tSJw : "要应用它,前提是要懂计量理论", "先从中文基本书籍入门,简单操作上手之后直接看英文", "不要被方法统治了思想" [ [微博](http://www.weibo.com/5220650532/Bs3IIxJTH) ] - -2014-10-18 pandas最早是从金融数据处理开始的,现在已经演变成数据科学家必备了,不可不知 [ [微博](http://www.weibo.com/5220650532/Bs3gYdRjy) ] - -> 2014-10-18 @医学统计分析精粹: 除了Scipy和Numpy,Python通往数据科学还有一个极为强大的接口,Pandas。本网页整理了Pandas入门的几个经典资源,隆重推介。http://t.cn/R74qqAO @西瓜大丸子汤 @医学统计分析精粹 [ [微博](http://www.weibo.com/1874048763/Bs3cupl8c) ] - -2014-10-17 @ShangguanRPI @朝花夕拾录 @陈涛sean @黄亮-算法时代 @老齐Py @StephanieYR @左耳朵耗子 @郑昀 @张俊林say @算文解字 @易度-潘俊勇 特别问问你们,有没有更多的python牛人应该关注? [ [微博](http://www.weibo.com/5220650532/Bs0jmD16M) ] - -> 2014-10-17 @好东西传送门: 现在问题来了,微博上Python技术谁家最强?欢迎大家推荐Python牛人们 [ [微博](http://www.weibo.com/5220650532/Bs0b07bUZ) ] - -2014-10-17 现在问题来了,微博上Python技术谁家最强?欢迎大家推荐Python牛人们 [ [微博](http://www.weibo.com/5220650532/Bs0b07bUZ) ] - -2014-10-17 Python是人类的救星 //@phunter_lau: Pig的救星,Pig这玩意语法太反人类了 [ [微博](http://www.weibo.com/5220650532/BrZuejO1L) ] - -> 2014-10-17 @王威廉: Pig是管理Hadoop任务的一个高级程序语言,在Amazon的Elastic MapReduce平台上也有支持。上学期我们大数据机器学习课程介绍了Pig,不过Pig的语法有点诡异,学生普遍反映不好调试。针对此问题,William Cohen发明了一个叫Guinea Pig(荷兰猪)的轻量级语言,基于Python,非常有意思:http://t.cn/R7yRpKp [ [微博](http://www.weibo.com/1657470871/BrW1Ckjrd) ] - -2014-10-17 //@西瓜大丸子汤: Doug是一位思想家,更是一位实践者,他发明了鼠标,超文本,计算机联网,最早的图形用户界面,远程电视会议,远程实时合作等等...见The Mother of All Demos http://t.cn/zQ7gpBt 他可以说是Web之父之父,TBL的很多思想是从他那来的, BTW,也是图灵奖得主. [ [微博](http://www.weibo.com/5220650532/BrXuc9Wcq) ] - -> 2014-10-17 @西瓜大丸子汤: 向大家推荐Douglas Engelbart的书,最短的Boosting Our Collective IQ http://t.cn/R7UZhIU 只有三十多页,但我觉得比<失控>好十倍.另外两本<Bootstrapping><The Engelbart Hypothesis>不是他写的(他才没空写),不过都是对他的采访,也比较好.Doug对人类的影响极为深远,虽然大多数人不知道 [ [微博](http://www.weibo.com/1932835417/BrXs3b0Ry) ] - -2014-10-17 推荐一篇ACM Computing Surveys 2010年综述,讲关于时间的数理模型 http://t.cn/R7yFUYT 1. 时间模型的考量维度,例如 离散/连续,顺序/分支,并发/组合,... 2. 数理模型发展史, 3. 常见时间模型分类, 例如 Petri网, 时间逻辑(Temporal Logic), 进程代数(process calculi) ... 抛砖引玉,欢迎指正 [ [微博](http://www.weibo.com/5220650532/BrX0g9W3D) ] - -2014-10-17 推荐系统必读.会议论文集.http://t.cn/RhFPLGl [ [微博](http://www.weibo.com/5220650532/BrWrN9bOy) ] - -> 2014-10-17 @AixinSG: RecSys 2014 完整报告视频, 包括每篇文章的报告 YouTube 链接 http://t.cn/R7y34x0 [ [微博](http://www.weibo.com/1025887594/BrWpTfiE9) ] - -2014-10-17 这两个东东当然好, Leetcode 前些时候才推过 http://t.cn/R7ymOb8 "crack the coding interview" 这个PDF版行吗 http://t.cn/R7ymObQ //@睡眼惺忪的小叶先森: 让大神@whiteath @_靖难_ 也推荐一下。我估计推荐leetcode和砸死代码面试 [ [微博](http://www.weibo.com/5220650532/BrWi747Jh) ] - -> 2014-10-17 @好东西传送门: 美帝码农面试资料 Mitbbs数据科学版主 晨钟暮鼓 推荐三本书:《101 Great Answers to the Toughest Interview Questions》 http://t.cn/R7yHCSP "behavior问题",《Recommender Systems》(Xiavier) http://t.cn/RhCcR9f ,《The Algorithm Design Manual》 http://t.cn/R7yHCSh "算法:graph,hash,DP" [ [微博](http://www.weibo.com/5220650532/BrVHvllVW) ] - -2014-10-17 补充一下: 要斗败烙印,还得提高情商。“The Algorithm Design Manual” 有很多人推荐过 年初是@velvel2 。而现在各公司都搞精准广告投放, Xavier Amatriain讲义自然对口, 可以先看KDD2014版(135页), 再看MLSS2014版(248页) , 所有资料都汇总到问答274了 http://t.cn/R7yEf6b 。 [ [微博](http://www.weibo.com/5220650532/BrW6cAzFI) ] - -> 2014-10-17 @好东西传送门: 美帝码农面试资料 Mitbbs数据科学版主 晨钟暮鼓 推荐三本书:《101 Great Answers to the Toughest Interview Questions》 http://t.cn/R7yHCSP "behavior问题",《Recommender Systems》(Xiavier) http://t.cn/RhCcR9f ,《The Algorithm Design Manual》 http://t.cn/R7yHCSh "算法:graph,hash,DP" [ [微博](http://www.weibo.com/5220650532/BrVHvllVW) ] - -2014-10-17 问: 关于进程代数研究的paper? 答: 资料汇总 http://t.cn/R7LN18n 进程代数process calculi用于为并发系统形式化建模,包括: π-calculus, ambient calculus, PEPA, fusion calculus, join-calculus。有本书 "Process algebra: equational theories of communicating processes" [ [微博](http://www.weibo.com/5220650532/BrW0E3a1f) ] - -2014-10-17 "Introduction To Algorithms" vs "The Algorithm Design Manual" 两本算法神作的进一步讨论: 前者是算法课的常客,概念清晰偏重理论(也是门主买过的为数不多的几本原价纸书), 而后者是编程实战利器(代码随用随抄),尤其适合准备白板面试。码农不妨看看stackoverflow的讨论 http://t.cn/R7yQ5a5 [ [微博](http://www.weibo.com/5220650532/BrVN33les) ] - -> 2014-10-17 @好东西传送门: 美帝码农面试资料 Mitbbs数据科学版主 晨钟暮鼓 推荐三本书:《101 Great Answers to the Toughest Interview Questions》 http://t.cn/R7yHCSP "behavior问题",《Recommender Systems》(Xiavier) http://t.cn/RhCcR9f ,《The Algorithm Design Manual》 http://t.cn/R7yHCSh "算法:graph,hash,DP" [ [微博](http://www.weibo.com/5220650532/BrVHvllVW) ] - -2014-10-17 美帝码农面试资料 Mitbbs数据科学版主 晨钟暮鼓 推荐三本书:《101 Great Answers to the Toughest Interview Questions》 http://t.cn/R7yHCSP "behavior问题",《Recommender Systems》(Xiavier) http://t.cn/RhCcR9f ,《The Algorithm Design Manual》 http://t.cn/R7yHCSh "算法:graph,hash,DP" [ [微博](http://www.weibo.com/5220650532/BrVHvllVW) ] - -2014-10-17 感谢@Arber @邱锡鹏 @CSDN_CODE @Jay_GraphLab 为我们分享了这些好东西.Fudan NLP和Graphlab都能不断推陈出新,产品越来越容易使用,无论是单机还是云,现在应用NLP越来越容易了. [ [微博](http://www.weibo.com/5220650532/BrUq2jBGW) ] - -> 2014-10-17 @好东西传送门: 机器学习头条 2014-10-16 http://t.cn/R7y09uG 1)Gerhard Weikum在VLDB'14的关于大数据分析的教程 2)垃圾邮件分类数据集 3)吴立德讲概率主题模型和数据科学基础 4)复旦大学推出基于云的FudanNLP 5)GraphLab Create正式发布,单机处理海量数据 加长版50条 http://t.cn/R7y09ub [ [微博](http://www.weibo.com/5220650532/BrUoMi7u7) ] - -2014-10-17 机器学习头条 2014-10-16 http://t.cn/R7y09uG 1)Gerhard Weikum在VLDB'14的关于大数据分析的教程 2)垃圾邮件分类数据集 3)吴立德讲概率主题模型和数据科学基础 4)复旦大学推出基于云的FudanNLP 5)GraphLab Create正式发布,单机处理海量数据 加长版50条 http://t.cn/R7y09ub [ [微博](http://www.weibo.com/5220650532/BrUoMi7u7) ] - -2014-10-17 RGB+Depth 深度感知计算机视觉 structure.io上有很酷的demo http://t.cn/z8rCSiR [ [微博](http://www.weibo.com/5220650532/BrU4XFuFB) ] - -> 2014-10-16 @cvnote计算机视觉笔记: CVPR'14 OpenCV 3.0 RGBD Tutorial | 由当年Kickstarter火爆的RGBD传感器 初创公司Occipital Sensor提供,今天扫了一眼Github还有源代码,使用的RGBD算法已经加入了OpenCV的contrib模块。http://t.cn/R7yyrMM [ [微博](http://www.weibo.com/3812841100/BrRxPhuYd) ] - -2014-10-17 Weikum是数据库,信息检索语义网领域的一位重要研究者,他在Max-Planc研究所。主页http://t.cn/R7yX6Je [ [微博](http://www.weibo.com/5220650532/BrSLYm4uR) ] - -> 2014-10-16 @Arber: Gerhard Weikum在VLDB'14的关于Big Data Anlytics的tutorial,非常好的总结了大数据知识库和语义这块的主要问题和技术体系。强烈建议做数据的人看看。他在下个月CIKM'14还有一个talk,估计类似。 http://t.cn/RhftLDi p.s. 看完也就知道一找的整体技术路线了~ [ [微博](http://www.weibo.com/1818327890/BrSyKkZvA) ] - -2014-10-16 http://t.cn/RPqUcVL graphlab create主页直达 [ [微博](http://www.weibo.com/5220650532/BrS1lyrW2) ] - -> 2014-10-16 @Jay_GraphLab: 经过一年多努力,GraphLab Create正式发布1.0:单机轻松处理海量图表/图(graph)/文本/图像(image)数据;机器学习模块包括推荐系统/社交网络/文本分析/最近邻搜索,还有前沿的BoostedTrees/DeepLearning/FactorizationMachine/LDA等模型;模型可以简单地被推送到云端,作为网站/App后台的智能预测服务 [ [微博](http://www.weibo.com/1863703874/BrOrBsidt) ] - -2014-10-16 转发微博 [ [微博](http://www.weibo.com/5220650532/BrPPE2d2z) ] - -> 2014-10-16 @睡眼惺忪的小叶先森: 自己做的一个Introduction to Redis,给几个需要的同学看过,反响还行 [嘻嘻] http://t.cn/R7LmBxF @好东西传送门 @whiteath @囧囧有神的小杜霉女 [ [微博](http://www.weibo.com/2765244861/BrPOVDWpU) ] - -2014-10-16 Anaconda是一个Python科学计算库的集合.与之前介绍过的Sage之重分析和数学不同,Anaconda重数据和效率,提供了诸多大数据分析工具,如Blaze(分布式数据分析), Bokeh(可视化), Numba(更快的Python代码编译) 最新的版本打包了195个科学计算包,极大方便 http://t.cn/zHsZMWW [ [微博](http://www.weibo.com/5220650532/BrPuj5NZn) ] - -2014-10-16 问:@执手共看云归醉晚汐 垃圾邮件分类有什么数据集么? 答:资料汇总 http://t.cn/R7L0GJZ 垃圾邮件数据集常见的有 UCI, enron, SpamAssassin, TREC。注意 Spam Archive dataset 有1997-2014的1个多G压缩过的垃圾邮件。尚未找到专门对垃圾邮件进一步标注分类的公开数据集 敬请指正 [ [微博](http://www.weibo.com/5220650532/BrPrACNtA) ] - -2014-10-16 找了一些 http://t.cn/R7L0GJZ 你看是你需要的吗? [ [微博](http://www.weibo.com/5220650532/BrP11gwAx) ] - -> 2014-10-09 @执手共看云归醉晚汐: 垃圾邮件分类有什么数据集么@好东西传送门 @西瓜大丸子汤 [ [微博](http://www.weibo.com/1687018055/BqMNcAfmh) ] - -2014-10-16 相关 2014-08-02 @理想主义de患者 问:有没有垃圾邮件检测的项目啊。答:比较有效的方法都是结合机器学习与人工知识的。最有名的开源项目是SpamAssassin,可以从很多语言调用如Python 。另有个开源项目Stopspam也值得关注。 http://t.cn/R7L0iI7 [ [微博](http://www.weibo.com/5220650532/BrOXC1Qkq) ] - -> 2014-10-09 @执手共看云归醉晚汐: 垃圾邮件分类有什么数据集么@好东西传送门 @西瓜大丸子汤 [ [微博](http://www.weibo.com/1687018055/BqMNcAfmh) ] - -2014-10-16 感谢 @Copper_PKU @MOOC学院 @规勒个划 @BigData大数据 提供或帮我们发现了这些好资源 [ [微博](http://www.weibo.com/5220650532/BrLpIjj3x) ] - -> 2014-10-16 @好东西传送门: 机器学习头条 2014-10-15 http://t.cn/R72BEMB 1)125页的免费电子书,Boyd的ADMM综述 2)机器学习入门资源不完全汇总 3)好课推荐:斯坦福大学《博弈论》 4)BCL发布一亿Flickr照片数据集的中国部分 5)Andrew Ng公开演讲深度学习:用大规模大脑实现机器学习 加长版50条 http://t.cn/R72BEMd [ [微博](http://www.weibo.com/5220650532/BrLoXAaeH) ] - -2014-10-16 机器学习头条 2014-10-15 http://t.cn/R72BEMB 1)125页的免费电子书,Boyd的ADMM综述 2)机器学习入门资源不完全汇总 3)好课推荐:斯坦福大学《博弈论》 4)BCL发布一亿Flickr照片数据集的中国部分 5)Andrew Ng公开演讲深度学习:用大规模大脑实现机器学习 加长版50条 http://t.cn/R72BEMd [ [微博](http://www.weibo.com/5220650532/BrLoXAaeH) ] - -2014-10-16 恭喜中国卫生政策与管理学会(海外)成立.我们的朋友里也有好多卫生经济学和统计的同仁 @陈茁博士_Adam @医学统计分析精粹 @美国中部大平原的胖胖 //@史律: 轉發微博 [ [微博](http://www.weibo.com/5220650532/BrLkYBqOZ) ] - -> 2014-10-15 @romanxu: 在@行走江湖张大水 的不懈努力下,@CHPAMS 终于在共和国国庆那天正式注册成功。祝贺大水当选第一任主席。CHPAMS从2008在波士顿的第一次酝酿到如今已六年,我有幸见证了它发展的每一个瞬间。风风雨雨,茁壮成长。有大家一片赤情,CHPAMS会越办越好。作为其首任理事,我也愿为大家服好务。www.chpams.org [ [微博](http://www.weibo.com/1651598281/BrESQzYjA) ] - -2014-10-16 125页的免费电子书,Boyd的ADMM综述 pdf直达http://t.cn/R721y3V [ [微博](http://www.weibo.com/5220650532/BrL3Ty2Dv) ] - -> 2014-10-15 @Copper_PKU: Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers http://t.cn/R72zKr9 有paper有survey 有code 简直.... [ [微博](http://www.weibo.com/1758509357/BrGu0wSnP) ] - -2014-10-16 //@刘挺: LTP是@哈工大SCIR 历时十余年研制的一套中文处理基础工具平台,开源且提供云服务,很多开发者在用。这次我们在京召开一个LTP用户的交流会,请大家提意见和建议。LTP的研制者@车万翔 等师生会介绍LTP的原理、功能和使用方法,也会有老用户介绍使用经验,欢迎大家一起来交流! [ [微博](http://www.weibo.com/5220650532/BrJlv1Oep) ] - -> 2014-10-15 @哈工大SCIR: 第一届语言技术平台用户大会(LTP-2014)将于2014年10月31日上午在京举行,届时将邀请LTP的技术团队介绍技术原理和应用、LTP用户介绍使用经验,还将组织针对LTP的研讨。本次研讨会自由报名,竭诚欢迎学术界与企业界的朋友参加。会议安排及报名方式请访问会议主页:http://t.cn/R7AgbAZ @刘挺 @车万翔 [ [微博](http://www.weibo.com/1819811883/BrFOdEolM) ] - -2014-10-15 谢了,已经更新。书前段时间推荐过,正打算改天补充一个书单;林老师的机器学习基石课加上了; 最后一门课已包括 //@tang_Kaka_back: 再加上李航博士的《统计学习方法》。如果觉得数学功底还过得去,还可以试试就是台大林轩田老师的“Machine Learning Foundation” or Caltech的“Learning from Data” [ [微博](http://www.weibo.com/5220650532/BrGwvpfOY) ] - -> 2014-10-15 @好东西传送门: 问: 本科生想学机器学习, 求推荐一个学习路线图 答: 整理了《机器学习入门资源不完全汇总》 http://t.cn/R7AkewK 推荐先看基本概念与几个路线图,参考小伙伴的进修攻略 (包括此前推的 学霸的学习笔记), 选修一门网上公开课(Tom Mitchell, Andrew Ng)系统地打好基础,理解算法实战要点。欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BrG32lkwC) ] - -2014-10-15 问: 本科生想学机器学习, 求推荐一个学习路线图 答: 整理了《机器学习入门资源不完全汇总》 http://t.cn/R7AkewK 推荐先看基本概念与几个路线图,参考小伙伴的进修攻略 (包括此前推的 学霸的学习笔记), 选修一门网上公开课(Tom Mitchell, Andrew Ng)系统地打好基础,理解算法实战要点。欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BrG32lkwC) ] - -2014-10-15 Yaha"哑哈"中文分词(作者余争) 优点:可以自定义分词方法,有正则表达式插件,人名前缀插件,地名后缀插件,新词学习功能.还有关键字提取,文本摘要,词语纠错功能,不仅是分词.Python的,使用非常简单 Github http://t.cn/R7AQyPt 在线演示 http://t.cn/R7AQyPc [ [微博](http://www.weibo.com/5220650532/BrF5hsF21) ] - -2014-10-15 规划控,GIS控,图片控,赶快来围观,200万张照片哦 [ [微博](http://www.weibo.com/5220650532/BrF0Pe9WF) ] - -> 2014-10-15 @规勒个划: BCL发布Yahoo! 提供一亿Flickr照片数据集的中国部分(下载+裁剪),下载猛戳:http://t.cn/R7ATWph @北京城市实验室BCL [ [微博](http://www.weibo.com/1012425625/BrEYPEY3x) ] - -2014-10-15 UIUC黄嘉斌(Jia-Bin Huang)的奇妙工作:图像补全.从图像里抹掉或切掉一部分,可以根据背景补上相近的建筑,物体纹理等.http://t.cn/R7AWFqg Matlab代码已经开源 http://t.cn/R7AWFqd [ [微博](http://www.weibo.com/5220650532/BrEKjBTde) ] - -2014-10-15 黄嘉斌用特殊的“主成分分析法”PCA和奇异值分解法(singular value decomposition)SVD做韩国小姐脸部特征的分析,验证了那个著名的观点“大众脸很吸引人,但最吸引人的却不是大众脸”. 英文原文http://t.cn/zTYkQB0 [ [微博](http://www.weibo.com/5220650532/BrEFncjHG) ] - -> 2013-05-07 @果壳网: 【“韩国小姐”的脸到底有多相似?】2013年“韩国小姐”选美大赛开始后,曝光的20位佳丽面容惊人的相似。那么,这些姑娘的脸到底有多么像呢?能否用科学的方法量化这种相似性?伊利诺伊大学香槟分校搞计算机视觉的博士生黄嘉斌写了篇文章,用科学的方法揭开了这个谜团:http://t.cn/zTYBfsN [ [微博](http://www.weibo.com/1850988623/zvBrGl1TL) ] - -2014-10-15 转发微博 [ [微博](http://www.weibo.com/5220650532/BrEcZzvnv) ] - -> 2014-10-15 @BigData大数据: 【Andrew Ng加盟百度后第一公开演讲】吴恩达加盟百度后第一公开演讲,演讲题目:Deep Learning: Machine Learning via Large-scale Brain http://t.cn/R7ASfYu 有兴趣的可以看看 @杨静Lillian @龙星镖局 @云泉微博 @好东西传送门 @李元超Osiris @异步步 [ [微博](http://www.weibo.com/2870219257/BrE8mAZWc) ] - -2014-10-15 感谢 @马超Terminal @李沐M @梁斌penny @cswhjiang @许扬逸Dijkstra 等讨论和推荐 parameter server那条还有一个@老师木 起的相关讨论 http://t.cn/R7ALYi5 可以一起看 [ [微博](http://www.weibo.com/5220650532/BrCBLFdk1) ] - -> 2014-10-15 @好东西传送门: 机器学习头条 2014-10-14 http://t.cn/R7ALbiR 1)spark和parameter server的讨论 2)Think系列免费电子书 3)@梁斌penny 的电商词库 4)Rob Tibshirani的15小时机器学习教程 5)用计算机视觉分析“韩国小姐”的脸到底有多相似 加长版49条 http://t.cn/R7ALbi8 [ [微博](http://www.weibo.com/5220650532/BrCykCJFk) ] - -2014-10-15 机器学习头条 2014-10-14 http://t.cn/R7ALbiR 1)spark和parameter server的讨论 2)Think系列免费电子书 3)@梁斌penny 的电商词库 4)Rob Tibshirani的15小时机器学习教程 5)用计算机视觉分析“韩国小姐”的脸到底有多相似 加长版49条 http://t.cn/R7ALbi8 [ [微博](http://www.weibo.com/5220650532/BrCykCJFk) ] - -2014-10-15 补充一下: 网易的公开课指Ng在斯坦福CS229的课程视频,有中文字幕 http://t.cn/arei5O 而Ng在Coursera 的课是简化版 http://t.cn/RPZBPZL //@好东西传送门: Ng机器学习课的网易公开课网址 http://t.cn/h5n6lh [ [微博](http://www.weibo.com/5220650532/BrCqD9lKD) ] - -> 2014-10-14 @cswhjiang: http://t.cn/Rh8103q In-depth introduction to machine learning in 15 hours of expert videos。Trevor Hastie 和 Rob Tibshirani 大神的课。适合初学者。 [ [微博](http://www.weibo.com/2358675560/BrsfHi0vv) ] - -2014-10-15 Ng机器学习课的网易公开课网址 http://t.cn/h5n6lh //@phunter_lau: 这不是这两位大爷的在线公开课么,这个基于统计角度的机器学习课倒是不太适合无基础的初学者也不是速成,学过Andrew Ng的机器学习课程想深入一些的可以看看 [ [微博](http://www.weibo.com/5220650532/BrChTb200) ] - -> 2014-10-14 @cswhjiang: http://t.cn/Rh8103q In-depth introduction to machine learning in 15 hours of expert videos。Trevor Hastie 和 Rob Tibshirani 大神的课。适合初学者。 [ [微博](http://www.weibo.com/2358675560/BrsfHi0vv) ] - -2014-10-15 //@phunter_lau: 这不是这两位大爷的在线公开课么,这个基于统计角度的机器学习课倒是不太适合无基础的初学者也不是速成,学过Andrew Ng的机器学习课程想深入一些的可以看看//@好东西传送门: 15小时学习机器学习.Tibshirani是经典Elements of Statistical Learning的作者 [ [微博](http://www.weibo.com/5220650532/BrCh3rZE9) ] - -> 2014-10-14 @cswhjiang: http://t.cn/Rh8103q In-depth introduction to machine learning in 15 hours of expert videos。Trevor Hastie 和 Rob Tibshirani 大神的课。适合初学者。 [ [微博](http://www.weibo.com/2358675560/BrsfHi0vv) ] - -2014-10-15 15小时学习机器学习.Tibshirani是经典Elements of Statistical Learning的作者.这个教程是基于他们的新书An Introduction to Statistical Learning with Applications in R (ISLR). [ [微博](http://www.weibo.com/5220650532/BrCekcOJU) ] - -> 2014-10-14 @cswhjiang: http://t.cn/Rh8103q In-depth introduction to machine learning in 15 hours of expert videos。Trevor Hastie 和 Rob Tibshirani 大神的课。适合初学者。 [ [微博](http://www.weibo.com/2358675560/BrsfHi0vv) ] - -2014-10-14 //@聪老师ZJU永远马屁精:这个讨论非常有意思。第一个人问的问题也是我一直以来的问题。ELM在learning领域太非主流了,发明人把它搞成了一个极小的圈子,供大家一起水文章。除了MSR的邓力,没听任何在learning界有所建树的牛人提过ELM。 [ [微博](http://www.weibo.com/5220650532/BrxgKiOYX) ] - -> 2014-10-14 @好东西传送门: 问: 有没有仔细介绍极限学习机ELM和S变换的文章,最好是中文的 答: 资料汇总 http://t.cn/R7wPJYa 网上社区 http://t.cn/R7wPJYS 有代码教程及年会信息。matlabsky 有两个中文资源列表。注意到reddit上学术争议 http://t.cn/R7wPJYK 猜测“ELM是 SVM with a random inflationary kernel" 敬请指点 [ [微博](http://www.weibo.com/5220650532/Brw09AHEV) ] - -2014-10-14 转发微博 [ [微博](http://www.weibo.com/5220650532/BrxdTBPJP) ] - -> 2014-10-14 @冯志伟文化博客: 回复@泛黄的鹿 对博文【关于斯坦福句法剖析器 -- 答网友】的评论:"Stanford Parser使用了SPSG(统计短语结构语法),没有考虑单词的特征,所以,不是词汇化的SPSG模型(Lixicalized SPSG)。 v 冯志伟"查看原文:http://t.cn/aoig2Z [ [微博](http://www.weibo.com/1926267847/Brxa5b0Pb) ] - -2014-10-14 不错的起步教程。传送门直达 http://t.cn/R7wfRwD [ [微博](http://www.weibo.com/5220650532/Brxdyl6Nn) ] - -> 2014-10-14 @cnodejs: Redis快速入门教程 http://t.cn/R7Z0WNO [ [微博](http://www.weibo.com/1958172255/BrxcaEez1) ] - -2014-10-14 自然语言处理的靠谱公司,帮转 //@李志飞AI:跪求Android,iOS以及其他工程师,请大家帮忙转发扩散。简历可直接发我邮箱zfli@mobvoi.com,优先处理! [ [微博](http://www.weibo.com/5220650532/BrxaXjcY5) ] - -> 2014-10-14 @出门问问: #出门问问招聘啦#几十年前,如果你说要改变世界,得到的答复很可能是“呵呵”;但今天,如果你说你要改变世界,没有人敢嘲笑你。让“改变世界”变得可信的,是一群叫做“工程师”的人。如果你也有同样的梦想,快快加入我们的队伍吧![来]http://t.cn/R7whlVj [ [微博](http://www.weibo.com/3411134394/BrwarAjEE) ] - -2014-10-14 问: 有没有仔细介绍极限学习机ELM和S变换的文章,最好是中文的 答: 资料汇总 http://t.cn/R7wPJYa 网上社区 http://t.cn/R7wPJYS 有代码教程及年会信息。matlabsky 有两个中文资源列表。注意到reddit上学术争议 http://t.cn/R7wPJYK 猜测“ELM是 SVM with a random inflationary kernel" 敬请指点 [ [微博](http://www.weibo.com/5220650532/Brw09AHEV) ] - -2014-10-14 是这本书吧 http://t.cn/R7ZFBQe 2012 年 @高哲遠_StonyBrook_CS 同学曾经尝试翻译了一些章节, http://t.cn/RvHjRLs //@MOJUN: 话说,就没人翻译那本经典《Pattern Recognition And Machine Learning》吗? [ [微博](http://www.weibo.com/5220650532/BrvQ47iwh) ] - -> 2014-10-14 @好东西传送门: [温故而知新] 免费电子书 Green tea press 上有 Think Python, Think Bayes, Think Complexity, Think Stats2 等一系列 Allen Downey 撰写的教材,下载链接 http://t.cn/hG9XvF Github有一些书的tex源码例子,相关资料请看合集 http://t.cn/R7ZmB4s @图灵社区 2011年曾推荐过 [ [微博](http://www.weibo.com/5220650532/Brv6gmKco) ] - -2014-10-14 期待梁总的分享链接 [ [微博](http://www.weibo.com/5220650532/BrvJbmyRW) ] - -> 2014-10-14 @梁斌penny: 最近有不少科研机构找我要电商词库,用于科学研究,我们曾经做过30万个细分的小类的电商词(合计8.6亿词汇),包括类号,词,和词频,如下图。 这样吧,一会我们在pennyjob中拿1万个小类(500万词)分享下,写论文肯定是够了。 [ [微博](http://www.weibo.com/1497035431/BruLAwTwB) ] - -2014-10-14 很多人问到怎么订阅<机器学习日报>.为方便大家,做了个订阅按钮在主页上,域名 ml.memect.com http://t.cn/R7ZepFz .或给 hao@memect.com 发封空信,标题是 " 订阅机器学习日报 " 即可.另外,过去几期长短版的链接都加到主页上了. [ [微博](http://www.weibo.com/5220650532/BrvCDmx41) ] - -2014-10-14 //@星空下的巫师: 去年ImageNet的第一名Zeiler&Fergus的论文有提到,今年VGG的论文Very Deep Convolutional Networks for Large-Scale Image Recognition的Part 5也有较详细的描述,可以去看看。 [ [微博](http://www.weibo.com/5220650532/Brvg8DUBh) ] - -> 2014-10-14 @姜文晖061: 有一个很弱的问题,ImageNet竞赛中,分类和定位是一个Task,可为什么大家的论文里为啥都只说分类,没说怎么用那个网络做定位。是因为太简单了,只有我不知道么?请指教[泪] @星空下的巫师 @ICT秦磊 @丕子 @欢乐的陈奇 @JOSHUA的时间轴 @孙炜晨 @木乱人先生 @好东西传送门 [ [微博](http://www.weibo.com/1254045914/BruIK9lEL) ] - -2014-10-14 [good] 期待!//@许扬逸Dijkstra: ThinkBayes中译版已经完成翻译,译者不才正是在下[黑线]。应该最近就会由人民邮电社出版。敬请期待! [ [微博](http://www.weibo.com/5220650532/Brv8Tcsrv) ] - -> 2014-10-14 @好东西传送门: [温故而知新] 免费电子书 Green tea press 上有 Think Python, Think Bayes, Think Complexity, Think Stats2 等一系列 Allen Downey 撰写的教材,下载链接 http://t.cn/hG9XvF Github有一些书的tex源码例子,相关资料请看合集 http://t.cn/R7ZmB4s @图灵社区 2011年曾推荐过 [ [微博](http://www.weibo.com/5220650532/Brv6gmKco) ] - -2014-10-14 [温故而知新] 免费电子书 Green tea press 上有 Think Python, Think Bayes, Think Complexity, Think Stats2 等一系列 Allen Downey 撰写的教材,下载链接 http://t.cn/hG9XvF Github有一些书的tex源码例子,相关资料请看合集 http://t.cn/R7ZmB4s @图灵社区 2011年曾推荐过 [ [微博](http://www.weibo.com/5220650532/Brv6gmKco) ] - -2014-10-14 感谢@火光摇曳Flickering @孙茂松 @机器学习讲座 @丕子 @任远AI 的推荐和精彩评论 [ [微博](http://www.weibo.com/5220650532/BrtOP7HJJ) ] - -> 2014-10-14 @好东西传送门: 机器学习头条 2014-10-13 http://t.cn/R7ZSYyw 1)转化率预估-2 逻辑回归技术 2)全国计算语言学学术会议10月18—19日在华中师大召开 3)A*搜索算法的可视化短教程 4)caffestudy(2)关于forward和backward-backward 5)natural language generation经典工作和方法 加长版46条 http://t.cn/R7ZSYy4 [ [微博](http://www.weibo.com/5220650532/BrtOalpeL) ] - -2014-10-14 机器学习头条 2014-10-13 http://t.cn/R7ZSYyw 1)转化率预估-2 逻辑回归技术 2)全国计算语言学学术会议10月18—19日在华中师大召开 3)A*搜索算法的可视化短教程 4)caffestudy(2)关于forward和backward-backward 5)natural language generation经典工作和方法 加长版46条 http://t.cn/R7ZSYy4 [ [微博](http://www.weibo.com/5220650532/BrtOalpeL) ] - -2014-10-14 回复@星轨1202110: ml.memect.com http://t.cn/R7ZiLYP 那里可以订阅 //@星轨1202110:新人 想知道 在哪里看机器学习 日报 [ [微博](http://www.weibo.com/5220650532/BrtmkE8Vx) ] - -> 2014-10-13 @好东西传送门: 机器学习日报做了20多期,有人喜欢短版,有人喜欢长版.目前邮箱只投放短版.咱来投个票,看如果改投长版的话(5条焦点摘要还会保留),大家还会喜欢吗? 短版例子 http://t.cn/R7zcNTQ 长版例子 http://t.cn/R7zVGyO 【你希望机器学习日报邮件发短版还是长版?】,地址 http://t.cn/R7zcJJm [ [微博](http://www.weibo.com/5220650532/BrmF4rriA) ] - -2014-10-14 回复@IT教师: 给 hao@memect.com 发封空信,标题 订阅机器学习日报 //@IT教师:怎么加入邮件列表? //@好东西传送门:52:20 长版领先.这个投票再保留一天,同时我们也在邮件列表里咨询大家意见了.如果需要切换,我们会先征求一些用户测试,看看长版的实际效果如何.谢谢已经投过票的朋友们! [ [微博](http://www.weibo.com/5220650532/BrsYPihzo) ] - -> 2014-10-13 @好东西传送门: 机器学习日报做了20多期,有人喜欢短版,有人喜欢长版.目前邮箱只投放短版.咱来投个票,看如果改投长版的话(5条焦点摘要还会保留),大家还会喜欢吗? 短版例子 http://t.cn/R7zcNTQ 长版例子 http://t.cn/R7zVGyO 【你希望机器学习日报邮件发短版还是长版?】,地址 http://t.cn/R7zcJJm [ [微博](http://www.weibo.com/5220650532/BrmF4rriA) ] - -2014-10-14 52:20 长版领先.这个投票再保留一天,同时我们也在邮件列表里咨询大家意见了.如果需要切换,我们会先征求一些用户测试,看看长版的实际效果如何.谢谢已经投过票的朋友们! [ [微博](http://www.weibo.com/5220650532/BrsViF8iK) ] - -> 2014-10-13 @好东西传送门: 机器学习日报做了20多期,有人喜欢短版,有人喜欢长版.目前邮箱只投放短版.咱来投个票,看如果改投长版的话(5条焦点摘要还会保留),大家还会喜欢吗? 短版例子 http://t.cn/R7zcNTQ 长版例子 http://t.cn/R7zVGyO 【你希望机器学习日报邮件发短版还是长版?】,地址 http://t.cn/R7zcJJm [ [微博](http://www.weibo.com/5220650532/BrmF4rriA) ] - -2014-10-14 回复@lp_挖掘机:给hao@memect.com发封空信,标题是 订阅机器学习日报 就可以了//@lp_挖掘机:回复@好东西传送门:怎么订阅这个? [ [微博](http://www.weibo.com/5220650532/BrqqtBypL) ] - -> 2014-10-13 @lp_挖掘机: 我参与了@好东西传送门 发起的投票【你希望机器学习日报邮件发短版还是长版?】,我投给了“长版,所有的东西都在邮件里,踏实,好找”这个选项。你也快来表态吧:http://t.cn/R7zcJJm [ [微博](http://www.weibo.com/2033610034/BroaixZhv) ] - -2014-10-13 //@王威廉:[good] 主题演讲和知识图谱研讨会的内容都很有意思,有条件的同学争取去学习一下。 //@刘知远THU: NLP全国年度盛会。:) @王威廉 @丕子 @龙星镖局 @好东西传送门 [ [微博](http://www.weibo.com/5220650532/Brqk9tX0v) ] - -> 2014-10-13 @孙茂松: “第十三届全国计算语言学学术会议”(CCL 2014)和 “第二届基于自然标注大数据的自然语言处理国际学术研讨会”(NLP-NABD 2014)将于今年10月18—19日在华中师大召开。大会特邀报告汇聚了四位国内外大牌学者,涵盖自然语言处理、认知及机器学习多个深刻话题。欢迎注册参加! http://t.cn/8sMoDdb [ [微博](http://www.weibo.com/1970879995/Bro598xvT) ] - -2014-10-13 推荐A*搜索算法的可视化短教程 http://t.cn/R7zO4To A*搜索是人工智能基本算法,用于高效地搜索图中两点的最佳路径, 核心是 g(n)+h(n): g(n)是从起点到顶点n的实际代价,h(n)是顶点n到目标顶点的估算代价。下图看优点: 选择最佳路径,同时降低搜索代价(不遍历所有格子) 合集 http://t.cn/R7zO4TK [ [微博](http://www.weibo.com/5220650532/BrnTyvnCT) ] - -2014-10-13 大家可以到issue254围观讨论精华区 http://t.cn/R7zomOr //@青圩小康: 转发微博 [ [微博](http://www.weibo.com/5220650532/BrnqxfpMe) ] - -> 2014-10-13 @丕子: natural language generation 经典工作和方法? @好东西传送门 [ [微博](http://www.weibo.com/1665335994/Brl62dza9) ] - -2014-10-13 //@任远AI: 我校的NLG组号称世界最大,两位教授Ehud和Yaji创建了很成功的NLG公司 http://t.cn/R7zocR9 。在我校的NLP课程 http://t.cn/R7zocRC 后半有Ehud讲授的NLG内容。爱丁堡有专门的NLG课程 http://t.cn/R7zocRK ,里面有完整的讲义和大量延伸阅读材料。会议的话看INLG( http://t.cn/R7zocRo [ [微博](http://www.weibo.com/5220650532/BrnoGjaZe) ] - -> 2014-10-13 @丕子: natural language generation 经典工作和方法? @好东西传送门 [ [微博](http://www.weibo.com/1665335994/Brl62dza9) ] - -2014-10-13 @丕子 问:natural language generation 经典工作和方法?答:BBN的David D. McDonald在NLP Handbook里有一章Natural Language Generation(自然语言生成),有20多页,讲得很全面.文后附了很多参考文献,经典的工作应该都涵盖了 http://t.cn/R7zaBVI [ [微博](http://www.weibo.com/5220650532/BrniQD1hW) ] - - -2014-10-13 机器学习日报做了20多期,有人喜欢短版,有人喜欢长版.目前邮箱只投放短版.咱来投个票,看如果改投长版的话(5条焦点摘要还会保留),大家还会喜欢吗? 短版例子 http://t.cn/R7zcNTQ 长版例子 http://t.cn/R7zVGyO 【你希望机器学习日报邮件发短版还是长版?】,地址 http://t.cn/R7zcJJm [ [微博](http://www.weibo.com/5220650532/BrmF4rriA) ] - -2014-10-13 在手机上可以看世行数据了:MacroStats to Go(世行宏观统计数据).另外搭车推一遍我们整理的数据集目录,一共20个http://t.cn/R7z5ErQ 世行数据也在其中 [ [微博](http://www.weibo.com/5220650532/BrmxneNDH) ] - -> 2014-10-12 @世界银行: #世界银行2014年秋季年会# 如果您下次访问苹果商店,请考虑下载一个既可供您娱乐又给您提供信息的应用程序吧[哈哈]。世行在年会召开之际推出MacroStats to Go(世行宏观统计数据)应用程序,将世界上最大的经济数据库之一的数据置于您手掌之中,快去下载吧,好处你知道哈[阴险]。http://t.cn/R7hLqRi [ [微博](http://www.weibo.com/1735501411/Brb5U04dp) ] - -2014-10-13 这本书也不错,推荐一下.英文原版R in a Nutsbell http://t.cn/R7zGAhJ [ [微博](http://www.weibo.com/5220650532/Brmmu3vDv) ] - -> 2014-08-26 @互动出版网china-pub: #新书到货#《R语言核心技术手册(第2版)》面向统计计算与数据可视化 业界公认R语言最佳入门 覆盖领域最全实战案例最多 数据从业者案头必备工具书。内容新增了R高性能计算、基于ggplot2的数据可视化和利用Hadoop做并行运算。本书详情:http://t.cn/RPg4urU @电子工业出版社 @刘思喆 [ [微博](http://www.weibo.com/1645536727/Bk2fPccrt) ] - -2014-10-13 好东西.更多关于ipython的资料 http://t.cn/R77F8w7 [ [微博](http://www.weibo.com/5220650532/Brlt3clvm) ] - -> 2014-10-13 @squirrel_d: ipython notebook格式的一本书,讲述如何用python进行统计分析,内容包括mcmc,hanmiltonian MC,高斯过程,狄利克莱过程等 http://t.cn/R77ulSW [ [微博](http://www.weibo.com/1978391022/BrkRxkxV4) ] - -2014-10-13 感谢最右.欢迎更多建议,我会帮着整理讨论合集和增补 //@Copper_PKU: http://t.cn/R77gFV4 给你推荐一个 我曾经参加过summer school 这个人讲了NLG的一些技术 [ [微博](http://www.weibo.com/5220650532/BrlrQoLjy) ] - -> 2014-10-13 @丕子: natural language generation 经典工作和方法? @好东西传送门 [ [微博](http://www.weibo.com/1665335994/Brl62dza9) ] - -2014-10-13 CommonCrawl简介.把以前几条和CommonCrawl这个巨大的数据集相关的微博汇总了一下.这个数据集对各行各业的人应该都有用,和Wikipedia类似.文字版 http://t.cn/R77RbnD [ [微博](http://www.weibo.com/5220650532/BrkAx26eT) ] - -2014-10-13 是一个有50亿网页的搜索索引 http://t.cn/RPIJ8V9 //@李立辉lilihui: Commoncrawl是什么?见我们以前的推荐 http://t.cn/R77QeUA http://t.cn/R77QeUw [ [微博](http://www.weibo.com/5220650532/Brkvz8DQq) ] - -> 2014-08-30 @好东西传送门: 问: @小磊_DM_中二青年 在学搜索,请问有Nutch的相关资料吗? 答: nutch主要做网络爬虫,可以和solr结合做搜索引擎。问答进展: http://t.cn/RhZN72R (卡片盒子 http://t.cn/RhZN72E 6个资源): nutch 的中英文安装短教程(此外看Nutch wiki); nutch工作流程; 最近很火的CommonCrawl也转用nutch [ [微博](http://www.weibo.com/5220650532/BkFg8v2lw) ] - -2014-10-13 感谢@蒋涛CSDN @cvnote计算机视觉笔记 @极度视界 @breezedeus 的推荐 开源版数据科学教程 尤其赞,收集了各方向近20门课程,在家就可以自学数据科学硕士 [ [微博](http://www.weibo.com/5220650532/BrkkkkQcV) ] - -> 2014-10-13 @好东西传送门: 机器学习头条 2014-10-12 http://t.cn/R77YEFk 1)开源版数据科学教程 2)usaddress解析自然语言描述的美国地址字符串 3)NEIL: Never Ending Image Learning 4)ASR corpus开放语音语料库 5)特征选择要点清单 加长版50条 http://t.cn/R77YEFF [ [微博](http://www.weibo.com/5220650532/BrkiB5rjZ) ] - -2014-10-13 机器学习头条 2014-10-12 http://t.cn/R77YEFk 1)开源版数据科学教程 2)usaddress解析自然语言描述的美国地址字符串 3)NEIL: Never Ending Image Learning 4)ASR corpus开放语音语料库 5)特征选择要点清单 加长版50条 http://t.cn/R77YEFF [ [微博](http://www.weibo.com/5220650532/BrkiB5rjZ) ] - -2014-10-12 [开源软件] usaddress 利用机器学习将自然语言描述的美国地址字符串解析为结构化数据, python 包, github 近200星。分词用正则表达式, 机器学习用 Conditional Random Fields (pyCRFsuite) 源码: http://t.cn/R7hCJbY 相关资料 http://t.cn/R7hCJbj [ [微博](http://www.weibo.com/5220650532/Brdr2jdUJ) ] - -2014-10-12 作者 Scott Krig http://t.cn/R7hiMF2 [ [微博](http://www.weibo.com/5220650532/BrcEAluXE) ] - -> 2014-10-11 @cvnote计算机视觉笔记: 好书推荐 | Computer Vision Metrics, Survey, Taxonomy and Analysis | Scott Krigs 2014最新作品,对目前流行的计算机视觉算法进行了深入浅出的讲解,包括各种图像特征描述方法、图像成像原理、距离度量、视觉算法开发的整体优化等等。最重要的是:电子版是免!费!的!http://t.cn/R7Ppb1k [ [微博](http://www.weibo.com/3812841100/Br69QEhaS) ] - -2014-10-12 好东西周报+一周的机器学习头条 总结已经发出了 http://t.cn/R7hJWhZ 过去一周我们推荐的好东西统统在这里.和以前一样Github已经同步更新 http://t.cn/RPfAgNg [ [微博](http://www.weibo.com/5220650532/BrcAeg0bC) ] - -2014-10-12 把这条单独拿出来推一下,看看搞spark的和multiboost的朋友们有什么建议? [ [微博](http://www.weibo.com/5220650532/BrbttvbrZ) ] - -> 2014-10-11 @BaiGang-: 十一之后对Spark MultiBoost做了些调整 http://t.cn/R7Pp3K3, 现在支持用mllib中的SVM和LR作为general base learner,比之前的decision stump model在训练效率上和效果上都提高了很多。欢迎fork&star http://t.cn/RhI1RB3 [熊猫] [ [微博](http://www.weibo.com/2149737874/Br6dqz8US) ] - -2014-10-12 感谢推荐者@eeyangc @上微博的猫V @Python开发者 @网路冷眼 今天的5条之外还有不错的前沿新闻,如@velvel2 推荐的Not All Neural Embeddings are Born Equal结合语言模型和翻译模型 @BaiGang- 开源的Spark MultiBoost 都在加长版中 http://t.cn/R7hy8gY [ [微博](http://www.weibo.com/5220650532/BrblmzWSf) ] - -> 2014-10-12 @好东西传送门: 机器学习头条 2014-10-11 http://t.cn/R7hy8gT 1)好书Freedman的statistical models theory and practice 2)Netflix技术分享的资源17条 3)一张图的故事概率分布之间的关系(下) 4)scikit-learn用于机器学习的Python模块 5) Spark打破了MapReduce排序世界记录 加长版69条 http://t.cn/R7hy8gY [ [微博](http://www.weibo.com/5220650532/Brbft2DRe) ] - -2014-10-12 推荐这篇!可结合读@AixinSG 推荐的如何选择最适合的推荐模型 http://t.cn/R7hU5co @xccds 推荐的特征工程的方方面面 http://t.cn/RhdVoZT [ [微博](http://www.weibo.com/5220650532/BrbiQiyJT) ] - -> 2014-10-11 @breezedeus: 特征工程在具体项目里的作用其实比算法大的多,换个角度说,算法可以认为是用来提取特征的。强烈推荐这篇讲特征选择的博文,进去后你会发现,文章论及的远不止特征选择。而且附带了丰富的参考文献,甚至处理具体问题的详细步骤。http://t.cn/R7PEiL5 [ [微博](http://www.weibo.com/1660835355/Br7jD5zSQ) ] - -2014-10-12 机器学习头条 2014-10-11 http://t.cn/R7hy8gT 1)好书Freedman的statistical models theory and practice 2)Netflix技术分享的资源17条 3)一张图的故事概率分布之间的关系(下) 4)scikit-learn用于机器学习的Python模块 5) Spark打破了MapReduce排序世界记录 加长版69条 http://t.cn/R7hy8gY [ [微博](http://www.weibo.com/5220650532/Brbft2DRe) ] - -2014-10-11 fuxi是一个很不错的推理引擎。 [ [微博](http://www.weibo.com/5220650532/Br4NK9ZoN) ] - -> 2014-10-11 @潘越_: FuXi http://t.cn/R7Pfso7 很不错,可惜没有人维护了,不支持rdflib 4.x和Python 3.x [ [微博](http://www.weibo.com/1860270543/Br4MVhRog) ] - -2014-10-11 昨天 @龙星镖局 推荐了Netflix个性化和推荐系统架构。这里我们收集了Memect的用户们分享的更多的关于Netflix技术分享的资源,一共17条,涉及推荐系统方法,大数据平台,开源系统等。特别推荐《Netflix视频推荐的背后:算法知道你想看什么》《Big Data Lessons From Netflix》http://t.cn/R7Pqfw3 [ [微博](http://www.weibo.com/5220650532/Br4iGoZ8D) ] - -2014-10-11 http://t.cn/h4PrxS 斯坦福哲学百科全书。虽然听起来有点玄,其实里面有很多和数学、计算机科学相关的内容,例如和逻辑相关的有近百条,还有语言学、概率论、脑与认知等很多精彩条目,有益开拓眼界。(另附一张西方哲学系谱图) [ [微博](http://www.weibo.com/5220650532/Br3Ryaa62) ] - -2014-10-11 LISP里有强大的宏,用MacroPy在Python里也可以实现。例如LINQ风格的数据查询语言。用宏可以自己来发明语言了。人生苦短... [ [微博](http://www.weibo.com/5220650532/Br3z4gkVl) ] - -> 2014-10-11 @好东西传送门: 接上面的Python函数式编程的讨论.已经发明的轮子主要有这几个:标准库里的functools http://t.cn/R7Pw9ne fn.py 见@InfoQ 的这篇文章 http://t.cn/zY1VzLx gf定义通用函数 http://t.cn/R7Pw9nD MacroPy宏语言http://t.cn/R7Pw9nk 此外还有 pyfunctor funcy toolz [ [微博](http://www.weibo.com/5220650532/Br3xP8En6) ] - -2014-10-11 接上面的Python函数式编程的讨论.已经发明的轮子主要有这几个:标准库里的functools http://t.cn/R7Pw9ne fn.py 见@InfoQ 的这篇文章 http://t.cn/zY1VzLx gf定义通用函数 http://t.cn/R7Pw9nD MacroPy宏语言http://t.cn/R7Pw9nk 此外还有 pyfunctor funcy toolz [ [微博](http://www.weibo.com/5220650532/Br3xP8En6) ] - -2014-10-11 谁来写写萝莉分布(Rayleigh distribution) [哈哈] //@we1559: 原po好腐。。。正态分布能打成正太分布 //@好东西传送门: 博主的(下)来了[good]. (上) 的微博: http://t.cn/R7vkfIY [ [微博](http://www.weibo.com/5220650532/Br3kM6cck) ] - -> 2014-10-11 @上微博的猫V: 【一张图的故事——概率分布之间的关系(下)】 图中概率分布之间的转化关系大致可以分成三种:1.近似关系,如正太分布可以用来近似泊松分布、二项分布和伽马分布。2.变量变换关系,如随机变量X服从均匀分布U(0,1), 则−θlnX服从指数分布。 3.特例关系,如卡方分布是伽马分布...http://t.cn/R7vmBGH [ [微博](http://www.weibo.com/1679022231/Br2cNlIcH) ] - -2014-10-11 赞.搭车推荐一个python函数式编程的报fn http://t.cn/zTHOud5 可以非常简明又易懂地实现很多函数式编程,如简化的lambda定义,序列流,尾递归,很多高级的数据遍历操作(几乎可以理解为Python上定义的一个数据查询语言),强大[威武] [ [微博](http://www.weibo.com/5220650532/Br3iBEi5o) ] - -> 2014-10-11 @申导: 拙作 《Python函数式编程》,记录了自己一点学习心得。 http://t.cn/R7vgeUp [ [微博](http://www.weibo.com/1001863751/Br2wPjdPB) ] - -2014-10-11 博主的(下)来了[good]. (上) 的微博:http://t.cn/R7vkfIY 另外再感谢一次@_散沙_民工智能_ 最早发现和分享了这张图 [ [微博](http://www.weibo.com/5220650532/Br2IfD5Zk) ] - -> 2014-10-11 @上微博的猫V: 【一张图的故事——概率分布之间的关系(下)】 图中概率分布之间的转化关系大致可以分成三种:1.近似关系,如正太分布可以用来近似泊松分布、二项分布和伽马分布。2.变量变换关系,如随机变量X服从均匀分布U(0,1), 则−θlnX服从指数分布。 3.特例关系,如卡方分布是伽马分布...http://t.cn/R7vmBGH [ [微博](http://www.weibo.com/1679022231/Br2cNlIcH) ] - -2014-10-11 感谢头条的作者和推荐者们 @龙星镖局 @InfoQ @zhujiangmail @网路冷眼 .今天Netflix的案例可以结合前天Josh Wills讲工业界和学术界机器学习的异同那条看,系统优先于算法 http://t.cn/R7vOofL [ [微博](http://www.weibo.com/5220650532/Br0xsftsa) ] - -> 2014-10-11 @好东西传送门: 机器学习头条 2014-10-10 http://t.cn/R7vNur1 1)Netflix个性化和推荐系统架构 2)Android上的相似图像推荐 3)问答:推荐识别歧义词的方法和文章 4)用Python实现逻辑回归 5)Michael Jordan解析领域中各类模型 加长版62条 [ [微博](http://www.weibo.com/5220650532/BqZYV3Xew) ] - -2014-10-11 机器学习头条 2014-10-10 http://t.cn/R7vNur1 1)Netflix个性化和推荐系统架构 2)Android上的相似图像推荐 3)问答:推荐识别歧义词的方法和文章 4)用Python实现逻辑回归 5)Michael Jordan解析领域中各类模型 加长版62条 [ [微博](http://www.weibo.com/5220650532/BqZYV3Xew) ] - -2014-10-11 机器学习头条 2014-10-10 http://t.cn/R7vNur1 1)Netflix个性化和推荐系统架构 @龙星镖局 2)Android上的相似图像推荐 @zhujiangmail 3)问答:推荐识别歧义词的方法和文章 4)用Python实现逻辑回归 @好东西传送门 5)Michael Jordan解析领域中各类模型 @网路冷眼 加长版62条 http://t.cn/R7vNur3 [ [微博](http://www.weibo.com/5220650532/BqZSA5k01) ] - -2014-10-11 感谢大家@张俊林say @昊奋 @东北大学自然语言处理实验室 @AixinSG 讨论合集已经整理到这里了 http://t.cn/R7vNvt4 [ [微博](http://www.weibo.com/5220650532/BqZFQcE4d) ] - -> 2014-10-10 @yuxyang: @好东西传送门 求推荐识别歧义词的方法和文章。比如: 苹果 有苹果手机和苹果这两个意思。金六福有金六福珠宝和金六福酒业这些意思。 如何识别这样的词 并做区分呢? [ [微博](http://www.weibo.com/1727751845/BqVqdnbPI) ] - -2014-10-11 //@侠女无敌-曾佩玲: 补充一个很好的 reading list: http://t.cn/8FqFegC //@AixinSG: @LCL-WHU 做过Word Sense Disambiguation (WSD)方面的尝试。判断哪些词可 能有歧义需要一个知识库支持,我们用的是基于Wikipedia建立的语料库;然后根据歧义词语义判断区分 http://t.cn/R7v7tl0 [ [微博](http://www.weibo.com/5220650532/BqYHa0aZX) ] - -> 2014-10-10 @yuxyang: @好东西传送门 求推荐识别歧义词的方法和文章。比如: 苹果 有苹果手机和苹果这两个意思。金六福有金六福珠宝和金六福酒业这些意思。 如何识别这样的词 并做区分呢? [ [微博](http://www.weibo.com/1727751845/BqVqdnbPI) ] - -2014-10-11 期待王斌老师的中文版! //@马少平THU:又让我们掏银子了//@王斌_IIEIR: 翻译完了校对中,勿喷//@AixinSG [ [微博](http://www.weibo.com/5220650532/BqYGAwjVr) ] - -> 2014-10-10 @好东西传送门: Taming Text是一本从实用的角度基于Java处理文本的好书.它包括了文本搜索的原理和用Solr的实现,字符串匹配.实体(如人名地名)识别和OpenNLP实现,文本聚类及工具Carrot//Mahout,文本分类的工具Lucene/Mahout/OpenNLP等 http://t.cn/htf5rQ 源代码http://t.cn/RhsDOce [ [微博](http://www.weibo.com/5220650532/BqViJ8DtN) ] - -2014-10-11 Awesome C/C++不错.统计了一下Github上的原文 http://t.cn/R7vSNTo ,大约列了350个资源 [ [微博](http://www.weibo.com/5220650532/BqYFU0u4L) ] - -> 2014-10-10 @伯乐头条: 《Github干货系列:C++资源集合》这又是一个 Awesome XXX 系列的资源整理,由 fffaraz 发起和维护。内容包括:标准库、Web应用框架、人工智能、数据库、数据可视化、图片处理、机器学习、日志、代码分析等。http://t.cn/R7vhj7w [ [微博](http://www.weibo.com/3844704614/BqWyixLV0) ] - -2014-10-10 赞好奇猫团队的杰出翻译,主译者是美女Billie Zhang http://t.cn/Rhsksfv [ [微博](http://www.weibo.com/5220650532/BqVq9uNIO) ] - -> 2014-10-10 @Easy: 一直不会shell编程,mark下来回头读。《Linux命令行》中文版,http://t.cn/zQG7kxb 目录见大图 PDF @微盘 下载 http://t.cn/RhskyeL [ [微博](http://www.weibo.com/1088413295/BqVlRzWjg) ] - -2014-10-10 约翰霍普金斯大学JHU作为自然语言处理的一个重镇,其CLSP Seminars广邀重要学者讲学.例如近三期是Isidoros Doxa讲LSA, Jackie CK Cheung讲分布式语义,Yoshua Bengio讲生成模型的深度学习.多年来400多个讲座都在这里.关键学者和话题,在此一目了然 http://t.cn/RhskULw [ [微博](http://www.weibo.com/5220650532/BqVlSrrjT) ] - -2014-10-10 Taming Text是一本从实用的角度基于Java处理文本的好书.它包括了文本搜索的原理和用Solr的实现,字符串匹配.实体(如人名地名)识别和OpenNLP实现,文本聚类及工具Carrot//Mahout,文本分类的工具Lucene/Mahout/OpenNLP等 http://t.cn/htf5rQ 源代码http://t.cn/RhsDOce [ [微博](http://www.weibo.com/5220650532/BqViJ8DtN) ] - -2014-10-10 用Python实现逻辑回归Logistic Regression。LR是一种强大而简单的机器学习模型,例如Gmail的收件箱分类就使用了LR算法。这篇文章里Kevin Markham介绍了用scikit-learn实现LR的步骤,综合运用statsmodels pandas matplotlib patsy和scikit-learn,一步步教你如何分析数据与建模 http://t.cn/RhsNbFA [ [微博](http://www.weibo.com/5220650532/BqTn7ax4n) ] - -2014-10-10 名字显然是在向《Parallel Distributed Processing》这本经典致敬 http://t.cn/RhsLEzv 那是McClelland自己28年前的书了 [ [微博](http://www.weibo.com/5220650532/BqR442xQy) ] - -> 2014-06-13 @王晓伟alex: 分享一本关于分布式并行处理的数据《Explorations in Parallel Distributed Processing: A Handbook of Models, Programs, and Exercises》,作者是斯坦福的James L. McClelland。着重介绍了各种神级网络算法的分布式实现,做Distributed Deep Learning 的童鞋可以参考下。网址:http://t.cn/8kltYYT [ [微博](http://www.weibo.com/1932676664/B8MYbbNQy) ] - -2014-10-10 总结:@陈佳威_有荷有兰要发光 @哇噻大魔王 推荐ODPS; @陈天奇怪 @范涛_中科大 推荐xgboost http://t.cn/8sVIdCB @irwenqiang 推荐pGBRT http://t.cn/zjaDoYX [ [微博](http://www.weibo.com/5220650532/BqQVI3hLe) ] - -> 2014-10-09 @龙星镖局: 求助:有没支持大规模训练的开源GBDT? [ [微博](http://www.weibo.com/1830516311/BqNjVsVPX) ] - - ----- - -2014-10-09 @Mindey 君对SageMath云平台计算环境的介绍更赞,有优酷视频 http://t.cn/RhF9Ma8 //@Mindey: It is awesome tool indeed! [ [微博](http://www.weibo.com/5220650532/BqLSGDu6S) ] - -> 2014-10-09 @好东西传送门: Sage是一个Python的强大的数学工具箱合集,基本上常见数学计算都有支持:代数方程,微积分,微分方程,多项式,线性代数,群论,数论,拓扑学代数几何,椭圆曲线,可视化....详细列表见长微博。相比某其他软件要上万块才能有的专业包,Sage是个不错的选择。手册 http://t.cn/RhFK6tr [ [微博](http://www.weibo.com/5220650532/BqLO71d2P) ] - - -2014-10-09 机器学习头条 2014-10-08 http://t.cn/RhFwt4M 亚马逊提供的海量公共数据集等5条,见长微博。感谢@52cs @Geffory_ima @lidingpku @黄小非 [ [微博](http://www.weibo.com/5220650532/BqKiR7u0Q) ] - -2014-10-09 2)广告系统工程师谈工业界与学术界机器学习的异同 @52cs [ [微博](http://www.weibo.com/5220650532/BqKcNegej) ] - -2014-10-09 LingPipe非常值得考虑。项目主页 http://t.cn/RhF7H2U 而且有一本很不错的307页的免费电子书 http://t.cn/RhF7H24 [ [微博](http://www.weibo.com/5220650532/BqJHy2bg9) ] - -> 2014-10-08 @ImportNew: 《计算语言工具包LingPipe》LingPipe是一个开源的NLP计算语言工具包,采用Java书写,支持多语言,多领域,多类型的语言处理功能(包括中文分词),并提供Eclipse插件。http://t.cn/Rh37RdQ @黄小非 分享 [ [微博](http://www.weibo.com/2991905905/Bqze22laq) ] - -2014-10-09 过去多年的Web上的知识管理的文章尽在其中。想了解知识图谱,语义搜索等的来龙去脉,不能不过目。而且有完整的元数据!很容易开发出新的有趣的应用。可参考ISWC 2010的应用 http://t.cn/zjau1FF [ [微博](http://www.weibo.com/5220650532/BqJD3CB1S) ] - -> 2014-10-08 @lidingpku: International Semantic Web Conference - ISWC 2014 (10月18至23) 的全部论文(公开访问preprint PDF) 已经上传到github上了,http://t.cn/RhDmjvw 历年(2001-2014)相关的元数据(RDF,JSON, CSV格式) 也整理好了,可以下载 http://t.cn/RhDmjvA 大家有空挑挑错吧 [ [微博](http://www.weibo.com/5219449194/BqB6iy0rF) ] - -2014-10-09 推荐系统前沿必读。DBLP的列表页更好用 http://t.cn/RhFPLGl 每篇文章都有pdf下载 [ [微博](http://www.weibo.com/5220650532/BqJwqls9C) ] - -> 2014-10-09 @疯狂的雪SDU: Proceedings of the 8th ACM Conference on Recommender Systems #RecSys2014# is available. http://t.cn/Rhkkqqc [ [微博](http://www.weibo.com/2174081740/BqJfqheeD) ] - -2014-10-09 //@星空下的巫师: 原话是:kind of going against what people in research have been finding, but that’s what makes it interesting @董力at北航 @鲁东东胖 [ [微博](http://www.weibo.com/5220650532/BqJqCpmr7) ] - -> 2014-10-09 @BigData大数据: #OSDI2014#第一篇DL 微软的ADAM系统 彻底把Lecun 革命了 这个Imagine Net准确率提高的有猛 系统的力量真是无限 亮点在最后一张图 Deep Learning Guys 怎么想?@好东西传送门 @深度学习研究院IDL @云泉微博 @中国计算机学会CCF @杨静Lillian @百度技术沙龙 @chengangcs @CCF技术动态 [ [微博](http://www.weibo.com/2870219257/BqFIOpprZ) ] - -2014-10-09 CppCon2014,C++最重要的年度会议PPT一览 http://t.cn/RhksQxB 中文导读请看@顾露-Gu_Lu 的http://t.cn/RhksQx3 [ [微博](http://www.weibo.com/5220650532/BqJq98Rzy) ] - -2014-10-09 几个要点:系统优先于算法;并不存在清晰的优化目标函数;系统常变人员常变(所以简单可理解非常非常重要);各种折衷,而要产生这些折衷也需要容易理解的方法和结果。 [ [微博](http://www.weibo.com/5220650532/BqGDN1TV0) ] - -> 2014-10-08 @52cs: 前Google广告系统工程师Josh Wills 讲述工业界和学术界机器学习的异同,总结的真的好!http://t.cn/RhkU1Sj [ [微博](http://www.weibo.com/5172229575/BqDWNdAZm) ] - -2014-10-09 摘要:逻辑回归的并行化最主要的就是对目标函数梯度计算的并行化,可以很容易将每个迭代过程拆分,由不同的节点进行独立计算,然后归并。MPI_L-BFGS实验效果最佳 http://t.cn/SAJ2SN http://t.cn/RhkN3x3 //@孙明明_SmarterChina: @Memect [ [微博](http://www.weibo.com/5220650532/BqFNz0JYP) ] - -> 2014-02-12 @fengyoung: 并行逻辑回归: 逻辑回归(Logistic Regression,简称LR)是机器学习中十分常用的一种分类算法,在互联网领域得到了广泛的应用,无论是在广告系统中进行CTR预估,推荐系统中的预估转换率,反垃...文字版>> http://t.cn/8FpoAyz (新浪长微博>> http://t.cn/zOXAaic) [ [微博](http://www.weibo.com/1824056637/AwpIi1ie6) ] - - ----- - -2014-10-08 今年的OSDI内容很丰富 [ [微博](http://www.weibo.com/5220650532/BqFfbjCfp) ] - -> 2014-10-08 @BigData大数据: #OSDI2014#重磅Session来了 做深度学习的 做系统的都不能错过 深度学习的Session 这也是OSDI第一加上深度学习的DL ML的Guy也不能错过 这次的Session Chair 是Rezimi @云泉微博 @云泉微博 @中国计算机学会CCF @Hadoop中国 @好东西传送门 @hashjoin [ [微博](http://www.weibo.com/2870219257/BqFch5Q6W) ] - -2014-10-08 其他主要是科学类:儿童人体测量, 80年的按日全球天气,23万种材料安全,NASA的地球卫星地图,OpenStreetMap,石油数据, 2000多种稀疏矩阵,SDSS( @斯隆数字化巡天 ) [ [微博](http://www.weibo.com/5220650532/BqCf4mnKB) ] - -2014-10-08 社会与经济类的有:美国1980/1990/2000年人口普查,美国2003-2006经济,美国工商业,美联储经济数据时间序列2万个,日本人口统计,美国劳工部统计,美国交通部各种统计,完整的美国街道名与地址 [ [微博](http://www.weibo.com/5220650532/BqCduygRc) ] - -2014-10-08 计算机类的有:Apache基金会邮件列表,Common Crawl50亿网页(以前推荐过),DBpedia结构化知识库,Freebase知识图谱(这三个以前推荐过),安然电子邮件, 4万多个USENET新闻组数,M-Lab的互联网性能诊断,谷歌图书的ngram语言模型 @昊奋 @Gary南京 [ [微博](http://www.weibo.com/5220650532/BqC1qEYkF) ] - -2014-10-08 生物类的数据有:人体基因组,千人基因组计划,老鼠杂交数据,丹尼索瓦人基因组, Ensembl真核生物基因组,50个物种的基因序列,GenBank基因银行,Unigene转录组,PubSem有机小分子生物活性,等 [ [微博](http://www.weibo.com/5220650532/BqBYki5zi) ] - -> 2014-10-08 @好东西传送门: 《亚马逊提供的海量公共数据集》在大数据分析时,一个困难是存储困难,下载耗时。亚马逊AWS云服务平台上为此提供了很多常用的大规模数据集,从各行业数据到百科数据,无需下载即可在AWS EC2上使用。这里我们介绍了目前在线的五十多个数据集,和如何使用的基本方法。文字版http://t.cn/RhDrPhn [ [微博](http://www.weibo.com/5220650532/BqBtMrKK0) ] - - -2014-10-08 补充:MovieTweetings包含12万条电影的观众评价,收集自7个月的Twitter流,平均每天有500多。项目介绍PPT http://t.cn/RhDgH81 [ [微博](http://www.weibo.com/5220650532/BqBIn0PTy) ] - -> 2014-10-07 @AixinSG: 这个数据集看着挺有意思的 MovieTweetings:A Movie Rating Dataset Collected From Twitter http://t.cn/zRqz834 [ [微博](http://www.weibo.com/1025887594/BqvlpfkjW) ] - -2014-10-08 《亚马逊提供的海量公共数据集》在大数据分析时,一个困难是存储困难,下载耗时。亚马逊AWS云服务平台上为此提供了很多常用的大规模数据集,从各行业数据到百科数据,无需下载即可在AWS EC2上使用。这里我们介绍了目前在线的五十多个数据集,和如何使用的基本方法。文字版http://t.cn/RhDrPhn [ [微博](http://www.weibo.com/5220650532/BqBtMrKK0) ] - -2014-10-08 C++好东西. 博主非常用心,整理了 教程和介绍 (beginner) 思维和理念 (intermediate) 工程实践 (intermediate) 专题 (general) 工具和库 (general) 几大类,篇篇都做了中文导读. [ [微博](http://www.weibo.com/5220650532/BqA4ODaV4) ] - -> 2014-09-23 @顾露-Gu_Lu: (Gu Lu's Blog) CppCon2014 分类合辑 & 十大推荐阅读列表 - http://t.cn/RhOPqAu [ [微博](http://www.weibo.com/1752458857/BohlfqkeM) ] - -2014-10-08 刚才忘了链接 http://t.cn/RhD0OAz http://t.cn/RhD0OAZ //@好东西传送门: 说的是.Amazon Public Dataset里有两个气象数据集:NASA NEX遥感与卫星数据,和全球(9000多气象站)1929-2009逐日天气数据,直接挂载EC2就能用,连下载都不用 //@大脸撑在小胸: 值得收藏。PS: 麻烦的是下载读取和处理 [ [微博](http://www.weibo.com/5220650532/BqzZrCPHs) ] - -> 2014-10-07 @好东西传送门: @IT莲接 推荐的<史上最全的的气象科研数据来源> http://t.cn/Rhgppds 来自@数据堂 , 列举了综合资料库,天气情况,降水资料,全球土壤资料,风场资料,海洋风场,海浪,海表温度,冰芯,台风等50多个数据集 部分数据集我们做了更直观的卡片预览 http://t.cn/RheCw1Z [ [微博](http://www.weibo.com/5220650532/BqrkwDlyl) ] - -2014-10-08 说的是.Amazon Public Dataset里有两个气象数据集:NASA NEX遥感与卫星数据,和全球(9000多气象站)1929-2009逐日天气数据,直接挂载EC2就能用,连下载都不用 //@大脸撑在小胸: 值得收藏。PS:气象资料一般来说获取途径并不是大问题,麻烦的是下载读取和处理[doge] [ [微博](http://www.weibo.com/5220650532/BqzelxhW3) ] - -> 2014-10-07 @好东西传送门: @IT莲接 推荐的<史上最全的的气象科研数据来源> http://t.cn/Rhgppds 来自@数据堂 , 列举了综合资料库,天气情况,降水资料,全球土壤资料,风场资料,海洋风场,海浪,海表温度,冰芯,台风等50多个数据集 部分数据集我们做了更直观的卡片预览 http://t.cn/RheCw1Z [ [微博](http://www.weibo.com/5220650532/BqrkwDlyl) ] - -2014-10-08 @吴楚东南坼乾坤日夜浮 补充了Hunspell http://t.cn/RhDXuOs @西瓜大丸子汤 补充了Enchant和PyEnchant http://t.cn/RhDXuOF 都是比Aspell更进步的拼写检查开源软件 [ [微博](http://www.weibo.com/5220650532/Bqzazf8lB) ] - -> 2014-10-07 @好东西传送门: 问:英文语法检测,拼写错误有开源引擎吗?答:拼写检查推荐Aspell http://t.cn/zjfqk4q 语法检查工具这里有列表http://t.cn/RheHWdP 推荐试试Link Grammar http://t.cn/h47cEM 它可检查是不是合乎语法.如果需要自定义的规则,可以把它的结果再过滤一下 [ [微博](http://www.weibo.com/5220650532/BqstnpYCx) ] - ----- - -2014-10-07 python好工具 [ [微博](http://www.weibo.com/5220650532/BqsYRtj2D) ] - -> 2014-10-07 @Python开发者: 《Online Python Tutor:Python 初学者的好帮手》一个免费教育工具,可帮助学生攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。通过这个工具,教师或学生可以直接在 Web 浏览器中编写 Python 代码,并一步一步可视化地执行程序……http://t.cn/8kp54hk [ [微博](http://www.weibo.com/5305630013/BqqKcFiJv) ] - -2014-10-07 增强现实Augmented Reality对物流企业有什么价值?DHL研发中心最近发布28页的报告,描述了增强现实对快递与后勤产业各环节可能起到的作用:仓储,运输,递送,增值服务等.值得传统企业参考 http://t.cn/Rhe8wMx [ [微博](http://www.weibo.com/5220650532/BqszFssx9) ] - -2014-10-07 问:英文语法检测,拼写错误有开源引擎吗?答:拼写检查推荐Aspell http://t.cn/zjfqk4q 语法检查工具这里有列表http://t.cn/RheHWdP 推荐试试Link Grammar http://t.cn/h47cEM 它可检查是不是合乎语法.如果需要自定义的规则,可以把它的结果再过滤一下 [ [微博](http://www.weibo.com/5220650532/BqstnpYCx) ] - -2014-10-07 按年绘制了各政权的领土变迁,可以弥补谭其骧版的《中国历史地图集》一个朝代只有一个时间点,不能反映变迁的不足.五千年的历程浓缩为72分钟的视频 http://t.cn/RheVuga (刚才发的链接错了) [ [微博](http://www.weibo.com/5220650532/BqrsA0Hel) ] - -> 2014-10-01 @推遍天下: #推遍阅读#中国历史地图详细版version2.0。作者布哈林,是A站的一位up主。他把每个朝代精确成一个个大事件,将各个时间点做成地图,标注十分细致,中国和外国的考证都很充分。同时配上了如章回体目录一样的对联,非常带感。简直是历史地图控的最爱。http://t.cn/8kmDxfN @贫铀穿甲普拉斯 [ [微博](http://www.weibo.com/3047892900/Bpwc0nphV) ] - -2014-10-07 @IT莲接 推荐的<史上最全的的气象科研数据来源> http://t.cn/Rhgppds 来自@数据堂 , 列举了综合资料库,天气情况,降水资料,全球土壤资料,风场资料,海洋风场,海浪,海表温度,冰芯,台风等50多个数据集 部分数据集我们做了更直观的卡片预览 http://t.cn/RheCw1Z [ [微博](http://www.weibo.com/5220650532/BqrkwDlyl) ] - -2014-10-07 按年绘制了各政权的领土变迁,可以弥补谭其骧版的《中国历史地图集》一个朝代只有一个时间点,不能反映变迁的不足 五千年的历程浓缩为72分钟的视频 http://t.cn/Rhe9xeN [ [微博](http://www.weibo.com/5220650532/BqrfKi28G) ] - -> 2014-10-01 @推遍天下: #推遍阅读#中国历史地图详细版version2.0。作者布哈林,是A站的一位up主。他把每个朝代精确成一个个大事件,将各个时间点做成地图,标注十分细致,中国和外国的考证都很充分。同时配上了如章回体目录一样的对联,非常带感。简直是历史地图控的最爱。http://t.cn/8kmDxfN @贫铀穿甲普拉斯 [ [微博](http://www.weibo.com/3047892900/Bpwc0nphV) ] - -2014-10-07 来自最好的学术网络搜索ArnetMiner @唐杰THU [ [微博](http://www.weibo.com/5220650532/Bqpfao9aS) ] - -> 2014-10-07 @蔡学镛: 过去十八年,计算机科学领域,最好的论文,以及最常被引用的论文,通通在这里 [good]: http://t.cn/zYPysop [ [微博](http://www.weibo.com/1614282004/BqmV793yy) ] - -2014-10-07 关注 //@郑思遥:Arrikis 这篇的作者在这条路上已经走了好多年了,最早从08年开始就有文章要革操作系统的命,09年在sosp上发布barrelfish多内核操作系统。这帮人一直在做工作去支撑当时的多内核设计,这篇也是在barrelfish基础上做的,更完善更实际了,很值得学习 //@网路冷眼:转发微博 [ [微博](http://www.weibo.com/5220650532/Bqnoo5T2v) ] - -> 2014-10-06 @BigData大数据: #OSDI2014#第一时间快报。OSDI金球奖 最佳三篇论文出来了 这次热门GraphX落选 爆出大冷门 两篇来自底层OS 底层要革命了!还有一篇来自微软@微软亚洲研究院 Cloud 调度 Maven @chengangcs @龙星镖局 @李元超Osiris @好东西传送门 @chengangcs [ [微博](http://www.weibo.com/2870219257/BqlWWhOWi) ] - - ----- - -2014-10-06 会议主页 http://t.cn/RhItLb6 不熟悉这个会的 见@李沐M 前几天的科普http://t.cn/Rhg6IL3 欢迎大家来科普这届的潜在亮点和看点 @hashjoin @包云岗 [ [微博](http://www.weibo.com/5220650532/BqhZghUyp) ] - -> 2014-10-06 @BigData大数据: #OSDI2014#起飞了 期望能赶上晚上盛大的欢迎晚宴 OSDI是系统领域的风向标 无数老的大数据技术都是通过这个舞台介绍给全世界 比如MapReduce Spanner等 对于新的重要大数据技术 比如GraphX 微软的Adam 还有GPUNet都会在明天后天推荐给全学界业界 让我们一起期待 @好东西传送门 http://t.cn/z810m9f [ [微博](http://www.weibo.com/2870219257/Bqfv6itz6) ] - -2014-10-06 感谢作者 Liqizhou http://t.cn/zjf6Z67 同时推荐作者的另一篇文章 机器学习概要 http://t.cn/Rhgib8l,列举了各种方法的提纲 [ [微博](http://www.weibo.com/5220650532/BqhSagq7l) ] - -> 2014-10-06 @格灵深瞳: AdaBoost 算法的主要思想之一就是在训练集上维护一套权重分布,初始化时 ,Adaboost 为训练集的每个训练例指定相同的权重 1/m。接着调用弱学习算法进行迭代学习。每次迭代后更新训练集上不同样本的权值,对训练失败的样本赋以较大的权重。【AdaBoosting和online Boosting】http://t.cn/RhgIlYM [ [微博](http://www.weibo.com/3769368692/BqhuG3vea) ] - -2014-10-06 城市规划,社交媒体分析与自然语言处理的交叉研究 [ [微博](http://www.weibo.com/5220650532/BqgByoL6a) ] - -> 2014-10-05 @宋彦-规划: 分享下我的高富帅博士生@waholulu-陈炎 的高大上研究。话说他刚抓取了几天的Chicago的40万个twitter点如图。接下来开始分析阶段了,例如可以看看城市活动的热点,还可以用text sentiment analysis分析twitter的态度(积极/消极)和感情(愤怒惊喜啥的)并与城市场所对接,大家有什么好主意我们来实现! [ [微博](http://www.weibo.com/2610584165/Bqa80jeNa) ] - -2014-10-05 强烈推荐!Github上完整目录: http://t.cn/RP75CfG 现在已经完成语言的基本介绍,在写第三部分网站构建 [ [微博](http://www.weibo.com/5220650532/Bq8zd9tP1) ] - -> 2014-10-04 @老齐Py: @Jayin_Ton 推荐到我的网站上看完整的《零基础学python》,目前正在写tornado做网站部分。地址:http://t.cn/Rh6wm17 [ [微博](http://www.weibo.com/1449482283/Bq2g5k3rr) ] - -2014-10-05 感谢刘知远老师! //@刘知远THU: 整理得很好啊,分享!研究生的时候曾在水木上整理了一些资源,转眼几年NLP已经关版被微博取代了。技术大势,浩浩汤汤,不进则退,大家努力。:) [ [微博](http://www.weibo.com/5220650532/Bq7zgEVgv) ] - -> 2014-10-04 @好东西传送门: 《NLP常用信息资源》原资源主要是水木上的zibuyu整理的,@算文解字 推荐。这里我们综合了一些新的内容整理了一个初步的列表,包含了一些网站、课程、研究小组、重要学者、工具等。文字版 http://t.cn/RhrZUWq 部分资源的卡片预览 http://t.cn/RhrZUWG [ [微博](http://www.weibo.com/5220650532/BpZ5eBCdx) ] - - -2014-10-05 很不错的文章。再补充一个技巧:用书名的isbn来搜往往会有惊喜 [ [微博](http://www.weibo.com/5220650532/Bq728oZ5G) ] - -> 2014-10-04 @武汉大学: 【我是怎么找电子书的】目前主页君所见最为齐全的搜索电子书的方法和软件汇总——中文、外文、学术资源、古典文籍,甚至竖版图书!直接网页格式,方便复制链接。别问我挖掘技术谁最强,各有所长,试过就知道[偷笑]http://t.cn/RhBT4av [ [微博](http://www.weibo.com/1666177401/BpXEI9Aon) ] - -2014-10-05 昨天推荐的文章《线性回归,偏差、方差权衡》,很抱歉没有及时发现原作者@LeftNotEasy 出处是http://t.cn/hrvcPf 他的博客里还有很多经典文章:机器学习中的数学系列:回归、梯度下降、线性回归、模型组合、LDA、PCA、SVD; 机器学习中的算法系列: 决策树 - 随机森林与GBDT(我们以前推荐过) SVM基础 [ [微博](http://www.weibo.com/5220650532/Bq6GNbQUF) ] - -2014-10-05 //@算文解字:赞!最应该感谢的是 @刘知远THU 哈,不解释 :) 另外书里边,很多NLPer还很推崇宗成庆老师的《统计自然语言处理》,已经出第2版了,内容很新。 [ [微博](http://www.weibo.com/5220650532/Bq3LcDWuu) ] - -> 2014-10-04 @好东西传送门: 《NLP常用信息资源》原资源主要是水木上的zibuyu整理的,@算文解字 推荐。这里我们综合了一些新的内容整理了一个初步的列表,包含了一些网站、课程、研究小组、重要学者、工具等。文字版 http://t.cn/RhrZUWq 部分资源的卡片预览 http://t.cn/RhrZUWG [ [微博](http://www.weibo.com/5220650532/BpZ5eBCdx) ] - - ----- - - -2014-10-04 《NLP常用信息资源》原资源主要是水木上的zibuyu整理的,@算文解字 推荐。这里我们综合了一些新的内容整理了一个初步的列表,包含了一些网站、课程、研究小组、重要学者、工具等。文字版 http://t.cn/RhrZUWq 部分资源的卡片预览 http://t.cn/RhrZUWG [ [微博](http://www.weibo.com/5220650532/BpZ5eBCdx) ] - -2014-10-04 //@十月伤感wb: 【进段广告】我们今年SIGIR文章 Your Neighbors Affect Your Ratings 算是推荐系统里的特征工程,利用商家跟邻近商家的相互影响来提高rating prediction效果。主页 http://t.cn/RhBSY0S ACM http://t.cn/RhBSY0a [ [微博](http://www.weibo.com/5220650532/BpYUb4HJ0) ] - -> 2014-10-03 @AixinSG: 如何选择最适合的推荐模型 Choosing a Recommender Model 转自 GraphLab Blog http://t.cn/RhWlFCg [ [微博](http://www.weibo.com/1025887594/BpRAnsYWV) ] - -2014-10-04 在加长版里还有个“触类旁通”栏目,列举了有趣的其他话题。比如@GK同人于野 发起的机器人书写的图灵测试的话题 http://t.cn/RhBmK6x 提到机器故意犯错误伪装自己是人的例子 http://t.cn/Rh1eJ0z (Youtube) [哈哈] [ [微博](http://www.weibo.com/5220650532/BpXbccKMv) ] - -> 2014-10-04 @好东西传送门: 机器学习头条2014-10-03 http://t.cn/RhBRuRz 1) 选择最适合的推荐模型 @AixinSG 2) 线性回归,偏差、方差权衡 @AustinCody 3) 决策树模型组合之随机森林与GBDT @格灵深瞳 4) 谷歌的线性规划工具glop和运筹学工具集or-tools @王威廉 5) 神经网络黑客指南 @安人心智 加长版21条 http://t.cn/RhBRuRZ [ [微博](http://www.weibo.com/5220650532/BpWJlA8lf) ] - -2014-10-04 原文有不错的Python讲解 //@AixinSG: 讲根据数据的特性选择最适合的模型。再往后退一步,从最原始数据得到针对具体推荐问题的最佳表述就有点特征工程的意思了。几年前有个比赛,我同事是评审,说收到的报告有3种:1. 做实验,解释结果 2. 分析数据,选择模型,解释结果 3. 分析数据,实验,然后解释 [ [微博](http://www.weibo.com/5220650532/BpWK0m6sJ) ] - -> 2014-10-03 @AixinSG: 如何选择最适合的推荐模型 Choosing a Recommender Model 转自 GraphLab Blog http://t.cn/RhWlFCg [ [微博](http://www.weibo.com/1025887594/BpRAnsYWV) ] - -2014-10-04 机器学习头条2014-10-03 http://t.cn/RhBRuRz 1) 选择最适合的推荐模型 @AixinSG 2) 线性回归,偏差、方差权衡 @AustinCody 3) 决策树模型组合之随机森林与GBDT @格灵深瞳 4) 谷歌的线性规划工具glop和运筹学工具集or-tools @王威廉 5) 神经网络黑客指南 @安人心智 加长版21条 http://t.cn/RhBRuRZ [ [微博](http://www.weibo.com/5220650532/BpWJlA8lf) ] - -2014-10-04 一篇不错的介绍线性回归的文章 [ [微博](http://www.weibo.com/5220650532/BpWrOtXYa) ] - -> 2014-10-03 @AustinCody: 真正的线性回归,不仅会考虑使得曲线与给定点集的拟合程度最好,还会考虑模型最简单,这个话题我们将在本章后面的偏差、方差的权衡中深入的说。概率分布是一个可爱又可恨的东西,当我们能够准确的预知某些数据的分布时。。。。。。 http://t.cn/RhBy6ym [ [微博](http://www.weibo.com/5106435191/BpRuqaTPz) ] - ----- - -2014-10-03 经典文章 Greedy function approximation : A Gradient Boosting Machine http://t.cn/Rh1dW44 并行实现推荐 @陈天奇怪 的xgboost,实际例子见@phunter_lau 最近的文章 http://t.cn/RhKAWac 更多GBDT http://t.cn/Rh1dW4y [ [微博](http://www.weibo.com/5220650532/BpPEBdnO4) ] - -> 2014-10-03 @格灵深瞳: 模型组合与决策树相关的算法比较多,这些算法最终的结果是生成N棵树,这样可以大大的减少单决策树带来的毛病,有点类似于三个臭皮匠等于一个诸葛亮的做法,虽然这几百棵决策树中的每一棵都很简单,但是他们组合起来确是很强大。【决策树模型组合之随机森林与GBDT】http://t.cn/Rh1uZ1Y [ [微博](http://www.weibo.com/3769368692/BpP51Bkvo) ] - -2014-10-03 Hacker's guide to Neural Networks 教程是用Javascript写的神经网络. 同一作者以前写的convnetjs http://t.cn/Rh1dfKB [ [微博](http://www.weibo.com/5220650532/BpPCL7EB5) ] - -> 2014-10-03 @安人心智: #脑技术# 【神经网络黑客指南】现在,最火莫过于深度学习(Deep Learning),怎样更好学习它?可以让你在浏览器中,跑起深度学习效果的超酷开源项目convnetjs作者karpathy告诉你,最佳技巧是,当你开始写代码,一切将变得清晰。他刚发布了一本图书,不断在线更新:http://t.cn/RhSJkOz [ [微博](http://www.weibo.com/2710875561/BpNDGlONo) ] - -2014-10-03 补充一个线性规划的Python包 PuLP http://t.cn/Rh1d4hV 是GLPK的一个外壳。 非常简单好用 [ [微博](http://www.weibo.com/5220650532/BpPBLFRx6) ] - -> 2014-10-03 @王威廉: 线性规划是在优化、机器学习以及自然语言处理中经常遇到的重要问题。谷歌近日开源了他们的线性规划工具glop。另外,谷歌的开源运筹学工具集or-tools中还包括有各种约束优化问题,线性优化问题,背包问题以及图算法的工具。Google Code下载: http://t.cn/Rh1Wwze [ [微博](http://www.weibo.com/1657470871/BpNM0fzQG) ] - -2014-10-03 和@DonaldErvinKnuth 这条参照着看 [呵呵] http://t.cn/Rh1rdx8 还有@李沐M 的这条 http://t.cn/Rh1rdxQ [ [微博](http://www.weibo.com/5220650532/BpPzP7Lns) ] - -> 2014-10-03 @晨曦Stephen: Hinton祖师爷来talk, 讲他被nips rejected的paper~问他如何评价最近imagenet challenge的趋势,他说going deeper just work, but that's boring and rubbish, computer vision不应该走这个方向..... [ [微博](http://www.weibo.com/2097352953/BpMXNxxgK) ] - -2014-10-03 nolearn十分的Pythonic, 非常简单,和scikit-learn一样好用。项目文档http://t.cn/Rh1rpyM 目前实现了convnet和dbn [ [微博](http://www.weibo.com/5220650532/BpPxHCtSM) ] - -> 2014-10-03 @xccds: 两个很好的deep leaning实例示范,用python的nolearn包来实施http://t.cn/Rh11bsl 用R的H2O包来做 http://t.cn/Rh0RNZS [ [微博](http://www.weibo.com/1400524015/BpPirqnf4) ] - -2014-10-03 //@张俊林say: 我个人还是首推《统计自然语言处理》,尽管从内容角度讲有点旧因为毕竟出版了10年了,但是可以很好地培养成利用统计思路解决NLP实际问题的思维框架,这一点其它教材都比不上这本。//@好东西传送门: 推荐吴俣的这篇文章. Stanford那门NLP公开课 http://t.cn/zTagx9z [ [微博](http://www.weibo.com/5220650532/BpPu9brIo) ] - -> 2014-09-21 @gerrylin: 自然语言处理怎么最快入门? #读知乎# http://t.cn/RhN1Qhi [ [微博](http://www.weibo.com/1424552461/Bo3dtAHyS) ] - -2014-10-03 机器学习头条 2014-10-02 http://t.cn/Rh1WlIL 1)自然语言处理怎么最快入门 by吴俣 @gerrylin 2) 公开课 “矩阵与线性方程组” by马辉 @清华MOOCs 3) String Re-writing Kernel @李航博士 4) Google用深度学习做反垃圾 @我爱机器学习 5)免费电子书Math for CS @velvel2 加长版 http://t.cn/Rh1WlIy [ [微博](http://www.weibo.com/5220650532/BpNQFxwHJ) ] - -2014-10-03 //@赶路人林文: Coursera上面有两门NLP的课程,个人比较喜欢哥伦比亚大学的Michael Collins。随课程有相关的阅读材料。NLP with python 只要懂一点python就基本没问题,英文版最佳,入门必备。//@好东西传送门: 推荐吴俣的这篇文章. Stanford那门NLP公开课 http://t.cn/zTagx9z [ [微博](http://www.weibo.com/5220650532/BpMhEdL6y) ] - -> 2014-09-21 @gerrylin: 自然语言处理怎么最快入门? #读知乎# http://t.cn/RhN1Qhi [ [微博](http://www.weibo.com/1424552461/Bo3dtAHyS) ] - ----- - -2014-10-02 推荐吴俣的这篇文章. Stanford那门NLP公开课 http://t.cn/zTagx9z 同推荐, 讲得非常好, 适合入门 Python的包列了pattern scikit-learn 小门再补充NLTK gensim和textblob [ [微博](http://www.weibo.com/5220650532/BpGQm0Cu0) ] - -> 2014-09-21 @gerrylin: 自然语言处理怎么最快入门? #读知乎# http://t.cn/RhN1Qhi [ [微博](http://www.weibo.com/1424552461/Bo3dtAHyS) ] - -2014-10-02 @传媒老跟班 最近整理了一个<论文检测> http://t.cn/Rh3nerp 列举了9个中英文系统 PaperPass Copycheck 维普通达 万方数据 Viper 中国搜 Turnitin Dustball PPVS 值得参考 [ [微博](http://www.weibo.com/5220650532/BpGKxukMy) ] - -> 2014-08-20 @好东西传送门: 问: @sxhfut 能否推荐一下英文论文的学术不端检测系统或网站,免费的或者收费的靠谱的 答: 关键词Plagiarism, 初步答案与进展: http://t.cn/RPn5uwR Turnitin收费,有很多学校用户; Viper 有免费windows单机版; Plagium 免费在线不限长度, 上了两个排行榜,可以同时用几个交叉检测。欢迎补充指正。 [ [微博](http://www.weibo.com/5220650532/Bjdaxhu6s) ] - -2014-10-02 Finlay-Liu @ Github 推荐了冈萨雷斯的<数字图像处理>, 其中第4章频域处理,第5章图像复原都与图像增强相关 http://t.cn/Rh3nUXI [ [微博](http://www.weibo.com/5220650532/BpGFWm6CQ) ] - -> 2014-10-01 @好东西传送门: @小白_小可乐 问:有没有图像增强方面的学习资料啊? 答:图像增强主要分为空域方法和频域方法两大类.这里收集了几篇综述文章 http://t.cn/Rhua1eo 讨论页 http://t.cn/RPlPCU5 欢迎CV领域的专家增补 [ [微博](http://www.weibo.com/5220650532/BpwA4yquC) ] - -2014-10-02 强烈推荐!另外再推一次李航博士的新书《Semantic Matching in Search》阐述了搜索中语义匹配的基本方法. 预览与目录 http://t.cn/RPiq2hc [ [微博](http://www.weibo.com/5220650532/BpFDZ9jIP) ] - -> 2014-10-02 @李航博士: 最近在台湾做报告时讲 Semantic Matching,回来后把其中介绍 String Re-writing Kernel的部分整理成了短文。http://t.cn/Rh3Kt0z 这个工作曾获得ACL 2012 Best Student Paper Award。与@布凡THU @朱小燕THU 合作的工作。 [ [微博](http://www.weibo.com/2060750830/BpEVUFTGH) ] - -2014-10-02 机器学习头条2014-10-01 http://t.cn/Rh36jCa 1)ACM COSN社交网络会议文章下载 @AixinSG 2) 特征工程的方方面面 @xccds 3) semdom英语常用词和词组语义归类 @莫水田 4) Spark MLlib分布式决策树性能提升了2-5倍 @hashjoin 5) Chris Adolph的最大似然课程 @romanxu 加长版23条 http://t.cn/Rh36jCX [ [微博](http://www.weibo.com/5220650532/BpEpmtBzf) ] - ----- - -2014-10-01 不错。没列什么公式,但很有insights//@Copper_PKU:转发微博 [ [微博](http://www.weibo.com/5220650532/BpyQKk4lh) ] - -> 2014-10-01 @xccds: http://t.cn/RhumtBN 这篇综述了特征工程的方方面面,值得一读。 [ [微博](http://www.weibo.com/1400524015/BpyMkpCvZ) ] - -2014-10-01 semdom,一个很不错的分类树,也可以算本体ontology或者常识知识库,含1800语义类.很友好的Creative Commons授权证 [ [微博](http://www.weibo.com/5220650532/BpxI5lUaR) ] - -> 2014-10-01 @莫水田: 我曾想按照语义来给英语常用词和词组归类,不过缺乏能力和行动力,昨晚上发现原来有人已经做了 http://t.cn/RhuOrs3,这个“语义” 网上各种词类都有,较神奇。 多写描绘叙事短文,写时参阅语义网、Oxford Pictorial English Dictionary 和Dictionary of Phrasal Verbs, 那写出生动的英语几年可待~ [ [微博](http://www.weibo.com/1940113775/BpxwV2F4B) ] - -2014-10-01 赞MLlib http://t.cn/Rhuofir 补充一个PPT MLlib Decision Trees at SF Scala-BAML Meetup http://t.cn/Rhuofid [ [微博](http://www.weibo.com/5220650532/BpwK2shmJ) ] - -> 2014-10-01 @hashjoin: 决策树是数据挖掘中常用的一个算法。在社区和Databricks的合作下,Spark MLlib 1.1对分布式决策树进行了大量的优化,最新版本比上一个版本性能提升了2 - 5倍。这篇博客介绍了几个重要的优化和具体的性能提升 http://t.cn/RhuSxCX [ [微博](http://www.weibo.com/1630850750/BpwDEuAWI) ] - -2014-10-01 运维必须知道的15个项目:docker轻量级容器 vagrant部署应用 statsd统计汇总 ansible自动化部署 capistrano远程自动化 salt基础组件通信 sentry处理错误日志 fabric远程调用 chef配置管理 logstash日志处理 peppet服务器自动化 essay 项目部署 等,他们的Github信息一览:http://t.cn/RhuSEzM [ [微博](http://www.weibo.com/5220650532/BpwGe4OJP) ] - -2014-10-01 @小白_小可乐 问:有没有图像增强方面的学习资料啊? 答:图像增强主要分为空域方法和频域方法两大类.这里收集了几篇综述文章 http://t.cn/Rhua1eo 讨论页 http://t.cn/RPlPCU5 欢迎CV领域的专家增补 [ [微博](http://www.weibo.com/5220650532/BpwA4yquC) ] - -2014-10-01 //@Noodles-Xu:/@road2stat:各位HR看过来![太开心]//@统计之都: 作者是统计之都主站编辑之一高涛@三水成海 ,目前研三正在找工作中,欢迎勾搭//@xebro:博主另外几篇很不错的总结:PKU暑期高维统计学习心得 http://t.cn/RhmR6OA ,以及作者收集的当时PKU暑期讲座的相当全的材料 http://t.cn/RhmR6Ow [ [微博](http://www.weibo.com/5220650532/BpvrH2Mbb) ] - -> 2014-09-30 @张磊-机器学习: 一篇对ADMM原理及并行化方法总结的很棒的文章,大家耐着性子看完吧:http://t.cn/RPoPFOm [ [微博](http://www.weibo.com/1822639887/Bpn1t6FGN) ] - -2014-10-01 文名 <从HTML Components的衰落看Web Components的危机>下面有好多大牛在参与讨论,大家快去[围观] [ [微博](http://www.weibo.com/5220650532/Bpvacimsu) ] - -> 2014-10-01 @民工精髓V: 看到大家对Angular,React和Polymer的讨论,我写了一些对Web Components的看法,欢迎大家探讨:http://t.cn/RhmdVXZ [ [微博](http://www.weibo.com/1858846672/BprVLmDJs) ] - -2014-10-01 机器学习头条2014-09-30 http://t.cn/RhubqP6 1)天猫推荐算法大赛Top 9团队访谈 @万物皆三NLP 2) Radim Řehůřek: Multicore LDA in Python @星空下的巫师 3)正文抽取的开源代码 @KissDev 4) 量子机器学习 @尹璋琦THU 5) 通过机器学习算法找到真爱 @王威廉 加长版32条 http://t.cn/RhubqPX [ [微博](http://www.weibo.com/5220650532/BpuZGa9Is) ] - -2014-10-01 @romanxu 刚才推荐了华盛顿大学统计课Chris Adolph教授的课程Maximum Likelihood Methods for the Social Sciences 为方便浏览,把他的课件都做了预览卡片这这里 http://t.cn/Rhu4DdQ 这门课比较理论联系实际,适合非统计或计算机专业来学. [ [微博](http://www.weibo.com/5220650532/BpuXs9hy3) ] - -2014-10-01 转发理由:涵盖各种模型,如二进制数据,有序数据,称名数据(有名字但无顺序),可数数据,缺失数据,等,都可由最大似然方法处理 [ [微博](http://www.weibo.com/5220650532/BpuUahYSR) ] - -> 2014-10-01 @romanxu: 隆重推荐:统计课maximum likelihood的教授Chris Adolph,哈佛血统,年轻有为。完全的共享派:编程用R,不用STATA;文字处理用LaTex不用Office;课件完全公开http://t.cn/RP1QErM。还不遗余力给学生写了牛文:Social Science Computing for the Mac in 15 Steps and $29 (http://t.cn/RhuPgl2 [ [微博](http://www.weibo.com/1651598281/BptaEgzO8) ] - -2014-10-01 对前几天推荐过的概率分布关系图的详细解释来了[good] //@许扬逸Dijkstra [ [微博](http://www.weibo.com/5220650532/Bpslq2GEk) ] - -> 2014-09-28 @上微博的猫V: 【一张图的故事——概率分布之间的关系(上)】 概率分布之间的关系是个有趣的话题。若要一张图简要概述概率分布之间的关系,下图是经典。本文将从上到下,从左到右解释这张图。本来要全部写完才发布的。不过考虑到明天就回家了,家里没有网肯定写不了,所以先发布… http://t.cn/RhEZ2HJ [ [微博](http://www.weibo.com/1679022231/Bp8OT644W) ] - ----- - -2014-09-30 @杜威Dewey 问:互联网应用的分布式数据库存储使用网络存储有什么好方案吗 答:讨论总结现在在issue 62 http://t.cn/RhmtmqT Nexenta、OpenFiler这些开源软件能否上生产环境有几篇近几年的文章. tildelingu老师给了更精华的总结.见长微博 [ [微博](http://www.weibo.com/5220650532/BpoikzVBI) ] - -2014-09-30 推荐.加入我们Python资源区的正文提取专题.那里还列举了十多种其他工具 http://t.cn/Rhm2qhw [ [微博](http://www.weibo.com/5220650532/BpnqyjwL1) ] - -> 2014-09-30 @KissDev: 正文抽取的开源代码,基于文本密度的html2article: http://t.cn/8FvHNOY 基于标签比例的机器学习Dragnet: http://t.cn/RhnDNg0 专注新闻类网页提取的Newspaper: http://t.cn/RhnDNgW 集成goose等三种算法的readbilitybundle http://t.cn/RhnDNgO 我觉得最好的方法还可能是视觉系方法 [ [微博](http://www.weibo.com/1699016425/BpmqDx5GK) ] - - -2014-09-30 机器学习头条2014-09-29 http://t.cn/RhnECPX 1 机器学习视频课程 @雅虎北京全球研发中心 2 麻省理工Gilbert Strang的《线性代数》课程 @王威廉 3 大数据处理资源、工具 @bitslife 4 R语言抓取实时股票数据的API (作者 @Jincheng9 ) 5 推荐书《语言本能》@西瓜大丸子汤 加长版http://t.cn/RhnECPS [ [微博](http://www.weibo.com/5220650532/BpljlEKUi) ] - -2014-09-30 跨平台的优秀编辑器。非常好的中文介绍 [ [微博](http://www.weibo.com/5220650532/BpkCaxyG9) ] - -> 2014-09-28 @慕课网: #IT技术分享#【Sublime Text 全程指引】本文系统全面的介绍了Sublime Text,旨在成为最优秀的Sublime Text中文教程,分享给大家。绝对干货,一般人我不告诉。[推荐]原文地址:http://t.cn/Rh8uSA2 [ [微博](http://www.weibo.com/3306361973/Bp4YIuj6T) ] - -2014-09-30 转发理由:awesome-bigdata 600多个数据存储、分析相关项目。Github 地址: http://t.cn/RhE6VaJ 作者Onur Akpolat [ [微博](http://www.weibo.com/5220650532/BpjUBs0Av) ] - -> 2014-09-29 @bitslife: 大数据数据处理资源、工具不完备列表, 从框架、分布式编程、分布式文件系统、键值数据模型、图数据模型、数据可视化、列存储、机器学习等。很赞的资源汇总。 http://t.cn/8FwSiyK [ [微博](http://www.weibo.com/1895047203/Bpcpu3os6) ] - ----- - -2014-09-29 讨论242 不完全整理贴 http://t.cn/RhE8U44 补充了一篇论文 When Stopword Lists Make the Difference 一个很好玩的发现,英文里9个词的stopword list 与500多词的单子效果差异不大,法语类似。至于中文 ...还希望专家多讲讲 [ [微博](http://www.weibo.com/5220650532/Bpe3p9Ien) ] - -> 2014-09-28 @AixinSG: 相对于常规网页或新闻,我觉得停用词在用户生成内容里面会更重要一些,现在更倾向于在索引中保留每个词。Stop stopping stop words: a look at Common Terms Query http://t.cn/Rh8DFRh [ [微博](http://www.weibo.com/1025887594/Bp2RkCBrH) ] - -2014-09-29 Python的可穿透防火墙的轻量代理 主页 http://t.cn/Rvc8VZG 使用说明 http://t.cn/zQZIZMd //@Easy: 和Goagent比起来,除了可以自建服务器更稳定外,SS是全局代理,所以Dropbox等客户端也可以用了 [ [微博](http://www.weibo.com/5220650532/BpdRZ9EmC) ] - -> 2014-09-29 @Easy: 最近换用Shadowsocks科学上网,非常爽,推荐一把。Mac有客户端,全局代理,自动绕过国内网站,还能手工加名单。谷歌Play市场有应用可用。如果不爱用公用服务器,可以自己搭,一条命令:「 pip install shadowsocks 」顺便放个DO的10美刀优惠 http://t.cn/RP1OvQK [ [微博](http://www.weibo.com/1088413295/BpdNG20WK) ] - -2014-09-29 问: 大数据安全或隐私的现状综述? 答: 资料整理 http://t.cn/RhETCi9 推荐一篇2014年综述 Security Issues in Cloud Environments, A Survey 很新很全面: 对比此前10篇相关综述, 覆盖工业界话题, 引用315篇论文。粗分8大类: 软件, 存储与计算, 虚拟化, 互联网与服务, 网络, 访问控制, 信任, 法律 [ [微博](http://www.weibo.com/5220650532/BpdPema1O) ] - -2014-09-29 mysql数据库进化图 [ [微博](http://www.weibo.com/5220650532/BpdBgBVtY) ] - -> 2014-09-29 @MySQL_DBA: 分享图片 [ [微博](http://www.weibo.com/1979536592/Bpdwwyb0k) ] - -2014-09-29 推荐一个基于R语言的API (作者 @Jincheng9 ) 从新浪财经上抓取实时股票和指数数据,包括前收盘价,开盘价,当前价格,今日最高价,今日最低价,成交额等 http://t.cn/RhRahT6 [ [微博](http://www.weibo.com/5220650532/BpbVHeNjs) ] - ----- - -2014-09-28 求指点//@Nick蓝色风暴:接着上一话题,对于随机游走,比如是基于Uniform分布的游走,就是在[current-x1,current+x2]这个区间均匀随机一个数(x1和x2是常量)。而当x1=x2时,是对称随机游走,也就是M算法;当x1不等于x2时,是不对称游走,也就是MH算法。请问我的理解对吗?请大牛们指教@研究者July [ [微博](http://www.weibo.com/5220650532/Bp61jjF8f) ] - -> 2014-09-28 @Nick蓝色风暴: 最近学习MCMC的经典MH算法,被几个不同版本的代码实现给搞糊涂了,关键步骤在于如何得到下一个状态,好像大概分为Independent MCMC和Random Walk MCMC这两种。我现在的理解:独立MCMC是给定一个固定分布,要得到下一个状态就从这个分布里随机一个数;随机游走就是根据当前状态值来随机得到下一个状态。 [ [微博](http://www.weibo.com/1096796232/Bp5OoccYv) ] - -2014-09-28 这个讨论很有意义,明天小门会帮着整理合集,请各位专家继续 //@章成志: 是的,要看具体场合,实际上,“停用词”这个概念来源于信息检索、文本分类这样的任务,通常那些区分性较低(idf低)的词很多就是停用词,如果做情感分类等任务,有些词不但不能停用反而很重要。 [ [微博](http://www.weibo.com/5220650532/Bp5joiZta) ] - -> 2014-09-28 @AixinSG: 相对于常规网页或新闻,我觉得停用词在用户生成内容里面会更重要一些,现在更倾向于在索引中保留每个词。Stop stopping stop words: a look at Common Terms Query http://t.cn/Rh8DFRh [ [微博](http://www.weibo.com/1025887594/Bp2RkCBrH) ] - -2014-09-28 传送理由:Rob Fergus的用深度学习做计算机是觉的NIPS 2013教程。有mp4, mp3, pdf各种下载 pdf传送门 http://t.cn/RhRXlO1 他是纽约大学教授,目前也在Facebook工作,他2014年的8篇论文 http://t.cn/RhRXlO3 [ [微博](http://www.weibo.com/5220650532/Bp5f4inDt) ] - -> 2014-09-28 @老淘: Tutorials Session A - Deep Learning for Computer Vision - Microsoft Research http://t.cn/RhR7Jhg [ [微博](http://www.weibo.com/1849537887/Bp3lUetVx) ] - -2014-09-28 传送门的小伙伴们应该会喜欢这本书,非常有趣的视角,非常重要的话题。 [ [微博](http://www.weibo.com/5220650532/Bp543bsWU) ] - -> 2014-09-28 @GK同人于野: 我的书《万万没想到:用理工科思维理解世界》出版了,现已开始在京东预售 http://t.cn/RhRxvhy 此书按三个主题 - 反常识思维、成功学的解药、霍金的答案 - 精选并完善了我的文章,其中重点篇目做了很大程度的补充和改写,加入不少新内容,使其达到2014年最新知识。赵南元老师(@荒川围脖 )慷慨作序! [ [微博](http://www.weibo.com/2089800791/Bp4YdqYKG) ] - -2014-09-28 //@海中的沙粒:回复@ComplexLY:我有一本R数据可视化手册的书,就是教你如何用ggplot2来做数据可视化,说实话跟Tableau做的图,没法比,很多感觉需要用adobe illustrator 来修正下才拿的出手,嘿嘿,真的有点渣 //@ComplexLY:ggplot2 //@海中的沙粒:竟然忘记Python这个跟R差不多的软件了,这个更强悍 [ [微博](http://www.weibo.com/5220650532/Bp2L3dxFO) ] - -> 2014-09-28 @海中的沙粒: STATA ,SPSS的学术性意义比较强,STATA的几类回归分析上是最经典的,SPSS在方差分析上非常厉害,SAS适合数据库数据量更大等量级的分析,R比较综合性,编程性上属于难度中等,matlab更倾向于学计算机语言的,编程性更强,数据分析性机器计算更多,总得来说,R是最关键的,因为综合性 [ [微博](http://www.weibo.com/1843007450/Bp1euBodP) ] - ----- - -2014-09-27 R工具包的分类汇总 (CRAN Task Views, 34种常见任务,每个任务又各自分类列举若干常用相关工具包) http://t.cn/RhQy8o5 例如: 机器学习,自然语言处理,时间序列分析,空间信息分析,多重变量分析,计量经济学,心理统计学,社会学统计,化学计量学,环境科学,药物代谢动力学 等 [ [微博](http://www.weibo.com/5220650532/BoTv056xB) ] - - -2014-09-27 问: 请问用于复杂网络分析R软件包? 答: 资料汇总 http://t.cn/RhQwuXT 推荐两个经典包 statnet, igraph 。 R社区有个很全的分类列表覆盖几十个包; 还有几个不错的在线入门课程与学习资料 例如 Stanford的“R for Social Network Analysis” [ [微博](http://www.weibo.com/5220650532/BoT592e2T) ] - ----- - -2014-09-26 赞Search Formula-1 !//@张颖峰: 如果说常规搜索已经是个解决了的问题(比如elasticsearch等等),为什么还要重新造这个轮子,答案是,更好的可定制性以及更快速的性能。尽管代码质量有待提高,但做为经过高压环境验证的完整解决方案,必将给开发者以更充足的空间来按需补充和裁剪。Apache License [ [微博](http://www.weibo.com/5220650532/BoLJTjP1R) ] - -> 2014-09-26 @张颖峰: 也许现在有些早,但苦于没有更多的成员和时间来完善文档,所以还是赶在这个周末之前把我们之前一直完善的引擎对外宣布了,这就是C++编写的高性能分布式搜索存储一体化引擎,主要面向开发者。http://t.cn/RhT3I3B @好东西传送门 [ [微博](http://www.weibo.com/1788077877/BoLngj2V3) ] - -2014-09-26 回复@民工_李江: 非常感谢补充 课程链接 http://t.cn/zYsV43a //@民工_李江:Mattew Jackson在Coursera上有门相关的课: social and economic networks,好像这期刚开始不久 [ [微博](http://www.weibo.com/5220650532/BoKGBEX1J) ] - -> 2014-09-26 @好东西传送门: 问: 求经济学方向社会网络资料? 答: 文献汇总 http://t.cn/RhTlXMC 社会网络(social network)基础知识先看维基百科和在线教材"Introduction to social network methods". 四篇经济学方向文章, 推荐斯坦福教授Matthew Jackson (2010) "An Overview of Social Networks and Economic Applications" 96页 [ [微博](http://www.weibo.com/5220650532/BoKB6Eafx) ] - - -2014-09-26 问:有没有最新的讲述人工智能发展史,现状,展望的资料? 答:人工智能(Artificial Intelligence) 领域综述有一个很好玩的图 "AI Landscape" (2008年AI Magazine附送的海报), 再配上一个AI历史大事件的时间轴demo “ Companion Timeline of Artificial Intelligence History” http://t.cn/RhTXnDF [ [微博](http://www.weibo.com/5220650532/BoJAcrUuy) ] - -2014-09-26 不错,这个应该是第二版 @Vamei 2013年的第一版还有些有趣的图片 http://t.cn/zYtMBGK //@西瓜大丸子汤: 推荐给@好东西传送门 //@Vamei:原作者来认领 [ [微博](http://www.weibo.com/5220650532/BoHdz858S) ] - -> 2014-09-25 @Linux中国: #Python 语言的发展简史# Python是我喜欢的语言,简洁,优美,容易使用。前两天,我很激昂的向朋友宣传Python的好处。 好吧,我承认Python不错,但它为什么叫Python呢? 呃,似乎是一个电视剧的名字。 那你说的Guido是美国人么? 他从Google换到Dropb…http://t.cn/RhYgiGm [ [微博](http://www.weibo.com/1772191555/BoG25tiMh) ] - -2014-09-25 这个scrum guide是个经典,对scrum困惑的同学可以看看。同时推荐好文 "The 2013 Scrum Guide changes" http://t.cn/RhjdQ1W 1. Artefact Transparency strengthened 2. Sprint Planning 3. Definition of Ready 4. Time boxes relaxed for most meetings 5. Daily Scrum purpose clarified [ [微博](http://www.weibo.com/5220650532/BoBCqkL9Z) ] - -> 2014-09-25 @朱少民: 当Scrum 的应用爆炸式增长时,形形色色的Scrum变种就出现了,不少公司已经忘记了Scrum 的价值和原则,为此,Scrum Alliance、scrum.org等联合发布了对Scrum的指导文件: http://t.cn/Rhjrrbs [ [微博](http://www.weibo.com/1652927771/BoByZyCjh) ] - -2014-09-25 问: 求计算神经科学资料? 答: 1. 资源门户网站(学者,论文,课程一网打尽) "Computational Neuroscience on the Web" http://t.cn/RhjQAgV 2. 暑期学校(2010至2014共5期) http://t.cn/RhjQAgc 3. 还有华盛顿大学公开课 "Computational Neuroscience" 谢 @苏梦Neuro-Gatsby @课程图谱 @要有光LTBL 推荐 [ [微博](http://www.weibo.com/5220650532/BoAQg5kj6) ] - -2014-09-25 [计算机视觉数据集不完全汇总] http://t.cn/Rhj0T9K 经典热点数据集: ImageNet,Flickr,MNIST 数据集目录: YACVID(200+),ComputerVisionOnline(100+),CVpapers(100+),CVOnline(100+),UIUC,UCSD,NICTA... 感谢 @丕子 @邹宇华 @李岩ICT人脸识别 @网路冷眼 @王威廉 @金连文 @数据堂 zhubenfulovepoem 推荐 [ [微博](http://www.weibo.com/5220650532/BoAbfmDPA) ] - -2014-09-24 搞数据挖掘的同仁怎么看? 气象学专业呢? //@复旦陈硕frank: 转发微博 [ [微博](http://www.weibo.com/5220650532/Bot0Cl2BQ) ] - -> 2014-09-24 @中国社会科学院金融评论: Journal of Economic Literature最新一期的文章http://t.cn/RhlbJno 对近年来采用高频面板数据研究天气(相对于以往低频数据刻画的“气候”)经济效应的文献进行了评述。作为这一领域的外行,感觉这篇有趣的综述除了有助于找各种IV之外,在某些具体事实和技巧上也很有启发。 [ [微博](http://www.weibo.com/3205772127/BosQWsyNb) ] - -2014-09-24 可以看看教学录像,这个课可为两种目标服务:第一、了解计算生物学中的挑战性问题,寻求更好的计算方法,应用前沿的机器学习方法(很好奇深度学习的应用)第二、理解可以使用计算方法,尤其是现成的机器学习工具,把它们应用到生物学、医学前沿问题中 Bioinformatics, Health informatics //@医学统计 [ [微博](http://www.weibo.com/5220650532/Bosjr9NpC) ] - -> 2014-09-24 @好东西传送门: 一张图表解析生物信息学中算法的实际应用(摘自"An Introduction to Bioinformatics Algorithms")同时推荐该书作者Pavel Pevzner (UCSD教授, ACM院士) Coursera公开课Bioinformatics Algorithms (今年10月开课) http://t.cn/RhWs4Cp YouTube教学视频 http://t.cn/RhWs4CO 需要较强的数学及算法基础 [ [微博](http://www.weibo.com/5220650532/BorSV49Fo) ] - -2014-09-24 一张图表解析生物信息学中算法的实际应用(摘自"An Introduction to Bioinformatics Algorithms")同时推荐该书作者Pavel Pevzner (UCSD教授, ACM院士) Coursera公开课Bioinformatics Algorithms (今年10月开课) http://t.cn/RhWs4Cp YouTube教学视频 http://t.cn/RhWs4CO 需要较强的数学及算法基础 [ [微博](http://www.weibo.com/5220650532/BorSV49Fo) ] - -2014-09-24 推荐 @tornadomeet 整理的 《本人常用资源整理(ing...)》 http://t.cn/zO1YaAE #深度学习#, #机器学习#,#数据挖掘#, #计算机视觉#,优化,数学,Linux,领域牛人,课程 ... ;-) 此人的博客可以归类为 #学霸的学习笔记# [ [微博](http://www.weibo.com/5220650532/BortzCrYs) ] - -2014-09-24 回复@尘绳聋-SYSU: 补上 @tornadomeet 原作 “机器学习&数据挖掘笔记_16(常见面试之机器学习算法思想简单梳理)” http://t.cn/zRoZPzP 现在已经写了25个笔记! //@尘绳聋-SYSU:数盟的链接里没有标明原作:@tornadomeet [ [微博](http://www.weibo.com/5220650532/Borpttofb) ] - -> 2014-09-24 @陈利人: 好文!常见面试之机器学习算法思想简单梳理 http://t.cn/RhWuNHg [ [微博](http://www.weibo.com/1915548291/Bor6t48ji) ] - -2014-09-24 感谢! 附09年MLSS主页 http://t.cn/zl1sHfi 09年MLSS 所有还幻灯片打包下载 51M ZIP http://t.cn/RhWBmXr //@bigiceberg: mark,其中09年UK的mlss最经典。 [ [微博](http://www.weibo.com/5220650532/Borng7Ukv) ] - -> 2014-09-24 @好东西传送门: 机器学习暑期学校MLSS全集(2002-): MLSS汇集了机器学习界名师,提供基础教程,展示领域进展, 免费讲义下载 -- 是了解领域前沿的好去处。全集罗列了过去的26次课和未来的8次课, 基本上欧洲,美国,澳洲,亚洲各自一摊。原始链接 www.mlss.cc 我们做了个github版补全了缺失链接 http://t.cn/RhWRlBo [ [微博](http://www.weibo.com/5220650532/BoqHnj2qe) ] - -2014-09-24 //@AixinSG: 我们做过hashtag扩散的研究 http://t.cn/RhWmsw8 Google Scholar上也有了一些相关的引用文章 http://t.cn/RhWmswE 相对来说扩散要比溯源容易做,溯源很不容易验证 [ [微博](http://www.weibo.com/5220650532/Bor4eu5sU) ] - -> 2014-09-24 @好东西传送门: 问: 做基于话题的社交网络中的溯源,寻找源头用户, 求文章? 答: 找到5篇论文 http://t.cn/RhW6Suk 特别推荐Guille等"在线社交网络中信息扩散综述"(SIGMOD Record 2013)脑图, 讲了三个挑战及相关解法: 发现有趣话题,扩散过程建模, 识别高影响力节点。此外还有几篇溯源算法研究及一篇Science相关好文 [ [微博](http://www.weibo.com/5220650532/BoqRO7Mzg) ] - -2014-09-24 问: 做基于话题的社交网络中的溯源,寻找源头用户, 求文章? 答: 找到5篇论文 http://t.cn/RhW6Suk 特别推荐Guille等"在线社交网络中信息扩散综述"(SIGMOD Record 2013)脑图, 讲了三个挑战及相关解法: 发现有趣话题,扩散过程建模, 识别高影响力节点。此外还有几篇溯源算法研究及一篇Science相关好文 [ [微博](http://www.weibo.com/5220650532/BoqRO7Mzg) ] - -2014-09-24 机器学习暑期学校MLSS全集(2002-): MLSS汇集了机器学习界名师,提供基础教程,展示领域进展, 免费讲义下载 -- 是了解领域前沿的好去处。全集罗列了过去的26次课和未来的8次课, 基本上欧洲,美国,澳洲,亚洲各自一摊。原始链接 www.mlss.cc 我们做了个github版补全了缺失链接 http://t.cn/RhWRlBo [ [微博](http://www.weibo.com/5220650532/BoqHnj2qe) ] - -2014-09-23 [资料合集] http://t.cn/RhOz6bQ 情感分析(sentiment analysis) 两本经典综述PDF下载: A Survey of Opinion Mining and Sentiment Analysis (2012) by Bing Liu; Opinion mining and sentiment analysis (2008) by Bo Pang, Lillian Lee, 另附Richard Socher等深度学习用于情感分析的论文 欢迎补充 [ [微博](http://www.weibo.com/5220650532/Bohx6Ahic) ] - -2014-09-23 回复@禅系一之花: 谢谢提示。《傅立叶变换的简易指南》 http://t.cn/8srbg2x 译者:Taurelasse //@禅系一之花:译言上有翻译版 //@好东西传送门:感谢右边传送 An Interactive Guide To The Fourier Transform //@赶路人林文: http://t.cn/zjN3lQ6 这个傅里叶转换的文章是我看到 [ [微博](http://www.weibo.com/5220650532/Boh4Y1Doi) ] - -> 2014-09-19 @好东西传送门: 问: @ShawnLeesr 给找一些好到逆天的 1.信号处理 2 傅里叶变换 3.小波变换的入门资料吧 答: 资料整理 http://t.cn/RhKNdKs 推 @Heinrich_DMU 傅里叶分析之掐死教程。进阶有Stanford傅立叶变换课(Brad Osgood) http://t.cn/RhKNdKF , MIT小波分析课(Gilbert Strang) http://t.cn/RhKNd9v 请指正补充 [ [微博](http://www.weibo.com/5220650532/BnHcFiekf) ] - -2014-09-23 //@AllAboutStorage: Freebase小介绍(目标结构化internet)。母公司2010年被Google收购,其技术应该被用到了Google Knowledge Graph这个项目中。感兴趣的同学还可以看一看Google的图数据库Cayley http://t.cn/RvHuYpL 。其介绍就清楚写明:Cayley是受Google知识图谱以及Freebase背后的图数据库启发。 [ [微博](http://www.weibo.com/5220650532/Boh3LyNLP) ] - -> 2014-09-23 @好东西传送门: @low_accepted 问:求Freebase Wikipedia Extraction (WEX)的数据集(66GB大小,tsv格式) 答:AWS上有66GB版本的ESB snap-1781757e,挂靠在EC2上免下载。刚才实验了可用。WEX把维基百科英文版的模板、信息框、目录等转化为XML格式 http://t.cn/Rh0kIXp 更多Freebase资源 http://t.cn/Rh0kIX0 [ [微博](http://www.weibo.com/5220650532/Bogtpf4Jr) ] - -2014-09-23 问: @神经明亮的人 求perl教程呀? 答: 资料合集 http://t.cn/RhOvrpN Randal Schwartz 的learning Perl(小骆驼)是公认的入门教程, 浅显短小, 建议看英文版。更短有Learn Perl in about 2 hours 30 minutes. 更多看perlmonks.org和perl-tutorial.org的教程合集. 进阶看大骆驼Programming Perl 欢迎补充 [ [微博](http://www.weibo.com/5220650532/Boh22i7QV) ] - -2014-09-23 @low_accepted 问:求Freebase Wikipedia Extraction (WEX)的数据集(66GB大小,tsv格式) 答:AWS上有66GB版本的ESB snap-1781757e,挂靠在EC2上免下载。刚才实验了可用。WEX把维基百科英文版的模板、信息框、目录等转化为XML格式 http://t.cn/Rh0kIXp 更多Freebase资源 http://t.cn/Rh0kIX0 [ [微博](http://www.weibo.com/5220650532/Bogtpf4Jr) ] - -2014-09-23 感谢右边传送 An Interactive Guide To The Fourier Transform //@赶路人林文: http://t.cn/zjN3lQ6 这个傅里叶转换的文章是我看到的最棒的,无比生动。特别适合文科生,八年没碰过物理,五年没碰过数学的我都看懂了。有时间一定把这个翻译成中文。 [ [微博](http://www.weibo.com/5220650532/BofcOk20k) ] - -> 2014-09-19 @好东西传送门: 问: @ShawnLeesr 给找一些好到逆天的 1.信号处理 2 傅里叶变换 3.小波变换的入门资料吧 答: 资料整理 http://t.cn/RhKNdKs 推 @Heinrich_DMU 傅里叶分析之掐死教程。进阶有Stanford傅立叶变换课(Brad Osgood) http://t.cn/RhKNdKF , MIT小波分析课(Gilbert Strang) http://t.cn/RhKNd9v 请指正补充 [ [微博](http://www.weibo.com/5220650532/BnHcFiekf) ] - -2014-09-22 Yar, Yac, Yaf 都是 @Laruence 直接在GITHUB上开源的 http://t.cn/zWiKwkj , Zend Optimizer 也有他 http://t.cn/Rh0h8RZ [ [微博](http://www.weibo.com/5220650532/BoaTCoZbG) ] - -> 2014-09-22 @Laruence: 又要写总结报告了, 这是目前微博俩年来达成的LNMP的技术结构图..... 也就这么些东西, 大部分都是开源的, 欢迎借鉴. [ [微博](http://www.weibo.com/1170999921/BoaKMhnJp) ] - -2014-09-22 问: 增强现实近几年的文章或者相关资料特别是关于PTAM的资料? 答: 资料汇总 http://t.cn/Rh0v03Y PTAM是"即时定位与地图构建" (Simultaneous localization and mapping, SLAM, 机器人视觉的研究方向)的重要进展, 概念于2007年ISMAR最佳论文中提出。2014 CVPR 有一组段教程涉及相关研究 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BoaJeg31R) ] - -2014-09-22 传送好东西 #自然语言处理# 论文“Distributed Representations of Sentences and Documents ” Quoc V. Le, Tomas Mikolov, ICML 2014 链接 http://t.cn/RhpdQqv PV = Paragraph Vector [ [微博](http://www.weibo.com/5220650532/BoabnoAha) ] - -> 2014-09-22 @ustczen: “Distributed Representations of Sentences and Documents ”中提到的句子向量化算法PV-DM在github上已经有了基于gensim的python实现:http://t.cn/RPDxH82,word2vec论坛有人用它在IMDB数据集上尝试做情感分类,效果没有论文声称的那么牛,但可以参考下实现。@好东西传送门 [ [微博](http://www.weibo.com/2872565912/Bo9xyfdib) ] - -2014-09-22 感谢@hnlyjzh 搬运! Large Scale Visual Recognition Challenge视频免梯子下载 [ [微博](http://www.weibo.com/5220650532/Bo6SLASYp) ] - -> 2014-09-21 @hnlyjzh: ILSVRC2014的视频在这里http://t.cn/RhNBfX6 @好东西传送门 [ [微博](http://www.weibo.com/1244843177/Bo3i6cufT) ] - -2014-09-21 继续传送 //@ICT秦磊: 转了GoogLeNet,放在优酷上。 http://t.cn/RhN58TY 好东西传送门: 帮转,在YouTube上的,看看有没有大神帮忙传送回国 [ [微博](http://www.weibo.com/5220650532/Bo0laE8yh) ] - -> 2014-09-20 @贾旭kul_visics: @好东西传送门 ILSVRC2014 videos http://t.cn/RhCTDKX [ [微博](http://www.weibo.com/3195545915/BnUjy7FgT) ] - -2014-09-21 转发理论:一张图简明扼要总结了各种概率分布的关系,对机器学习和统计都极具参考价值。另补充维基百科上无版权的图 http://t.cn/zjyvP9q 并有对各种分布的详细解释 [ [微博](http://www.weibo.com/5220650532/BnYMPiRcz) ] - -> 2014-09-21 @_散沙_民工智能_: 基础中的基础,各路大数据科学家首先忽略的东西。晚安 http://t.cn/z8AJfHW [ [微博](http://www.weibo.com/1438548745/BnWtujF4q) ] - -2014-09-20 帮转,在YouTube上的,看看有没有大神帮忙传送回国 [ [微博](http://www.weibo.com/5220650532/BnVt2ffR0) ] - -> 2014-09-20 @贾旭kul_visics: @好东西传送门 ILSVRC2014 videos http://t.cn/RhCTDKX [ [微博](http://www.weibo.com/3195545915/BnUjy7FgT) ] - -2014-09-20 问: @情非得已小屋 推荐点关于推荐系统的综述么? 答: 问答207 http://t.cn/RhCt7lc 强推KDD2014讲义 "the recommender problem revisited": 第一部分Xavier Amatriain的综述(135页, 2014机器学习夏季学校版有248页), 第二部分"Context Aware Recommendation" (64页) 谢 @小飞鱼_露 @明风Andy 推荐 [ [微博](http://www.weibo.com/5220650532/BnRHSq1xl) ] - -2014-09-20 问: @水月小和尚 求隐私保护的资料 答: http://t.cn/Rh9egwV 隐私保护是大数据时代的重要问题。先推荐一篇2010年综述privacy-preserving data publishing 讲数据发布中的攻击模型, 隐私模型和匿名算法(看附图) 1.3节还列了一些综述, 讲"数据挖掘、数据查询、统计数据发布"中实现隐私保护 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BnPOcry6i) ] - -2014-09-20 过去一周新增的问答和推荐资源都整理到Github上了http://t.cn/Rh9NSVm 到目前为止有360条主题。要找以前推荐过的资源直接可以在页面上Ctrl+F搜索。BTW,如果你想订阅每周更新,发邮箱给我的私信吧 [ [微博](http://www.weibo.com/5220650532/BnMt3bdgh) ] - - -2014-09-19 Large-Scale Distributed Computer Vision As A Cloud Service [ [微博](http://www.weibo.com/5220650532/BnImw9owp) ] - -> 2014-09-19 @Rachel____Zhang: 发现了一个好东西,cloudcv http://t.cn/RhKuArr . 基于GraphLab with GPU支持在线object detection, classification和feature extraction(用的是Caffe),提供了MATLAB和Python的API。http://t.cn/8FItstH 还有提供ILSVRC2014 的各种feature... [ [微博](http://www.weibo.com/2607574543/BnIlCguKb) ] - -2014-09-19 推荐Cyrille Rossant博士新书 “IPython cookbook” http://t.cn/RhKH1qp 所有例子在Github上以IPython Notebook方式开源 http://t.cn/RhKH1q0 此书覆盖挺广:基础知识( IPython交互式计算环境,性能分析与优化,高性能计算,数据可视化); 实战短例子(例如统计,机器学习,信号处理,视频与音频等) [ [微博](http://www.weibo.com/5220650532/BnHSNrqZT) ] - -2014-09-19 问: @ShawnLeesr 给找一些好到逆天的 1.信号处理 2 傅里叶变换 3.小波变换的入门资料吧 答: 资料整理 http://t.cn/RhKNdKs 推 @Heinrich_DMU 傅里叶分析之掐死教程。进阶有Stanford傅立叶变换课(Brad Osgood) http://t.cn/RhKNdKF , MIT小波分析课(Gilbert Strang) http://t.cn/RhKNd9v 请指正补充 [ [微博](http://www.weibo.com/5220650532/BnHcFiekf) ] - -2014-09-19 [有趣的数据] 一个新推出的可交互地图应用把英国(United Kingdom)的河流的水文数据(river level) 放在网上 http://t.cn/RhK9AoB 。地图每一点对应一个水文观测站,好玩的是大家可以在Twitter上当这个观测站的粉丝:牛津附近的 gauge 2100 http://t.cn/RhK9Aor 居然有12粉 [ [微博](http://www.weibo.com/5220650532/BnH0ncHSp) ] - -2014-09-19 好东西! [ [微博](http://www.weibo.com/5220650532/BnGKXl9Ic) ] - -> 2014-09-19 @设定控: 一篇在各大社交网站上广为转载的电子图书馆列表,来自译言网,《最好的免费电子图书馆指南(上)》http://t.cn/zYcbH8t 《最好的免费电子图书馆指南(下)》http://t.cn/z84nsDZ 事实我发的很多电子书网站就来自这里,这贴几乎无所不包,学术政治经济资源都有,楼主还没翻译完,有时间多刷新一下吧。 [ [微博](http://www.weibo.com/2142733793/BnGfghg3X) ] - -2014-09-19 赞!Gradient Boosting Tree也参我们以前收集的专题 http://t.cn/RhKc1F5 有Python Go C++多种语言的实现 [ [微博](http://www.weibo.com/5220650532/BnFUv89IL) ] - -> 2014-09-19 @phunter_lau: 我的 Kaggle Higgs Challenge单个模型获胜解答,公开排行榜3.75最终排行榜得分3.73,排名25th/1792,差不多前几十里唯一一个非组合模型的解答。至于为什么不用组合模型,因为我不会。。。 链接 http://t.cn/RhKAWac 附图方便不能上wordpress的同学观看。至于英语描述,不要在意这些细节。 [ [微博](http://www.weibo.com/1770891687/BnE9rmOpe) ] - -2014-09-19 推荐一篇综述,将Context Aware Computing 在物联网里的应用 《Context aware computing for the internet of things: A survey》 http://t.cn/RhKqJTg 分析了过去十年50个相关项目,覆盖Context生命周期的四个阶段 Acquisition(获取), Modeling(建模), Reasoning(推理), Distribution(发布) [ [微博](http://www.weibo.com/5220650532/BnFso1697) ] - -2014-09-19 回复@tang_Kaka_back: 大致看了一下pypi,4万多库里只有5千多的python3库 //@tang_Kaka_back:回复@好东西传送门:[good]Python3的一些库跟进还是太慢了。从unicode的角度我个人还是喜欢3 //@tang_Kaka_back:我记得我一年前在找python3的爬虫都没有太好的,于是自己就着自己的项目写了个。现在已经有支持 [ [微博](http://www.weibo.com/5220650532/BnDabp9IQ) ] - -> 2014-09-18 @好东西传送门: 问: @子_相 目前支持Python 3的各种Web Crawler包?输入HTML, 输出是能支持Xpath 和CSS式的selector查询的object,有没有比较宽松容错的parser? 答: http://t.cn/RhL3mGP 不完善初步答案 MechanicalSoup和robobrowser都支持python3; beautifulSoup4 支持多种html parser处理HTML和CSS 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BnyQKbcKJ) ] - -2014-09-19 回复@小粗腿正在减肥中: 你是指这个吗? http://t.cn/RhosnXP Information Hiding conference (1996-2014) 点链接可以看每一届会议的论文目录。要下载论文通常可以 1. 祭出搜索引擎 标题+PDF 2. 通过图书馆查期刊 3.联系通信作者 ... //@小粗腿正在减肥中: [ [微博](http://www.weibo.com/5220650532/BnD1wdQBF) ] - -> 2014-09-18 @好东西传送门: 问:求信息隐藏的资料 答:初步进展 http://t.cn/RhogJv4 信息隐藏(digital watermarking, steganography and steganalysis, anonymity and privacy)有一个国际年会 IIH-MSP (1996-2014)。 Zoran Duric 有2006年有一门短课程, Peter Wayner 有一本2009年的专著。@永远的孤岛 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BnCrqqYLC) ] - -2014-09-18 问:求信息隐藏的资料 答:初步进展 http://t.cn/RhogJv4 信息隐藏(digital watermarking, steganography and steganalysis, anonymity and privacy)有一个国际年会 IIH-MSP (1996-2014)。 Zoran Duric 有2006年有一门短课程, Peter Wayner 有一本2009年的专著。@永远的孤岛 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BnCrqqYLC) ] - -2014-09-18 [数据集] 美国各政府部门2000至2014财年的支出记录, 每条记录包括 哪个部门拨发的,什么时间,干什么用,多少钱,获得拨款的地址 等字段。可以直接查询数据 http://t.cn/RhotbLK 也可以下载数据 http://t.cn/RhotbLo (点 archives 标签, 按月下载) [ [微博](http://www.weibo.com/5220650532/Bnz8SvZTF) ] - -2014-09-18 问: @子_相 目前支持Python 3的各种Web Crawler包?输入HTML, 输出是能支持Xpath 和CSS式的selector查询的object,有没有比较宽松容错的parser? 答: http://t.cn/RhL3mGP 不完善初步答案 MechanicalSoup和robobrowser都支持python3; beautifulSoup4 支持多种html parser处理HTML和CSS 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BnyQKbcKJ) ] - -2014-09-18 传送好东西并传送问题 @左耳朵耗子 //@文艺复兴记: 我遇到过一类典型的有问题的编写可测试代码的方法,例:实现一个Stack类。有人这样做:把Stack内部的数据结构(比如动态数组)暴露出来,然后分别写两个测试用例test_push和test_pop,每个测试用例都去检查Stack内部数据结构的状态。问题在哪里? [ [微博](http://www.weibo.com/5220650532/Bnys4axnX) ] - -> 2014-09-18 @reeze: Google员工写的:《编写可测的代码》 http://t.cn/RhSENMV 代码可测性非常重要,规模越大越重要,可测的程序可以更容易的编写更多的测试来保证代码的质量。 [ [微博](http://www.weibo.com/1548943797/BnxVP6DMx) ] - -2014-09-18 好东西 回复@blue_tracks: 论文PDF 链接有问题. 是否考虑放到 arxiv.org 这样方便别人引用,源代码是这个(不在master上)吗? http://t.cn/RhoADCF [ [微博](http://www.weibo.com/5220650532/Bnymun0FA) ] - -> 2014-09-18 @blue_tracks: NIPS投稿得到887高分,但是最后因为一个math typo被干掉,郁闷过后现在paper和实验配置都已公开。 idea极其简洁, 在中间层加入监督信息的架构可以适用于任何网络结构, 我们有理论和多个数据集的实验证明这种策略能够有效防止梯度发散,据说GoogLeNet今年也用了类似的想法 http://t.cn/Rhoz0BO @winsty [ [微博](http://www.weibo.com/1240701945/Bny5ShuSM) ] - -2014-09-18 特别推荐一本免费电子书: 微软研究院邓力和俞栋合写的“Deep Learning Methods and Applications” (2014) http://t.cn/RhoPwll 近200页篇幅对深度学习的方法和应用做了比较全面地综述。还有 @高杰_Speech 推荐 微软研究院出品C++开源Computational networks工具包 CNTK http://t.cn/Rhy4u3l [ [微博](http://www.weibo.com/5220650532/BnxSMyLB3) ] - -2014-09-18 哈哈, 原来是微软研究院出品 Computational Network Toolkit (CNTK) 俞栋 Dong Yu etc. "An Introduction to Computational Networks and the Computational Network Toolkit", Microsoft Technical Report, 2014. http://t.cn/RhSscXz //@liushengbing: 只支持windows的ML包真是第一次见 [ [微博](http://www.weibo.com/5220650532/BnxKrvfUY) ] - -> 2014-09-12 @高杰_Speech: 推荐新的Deep learning工具包 CNTK, http://t.cn/Rhy4u3l C++实现,CPU/GPU支持,DNN/CNN/RNN/LSTM,目前只支持windows [ [微博](http://www.weibo.com/2436946631/BmEk7BQfM) ] - -2014-09-18 不错 补充一下 ILSVRC2014 的日程上包括了各大参赛队15分钟报告幻灯片下载链接,还有各种讨论的东东 http://t.cn/RhSF13U //@潘炎_SYSU: 相应的论文链接在: http://t.cn/RhSdt1V [ [微博](http://www.weibo.com/5220650532/BnxIm4KOD) ] - -> 2014-09-18 @潘炎_SYSU: GoogleLeNet放出他们在ILSVRC 2014的slides了:http://t.cn/RhSdCVa [ [微博](http://www.weibo.com/1889275224/Bnxk2a7zQ) ] - -2014-09-18 问: @微热闹 请教是否有MAPREDUCE实现的PLSI算法 答: http://t.cn/RhSnzB7 先来三篇相关文章: UIUC “Parallel PLSI on Spark”, 清华“Parallel PLSA ...” 南大“P2LSA and P2LSA+: Two Paralleled Probabilistic Latent Semantic Analysis Algorithms Based on the MapReduce Model” 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BnwGrtAwU) ] - -2014-09-18 关于数据清理(Data Cleaning) 有一篇2000年的经典文章 "Data Cleaning: Problems and Current Approaches" http://t.cn/RhSE7LZ 该文综述了结构化数据中质量问题的分类和来源,并给出了相应例子。该文对了解当前大数据中"噪音”有一定指导意义。#抛砖引玉# 欢迎补充推荐好东西 [ [微博](http://www.weibo.com/5220650532/BnwznznUE) ] - -2014-09-18 问: 关于挖掘话题层级结构(topic hierarchy)的研究和应用? 答: http://t.cn/RhSTd26 早期有CAM模型(IJCAI'99), 近来有Blei基于"bayesian nonparametric inference"的工作, Berant的"entailment graph", 微软ProBase. Twitter用它分类(kdd'14). 认知科学看"How to Grow a Mind"(science'11) 欢迎指正 [ [微博](http://www.weibo.com/5220650532/BnvY6x7Oq) ] - -2014-09-17 #温故而知新# Gary Anthes (科普作家)的 Deep Learning Comes of Age 算是科普文章了,短短几页谈了深度学习过去与现状的要点,还推荐了一个不错的参考论文书单。正好 🚪 正在传送 深度学习入门资料 http://t.cn/RhaTq9c 该文应该被”录用“ 又 @自觉自愿来看老婆微博 也推荐该文 [ [微博](http://www.weibo.com/5220650532/BnoQ6ksvb) ] - -> 2013-05-30 @星空下的巫师: "A wave of excitement today comes from the application of unsupervised learning to deep neural nets." Deep Learning Comes of Age | June 2013 | Communications of the ACM http://t.cn/zH5EdjT [ [微博](http://www.weibo.com/1785748853/zz47bmU5h) ] - -2014-09-17 问:@聪Hit 有没有关于深度学习的。特别是针对初学者的一些文章。 答: 深度学习综述不乏大部头,如微软邓力等写的“Deep Learning Methods and Applications”。推些短文:"A Primer on Deep Learning" 科普入门, 基于python theano范例学习, 邓侃Deep Learning系列 资料 http://t.cn/RhaISCG 欢迎指正 [ [微博](http://www.weibo.com/5220650532/Bnnfrjm3x) ] - -2014-09-17 问:@vincent是正能量 有没有synonym mining的survy paper,以及比较核心的一些paper? 答: 问答资料 http://t.cn/Rha5DJE Wordnet synset 人工构造了同义词(synonym)集合, 自动方法通常依靠语义相关分析(semantic similarity) 微软有相关项目, 我们有技术资料整理贴 http://t.cn/Rha5DJR [ [微博](http://www.weibo.com/5220650532/BnmMGBraU) ] - -2014-09-17 [专题] 主题模型 工具推Gensim和LDAvis http://t.cn/RhabYR5 理论部分推荐 @52nlp 的《如何计算两个文档的相似度》@rickjin 的《LDA数学八卦》@Copper_PKU 的《Probabilistic Topic Model》和 沈志勇 的《主题模型简介》http://t.cn/RhabYRt 研究前沿推Twitter和Google的实战 http://t.cn/RhabYRc [ [微博](http://www.weibo.com/5220650532/BnmjIC2Tr) ] - -2014-09-17 [专题] 主题模型 工具推Gensim和LDAvis http://t.cn/RhabYR5 理论部分推荐 @52nlp 的《如何计算两个文档的相似度》@rickjin 的《LDA数学八卦》@@Copper_PKU的《Probabilistic Topic Model》和 沈志勇 的《主题模型简介》http://t.cn/RhabYRt 研究前沿推Twitter和Google的实战 http://t.cn/RhabYRc [ [微博](http://www.weibo.com/5220650532/Bnmjn3rmn) ] - -2014-09-16 Luke现在是Google Product Director 关心手机平台Ux设计地同学们可以下载资料了,PDF有78页 http://t.cn/zQan8tv //@DataMooc: //@developerWorks: 这个很不错,LukeW 大神的 Blog 是长期订阅的,推荐。PDF 下载地址: http://t.cn/RhXST8L [ [微博](http://www.weibo.com/5220650532/Bnh75kMAe) ] - -> 2014-09-16 @英特尔XDK: Luke Wroblewski 大神正式的把他从 2012-2014年写的关于 #Mobile Design# 的文章整理成了 iBook 和 PDF 发布了,大家可以从他的网站上得到下载链接 http://t.cn/RhXVIlD。您也可以从 @英特尔开发人员专区 来了解他的文章和视频 http://t.cn/RhXVIlk [ [微博](http://www.weibo.com/5075403624/Bng3ijjEq) ] - -2014-09-16 转发理由:深度学习在分词等领域的应用。论文PDF http://t.cn/RhX2U9t HTML版 http://t.cn/RhX2U95 [ [微博](http://www.weibo.com/5220650532/Bnf4S6g8I) ] - -> 2014-09-15 @裴文哲: 终于找到了 http://t.cn/Rh6GFMi 我在ACL2014的oral presentation: Max Margin Tensor Neural Network for Chinese Word Segmentation 介绍了Deep Learning在序列标注任务中的新模型 slides做的略挫 希望大牛们轻喷 [ [微博](http://www.weibo.com/2110794314/Bn8SNfgHJ) ] - -2014-09-16 转发理由:依存文法分析对于关系提取,问答系统和知识图谱建设都有突出价值,而且速度较快。 [ [微博](http://www.weibo.com/5220650532/BneFP04pJ) ] - -> 2014-09-16 @李正华NLP: 我们这次在coling 2014上做的题为“Dependency Parsing: Past, Present, and Future”的tutorial slides已经整理好并放在我的主页上:http://t.cn/RhXvXVn,请大家多提宝贵意见,欢迎讨论交流。 [ [微博](http://www.weibo.com/1890969215/BnevukUcc) ] - -2014-09-16 回复@海中的沙粒: 发这个好东西时有点纠结,很多人见过,也有很多人没见过。但是作为数据,它的价值的确高,第一省得去翻统计年鉴,第二 CSV很容易导入Excel,python,matlab, R, 省了不少数据清理时间 (转就是收藏,不论你是不是 @ 谁的印象笔记 ) //@海中的沙粒:好像转过,再转一次吧,嘿嘿,反正 [ [微博](http://www.weibo.com/5220650532/BneyPc0Qp) ] - -> 2014-09-16 @好东西传送门: 推荐 @新浪财经 "中国宏观经济数据" http://t.cn/Rh6us2R 涵盖: 国民经济, 价格指数, 居民收入, 固定资产投资, 景气指数, 对外经济贸易, 金融信息, 国家财政, 行业信息。有图表且数据可CSV导出。轻松解决问题189 我国CPI和货币供应量M2 M1 M0月度环比数据 http://t.cn/Rh6HucY [ [微博](http://www.weibo.com/5220650532/Bndsqh1hJ) ] - -2014-09-16 读综述帮助了解领域,写综述展示对领域的掌握程度。找文献时要聚焦在目标课题下,避免贪多求全或者枝蔓。 高质量的例子可以参考计算机领域的综述期刊(ACM Computing Survey) 附DBLP的每期链接 http://t.cn/Rh6rH83 //@陆浑戎: 转发微博 [ [微博](http://www.weibo.com/5220650532/BndSKAQj8) ] - -> 2014-09-15 @传媒老跟班: 【文献综述】文献综述的写法http://t.cn/Rh6onsx;本科毕业论文如何撰写文献综述?http://t.cn/zHKQB8G;如何写文献综述?http://t.cn/zHKQB8b;克雷斯威尔五步文献综述法http://t.cn/Rh6onsa;社会科学研究中的文献综述:原则、结构和问题http://t.cn/zHKQB8q,供大家参考。 [ [微博](http://www.weibo.com/5198011111/BnapLe2fO) ] - -2014-09-16 转发理由:包括n-gram,带Freebase标注的8亿文档, Wikilinks 4000万页面链接标注,人工标注的wikipedia公众人物到Freebase映射, 3900万Wikipedia Infobox编辑历史,词与实体的映射 [ [微博](http://www.weibo.com/5220650532/BndMfgjn7) ] - -> 2014-09-15 @龙星镖局: Google近年来发布的有关文本挖掘、自然语言处理的数据集。http://t.cn/z8sMlZv [ [微博](http://www.weibo.com/1830516311/Bn7Q3zieO) ] - -2014-09-16 问: @海中的沙粒 点餐,介绍Matlab的入门级编程语言的书,电子文献,或者网页类 答: 任选一个套餐用最快速度翻完掌握全局,具体细节使用时再读。资料汇总 http://t.cn/Rh63woo 有18页的短教程,MIT的5节课讲义,Rutgus经济系博士的讲义。此外大餐看官方手册"Matlab Primer" [ [微博](http://www.weibo.com/5220650532/BndHDcwWV) ] - -2014-09-16 推荐 @新浪财经 "中国宏观经济数据" http://t.cn/Rh6us2R 涵盖: 国民经济, 价格指数, 居民收入, 固定资产投资, 景气指数, 对外经济贸易, 金融信息, 国家财政, 行业信息。有图表且数据可CSV导出。轻松解决问题189 我国CPI和货币供应量M2 M1 M0月度环比数据 http://t.cn/Rh6HucY [ [微博](http://www.weibo.com/5220650532/Bndsqh1hJ) ] - -2014-09-16 问: @国产_小翁:能不能帮我找到HMAX模型的matlab源码? 答: 资料汇总 http://t.cn/Rh69oet HMAX ("Hierarchical Model and X") 是Poggio于1999年提出的概念, 用于解决(Object recognition)的多层次神经网络。Poggio的MIT实验室CBCL在Google code有纯matlab源码 欢迎指正 [ [微博](http://www.weibo.com/5220650532/Bndd4cmz5) ] - -2014-09-16 要不搜索一下,用这个关键词 win7 library-ms fix 找到相关的问答 http://t.cn/Rh6juZn http://t.cn/Rh6juZm 更多相关结果看这里 http://t.cn/Rh6juZE 此外可以直接问微软 @微软中国 [ [微博](http://www.weibo.com/5220650532/BnbJ2h4gS) ] - -> 2014-09-15 @举头三尺有大神: 求助各位大神@好东西传送门 @破破的桥 @林楚方 。win7库出现这种情况。不能打开,不能新建,还原默认还是无法解决。 [ [微博](http://www.weibo.com/2809984842/Bn8VQnsUW) ] - -2014-09-16 如果你注了NIPS ,这个workshop就不另外收费了,看注册页 http://t.cn/Rh696S3 //@duinduin:要另外注册么? //@好东西传送门:Automated Knowledge Base Construction (AKBC) 2013 http://t.cn/Rhi9Tr5 2014年的和NIPS一起开,期待! //@昊奋: AKBC算是一个引领知识库构建的专题workshop。推荐的这 [ [微博](http://www.weibo.com/5220650532/BnazMCYTf) ] - -> 2014-09-15 @小飞鱼_露: @好东西传送门 想问下身边有没有了解知识图谱 (knowledge graph) 的大神,能否推荐一些文章和教程? [ [微博](http://www.weibo.com/1761583707/Bn4ljd4QQ) ] - -2014-09-15 //@算文解字:5. 这哥们很能掰,而很多章节分别阐述了他对人工智能、医疗科技、清洁能源、90年代互联网历史、融资甚至帝王之术的独特看法。很多地方只是略略扫了一眼,总感觉是可读性很强。原始Note: http://t.cn/zYvtV0F 最近已经整理成书“Zero to One” @好东西传送门 前两天推荐过 [ [微博](http://www.weibo.com/5220650532/BnahOEAAQ) ] - -> 2014-09-15 @算文解字: 1 昨天读了Peter Theil CS183的笔记。他认为从0到1的过程是一个发现只有少数人才掌握的真相,即#秘密#的过程。简单的早被发现,变为常识应用在从1到n的复制阶段,而无解的秘密则毫无价值,因此需要找中等难度但可解的秘密。他提到的秘密有垄断、幂律、渠道的重要性以及元秘密:世界上仍有很多秘密。 [ [微博](http://www.weibo.com/1884715211/Bn9gN4EYh) ] - -2014-09-15 Automated Knowledge Base Construction (AKBC) 2013 http://t.cn/Rhi9Tr5 2014年的和NIPS一起开,期待!//@昊奋: AKBC算是一个引领知识库构建的专题workshop。推荐的这个paper算是一个比较有指导性意见的文章,推荐! [ [微博](http://www.weibo.com/5220650532/Bn4YS4wfC) ] - -> 2014-09-15 @小飞鱼_露: @好东西传送门 想问下身边有没有了解知识图谱 (knowledge graph) 的大神,能否推荐一些文章和教程? [ [微博](http://www.weibo.com/1761583707/Bn4ljd4QQ) ] - -2014-09-15 这个和昨天推荐的entity linking的两个教程结合看最佳 http://t.cn/RhiS9gW 。RPI Heng Ji出品 //@Copper_PKU: 我推荐一个reading list: http://t.cn/8FqFegC 不知道有人推荐过没有 这个主页很不错//@好东西传送门: 在我们的github主页上搜“知识图谱” http://t.cn/RhiX0pi [ [微博](http://www.weibo.com/5220650532/Bn4Iwe0wd) ] - -> 2014-09-15 @小飞鱼_露: @好东西传送门 想问下身边有没有了解知识图谱 (knowledge graph) 的大神,能否推荐一些文章和教程? [ [微博](http://www.weibo.com/1761583707/Bn4ljd4QQ) ] - -2014-09-15 在我们的github主页上搜“知识图谱” http://t.cn/RhiX0pi 有不少以前的问题了。专家推荐 @昊奋 @孙明明_SmarterChina @Gary南京 @李志飞AI 还有去年第一届全国中文知识图谱研讨会的嘉宾 http://t.cn/8k2VD2H 该网页还有很多PPT [ [微博](http://www.weibo.com/5220650532/Bn4y7coge) ] - -> 2014-09-15 @小飞鱼_露: @好东西传送门 想问下身边有没有了解知识图谱 (knowledge graph) 的大神,能否推荐一些文章和教程? [ [微博](http://www.weibo.com/1761583707/Bn4ljd4QQ) ] - -2014-09-15 问: @秦彦霞_HIT 求教,哪里有大规模Twitter数据(只包含tweet即可,最好billion级别)可在文章中引用或致谢。 答:资料汇总 http://t.cn/RhiIgsl Archiveteam 2012至2014每月都有几十G的tweet JSON数据。此外 数据堂、snap和nist也有数据 @kite1988 @齐浩亮 提供了资料, 参考twitter专家 @AixinSG [ [微博](http://www.weibo.com/5220650532/Bn3USp5oO) ] - -2014-09-14 谢谢补充,ACL2014 A tutorial on Wikification and Entity Linking http://t.cn/RhJHk2Q 是个203页的PPT //@唐都钰HIT-SCIR: 还有今年ACL. Dan Roth. Heng ji 的tutorial [ [微博](http://www.weibo.com/5220650532/BmYLL8mDL) ] - -> 2014-09-14 @好东西传送门: @昊奋 推荐:Edgar Meij (Yahoo Labs)的Entity Linking and Retrieval教程。该教程最早在WWW 2013做过,深受好评,后来在SIGIR 2013, WSDM 2014不断更新。这组是今年6月最新的在Montreal做的版本,分为实体链接,实体检索和语义搜索三部分 http://t.cn/RhJHfzc [ [微博](http://www.weibo.com/5220650532/BmYGPj6rK) ] - -2014-09-14 @昊奋 推荐:Edgar Meij (Yahoo Labs)的Entity Linking and Retrieval教程。该教程最早在WWW 2013做过,深受好评,后来在SIGIR 2013, WSDM 2014不断更新。这组是今年6月最新的在Montreal做的版本,分为实体链接,实体检索和语义搜索三部分 http://t.cn/RhJHfzc [ [微博](http://www.weibo.com/5220650532/BmYGPj6rK) ] - -2014-09-14 问: @Joyce-Yuan- 对于拼写错误(real-word error) 求中文类似资料? 答: 详见 http://t.cn/RhJSrlc 拼写错误分non-word和real-word, 中英文难点不同。SIGHAN7的Bake-off 2013: Chinese Spelling Check 有很多论文(十月CLP14在武汉开), 英文spelling correction看Peter Novig 07年文章(21行python实现) [ [微博](http://www.weibo.com/5220650532/BmXdqD5Eh) ] - -2014-09-13 问: @V井颠V 对国内中长文章(300~5000字)近似新闻门户网站频道粒度的自动分类,有好的模型方法? 答: 资料整理 http://t.cn/Rhx4dAf 考虑statistical topic model, 推荐UIUC翟成祥短教程 http://weibo.com/5220650532/BhWo26Y93 ,软件包Gensim,Mallet,Stanford; kdd14有twitter分类好文 欢迎补充 [ [微博](http://www.weibo.com/5220650532/BmNjFtkeg) ] - -2014-09-13 问: @钱知易 帮我找找Berkeley detector(边缘检测)的代码(C++,Matlab) 答:资料整理 http://t.cn/RhMkEbD 是Michael Maire的工作 “Contour Detection and Image Segmentation"(CVPR2011) , 找到他们组的原始代码(gPb),还有Hyunho Lee的改进算法(gPb-junctions) 卡片盒子 http://t.cn/RhMkEbe [ [微博](http://www.weibo.com/5220650532/BmLNZ10CR) ] - -2014-09-13 问: 求助关于统计学方面的入门知识,主要是写企业上报数据,我们收集整理完数据之后以样本信息推断总体情况,并分析和推测总体的特征和规律 答: 相关资料 http://t.cn/RhMDApx * http://t.cn/hrmAiI 中国统计网, 从excel开始 * http://t.cn/hbvjNH 统计学知识社区, 侧重R @统计之都 @陈茁博士_Adam [ [微博](http://www.weibo.com/5220650532/BmLDph6KB) ] - -2014-09-13 回复@波多野丽猪: 多谢补充 http://t.cn/RhMe2Pp Fuseki: serving RDF data over HTTP //@波多野丽猪:一般python的话用sparql wrapper是ivan herman他们弄的,比较靠谱;其实假如有了一个endpoint,用fuseki里面sparql on http调用也可以,当然需要关联上fuseki的jar, [ [微博](http://www.weibo.com/5220650532/BmLwarUeq) ] - -> 2014-09-13 @好东西传送门: 问: @扛着甘蔗 有没有python访问使用dbpedia,freebase,等这些知识库查询的demo? 答: stackoverflow 有相关例子,找了一些相关资源 http://t.cn/RhMdlpG 有一个用freebase实现entity linking的例子 Quepy有例子展示如何将自然语言问题转化为数据库查询 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BmLjK6gVv) ] - -2014-09-13 常见的语音算法phonetic algorithm就是设定一组规则,将文字映射到某种音标符号系统。例如最原始的Soundex算法 扔掉所有元音,映射 b, f, p, v → 1 然后通过比较映射后符号串的差异来计算发音相似度。原帖中的脑图列举了常见英语(及德语)映射算法以及相关开源代码(python, java, go, ruby, perl) [ [微博](http://www.weibo.com/5220650532/BmLqi92Vx) ] - -> 2014-09-11 @好东西传送门: 问:@付超群 不知道有没有中文发音相似度计算算法或者类库?比如北京 百斤 鼻颈 背景 如果可以顺道比较英文更好,比如peking,beking 答: 关于算法和开源代码整理了一个 #脑图#,问答进展和相关资料在 http://t.cn/Rhf5xio 还收录了一些相关论文(含汉语) 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BmsMAeh0K) ] - -2014-09-13 可以结合以前推荐的图数据库专题看 http://t.cn/RhMgVCF [ [微博](http://www.weibo.com/5220650532/BmLpwdOXs) ] - -> 2014-09-13 @西瓜大丸子汤: 赞OrientDB,超级方便灵活,JSON进,SQL出,随时可以改数据结构,即使不做图计算也有用。MySQL, ElasticSearch, MongoDB, Neo4j, Redis一圈下来,还是OrientDB最符合我的需要,表达力最好,学习成本最低。速度OK不算最好,不过机器速度根本不是系统瓶颈,而且有很多优化的办法。 http://t.cn/RhMgLvG [ [微博](http://www.weibo.com/1932835417/BmLo6bLIV) ] - -2014-09-13 问: @扛着甘蔗 有没有python访问使用dbpedia,freebase,等这些知识库查询的demo? 答: stackoverflow 有相关例子,找了一些相关资源 http://t.cn/RhMdlpG 有一个用freebase实现entity linking的例子 Quepy有例子展示如何将自然语言问题转化为数据库查询 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BmLjK6gVv) ] - -2014-09-13 推荐一个很惊艳的免费图库列表(来自wikimedia):很多public domain图片库完全免费没有版权问题,还有不少基于知识共享许可(creative commons)的免费图片库 http://t.cn/RhMu3GQ 内容包罗万象:生物,科学,历史,天文,地图,各国风情,艺术,体育... 有的图库有上千万张图片。附图为长微博级目录 [ [微博](http://www.weibo.com/5220650532/BmKnCgD1s) ] - -2014-09-13 传送理由:人工智能资源库 3000+资源,12个分类,根据喜好,点击率排序 //@王海勋haixun: 转发微博 [ [微博](http://www.weibo.com/5220650532/BmJ7XfW8r) ] - -> 2014-09-12 @BoxingChen: 开源工具和开放的数据越来越多,口碑如何?怎么选择呢?open AI Resource http://t.cn/RhMCIKC 收集了AI领域的很多工具和数据,分类让大家点赞和评论。机器学习领域暂时获赞领先的工具是libsvm,NLP领域的是斯坦福POS tagger。去那找你需要的open source,也去那为你喜欢的,或自己的工具点个赞吧。 [ [微博](http://www.weibo.com/1767949300/BmHFV4Te9) ] - - - -2014-09-13 传送: Searchable full-text transcripts of WWDC sessions (2010-2014)音频转字幕,全文检索所有录像发言 [ [微博](http://www.weibo.com/5220650532/BmIenexms) ] - -> 2014-09-12 @容芳志: 每年Apple WWDC大会的keynote和课程文字版都在这里,整理的太好了,忍不住分享: http://t.cn/z8exsaz [ [微博](http://www.weibo.com/1776143133/BmCBXyoqs) ] - -2014-09-12 讨论得很热闹, github几十楼整理了相关资料: entity linking/extraction/resolution, relation extraction; 咱还时光逆流传送了几个去年相关微博到评论里,尤其是李志飞那条里有不少高人评论,千万别错过。有没有人讲讲 michael jordan 'full merger of "data" and "knowledge"' http://t.cn/RhMwimZ [ [微博](http://www.weibo.com/5220650532/BmEOb3aqm) ] - -> 2014-09-12 @好东西传送门: 代人请教: #语义识别包含哪些关键技术# ? 咱先推荐 @白硕SH 老师近日的访谈《语义技术探索》阐述了相关基本概念 http://t.cn/RvWEZdm 请各位专家帮忙梳理思路、推荐入门资料 @刘群MT-to-Death @刘知远THU @52nlp @孙明明_SmarterChina @昊奋 @波多野丽猪 我们会把相关资料更新到 http://t.cn/RhICLfS [ [微博](http://www.weibo.com/5220650532/BmBEvzLES) ] - -2014-09-12 一点拙见,计算机在一些领域已经做得比人好了;而人对自然语言处理期望更高一些, 图灵测试 和 人脸识别 哪个难度更大?顺路给个文字版传送门 http://t.cn/RhMZVIV //@xierqi: 没想到Jordan对text一直这么有兴趣。抛开Deep Learning不讲,当前计算机对text的理解能力是否比image、vision要好不少? [ [微博](http://www.weibo.com/5220650532/BmEHn5jwn) ] - -> 2014-09-11 @王海勋haixun: Someone asked Michael Jordan if he's to lead a research project with 1 billion dollar funding, what will he do? Here is his answer. [ [微博](http://www.weibo.com/2083726665/BmyEhvaCd) ] - -2014-09-12 这本书还没上市呢,还没有电子书。着急的同学可以先看Blake Masters 的笔记 http://t.cn/zYvtV0F Notes Essays—Peter Thiel’s CS183: Startup—Stanford, 2012 顺路科普一下 Peter Thiel, Paypal 的联合创始人,facebook的天使投资人 http://t.cn/RhMhPTs [ [微博](http://www.weibo.com/5220650532/BmEoXfLhN) ] - -> 2014-09-12 @好东西传送门: 推荐Peter Thiel新书《Zero to One: Notes on Startups, or How to Build the Future》(9月16日才出版) http://t.cn/RhMPClT 基于他2012年CS183课的讲义。有人预读后赞了他的三个观点: 创始人要追求垄断, 用破坏性创新参加市场竞争不如开发新市场, 对精益创业的反思。咱做了个脑图(水平有限,欢迎指正) [ [微博](http://www.weibo.com/5220650532/BmEmhug9C) ] - -2014-09-12 推荐Peter Thiel新书《Zero to One: Notes on Startups, or How to Build the Future》(9月16日才出版) http://t.cn/RhMPClT 基于他2012年CS183课的讲义。有人预读后赞了他的三个观点: 创始人要追求垄断, 用破坏性创新参加市场竞争不如开发新市场, 对精益创业的反思。咱做了个脑图(水平有限,欢迎指正) [ [微博](http://www.weibo.com/5220650532/BmEmhug9C) ] - -2014-09-12 问: @波多野丽猪 有没有人了解建立partial order lattice的算法? 应该是Formal Concept Analysis(FCA)的东西。我有一堆logical term set, 想要建立一个关于set subsumption的lattice 答: FCA很相关 http://t.cn/RhIE0Sy 推荐Poelmans等的综述(分析了一千多论文) 并参考association rule 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BmD42j7k0) ] - -2014-09-12 要专注、要市场驱动 “an eighth waste was... manufacturing goods or services that do not meet customer demand or specifications.” http://t.cn/RhIjiTc //@张颖峰: 我倒是觉得这本书更容易给一些没头脑的创业者以快速迭代为借口连续不断试错,最后反而忘了自己要做什么,从而导致更大的浪费。 [ [微博](http://www.weibo.com/5220650532/BmCsnmc20) ] - -> 2014-09-12 @好东西传送门: 从 #精益生产# 到 #精益创业# 《精益创业》是近年很火的创业手册, 其核心理念是:快速迭代,减少浪费,避免不必要的开发。作者Eric Ries的观点来自#工业工程#书籍。他吸收了丰田lean manufacturing的成功经验:用最少工作创造价值, 尽可能降低浪费 - 例如著名的零库存思想. 书单 http://t.cn/RhICRq5 [ [微博](http://www.weibo.com/5220650532/BmBK1rnHP) ] - -2014-09-12 从 #精益生产# 到 #精益创业# 《精益创业》是近年很火的创业手册, 其核心理念是:快速迭代,减少浪费,避免不必要的开发。作者Eric Ries的观点来自#工业工程#书籍。他吸收了丰田lean manufacturing的成功经验:用最少工作创造价值, 尽可能降低浪费 - 例如著名的零库存思想. 书单 http://t.cn/RhICRq5 [ [微博](http://www.weibo.com/5220650532/BmBK1rnHP) ] - -2014-09-12 代人请教: #语义识别包含哪些关键技术# ? 咱先推荐 @白硕SH 老师近日的访谈《语义技术探索》阐述了相关基本概念 http://t.cn/RvWEZdm 请各位专家帮忙梳理思路、推荐入门资料 @刘群MT-to-Death @刘知远THU @52nlp @孙明明_SmarterChina @昊奋 @波多野丽猪 我们会把相关资料更新到 http://t.cn/RhICLfS [ [微博](http://www.weibo.com/5220650532/BmBEvzLES) ] - -2014-09-12 问:求Morden Japanese Society Study资料文献, 最好economy相关 答:http://t.cn/RhIoU0o《菊与刀》(The Chrysanthemum and the Sword)和《纵式社会的人际关系》(タテ社会の人間関係)都是研究日本近代社会(自明治维新起)的经典著作。《A Short Economic History of Modern Japan》300+学术引用 [ [微博](http://www.weibo.com/5220650532/BmB8tzbaE) ] - -2014-09-12 [赞]补充《GPU高性能编程CUDA实战》豆瓣书评 http://t.cn/htUpV0 pdf网上有 [ [微博](http://www.weibo.com/5220650532/BmzhXfaOu) ] - -> 2014-09-12 @Rachel____Zhang: 感谢某童鞋推荐CUDA Application Design and Development,看了目录和开头一章,感觉和《GPU高性能编程CUDA实战》结合起来看会收获更快[嘻嘻]代码在这里http://t.cn/RhIt1JA [ [微博](http://www.weibo.com/2607574543/Bmz3lvXTZ) ] - -2014-09-11 谢谢指正,是我们理解有误。那四本也是博士级的,向大家道歉🙇 //@王树森CS: 同意右边。除了第1本,其余根本不是入门的,我不知道微博上的人有几个能看得懂而且会去看。发这个东西的人要么不懂,要么骗粉。//@梁斌penny: 书看了,再把试验做一遍,我估计怎么也得需要4-5年。 [ [微博](http://www.weibo.com/5220650532/BmvfRfWTw) ] - -> 2014-09-11 @好东西传送门: #机器学习# 大牛Michael Jordan教授(Andrew Ng的博士导师) 近日在Reddit上推荐的书单。以前的书单12本针对有志于在机器学习领域奉献青春的博士生,这次新推荐了4本覆盖基础概念图书,帮助工业界读者在几个月内理解概念然后出活 。书单看这里 http://t.cn/RhfxqAz 卡片盒子 http://t.cn/RhfxqA7 [ [微博](http://www.weibo.com/5220650532/BmtoM2jCK) ] - -2014-09-11 赞王益的博客 注意未公开的“Google Rephil"//@丕子: 嗯,王益之前一blog分析了这个: http://t.cn/RhfXqBu , 另外Google PLDA+有10K topics, Rephil有100K,Peacock有1000K topics..//@lib_ustc: 对,训练出来的topic中的概率主要还是集中在高频信息上,对长尾描述较弱//@丕子: 长尾信息丢失太多了 [ [微博](http://www.weibo.com/5220650532/BmuiNg9dC) ] - -> 2014-09-11 @大山坡的春: 今天Jimmy Lin表示他在twitter的时候把topic models都试过了,没有一个work的~然后说,我告诉你个只有ir圈子里的人才晓得的topic model的毛病。。。#强迫症都没救了 @仙人掌不浇水 @丕子 [ [微博](http://www.weibo.com/1653082237/Bmtr4a69Q) ] - -2014-09-11 [笔记]Michael Jordan论#深度学习# http://t.cn/RhfoAhi 1. layer,parallel,ensemble有用,不能限于模拟人脑思维 2. backpropagation是关键, 本质是supervised learning 3. 很多成功案例是大规模样本+监督学习 4. 很少用在工业界咨询,不少其它问题(7个例子) 5. 机器学习要接近system与数据库, 远离AI [ [微博](http://www.weibo.com/5220650532/BmtY3eXDx) ] - -2014-09-11 #机器学习# 大牛Michael Jordan教授(Andrew Ng的博士导师) 近日在Reddit上推荐的书单。以前的书单12本针对有志于在机器学习领域奉献青春的博士生,这次新推荐了4本覆盖基础概念图书,帮助工业界读者在几个月内理解概念然后出活 。书单看这里 http://t.cn/RhfxqAz 卡片盒子 http://t.cn/RhfxqA7 [ [微博](http://www.weibo.com/5220650532/BmtoM2jCK) ] - -2014-09-11 择日不如今日: Statistics With Ruby: Time Series and General Linear Models http://t.cn/RhffVQ3 问答166 http://t.cn/RhffVQu [ [微博](http://www.weibo.com/5220650532/Bmt9bsMDN) ] - -> 2014-09-11 @2gua: 其实,我一直希望哪一天能用Ruby进行数据分析,stats with Ruby......哪一天,哪一天......[doge] [ [微博](http://www.weibo.com/1609119537/Bmt7v95Fn) ] - -2014-09-11 问:@付超群 不知道有没有中文发音相似度计算算法或者类库?比如北京 百斤 鼻颈 背景 如果可以顺道比较英文更好,比如peking,beking 答: 关于算法和开源代码整理了一个 #脑图#,问答进展和相关资料在 http://t.cn/Rhf5xio 还收录了一些相关论文(含汉语) 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BmsMAeh0K) ] - -2014-09-11 #夜读春秋# GDP与汇率数据是经济、金融研究的基本盘! (数据资源整理: http://t.cn/RhVDKg5 ) 1.世界银行的全球各国GDP(1983-2013)http://t.cn/hFsNY 2. 美联储汇率数据(H.10): http://t.cn/RhVDKgq (1996-2014) 3. 那台北的GDP呢? http://t.cn/RhVgFWl ,http://t.cn/zOMb9mJ [ [微博](http://www.weibo.com/5220650532/Bmpx29PN5) ] - -2014-09-10 #NLP# 诸君,"城市规划" 领域词表来了, 还等什么呢? 数据传送门 http://t.cn/RhVVYBk 感谢 @国际城市规划 //@规划中国: //@国际城市规划: 编撰词典对我等难度太大,欢迎有缘人慢慢加入积累 http://t.cn/RhVcLWx //@城规田宝江: 好想法!//@中大袁媛: 可以出版一本专业英语的词典或教材 [ [微博](http://www.weibo.com/5220650532/Bmm8O31VG) ] - -2014-09-10 #机器学习# 领域大牛 Michael Jordan 是Andrew Ng的博士导师,擅长 recurrent neural networks , Bayesian nonparametric analysis, probabilistic graphical models, spectral methods, kernel machines 机会难得有问题赶紧上Reddit上问,http://t.cn/aOioBZ [ [微博](http://www.weibo.com/5220650532/Bmm3VbIR5) ] - -2014-09-10 问: @chico2011 @leo_lq 求推荐金融交易风险评估方面的文献 答: 资源列表 http://t.cn/RhVqWuZ 金融风险管理领域全局观参见 Financial Institutions Management: A Risk Management Approach (沃顿学院教科书)。量化评估方法(含风险价值 VaR)有2011年综述, 此外咱做了个VaR相关概念的脑图 请补充指正 [ [微博](http://www.weibo.com/5220650532/BmlXxt5hC) ] - -2014-09-10 张天雷 《概率编程语言与贝叶斯方法实践》 //@小猴机器人: 来,给个中文介绍哈, http://t.cn/RPwbEPz [ [微博](http://www.weibo.com/5220650532/BmkyPihT4) ] - -2014-09-10 加进列表了 pdf传送门 http://t.cn/RhcFi0l //@诸神善待民科组: 图是种方法Method,不是模型 Model,没说到 Bayesian Reasoning and Machine Learning 真是不开心,这比 Koller 的 PGM 好读,好处是图多,我就喜欢看图说话的小二班 [ [微博](http://www.weibo.com/5220650532/BmkxhgVMr) ] - -2014-09-10 [资料整理]《Bayesian network与python概率编程实战入门》http://t.cn/RhcnZrY 几个Bayesian network讲义 (其一来自Eric Xing老师的课 Probabilistic Graphical Models), python概率编程实战"Bayesian Methods for Hackers", pyMC短教程,博客系列比较python概率编程工具. 感谢 @王威廉 @西瓜大丸子汤 [ [微博](http://www.weibo.com/5220650532/BmjrJgeI2) ] - -2014-09-10 US News 全美大学排名数据集: 新鲜出炉2015年排名前150的综合大学(national university)和文理学院(national liberal art college) . 资源列表 http://t.cn/RhcYKC2 包括1983-2007, 2008, 2009, 2010, 2011-2015 数据,应该比较全了. 欢迎补充 [ [微博](http://www.weibo.com/5220650532/BmizVr1sS) ] - -2014-09-10 DBPedia 2014: 458万东西: 144万人, 73万地点, 41万作品(含12万音乐专辑, 8.7万电影,1.9万视频游戏), 24万组织(含5.8万公司,4.9万教育机构), 25万物种等 [ [微博](http://www.weibo.com/5220650532/BmizMhrjB) ] - -2014-09-09 http://t.cn/zOpIrjJ 中文语言资源联盟,英文译名Chinese Linguistic Data Consortium,缩写为CLDC, 有少数民族语言,方言数据 //@龙星镖局:有专门放入方言的nlp研究 吗?@白硕SH 老师 //@殆知阁:转发微博 [ [微博](http://www.weibo.com/5220650532/BmcCdeWno) ] - -2014-09-09 好东西 ,向 迷渡 justjavac (索引的作者)致敬! 顺路推荐一下他的另一个工作 "Google 全球 IP 地址库" , http://t.cn/RvabGv5 //@justjavac: 我说今天怎么收到好多私信呢,原来根源在这儿啊。//@CSDN_CODE:Mark! [ [微博](http://www.weibo.com/5220650532/BmcoO4bqA) ] - -2014-09-09 找到一组相关测试数据集(VAST challenge 2003-现在),基本上就是用户利用可视化工具,根据特定需要分析大规模业务数据,继而推理验证猜想。 例如分析预测恐怖袭击,发现金融犯罪嫌疑人,有一篇总结文章值得一读: http://t.cn/Rhtmw01 [ [微博](http://www.weibo.com/5220650532/BmbO4EuMd) ] - -2014-09-09 问: @海中的沙粒 点餐,我想要更多关于可视分析学的资料? 答: 可视分析学(Visual Analytics) 利用可视化方法支持对大规模复杂(科学)数据的人机协同分析推理。问答进展收录: 经典, 综述, 社区, 会议等资源 http://t.cn/Rht6xF8 看附图, 一分钟理解其定位、原理以及跨学科特性。 [ [微博](http://www.weibo.com/5220650532/BmbGkaI7Z) ] - -2014-09-09 问:@_绝影_ 求助 刚开始做图像融合相关领域研究,请问有哪些大牛? 答:进展 http://t.cn/RhqD63F 图像融合(Image Fusion)在计算机视觉(computer vision), 遥感(remote sensing)和医学图像(Medical Image)上都有应用,可追踪会议IPCV,ICIFE, 期刊IJCV 及综述。大牛欢迎专家传送 [ [微博](http://www.weibo.com/5220650532/Bm9jvfke6) ] - -2014-09-09 转发理由:开放政府数据。另外推荐RPI的 Linking Open Government Data,收录了1800多个数据集,100亿RDF三元组 http://t.cn/RhtMeAj [ [微博](http://www.weibo.com/5220650532/Bm8UryKa7) ] - -2014-09-09 #夜读春秋# 最近JWT(JSON Web Token,是一种基于JSON的认证安全协议)势头很火,这里找了一个48页的幻灯片,帮你快速了解这些概念的含义,并提供一定全局观 http://t.cn/Rht40uL 该作者(Brian Campbell)还有一个更新的幻灯片讲JWT和JOSE http://t.cn/Rht40uw [ [微博](http://www.weibo.com/5220650532/Bm6KQB6nM) ] - -2014-09-08 @phunter_lau 推荐了 Peter Norvig的regex生成器 http://t.cn/8FGNh2J http://t.cn/8FnLiON @孙明明_SmarterChina 推荐了Bartoli等基于遗传算法的实现 http://t.cn/zlmNYLJ @布尔乔亚之犬 推荐了SO上一个很好的讨论贴 http://t.cn/Rh5H2za [good] [ [微博](http://www.weibo.com/5220650532/Bm2SOaRyu) ] - -2014-09-08 黄昌宁 赵海 《中文分词十年回顾 》http://t.cn/Rh5Xe3S //@龙星镖局: 有个 中文分词十年 孙老师搜一下 [ [微博](http://www.weibo.com/5220650532/Bm1jmwaCk) ] - -2014-09-07 Tomas Mikolov http://t.cn/Rhq2QVU 很有意思。0.1c版更新等了近九个月,恐怕是跳槽耽误的。他今年5月从Google跳到Facebook, 工作之余还努力维护word2vec开源代码。爱看源代码的可以直接读diff http://t.cn/Rhq2QVZ [ [微博](http://www.weibo.com/5220650532/BlRmn38uo) ] - -2014-09-06 问: @V井颠V 对国内中长文章(300~5000字)近似新闻门户网站频道粒度的自动分类,有好的模型方法吗? 答: 进展 http://t.cn/RhGTzfI 考虑 statistical topic model, 推荐UIUC翟成祥 ( http://weibo.com/5220650532/BhWo26Y93 ) , Stanford 和Umass 都有软件包 国内工作欢迎补充 [ [微博](http://www.weibo.com/5220650532/BlMR9kjJ7) ] - -2014-09-06 感谢推荐,当然是好东西! //@尘绳聋-SYSU: 那个网站还有个R for big data: http://t.cn/zHXfTF1 之前看人推荐过biglm, bigrf等pkg//@尘绳聋-SYSU: [晕] 传说wiseRF比sklearn里的RF更scale更快,不知道是不是真的[威武] [ [微博](http://www.weibo.com/5220650532/BlMJyCoRe) ] - -2014-09-06 非常感谢,这本书是亚马逊的Computer Vision类畅销书第一名 卡片盒子添加了新链接 //@维尔茨:对于计算机视觉/图像强烈推荐Szeliski的Computer Vision: Algorithms and Applications。传送门:http://t.cn/RhbF7jr好东西传送门: 不好意思,你是找第二版吗? 可以问问 @没有我找不到的电子书 [ [微博](http://www.weibo.com/5220650532/BlIbspyg8) ] - -2014-09-06 回复@ustczen: 感谢传送好东西。这是新加坡国立 Min-Yen Kan (靳民彦) 教授 研究组的工作 http://t.cn/SwJHvL @52nlp 2011年转过他们短信捐赠请求 http://t.cn/RhbDbIV //@ustczen:回复@好东西传送门:所以我老年痴呆又犯了么。。附链接:http://t.cn/hrXXWz [ [微博](http://www.weibo.com/5220650532/BlHNqyCgt) ] - -2014-09-06 问:@龙星镖局 如果要从零学习图像或语音分析,要从那几本书开始? 答: 问答进展 http://t.cn/Rhbeix0 网络问答结果和相关课程大多推荐这几本经典老教科书:Digital Image Processing (3rd Edition) (2007), Speech and Language Processing, 2nd Edition (2008), 卡片盒子: http://t.cn/Rhbeixp [ [微博](http://www.weibo.com/5220650532/BlHHF1jr2) ] - -2014-09-06 [开放数据]印尼政府开放数据 data.ukp.go.id http://t.cn/Rhbrjfv 于2014-09-05上线,有700 多数据集。要使用数据恐怕先要能读懂印尼语(拼写属于拉丁语系,最早源于荷兰语)。此外,2014统计数据表明印尼有2.5亿人,是排名世界人口第四大国。 [ [微博](http://www.weibo.com/5220650532/BlHkREGAC) ] - -2014-09-06 监控页面变化的开源项目page-monitor 传送理由: github上的好东西,快800星了。 作者的博客也很有深度,而且竟然用issue tracker写博客,赞! 这是个例子 http://t.cn/8s35KgP [ [微博](http://www.weibo.com/5220650532/BlH9sz9H9) ] - -2014-09-06 问:@三鹿无毒奶粉 请问贵博关于航班准时预测和机票价格预测有那些相关的论文和模型 答:问答进展 http://t.cn/RhbBwy9 不少人用回归模型 航班准时预测(flight delay):有几篇MIT的文章;机票价格预测(ticket price): 有不少专利(发明人包括USC Craig Knoblock 教授) 卡片盒子 http://t.cn/RhbBwyK [ [微博](http://www.weibo.com/5220650532/BlH4Tc57x) ] - -2014-09-06 传送理由:右边的链接真是好东西 -- 不止配色工具,还有大量字体,图片、纹理,壁纸等众多素材资源网站一网打尽。 //@设定控: 配色工具网站汇总 http://t.cn/RPbMz7M [ [微博](http://www.weibo.com/5220650532/BlGYiyx88) ] - -2014-09-06 问: @ShawnAtLoss 请问哪边可以找到比较全面的关于大数据的survey 答: 问答进展: http://t.cn/Rhb1b0Z 推荐两类阅读:1 大数据领域地图,覆盖相关 技术,应用,公司 等 2. github好资源合集 http://t.cn/Rhb1b0w 1K+星,上百链接. 卡片盒子(现有6个资源): http://t.cn/Rhb1b0A 欢迎补充 [ [微博](http://www.weibo.com/5220650532/BlGU6teFP) ] - -2014-09-06 [推荐] 一张很好的脑图胜过千言万语,帮助你获得python的大数据处理工具全局观。http://t.cn/Rhb3P8I [ [微博](http://www.weibo.com/5220650532/BlGE7oFdz) ] - -2014-09-05 转发理由:非常酷的星系生死大片!本超星系团呈羽毛形状,因为有个巨大的吸引子(就是羽毛的中心),不断吞噬星系。这些“羽毛”的绒线就是星系赴死即将遵循的轨迹。在图中银河系只是微不足道的一个小点 [ [微博](http://www.weibo.com/5220650532/BlzOYbTRu) ] - -2014-09-05 //@ShangguanRPI: 在前东家也做过一样的数据分析,结论也几乎一致。用的数据集来自usps登记的过去10年所有地址更换记录,不确定census的数据是否也来自这个源。 [ [微博](http://www.weibo.com/5220650532/BlzHefKoa) ] - -2014-09-05 转发理由:世界基本经济数据的可视化,地图均给出了数据出处 [ [微博](http://www.weibo.com/5220650532/BlzmDai0F) ] - -2014-09-05 美国著名房地产公司trulia近日利用政府开放数据 http://t.cn/Rh4Htwl 分析了近年美国人口迁移的倾向:就近,房价低,人口密度小,低失业率 http://t.cn/Rh4HtwO [ [微博](http://www.weibo.com/5220650532/BlyKPBSIT) ] - -2014-09-05 http://t.cn/Rh4W25z 今年欧洲python大会的一个35页在线讲义幻灯片,用实例介绍如何用python实现概率编程,尤其是pymc3 阅读时间大约半小时 [ [微博](http://www.weibo.com/5220650532/Blyi3aVGF) ] - -2014-09-05 [问题求传送] 问:@开机就好ing 有没有比较好的Gbrank的相关的开源实现 答:就是 Zhaohui Zheng SIGIR '07 文章“A regression framework for learning ranking ...” 里提到的GBRank (guardian boosted) 问答进展看 http://t.cn/Rh4C8hd 初步好像有一个C++ 开源代码 http://t.cn/Rh4C8hg 欢迎补充 [ [微博](http://www.weibo.com/5220650532/BlxKpwU1D) ] - -2014-09-04 [资料整理] PDF版 http://t.cn/RhUOt6p 《智能问答系统:心得点评与文献列表》覆盖几个知名的问答系统:Halo (Aura); Siri;IBM Watson (DeepQA); True Knowledge;Facebook Graph Search 重点评论了知识图谱和语义web技术在自动智能问答系统中的应用与前景 [ [微博](http://www.weibo.com/5220650532/BlqyBe19Z) ] - -2014-09-04 旧闻回顾: Siri开发者成立人工智能公司Viv Labs (注意 网址是 viv.ai ), 花两年时间开发了能自动学习的智能个人助理系统Viv:将自然语言表达的复杂问题与搜索结合 相关Wired报导( http://t.cn/RhUtTwq 8月12日) 有微博原发评论 @网路冷眼 @新浪科技 (看 @张栋_机器学习 评论) http://t.cn/RhUtTw5 [ [微博](http://www.weibo.com/5220650532/BloN1gTeu) ] - -2014-09-04 问: @simba0626 请问现今有哪些成功的智能问答系统? 答: 问答进展 http://t.cn/RhUq00L 成功不好定义,基本用了知识图谱, 例如 IBM DeepQA (watson), wolfram alpha, Apple Siri, Google now。当然学术界也有一群人在做开放领域的图灵测试,如Eugen http://t.cn/RhUq00y 相关文献待会整理个资源合集 [ [微博](http://www.weibo.com/5220650532/BloyuzoCh) ] - -2014-09-03 回复@统计之都: 非常感谢 这可是今年7月新鲜出炉的文章,Gilles Louppe http://t.cn/RhyvpGz //@统计之都:Gilles Louppe的博士论文《随机森林:从理论到实践》,PDF下载地址http://t.cn/RP8JQyC。 [ [微博](http://www.weibo.com/5220650532/BlfvG3fm9) ] - -2014-09-03 问: @董伟_dzw259 哪里能够找到比较详细介绍随机森林的paper吗? 答: http://t.cn/RhLFi4R 随机森林(random forests)原作者之一 Leo Breiman 在“机器学习”2001年期刊有长文。推荐哥伦比亚大学教授Lauren Hannah的讲义。中文 @LeftNotEasy 2011年博文. 资料卡片: http://t.cn/RhLFzN1 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/Blfhkk0qI) ] - -2014-09-03 问:@子_相 求推荐一个PHP上的内存cache 的mod 答: http://t.cn/RhLeSxQ APC曾是首选(towser451@github 也推荐), 但php5.5用opcache作bytecode cache后, APC user data cache就被删改成APCu。@Laruence (APC, opcache的lead)2013博文指出APC效率问题,并因此开发YAC。卡片盒子: http://t.cn/RhLeSx8 [ [微博](http://www.weibo.com/5220650532/BleQ8wKSv) ] - -2014-09-03 在Neural Networks and Deep Learning第四章有对这个定理的可视化阐述,简洁易懂 http://t.cn/RhL8X74 该书我们以前在深度学习系列里也推荐过 http://t.cn/RhLmjtj [ [微博](http://www.weibo.com/5220650532/BlcZI7vdh) ] - -2014-09-01 转发理由:Larochelle是加拿大Université de Sherbrooke的教授。他是蒙特利尔大学Yoshua Bengio的博士,多伦多大学Geoffrey Hinton的博士后,师承深度学习的两大重镇 [ [微博](http://www.weibo.com/5220650532/BkVuU0EdN) ] - -2014-09-01 传送原因:用SQL访问Elasticsearch大大方便了查询构造。以前有类似项目ELSeQL, 但已很久没有更新了 @温少 @elasticsearch @Medcl [ [微博](http://www.weibo.com/5220650532/BkU1JcW8K) ] - -2014-08-31 传送理由:开源的推荐系统,从各种语言调用都方便 [ [微博](http://www.weibo.com/5220650532/BkOEij8Pb) ] - -2014-08-31 @Copper_PKU 的讲义前段时间推荐过,这个也很赞。 [ [微博](http://www.weibo.com/5220650532/BkOCelqIv) ] - -2014-08-31 传送问题,问答进展 http://t.cn/Rhw4h2m 看过YAC吗? http://t.cn/zYrnBVx [ [微博](http://www.weibo.com/5220650532/BkK3q8zJ6) ] - -2014-08-30 增补两个相关组织: @九章算法 的专业培训可(程序员的新东方)http://t.cn/RhwAzyN 。 @灵魂机器 组织的程序员北美求职 (肉身翻墙)http://t.cn/RhwAzyp len(卡片盒子)=8 [ [微博](http://www.weibo.com/5220650532/BkJlm0cyz) ] - -2014-08-30 半夜推荐 Leetcode 资源整理合集。 它目前有150道题,是程序员肉身翻墙的好东西,也适合快速提高自我修养。精选资料在我的卡片盒子里 http://t.cn/RhwwCGL 现在有6项: @灵魂机器 (Frank Dai) 的刷题宝典,若干人的涮题体验。这是一个会成长的卡片盒子,欢迎添加好东西。 [ [微博](http://www.weibo.com/5220650532/BkJheojHW) ] - - -2014-08-30 SAS base 今年KDnudgget数据分析常用工具民意调查( http://t.cn/RhZ0HjY )排名第9,而排名靠前的都有免费版。现在SAS推这个免费版,很好奇它明年的排名 //@刘政-SAS: 回复@侯广_充电ing:大学免费版跟我要,有base, graph, miner, or, 计量经济学和时间序列。//@侯广_充电ing:全国数学建模马上就要开始 [ [微博](http://www.weibo.com/5220650532/BkFytfb9v) ] - -2014-08-30 问: @小磊_DM_中二青年 在学搜索,请问有Nutch的相关资料吗? 答: nutch主要做网络爬虫,可以和solr结合做搜索引擎。问答进展: http://t.cn/RhZN72R (卡片盒子 http://t.cn/RhZN72E 6个资源): nutch 的中英文安装短教程(此外看Nutch wiki); nutch工作流程; 最近很火的CommonCrawl也转用nutch [ [微博](http://www.weibo.com/5220650532/BkFg8v2lw) ] - -2014-08-30 回复@icanswimwell: 美国的数据前几天才发过 http://t.cn/RhZJNoM (卡片盒子现有19项 http://t.cn/RhZJNox ) 美国政府在data.gov开放了十多万个免费、免版权的公开数据集 //@icanswimwell:感谢分享~~要有美国的就更好啦[挖鼻屎][挖鼻屎] [ [微博](http://www.weibo.com/5220650532/BkEg1kOpm) ] - -2014-08-30 回复@山雨清新: 原帖就是一个卡片盒子,链接可以在那里找到,现在已经16项了。同附链接 (200k book,1M rating)书籍 http://t.cn/RhZMPWc (10k movie, 10M rating)电影 http://t.cn/RhZMPWt //@山雨清新:请问新增补的两个评论数据集的链接? 找了下,没找到 //@好东西传送门:回复@好东西传送 [ [微博](http://www.weibo.com/5220650532/BkDZfdlu2) ] - -2014-08-30 回复@好东西传送门: 又增补了两个评论数据集: (10k movie, 10M rating)电影; (200k book,1M rating)书籍 //@好东西传送门:回复@海中的沙粒: 感谢提醒,这一次主要是针对该问题的资源整理,目前列表里原来有12项,现在有增补了CMU的ClueWeb2009网页数据集(10亿页),NIST TREC的测试数据 [ [微博](http://www.weibo.com/5220650532/BkDzbsk24) ] - -2014-08-30 [资料整理] @鱼片的小露宝 我正在学习hadoop,我想知道从哪里可以获取一些原始数据样本(就好像hadoop权威指南里面所说的NCDC的气象数据日志)来做数据分析的练习? 答: 一些大数据与目录: http://t.cn/RhZqcq9 气象遥感数据因有图片通常比较大;政府数据包罗万象;(社交)网络数据边多。 [ [微博](http://www.weibo.com/5220650532/BkD1Yu1WE) ] - -2014-08-30 [数据资源] 日本政治、经济、地理数据大全(免费,可下载)http://t.cn/RhZb561 日本开放政府数据网站测试版(www.data.gov.jp)于2014年发布,现有来自21个政府部门的10,411个数据集。 其他数据源:历年人口、工业、经济普查数据; 政府预算数据; 地理信息数据;1947-2003议会选举数据 等 [ [微博](http://www.weibo.com/5220650532/BkCwfoJ0Y) ] - -2014-08-29 [好文略读|机器学习] Big data opportunities and challenges: Discussions from data analytics perspectives (综述,@南大周志华 等著)http://t.cn/Rh7IH66 感谢推荐人 @刘知远THU @RAYMOND__WU 等 [ [微博](http://www.weibo.com/5220650532/BkuQ30GSA) ] - -2014-08-29 Google2014 KDD 的文章,讲他们自动知识图谱提取项目Knowledge Vault的最新进展,比较了人肉众包生成的知识图谱(dbpedia, freebase,...): http://t.cn/RhhjLVe Knowledge Vault: A Web-Scale Approach to Probabilistic Knowledge Fusion [ [微博](http://www.weibo.com/5220650532/Bkt39dyDU) ] - -2014-08-28 问: @钱知易: 能不能帮我找找大规模图像检索方面的资料以及这个领域的牛人(国内国外)? 答: 初步结果:http://t.cn/RPe5HBt 中科大 杨晓冬有一个很全面的计算机视觉领域资料整理。兰晓松 在科学网上著有专家列表,2014年9月自动化所有一个“计算机视觉前沿研讨会” ,列举了许多国内著名专家 [ [微博](http://www.weibo.com/5220650532/BklQZALi7) ] - -2014-08-28 问: @Don0719 有没有做正电子无损检测的大佬或者相关的书籍、文献啊? 答: 欢迎材料学问题。 问答进展看这里 http://t.cn/RPsI3yE 推荐R. Krause Rehberg 2010年的幻灯片。正电子湮没研究论文很多,还有专门国际会议。无损检测相关找到6篇。欢迎专家补充指正。 [ [微博](http://www.weibo.com/5220650532/BklhZul43) ] - -2014-08-27 问:@月光馆果果妈 请问从语音和视频资源共同进行学习的算法谁比较有研究啊 答: 深度学习是当前趋势(斯坦福,微软,谷歌都这样)。专家 Andrew Ng, Geoffrey Hinton, Li Deng, Louis-Philippe Morency, Ruslan Salakhutdinov, 微博技术控:@言语挖挖 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BkdhGpY4d) ] - -2014-08-27 传送一个关于学术笑话: 论文评审分两类,一种呢是评审截止日期早就过了,另一种是还没过期的。“There are two types of manuscript reviews. Those that are overdue, and those that are not overdue yet.” 如果看数据分布的话,估计最常见的是“明天就是评审截止日了,咋一篇都没审呢?” [ [微博](http://www.weibo.com/5220650532/BkctZ33Iu) ] - -2014-08-27 非常感谢 @董力at北航 他本科时候做的一个KDD2012demo http://t.cn/RPDwF8S (情感细分为厌恶、愤怒、高兴、悲伤四类 )很好玩,分析各省人民的情绪彼岸花,小心地图炮呦?能下载数据。 此外他以前还推荐过 http://t.cn/Sc68lv Sentiment Symposium Tutorial [ [微博](http://www.weibo.com/5220650532/Bkco7lkJU) ] - -2014-08-27 非常感谢 @posa88 推荐 lingpipe的影评数据(基于IMDB)由康奈尔的 Lillian Lee 和 Bo Pang 提供 //@posa88:大连理工这个库用过,还行:http://t.cn/RPesat2 ,http://t.cn/bln2a [ [微博](http://www.weibo.com/5220650532/BkcgExrKL) ] - -2014-08-27 问: @蒋宁平 求推荐中文情感计算资源,包括中文情感词库,尤其是细分情感种类的(比如喜爱,愤怒,悲伤…等)。 答:问答进展:http://t.cn/RPeutqb 初步答案:斯坦福有公开课和基于深度学习的成果。知乎有资源列表。刘兵教授有综述。数据看 NTUSD, 知网。微博问 @TT小和子 @黠之大者 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BkbzO54pR) ] - -2014-08-27 回复@DataMooc: 有相关问答,整理中,参见 http://t.cn/RPmIw2I //@DataMooc:有没有Python版的中文分词开源工具? //@好东西传送门:搭车再次推荐ansj, 孙健写的很有用的中文分词工具。http://weibo.com/5220650532/Bh9WGeljD //@ansj: 应该不是[衰] //@好东西传送门:@夏二货爱吃 [ [微博](http://www.weibo.com/5220650532/Bkb1stYmh) ] - -2014-08-27 搭车再次推荐ansj, 孙健写的很有用的中文分词工具。http://weibo.com/5220650532/Bh9WGeljD //@ansj: 应该不是[衰] //@好东西传送门:@夏二货爱吃胡萝卜: 万恶的微软官网居然用自动翻译!是孙剑 //@夏二货爱吃胡萝卜:@图像视觉研究:的确是说错了。是孙剑。 //@严浩RB:这个孙健是写ansj的那个吗? [ [微博](http://www.weibo.com/5220650532/Bk8kLotLu) ] - -2014-08-26 问:@pkuxkxjason 求推荐靠谱的自动摘要软件/服务。特别是针对科技类内容的。答: 问题进展 http://t.cn/RPg0Dkn 两个quora回答但实用工具可靠性低。还要请 @算文解字 指点迷津,他说过 “单文档summerization不是被snippet判死刑了么?” 找到相关文章 http://t.cn/RPg0DkH [ [微博](http://www.weibo.com/5220650532/Bk4hHahVS) ] - -2014-08-26 问答进展:http://t.cn/RPgpH65 有不少IEEE Fellow, 华人还有 UIUC马毅(现在上海) 微软亚洲研究院:孙健 。到CVPR, ICCV上多看看能找到不少当打的大小牛 [ [微博](http://www.weibo.com/5220650532/Bk4aUlKJi) ] - -2014-08-26 问: @杨洋MQ Social Network 中 Spammer Detection 方面 都有哪些 中文、英文的数据集?答: 初步回答:http://t.cn/RPgtKAl 公开的大多是email,中文较老有2006 TREC , 2005 CCERT;英文有Twitter数据集和Spammer列表。近年未公开:Berkeley, ASU有Twitter研究; 国内要联系上交大。求更多链接 [ [微博](http://www.weibo.com/5220650532/Bk2BaFaY2) ] - -2014-08-25 //@昊奋: 这个之前通过@好东西传送门 介绍知识图谱时,介绍过这个probabilistic kb。其实离真正大规模可用还有很长路要走。所谓的可信大部分可在freebase中找到,也就是说freebase的质量和规模决定了很多 [ [微博](http://www.weibo.com/5220650532/BjVr9tH7z) ] - -2014-08-25 //@velvel2: 1)首位华人AAAI fellow杨强博士研究转移学习很多年了。多任务学习是其中一种 http://t.cn/aepeZn 2)Bengio的深度学习新书有一章也是关于转移学习和多任务学习的 http://t.cn/RPdxFds [ [微博](http://www.weibo.com/5220650532/BjVr0j8uQ) ] - -2014-08-24 回复@phunter_lau: 感谢有爱心的专家 传送理由: 面试官的面经 //@phunter_lau:回复@好东西传送门:复制粘贴一下“我都是国外面经,都是谈谈你之前做过啥,你就做过啥讲了就行了。我们一般不测试面试人什么问题,默认他简历上说的都是真实的,然后拿几个实际问题看看他的看法和解决方向如何就基本上知道 [ [微博](http://www.weibo.com/5220650532/BjLGK2IJe) ] - -2014-08-24 问: @尘绳聋-SYSU 大大ML面经来一发?急需 答:假设需要的是软件工程师求职,寻找机器学习(machine learning)面经。建议多看题,把自己的知识强化。很多问答系统都有常见面试问题列表, 初步有 reddit, stackoverflow, quora, 知乎 等。问答进展: http://t.cn/RPB1Sxf 欢迎补充指正,尤其是具体面经 [ [微博](http://www.weibo.com/5220650532/BjLqu8Kw0) ] - -2014-08-24 回复@AixinSG: 多谢补充,NUS 在这方面做的很不错,链接传送 http://t.cn/RPB3zgO 还有一篇相关的是 Addressing cold-start in app recommendation: latent user models constructed from twitter followers //@AixinSG:SIGIR14 有一篇 New and Improved: Modeling Versions to Improve App Recom [ [微博](http://www.weibo.com/5220650532/BjLil85H7) ] - -2014-08-24 问: @应豪超 :有关于手机app推荐的文章吗 答: 就是找论文,关键词 Recommender Systems that Suggest Mobile Applications 。 初步结果 找到一个2011年移动推荐讨论班的幻灯片(领域综述),一篇IUI2013 (列举feature), 一篇SIGIR 2013, 还有若干相关, 问答进展: http://t.cn/RPBuvdZ 欢迎指正补充 [ [微博](http://www.weibo.com/5220650532/BjLc4frgA) ] - -2014-08-24 传送理由:清晰的解题思路。补充一下,Haijie Gu 是GraphLab的联合创始人,现在CMU读博士。GraphLab 2013年融资6百多万美元。 (原文格式更好看一些,http://t.cn/RPBR5pm) [ [微博](http://www.weibo.com/5220650532/BjKQej5rE) ] - -2014-08-24 转发理由: 你懂的 //@何_登成: //@传媒老跟班:@设定控 做过一个谷歌专题 http://t.cn/RvnDzSG ,提供了多种访问谷歌的方式,大家可以看看。尤其推荐其中提到的#美国在线# http://t.cn/hVO8E ,该站搜索结果就是谷歌的结果,速度很快。 [ [微博](http://www.weibo.com/5220650532/BjKjCjeBa) ] - -2014-08-24 回复@MD_1stUP锐之翼: 全是野生的,所有物种活动活动观察记录网上都有,这是一条荷兰阿姆斯特丹的观察记录: http://t.cn/RPB5AWt 超市里只卖养殖的,野生的恐怕只能依律就地销毁 //@MD_1stUP锐之翼:是入侵华人超市吧[哼] [ [微博](http://www.weibo.com/5220650532/BjHn5uCyE) ] - -2014-08-24 问: @十月伤感wb 可否推荐些基于社交网络的推荐算法的资料,以及数据集,特别是数据集的下载地址谢谢了做推荐的很多都需要 答: [初步传送] 关于数据集: 斯坦福大规模网络数据集大全 (SNAP) http://t.cn/RPBqrcJ 关于推荐系统:看这里 http://t.cn/RPBqrci 问答进展: http://t.cn/RPBqrc6 求指点 [ [微博](http://www.weibo.com/5220650532/BjHkmuGpo) ] - -2014-08-24 @斯库里 传送理由:为广泛传播的社交媒体消息提供严谨的科学依据 http://weibo.com/1820578701/Be7W6AouY [ [微博](http://www.weibo.com/5220650532/BjHe7o3sj) ] - -2014-08-24 大闸蟹来了。近年来全国满街都是阳澄湖大闸蟹的招牌,可你知道吗,大闸蟹也正在入侵欧美呢! 早上查了全球生物多样性信息库(GBIF, 5亿条带GPS定位的物种活动记录), Eriocheir sinensis (Chinese mitten crab)找到3400+记录: 分布在欧洲沿海,北美东部与五大湖区。当然, 阳澄湖不算 http://t.cn/RPBGJ8y [ [微博](http://www.weibo.com/5220650532/BjH4ksrJq) ] - -2014-08-24 网站上的数据早已分门别类整理好了,生物学者都可以直接查询使用。待会整个关于大闸蟹的 //@珏黛佳人GenderIT: WOW //@玛酷嘟纳噜多昕之张: 怎麼處理這些數據..? //@黠之大者://@浙大陈为: //@好东西传送门: 在论文后面的507,825,517 (5亿) 条免费开放的带GPS坐标的全球物种观察记录才是关键 [ [微博](http://www.weibo.com/5220650532/BjGVc2pNI) ] - -2014-08-23 说起松鼠,就想起著名的 @科学松鼠会 这里的松鼠其实只是一个引子,在论文后面的507,825,517 (5亿) 条免费开放的带GPS坐标的全球物种观察记录才是关键,用到数据的800篇论文证明了数据的重要价值,值得传播 //@Coder_Chenzhi: 还是红松鼠好看,一直对云大的灰松鼠无感,总感觉灰松鼠的尾巴像锅刷。。 [ [微博](http://www.weibo.com/5220650532/BjBpWuJFO) ] - -2014-08-23 问:@七哥爱吃山楂片 能帮忙收集一下,国内外机器学习领域大牛的主页吗? 答:这是一个不完整的名单,仅限于美国 http://t.cn/RP1Pp3s (资料卡片:http://t.cn/RP1Pp1v )有不少资深院士级大拿,也有冉冉升起的助理教授。一家之言,欢迎补充指正。 图推中国教授 [ [微博](http://www.weibo.com/5220650532/Bjzxm9LTz) ] - -2014-08-23 可爱的灰松鼠竟然是入侵者, 占领了土著红松鼠的家园!如何估测外来物种与土著物种的分布范围呢?全球生物多样性信息库(GBIF)已为1百多万物种建立了5亿条活动记录, 此开放数据被800余专业论文使用。某论文用大量松鼠活动记录, 分析出气候因素与分布范围的相关性。GBIF资料: http://t.cn/RP3FuVI [ [微博](http://www.weibo.com/5220650532/BjzcTAdjn) ] - -2014-08-22 问: @蓝莲斯基:有没有关于uplift建模的资料? 最好先是具体案例,然后是论文讲解,希望能看到近来综述总结的论文 答:增量建模(uplift)可用来寻找“可说服”的人群,属于市场推广。找到 一些关于美国的银行的用例,还有保险业中的应用论文。初步问答进展 http://t.cn/RP3A4IC ,欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/Bjtl15SUk) ] - -2014-08-22 问: @AOzil 计算广告学的基本问题,如何以最小的代价,去评估一个媒体或是交易所的流量是否有价值?现在做法是各种投放,发现成本较高。 答: riverliu81 "以最小的代价去评估一个广告渠道为投放者带来的价值", copy成熟竞争对手; 小成本投放, 比较转化率; 电子邮件为王。问答进展 http://t.cn/RP3wGuN [ [微博](http://www.weibo.com/5220650532/BjtgulxuW) ] - -2014-08-22 [资料整理] 分段线性模型资料与软件 -- 入门篇 http://t.cn/RP3zJLu (cardbox http://t.cn/RP3zJL1 两个基本教程,一个进阶教程;各种编程语言的例子Mathematica, SAS, Matlab, R, python, RapidMinder 关键词: Piecewise linear regression 贡献者: @视觉动物晴木明川 @heavenfireray @禅系一之花 [ [微博](http://www.weibo.com/5220650532/Bjt7Oy7lt) ] - -2014-08-22 基于维基百科的统计:用一张地图把各国家/地区同与其相关的英文单词关联起来 http://t.cn/RPuKQqo 中国是dynasty和china。有好几个国家都是“World”: 英国,法国、德国还有日本。 越南倒是和French连上了,很有喜感。 [ [微博](http://www.weibo.com/5220650532/BjqGFkQTm) ] - -2014-08-21 [求传送] @isnowfy 问一下有没有免费的能用的中文的分词,标注,树库的数据呢,好多数据一个是不能免费获取,做为爱好者不知道哪里能得到数据自己来搞搞呢。初步线索:分词参@ansj 的推荐 http://t.cn/RPmMfFk 和@刘邵博 的词库 http://t.cn/RPmMfFD 免费中文树库求推荐 [ [微博](http://www.weibo.com/5220650532/BjjvY9yPu) ] - -2014-08-21 小知识:电影海报里最常用的颜色是橙色和蓝色 。MoviePosterDB里有最全的电影海报数据库 http://t.cn/hqtlge 想想拿它能做什么有趣的应用吧? [ [微博](http://www.weibo.com/5220650532/BjiJE9Nku) ] - -2014-08-21 问:@chico2011 @leo_lq 求推荐金融交易风险评估方面的paper 答: 找到 Financial Engineering and Risk Management Part I (Columbia University on Coursera),但风险评估相关的只简单的介绍了一下VaR。还找到bitcoin和real estate相关论文 问答进展: http://t.cn/RPn8foN 求进一步传送 [ [微博](http://www.weibo.com/5220650532/BjgMzsOJi) ] - -2014-08-21 [资源整理] MultiTask Learning资源合集 http://t.cn/RPnTjps 2014KDD最佳博士论文提名, WSDM2014最佳论文, 及与深度学习的结合。传送来自微博的优秀中文评论 @唐小sin @王威廉 @黄厝海滨 @李航博士 @李沐M@Copper_PKU @复旦李斌 @eeyangc @李晗littlefool @李亚超NLP @lby9 http://t.cn/RPnTj0v [ [微博](http://www.weibo.com/5220650532/Bjgysd9gF) ] - -2014-08-21 [资源整理]MultiTask Learning 资源合集。传送:#SIGKDD#2014最佳博士论文提名,#WSDM2014# 最佳论文,#ICML#2008 经典论文,以及如何与深度学习的结合。并传送大量优秀中文评论 @唐小sin @王威廉 @黄厝海滨 @李航博士 @李沐M@Copper_PKU @复旦李斌 @eeyangc @李晗littlefool @李亚超NLP @lby9 [ [微博](http://www.weibo.com/5220650532/BjgwRvPbW) ] - -2014-08-21 问:@理想主义de患者 有没有音视频流媒体方面的资料啊? 例如g729, g726 答:找到博达(broadcom)的对比贴(Codec Comparision) 问答进展: http://t.cn/RPnYhXO ....... 传送第一站完成,求大家帮忙继续传送,门也会继续帮助把问题澄清。 [ [微博](http://www.weibo.com/5220650532/Bjgoro55J) ] - -2014-08-21 问: (微信用户) 谁能推荐一个免费的网上会议系统(国内也能连的)? webex什么都要收费 答: 朋友推荐: uberconference, freeconferencecall,Moxtra。hackernews 推荐五个。看看开源 BigBlueButton http://t.cn/RPnWKl6。此外 bluejeans视频会议很牛但很贵。问答记录:http://t.cn/RPnWKlX 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/Bjg6j2sTY) ] - -2014-08-20 问: @sxhfut 能否推荐一下英文论文的学术不端检测系统或网站,免费的或者收费的靠谱的 答: 关键词Plagiarism, 初步答案与进展: http://t.cn/RPn5uwR Turnitin收费,有很多学校用户; Viper 有免费windows单机版; Plagium 免费在线不限长度, 上了两个排行榜,可以同时用几个交叉检测。欢迎补充指正。 [ [微博](http://www.weibo.com/5220650532/Bjdaxhu6s) ] - -2014-08-20 http://t.cn/RPEIus6 "Brewing Deep Networks With Caffe" 补一个他前段时间在CVPR关于Caffe的讲座 //@我爱机器学习: Caffe作者,学习 [ [微博](http://www.weibo.com/5220650532/Bj90I5mWA) ] - -2014-08-20 图片一向是知识产权斗争中的一个重要领域,英国的GettyImage 提供免费图片引用服务 http://t.cn/RPELwwS "You can embed a Getty Images photo on a website, social media site or blog for free and without having to buy a licence, as long as the photo is not used for commercial purposes" [ [微博](http://www.weibo.com/5220650532/Bj88Q5yfS) ] - -2014-08-20 谢谢补充 The repository has been designed in 2009 by Reza Zafarani and Huan Liu. Huan Liu 是ASU的资深教授,各种院士 AAAI, ACM (Distinguished Scientist), AAAS, ASEE, IEEE (Fellow), SIAM; http://t.cn/zHsb5qk 回复 @唐小sin:http://t.cn/zjBLh8P ASU的一些数据,貌似还有豆瓣的 //@好东西 [ [微博](http://www.weibo.com/5220650532/Bj819a13Z) ] - -2014-08-20 这是一个学术讨论贴,@郑梓豪爱文艺 在这里 http://t.cn/RPRegxF 更详细地描述了他遇到的研究问题,和初步想法,很希望能得到指点,并且与同学们讨论研究。先代他谢过了。 [ [微博](http://www.weibo.com/5220650532/Bj7IFeAHf) ] - -2014-08-20 回复@CodeColorist: 非常感谢,这个数据集非常好 http://t.cn/RPEhoMR “Collection and sharing of data for scientific analysis of Internet traffic, topology, routing, performance, and security-related events” 适合科研 //@CodeColorist:这个项目里自治系统(ASN)的数据是20 [ [微博](http://www.weibo.com/5220650532/Bj7HbCJiI) ] - -2014-08-20 问: @andeguangshaqianwanjian 传送门啊,有python做神经网络(时间序列预测方面)的资料没 答: 准备一些入门知识 http://t.cn/RPRFdBG 基于神经网络的方案:试试Pandas; Github上有 theano-rnn 开源演示; 常规python时间序列分析 可以用scikit timeseries; 此外还有一些背景知识供你参考。 [ [微博](http://www.weibo.com/5220650532/Bj7qMhxSx) ] - -2014-08-20 [求指点] @郑梓豪爱文艺 网络媒体上发现热门话题的方法,如何在一个小「话题」,比如「机器学习」中发现新动态。 我想改进现有的热度函数heat算法,例如采用新参数(讨论者属性的混乱程度), 或分析用户行为在时间轴上的异常分布。 问题进展: http://t.cn/RPRegxF 找到的一些相关文献, 但都比较旧 [ [微博](http://www.weibo.com/5220650532/Bj7aZ0hZj) ] - -2014-08-20 斯坦福大规模网络数据集大全(Stanford Large Network Dataset Collection, SNAP) http://t.cn/RPRgvZQ 由斯坦福教授Jure Leskovec整理。免费,清理过,可下载。十多种不同类型的网络数据集(社交;在线社区;电子邮件;引用;Web, ...)。 Friendster数据集有6千5百万节点,18亿条边。 [ [微博](http://www.weibo.com/5220650532/Bj6Zvszak) ] - -2014-08-20 [资源整理] 提高网站页面响应速度的解决方案 http://t.cn/RPRrPLn : 最简单用DNS A-Record, 反向代理及负载均衡 可以先考虑ngix, 进一步可用proxy分流 感谢贡献者: mahak(github), @BUPTGuo , @情非得已小屋, @新世界_玉兔 , @52cs [ [微博](http://www.weibo.com/5220650532/Bj6Lajkko) ] - -2014-08-20 [推荐] Google研究员贾扬清 @fs_Yangqing 分享GoogLeNet在2014大规模视觉识别挑战赛的经验(Large Scale Visual Recognition Challenge 2014)。"个人觉得,更有意思的是 how to get the number 而不是 what the number is。我从classification和detection两个track分别聊一下" http://t.cn/RPR1pLX [ [微博](http://www.weibo.com/5220650532/Bj6zoraCR) ] - -2014-08-20 [续求助] 问: @杜威Dewey 比较 nextenta、nutanix? 答: 讨论与进展 http://t.cn/RPRunNs 有一篇不错的谷歌话题热度分析: http://t.cn/RPR3wtD 1.nutanix 与nextenta分类不同, 前者是 Boxed Storage, 后者是 Software-only Storage; 2.nutanix在增长,也有很多对手, nextenta 在下降, 仍占绝对优势 [ [微博](http://www.weibo.com/5220650532/Bj6ntaatp) ] - -2014-08-20 [求助] 问: @杜威Dewey 互联网应用的分布式数据库存储使用网络存储有什么好方案吗?相对于昂贵的FC-SAN,性能一般的NAS,IP-SAN是不是比较好的选择。Nexenta、OpenFiler这些开源软件能上生产环境吗?有人说nextenta不合适用于互联网架构,说nutanix不错, 怎么看? 讨论与进展: http://t.cn/RPRunNs [ [微博](http://www.weibo.com/5220650532/Bj6kAEAn4) ] - -2014-08-20 [知识]"星系动物园"(GalaxyZoo, http://t.cn/RPRnHTO )是邀请公众协助在网络上为上百万个星系在线上进行分类的天文学计划。2007年上线, 第一版两年分类了90万星系,免费数据下载 http://t.cn/RPRnHTl ; 2014 Kaggle Galaxy Zoo challenge头名用深度学习自动分类(RMSE 0.07467) http://t.cn/RPRnHTW [ [微博](http://www.weibo.com/5220650532/Bj60Vsc3k) ] - -2014-08-20 罗马帝国的40张地图 http://t.cn/RPRnTsJ 罗马的兴起,罗马的对外战争,罗马内战,罗马与中国和印度的贸易,罗马的衰落与遗产,尽在图中。 [ [微博](http://www.weibo.com/5220650532/Bj60OmI1b) ] - -2014-08-20 原来GIF小动画也这么有用又好玩,果然是数据结构入门利器。 里面的例子里给的代码不熟悉,貌似伪码。 [ [微博](http://www.weibo.com/5220650532/Bj5wH9EYO) ] - -2014-08-20 http://t.cn/RPRHgdY 补充树木计划链接 [good]//@复旦大学星空讲坛: 几天前星空还转过港中大的树木计划,希望旦旦也可以有自己的植物库[可怜] [ [微博](http://www.weibo.com/5220650532/Bj5fV5r3d) ] - -2014-08-19 生物百科全书 Encyclopedia of Life(EOL) 是一个免费在线全球物种档案馆。它自2008年上线就涵盖了3万物种,到2011年九月已经达到70万物种, 目标是在10年内为1百90万余已知的物种建立档案。http://t.cn/RP8mYWn @陆浑戎 推荐的《中国植物志》在线版、台湾生命大百科 都可以算是全球EOL联盟的一部分 [ [微博](http://www.weibo.com/5220650532/Bj16laqQn) ] - -2014-08-19 问: @jimmy_000 卷积神经网络CNN的“卷积”是一个什么样的过程? 它是怎样将图像的编码从像素level 上升到NxN区块的 答: 初步答案 http://t.cn/RP8QjNH 看看Andrew Ng 写的短教程Convolutional Neural Network, 中文有bzjia的Deep Learning学习随记。@赵家平USC 讲了不少深度学习在图像处理的前沿成果 [ [微博](http://www.weibo.com/5220650532/Bj0JM11rm) ] - -2014-08-19 [资料整理] 深度学习在语音识别的应用,入门篇: http://t.cn/RP8ll1s 向 @李开复 在CMU做的Sphinx(1988)致敬。介绍几个牛人和顶级团队: 微软 (邓力 Li Deng )和谷歌 (Vincent Vanhoucke, Geoffrey E. Hinton)。 [ [微博](http://www.weibo.com/5220650532/Bj0jOqW9v) ] - -2014-08-19 [资源整理] 不平衡数据分类(Imbalanced data classification): http://t.cn/RP8NM2s 经典文献 MetaCost (Domingo, 1999), SMOTE(2002 Chawla), 以及2004 CMU Yanjun Qi 的综述(现UVA教授);工具与数据集(WEKA,NLTK), GITHUB SMOTE的实现。感谢 @AixinSG @刘知远THU @xierqi @eacl_newsmth [ [微博](http://www.weibo.com/5220650532/BiZQEloKK) ] - -2014-08-19 问: @唐小sin 有没有multi-task learning的相关学习资料呢? 答: 维基百科上有不少经典文献。AAAI和ICML都有论文(北大/清华)。找到今年Honglak Lee (U Michigan 教授)的短教程。Lan Žagar 博士论文(2014) Ranking by Multitask Learning. 问答追踪: http://t.cn/RP8a3Ax 求补充 [ [微博](http://www.weibo.com/5220650532/BiZl47k80) ] - -2014-08-19 [资源整理 ] 中文词汇语义相似度计算方法与工具 http://t.cn/RP8IYvH 包括:python gensim,word2vector, GloVe, Explicit Semantic Analysis 资料卡片: http://t.cn/RP8IYvT 感谢 @杜振东_java @刘知远THU @昊奋 @算文解字 @Mr_UnderWaterrrrrr @朱鉴 @西瓜大丸子汤 @董力at北航 @尘绳聋-SYSU [ [微博](http://www.weibo.com/5220650532/BiYH4E1Gw) ] - -2014-08-18 搭车推荐 @赵家平USC 的微博 "Sebastian Seung 用CNN重建了老鼠视网膜里的plexiform layer;UCI的学者在nature上撰文说DL用于发现 希格斯玻色子"; Jeff Hinton组deep CNN(CovNets)在ImageNet; Fei-Fei组的 video classification with CNN 看问答进展:http://t.cn/RPQxZNF [ [微博](http://www.weibo.com/5220650532/BiUmllrLL) ] - -2014-08-18 非常感谢,身边的图像拼接/全景图应用:谷歌街景, iphone拍照, 汽车摄像头//@图像视觉研究: Lowe的Automatic Panoramic Image Stitching using Invariant Features绝对经典,OpenCV的拼接就是基于这个框架。另外沈向洋的Construction of Panoramic Image Mosaics with Global and Local Alignment也经典 [ [微博](http://www.weibo.com/5220650532/BiU6AsAmL) ] - -2014-08-18 问: @思考中的芦苇 有没有视频图像配准相关的资料呢?比如说卫星拍了一段地面上的遥感视频,如何从这段视频中提取出许多帧图像,然后进行图像配准,组成一幅地图呢? 答: 关键词Image Alignment and Stitching, remote sensing, 问答进展见http://t.cn/RPQ63GQ 求交流指点 [ [微博](http://www.weibo.com/5220650532/BiRyc2QGH) ] - -2014-08-18 阶段小结: 感谢热心专家 @唐小sin @善良的右行 推荐的好东西, 现在问答追踪 ( http://t.cn/RPQXlim )里已经有十几条相关文献了. 整理了一个总结, http://t.cn/RPQXliQ 看看行不行,欢迎参与编辑 [ [微博](http://www.weibo.com/5220650532/BiRkGCx0v) ] - -2014-08-18 回复@善良的右行: 这几个推荐文章都很好呀,第一篇引用率都快400了. 要不是了解领域,谁能想到这个关键词呢, influential spreaders . //@善良的右行:@好东西传送门 惭愧,我也是菜鸟,当然很乐意共享:Identification of influentialspreaders in complex networks;Leaders in Social Networks, the De [ [微博](http://www.weibo.com/5220650532/BiRevEmzM) ] - -2014-08-18 回复@唐小sin: 这篇文章很不错哦, 还对比了TunkRank, Topic-sensitive PageRank (TSPR) //@唐小sin:任何influence的文章都可以哪来读读,而至于意见领袖不妨看看twitterrank [ [微博](http://www.weibo.com/5220650532/BiRagmjE9) ] - -2014-08-18 发现重要节点一直是社交网络研究的重要问题, 研究热点大约在2007~2010社交媒体蓬勃发展的时候, 2014年已经有influential user identification的综述了.鉴于这类研究的算法并不困难,但数据量较大且较难获得,研究前沿已经逐渐从学术界转移到工业界/创业应用。http://t.cn/RPQfWRW [ [微博](http://www.weibo.com/5220650532/BiR72BfHw) ] - -2014-08-18 感谢指正, 能不能推荐几个好东西, 咱也找找 social network analysis 的文献 回复@善良的右行: 这几篇论文略旧……当然引用率是不用说的……貌似问题本质是重要节点挖掘 [ [微博](http://www.weibo.com/5220650532/BiQWI1oD2) ] - -2014-08-18 问: @马辰The_answer:主页君能否推荐一些用深度学习做推荐的文章资料 答: 问答进展 http://t.cn/RPQMg7Q 找到一篇今年8月新鲜出炉, Spotify的实习生博文: Recommending music on Spotify with deep learning .今年2月有人讲Netflix的电影推荐. 欢迎补充指正 [ [微博](http://www.weibo.com/5220650532/BiQUcxKod) ] - -2014-08-18 问: @山东工商学院白建磊 有没有新媒体意见领袖领域方面的文献可以推荐? 答: 问答进展 http://t.cn/RPQfWRW . 初步推荐: 意见领袖 (opinion leader), user influence, twitter, 有几篇引用率很高的论文分析了Twitter用户影响力. 还有, 社交媒体信息传播综述. 欢迎补充指正. [ [微博](http://www.weibo.com/5220650532/BiQH4deoc) ] - -2014-08-17 //@见习烟酒生:出轨检测。。居然还有这么实用的案例//@西瓜大丸子汤:里面有一篇“女人是如何发现另一半出轨的” [哈哈] [ [微博](http://www.weibo.com/5220650532/BiGM9wr1F) ] - -2014-08-16 [求指点] @小白_小可乐:能帮忙找点"背景建模"的资料么?就是图像前景提取的方法. 关键词: 图像前景提取(Foreground Extraction), 视频分析, 背景建模(background object detection) 问答进展看这里: http://t.cn/RPTWX7w [ [微博](http://www.weibo.com/5220650532/BiBA9tX99) ] - -2014-08-16 大家一定要看韩家伟老师的异常检测讲义(是他数据挖掘教材第三版的第12章),就56页. 简明扼要! 直接给个讲义PPT 下载传送门 http://t.cn/RPTLh7M [ [微博](http://www.weibo.com/5220650532/BixYpiSEk) ] - -2014-08-16 问:@ai_东沂 异常检测应用在文本挖掘 答: 异常检测(outlier/anomaly detection)和文本挖掘(text mining)都是大课题。几篇异常检测综述(如韩家伟的讲义) 与应用(如发现金融欺诈); 几个异常检测用在文本挖掘的综述(如在对话流中发现新话题),以及话题模型的文献(如翟成祥的讲义) http://t.cn/RPYnZD8 [ [微博](http://www.weibo.com/5220650532/BixPQANza) ] - -2014-08-16 @维尔茨 问:有木有关于循环神经网络在segmented sequence labeling方面的papers? 答:多伦多大学Alex Graves有专著. 基于recurrent neural networks(RNN)研究, @ICT_朱亚东 推荐Herbert Jaeger的短教程. Jürgen Schmidhuber教授收集了60多相关论文, 微软研究院用RNN做自然语言处理 http://t.cn/RPYQVsY [ [微博](http://www.weibo.com/5220650532/BiuoeCGpy) ] - -2014-08-15 [实事求是学大数据] @猴山寨主找夫人 问:是否能提供一个入门级的大数据指导方案.答:盲目上大数据技术很容易浪费学习时间和运营成本。这里我们列了一个极简版,面向的是普通基础、需要从一般数据处理任务逐步扩展到大数据的用户,见长微博。完整导读见本文文字版 http://t.cn/RPjCbl7 [ [微博](http://www.weibo.com/5220650532/BimdAmKqK) ] - -2014-08-15 [good]//@孙明明_SmarterChina:这些资料都没有提到manifold Learning中的一篇非常重要的文献:Yoshua Bengio 的 Non-Local Estimation of Manifold Structure http://t.cn/RPj5iYv。 这个文章揭示了LLE/ISOMap代表的一类流形学习方法无法直接广泛应用的宿命。 [ [微博](http://www.weibo.com/5220650532/BijiQaRyl) ] - -2014-08-15 Apex出品 [good]//@zwner:个人觉得最普适有效的经典算法是SVD++ http://t.cn/RPjLPjx,在推荐模型本身上最有深度的是MF-GBRT http://t.cn/RPjLPjM。如果你想用一个code快速实现不少推荐算法,那请毫不犹豫使用我们的SVDFeature http://t.cn/zYRnUMA [ [微博](http://www.weibo.com/5220650532/BiiWGqD5P) ] - -2014-08-14 这个例子很合适送给@oyyNyanCat “机器学习数据挖掘方面的简单有趣应用” http://t.cn/RPlYDZx [ [微博](http://www.weibo.com/5220650532/BifsXvfQC) ] - -2014-08-14 特别推荐。最优化,逻辑回归,最大熵,主题模型,深度学习,相似度,搜索,一脉下来,整理的深入浅出,非常清晰。传送门君以前读过前一半,现在终于写全了! [ [微博](http://www.weibo.com/5220650532/BidtPx8pa) ] - -2014-08-13 最新数据显示: 美国Snapchat的用户渗透率稳步上升,在18-34岁的消费者市场首次超过Twitter。主要动力来自18-24岁人群的追捧。 http://t.cn/RPWBC1c [ [微博](http://www.weibo.com/5220650532/Bi90saK6K) ] - -2014-08-13 最近我们推荐过四组深度学习的资源,分别为语音检索,文本挖掘/自然语言处理,图像检索,最热深度学习Github项目。为方便大家浏览/粘帖,现在制作成可下载的PPT,每页是一个推荐资源的预览。百度云盘 http://t.cn/RPWoSHq slideshare http://t.cn/RPWoSHb 原始PPT http://t.cn/RPWoSH4 [ [微博](http://www.weibo.com/5220650532/Bi6AwyhV1) ] - -2014-08-13 http://t.cn/RPW6muz ACL2014 Semantic Parsing Workshop的slides 感谢@老淘 @波多野丽猪 推荐 [ [微博](http://www.weibo.com/5220650532/Bi6fQ8wYq) ] - -2014-08-13 //@ansj: @52nlp @好东西传送门 @v_小峰_v 墙裂推荐.应该是史上公开的最大最完整的中文词库了 [ [微博](http://www.weibo.com/5220650532/Bi65w5qIN) ] - -2014-08-13 回复@Liufool: 非常感谢,这个补充太专业了,果然是windows高手。话说微软的语音识别还是很牛的,你看这个当入门文档行吗? http://t.cn/RPWwj0A 顺带说一句, 曾经亲眼看见一个盲人科学家用语音操控windows笔记本。 //@Liufool:microsoft speech platform是服务器版windows可免费应用的语音识别, [ [微博](http://www.weibo.com/5220650532/Bi4olbouK) ] - -2014-08-13 问:@VoidStars 请问想提取一段文本里的中文姓名(0~1个) 有好的开源库和教程吗 答: 常见方法就是分词,再利用姓名词库和上下文关系来确定。 知呼有一个综述。google有专利。 @52nlp 也有大量博文讲中文分词。开源工具比较有名的有jieba, snownlp, stanford-nlp-ner. http://t.cn/RPWP2h1 [ [微博](http://www.weibo.com/5220650532/Bi3VHfSFP) ] - -2014-08-13 问: @yongsun 有没有开源或者免费的英文语音识别软件/或项目?打算翻译一些冰球教学的视频,想结合识别结果来进行听译 答: Windows7/8 自带语音识别功能,Google Chrome有基于云端服务的识别插件,软件方面Nuaunce的Dragon很牛(SIRI就是靠它做语音识别). 开源软件列表看维基百科。http://t.cn/RPODalA [ [微博](http://www.weibo.com/5220650532/Bi3ti7wAd) ] - -2014-08-13 问: 做 logistic regression 有啥好用的库吗? 需要处理几十万个 features, 然后几十亿个training data的。 features 是极其稀疏的,Sparsity大概万分之一左右吧 答: 有不少开源库: Spark(MLlib), Mahout, R+Hadoop, Hadoop, Scalding(Conjecture)。有2014分析指出SPARK比较快。http://t.cn/RPOddon [ [微博](http://www.weibo.com/5220650532/Bi3axDIR8) ] - -2014-08-13 [问题求领养] @不非否nonono:请问有没有关于causality与Bayesian Network有关的资料?http://t.cn/RPOR7Iv。除了Judea Pearl的书,大家有什么推荐?有没有你觉得比较好的教程?BTW, 以前在Python站上有过不少和贝叶斯相关的推荐资源 http://t.cn/RPOrpGD [ [微博](http://www.weibo.com/5220650532/Bi2Z7mgEI) ] - -2014-08-12 @刘知远THU 推荐:翟成祥老师(UIUC)的综述专著:Statistical Language Models for Information Retrieval(信息检索中的统计语言模式)(2008),从BM25到PLSA, LDA,回顾了领域发展并总结了未来的挑战。 [ [微博](http://www.weibo.com/5220650532/BhWzutAft) ] - -2014-08-12 [NLP讲义下载,125页,PDF] 翟成祥老师(UIUC)今年在澳大利亚数据库博士短训班的教程:"Statistical Methods for Mining Big Text Data" 介绍两种基于统计语言模型(Statistics Language Model)的基本话题模型(Topic Model): LDA和PLSA的原理及应用。最后列出六个未来研究课题。http://t.cn/RPO7vtW [ [微博](http://www.weibo.com/5220650532/BhWo26Y93) ] - -2014-08-12 //@昊奋: 对于ESA,如果单纯使用wikipedia,由于中文维基百科的语料相比英语小很多,所以其实不满足ESA本身需要有高覆盖率的好处,需要自行采用百度百科或互动百科进行处理。我们会考虑利用zhishi.me来为大家提供ESA的服务。 [ [微博](http://www.weibo.com/5220650532/BhWfVt47c) ] - -2014-08-12 这个问题还有很多其他选择方案,如知网。一些正在issue 67下讨论 http://t.cn/RP0pPIt 欢迎去那增补(留言请留下你的微博号) [ [讨论](https://github.com/memect/hao/issues/67) ] [ [微博](http://www.weibo.com/5220650532/BhWeO3CJx) ] - -2014-08-12 @talkto廖华 请问有没有好用的中文词汇的语义相似度计算工具?答:多种分布式表示方法都可以计算语义相似度,中英文均可以处理。如近来的word2vec http://t.cn/RPOvesp 和glove。@刘知远THU 推荐ESA(Explicit semantic analysis),在稳定性上可能更优,一些开源项目和文章如下 http://t.cn/RPOvesj [ [微博](http://www.weibo.com/5220650532/BhWdIDon6) ] - - - - -2014-08-12 问:@all_shuffle cassandra调优的资料 -答:可以去datastax和cassandra wiki去找资料。优化点含数据建模、读写I/O、存储压缩、JVM。要注意cassandra版本。也可以看看Ebay, Netflix的应用案例。http://memect.co/ioPLBIK [ [微博](http://www.weibo.com/5220650532/BhTnSbw2s) ] -

- -2014-08-10 @唐小sin 问:现在社交网络的研究焦点在哪? 答:感谢清华大学@唐杰THU 教授提供答案,在他与密歇根大学梅俏竹教授合写的综述《数据挖掘学科发展报告》第2.2 部分“社交网络分析和图挖掘研究”分析了诸多前沿方向,如网络结构分析、图模式挖掘、信息传播和影响力建模等,可供参考 http://t.cn/RPNVntW -http://www.weibo.com/5220650532/BhCrZ8DO1?mod=weibotime - -2014-08-10 http://t.cn/RPNLDbW 用Python打造图像分析应用你需要知道的15个软件包:计算基础Numpy Scipy 图像基础matoplotlib PIL/Pillow 图像进阶OpenCV SimpleCV mahotas scikit-learn ilastik 其他pprocess h5py scikit-image Medpy 完整列表 http://t.cn/RPNLDb0 -http://www.weibo.com/5220650532/BhBkrkfWg?mod=weibotime - -2014-08-09 如何用Python打造高可用性网站?这组来自highscalability的文章展示了如何利用Python服务以亿计用户的网站,包括耳熟能详的Youtube(视频)、Reddit和Digg(新闻分享)、Dropbox(云存储)、Instagram和Pinterest(图片分享)等。下次有人疑问Python的性能,和ta分享这组文章吧 http://t.cn/RPCutKS -http://www.weibo.com/5220650532/BhxxQjtja?mod=weibotime - -2014-08-09 @我爱机器学习 问: 判断两张图片是否是同一内容(只考虑光照、倾斜、模糊、偏移等因素)的资料有否?答:@CD--挨踢民工巍然 推荐了lire,OpenIMAJ @申砾 推荐了pHash。lire和OpenIMAJ都是java的,openimag可以处理视频,关键点匹配,人脸识别等。pHash是C++的图像哈希软件 http://t.cn/RP9aFVz -http://www.weibo.com/5220650532/BhqBFulcq?mod=weibotime - - - -2014-08-08 问: @ 红星照大龙 有没有机器学习对具体设备(比如四轴,双足机器人,运动控制)在控制性能方面提升(稳定性,响应速度)的工具或者资料? -答:是不是Robot Learning或Adaptive Control,请看综述,工具,研究组和学会。两篇维基的参考资料都挺好。http://memect.co/Ehc3uFo [ [微博](http://www.weibo.com/5220650532/Bhl75C7mP) ] -

- - - -2014-08-08 问: @ai_东沂 木有关于社会化标签挖掘的相关资料? -答: 社会化标签(folksonomy)在十年前很热了一阵,相关研究也主要集中在那一段时间(印第安那的一个博士生整理了一个文献清单)。还有两个综述论文(KDD那篇来自韩家伟的学生,另一篇KER来自一个语义Web的研究组)。不太全面,欢迎指正。http://memect.co/eOcfnQA [ [微博](http://www.weibo.com/5220650532/Bhl1QAnEn) ] -

- - - -2014-08-08 问:@图像视觉研究 有没有经典的Multi-Class boosting的相关资料推荐推荐? 答:找到几篇经典论文,几个幻灯片、录像以及工具包。相关学校有MIT,UCSD,Stanford,umich等。软件有C++, Pythton (scikit-learn) 实现,也有几个GITHUB开源软件。http://memect.co/fVshb4Z [ [微博](http://www.weibo.com/5220650532/BhgJ0hHvLY?mod=weibotime) ] -

- - - -2014-08-08 问:@andeguangshaqianwanjian 求python做神经网络的资料 答:找到十个工具,pythonWiki5个,Github里2个,其他(好像比前两类常用)3个。http://memect.co/no0jyMY - [ [微博](http://www.weibo.com/5220650532/BhkMjyL4g?mod=weibotime) ] -



- - - - -2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第六组:一些大的数据仓库,如data360.org, R datasets Package, Google Public Data, Infochimps, datamob http://data.memect.com/?tag=publicdomain+hao60 [ [微博](http://www.weibo.com/5220650532/Bhbllse6Y?mod=weibotime) ] -

- - - - -2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第五组:理工科数据8类,包括地理、航天、癌症、气候、农业、生物等 http://t.cn/RPSkuaV 社会科学5类,包括GSS社会调查、劳动就业、Pew Research研究所的数据、UCLA数据门户 http://t.cn/RPSkuac [ [微博](http://www.weibo.com/5220650532/Bhbj57moY?mod=weibotime) ] -

- - - -2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第四组:SNAP斯坦福的网络数据集 http://t.cn/RPSkGc9 ,Time Series Data Library近800个时间序列数据(经济、水文、气象、农业各种)http://t.cn/RPSkGci 一些大学实验室的数据集,如OSU金融、CMU统计、UCLA SOCR概率 http://t.cn/RPSkGc6 [ [微博](http://www.weibo.com/5220650532/BhbfM2eN5?mod=weibotime) ] -

- - - -2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第三组:政府数据,有美国的data.gov,英国的data.gov.uk、澳大利亚数据、加拿大数据、联合国数据、三藩市、纽约市、伦敦市数据。用DataMarket搜索和可视化数据 http://t.cn/RPSDceG [ [微博](http://www.weibo.com/5220650532/Bhbaxj6xo?mod=weibotime) ] -

- - - - -2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第二组:机器学习数据源20+,包括Amazon Public Data(一共56个超大数据,如人类基因组,Common Crawl全球网页, Freebase,Wikipedia等各种宝贝)、航空、天气、医疗、音乐、电影、社交网络,Web点击 http://t.cn/RPSev91 [ [微博](http://www.weibo.com/5220650532/Bhb3qqHUg?mod=weibotime) ] - - - -2014-08-07 @医学统计分析精粹 推荐的免费数据集。涵盖各个行业。第一组:经济数据4个http://t.cn/RPSgSkR 世界银行Indictors, EconData, AEA(美国经济协会)RFE, GapMinder 金融数据8个:CBOE Futures Exchange, St Louis Fed, NASDAQ, OANDA, Quandl,Google/Yahoo http://t.cn/RPSgSkE [ [微博](http://www.weibo.com/5220650532/Bhb0wrN4O?mod=weibotime) ] - - - -2014-08-07 ansj分词的作者@ansj 为我们介绍中文分词。工具有Java的Ansj分词、结巴分词Python版与C++版。基础文章《中文分词的原理与实践》。常用的算法:条件随机场CRF, 隐马尔科夫模型HMM。常用数据结构:Trie树和双数组 http://t.cn/RPSQlCE @ansj发起了nlpcn.org开放自由的NLP平台,NLPer都该去瞅瞅 [ [微博](http://www.weibo.com/5220650532/Bh9WGeljD?mod=weibotime) ] - - - -2014-08-07 美国疾病控制与预防中心卫生经济学家 @陈茁博士_Adam 提供:准确的**卫生统计数据**是卫生经济政策的基础。这里提供了一组最重要的数据站点,包括国际组织(WHO, OECD, Worldbank, UNICEF)、美国政府部门(CDC, CMS,AHRQ)、中国的卫生计生统计。更多参芝加哥大学卫生统计数据门户 http://t.cn/RPSa7hk [ [微博](http://www.weibo.com/5220650532/Bh8lRehxo?ref=) ] - - - -2014-08-06 @uso小驴酱 问**sparse representation for computer vision** CV领域教授Lyu回答: ECCV2012有计算机视觉稀疏表示的教程 。主讲人Yi Ma, Allen Yang, John Wright均是该领域核心专家。讲座包括了理论基础与实践。合集中还包括相关的Fast l-1和Convex Optimization方法 http://t.cn/RPam664 [ [讨论](https://github.com/memect/hao/issues/25) ] [ [微博](http://www.weibo.com/5220650532/Bh2vHlUlG?mod=weibotime) ] - - - -2014-08-06 W3C研究员@吴伟1st 推荐: **关系数据库RDB转RDF的工具**。RDF是网页元数据交换的国际标准,是知识图谱和链数据发布的首选语言。从传统的关系数据库到互联、有丰富语义的数据,已有大量转化和查询工具。这一组推荐包括了Oracle和Virtuoso工业实现和很多开源、研究项目、R2ML语言 http://t.cn/RPaNM6h [ [讨论](https://github.com/memect/hao/issues/52) ] [微博](http://www.weibo.com/5220650532/Bh173BPZf?mod=weibotime) ] - - - -2014-08-06 @昊奋 推荐:在这个机器学习大行其道的年代,了解规则系统,以及他们之间的结合是很有必要的。推荐纽约州立大学Stonybrook分校Senlin Liang的工作**OpenRuleBench:比较了5种不同类型的规则系统**,演绎数据库, 语义规则引擎, 基于Prolog系统等,如jena, dlv jess xsb owlim http://t.cn/RPaGJHV [ [微博](http://www.weibo.com/5220650532/BgZ9CtRHL?mod=weibotime) ] - -
- - -2014-08-06 [经典资料] **Google云计算的7个里程碑**: GFS(文件系统), MapReduce(计算模型), BigTable(结构数据存储NoSQL), Dremel(大数据查询分析), Colossus(GFS第2版), Spanner(BigTable+分布式事务管理), Compute Engine(云计算平台,AWS竞争对手)。含原论文、幻灯片、短教程以及业内风评 http://t.cn/RPaU89N [ [微博](http://www.weibo.com/5220650532/BgYHoimrP?mod=weibotime) ] - -* 2014-08-05 [公开课] **斯坦福的计算广告学入门**。整个教程一共9讲,包括市场设计、文字广告、上下文广告、展示广告、广告定向、广告推荐、和新形式广告。这是网上为数不多的计算广告学公开教程,由两位Yahoo科学家Andrei Broder和Vanja Josifovski,主讲,乃多年实战经验总结。http://t.cn/RPX0423 [ [微博](http://www.weibo.com/5220650532/BgT8YwOqI?mod=weibotime) ] - -* 2014-08-05 **回答集编程(Answer Set Programming)是一种强大的规则推理语言**。它可以用于解决那些困难(例如NP-hard)的问题。从数据库查询,自然语言理解,生物信息学,到石油勘探,ASP有非常广泛的应用。@Logician_wolfel 推荐了一组最新的ASP教程 http://t.cn/RP6kRm4 有逻辑的问题请教他没错 [ [微博](http://www.weibo.com/5220650532/BgPw08I4B?mod=weibotime) ] - -* 2014-08-04 @昊奋 **关于知识图谱的第二组推荐**:知识图谱的构建及其应用,介绍了probabilisic KB(Google) KnowledgeVault,Sonya, Satori/Probase (Microsoft),YAGO,LOD2等重要的知识图谱系统。知识库构建,实体抽取、实体链接,查询理解和扩展, 语义搜索,等基础技术汇集在10篇核心文献http://t.cn/RP6JCGn [ [微博](http://www.weibo.com/5220650532/BgJPZo8jJ?mod=weibotime) ] - -* 2014-08-04 @西瓜大丸子汤 问:**识别水贴(微博,回复,留言)和有价值的贴**。这个各路英雄有没有能指点一下的? @刘知远THU 答:刚看到 软件学报 上有篇研究综述:网络水军识别研究。 @QPCN 答:今年www有个tutorial,utah state的lee,关键词crowdturfing 汇总如下: http://t.cn/RP6MOOV 欢迎增补 [ [微博](http://www.weibo.com/5220650532/BgJEbslQz?mod=weibotime) ] - -* 2014-08-04 **SSDB是一个高性能 NoSQL 数据库**, 支持哈希表,集合,列表等数据结构。它作为redis的替代或补充,可以用很小的内存代价实现十亿级别数据的存储。工具与生态系统生长非常迅速,已为众多互联网企业所使用。核心推荐资源 http://t.cn/RPi1q47 所有资源http://t.cn/RPi1q4h 作者是@ideawu [ [讨论](https://github.com/memect/hao/issues/51) ] [ [微博](http://www.weibo.com/5220650532/BgGtV6K6H?mod=weibotime) ] - -* 2014-08-04 **极客杨的OCR工具箱**:Tesseract 是目前应用最广泛的免费开源OCR工具(背后有Google的支持)。商业产品有ABBYY的finereader,还有Adobe;国产的有文通和汉王。当前热点是将OCR移植到智能手机上拓展新的输入渠道、IOS有基于Tesseract的实现,Android有高通vuforia API。资料卡片流: http://t.cn/RPiRyYc [ [讨论](https://github.com/memect/hao/issues/43) ] [ [微博](http://www.weibo.com/5220650532/BgFEdjQG7?mod=weibotime) ] - -* 2014-08-04 @AOzil 问:**可否推荐一些创意自适应的资料** 答:Creative Optimization是一种面向用户自动优化广告内容与展示的技术。斯坦福大学计算广告学入门 http://t.cn/RPiQ6Zn 阐述了基本概念 10个相关厂家从不同侧面的介绍与宣传 http://t.cn/RPiQ6Zm 新闻 和国内专家@刘铁岩 的评论 http://t.cn/RPiQ6ZR [ [讨论](https://github.com/memect/hao/issues/23) ] [ [微博](http://www.weibo.com/5220650532/BgFbclmQD?mod=weibotime) ] - -* 2014-08-04 @zbyufei 问:**基于python开发的Code online系统有哪些。类似于Cloud9 IDE的**。@登州知府 答:开源Online IDE的开发语言比较常见的是Node.js, Java和PHP,python的真没怎么见过。支持Python的IDE,@南京话zen好听 推荐 koding.com @康积华_绩点侠 推荐codeskulptor,所有IDE列表见 http://t.cn/RPxOOPE [ [讨论](https://github.com/memect/hao/issues/22) ] [ [微博](http://www.weibo.com/5220650532/BgEQUaeo2?ref=) ] - -* 2014-08-03 @孙明明_SmarterChina 特别推荐@李航博士 和@徐君_ 的新书**《Semantic Matching in Search》该书阐述了搜索中语义匹配的基本方法**,如查询重写,关键词依赖,翻译,主题模型, 潜在空间模型Latent Space Model, 学习匹配Learning to Matching等。作者提供了电子版下载。预览与目录 http://t.cn/RPiq2hc [ [微博](http://www.weibo.com/5220650532/BgAwzD3LJ?mod=weibotime) ] - -* 2014-08-03 [微综述] 搜索专家 @孙明明_SmarterChina **在"知识图谱与搜索引擎"中推荐了建立知识图谱和利用知识图谱的12篇重要文献**,涵盖利用百科数据,挖掘生成知识图谱,搜索引擎页面排序,利用实体标注、语义匹配,查询中的实体映射等前沿话题。导读 http://t.cn/RPiGS3l 文献列表 http://t.cn/RPiGS3O [ [微博](http://www.weibo.com/5220650532/BgArxBPIn?mod=weibotime) ] - -* 2014-08-02 产品设计的死循环(参见高尔定律第二原则)。附:**高尔定律(Gall's law)** 1、成功复杂系统是从已经成功的简单系统演进而来;2、凭空设计出来的复杂系统不会成功、再怎么打补丁也不行,只能推倒重来;3,简单系统未必成功。 [ [微博](http://www.weibo.com/5220650532/BgshmzO5g?mod=weibotime) ] - -* 2014-08-02 **Sibyl是Google正在使用的分布式机器学习平台**。它于2010年在大规模分布系统论坛(LADIS)就做过主题报告,今年又到DSN做了一次主题报告(视频林大原则讲得很清楚)。到底这四年有什么变化,看看下图(含四个关键幻灯片)就明白了。相关资料合集传送门: http://t.cn/RPxQZIN [ [微博](http://www.weibo.com/5220650532/BgnsoEEqV?mod=weibotime) ] - -* 2014-08-02 @理想主义de患者 问:**有没有垃圾邮件检测的项目啊**。答:比较有效的方法都是结合机器学习与人工知识的。最有名的开源项目是SpamAssassin,可以从很多语言调用如Python 。另有个开源项目Stopspam也值得关注。更早基于机器学习的项目合集中也有个列表 http://t.cn/RPxTJgO [ [讨论](https://github.com/memect/hao/issues/44) ] [ [微博](http://www.weibo.com/5220650532/BgnagiCeE?mod=weibotime) ] - -* 2014-08-02 @羊_o羊o羊爱小破厂 问:**需要tornado的资料**。答:Tornado是一个非阻塞式Python网络框架,并发性能优于大多数其他Python框架。这组资料是基本介绍,中英文都有 http://t.cn/RPxYjIs 更多见Python精华区Tornado资料 http://t.cn/RPxYjMv 稍后我们会分期介绍它与Gevent, Nodejs, Flask的比较 [ [讨论](https://github.com/memect/hao/issues/24) ] [ [微博](http://www.weibo.com/5220650532/Bgn0l5KPA?mod=weibotime) ] - -* 2014-08-02 @钱知易 问有没有**机器学习和深度学习在多媒体信息检索领域的资源**?答:机器学习应用太广,本条只涉及深度学习。其中图像检索@姚鹏鹏YPP 已问过,见答案http://t.cn/RPxj0Y6 语音检索,Google语音组和微软邓力等是领先的,他们主页上的文章基本代表了前沿,一些教程在此 http://t.cn/RPxj0Yi [ [讨论](https://github.com/memect/hao/issues/39) ] [ [微博](http://www.weibo.com/5220650532/BgmM3uZBv?mod=weibotime) ] - -* 2014-08-02 世界级专家精选讲义第一组,今天推出RPI的**James Hendler** (维基百科介绍 http://t.cn/RPxlN6p )**研究领域人工智能和Web科学**,前IEEE Intelligent Systems主编。合集有40个讲义 http://t.cn/RPxlN60 17个视频 http://t.cn/RPxlN6W 特别推荐3个 http://t.cn/RPxlN6O 全集 http://t.cn/RPxlN6l [ [微博](http://www.weibo.com/5220650532/Bgmqdh2r2?ref=home) ] - -* 2014-08-02 [求援] @zbyufei 问:**基于python开发的Code online系统有哪些。类似于Cloud9 IDE的**。进展:主页君找到了9个支持Python的在线IDE,如ideone, repl.it, codepad http://t.cn/RPxOOPE 但没有发现基于python开发的开源系统。向社区达人求援!更新汇报 http://t.cn/RPxOOPn [ [讨论](https://github.com/memect/hao/issues/22) ] [ [微博](http://www.weibo.com/5220650532/BglNC5j9G?mod=weibotime) ] - -* 2014-08-02 推荐一个emacs的很长长长长长长长长....的英文迷你教程,有无数小动画,非常容易懂,看得出是下了功夫的。进去看两眼您就赶紧藏转发吧,这还只是第一部。我怎么觉得这跟一口气看完某韩国连续剧一样一样的呀。http://t.cn/RPxLa51 同意它是有史以来最长的emacs教程请举手! [ [微博](http://www.weibo.com/5220650532/BghEm0kZ8?mod=weibotime) ] - -* 2014-08-01 问:wechat:泡泡龙: 我想知道**query意图分析(query分类)有哪些方法**? 答:搜索关键词: query意图分析 ,query intent,query classification,user intent。 2009 年的一个综述(有幻灯片)。淘宝搜索Query的15个类型;本地搜索(微软专家);图像搜索(雅虎专家)。卡片合集:http://t.cn/RPxPp13 [ [讨论](https://github.com/memect/hao/issues/40) ] [ [微博](http://www.weibo.com/5220650532/BggTn4qtw?mod=weibotime) ] - - -* 2014-08-01 @小77you 问:**关于graph DB有哪些开源的东东**。@昊奋 答:Graph DB有两个分支,一个来自SW,以RDF triple store起家,括Jena, Virtuoso, AllegroGraph等 。另一个分支来自NoSQL,以Property Graph作为底层数据模型,包括Neo4J,Titan等,导读http://t.cn/RPxPAnt 15个数据库 http://t.cn/RPxPAn5 [ [讨论](https://github.com/memect/hao/issues/37) ] [ [微博](http://www.weibo.com/5220650532/BggQIrfwF?mod=weibotime) ] - - -* 2014-08-01 讲一下**Facebook新的开源Javascript类库immutable.js** http://t.cn/RPMDhro 此项目受David Nolen (ClojureScript大神)的Mori影响,支持多种Immutable数据结构(如哈希映射)并超出目前很火的react.js ,支持微软的TypeScript。immutable数据结构在javascript中利于降低存储代价,提高数据版本控制的效率 [ [微博](http://www.weibo.com/5220650532/Bggnuc9sC?mod=weibotime) ] - -* 2014-08-01 **社会机器Social Machine**是Web发明人Berners-Lee和语义网领袖Hendler提出的概念:人与机器/人工智能如何协同工作,完成复杂问题?中国的人肉搜索是他们认为最好的例子,与中国学者合作做了大量研究。@QPCN 教授提供了该主题精炼导读 http://t.cn/RPMNDa5 并列出最重要的文献与讲义http://t.cn/RPMNDaq [ [微博](http://www.weibo.com/5220650532/BgeheoG89) ] - - -* 2014-08-01 @瀟灑小弟 问:**有木有深度学习在文本挖掘或者自然语言处理(NLP)方面的好的资源**? @panjf1987 提供答案:被推荐过最多是Richard Socher 的Deep Learning for Natural Language Processing (without Magic) 这个tutorial在NAACL 2013和ACL 2012都做过。讲稿,视频,参考文献整理如下http://t.cn/RPMSxHq [ [讨论](https://github.com/memect/hao/issues/30) ] [ [微博](http://www.weibo.com/5220650532/BgdnWpEmo) ] - -* 2014-07-31 **知识图谱的构建离不开人的参与,众包**作为一种新兴的方式来获取廉价的标注,评测甚至群体智慧会发挥越来越重要的作用。国内这领域的权威专家 @昊奋 推荐了一组必读文章,有概述、医疗领域知识库众包、众包的链接数据管理、概率推理和众包结合、考虑用户模式的众包、实体链接的众包 http://t.cn/RPI33jW [ [微博](http://www.weibo.com/5220650532/Bg7zDv1UR) ] - -* 2014-07-31 @认知计算_Watson 推荐**IBM Watson系统最新**的介绍文章:Watson在医疗的应用,Watson中的关系提取,多尺度流形学习(Manifold Learning)方法 http://t.cn/RPIxcVY [流形学习两篇文章也供@uso小驴酱 参考] 大数据专区现在有93篇Watson的论文和报导。http://t.cn/RPIxcVl [ [讨论](https://github.com/memect/hao/issues/26) ] [ [微博](http://www.weibo.com/5220650532/Bg4PA3tOC) ] - -* 2014-07-30 @noavailableAccount 问:**有没有KVM(kernel-based Virtual Machine)的学习资料** 答:http://t.cn/RPfGM0H 有个cmu课程(24~27)覆盖了虚拟化的重要文献。最相关的有两篇经典论文;几个幻灯片与短教程;一个英文社区。几个中文博客的对比类概述。还有一本国内风评不错的教科书 [ [讨论](https://github.com/memect/hao/issues/21) ] [ [微博](http://www.weibo.com/5220650532/BfW1Su1ou) ] - -* 2014-07-30 感谢@北京-小武 推荐的**云计算白皮书**,已收录到大数据精华区 http://t.cn/RPfx7P7 为方便大家快速浏览,文中所有的图表已摘出来单列,更加节约略读时间 [ [微博](http://www.weibo.com/5220650532/BfWFKh91b) ] - -* 2014-07-29 @鱼片的小露宝 问:**希望大数据分析和机器学习方向推荐一些书,最好是java而且比较基础容易上手的**。答: Kirk Borne推荐过15本书 http://t.cn/RPcpSHG 用Java入门可以先学Weka Mahout和MLTK。这有一组入门资源 http://t.cn/RPcpSHb @朝花夕拾录 推荐过的CMU机器学习暑期班也非常好 http://t.cn/RPcpSHq [ [讨论](https://github.com/memect/hao/issues/20) ] [ [微博](http://www.weibo.com/5220650532/BfKdEzlLP) ] - -* 2014-07-29 问:@北冥渔翁 **我要找windows服务器维护管理进阶的资料** 答:服务器管理进阶通常是由新需求触发的,例如系统升级,效率优化,安全补丁,软件安装。这里 http://t.cn/RPcOYXo 罗列了一本免费书,几个博客与论坛, 希望微软专家(尤其是MVP)补充指正 @肥九叔 @曾经胖哥 @月光博客 @Edi_Wang [ [讨论](https://github.com/memect/hao/issues/19) ] [ [微博](http://www.weibo.com/5220650532/BfKMJFqJM) ] - -* 2014-07-29 @norvid 问:**求数据仓库的元数据的相关综述资料**。 答:数据仓库自2000年起逐渐从学术研究转到工业应用。热点是大数据挖掘,但元数据仍是数据链接聚合之关键。http://t.cn/RPV4wmy 罗列几个综述。推荐看uzh的幻灯片和Gartner分析报告。搜索词:logical data warehouse, Ontology-based Data Warehouse [ [讨论](https://github.com/memect/hao/issues/16) ] [ [微博](http://www.weibo.com/5220650532/BfOvkc0cq) ] - -* 2014-07-29 @娄琦天天刷围脖: **请问有没有Python集成Fortran项目的实例**?答:历史上有F2Py作为Python的Fortran接口,现在已经集成到Numpy里了。numpy底层很多计算都是Fortran的,所以大量Python项目已经在间接用Fortran。具体的语法例子看这里 http://t.cn/RPVqpLo [ [讨论](https://github.com/memect/hao/issues/15) ] [ [微博](http://www.weibo.com/5220650532/BfOOplhPX) ] - -* 2014-07-29 @心心xi 问:**可否推荐一些关于recommendation的相关论文呢**? 答:有三组不错的资源 @小飞鱼_露 推荐了20多篇论文 http://t.cn/RPcWrNz 其中有@唐杰THU 的工作。@清风运文 列举过推荐系统的19个开源工具 http://t.cn/RPcWrN7 @朝花夕拾录 刚分享了大数据上的推荐系统 http://t.cn/RPcWrNP [ [讨论](https://github.com/memect/hao/issues/18) ] [ [微博](http://www.weibo.com/5220650532/BfL4N1XKw) ] - -* 2014-07-29 @winsty 提到了**梯度提升决策树Gradient Boost Decision Tree (GBDT)** 这是一种模型组合的方法,利用简单模型的组合克服过拟合等问题。目前在推荐/Learn to Rank中广泛使用,如Yandex,也被称为MART/GBRT。这里列出几篇核心论文和R/Python/C++多种实现源码 http://t.cn/RPVUDs7 [ [微博](http://www.weibo.com/5220650532/BfOuusZDX?mod=weibotime) ] - - -* 2014-07-29 @LDL_BIT 问:**有哪些文章讲了多层感知器MLP的拟合能力问题?尤其是拟合多项式的能力**?答:当使用非线性的激活函数,MLP是图灵完备的,可以模拟任何函数,当然包括多项式函数。这称为普适逼近原理(Universal approximation theorem)。深度学习则提高了逼近的效率。经典论文见 http://t.cn/RPVAYZ4 [ [讨论](https://github.com/memect/hao/issues/34) ] [ [微博](http://www.weibo.com/5220650532/BfO8hcCYx?mod=weibotime) ] - * @LDL_BIT 增补:最近就这个问题设计了个小实验,今天也看到一篇讲多项式学习问题的论文,见我的博客http://t.cn/RPSAXV0 注:文章是ICML 2014 “Learning Polynomials with Neural Networks” http://t.cn/RPSnyZi [ [微博](http://www.weibo.com/5220650532/BhahP5biF?mod=weibotime) ] - -* 2014-07-27 [续http://t.cn/RP5WYnt ] @小飞鱼_露 问:**能否推荐一些关于 Learning to Rank 的相关论文,教程,应用呢**?答2:前次推荐了25篇文章,主要是相关算法。@刘知远THU 和 @老师木 进一步推荐了 @刘铁岩 和 @李航博士 的综述和专著,更适合入门 http://t.cn/RP5WYn5 全部LTR资源 http://t.cn/RP5WYnc [ [讨论](https://github.com/memect/hao/issues/17) ] [ [微博](http://www.weibo.com/5220650532/Bfvpro1Kq) ] - -* 2014-07-27 @小飞鱼露 问:**能否推荐一些关于 Learning to Rank 的相关论文,教程,以及一些应用呢**?答:我们咨询了相关专家 @梁斌penny 并得到@白硕SH @熊辰炎 @ICT朱亚东 等精彩讨论,总结在这里 http://t.cn/RP50MiI 根据他们的推荐,我们收集了25篇重要论文 http://t.cn/RP50Mif 可根据专家推荐选读 [ [讨论](https://github.com/memect/hao/issues/17) ] [ [微博](http://www.weibo.com/5220650532/Bfv7TnT6Y) ] - -* 2014-07-26 @姚鹏鹏YPP 问:**能不能推荐深度学习或者机器学习在图像检索中的应用的论文**?答:最权威的索引可以说是最近CVPR 2014上的深度学习在计算机视觉上的教程,主讲人全是本领域的大拿,一共13个讲稿,基础/进阶/实践全有,顺着每个后面附的文献列表可以把领域内重要论文一网打尽了。http://t.cn/RPqzoPJ 这几个资料更具体,有百度和Facebook的图像搜索方法 http://t.cn/RPqUBaK [ [讨论](https://github.com/memect/hao/issues/31) ] [ [微博](http://www.weibo.com/5220650532/BfibJnVlU) ] - -* 2014-07-26 **David MacKay的Information Theory, Inference, and Learning Algorithms** 以统计为纲,把经典信息论,机器学习,神经网络等领域统一阐述,深得好评,在微博上先后有@黄厝海滨 @陈利人 @算文解字 @陈晓鸣在硅谷 等专家推荐。这里总结该书的相关资料,讲稿,视频和PDF电子版都有 http://t.cn/RPqyzr0 [ [微博](http://www.weibo.com/5220650532/BfjuOkpun?mod=weibotime) ] - -* 2014-07-25 @shirleyChou1 问:**请问有没有Python + machine learning 从入门到进阶的完整link list呢**? 答: @52nlp 有个很好的总结,推荐去看 http://t.cn/RPboC0p 他提到的17个工具的开源代码按火爆程度列表在这里 http://t.cn/RPG2U0H。还有更多的机器学习包看这里 http://t.cn/RPGqlmf 入选的都是几百上千星的 [ [讨论](https://github.com/memect/hao/issues/8) ] [ [微博](http://www.weibo.com/5220650532/BfbXodqda) ] - -* 2014-07-25 [资源合集] **欧洲python大会(7月21到 27号)50多个视频与十多个幻灯片**。最火话题:Python能从Haskell学到什么 http://t.cn/RPbBxX5 其他一些热点PPT:Pypy编译器进展, 图数据库,消息传递与并发,用pymc3和Scikit-learn做机器学习,OpenStack云计算平台。更多好东西见 http://t.cn/RPbBxXq [ [微博](http://www.weibo.com/5220650532/Bf9Rfwjpq?mod=weibotime) ] - -* 2014-07-25 [资源合集] http://t.cn/RPb1ewQ **Github上13个最热门的NoSQL数据库排名**。第一的是键值数据库Redis,近万颗星。第二,三是RethinkDB和MongoDB,两大竞争的文档数据库。第四是pouchdb,2800星,一个Javascript的可以跑在浏览器的数据库。图数据库Titan第五。其他有flockdb couchdb riak ravendb orientdb等 [ [微博](http://www.weibo.com/5220650532/Bf9MHlbQA?mod=weibotime) ] - -* 2014-07-25 @AngelZywei 问:**推荐一下图像模糊检测的一些开源项目和资料吧**。答:图像失焦和清晰度检测,有梯度检测,边缘检测等原理,具体的实现有拉普拉斯变换,Hough变换,小波变换等方法。这一组推荐资源13个,分为5篇经典论文,5个开源项目 (bash, python,C,C++, Clojure)和3篇问答 http://t.cn/RPGfOkO [ [讨论](https://github.com/memect/hao/issues/13) ] [ [微博](http://www.weibo.com/5220650532/Bfcp2DVON) ] - -* 2014-07-24 前几天@52cs **推荐@52nlp 在52nlp.cn 上列一批计算机高质量书籍**,可惜很多链接都失效了。当时承诺帮大家找到可下载的版本,今天终于有空先找了第一批“特别推荐系列”里的7篇,提供了免登录下载。原作者有@52nlp @朱鉴 @陈涛sean @rickjin 非常非常感谢他们!http://t.cn/RPbU1Lu (更多待续) [ [微博](http://www.weibo.com/5220650532/Bf3S0sHZ4?mod=weibotime) ] - -* 2014-07-24 @国产哈利波特007 问:**能帮我找下数据挖掘方面的算法吗**?答:推荐从这几本免费的数据挖掘与数据分析书开始。其中A Programmer’s Guide to Data Mining简明扼要,适合入门。Data Mining Algorithms In R解释了基本概念。Mining of Massive Datasets 可以进阶阅读。 http://t.cn/RP4Wmhu [ [讨论](https://github.com/memect/hao/issues/11) ] [ [微博](http://www.weibo.com/5220650532/Bf1Pe5Re3) ] - -* 2014-07-24 **去年2月Nature指出Google在流感预测上出现重大错误**:过高估计发病几率。今年3月Science讲了两个原因:抛弃传统方法过度依赖大数据,算法难以有效过滤网络舆情。前段时间纽约时报也讨论了大数据的局限。这里我们汇总了6篇相关文章,从正反两方面提供参考 http://t.cn/RP4CnFU 感谢 @lidingpku 提供 [ [微博](http://www.weibo.com/5220650532/Bf0921Nfs?mod=weibotime) ] - -* 2014-07-23 @tang_Kaka_back 问:**有没有时间序列分析的相关资料**?答:这里收集了一组时间序列分析入门资源。分为三组:第一组是三本电子书,都是经典,其中两本免费 http://t.cn/RPUHGWb 第二组是9个教程,来自博客和中外大学课件 http://t.cn/RPUHGWL 第三组是维基百科上的核心概念介绍 http://t.cn/RPUHGW2 [ [讨论](https://github.com/memect/hao/issues/14) ] [ [微博](http://www.weibo.com/5220650532/BeTczsXJx) ] - * 三本推荐教材是 《时间序列分析及应用(R语言) 》 《A little Book of R for Time Series》 《Forecasting: principles and practice》 后两本书是免费的,FPP是讲理论的,R的那本是实战。三本书基本上把时间序列分析基本的方方面面都覆盖到了 [ [微博](http://www.weibo.com/1932835417/BeTglxDEq) ] - * 第二组教程里有两个PPT http://t.cn/RPUnWmz http://t.cn/RPUnWmh 一个讲理论一个讲实战。在几篇博客里,特别推荐@敲代码的张洋 的 “时间序列分析基础” http://t.cn/RPUnWmP 基本概念,ARIMA/Ar/MA模型,R的实现都有,非常适合入门 [ [微博](http://www.weibo.com/5220650532/BeTHpBuXZ?mod=weibotime) ] - * 第三组基本概念,也推荐看这个博客上的图 http://t.cn/RPUmVGK , 简明扼要,要搞懂什么概念一目了然。基础概念有时域分析,频域分析,ARIMA模型和各种变种。英文维基介绍的很清楚 [ [微博](http://www.weibo.com/5220650532/BeTKjzWXc?mod=weibotime) ] - * 续时间序列分析入门24个资源 http://t.cn/RPUuHJU 再推荐更多进阶内容。Memect大数据精华区有很多Hadoop上的时间序列分析文章 http://t.cn/RPUmu9T Python精华区有统计实战和StatsModels等包的介绍 http://t.cn/RPUmu9H 最后推荐一个统计专家的专辑,有很多有趣的统计文章 http://t.cn/RPUmu9Q [完] [ [微博](http://www.weibo.com/5220650532/BeTRQs0iB?mod=weibotime) ] - -* 2014-07-23 http://t.cn/RPUxwc6 **万维网科学暑期学校的PPT上线了** Web Science Summer School 2014: Age of Data 院士级巨头Wendy Hall (ACM前主席),Nigel Shadbolt (英国政府公开数据领导者),Jim Hendler(语义网之父)等主讲。内容涉及链接数据,开放数据,数据分析等。共41个资源 感谢@lidingpku 推荐 [ [微博](http://www.weibo.com/5220650532/BeRusDWdT?mod=weibotime) ] - -* 2014-07-22 @呯呀么呯 问:**识别交通标志,怎么确定图片里有交通标志,具体在哪里**?答:这个应该算目标识别和物体识别,CV的经典教程都有object recognition的内容可以参考。具体到交通标志识别,Github上有些开源代码 Matlab C++ Java的都有http://t.cn/RPLR99i 计算机视觉@DeepGlint赵勇 是专家,推荐关注 [ [讨论](https://github.com/memect/hao/issues/12) ] [ [微博](http://www.weibo.com/5220650532/BeFSRtUKj) ] - * @朝花夕拾录: 正好发现一篇学术界的综述文,An overview of traffic sign detection methods http://t.cn/RPLdXUw [ [微博](http://www.weibo.com/3204614242/BeHKUs2la) ] - -* 2014-07-22 问:@北冥渔翁:**日常维护管理的有吗?dba方面**? 答:oracle dba在学习官方文档外,可以跟踪大神的博客,篇幅都不长且能很快掌握很多有用的实战经验。此外面试问题也反映了dba的技术要点。合集传送门 http://t.cn/RPLRu9v 推荐资深dba微博 @yangtingkun 有很多好文摘 http://t.cn/RPLRu9P [ [讨论](https://github.com/memect/hao/issues/10) ] [ [微博](http://www.weibo.com/5220650532/BeFY0AW0V) ] - * @老熊的三分地 (Jun Xiong) 也是Oracle DBA的资深专家,特别推荐他的同名的中文博客 laoxiong.net http://t.cn/a9OBev 很多干货 [ [微博](http://www.weibo.com/5220650532/BeHz6bKWo?mod=weibotime) ] - -* 2014-07-21 @AixinSG 昨天推荐了**CommonCrawl** .这是Google Adsense之父Gil Elbaz离开Google后,为了实现开放数据的理想创立的(他另一个项目是Factual)项目理想是解决大搜索引擎对数据的垄断,鼓励中小企业利用Web数据创业.最新的数据有50亿页面,541T.这里搜集CC相关资源 http://t.cn/RP2Hwxp 待续 [ [微博](http://www.weibo.com/5220650532/BexYIu4TO?mod=weibotime) ] - * 续1 这么大的数据显然没法下载处理 好在AWS提供了存储 http://t.cn/RP2Hn6t 可以直接跑Elastic MapReduce http://t.cn/RP2Hn6c 这里有示范代码 [ [微博](http://www.weibo.com/5220650532/Bey6WuG8B?mod=weibotime) ] - * http://t.cn/RP2D8XL 续2 CommonCrawl提供了MapReduce的示范教程 http://t.cn/RP2QGbz 更实战的例子来自Web Data Commons项目 http://t.cn/RP2QGbZ 综合使用了S3 EC2 SQS ElasticMapReduce 他们利用了100个EC2实例.在另一个例子里Lucky Oyster的工程师只用100美元,14个小时完成了4亿实体的索引 [ [微博](http://www.weibo.com/5220650532/BezJGC9aO?mod=weibotime) ] - * 续3 为了从这么大的数据里找到有用的信息,CC也提供了搜索引擎.如果想自己构造搜索引擎,它的数据格式也是公开的 http://t.cn/RP2RC0c [ [微博](http://www.weibo.com/5220650532/BeyvP1oY7?mod=weibotime) ] - * 续4处理500T处理即使在AWS上也太贵,太耗时了.好在matpalm提供了过滤和部分利用CC数据集的方法.它也集成了一些简单的文本处理和自然语言理解: boilerpipe, tika和stanford parser http://t.cn/RP2Ebmu [ [微博](http://www.weibo.com/5220650532/BeyAODJb8?mod=weibotime) ] - * 续5 CC更强大的应用在于提取结构化数据.正如Wikipedia培育了DBPedia和Freebase,CC在两个方向培养了更大的潜在市场:RDFa, Microdata等网页内嵌语义数据(至少30%的网页已经有这种数据),和网页链接结构图.Web Data Commons只是开始,工业应用前途无量 http://t.cn/RP2EXuC [ [微博](http://www.weibo.com/5220650532/BeyCm6821?mod=weibotime) ] - * 续6,最后提一下CC项目的关键人物Gil Elbaz,Nova Spivack等,他们都是用结构化数据改造现有的Web的传道士和战士,为此奋斗十年以上了.在学术界,这就是语义网的研究,如Jim Hendler也在CC顾问委员会里.http://t.cn/RP2n7vp CC的出现,可以说为语义网走向现实又提供了一个有力的武器 [ [微博](http://www.weibo.com/5220650532/BeyGAdEcQ?mod=weibotime) ] - -* 2014-07-21 **18个最热深度学习Github项目逐一介绍(合集)** http://t.cn/RPLwc9n 有 convnetjs, DeepLearnToolbox, Yusuke Sugomori's code, Lisa Lab's DeepLearningTutorials, deepnet, rbm-mnist 等。主流深度学习模型如DBN RBM CNN等都有,实现语言包括Python, C/C++, Matlab, Javascript, Java, Scala [ [微博](http://www.weibo.com/5220650532/BeANTBes5?mod=weibotime) ] - * 1)DeepLearningBenchmarks http://t.cn/RP2ZJi9 29星, 比较了Theano和其他几个实现的性能:eblearn, python numpy, torch5, torch 7。 不过列表有些老,都是2011年前的,新的项目没有加进去。 [ [微博](http://www.weibo.com/5220650532/BerraaXiZ?mod=weibotime) ] - * 2) n42 ,21星,一个nodejs的实现,可以直接npm install n42。实现了4个算法:Newral Network,Logistics Regressio,Stacked denoised Autoencodern,Deep Belief Nets。代码不长,适合学习。 [ [微博](http://www.weibo.com/5220650532/BeruFnfUA?mod=weibotime) ] - * 3)宗师Hinton的代码,23星,是Matlab的。实现了autoencoder,Restricted Boltzmann Machine(RBM) 。这个应用在图像领域。宗师出品,重要性不用解释。 [ [微博](http://www.weibo.com/5220650532/BerwWAQkE?mod=weibotime) ] - * 4)UFLDL-tutorial ,作者Dan Luu,94星 ,这是斯坦福深度学习公开课和 Andrew Ng's UFLDL(无监督特征学习和深度学习)教程的所有练习的解答。代码是Matlab的,作者声称对Octave兼容,所以理论上甚至可以从python调用。非常适合入门。 [ [微博](http://www.weibo.com/5220650532/BerzZ9Cuk?mod=weibotime) ] - * 5)kaggle-blackbox ,作者Zając,53星 ,这是2013年Kaggle无监督学习竞赛的一个实现 。它实现了一个随机森林算法和一个稀疏滤波算法。语言是Matlab,也可以用Octave跑。文档和说明参见 http://t.cn/RP2AUW6 [ [微博](http://www.weibo.com/5220650532/BerGcbw4R?mod=weibotime) ] - * 6) stanford_dl_ex http://t.cn/RP2A0tn 这是另一个斯坦福深度学习公开课的习题解答,24星,作者Andrew Maas 和Sameep Tandon。语言是Matlab。同样适合入门学习。 [ [微博](http://www.weibo.com/5220650532/BerJH4dN2?mod=weibotime) ] - * 7) Yusuke Sugomori(巣籠悠輔)的深度学习实现 http://t.cn/RP2As94 。这个有近600星,提供了5种语言的实现:Python, C/C++, Java, Scala,囊括了各种主流深度学习算法:DBN, CDBN,RBM, CRBM,dA, SdA, LR等。 [ [微博](http://www.weibo.com/5220650532/BerNd8giv?mod=weibotime) ] - * 8) convnetjs http://t.cn/RP22k0g 这个是目前最火的项目,有1300+颗星,实现了卷积神经网络,可以用来做分类,回归,强化学习等。可以直接npm install convnetjs。convnetjs上有很多很酷的可视化演示 [ [微博](http://www.weibo.com/5220650532/BerVgwlO9?mod=weibotime) ] - * 9) libdeep 这是个C的实现,目前54星。在Linux上可以安装到系统库,然后就可以在其他项目里调用了。如果追求性能,这是个好选择。 [ [微博](http://www.weibo.com/5220650532/Bes2crpZS?mod=weibotime) ] - * 10)rbm-mnist http://t.cn/RP2ySp8 这个是hinton matlab代码( http://t.cn/RP2ySpR )的C++改写,189星。它还实现了Rasmussen的共轭梯度Conjugate Gradient算法。 [ [微博](http://www.weibo.com/5220650532/Bes6Z7Wi7?mod=weibotime) ] - * 11) deepnet ,这个是GPU实现的深度学习算法,前向网络,RBM,DBN,Autoencoder, DBM, CNN包括了,底层用的CUDA 。目前282星。实现语言是Python,做到了简洁性与计算性能的良好结合,特别推荐。 [ [微博](http://www.weibo.com/5220650532/Besc1sHIk?mod=weibotime) ] - * 12) neural-networks-and-deep-learning,243星 ,这是作者的书Neural Networks and Deep Learning的配套代码,语言是Python。这本书是免费的,不过还没有写完,可以预览前几章 http://t.cn/RP2Ur99 [ [微博](http://www.weibo.com/5220650532/BesippKUH?mod=weibotime) ] - * 13)Lisa Lab的DeepLearningTutorials,也就是deeplearning.net上的教程和源代码。Python实现,是基于pylearn2和Theano的。目前500多星,非常火爆。他们的wiki上很不错的资源列表,如论文和数据集 http://t.cn/RP24oCB [ [微博](http://www.weibo.com/5220650532/Besnu8P7O?mod=weibotime) ] - * 14)OpenDL http://t.cn/RP24mYU 这是个很新的实现, 是基于spark的。语言是Java。除了spark还用到了Mallet机器学习包和JBlas线性代数包。更多spark参考请看大数据精华区的专题 http://t.cn/RP24mYb 。 [ [微博](http://www.weibo.com/5220650532/Besq1klg4?mod=weibotime) ] - * 15)deeplearning-class-2011 这个也是 UFLDF课程的一个实现,31星,语言是Octave,Matlab和Python (NumPy) [ [微博](http://www.weibo.com/5220650532/Bessvi1EA?mod=weibotime) ] - * 16) @丕子 的PG_DEEP 这是一个C++实现的Demo,目前有20星。代码相对简单,非常适合入门学习。 [ [微博](http://www.weibo.com/5220650532/BesurfAwg?mod=weibotime) ] - * 17) medal=Matlab Environment for Deep Architecture Learning,37星,是一个Matlab的示范库,也实现了RBM,DBN, CRNM等主流的模型。 [ [微博](http://t.cn/RPwDcRB) ] - * 18)DeepLearnToolbox ,Matlab实现中最热门的库,700多星,囊括了CNN, DBN, SAE, CAE等主流模型。非常简单好用。 [完] [ [微博](http://www.weibo.com/5220650532/Besx8dq9o?mod=weibotime) ] - -* 2014-07-21 问:@apple2811 **我需要Linux的资料** 答:不太清楚具体需要哪一类,先推荐些通用的:1)六篇入门导读,包括Linux的基本知识,学习Linux的攻略,以及在线学习资源列表 http://t.cn/RPLyqp0 2) 六个社区网站(中英文各半),包括官方网站,流量最大的社区,以及问答论坛 http://t.cn/RPLyqpO [ [讨论](https://github.com/memect/hao/issues/9) ] [ [微博](http://www.weibo.com/5220650532/BeBaq8acb) ] - -* 2014-07-21 问:@如果起居录 **语义网用于GIS、RS领域** 答:OGC在2000年制定GML1.0时就有RDFS版(不过后来给放弃了)。目前有W3C的Geospatial Semantic Web Community Group,几个国际工作会议,很多项目都与开放政府数据有关;GeoSPARQL, LinkedGeoData;数据库空间索引。合集传送门:http://t.cn/RPLGgIh [ [讨论](https://github.com/memect/hao/issues/3) ] [ [微博](http://www.weibo.com/5220650532/BeBCPyrVV) ] - -* 2014-07-21 问: @北冥渔翁 **oracle、 mysql 入门进阶** 答:数据库入门进阶资料包括: 参考书、在线教程、以及社区论坛的问答、例程与博客。参考书基本能上网找到电子版。先各举四个重要资源,不断更新中。1.mysql资源:注意MariaDB http://t.cn/RPLyXyb 2.oracle资源:侧重性能优化 http://t.cn/RPLyXyG [ [讨论](https://github.com/memect/hao/issues/7) ] [ [微博](http://www.weibo.com/5220650532/BeBbAvTj4?mod=weibotime) ] - ** 2014-07-22 学习数据库, @何_登成 的微博一定要追!他最近推荐的一些MySQL的资源整理在这里 http://t.cn/RPLg6Gd [ [微博](http://www.weibo.com/5220650532/BeHRXulrk?mod=weibotime) ] - -* 2014-07-18 @小77you 提问:**java 进阶的课程主要学哪些**? 回答:整理了一组资源,见 http://t.cn/RPZBw3D 。讲讲大原则,关键还是看你的兴趣与职业发展取向。 1. 读书学习:改善编程风格,加强团队合作能力;系统架构与设计;后台性能优化; 2. 浪迹江湖:跟踪最新技术;通过网络交流共同进步。 [ [讨论](https://github.com/memect/hao/issues/2) ] [ [微博](http://www.weibo.com/5220650532/Be6Io9BwN) ] - -* 2014-07-18 问:@曲线救己的fighter **求hive** 答:正好有一组经大数据专家 @ShangguanRPI 整理的Hive资源(2012至今已经有27个帖子了) http://t.cn/RPwI2lO 在这个比较贴里,作者详细比较了Hive和其他的Hadoop上的SQL工具 http://www.weibo.com/1932835417/BaukhlfIT [ [讨论](https://github.com/memect/hao/issues/4) ] [ [微博](http://www.weibo.com/5220650532/Be9Uxd5QX) ] - -* 2014-07-18 问: @apple2811 **我需要找js的资料**? 答:见 http://t.cn/RPwtZB0 进阶主题包括 jquery, node.js, pattern, functional, closures, 性能优化 、可视化等。 推荐进阶阅读: 1、90页例程覆盖JS技术要点。 2、纽约大学的JS进阶课 3、原Yahoo大牛 Douglas Crockford的书,被无数人推重 [ [讨论](https://github.com/memect/hao/issues/5) ] [ [微博](http://www.weibo.com/5220650532/Be9tM2Iuj) ] - -* 2014-07-18 @lovesherlock 问:**有没有可以保存自己微博信息的软件或者代码什么的**? 答:我们现在小范围开放个人微博信息的保存, 例如此前推荐的大牛骆逸的微博合集收藏 http://t.cn/RPZdL42 我们也提供单条微博的收藏,把微博变成可引用的卡片,例如 http://t.cn/RPZdL4y 纯图片 http://t.cn/RPZdL4L 图文 [ [讨论](https://github.com/memect/hao/issues/6) ] [ [微博](http://www.weibo.com/5220650532/Be6UJpAkm) ] - -* 2014-07-16 @跛嘞盖儿蹭马路牙子上卡秃噜皮了 问:**数据具有统计分析的价值么?请问能不能结合链数据的特点和R来谈谈**。简答如下:Linked Data作为数据的一种,当然也可以做统计分析。可以看作Statistical relational learning的扩展。全文 http://t.cn/RP7oQxk 推荐资源的合集 http://t.cn/RP7oQxF [ [讨论](https://github.com/memect/hao/issues/1) ] [ [微博](http://www.weibo.com/3161813504/BdMlxjDb0) ] - -## 文摘与点评 - -* 2014-07-22 @龙星计划 计算机方面的经典资料可以参见这个博客。http://t.cn/Rv6rzrj 维护者@52cs [ [微博](http://www.weibo.com/1830516311/BeNwacwCd) ] - - -* 2014-07-22 @AixinSG 推荐大数据综述文章 Toward Scalable Systems for Big Data Analytics: A Technology Tutorial 36页长文免费下载 http://t.cn/RPLDPNK 文章引用接近300篇文献,涵盖数据生成,获取,存储,及分析等主要技术综述 @云教授之云媒体 [ [微博](http://www.weibo.com/1025887594/BeI3I8mMZ) ] - - -* 2014-07-21 @城市数据派-UDParty(城市规划) -【全球 55 个城市数据分享平台( Urban Observatory)】城市瞭望台( Urban Observatory)项目:全球 55 个大城市在此分享城市数据,这将是世界上第一个真正意义上的公共瞭望台。同步对比影响世界城市的重要因素,交通、人口、道路速度、开放空间、年轻人口、老年人口等。详见:http://t.cn/RPLqc8T [ [微博](http://www.weibo.com/3926512618/BeBFodmIo) ] - - -* 2014-07-19 @LiLei-Berkeley -Probabilistic Programming summer school 在Portland顺利结束 教学资料见 http://t.cn/RPAURgG 来自Berkeley,MIT, Stanford等大学企业的教授和研究员讲解了 BLOG, Church, Figaro, Venture 等概率程序语言。 @jxwuyi [ [微博](http://www.weibo.com/5068751438/BehRmyljr) ] - - -* 2014-07-19 @AixinSG 大牛给的信息检索方面综述文章列表,涵盖IR方向N多问题 http://t.cn/RPAL69M [ [微博](http://www.weibo.com/1025887594/Behxw9itr) ] - - -* 2014-07-18 @我爱机器学习 【Awesome Machine Learning】http://t.cn/RPZ80gD 一个超级完整的机器学习开源库总结,如果你认为这个碉堡了,那后面这个列表会更让你惊讶:【Awesome Awesomeness】http://t.cn/RPZ80gk 各种编程语言等都有汇总,值得收藏以备不时之需。 [ [微博](http://www.weibo.com/5066241201/Be5JrDaVM) ] - - -* 2014-07-17 @朝花夕拾录 [资源贴] cassendra 2.1 beta rc3新特性:1、 用户自定义数据类型(UDT):支持集合类型Set和Map,以及其上的二级索引; 2、读写速度提高超过50%;3、行数据的聚集(cluster)与缓存(cache);4、counter设计优化,提高安全和一致性;5、更好的压缩机制,用commit log绕过直接读写 http://t.cn/RPzKcaH [ [微博](http://www.weibo.com/3204614242/BdUTtkSrl) ] - - -* 2014-07-17 @唐杰THU 推荐密歇根的H V Jagadish、康奈尔及微软Partner Scientist JOHANNES GEHRKE, Fellow RAGHU RAMAKRISHNAN等数据库专家在Communication of ACM上关于《大数据技术挑战》,从数据获取、抽取、清洗、集成和建模几个过程阐述其中的数据不一致、不完整、动态、隐私等面临的挑战。http://t.cn/RPzk8wG [ [微博](http://www.weibo.com/2126427211/BdYGPBxV8) ] - - -* 2014-07-17 @hbyido 大量的专业书 数学书下载,推荐 万千合集站 一个专注于资源整理、分类和提供免费下载服务的网站 http://t.cn/RvUYeY7 http://t.cn/RvUYeY7 [ [微博](http://www.weibo.com/1646706835/Be1wvuzmc) ] - - -* 2014-07-16 @西瓜大丸子汤 Jim Hendler今天的视频和PPT: Semantic Web: The Inside Story 强烈推荐搞人工智能的同仁都看看 http://t.cn/RP7CLin 语义网作为符号主义走向应用的尝试,也曾获得与深度学习类似的投资与眼球。结合前两天关于AI winter的讨论,其在今天尤其有参考意义 http://t.cn/RP7CLim @王海勋haixun @Gary南京 [ [微博](http://www.weibo.com/1932835417/BdMYzDNz6) ] - -* 2014-07-16 @西瓜大丸子汤 http://t.cn/RP7Q1pR 深度学习70+条学习资源。这70多条是从Memect用户过去两年的阅读列表里精选出来的,每一条都经过了人工的过滤。从入门到进阶,各大个公司的应用案例,各种软件包的介绍,实战汇报,基本都是实用内容,理论联系实际。随后我们还会特约专家加以导读和点评。[ [微博](http://www.weibo.com/1932835417/BdOlKoAE0) ] - - -* 2014-07-16 @52nlp "线性代数的学习及相关资源" http://t.cn/zOQBTSC , 这个里面汇集了资源,包括电子版教材, “找到一个不错的电子版,非扫描版并且是第4版:Introduction to Linear Algebra_4ED_Strang” ,昨天有同学私信说爱问的已经废了,刚才上传到百度网盘并做了私密分享,感兴趣的同学请在该文尾部找答案。 [ [微博](http://www.weibo.com/2104931705/BdOSF3lrP) ] - - -* 2014-07-16 @朝花夕拾录 [资源贴]续上文 http://t.cn/RP7N6AS 目前整理出了80多个大数据可视化工具:http://t.cn/RP7N6AK javascript类51个,地图类有21个 ,图表类34个,svg类15个;继续增补中,欢迎指正。 --题外话,大数据可视化也要用美女打广告。猜猜那个帅哥是哪个工具的“代言人”,期待大数据展会的“数模” [ [微博](http://www.weibo.com/3204614242/BdNc7rpSB) ] - -* 2014-07-15 @朝花夕拾录 [资源帖]12个#大数据#可视化工具合集汇总,超过一半2014年新出炉。涵盖超过50个#可视化工具#(表格,地图,时间轴,动态图表,树,有向图等),大约80% #javascript#包,例如d3.js,timeline.js,Springy.js。如果说大数据分析是一场足球赛,那数据可视化就是临门一脚。 http://t.cn/RPh1qz5 [ [微博](http://www.weibo.com/3204614242/BdGhf1CNK) ] - -* 2014-07-13 @西瓜大丸子汤 http://t.cn/RPvS3im 大数据书籍推荐新增 Cloudera Impala;Apache Sqoop Cookbook;Outlier Detection for Temporal Data;Big Data Now: 2013 Edition。免费pdf推荐:Social Media Mining ,另有9本免费的数据挖掘与数据分析 http://t.cn/RPvS3in [ [微博](http://www.weibo.com/1932835417/BdlrtpCfV) ] - * @西瓜大丸子汤 9本免费的数据挖掘书之1)Mining of Massive Datasets 斯坦福三大教授Leskovec Rajaraman Ullman 联手推出的免费书,500多页,不是简单的数据挖掘,而是大数据挖掘 http://t.cn/RPv8GTa 这本书的第三章相似分析,第五章链接分析,第九章广告系统当年在我工作中很有用 更多大数据书http://t.cn/RPvS3im [ [微博](http://www.weibo.com/1932835417/BdnvPATOn) ] - * @西瓜大丸子汤 9本免费的数据挖掘书之2)Data Jujitsu(数据柔术)如何解剖复杂数据,利用替代分析技巧,利用人工分析如Mechanical Turk。我觉的这本书最好和Bad Data一起看 http://t.cn/RPvEhRz 数据挖掘的真实效果80%在数据清理和人工,不是算法。传送门 http://t.cn/RPvEhRZ 更多大数据书http://t.cn/RPvS3im [ [微博](http://www.weibo.com/1932835417/BdnHhEApb) ] - * @西瓜大丸子汤 9本免费的数据挖掘书之3)Data Mining Algorithms In R http://t.cn/RPPm0Bk 这是一本Wiki书,也就是维基百科上有关的条目组织形成的书。覆盖了:降维方法,常见模式挖掘, 序列数据挖掘,聚类,分类,和R的数据挖掘包导航(RWeka gausspred optimsimplex 等)更多大数据书http://t.cn/RPvS3im [ [微博](http://www.weibo.com/1932835417/BdwSOo0ap) ] - * @西瓜大丸子汤 9本免费的数据挖掘书之3.1)续上http://t.cn/RPP33gn Data Mining Algorithms In R这书原始格式是网页,不易阅读下载,特制作pdf版,266页 http://t.cn/RPP33gR 。同时推荐Yanchang Zhao的R and Data Mining,160页,都是实战例子 http://t.cn/RPP33gE 如觉得好请支持作者 http://t.cn/RPP33gm [ [微博](http://www.weibo.com/1932835417/Bdx6JeqYf) ] - * 9本免费的数据挖掘书之4) Theory and Applications for Advanced Text Mining http://t.cn/RPP10t2 这是本理论书,作者大都是学术界的。主题是高级的文本挖掘,如关系提取,时间关系提取,文章总结,本体学习,实体提取等各种高大上专题。了解前沿不可不看。更多大数据书http://t.cn/RPvS3im [ [微博](http://www.weibo.com/1932835417/BdxbrtlOf) ] - -* 2014-07-13 @鲍捷AI http://t.cn/RPvxGHA OpenRefine是一个数据清理的优秀工具。它根源于MIT David Karger实验室的研究。该实验室在交互式数据处理的前沿。David Huynh把这个研究带到MetaWeb,也即Freebase团队。被Google收购后,工具改称Google Refine。后来开源成为OpenRefine。这组资源包括了9个必读博客和教程 [ [微博](http://www.weibo.com/3161813504/BdkfSsGI5) ] - ** @西瓜大丸子汤: Freebase是Google知识图谱的前身。从Wikipedia到Freebase再到知识图谱,不仅有机器的数据清理,也有海量的人工数据清理任务。Google Refine在其中的作用不容低估。具体数值不详,不过来自类似系统TrueKnowledge的报告说:0.1%的手工编辑就可以覆盖10%的用户查询 http://t.cn/RPvxjIF [ [微博](http://www.weibo.com/1932835417/Bdkn96ZY7) ] - -* 2014-07-13 @西瓜大丸子汤 http://t.cn/RPvoO88 Python免费书54本,都可以pdf下载。从入门到自然语言处理,科学计算,概率论,经济学,生物信息学,多媒体,密码学,计算机视觉,游戏,社交媒体分析...必有一本适合您 [ [微博](http://www.weibo.com/1932835417/BdlxBqVj1) ] - -* 2014-07-12 @赵家平USC Jeff Hinton组把deep CNN(CovNets)在ImageNet上train好的模型放到网上了,试了下classification, retrieval, image2text的在线demo, amazing! http://t.cn/Rvs0Pvj 最重要的是他们的source code以及installation & documentation 也一并公布,超过Rob Fergus学生的Clarifai http://t.cn/8kL993u [ [微博](http://www.weibo.com/2288385870/Bdcr2jitr) ] - -* 2014-07-12 @西瓜大丸子汤 http://t.cn/RvsoYMd @骆逸 的微博里提到很多Python干货。从过去两年的微博里选出一百多条,有适合入门的书籍和教程推荐,有机器学习,网络编程,推荐系统,各种实战总结(360, instgram),PyCon等等。http://t.cn/RvsQc5G 和机器学习有关的帖子质量也很高,不少也是和python有关的. 我当年学Python的时候就从@骆逸 的帖子里受益匪浅。大牛以前在雅虎,如今是毕肯互动的CEO [ [微博](http://www.weibo.com/1932835417/BdbNddaCA) ] - -* 2014-07-12 @西瓜大丸子汤 http://t.cn/Rvs9BBQ 语义网同仁的福利:本体映射Ontology Mapping项目汇总,一共20多个。入选的都是现在还在活跃的项目,很多都有开源代码。早年的一些项目现在不怎么维护的看这里 http://t.cn/Rvs9BBH @老淘 @潘越_ 徐涵W3China @白硕SH @顾进广 @胡安-格里斯 @昊奋 @唐杰THU @程龚_NJU @汪鹏_SEU [ [微博](http://www.weibo.com/1932835417/Bdc2HxX6g) ] - -* 2014-07-12 @朝花夕拾录 #Swift# 资源合集: 官方博客今日(7/11)上线,并两个相关博客。还有4个社区资源导航贴合集,包括 @SwiftLanguage 提供的中文版。最后是Swift PDF合集(包括 8个WWDC的演讲稿,两个官方iBook参考书的PDF版)http://t.cn/RvsJrLy [ [微博](http://www.weibo.com/3204614242/Bdascij7d) ] - -* 2014-07-11 @网路冷眼 必须观看的Javascript视频!!!】GitHub网站上 http://t.cn/RvFF0AU 收录了2009年至今必须观看的Javascript视频,其作者Nicholas Zakas,Douglas Crockford...都是Javascript江湖响当当的人物,精彩不容错过! [ [微博](http://www.weibo.com/1715118170/Bd7K4yyRG) ] - -* 2014-07-11 @网路冷眼 Docker现在大火,http://t.cn/RvF7fxB 推出史上最全Docker中文资料集萃。真的狠赞![赞] [ [微博](http://www.weibo.com/1715118170/Bd7A4CXMs) ] - -* 2014-07-11 @西瓜大丸子汤 Python贝叶斯工具续 http://t.cn/RvFf2Q9 前面介绍过PyMC,Infer.net 此外@朝花夕拾录 还介绍过emcee和pystan。在实战中怎么用呢?bayesian-python这个系列收集了14篇相关文章。http://t.cn/RvFfwUy 这5篇总结了几个工具的实战例程。要节约时间就看系列第一篇总结的表,一目了然 http://t.cn/RvFfwUL [ [微博](http://www.weibo.com/1932835417/Bd1jO3N6N) ] - -* 2014-07-10 @西瓜大丸子汤 刚才说到python优化,举个具体的例子 Gensim的作者把word2vec(深度学习)做了几个经典优化:循环,numpy/BLAS,cython,多线程(真的可以)结果效率提高了上千倍,比Google开源出来的原始C版本还快3倍。他最近还写了个word2vec教程。无论是学习word2vec还是python优化,都不可不看 http://t.cn/Rvkt0Hk [ [微博](http://www.weibo.com/1932835417/BcSwEc2iu) ] - -* 2014-07-10 @朝花夕拾录 白宫和麻省理工于今年三月举办了“大数据的个人隐私研讨会”。麻省理工校长主持,白宫大数据顾问、美国商业部部长作了主题演讲,还有一堆麻省理工和哈佛的教授研讨了关键技术,包括数据库,加密,匿名,日志分析,语义推理等。相关资源包括每个演讲的视频,以及八个可下载的PPT。http://t.cn/Rvk5BnL [ [微博](http://www.weibo.com/3204614242/BcSoNduiM) ] - ** 刚刚整理出了4个大数据信息安全关键问题: *数据收集,如何签订合理的用户知情协议 *数据共享,如何保障透明度,控制使用权限,防止数据泄露 *数据使用,如何避免重新识别攻击,防止意外地侵犯个人权益 *数据监管:如何在不同的环境(国家、政府、组织、政策)中监管大数据的运营 [ [微博](http://www.weibo.com/3204614242/BcSJGkVZQ) ] - -* 2014-07-09 @西瓜大丸子汤 http://t.cn/RvDWJ20 23个python的机器学习包,从常见的scikit-learn, pylearn2,经典的matlab替代orange, 到最新最酷的Theano(深度学习)和torch 7 (well,其实lua,不过从ipython调用很容易),基本常用的通用python机器学习平台都有了。 [ [微博](http://www.weibo.com/1932835417/BcLRAbXWr) ] - -* 2014-07-09 @西瓜大丸子汤 在推荐一本我最近正在看的书Probabilistic Programming and Bayesian Methods for Hackers 贝叶斯方法实战,用Python来解释各种概率推理方法,有代码有真相。基于PyMC 包,解剖了MCMC ,大数定律,金融分析等概念与应用。Github上已经有5000颗星。更多python统计方法资源 http://t.cn/RvDJLy6 [ [微博](http://www.weibo.com/1932835417/BcKj0k0Wx) ] - -* 2014-07-09 @朝花夕拾录 #大数据#产业化的一个重要指标:超过20家美国商学院(例如UVA,RPI,GWU)开设了大数据和数据分析硕士课程,而且有一半学校的课程只要一年就能毕业。这个可是转型成高富帅的绝佳机会呦。http://t.cn/RvDVtXm --我是分割线-- 呵呵,还有个IIT,这可不是印度学校,是伊利诺伊理工大学。 [ [微博](http://www.weibo.com/3204614242/BcJOW5uIt) ] - -* 2014-07-09 @西瓜大丸子汤 Spark Summit 2013的PPT和教程合集整理在此 http://t.cn/RvDVO9I ,一共33个。和昨天放出了60个Spark Summit 2014的PPT一起,基本涵盖了近期spark的动态与产业布局。http://t.cn/RvewMsv 和去年比,今年峰会的内容无论数量还是应用的广度与深度,都大幅增长了。例如去年没有自然语言处理,今年有两个 [ [微博](http://www.weibo.com/1932835417/BcJR80Opo) ] - -* 2014-07-08 @何_登成 分享下最近看的几篇关于分布式KV/NoSQL的论文与资料:1. aerospike http://t.cn/RveVR9I 2. facebook memcache http://t.cn/RvjMGCj 3. redis cluster http://t.cn/zRPS3Q8 4. 腾讯CKV http://t.cn/8s7PSiN 5. 淘宝Tair http://t.cn/zjkhVoF 简单点评:架构大同小异,各有特色,可相互借鉴。[ [微博](http://www.weibo.com/2216172320/BcB68hq0Q) ] - -* 2014-07-08 @西瓜大丸子汤 Spark Summit 2014全部PPT合集 http://t.cn/RvewMsv Spark是新一代大数据处理平台,基于内存的集群计算使它比MapReduce快一百倍,非常适合迭代计算和并行机器学习。合集包括了全部60个演讲的PPT(除了一个链接失效)预览和下载。AMP Lab, Databricks, Cloudera, MapR, Amazon等重量级厂家一网打尽 [ [微博](http://www.weibo.com/1932835417/BczEbsqJz) ] - -* 2014-07-07 @西瓜大丸子汤 -继续推荐几个python NLP的资源。http://t.cn/RvgckyQ NLTK book是入门必读。 http://t.cn/RvgckyY @陈涛sean 做了中文翻译《用Python进行自然语言处理》可免费下载。http://t.cn/RvgckyH Jimmy Lin(前马里兰教授)有书和博客讲并行NLP http://t.cn/RvgckyT 基于Hadoop 和MR [ [微博](http://www.weibo.com/1932835417/BcsuDegCM) ] - -* 2014-07-07 @ansj 500w 的公司名录,只包含公司名称 , 用来做组织机构命名实体识别.链接: http://t.cn/Rvgy9sg 密码: 3a1q http://t.cn/Rvgy9oC [ [微博](http://www.weibo.com/1434895303/BcrHqhZMK) ] - -* 2014-07-06 @西瓜大丸子汤 http://t.cn/RvdhLRA Text Processing in Python 一本讲python文本处理的小书,涵盖了基本字符串,正则表达式,状态机,和互联网文本处理的基本点。印刷版在亚马逊上卖41刀,文字电子版免费下载 [ [微博](http://www.weibo.com/1932835417/Bch0GlR1u) ] - -* 2014-07-05 @王威廉 -鉴于大家对Wasserman的统计笔记反响不错,我就再推荐一本他的经典统计入门教材All of Statistics: A Concise Course in Statistical Inference http://t.cn/RvrzVBw pdf: http://t.cn/RvrzVBA 这本书获得过国际贝叶斯分析协会的DeGroot奖。[ [微博](http://www.weibo.com/1657470871/Bc7QqbYSV) ] - -* 2014-07-04 @西瓜大丸子汤 把最近比较重要的关于Watson的资料分了类 十多个pdf http://t.cn/Rv1BOxx IBM自己的介绍 http://t.cn/Rv1BOxX 媒体报导 http://t.cn/Rv1BOx6 Watson在卫生领域的应用 http://t.cn/Rv1BOxJ 音频视频 http://t.cn/Rv1BOxi 其他应用 http://t.cn/Rv1BOxa [ [微博](http://www.weibo.com/1932835417/BbXC4v3ec) ] - -* 2014-07-04 @朝花夕拾录 七月三日新鲜出炉 #大数据#资源帖。。。24个知名掌门级别(CxO)大数据专家及其推特账号。有来自于大企业的(例如Google, KDnuggets, TeraData,IBM,和Ford ),但更多的来自创新企业。咱不指望他们都会编Hadoop程序,但他们在业内的影响力那是刚刚嘀--全是推特万人大V。 http://t.cn/RvBJqDr [ [微博](http://www.weibo.com/3204614242/Bc1c2bbHT) ] - -* 2014-07-03 @西瓜大丸子汤 http://t.cn/Rv3gsW2 今天的一大新闻是IBM的BlueMix:基于Watson自然语言问答系统的云服务。以前的工作也和问题有关,这里先放几篇读过的Watson的文章和slides。AAAI Magzine 2010的文章有点老,不过作为提纲还是推荐一读。IBM Journal 2012专辑选了3篇文章,在语言解析与语义数据的应用 [ [微博](http://www.weibo.com/1932835417/BbPNRnN0J) ] - -* 2014-06-24 @西瓜大丸子汤 http://t.cn/RvYTJ3r 《世界杯的大数据和小数据》这组专题汇集了2010和2014年世界杯的数据。2010年BBC利用语义数据做了动态新闻发布,降低记者写作和BBC的内容发布成本。OpenLink今天发布了2014世界杯数据的RDF版,包括各队,球员和分组的可查询数据。还有football.db历年的数据,和World Cup in JSON [ [微博](http://www.weibo.com/1932835417/Bar9NnkmF) ] - -* 2014-06-24 @ShangguanRPI -作为看到整篇整篇java mapreduce代码就想吐的scala脑残粉,肯定不能放过scalding。放出平时积累的一点scalding的学习资料,http://t.cn/RvYmfSX。 - - -* 2014-06-21 @朝花夕拾录[资源帖]十几个图像处理中常用的python包。NumPy和SciPy必装,图像处理:PIL/PILLOW入门,SimpleCV进阶,OpenCV专业。还有Mahotas ,ilastik,MedPy多用于生物医学多维图像处理。辅助工具:scikit-learn机器学习,sh5py数值数据存储(numpy数组),pprocess并发处理。http://t.cn/RvWmogb [ [微博](http://www.weibo.com/3204614242/B9YZ3ftu3) ] - -* 2014-06-21 @朝花夕拾录 [资源帖] pypy3.2.1(Fulcrum,支点)于6月20日发布。http://t.cn/RvlC1JG 是第一个pypy3稳定版,支持python3.2.5,改进了unicode,JIT,GC。 参考:cpython, jython(java), ironpython (.net). 讨论:还不支持numpy,ctypes(但有numpypy);windows 64bit还不支持;有人测出了7倍加速(一般4~5倍)。[ [微博](http://www.weibo.com/3204614242/Ba5pTw5bo) ] - -* 2014-06-20 @朝花夕拾录 五篇python贝叶斯入门短文,以及三个常用工具: emcee , pymc, pystan, http://t.cn/RvOj4nM 顺路说说统计学两大门派: 频率派(Frequentists)和 贝叶斯派(Bayesians) *Frequentists的长远目标是只有5%的时间犯错误 *Bayesians隐约期待马,瞥见一头驴,坚信(95%的可能性)他看到了一头骡子 [ [微博](http://www.weibo.com/3204614242/B9MZ7kdEv) ] - -* 2014-06-20 @ShangguanRPI Pivotal是一家新兴的大数据和企业PaaS解决方案提供商,由EMC、Vmware和GE在2013年合资成立,将自家的大数据技术重新架构在Hadoop平台上。这个专题资源汇总了20多篇Pivotal产品的介绍和新闻,如MPP SQL on Hadoop,在Docker上部署Hadoop,如何用PivotalR做大数据分析等 http://t.cn/RvOBEIF。[ [微博](http://www.weibo.com/1663264965/B9QvKpz94) ] - -* 2014-06-19 @朝花夕拾录 #大数据专题# 12个与#2014世界杯#相关的在线资源:(1)总结如何预测冠军得主;(2)大数据应用例程(bing, sas, rapidminner); (3)免费在线数据库,可下载(football.io, json api)。 http://t.cn/Rv0OOd2 [ [微博](http://www.weibo.com/3204614242/B9EtcxrE4) ] - -* 2013-09-20 @developerWorks 免费电子书《面向程序员的数据挖掘实战指南》,侧重实例,以 Python 语言讲解。目前已完成6章,仍在更新中,并且提供 PDF 下载。http://t.cn/zWQEQH8 作者:Ron Zacharski cc @ResysChina [ [微博](http://www.weibo.com/1894238970/Aai5HCiWx) ] - -* 2013-01-28 @陈利人 【机器学习中的数学系列】回归、梯度下降 http://t.cn/hDoULu ;线性回归,偏差、方差权衡 http://t.cn/Sxppf2 ;模型组合之Boosting与Gradient Boosting http://t.cn/SP05f3 ;线性判别分析, 主成分分析 http://t.cn/SAeY2U ;强大的矩阵奇异值分解及其应用 http://t.cn/akJxgj [ [微博](http://www.weibo.com/1915548291/zgzoTcvzL) ] - -## 通知与声明 - -2014-09-10 @好东西传送门 的粉丝里谁转发好东西最多?前10名:1 @Noodles-Xu 2 @LR机器学习计算机视觉 3 @海中的沙粒 4 @hbyido 5 @-单世民- 6 @武文骁很忙也很胖 7 @侠女无敌-曾佩玲 8 @彤言彤趣 9 @yutho 10 @季波USTC [good] [ [微博](http://www.weibo.com/5220650532/BmiMf0Fu4) ] - - - - -2014-08-06 @好东西传送门 是开源的,任何人都可以贡献好的文献、代码或商业产品。你可以fork一份github库,并在awesome目录下建立一个文件,内容就是链接(文字描述可选)例 http://t.cn/RPal5fW 提交一个pull请求,剩下的就交给传送门了。您的贡献会被署名 [ [微博](http://www.weibo.com/5220650532/Bh2oIc33V?mod=weibotime) ] - -
- - -2014-08-04 @好东西传送门 开源5天,已经有了88颗星。这里解释一下开源政策:为了鼓励好东西的传播,我们采用了Creative Commons Attribution-NonCommercial-ShareAlike 4.0许可证:Github上的内容可以被自由分享和改编,但需用同样的许可证发布,致谢@好东西传送门 并不得用于商用 http://t.cn/RPiYr2f [ [微博](http://www.weibo.com/5220650532/BgEucqeEz?ref=) ] - -* 2014-07-31 开源的好东西传送门:今天我们已经把所有的问答和文摘都整理到Github上了,查看别人已经问过的问题更加容易。你可以一键复制,拥有自己不会丢失的好东西列表。也可以关注项目获得更新通知。如果你关心大数据、机器学习、数据库、Web、Python(话题增长中)去加星收藏吧 http://t.cn/RPfAgNg [ [微博](http://www.weibo.com/5220650532/Bg436jjPL?mod=weibotime) ] - -* 2014-07-31 这样认领问题:去Github Issue列表下面 http://t.cn/RPI5jaZ 找一个感兴趣的问题,回复你想分享的资源链接,也可附简单评语。请留下你的微博帐号(或其他联系方式),好东西传送门会整理后贴出你的答案并注明贡献者是你 [ [微博](http://www.weibo.com/5220650532/Bg3zxFnR5?mod=weibotime) ] - -* 2014-07-30 传送门也有微信了,去扫描吧。或者按名字直接加“好东西传送门”。微信会更多承载每日精华整理的功能。如果错过了微博上的好东西,微信上还会看到。转发一下,让更多人看到最精彩的技术好东西! [ [微博](http://www.weibo.com/5220650532/BfXB5Esip?mod=weibotime) ] - -* 2014-07-30 http://t.cn/RPfAgNg 好东西传送门所有问答和推荐资源合集现在都放在Github上了!每个问题都有自己的讨论页,可讨论增补。目前还有十多条未完成问题,欢迎各位专家帮忙认领回答!8月5日前转发最多的两条答案将获赠 @TechCrunch中国 国际创新北京峰会双日VIP票,本来3200一张哦! [ [微博](http://www.weibo.com/5220650532/BfVwN1Q2a?mod=weibotime) ] - -* 2014-07-28 回复@silverhawk_ny:轻问答就是相对知乎这样的“重”问答工具而言,利用机器生成大量的知识卡片,问答时回答问题的人只要利用自己的知识,快速组织卡片。一般这个过程不需要写长文,几分钟就可以完成,所以叫“轻”//@silverhawk_ny:轻问答是什么意思? [ [微博](http://www.weibo.com/5220650532/BfE4rFyXR?mod=weibotime) ] - -* 2014-07-28 《好东西传送门到底是什么?》 很多人问这个帐号到底是什么?答:它是一个网上资料的人肉搜索引擎。它集成了一群微博上的好人,以最简练的方式,帮大家找到最精华的资源。达到这个目的手段有三:知识卡片,人肉知识桥梁,轻问答。这是不是你想要的“好东西传送门”?欢迎讨论!http://t.cn/RPtMEmu [ [微博](http://www.weibo.com/5220650532/BfCrt3FO2?mod=weibotime) ] - +最新的内容请看好东西周报 [http://haoweekly.memect.com/](http://haoweekly.memect.com/) , 每周更新 +2014-11以前的内容看 [存档](https://github.com/memect/hao/blob/master/archive-2014.md) From 2eca41292475a8de10c5d0db4bd7f6e082800b75 Mon Sep 17 00:00:00 2001 From: Memect Date: Thu, 12 Feb 2015 23:26:52 -0800 Subject: [PATCH 485/485] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 8e8694c..bc1fb16 100644 --- a/README.md +++ b/README.md @@ -23,7 +23,7 @@ -2. [订阅好东西周报](http://memect.co/n4BNxmj) (邮件列表,每周的问答与资源推荐合集,大约每周五发) +2. [订阅好东西周报](http://haoweekly.memect.com/) (邮件列表,每周的问答与资源推荐合集,大约每周五发) ### 使用许可