<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>评论：百度真的更懂中文</title>
	<atom:link href="http://www.adamjiang.com/blog/archives/185/feed" rel="self" type="application/rss+xml" />
	<link>http://www.adamjiang.com/blog/archives/185</link>
	<description>蒋超的个人博客</description>
	<lastBuildDate>Thu, 09 Sep 2010 02:48:11 +0000</lastBuildDate>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0</generator>
	<item>
		<title>来自：jcadam</title>
		<link>http://www.adamjiang.com/blog/archives/185/comment-page-1#comment-26</link>
		<dc:creator>jcadam</dc:creator>
		<pubDate>Sun, 28 Dec 2008 12:02:23 +0000</pubDate>
		<guid isPermaLink="false">http://www.adamjiang.com/blog/?p=185#comment-26</guid>
		<description>关于百度和谷歌的争论很早就开始了，这里有两篇顶Google的文章。一篇提到了索引的速度比较，
http://kangkang.blogchina.com/mac/5958687.html
另外一篇是分词技术。
http://robertmao.com/archives/1345/

“来自Google的Peter Norvig， &quot;Statistical Learning as the Ultimate Agile Development Tool. &quot;. 
......
演讲中他用分词作为例子，你可以看到采用大量数据统计为基础实现分词的核心代码只需要大概10来行Python代码, 当然这个能解决中文的问题。  一些号称中文分词是其核心技术的公司和学术人士们的确要醒一醒了，不过很多人也可能醒着但仍然扛着招牌吓人而已。  （Google的基于统计的分词应该是现在在使用中的技术，其核心很简单，但需要大量的文档作为training, 以及海量计算资源）&quot;</description>
		<content:encoded><![CDATA[<p>关于百度和谷歌的争论很早就开始了，这里有两篇顶Google的文章。一篇提到了索引的速度比较，<br />
<a href="http://kangkang.blogchina.com/mac/5958687.html" rel="nofollow">http://kangkang.blogchina.com/mac/5958687.html</a><br />
另外一篇是分词技术。<br />
<a href="http://robertmao.com/archives/1345/" rel="nofollow">http://robertmao.com/archives/1345/</a></p>
<p>“来自Google的Peter Norvig， &#8220;Statistical Learning as the Ultimate Agile Development Tool. &#8220;.<br />
&#8230;&#8230;<br />
演讲中他用分词作为例子，你可以看到采用大量数据统计为基础实现分词的核心代码只需要大概10来行Python代码, 当然这个能解决中文的问题。  一些号称中文分词是其核心技术的公司和学术人士们的确要醒一醒了，不过很多人也可能醒着但仍然扛着招牌吓人而已。  （Google的基于统计的分词应该是现在在使用中的技术，其核心很简单，但需要大量的文档作为training, 以及海量计算资源）&#8221;</p>
]]></content:encoded>
	</item>
</channel>
</rss>
