登录  
 加关注
查看详情
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

博客顺风

——当思考成为习惯,成功将随之而至。

 
 
 

日志

 
 
关于我

名吴波,中国企业家世纪论坛副主席,九三学社社员,新浪微博社区委员会专家成员,打的宝拼车( dadibao.com )创新辅导员,中华诗词学会会员,扬州市政协委员,哈佛商业评论、中欧商业评论、人民网、新浪财经等专栏作家。创立全息互联网理论,出版《顺风新博客论》、《互联网帝国》、《长尾革命》。最欣赏:前秦,王猛。QQ:691382868 微信:yzwuboyz

顺风:独家全面破译百度“框计算”(三)  

2009-08-19 23:26:31|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

顺风:独家全面破译百度“框计算”(三)

口述/顺风    记录整理/秦尘

“框计算”中的“框”是语法框

    “框计算”让我想起了生活搜索——那是一种结构化搜索,而“框计算”从字面上看是“框架搜索”,其实也是一种结构化搜索。百度的“框计算”就是要对用户需求进行结构化的语义分析、数据处理及输出响应,离开结构化就很难实现从“反馈信息”向“告诉答案”的转变。

    “框计算”的“框”实际上是语法框,语法框内最基本的是“主、谓、宾”,当然也有大量的“定、状、补”,不过其组合方式千变万化、各不相同,有些会缺省,比如传统搜索中输入的某个“关键词”如果转换为“语法框”形式,就应该补上缺省的主语“我”、谓语“想查找”、宾语“信息”、定语“与。。。有关的”,可见传统搜索中的“关键词”还原成完整的“语法框”后它只是一个定语结构的一部分。

    李彦宏表示,“框计算”要把所有用户的需求无论是找信息,还是要求各种各样的应用,还是有什么其他的需求,都集成到一个框里,用一个框来满足用户的需求。李彦宏描述的实质上就是一种高水平的智能化服务,要实现人与机器的相互“理解”,要实现“人机对话”。而“对话”必须对不同用户需求进行标准化的解析,唯一可利用的资源便是中文语言传统和语法结构。

    我们知道,在“框计算”输入的任何“用户需求语句”都可复原为统一的完整句子结构,那就是:(定)主//[状]谓<补>+(定)宾,如“哪里可以买到二手自行车”、“火车站在哪里”“哪儿可以找到某人”等等,全可以还原成含有“主、谓、宾”、“定、状、补”的结构,无论这些句子成分如何组合排列、有多少缺省或省略、有多么复杂或简单,最基本的中文语法结构总是不变的,这就为“框计算”提供了一个天赐的结构化标准。

    举例来讲,人的需求往往跟动作有关,工作、学习、恋爱、交往等个人生存行为都可表述为“谓语”,在“框”中就成为了谓语项。“框计算”在统一的中文语法结构的支持下,可以为“谓语项”建立一个库,比如把汉语中所有可能作为“谓语”使用的词建立一个库,同时把同义词、近义词进行分析、“合并同类项”,这样就建立起依托中文语法结构的“句子成分的标准索引库”。同样地,宾语、状语、定语都可以如法建立起各自的“句子成分的标准索引库”。

    不同的主语、宾语、状语、定语等句子成分可以形成多数种排列组合,再从各自对应的“句子成分的标准索引库”中具体选择字词则可形成形式复杂的不计其数的排列组合,这就是百度中文语义分析的基础了。如果说传统搜索偏重于后台索引数据库的结构化,那么“框计算”则在输入、输出、后台都强化了结构化,尤其强化了对搜索过程一“头”一“尾”的结构化。

    当用户输入“用户需求语句”的时,“框计算”首先进行整句语法还原,确定其中的省略项等结构特征,在从“句子成分的标准索引库”中进行比对和编码,在此基础上进一步进行“人机协同”的智能化分析。

    由上可知,“框计算”的秘密就是:“框”是建立在语法库的基础上的基于语句成分索引库的“理解”入口,最常用的“用户需求语句”可以随着“框计算”的服务历史不断积累和发展,并且连续地充实进后台数据库予以编码,所以“框计算”中的“中文语义”分析系统的建设是单向性和一渐进性的,原则上一旦固定就可在较长一段时间直接用于用户响应。从某种角度讲,百度的“框计算”只是提供了一个以中文语法结构为统一基础和标准、在接受和满足用户需求过程中不断积累和自我完善的开放系统,其本质也许可以视为“Wiki”或者“百度知道”的另类形式,所以我们也就很容易理解现有的很多结构化知识库,如火车车次价格、租房信息等都可以直接被转换为“框计算”的数据资源,而且因为这些知识库的标准化、有限性其转换任务相对并不复杂。当然这里也有人机互补,比如对“用户需求语句”仅仅依赖“Wiki”或者“百度知道”无法给出满意答案,这时就要以人工参与来及时答复。

    作为“语法框”,“框计算”中的“框”应该还具有以下特性:一是“框”的语法项应该可扩展、可自由排列组合的矩阵。二是“框”可以对其中句子成分、语词进行逻辑叠加处理,最终还可能引入数理逻辑处理方式,百度以后应该可以走这一条路。三是“框”里可以加入很多补充、约束、扩展、规定性的条件注释,这些条件注释语言以后还可以成为一类特殊的标准语言,从这一角度看,“语法框”反映了一种高级形式的“结构化”。

  评论这张
 
阅读(118)| 评论(0)

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018