微软的梦工场-第33部分
按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
在那一年的Director Review和第二年的TechFest,我们演示了这一技术,得到了广泛的好评。
跨越“100小时”这座大山
在我们演示了基于音素的音频检索技术之后,得到最重要的一条反馈是,这一技术要做到实用,必须解决数据集的尺度问题。在我们的解决方案中,搜索时间和数据集尺度是成正比的,这称之为“线型搜索”。在数据集小于10小时的情况下,搜索的时间在2秒以内。但当数据集到了100小时的时候,搜索时间就不可接受了。而100小时,是一个实际应用的基本要求。
其实在文本搜索领域,通过基于词的倒排索引,海量数据集的搜索早就不成为难题。但在我们的系统中,因为采用音素为基本单元,使得简单的倒排毫无用处:基本上一个音素会出现在所有的文件中。100小时难题成为横亘在我们面前的一座难以跨越的大山。
经过几次的推倒重来,反复的争辩讨论和大量的实验验证,最后我们提出了索引可变音素串的方法,即通过倒排较长的音素串实现加速,同时借鉴n元文法的backoff方法解决集外词问题,成功地解决了音素一级的索引问题。当最后的演示系统成功地在1秒以内搜索100小时数据集的时候,我们都情不自禁地欢呼起来。
(余鹏 (中) 与项目同事在一起展示语音搜索所用的道具)
出租车上写出来的程序
在微软做研究有一个别的地方无法比拟的优势,那就是,你会有机会把自己的想法和技术应用到微软的软件产品中去,真正做到改变人们的生活。在演示了我们最新的音频检索技术之后不久,Microsoft Office ? OneNote产品组找到我们,表示出应用这一技术的兴趣。
但是我们很快发现要把技术产品化并不那么简单。由于OneNote产品组自己的产品进度非常紧,他们没有足够的人力资源来把这一技术付诸实现。如果我们不想放弃将这一技术付诸产品的机会的话,我们必须亲自参与具体的产品开发,而那意味着我们需要付出大量的努力和时间在一个作为研究员来说并不熟悉的领域。
我们最终选择了全力以赴地将技术实现到产品中,因为我们都相信,没有实现的技术,终究只是技术。那段时间,是我进入MSRA后最为忙碌的日子。除了参与产品进度,我们还有其它的研究课题,加班是经常的事情。举一个例子可以看出当时的紧张程度,因为软件版权问题,我们需要重写音素识别的解码器,而这一工作是我的同事赛德用了一个月的时间,每天坐出租上班的路上用笔记本写的。后来我常常和他开玩笑说那是他的“Taxi Project”。
我们最后提交给OneNote产品组的代码整整有10万行。由于我们的努力,音频检索成功地随着OneNote软件于2006年底发布。那一年的Director Review,我们骄傲的宣布了这一消息,得到了院长们由衷的掌声。
迈出“技术改变生活”的第一步
OneNote的音频检索只是我们迈出的第一步,随后,我们的研究方向转向数据量更大,内容更复杂,需求更多样化的互联网音频/视频搜索和企业级音频/视频的搜索。微软庞大的产品线也让我们找到了更多连接语音技术和用户需求的渠道。
当我们致力于用语音技术改变人们生活这一目标的同时,我们发现这也同样指引我们做出更多更有用的研究。在我们摸索技术实用化的过程中所解决的很多问题,对于学术领域也带来非常大的影响。从2003年开始,我们发表的一系列关于音频检索的文章,现在正引起越来越多的关注。
在MSRA,“用语音技术改变人们的生活”,这一当初我选择语音识别作为我的专业课题时的梦想,正在一点点地成为现实。
作者介绍:
余鹏,浙江绍兴人,2002年毕业于清华大学,获信号于信息处理博士学位。之前于上海交通大学获通讯工程学士学位。现为微软亚洲研究院语音组研究员,研究方向包括信号处理,语音识别,音频搜索,信息检索等。最大的业余爱好是篮球,在球场上是一名出色的投手。
第92节:如何做一流的研究(1)
如何做一流的研究
作者:朱文武
从研究生阶段开始算起,我已经在计算机多媒体与通信领域做了近二十年的“研究工兵”了。做研究是我一直乐此不疲的事业,它源自于从小对科学的热爱。最近十几年中,由于工作的需要我前后指导了很多学生做研究,看到他们在学术上的成长和科研上的进步是最让我感到自豪的事情。对于一名学生如何起步做一流的研究,也是我非常乐意与朋友们探讨和分享的话题。
在谈怎样做一流的研究之前,我想先谈一下怎样认知自己和怎样在研究中发挥自己的优势(这一点不仅仅对研究实用,对一个人的职业成长也有用)。我觉得在确立研究事业或者任务之前,每一个人都最好去审视一下自己,达到一个对自己能力和兴趣的最好认知,在西方国家把这一过程称之为Identify your strength。通过分析自身的强势在哪里,对哪些方面更有兴趣,能力在哪方面,然后确定比较喜欢的能发挥自己优势的研究课题。我觉得做研究要积极与自己的优势相结合,并努力挖掘自己认知方面的潜能,这样才能在研究中发挥自己的优势。
做研究就好比爬山。首先,你必须热爱自己所从事的科学研究工作,就象爬山运动员首先必须热爱爬山运动,这是非常重要的一个前提。比如,我自己非常喜欢视频通讯,虽然我在纽约理工大学读博士期间导师分给我的论文题目是用激光成像探测肿瘤(因为这个题目有奖学金),可我对视频通讯有浓厚的兴趣,就一直利用其它时间从事视频通信的研究,这样相当于3年里我做了2个博士论文。另外,扎实地学好一些基础学科和掌握英语等语言技巧也是从事研究工作的必备条件。立志做研究的人,最好在数学、英文、逻辑思维能力等方面打下坚实的基础。从我个人的亲身经历而言,学好数学和英文对我的确是非常受益的。比如,我在伊里诺斯理工学院读硕士时,我的导师 (Nicklos Galatasnos和Aggelos Katasaggelos教授)是希腊人,希望能用数学来证明我们提出的图像复原理论。于是我花了几个月推公式证明了我们的观点,后来在世界上顶尖级学术杂志上发表了这个理论。
在开始做一个研究之前,选好一个题目和方向至关重要,就像爬山运动员确定爬山的方向及目标。一个好的题目和方向怎么选,这里面有很多的学问。当然,在大方向的把握上,导师的宏观指点会对你最初研究思路的展开起到拨开云雾的作用。要珍惜每一次与资深专家交流的机会,多听听领域内最前沿的技术讲座,这样才能有机会了解到领域内最好方向的研究题目。比如,1997年随着互联网的发展,视频在互联网上的传输是当时非常重要的方向及研究题目。当时视频在互联网上的传输都是block…based ; MPEG4是scene…based ,于是我认为MPEG4在互联网上的传输可能会具有突破性。当时我就找了张亚勤谈了我的想法,亚勤对这个想法给予了非常的肯定并进一步进行了方向的指导。我和亚勤的研究成果在2000年IEEE Transactions on Circuits and Systems on Video Technology (电路与系统视频技术学报) 发表,后来这篇文章获2001 IEEE Transactions on Circuits and Systems on Video Technology最佳论文奖。再举一个例子,随着无线通信的发展和互联网的成功,亚勤、我和张黔认为视频在移动互联网是当时发展的趋势,因为无线信道特性和功耗具有极大的挑战,于是我们选无线互联网视频通讯为主要研究方向并指导学生展开MPEG4在无线互联网上的研究工作,结果这篇论文发表在IEEE Journal of Selected Areas on munications(多媒体通信专辑)并获2004 IEEE munications Society (多媒体通信专业委员会)最佳论文奖。
第93节:如何做一流的研究(2)
在大方向明确了之后,在选题时你还要学会站在前辈巨人的肩膀上去做研究,这一点及其重要。在这个领域这个课题到底发展到什么程度了,已经有哪些方法出现了,还有没有可以突破的地方,哪里有。因此,在进入一个领域之前,要做一个详细的论文研究综述出来,才能知道这个领域内最前沿的技术是什么,大家讨论最多的热门课题是什么,他们是怎么做的。俗话说磨刀不误砍柴工,我一般会指导学生花1…2个月的时间仔仔细细地做一遍综述。否则,盲目的开始就会导致做了一段时间后发现这个其实与别人的很相似或别人已经做出过一些成绩了,以致造成了很多无用的重复劳动。
等到把综述都缕清楚之后,就要对综述进行适当的整理和归类。通过对综述的分析,弄清楚哪些方法能解决哪些问题,我们要研究的问题用什么方法才能解决。前人的研究方法之间,又有着怎样的优缺点。当你对自己的研究课题及别人的方法有个大致的了解的时候,你就会明白你的课题到底会有哪些区别于前人的独特贡献,方法上又有怎样的不同。你的独特贡献到底是什么。基本上,思考到这个程度的话,你就能选出一个比较好的题目。因此,确定一个与别人不同的有创新的题目非常重要,是一个很需要时间投入的过程,我往往会鼓励学生花2…3个月时间把题目想清楚,而不要急着进去。
选好研究方向和题目后,下面就是怎样解决问题。做研究一般有两种解决问题的思维方式:一种是从深度上去纵向延伸,沿着一个方向突进,把这个问题解得越来越好。这种思维一般是循序渐进式的,比如先找方法A; 能提高多少,然后又找方法B; 又能提高什么,然后再发展到方法C,不断优化下去。大部分研究者会习惯于采用这种循序渐进的方法。这种方法让我们每一次在改进的过程中都能有所提高。另一种思维就是从广度上去拓展。在这个学科和领域里面,借用其他学科和领域的方法加以解决,这种大胆的创新往往能找到很大的突破。用其他领域的方法来解决这个领域的问题,这个是需要很广阔的知识面的。我知道的很多杰出的研究都是在这种思维方法的指导下完成的。这种创造性的研究工作很有用。我自己无论是在求学时,还是在工作中,都很愿意跟不同学科的人交谈来丰富自己的知识和视野。我当年在研究院工作的时候就跨越了2个方向,进行了1次的转型:当初我在研究院最先是在亚勤的指导下从事多媒体通信研究工作,后来亚勤让我在研究院重新开辟了一个新的研究组——无线与网络组。上面所提到的这2种解决问题方法都非常重要,都会把你带向成功。
掌握解决问题的方式和方法后,剩下拼的就是功底和持之以恒的精神,就像定好爬山的目标和路线,剩下就是不屈不挠的攀登。当年在研究院时,Harry经常用打井挖水的道路鼓励我们的研究员做研究要有持之以恒的精神:不要没看到水就轻易地放弃,然后再换个地方继续挖,又没见到水,再换地方挖,这样子永远也见不到水。而是要沿着一个地方往深里凿,坚信方向不要轻易放弃,直到挖到水为止。
总结来说,做研究就像爬山,首先要定好方向和目标,选好题目,然后就持之以恒去努力和攀登,这样就会成功。正像马克思所说,在科学上没有平坦的大道,只有不畏劳苦沿着陡峭山路攀登的人,才有希望达到光辉的顶点。
作者介绍:
朱文武,现任微软亚洲工程院首席架构师。1999年至2004年期间在微软亚洲研究院分别担任无线网络组主任研究员及无线与系统所所长。2004年至2007年任英特尔中国通信技术实验室总监、首席科学家。朱文武1985年毕业于国防科技大学电子工程系获得学士学位,1993年获得伊利诺斯工学院电气和计算机工程硕士学位; 1996年获得美国纽约理工大学电气工程博士学位。1996年至1999年任美国中央贝尔实验室任研究员。朱文武热爱篮球,曾被选入湖南省大学生篮球队参加全国大学生中南区联赛,曾作为主力代表国防科技大学参加全国研究生篮球联赛并获得优秀运动员奖。
第94节:后记
后记
掂着这本即将付梓的沉甸甸的书稿,“收获”后的成就感中夹杂着一丝难以置信。
2007年7月底,为纪念恢复高考30年,我们为开通不久的微软亚洲研究院博客征文,邀请员工们分享当年的高考经历。宋睿华研究员为1996年陕西省理科高考状元