庆祝改革开放40年:云藏,从无到有再到优
德青措在海南藏族自治州藏文信息技术研究中心工作多年,是云藏搜索引擎发展的亲历者。从2012年的一个“新点子”,到2016年8月22日的正式上线,再到日均1300万左右的点击量,全球首个藏文搜索引擎的知名度早已不可同日而语。
专家称云藏搜索的成功研发,缩短了藏文信息化与国内外信息化之间20年的距离。资料显示,云藏搜索上线后成为了我国各大藏文网站的统一入口,以及互联网中藏文信息的主要来源和资源共享中心。访问量和数据量不断增加,获得业界的普遍关注和认可,知名度得到不断提升。
“云藏从零起步到现在,是一个不断优化、调整、升级的阶段。这种发展,离不开创新与探索。”德青措说。
新点子,让梦想照进现实
是什么创造了云藏,答案也许有上百个。但有一个回答一定会引起大家的共鸣——青海湖网。
开通于2007年11月28日的青海湖网,是一个综合型文化类网站,分藏文版和汉文版,主要为广大网民提供文化动态信息服务和博客平台。
“2009年,博客的热度持续增加,我们便开通了藏文博客,网民们非常活跃,每天我在后台看到的文章不少于100篇。”海南州藏语办副主任多杰拉旦说。
网站火爆的背后,也暴露出一个短板:藏文搜索的需求很大,但没有一个专业的藏文搜索引擎。
“一般都是借助于百度等搜索引擎,很多资料都没有办法查到,而查到的一些内容也不够全面、准确。”海南州藏文信息技术研究中心主任拉吉卓玛坦言。
能不能做一款藏文搜索引擎?
2012年,面对这样的窘境,一个大胆的念头在海南州藏语文工作委员会办公室党组书记、主任才洛的脑海中萌生。当他将这个想法告诉自己的同事时,所有人都为之一振,太好了!
可兴奋过后,冷静下来的众人才开始意识到,对于他们来说,这将是怎样的一项任务。
“简单地说,缺经验、无案例可考,缺人才、缺资金。”拉吉卓玛掰着手指算起了当年的不足。的确,此时的信息中心不过是个4、5个人的小队伍,藏语委办也只有10个人左右,懂藏文的不懂技术,懂技术的不懂藏文。甚至在他们外出“取经”的时候,反对者不在少数。
“这件事应该是国家来做,或者说是由西藏来做,你们的能力,怕是难以实现。”
可越是这样,才洛和他的团队,越是要走到底。
2012年4月11日,藏文搜索引擎系统平台建设项目申报工作全面启动;
2012年8月2日,为了配合藏文搜索引擎系统平台建设项目及时立项,以及后续的产业衍生,海南州委、州政府将海南州藏语办原青海湖网络信息中心更名为海南州藏文信息技术研究中心,自此藏语办的工作重心从汉藏公文翻译、藏文古籍整理、网站建设逐步转入藏文信息技术研发领域;
2013年3月22日,藏文搜索引擎建设工作国家工信部正式立项。北京大学、中国标准化委员会、中央民族大学等院校和科研机构的9名教授为藏文搜索引擎建设项目特邀专家,还及时组建了海南州藏文搜索引擎系统平台建设开发工作领导小组。
2013年5月28日,确定了开发藏文搜素引擎的工作计划、目标思路以及研发团队,形成了校、地、企开发的创新模式;
2013年11月1日,海南州藏文信息技术研究中心组织在职人员、临聘人员等近50人组成数据建设组,开展百科、文库和知道系统藏文大数据的翻译、编辑、审核和上传工作;
2014年8月28日,确定藏文搜索引擎的名称、域名和logo;
……
一路走来,看到的不仅是这个团队的责任和使命,还有海南州不惜斥巨资“打通与世界网络时代对接的最后一公里”的决心,更看到了海南州扩大开放、加快发展、增进民族团结的信念。
新技术,铸就全球首个
“云藏”一词是藏文的音译词,有两层含义,其一为“上师”或“老师”,意为有求必应、有问必答;其二是将其分为单字,有“全面抓取、提取”之意。
名字的寓意不言而喻,但想要取得这样的成果并非易事。
走访研发部门,到院校上门“取经”,一次次无功而返,一次次重新来过。
“那段日子,几乎每天都在经历失败。”多年后的今天,面对记者的追问,拉吉卓玛再次回忆起那刻骨铭心的研发阶段。
“所有人集中在一起工作,一方面是沟通协调,另一方面是在彼此学习,意见不合时,也会发生激烈的争吵。加班加点是常有的事情,但最让人痛苦的是连续很长一段时间都难以实现突破。其实,好几次都差点选择放弃。”
说到这,眼前这位举手投足间都透着一股干练劲的“女强人”不由得笑了。面对如今云藏所取得的成功,拉吉卓玛“有种做梦的感觉”。
资料显示,云藏搜索在建设过程中,成功研发了藏文自动分词和语言智能处理系统,攻克了藏文智能信息处理的核心技术难题,使得藏文进入了搜索时代,推进了藏文分词与词性标注、藏文框架语意等领域的快速发展,实现了藏文自动纠错、藏文相关词搜索、藏文拉丁转写搜索、藏文语义搜索、藏文不同编码间自动转换等功能,填补了藏文信息处理应用领域的多项技术空白,申请获得了网络文化经营许可证和六项计算机软件著作权登记证书。
“我们根据国家标准制定的《信息处理用藏语词类标记集》和《信息处理用藏文分词规范》两项规范,建立了藏文自动分词和大规模训练语料库,并与藏文搜索引擎系统框架结构进行了集成,实现了完美对接与融合,解决了核心技术难题。同时,填补了藏文信息技术工程领域多项技术空白,及藏文同义词搜索、藏文拉丁文转写搜索、藏文拼写检查系统、藏文语义检索、藏文不同编码自动转换等功能。”谈及团队取得的成绩,才洛如数家珍。
技术难题的突破点燃了大家创新的热情。
2015年8月3日,云藏技术工程二期建设全面启动,在一期的基础上,团队利用一年时间重点建设和升级爬虫系统,开发音频搜索、手机移动客户端、云藏舆情检测系统。
2016年8月22日,云藏藏文搜索引擎正式上线。为广大藏文用户提供一个个性化的网络检索服务。主要包括网页搜索、新闻搜索、图片搜索、视频搜索、音乐搜索、百科系统、文库系统和知道系统等,覆盖了医学、文学、历史、自然、科技和各类词典等。
正如伴着“云藏”一路走来的才洛所说的那样,“以前想查找藏语文资料,是一件费力劳神的事,现在只需轻轻一点,世界就在眼前,这标志着藏语文从此进入了一个全新的搜索时代。”
新起点,布局云藏新坐标
去年8月22日,云藏藏文搜索引擎开通一周年。
回想起往昔的峥嵘岁月,才洛几句话既是感慨,又充满着骄傲。
“时至今日,云藏新闻、网页、图片、视频、音乐、百科、文库和知道等八大板块全部已建成,系统数据库已录入政治、文化、经济、社会、艺术、宗教、科学、医学、自然、天文、教育、地理、历史、生活、体育和信息技术等30类资料和数据,录入藏文文献经典近1万部。短短一年的时间里,云藏百科已创建2万余词条,云藏文库已上传1万余文档,云藏知道已解答近2万个问题,云藏搜索用户访问量已突破一亿次,系统注册用户达1万余。”
时间推进到一年后的今天,目前该搜索引擎用户覆盖中国31个省市自治区,以及美国、德国、法国、加拿大、澳大利亚、印度等70多个国家和地区,日平均点击量为1300万人次左右。
正在中央民族大学读博的才让扎西是地地道道的青海人,同时也是云藏的忠实粉丝,早在云藏开通之前,他就实地了解过云藏。
“自己的家乡能开发出全球首个藏文搜索引擎,这对于我们这些来自青海的学生来说,是一件特别自豪、特别骄傲的事情。作为一名藏族大学生,在我平时的学习中,少不了查阅资料、历史文献,在云藏开通之前,这些事儿我都得去图书馆完成,整个过程比较麻烦,但现在,百科、文库都为我的生活带来了很大的便利。”
才让扎西口中的云藏百科是集自然、文化、教育、地理、历史、生活、社会、艺术、人物、科技、体育、技术等科学知识为一体的、百科全书式的综合性藏文信息搜索引擎平台,为用户提供了全面、准确、客观的多维信息。用户在搜索框中输入相关词条便能搜到所有相关信息,具有便捷、实用、高效的特点,能够满足不同层次用户对藏文信息搜索的需求。
“云藏百科为用户提供了一个创造性的藏文网络平台,注重用户的参与和奉献精神,充分调动大众的力量,汇聚网民的头脑智慧,不断累积打造全人类共享的开放式资料库和信息咨询平台,致力于为千万藏文用户提供免费、海量、全面、及时的百科信息,通过平台不断改善用户对信息的创作、获取和共享方式。人人可以自由访问并参与撰写、编辑和分享所有知识。”拉吉卓玛说。
更好的用户体验,一直是云藏人的追求。
没有第三方登录功能、音乐播放时的背景颜色不好看、内容更新不及时……每一个用户的反馈,都是他们正在努力的方向。
路漫漫其修远兮。
拉吉卓玛告诉记者,下一步团队将延伸开发云藏知识付费系统、云藏语音系统、云藏汉藏在线翻译系统、以及浏览器、输入法等配套工程。
云藏搜索,阔步向前。(咸文静)
只为不可能
“在首届藏文信息处理学术研讨会上,当一名教授听说我们正在准备做一款藏文搜索引擎时,他只说了六个字:太不可思议了。”海南藏族自治州藏语办副主任多杰拉旦说,正因如此,他才下定决心,一定要做成这件事。
这名教授为何如此惊讶?是因为他觉得这件事对于一个地处偏远的藏族自治州来说,难度太大。
我们知道,作为一款以少数民族语言文字为载体的搜索引擎,云藏的开通标志全球首个藏文搜索引擎正式运行。这背后需要多大的资金投入,怎样的科技支撑和人才配套,没有先例可考,也没有经验可循。
我们知道,作为一个藏族自治州,海南州地处偏远,经济落后,科技人才匮乏。要成功打造云藏,似乎并没有与之匹配的科研团队等先天优势。
即便如此,海南还是推着云藏一步一个脚印地从无到有开始迈向从有到优的新的台阶,特别是正式开通两年后,交出了一份令人满意的答卷,展现出蓬勃发展的美好前景和势头。如今,云藏已然成为了一个带动海南州乃至整个藏区经济社会驶上“快车道”的“引擎”,一个增进民族团结进步、凝聚信念力量的“引擎”。
万里征程远,秣马再起程。云藏藏文信息技术孵化基地正在建设当中,从搜索引擎到电商平台再到大数据产业,云藏一直都在创新探索的道路上铿锵前行。(咸文静)
“我和云藏一起成长”
“云藏搜索。”
才让扎西是中央民族大学的一名学生,最近两年,他和身边的许多同学一样,需要查找一些藏文资料时,脑海中第一时间出现的,就是这四个字。为了实现才让扎西们的这份方便与快捷,36岁的德青措和她的同事一起,齐心协力,奋斗了整整六年。
马尾辫、戴眼镜,说起话来轻声细语。自2008年参加工作起,德青措已经跟网络结缘整整十年。两年前,她作为参与者亲眼见证了全球首个藏文搜索引擎——云藏的诞生。回忆起2016年8月22日的那一幕,德青措仍然十分兴奋。当天,“云藏”藏文搜索引擎开通仪式在海南藏族自治州文化传媒中心演播大厅启动,德青措坐在台下,目睹了整个过程。“感觉像是实现了自己多年来的一个梦想,一切的辛苦和付出都是值得的!”
2008年,德青措在中央民族大学完成了藏族历史的学习。回到家乡后,熟悉双语的她开始成为了青海湖网站的一名编辑,每天的工作就是将大量汉语网站的内容、书籍翻译成藏文。德青措的工作并不轻松,可每天坐在电脑前,她总是充满着干劲儿。
“我想通过这个平台,让更多的人认识青海,了解我们的民俗文化,风土人情。”
就这样,时间一晃而过。相较于初出茅庐的青涩与生疏,四年后的德青措已经成为了一名成熟的编辑。但这四年,她心里也一直有个期盼:要是有一天,搜索藏语文资料像查找汉语资料一样方便就好了。
正因如此,当听到海南州藏语文工作委员会办公室党组书记、主任才洛提出计划做一个藏文搜索引擎时,德青措难掩内心的激动,在一旁连连称好。可这背后需要付出多大的代价,兴奋的她并未做太多考虑。
“一开始真的太难了。”按照工作安排,她需要承担起百科词条的录入工作,虽然听起来并不深奥,可做起来,并不是一件容易的事情。
根据一开始的定位,云藏是百科全书式的综合性藏文信息搜索引擎平台,要为用户提供全面、准确、客观的多维信息。想要实现这一目标,德青措工作的第一步,就是要搜集大量的资料作为支撑。
德青措说,之前在学校,自己学习的是藏族历史,对于其他领域并不了解。但作为一名百科词条的编辑,需要掌握的知识太多了。
“与其说是在工作,倒不如说是在学习。因为在这个过程中,我了解到了太多的之前闻所未闻,见所未见的新内容。”时间紧,任务重,在前期准备的那段时间,德青措和所有的同事一样,加班加点已成常态。
很快,海南州计划打造全球首个藏文搜索引擎的消息不胫而走。作为一个没有相关研发经验、又无其他案例可考的新队伍,有人在为他们点赞的同时,也有一些质疑声出现。
第一个吃螃蟹的人并不好当。
“因为是首个,再加上我们单位小,人又不多,那些人就怀疑我们是否有能力完成这个看似不可能完成的任务。”也许是想在这些怀疑者面前做出一番成绩,即便每天加班到深夜,德青措依然觉得时间不够用。
功夫不负有心人。在整个团队夜以继日的努力下,全球首个藏文搜索引擎“云藏”上线,填补了业内空白。
但这,并不意味着德青措的工作可以告一段落。每天依旧是录入各种各样的资料,充实百科的资料库。工作既繁琐,又容不得半点马虎。而在云藏成立一年后,云藏百科能搜索到各科知识领域的名词、地名、事件、人物等方面相关词条共20135个。用户在搜索框中输入相关词条便能搜到所有相关信息。
如今,德青措已经是百科版块的负责人,她的工作除了录入,还包括审核团队其他成员上传的词条,每个月需要审核1000条左右。
“6年来,云藏已经茁壮成长起来,而我有幸跟它一同成长!”(咸文静)