2018年印度互联网高速发展将依靠语言技术
2017 年,印度在互联网语言技术领域有了长足的发展,随着移动用户的大量上网,印度互联网的面貌也发生了根本性的改变。该技术领域的快速发展推动了整个印度互联网的发展。
以下是 2017 年在语言科技领域发生的一些重要的飞跃以及它们对印度普通人的影响。
印度语网民数量激增
2017 年 4 月,谷歌 ( Google) 联合毕马威 (KPMG) 发布了一份题为《印度语——定义印度互联网》的报告,内容涉及印度语在线的基本情况。
1. 印度语网民 (2.34亿) 已经超过英语网民 (1.75亿) 的数量,而且这一趋势只会随着时间的推移而加快。
2. 90% 的印度人在未来五年内第一次上网,他们将使用自己的本土语言。这样一来,使用印度语上网的用户将达到 5.36 亿。
根据 ReverieLanguageTechnologies 的《数字印度语言报告》显示:印地语、马拉地语和古吉拉特语是网上使用最多的三种印度语言。
受印度语言缺乏语言本地化和服务的困扰,这些印度语用户以前得到的相关互联网服务受到很大的限制。Reverie 的报告显示,这些网民仅能使用社交媒体、消息传递、浏览和娱乐等网络服务。但这种情况将随着印度语言技术的快速发展而有所突破,未来大量的互联网应用将提供印度语的服务。
移动设备将支持多种印度语言
印度政府目前已经采取了重要的举措,要求印度所有的移动设备都必须提供 22 种语言的数字印度语支持。一旦这项授权生效 (2018 年 2 月 1 日),印度所有的新手机都必须支持所有 22 种印度官方语言,以及至少两种印度语言的输入功能。
也就是说在政策出台之后,印度新上市的手机将可以满足印度非英语人口 (超过 10 亿人) 的使用需求。
随着大量廉价网络数据服务和廉价手机数量的激增,这一新政策对印度移动互联网的影响将是相当长远的。
政府网上服务将提供多语言查询
此外,印度政府一直在推动网上政府服务。随着互联网渗透率的增加,互联网越来越成为政府服务的推广平台和推动者。
各邦目前也在推动跨数字平台的语言本地化,包括智能手机和网站。
印度政府的 UMANG 应用程序已经于 2017 年 11 月推出,并支持 12 种印度语言。UMANG 的本质是一款能够让公民发现和访问政府服务的一款综合性应用,这意味着 UMANG 的语言支持将有助于更容易地获得政府服务。
而 BHIM 的使命则是向大众提供数字支付,同时也考虑到无障碍环境。它是在支持多种印度语言的情况下发布的,确保了普通印度公民能够像说英语的上中产阶级同胞一样获得数字支付服务。
机器学习与语音搜索
2017 年语言技术领域最大的发展之一是机器学习和语音搜索的出现。
机器学习有助于实现更精确、更精准的翻译,这对于大规模本地化内容至关重要。它使翻译系统能够从数以百万计的例子和模式中学习,并不断提高其翻译的可靠性。
印度语言有一些类别是有特别之处的,可能会让翻译系统发生混淆,比如某些词的官方语和口语是不同的。
当然,语音搜索允许用户通过与设备通话来查找内容。第一次上网的印度人可能会比较喜欢用语音搜索,因为用印度语来进行信息的输入对他们来说是完全陌生的,需要一段时间的学习和适应,但声音搜索却不需要这么麻烦。Google 的数据显示,在印度使用 Google 搜索,28% 的网民都是通过语音查询来进行的。
构建解决方案
很多科技公司已经意识到,印度语言也需要提供数字支持,这涉及到创建一个完全针对印度语言优化的用户体验。仅仅是提供次优的或者拼凑的语言服务,用户显然是不接受的。但是,发展语言技术也带来了许多挑战。
我们知道,欧盟拥有欧洲语言研究中心,这是一个多种欧洲语言的语料数据库。而印度语言种类虽多,却没有这样的语料库。这意味着印度语言的这些资源必须从头构建起来。
这无疑是一个令人兴奋的巨大商机,因为有大量的问题需要解决。无论什么解决方案最终都会影响到数亿印度人的生活,成为他们日常生活的重要组成部分。
那么,在接下来的 2018 年,那些想在印度语言技术发展方面有所斩获的公司,就看你们能够提供什么样的解决方案了!
本文部分内容来自于 YourStory