利用AI技术助力企业智慧出海?听听大咖们都是怎么说的
当下的企业出海,无论从成本、速率还是安全性考虑,技术突围已成为各大厂商关注的重点,也是企业出海战略成功与否的重要因素。
2023 年 8 月 12 日,由白鲸技术栈携手百道数据 &OceanBase 联合发起的【AI 为矛·数据为盾——助力企业智慧出海】线下活动正式举办,OceanBase 解决方案架构师孙鹏、优频科技有限公司 CTO 孙其瑞、百道数据技术工程师 &Google Cloud 认证架构师黄家俊莅临到场,并进行了精彩的内容分享。
支付宝背后的技术,OB Cloud 的最佳应用实践
OceanBase 解决方案架构师孙鹏
企业在使用数据库时,往往会遇到如应用多,数据库繁杂,运维难、业务高峰期性能遇到瓶颈、数据量增长,成本不断攀升等问题。这一系列的难题根本在于国内多数企业使用的关系型数据库都属于集中式架构。
即便现在出现了一些内嵌式的中间件产品用于解决扩展性的问题,但依旧会面临着诸多瓶颈。而 OceanBase 将数据库用于解决扩展性及高可用性等问题,让应用只需关注自己的业务。
OB Cloud 云数据库构建在阿里云、AWS 等全球主流公有云基础设施上,集成了评估、迁移、开发、运维优化等工具,让数据库管理与运维更简单。通过 3 副本冗余的架构,把主副本打散到所有的 OBServer 节点上,实现了每一个 OBServer 都可对外提供服务。
依托于高存储压缩技术、原生多租户、高可用、多极弹性伸缩、HTAP、高兼容云生态等核心特性,能够在降低运维成本、应对流量高峰挑战、实时分析及复杂 SQL 处理、突破分库分表的性能瓶颈、提高业务可用性等场景提供相当大的助力。
以降低数据库使用与运维成本为例,这方面的成本主要在计算资源的整合和存储资源的压缩,依托于 OceanBase 的单集群多租户的模式以及 OceanBase 高级压缩特性,能够有效提升资源利用率,降低运维难度,而高级压缩引擎能够帮助实现降低 70%~90% 的存储空间。以国内某出海服装品牌为例,该品牌选择了在海外自建云,数据量较大,存储成本较高,在使用 OceanBase 之后,整个存储资源、存储成本节省了 50% 以上。
在应对流量洪峰方面,OceanBase 能够连续 10 年稳定支撑“双 11”,创 6100 万次/秒数据库处理峰值记录。孙鹏表示,应对流量洪峰的关键在于“扩容”,而 OceanBase 的多级弹性扩缩容能力,能够支持弹性水平或垂直的无中断扩缩容,帮助企业轻松应对峰值压力。
在解决 MySQL 的分析瓶颈层面上,OceanBase 选择在一个集群、一套引擎、一份数据里同时处理 TP 和 AP 的业务,称之为 HTAP。基于企业级优化器、向量化引擎的并行执行能力,能够支持复杂 SQL 的优化和执行,解决慢 SQL 问题。同时也因为分析处理数据都在同一个引擎上,因此在进行数据的分析处理时,无需额外成本,而丰富的资源隔离方式能够避免资源互相影响。
在处理数据库故障和灾难方面,OceanBase 的 Paxos 算法,可容忍机房级故障。基于 Paxos 协议的多副本能力,当多数派副本故障时,数据修改时日志强同步到多数派副本,数据冗余的同时,降低了备节点给主节点带来的风险。若出现少数派故障,则会自动切换主节点,实现无损容灾。
作为全球唯一同时打破 TPC-C 和 TPC-H 测试世界记录的数据库,OceanBase 可支持分布式事务,无需设计分库分表,原生分布式数据库天然没有单点瓶颈。所有节点均支持读写,统一了数据库服务,最多可达 1500+ 节点。
值得一提的是,针对不同需求的企业需求,OceanBase 没有特定的硬件依赖,支持多种云资源,可基于企业需求完成灵活部署,还支持应用快速迁移部署和跨云协同。此外,还支持同一个 OceanBase 集群跨云部署的能力,真正实现“云厂商级容灾”。
AIGC 技术商业化落地
优频科技有限公司 CTO 孙其瑞
AIGC 发展迅猛,GPT-4 发布、微软 Office 接入 GPT 等标志性事件,加速了 AIGC 的普及和应用,让我们更加接近真正的人工智能领域。例如 2D、3D、音效、对话乃至游戏里面的资产都可以尝试通过 AI 赋能。
但目前 AIGC 技术的商业化落地依旧存在一个明显的难题,即一致性。从时间维度来说是视频,从空间维度来说就是 3D。这里我们需要对 AIGC 进行一定程度的微调,要保证生成内容的可控性,同时不能破坏他的机器性。
在垂直商用大模型里面,比如 NovelAI 其实就是一个可控的点,只不过它所谓的可控是往二次元发展。NovelAI Diffusion 其实就是基于 SD 算法框架和 Danbooru 二次元图库
数据集进行训练和优化。从它改进的点来看,无非是两个方面:1. 从数据集上面去改,在 Stable diffusion 这个数据集上面,它收集了大量网上爬虫的图片,再加上 CLIP 的方式,文本跟图片进行匹配,然后做训练;2. 从一个二次元网站上爬。但单单这么做也不太够,它会做一些 embedding 的事情,包括网络层改造的事情。
就目前来看,训练大模型的常见做法是采用 Dreambooth。通过向模型注入自定义的主题来 fine-tune diffusion model 的技术,再通过触发词唤起对象要进行的动作。另外像 Lora,也是目前 ChatGPT 微调还是大语言模型微调还是图像领域的微调的常用工具。
孙其瑞表示,未来 AI 一定会成为工作中的重要工具,例如绘制图像、制作特效甚至是写代码。
在 Google Cloud 上玩转 AIGC
百道数据技术工程师 &Google Cloud 认证架构师 黄家俊
从网络基础设施来看,Google 目前在全球海底光缆的建设储备方面处于全球领先地位。在全球铺设的海底光缆中,Google 出资铺设光缆累计长度超过 10 万公里。得益于网络基建的核心优势,Google 公有云网络具备延时低的特点,有效保障跨国用户的联网体验。
基于这样一个强大的基础设施之下,Google 也为企业提供了稳定、安全的基础服务。
久经考验的成熟平台上,有 10 种云产品都已拥有超 10 亿的用户,而针对这些标杆产品的不同场景,Google 也早已开始尝试将不同的 AI 能力融入。例如安卓或谷歌助手、谷歌地图这样的产品中,都有着 AI 技术的影子。
其实早在 2017 年,Google 就推出了 Transformer,这也是所有大语言模型的鼻祖,直到 2022 年,Google 又推出了 PaLM,2023 年推出了 PaLM 第二代——PaLM2,并针对企业级用户和普通用户的不同需求,推出了两款产品:Bard、Generative AI。
相较于适合普通用户使用的 Bard,Vertex AI 能够保证获得最先进的模型,并把已有功能集成到企业现有的应用程序和平台中,值得一提的是,Vertex AI 的数据完全属于自己,能够保证企业数据处于强可控范围内。
而 Generative AI 作为 Vertex AI 下面的一个分支,目前已经为不同行业带来了新的机遇。例如在数据分析层面,Generative AI 能够缩短数据搜索时间,并帮助分析数据中的潜在价值。其他如客户服务、内容创作、AI/ML 等工作中,同样具备相当程度的可应用空间。
对于很多企业用户而言,他们往往更在意这款产品是否能够开箱即用,避免出现额外的开发工作。针对这一需求,Google 推出了一系列的 SaaS 产品。例如 Document AI,只需要把文本上传,即可直接完成 OCR 识别,完全不涉及 API 的对接或开发。
基于 Generative AI 提供的丰富基础模型,企业可以借助 Google 轻松实现 AI 的文本、图像、音频、视频甚至是代码的生成,同时也可以基于此完成全天候的客服机器人训练,进一步提高企业的客户服务能力。另外,针对不同企业的需求,也可以自主完成模型训练,培养出更匹配自身需求的 AI 模型。
作为业内领先的云管理服务商,百道数据目前已经取得谷歌云的最高级别代理——谷歌云 Premier 级别,目前公司服务于 200 多家客户,其中不乏国内知名企业品牌。针对不同云平台的用户,百道数据也推出了多云运营管理平台以及云管理服务能力 MSP 服务。
受篇幅所限,难以完全展示每位嘉宾的观点分享,白鲸技术栈作为一个以内容驱动的技术媒体平台,将继续筹办各类技术相关主题活动,如果你想参加下一次的“技术人盛会”,欢迎关注我们。
【本篇文章属于白鲸出海原创,如需转载:需联系授权方可,未经授权严转载!】
友情提醒:白鲸出海目前仅有微信群与QQ群,并无在Telegram等其他社交软件创建群,请白鲸的广大用户、合作伙伴警惕他人冒充我们,向您索要费用、骗取钱财!