百度Geek说

其他

百度搜索智能化算力调控分配方法

。目标:通过调控流量在各个阶段的信息例如队列长度、模型选型等,从而调节折扣因子,最终实现流量价值最大化,假设M条流量经过N个阶段表达如下:C1
2023年11月14日
其他

UBC SDK日志级别重复率优化实践

SDK是数据的入口,牵一发而动全身,任何一个上报流程上的修改都可能造成已有数据的波动,影响业务统计。因此,这类问题难以通过常用手段排查和优化,UBC在处理过程中逐渐形成了一套方法论:2.2
2023年11月13日
其他

百度搜索深度学习模型业务及优化实践

推理优化除了kernel融合/开发、等价替换等,推理优化还包括GPU/CPU负载均衡、模型结构剪裁。(1)GPU/CPU负载均衡在推理场景,CPU的工作量并不太多,包括预处理、kernel
2023年11月9日
其他

文生图大型实践:揭秘百度搜索AIGC绘画工具的背后故事!

Diffusion这样革命性的时刻。招聘欢迎加入生图研发团队,持续招聘视觉算法研发工程师。简历欢迎投递至qibingjie@baidu.com,邮件请以【简历投递】为开头。
2023年11月7日
其他

大模型在代码缺陷检测领域的应用实践

生成式的方法生成式模型百花齐发,有闭源的如chatgpt、文心一言,有开源的如llama、bloom和starcode等。我们主要尝试文心一言、llama和bloom,通过prompt(few
2023年11月2日
其他

通过Python脚本支持OC代码重构实践(二):数据项提供模块接入数据通路的代码生成

TALK01数据通路技术实现与接入基于本次配置数据项重构工作的目标和数据通路的复用,数据通路的实现目标为可支持不同模块接入,如图-1所示,与数据通路相关的模块共为两类。△图-11.1
2023年11月1日
其他

对话InfoQ,聊聊百度开源高性能检索引擎 Puck

的优化更多地由许多微小的优化点组成。我们在讨论中提出了大量有趣的想法,进行了大量的实验和尝试。总的来说,十个想法中最终只有一到两个能成为正式的功能。这些优化最终汇聚在一起,形成了我们今天看到的
2023年10月31日
其他

浅谈搜索展现层场景化技术-tanGo实践

业务框架,下面会从需求分析->业务抽象->整体设计及核心能力点抽象逻辑等方面展开,介绍下整个框架建设和应用过程中遇到的一些问题和思考。在此之前集团、搜索也已经积累了一些比较成熟的基础网络框架、
2023年10月30日
其他

初识搜索:百度搜索产品经理的第一课

对话方向、AI应用创新方向、极致满足方向、阿拉丁(垂类搜索)方向、搜索产品&增长运营&PC搜索方向。欢迎有兴趣的同学投递简历至
2023年10月26日
其他

智能问答技术在百度搜索中的应用

AIGC伪造图像鉴别算法泛化性缺失问题分析一文搞定专属码的设计与开发AI原生应用速通指南代码理解技术应用实践介绍一键三连,好运连连,bug不见👇
2023年10月25日
其他

通过Python脚本支持OC代码重构实践(一):模块调用关系分析

重构背景百度App(iOS)-搜索侧的配置数据项,大部分集中在一个类(XXXSetting)中管理。该类(XXXSetting)以独立组件的方式发布,被超过30个其它组件依赖。如图-1
2023年10月23日
其他

一文搞定专属码的设计与开发

译码难度大尽管二维码技术已经相当成熟,但在某些情况下,如内容过多、图像质量低下、损坏或因过度曝光、不理想的扫描角度、遮挡物等外部因素影响,都可能使译码过程遇到困难,导致内容不能正常分发。2.2
2023年10月18日
其他

AI原生应用速通指南

iOS端包体积50M优化实践(六)无用方法清理基于异常上线场景的实时拦截与问题分发策略一键三连,好运连连,bug不见👇
2023年10月16日
自由知乎 自由微博
其他

代码理解技术应用实践介绍

技术效果探索一套通用的代码理解方案,构建白盒级软件知识图谱,在C++/GO上落地实践基础能力:覆盖多语言,高效易扩展支持3种语言、10+种代码实体数据源C/C++效率突破,效率缩短近9倍,增量效率
2023年10月9日
其他

百度交易中台之内容分润结算系统架构浅析

TALK03技术难点和细节上文以整体的视角介绍了内容分润结算系统的架构设计,下面我们将枚举几种业务场景构建过程中的技术选型,来详细介绍该系统的技术落地。3.1
2023年9月27日
其他

小程序编译器性能优化之路

等多项优化,在性能和内存占用上都有很大提升。全文介绍了新版编译器的设计思路和优化方法,以及一些能够用在通用打包工具里的技术点。全文6629字,预计阅读时间17分钟。GEEK
2023年9月25日
其他

百度APP iOS端包体积50M优化实践(六)无用方法清理

官方文档:https://clang.llvm.org/docs/LibTooling.html[3]LLVM源码:https://github.com/llvm/llvm-project
2023年9月20日
其他

基于异常上线场景的实时拦截与问题分发策略

性能中台会实时订阅消息队列中的核心性能数据,例如崩溃、APP启动次数等,然后针对每个染色ID,根据多个维度(如产品线、APP版本、操作系统、地域等)形成性能聚合指标,并将其写入持久存储。⑥
2023年9月18日
其他

极致优化 SSD 并行读调度

就像一个无法调节的『黑匣子』,应用无法直接干预由读写干扰带来的查询长尾问题。业界常用访盘优化手段,未能控制读长尾。业界常用软件写盘优化,确实可以显著提升吞吐,但对长尾控制力度有限,主要手段是:①
2023年9月13日
其他

AI文本创作在百度App发文的实践

TALK04总结本文简述了基于文心一言等大模型,落地AI文本创作的基本流程,也是内容创作与AI结合的初步尝试,随着生成式AI创新应用的持续推进,将陆续发布基于图片和视频的更多特色玩法,敬请期待!
2023年9月11日
其他

DeeTune:基于 eBPF 的百度网络框架设计与应用

mesh往更深层推进,解决sidecar的性能问题;[4]观测&监控:对这些探针点的持续观测和监控,可以丰富指标数据的范围和深度,更重要的是,这项工作可以在在不改变既有程序的前提下完成。GEEK
2023年9月6日
其他

百度自研高性能ANN检索引擎,开源了

Neighbor),目标是从全量向量数据中寻找距离最近的TopK个向量,同时需要平衡检索效果和检索成本。自2012年AlexNet出现之后,深度学习在图像领域大放异彩,2017年
2023年9月4日
其他

存储方案作为产品——Midgard探索

introduction互联网业务大多是围绕数据展开,获取、生产数据,投入到产品中为用户服务。百度的搜索业务正是典型的数据密集业务,数据规模大,使用方式多样,极为关注如何构建高效低成本的存储系统。
2023年8月30日
其他

百度垂类离线计算系统发展历程

一方面需要考虑系统本身的通用性和适配性,以满足多个业务方的需求;另一方面需要结合系统当前运行的特点,在易用性、稳定性、智能化等不同方面进行提升。希望读者能在了解系统演进的过程中获得一些启发。
2023年8月28日
其他

度加剪辑App的MMKV应用优化实践

Key"];看到这不得不说句容易挨打的话:哪怕是把key改短点,也能很有效的降低扩容概率。比如说度加剪辑某个key,从"key_draft_crash_project_id"
2023年8月23日
其他

百度工程师浅析解码策略

num_beams=2波束搜索一般都会找到比贪心搜索概率更高的输出序列,但仍不保证找到全局最优解。虽然结果比贪心搜索更流畅,但输出中仍然包含重复。一个简单的补救措施是引入
2023年8月21日
其他

百度工程师浅析强化学习

10,那么r=10就相对来说是『负』的。也就是说在采样中,没有被采样到的动作的概率会被下降,但该动作不一定是不好的动作,因此奖励最好是有正有负的,这可以增加baselinse解决:通过这种方法,当
2023年8月16日
其他

浅谈统一权限管理服务的设计与开发

节点属性变更用户提交申请之后,由审批人进行审批,审批结束会回调MPS给用户进行授权,根据一些业务平台的需求MPS支持了事件回调,业务平台可以配置回调方法,当自动授权后可触发业务平台回调。GEEK
2023年8月14日
其他

百度APP iOS端包体积50M优化实践(五) HEIC图片和无用类优化实践

解析car文件解析Assets.car文件,可以使用Mac自带工具assetutil,可以移除通用的Assets.car里不需要的图片,也可以解析Assets.car的详细内容。也可以使用Asset
2023年7月31日
其他

百度知道上云与架构演进

扩量相关以知道核心问答页为例,扩量的每个阶段都有该阶段需重点关注的工作内容,及进入下一个阶段的准入list,需要list内容全部达标,才可开启下一阶段扩量实验。具体说明如下:3.2.4
2023年7月21日
其他

百度APP iOS端包体积50M优化实践(四)代码优化

/Users/richard/Desktop/demo/DerivedData/demo/Build/Products/Debug-iphoneos/demo.app/demo#
2023年7月17日
其他

百度iOS端长连接组件建设及应用实践

SDK安全加固问题与分析搜索语义模型的大规模量化实践如何设计一个高效的分布式日志服务平台视频与图片检索中的多模态语义匹配模型:原理、启示、应用与展望一键三连,好运连连,bug不见👇
2023年7月12日
其他

百度App启动性能优化实践篇

SDK安全加固问题与分析搜索语义模型的大规模量化实践如何设计一个高效的分布式日志服务平台视频与图片检索中的多模态语义匹配模型:原理、启示、应用与展望一键三连,好运连连,bug不见👇
2023年7月10日
其他

从php5.6到golang1.19-文库App性能跃迁之路

SDK安全加固问题与分析搜索语义模型的大规模量化实践如何设计一个高效的分布式日志服务平台视频与图片检索中的多模态语义匹配模型:原理、启示、应用与展望百度离线资源治理一键三连,好运连连,bug不见👇
2023年7月5日
其他

扫光动效在移动端应用实践

PorterDuff.Mode.CLEAR);super.dispatchDraw(maskRenderCanvas);maskRenderCanvas.drawBitmap(maskBitmap,
2023年7月3日
其他

Android SDK安全加固问题与分析

文件信息,接着获取该保护方法的一些信息,比如寄存器数量,待执行指令的内存位置等,然后初始化寄存器存储结构,最后进入到解释器中解释执行每一条指令。在解释执行的过程,如果执行到外部函数,就会使用
2023年6月28日
其他

搜索语义模型的大规模量化实践

全算子量化因为精度问题,训练后量化中一般只对部分算子做量化。进一步提升推理性能,对全算子量化的话,需要和量化感知训练结合起来。全算子量化是除了mul或者matmul算子进行量化外,又增加了layer
2023年6月26日
其他

如何设计一个高效的分布式日志服务平台

检索条件详解日志源id列表:获取日志源对应的日志检索时间范围:日志的时间范围排序类型:日志的存入时间/日志存入的算分查询数量:查询出多少数量的日志日志级别:查询什么级别的日志,如:DEBUG
2023年6月19日
其他

视频与图片检索中的多模态语义匹配模型:原理、启示、应用与展望

人类共识概念的积累在人类的交流中形成积累。由此我们能够理解,无论是语言、图像、视频、声音、肢体动作、表情这些都是人类表达内心思维想法的手段,我们目前无法对人类最为底层的思维进行理解,因此看成为隐变量
2023年6月14日
其他

百度离线资源治理

resize流程架构总结下resize项目的效果,首先是EB级存储的使用率从63%提升到78%,成本降低数千万,同时使用率方面与业界持平,此外资源的交付效率也大幅提升。GEEK
2023年6月7日
其他

百度APP iOS端包体积50M优化实践(三) 资源优化

用于描述当前Mach-O文件的基本信息(CPU类型、文件类型等),XNU代码路径:EXTERNAL_HEADERS/mach-o/loader.h,数据结构如下所示:struct
2023年6月5日
其他

代码级质量技术之基本框架介绍

location):代码缺陷定位。下面的章节我们会分布从第二级的层次,为大家做基本原理和过程介绍,后续还会有系列发文再深入的介绍对应实现内容。三、代码理解层介绍GEEK
2023年5月30日
其他

基于openfaas托管脚本的实践

server上执行用户注册的功能(通常只是一个函数,业界一般称这种类型的服务为FaaS)。当前,提供FaaS服务的云服务厂商除AWS外,还有Google
2023年5月25日
其他

百度工程师移动开发避坑指南——Swift语言篇

TALK由于可选类型每次使用之前都需要进行显式解包操作,有时变量在第一次赋值之后,就会一直有值,如果每次使用都显式解包,显得繁琐,Swift引入了隐式解包可选类型,隐式解包可选类型可以使用
2023年5月23日
其他

百度工程师移动开发避坑指南——内存泄漏篇

Leak),简单说就是不再使用的对象无法被GC回收,占用内存无法释放,导致应用占用内存越来越多,内存空间不足而出现OOM崩溃;另外因为内存可用空间变少,GC更加频繁,更容易触发FULL
2023年5月16日
其他

智能感知编码优化与落地实践

的网络把这些特征做一些融合,融合在一起之后过一个预测模型,就可以得到更优的编码参数。我们的优势是基于线上的视频构建了百万视频场景级别的训练集,根据不同的分辨率去做更多的训练。这个模型已经在线上跑了
2023年5月15日
其他

增强型语言模型——走向通用智能的道路?

(a)所示,即便是相同的prompt示例样本,不同标注者的prompt风格都可以导致在GSM8K上的结果有较大差距。不仅如此,当LLM规模较大的时候,长prompt同样会带来较大的计算负担。△Fig
2023年5月8日
其他

Geek攻略 | 五一“FUN 肆”计划

告诉你一个好消息,五一假期还有2天就来啦!各位程序猿们是不是还没想好该怎么过?什么,你说你来不及做旅游攻略了?想躺平?贴心如Geek说已经为你们做好了一份“FUN肆”计划,今天咱们就盘点一下,五一不规划,也可以“FUN
2023年4月27日
其他

基于公共信箱的全量消息实现

SDK的用户才有机会拉到全量消息;②本次下发使用了新的消息展示模板,所以限制了拉取全量消息的百度App版本,只有高版本百度App可以拉到;③本次全量消息,限制了仅有百度App登录用户拉取。GEEK
2023年4月26日
其他

百度APP iOS端包体积50M优化实践(二) 图片优化

Catalog为不同类型设备(分辨率不同)或者相同类型设备但不同配置(磁盘和内存不同)提供定制化资源下载,之前在bundle需要放二倍图和三倍图,同一张图片最后在用户手机上会有两份,有了Asset
2023年4月24日