BitsAI-CR：字节跳动推出的自动化代码审查系统

0 100

BitsAI-CR简介

BitsAI-CR是由字节跳动开发团队打造的自动化代码审查系统。它结合大型语言模型（LLM）和数据飞轮机制，通过两阶段流程——RuleChecker进行初始问题检测，ReviewFilter进行精准验证，显著提升代码审查效率与质量。系统基于219条审查规则的分类体系构建，能够生成高精度的审查评论，并通过“过时率”指标自动评估开发者对评论的接受程度，实现持续优化。在字节跳动的实际部署中，BitsAI-CR已服务超过12,000名周活跃用户，审查精度达75%，Go语言的过时率低至26.7%，有效助力开发团队提升代码质量和审查效率。

BitsAI-CR主要功能

高精度审查评论生成：通过两阶段流程生成高质量的代码审查评论，包括检测代码中的潜在问题并提供详细的修改建议。
持续优化机制：利用数据飞轮机制，基于用户反馈不断优化审查规则和模型性能，确保系统的持续改进。
上下文准备：对代码差异进行结构化处理，为模型分析提供清晰的输入上下文。
评论聚合：合并相似的审查评论，避免开发者收到过多冗余的反馈信息。
自动评估指标：引入“过时率”指标，自动评估开发者对审查评论的接受程度，推动系统的持续优化。

BitsAI-CR技术原理

两阶段审查流程：
- RuleChecker：基于LLM的组件，利用219条审查规则的分类体系，识别代码中的潜在问题。
- ReviewFilter：另一个基于LLM的组件，对RuleChecker检测到的问题进行验证，确保评论的准确性和实用性。
数据飞轮机制：
- 审查规则挖掘：结合代码风格指南和实际审查经验，形成全面的审查规则分类体系。
- 数据集构建：通过数据精炼和质量保证流程，生成高质量的训练数据集。
- 在线反馈和持续进化：基于用户反馈、手动精确度标注和过时率监控，对审查规则进行评估和调整。
上下文准备：
- 代码分块：根据代码差异的头部块进行分块，管理上下文长度，防止后续处理步骤中消耗过多的token。
- 功能定义扩展：扩展代码块以包含完整的功能定义，确保模型接收到全面的上下文信息。
- 详细注释系统：对每行代码进行状态和位置标注，保留原始结构并提供关于代码修改的关键信息。
评论聚合：
- 相似性计算：使用余弦相似度确定评论的相似性，并随机保留每组相似评论中的一个，避免信息过载。
自动评估指标：
- 过时率：跟踪被标记代码行在后续提交中被修改的百分比，评估开发者对审查评论的接受程度。