Mostly AI 是一家奥地利公司,专注于提供合成数据生成平台,最近推出了一项名为“合成文本”的新功能。这项功能允许企业在不泄露隐私风险的前提下,从其专有数据集中提取价值。
合成文本通过生成组织的专有信息的合成版本,不包含个人身份信息(PII)或多样性差距,从而为团队提供了一种训练和微调大型语言模型(LLMs)的方法,以实现更快的创新和更好的决策。
Mostly AI 的平台允许企业训练自己的 AI 生成器,即时生成合成数据。最初,该公司支持生成结构化的表格数据集,捕捉交易记录、患者旅程和客户关系管理(CRM)数据库的细微差别。现在,它正在扩展到文本数据。
尽管企业会大规模收集专有文本数据集,如电子邮件、聊天机器人对话和支持转录,但由于包含 PII、多样性差距和一定程度的结构化数据,这些数据很难使用。
Mostly AI 平台的新合成文本功能使用户能够使用任何专有文本训练 AI 生成器,然后部署它来生成原始数据的清洁合成版本,该版本不包含 PII 或多样性差距。就像表格数据生成器一样,它还捕捉文本中的细微差别和洞察力(以及伴随的结构化数据的上下文)。此外,用户还可以选择多种语言模型(包括 Mistral-7B 和 Viking-7B)来训练生成器。
Mostly AI 的 CEO Tobias Hann 表示,通过在 Mostly AI 平台上使用原始文本数据对选定的 LLM 进行微调,可以提高生成合成文本的质量。微调后的 LLM 将创建可以下载或存储在数据库中以供进一步处理的合成文本。
企业可以使用平台生成器生成的合成文本来推动一系列分析和生成 AI 用例。Hann 表示,尽管产品刚刚发布,还没有实时应用,但公司正在考虑生成提示-响应对(如问答对)作为初始应用,因为这些对广泛用于微调 LLMs,如客户服务。
这项新功能及其能够从专有文本中解锁价值而不涉及隐私问题的能力,使其成为希望加强 AI 训练工作的企业的一个有吸引力的提供。该公司声称,在平台上使用合成文本训练文本分类器比通过提示 GPT-4o-mini 生成的数据性能提高了 35%。
然而,值得注意的是,这仍然是一个苹果对橙子的比较,目前还没有将 Mostly AI 的合成文本生成器与其他合成生成器(如 Gretel)的性能进行比较的基准。
Hann 补充说,Mostly AI 平台过去曾与其他公司和解决方案进行过基准测试,在创建的合成数据的质量和隐私方面始终展现出优越的性能。
来源:venturebeat