编程大模型的排名可以根据不同的评价标准和数据来源进行排列。以下是一些可能的排名依据和结果:
SuperCLUE总排行(2024年9月)
OpenAI的GPT-4o-0513和GPT-4-0125-preview分别位居第一和第二。
Claude、GPT-4、DeepSeek-V2、通义千问2.5和Llama-3-70B-instruct也位于前十名。
司南评测(OpenCompass2.0)
GPT-4 Turbo位居第一。
排名第二至第五的分别是智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0、阿里巴巴Qwen-72B-Chat。
清华大学《SuperBench大模型综合能力评测报告》
文心一言4.0在中文推理和中文语言评测上遥遥领先,并在“各大模型安全和价值观表现”中排名第一。
Claude-3、GPT-4 Turbo、GPT-4网页版、GLM-4等模型表现突出,前5名几乎被这几个大模型囊括。
其他排名
根据某些评价标准,零一万物、百度和Qwen在智能水平方面排在前三。
这些排名结果综合了不同评测体系的数据,因此排名可能有一定的差异。建议在实际应用中,根据具体需求和场景选择合适的模型。