统一信息编码:****
专业领域:计算机与软件,电子信息,其他
一主要内容
(1)项目名称:话音数据采集及转写服务
(2)项目内容:
一、话音数据采集服务要求
配合甲方完成数据采集、提取、文本标注工作,项目具体要求如下:
1.采集数据源要求
需要采集YouTube、联合国、半岛电视台、****电视台等网站的阿拉伯语和波斯语音频、视频数据,并从中提取有效话音。
2.有效话音时长要求
(1)阿拉伯语有效话音时长不少于110小时,波斯语有效话音时长不少于70小时
(2)阿拉伯语有效话音时长中,2021年12月之后的有效话音时长不少于20小时。
(3)波斯语有效话音时长中,2021年12月之后的有效话音时长不少于15小时。
3.有效话音文本标注与错误率要求
(1)有效话音的阿拉伯语/波斯语需要有带时间轴的标注文本。
(2)标注文本的词错误率应低于5%。
二、话音数据转写服务要求
配合甲方完成话音转写工作,项目具体要求如下:
1.转写话音
对采集的110小时阿拉伯语有效话音、70小时波斯语有效话音进行转写。
2.模型调用要求
(1)使用Google Speech-to-Text API以及OpenAI Whisper V3模型,将提供的阿拉伯语话音数据转写为阿拉伯语;
(2)使用Google Speech-to-Text API以及OpenAI Whisper V3模型,将提供的波斯语话音数据转写为波斯语。
3.错误率计算
根据两个模型的话音转写结果,计算出2个模型转写结果的词错误率。
4.人工复核
检查两个模型的转写错误情况,通过人工分析的方式逐一分析。
(3)交付内容
1. Google和OpenAI模型转写结果评估报告(纸质文档、光盘)
2. 数据质量自检报告(纸质文档、光盘)
3. 有效的话音数据(光盘)
(4 ) 进度要求
2024年12月25日前完成。
二 企业资质要求
(一)基本要求
1. 具有独立的法人资格,具有独立承担民事责任的能力,在中华人民**国注册并合法运营,且为非外资独资或外资控股的企(事)业单位;法定代表人及实际控制人不得为非中华人民**国国籍或具有境外永久居留权(含港澳台);
2. 具有良好的商业信誉和健全的财务会计制度;
3. 具有履行合同所必需的设备和专业技术能力;
4. 有依法缴纳税收和社会保障资金的良好记录;
5. ****采购部门或政府采购****政府采购或装备采购活动的处罚期内;****采购部门或政府采购主管部门列入禁止参加采购活动黑名单;
6. 投标人法人代表(单位负责人)为同一人或者存在控股、管理或其他利害关系的不同投标人,不得同时参加同一包的采购活动;
7. 参加本次采购活动前3年内,在经营活动中没有重大违法记录,并且未发生过重大质量安全事故或重大质量问题。
8. 符合国家和军队法律和法规规定的其他条件。
三 网上报名登记时间、方式
时间:2024年12月16日上午9:00至2024年12月20日下午17:00;
四 对接时间、方式
(1)时间:公示期内
(2)方式:线下对接
五 需求信息发布
本项目需求对接公告相关信息在全军武器装备采购信息网(www.****.cn****政府采购网(www.****.cn)上发布。
七 采购人联系人、电话
采购人名称:****
联系人:陈秀敏
联系电话:186****5012