PHP怎样集成科大讯飞语音AI_上传音频调接口转文字内容【应用】_技术教程

PHP怎样集成科大讯飞语音AI_上传音频调接口转文字内容【应用】

科大讯飞语音转文字接口需传Base64编码的PCM音频（16bit、单声道、16kHz），PHP中用ffmpeg转码为raw PCM再base64_encode；签名需用api_key、api_secret和RFC1123时间戳生成HMAC-SHA256，并设正确Authorization头；cURL须配置application/json、SSL验证及超时；接口返回完整JSON，非流式，解析ws数组拼接文字。

科大讯飞语音转文字接口怎么传音频文件

科大讯飞 WebAPI 的语音识别（iFlytek Speech-to-Text）不支持直接上传原始音频文件，必须先将音频转为 Base64 编码字符串，并通过 JSON body 提交。常见错误是用 file_get_contents() 读取后直接 POST 二进制流——这会导致 400 Bad Request 或 10203 音频格式错误。

音频必须为 PCM（16bit、单声道、16kHz），WAV 封装需去除头信息（只留 raw PCM）；MP3/AMR/AAC 等格式必须先转码

PHP 中推荐用 ffmpeg 命令行转码：

ffmpeg -y -i input.mp3 -ar 16000 -ac 1 -f s16le -acodec pcm_s16le output.pcm

再用 base64_encode(file_get_contents('output.pcm')) 得到 audio 字段值
注意：Base64 字符串不能换行，需用 str_replace(["\n", "\r", " "], "", $base64) 清理

PHP 怎么构造带签名的 POST 请求调讯飞 API

讯飞要求每个请求携带 Authorization 头，由 api_key、api_secret 和当前时间戳共同生成 HMAC-SHA256 签名。漏掉任一参数或时间偏差超过 15 分钟，都会返回 10201 签名验证失败。

api_key 和 api_secret 来自讯飞开放平台「我的应用」→「接口秘钥」
签名原文格式为：host: ws-api.xfyun.cn\ndate: [RFC1123 格式时间]\nGET /v2/tts HTTP/1.1（注意换行符是 \n，不是 \r\n）
PHP 中用 gmdate('D, d M Y H:i:s \G\M\T') 生成标准时间，别用 date()
最终 Authorization 头格式：hmac username="your_app_id", algorithm="hmac-sha256", headers="host date request-line", signature="{sign}"

PHP cURL 调用讯飞 STT 接口的关键配置项

直接用 file_get_contents() 或简单 curl_setopt($ch, CURLOPT_POSTFIELDS, $json) 容易失败，核心在于 Content-Type、SSL 和超时设置。

必须设 Content-Type: application/json，且 JSON body 中 common.app_id 必须与控制台创建的应用 ID 一致
cURL 需启用 SSL 验证：curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, true)（讯飞证书有效，禁用会报错）
讯飞 WebAPI 响应较慢（尤其长音频），建议设 CURLOPT_TIMEOUT => 30，并检查 CURLOPT_CONNECTTIMEOUT
务必检查返回状态码：curl_getinfo($ch, CURLINFO_HTTP_CODE) !== 200 时，响应体可能是纯文本错误（如 {"code":10203,"message":"audio format error"}），不是 JSON

PHP 解析讯飞返回的 WebSocket 流式结果还是 HTTP JSON？

讯飞语音识别 WebAPI 是 HTTP 接口（非 WebSocket），返回的是完整 JSON，不是流式 chunk。但要注意：它只支持「一句话」识别（最长 60 秒），不支持长音频分片上传。若音频超时或识别中断，返回中 data.result.sn 可能为空，或 code 为 0 但 data.result.ws 是空数组。

成功响应结构示例：

{"code":0,"message":"success","data":{"result":{"sn":1,"ls":true,"bg":0,"ed":1234,"ws":[{"cw":[{"w":"今天"}]},{"cw":[{"w":"天气"}]}]}}}

提取文字要遍历 $resp->data->result->ws，拼接每个 ws[i]->cw[0]->w
如果音频静音或信噪比低，可能返回 code: 0 但 ws 为空——这不是接口错误，是识别失败，需前端提示用户重录
讯飞不提供服务端音频降噪，预处理（如用 SoX 滤除底噪）得在 PHP 调用前完成

实际集成中最容易卡在音频格式和签名生成两处，尤其是 Windows 下 ffmpeg 路径空格、Linux 下时区导致时间戳偏差，这些细节比写逻辑更耗时间。

17370845950

科大讯飞语音转文字接口怎么传音频文件

PHP 怎么构造带签名的 POST 请求调讯飞 API

PHP cURL 调用讯飞 STT 接口的关键配置项

PHP 解析讯飞返回的 WebSocket 流式结果还是 HTTP JSON？

关于我们

服务项目

广告推广

案例欣赏