L

Lucky宝宝呀

V1

2023/04/11阅读:90主题:默认主题

Fay

FAY

Fay是一个完整的开源项目,包含Python内核及UE数字人模型。开发人员可以利用该项目简单地构建各种类型的数字人或数字助理。该项目各模块之间耦合度非常低,包括声音来源、语音识别、情绪分析、NLP处理、情绪语音合成、语音输出和表情动作输出等模块。每个模块都可以轻松地更换。其中,NLP处理模块采用了yuan1.0。

一、Fay控制器用途

与数字形象通讯(非必须,控制器需要关闭“面板播放”)

控制器与采用 WebSocket 方式与 UE 通讯

下载工程: https://pan.baidu.com/s/1RBo2Pie6A5yTrCf1cn_Tuw?pwd=ck99

下载windows运行包: https://pan.baidu.com/s/1CsJ647uV5rS2NjQH3QT0Iw?pwd=s9s8

通讯地址: ws://127.0.0.1:10002(已接通)

消息格式: 查看 WebSocket.md

与远程音频输入输出设备连接(非必须,外网需要配置http://ngrok.cc ngrok tcp通道的clientid)

控制器与采用 socket(非websocket) 方式与 音频输出设备通讯

内网通讯地址: ws://127.0.0.1:10001

外网通讯地址: 通过http://ngrok.cc获取

消息格式: 参考 remote_audio.py

二、Fay控制器核心逻辑

注:

1、去API及会话管理功能将在下一版本发布;

2、以上每个模块可轻易替换成自家核心产品。

目录结构

.
├── main.py     # 程序主入口
├── fay_booter.py   # 核心启动模块
├── config.json    # 控制器配置文件
├── system.conf    # 系统配置文件
├── ai_module
│   ├── ali_nls.py   # 阿里云 实时语音
│   ├── ms_tts_sdk.py       # 微软 文本转语音
│   ├── xf_aiui.py          # 讯飞 人机交互-自然语言处理
│   └── xf_ltp.py           # 讯飞 性感分析
├── bin                     # 可执行文件目录
├── core                    # 数字人核心
│   ├── fay_core.py         # 数字人核心模块
│   ├── recorder.py         # 录音器
│   ├── tts_voice.py        # 语音生源枚举
│   ├── viewer.py           # 抖音直播间接入模块
│   └── wsa_server.py       # WebSocket 服务端
├── gui                     # 图形界面
│   ├── flask_server.py     # Flask 服务端
│   ├── static
│   ├── templates
│   └── window.py           # 窗口模块
├── scheduler
│   └── thread_manager.py   # 调度管理器
└── utils                   # 工具模块
    ├── config_util.py      
    ├── storer.py
    └── util.py

三、升级日志

最近更新: 2022.12

1、上传bin目录(用于直播互动);

2022.11

1、更新抖音直播获取粉丝互动数据的xpath;

2022.10.27

1、更新mac上的麦克风参数; 2、解决mac上无法重启问题; 3、上传brew安装脚本。

2022.10.17

1、更新语音指令; 2、补充人设语法;

四、安装说明

环境

  • Python 3.8.0 +
  • Chrome 浏览器 (若不开启直播功能,可跳过)

安装依赖

pip install -r requirements.txt

配置 ChromeDriver (若不开启直播功能,可跳过)

  1. Chrome 浏览器进入 chrome://settings/help 查看当前版本
  2. 下载对应版本 ChromeDriver
  3. 解压zip并拷贝至 ./bin 目录
  4. 编辑 system.conf 配置 ChromeDriver 路径

配置应用密钥

  1. 查看 AI 模块
  2. 浏览链接,注册并创建应用,将应用密钥填入 ./system.conf

启动

启动数字人图像控制器

python main.py

AI 模块

启动前需填入应用密钥

模块 描述 链接
./ai_module/ali_nls.py 阿里云 实时语音识别 https://ai.aliyun.com/nls/trans
./ai_module/ms_tts_sdk.py 微软 文本转语音 基于SDK https://azure.microsoft.com/zh-cn/services/cognitive-services/text-to-speech/
./ai_module/xf_aiui.py 讯飞 人机交互-自然语言处理 https://aiui.xfyun.cn/solution/webapi
./ai_module/xf_ltp.py 讯飞 情感分析 https://www.xfyun.cn/service/emotion-analysis

与数字形象通讯(非必须,控制器需要关闭“面板播放”)

控制器与采用 WebSocket 方式与 UE 通讯 下载: https://pan.baidu.com/s/1L6yUR5cRFuNBiuPaXcmHaQ?pwd=8s8d 通讯地址: ws://127.0.0.1:10002(已接通) 消息格式: 查看 WebSocket.md

五、使用说明

语音指令

  • 关闭核心 关闭 再见 你走吧
  • 静音 静音 闭嘴 我想静静
  • 取消静音 取消静音 你在哪呢? 你可以说话了
  • 播放歌曲 播放歌曲 播放音乐 唱首歌 放首歌 听音乐 你会唱歌吗?
  • 暂停播放 暂停播放 别唱了 我不想听了

图形界面

人设

数字人属性,与用户交互中能做出相应的响应。

接收来源

抖音

填入直播间地址,实现与直播间粉丝交互

麦克风

选择麦克风设备,实现面对面交互,成为你的伙伴

商品栏

填入商品介绍,数字人将自动讲解商品。 当用户对商品有疑问时,数字人可自动跳转至对应商品并解答问题。 配合抖音接收来源,实现直播间自动带货。

交互灵敏度

在交互中,数字人能感受用户的情感,并作出反应。最直的体现,就是语气的变化,如 开心/伤心/生气 等。 设置灵敏度,可改变用户情感对于数字人的影响程度。

相关文章:

1、(34条消息) 非常全面的数字人解决方案_郭泽斌之心的博客-CSDN博客_数字人算法 2、(34条消息) Fay数字人开源项目在mac 上的安装办法_郭泽斌之心的博客-CSDN博客

进一步交流请联系QQ 467665317

技术交流群

微信群 v2.0:2023年1月25晚上10点腾讯会议见:https://meeting.tencent.com/dm/y2Vq5Iut8mN0

分类:

人工智能

标签:

人工智能

作者介绍

L
Lucky宝宝呀
V1