2ちゃんねる スマホ用 ■掲示板に戻る■ 全部 1- 最新50    

■ このスレッドは過去ログ倉庫に格納されています

音声処理ソフトを作りたいんだけどプログラミングに詳しい人助けて

1 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:03:52.527 ID:TWnRhne10USO.net
wavファイルの音声データってどういう形で収納されてるの?
wavファイルのフォーマットは出てくるんだけど肝心の音声データの部分は波形データが収納されてるくらいの説明しかでてこなくて
波形データがどういうものなのかがよくわからなかった

2 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:05:34.321 ID:0wKDTBVs0USO.net
サンプリングとか量子化ビット数とか調べろ

3 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:05:50.182 ID:EaOzrXZm0USO.net
最も単純な形式だから時刻と音の強さの配列じゃないの

4 :京都が読めない:2022/04/01(金) 02:05:53.587 ID:+VjAbcFG0USO.net
違ったらすまん
https://www.wdic.org/w/TECH/WAV#xE3x83x95xE3x82xA9xE3x83xBCxE3x83x9ExE3x83x83xE3x83x88ID

5 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:06:02.733 ID:lZOElD5q0USO.net
そこからの知識で音声処理に手を出そうとしてるのか・・・

6 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:06:27.360 ID:0wKDTBVs0USO.net
あとステレオだと1サンプルずつ左右交互に配置される

7 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:06:55.982 ID:dxp/8KfT0USO.net
そのレベルはさすがに自力で探せたり理解できないと無理だろ
本一冊分のノウハウをスレで説明するとか不可能だろうし

8 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:07:29.042 ID:TWnRhne10USO.net
>>4
>波形情報を格納するチャンクである。

波形情報がどういう形で収納されてるのかが知りたいんだよ

9 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:10:00.847 ID:+rWBbMVP0USO.net
超早口で入ってるからゆっくり再生使え

10 :京都が読めない:2022/04/01(金) 02:10:38.552 ID:+VjAbcFG0USO.net
>>8
違ったかごめん、なんかフィーリエ変換とかで調べたら出てこないか?根本的には違うかもだけど。

11 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:11:18.701 ID:TWnRhne10USO.net
>>7
そこまで難しい話じゃないだろ
どうやって記述してるかってだけの話

12 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:12:05.673 ID:TWnRhne10USO.net
>>10
なんでここでフーリエ変換が出てくるのかがわからない
別にピッチ検出しようとしてるわけではないんだが

13 :京都が読めない:2022/04/01(金) 02:13:09.150 ID:+VjAbcFG0USO.net
>>11
だったら普通に数字だけだと思うけど、前音声のデータをそのまま書き換えれるソフトが有ったんだけどそれは数字いじってた。
これもまた違うかもだけど...

14 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:14:47.374 ID:TWnRhne10USO.net
>>13
そりゃ数字に決まってるだろ

15 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:16:36.200 ID:dxp/8KfT0USO.net
>>11
フォーマットが分からないだけなら、プログラムに詳しい人に助けを求めることないじゃん
きっとフォーマットが分かったら、次はこれが分からないから教えろって延々続くんじゃないの?

16 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:17:30.372 ID:TWnRhne10USO.net
>>15
続かないよ?

17 :京都が読めない:2022/04/01(金) 02:18:54.741 ID:+VjAbcFG0USO.net
これはちょっと俺には何が知りたいのかわからんかった。
わかるんだけどわからん、すまない..

18 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:19:29.176 ID:0wKDTBVs0USO.net
詳しい人助けて(俺の代わりに作って)って意味だと解釈した
やる気ないなら糞して寝ろ

19 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:20:13.931 ID:TWnRhne10USO.net
>>18
なんでそんなわけのわからん解釈をするのか・・・

20 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:23:38.934 ID:qLOx7+100USO.net
煽るわけじゃないけど、これ読んで理解できないならいろいろアレだぞ


PCMであれば、8ビット長または16ビット長
ステレオであれば、L R L R L R … の順で交互に時間順に記録
16ビットの数値は、リトルエンディアン
データ
8ビットPCMは、unsigned char (0 〜 255、無音は 128)
16ビットPCMは、signed short (-32768 〜 +32767、無音は 0)

21 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:25:49.624 ID:TWnRhne10USO.net
>>20
お前が俺の質問の意味を理解できてないってことはわかった

22 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:26:37.101 ID:dxp/8KfT0USO.net
>>16
普通にググって一番頭くらいに出てきたこのサイトで十分な気がする
この内容のどこが分からないか?ってことすら言えてない時点で
お前ら全部説明しろ、って言ってるんじゃないかと思うんだが?

https://www.youfit.co.jp/archives/1418

23 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:26:51.307 ID:qLOx7+100USO.net
>>21
いや、、、、あの、、、バカ?
音ってそもそも波形でしかないのよ
波でしかないの
わかる?

24 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:27:52.161 ID:TWnRhne10USO.net
>>22
それはwavファイルのフォーマットだろ
俺が聞いてるのはwavファイルの中の波形データのフォーマットなんだよ

25 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:28:32.953 ID:S+RgchOc0USO.net
1が阿呆すぎて辛い

26 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:28:55.211 ID:IASVpX4e0USO.net
バカだこいつw
波形データにフォーマットもクソもねえよ
音そのものが波形なんだよバーカ

27 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:29:42.464 ID:S+RgchOc0USO.net
画像がRGBの各ピクセルの羅列だってのは知ってますか

28 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:30:12.667 ID:TWnRhne10USO.net
>>26
PCで処理するのに音がそのまま保存されるわけねえだろ
全部数字に変換されてるんだよ

29 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:30:38.613 ID:TWnRhne10USO.net
>>27
知ってるけど

30 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:31:24.241 ID:dxp/8KfT0USO.net
>>24
> データ * 波形データを格納。リニアPCMの場合は時間順に格納される。
> ステレオは左→右→左→右…のように格納される。
> 8ビットの場合は符号無し整数 (0 ? 255)、16ビットの場合は符号付き整数 (-32768 ? 32767) で表わす。

31 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:32:12.159 ID:dxp/8KfT0USO.net
>>24 続き
って書いてあるけど?

32 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:32:22.148 ID:qLOx7+100USO.net
>>28
音がそのまま保存されてる
と思っていい

例外としてADPCMとかあるが頭の悪い1はそれは考えなくていい

33 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:32:32.064 ID:O8pOZ4tj0USO.net
fmtチャンクに書かれている

34 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:32:48.007 ID:TWnRhne10USO.net
>>30
8ビットの場合は符号無し整数、16ビットの場合は符号付き整数でどういうフォーマットで表されてるのかを聞いてるんだよ

35 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:33:17.284 ID:pngZWMd7HUSO.net
>>22のとおりだろ
データ*
波形データを格納。リニアPCMの場合は時間順に格納される。ステレオは左→右→左→右…のように格納される。8ビットの場合は符号無し整数 (0 – 255)、16ビットの場合は符号付き整数 (-32768 – 32767) で表わす。

36 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:33:30.180 ID:J6qULIar0USO.net
ある周波数ほにゃららHZのデータを仕込むときには具体的にどういうバイナリをデータチャンクに入れるのかみたいなのが知りたいんだろ?

37 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:33:32.369 ID:qLOx7+100USO.net
>>34
それはC言語の基本中の基本だな
死ね

38 :京都が読めない:2022/04/01(金) 02:33:45.328 ID:+VjAbcFG0USO.net
テキストファイルみたいになってると思ってるってこと?

39 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:33:59.186 ID:S+RgchOc0USO.net
瞬間瞬間の圧力の数値を並べただけのものがいわゆる波形データなので画像の1ピクセルに相当するのは一つのFloat値かShort値
フォーマットもクソもないただの配列
数値が並んでるだけ
解釈すべき速度だけがサンプリングレートとして別に記録されてる

これで分からなければ無理

40 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:34:33.056 ID:TWnRhne10USO.net
>>32
バカは黙ってろよ
そのまま保存されてねえんだよ

41 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:35:40.534 ID:TWnRhne10USO.net
>>37
日本語わからないの?
符号無し整数、符号付き整数とはなんなのかじゃなくて
符号無し整数、符号付き整数を使ってどうやって記述してるのかを聞いてるんだぞ

42 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:35:57.589 ID:S+RgchOc0USO.net
強いて言うならバイナリ状態の配列
cならfreadとかで読め

43 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:36:45.534 ID:0wKDTBVs0USO.net
言ったろ
こいつ学ぶ気なんかさらさらないよ

44 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:37:02.218 ID:O8pOZ4tj0USO.net
パルス変調符号のことが多い

45 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:37:16.540 ID:TWnRhne10USO.net
>>38
なってないファイルがあるとしたらそれは量子コンピュータだからノーベル賞貰えるぞ

>>39
その数値の単位は?

46 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:37:36.623 ID:dxp/8KfT0USO.net
>>34
どういうフォーマットってWAVなんだからそのままだろw

そもそも >>22 くらい詳しく書いてあって、自分の知りたいことだけが抜け落ちてるって発想がおかしい
自分の理解がそこの説明に追いついてないだけってのがオチだろ

47 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:38:36.338 ID:TWnRhne10USO.net
>>46
バカは黙っててよ
自分が説明できない質問されたからって発狂すんな

48 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:38:39.712 ID:S+RgchOc0USO.net
あの
まずお前はプログラム上でバイナリファイル開いたことすらないだろ
そっからやり直して
普通は出てこないような阿呆な質問してるから

49 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:38:43.646 ID:pngZWMd7HUSO.net
>>34
>>20の通り
16bitなら16bit(2byte)読み込んでリトルエンディアンだから最初の1byteと次の1byteを入れ替えてsigned shortに変換すればよろし

50 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:39:30.696 ID:Rq0t9yWpdUSO.net
そもそもどんな音声処理したいのか

51 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:39:34.929 ID:TWnRhne10USO.net
>>49
聞いてるのはデータ型じゃなくてフォーマットなんだが

52 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:40:18.727 ID:TWnRhne10USO.net
>>50
それを書いたら俺の質問に答えずに勝手に「俺が変わりに作ってやる」とか言い出して俺が作りたいものと違うもの作って押し付けてくるやつが出てきそう

53 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:41:26.623 ID:dxp/8KfT0USO.net
>>47
馬鹿なのはお前だ
例えば、16bit48KHzで1秒のWAVなら、データ部は16ビットのデータが48000個並んでるだけだ
それを理解できないならそもそも >>22 のサイトの説明が理解できてないだけ

54 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:42:04.995 ID:pngZWMd7HUSO.net
>>50
>>35の通り
データ部を>>49の通りに扱え

55 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:44:20.289 ID:TWnRhne10USO.net
>>53
その16ビットのデータの中身を聞いてるんだよ
何回言えばわかるんだよ

>>54
聞いてるのは扱い方じゃなくて中身なんだが

56 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:44:27.637 ID:Rq0t9yWpdUSO.net
>>52
作るわけないだろキチガイか?

57 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:44:28.470 ID:S+RgchOc0USO.net
強いて言うなら
何らかのセンサーで測定できる負の圧力の最大値をshort型の負の最大値
正の圧力の最大値をshort型の正の最大値に対応させた仮の単位
ということになる

例えば各最大値を交互に取るような波形を再生すると爆音が鳴って死ぬ

これでわかるか?

58 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:46:45.759 ID:dxp/8KfT0USO.net
>>55
中身って何を聞いてるの?ちゃんと正しく質問しろよ

WAVがどういうフォーマットなのか理解してれば、1サンプルの音声データは1つの値があるだけなのくらい分かるだろ?

59 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:47:27.304 ID:TWnRhne10USO.net
>>58
その1つの値が何を意味しているのか

60 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:47:31.821 ID:S+RgchOc0USO.net
多分何デシベルとかいう実際の単位に対応した値が入ってると思い込んでたんだろ?
頼むそうであってくれ

61 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:48:49.115 ID:S+RgchOc0USO.net
>>59
それなら>>57が全てだからちゃんと読んでくれ

62 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:50:00.017 ID:TWnRhne10USO.net
>>61
圧力が時系列順に入ってて
圧力の単位はセンサーによって変わる
ってこと?

63 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:50:29.938 ID:Rq0t9yWpdUSO.net
ほい答え
https://youtu.be/YJmUkNTBa8s

64 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:50:43.444 ID:S+RgchOc0USO.net
>>62
そうだよ

65 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:51:16.674 ID:TWnRhne10USO.net
>>64
ありがとうございました

66 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:51:43.367 ID:K8wJZ3bx0USO.net
求めてる答えは知ってるがお前の態度が気に食わない

67 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:51:47.975 ID:pngZWMd7HUSO.net
>>55
音が波形データってことは知ってる?
10,256,257,258みたいな

で、リニアPCM16bitならそのそれぞれの数値が16bitずつリトルエンディアンでデータ部に入ってるんだよ
10,256, 257, 258は16進数でそれぞれ
0x000a, 0x0100, 0x0101, 0x0102
これらがそれぞれリトルエンディアンで格納されてるから、8bitずつ書くと、
0a 00 00 10 01 01 02 01

68 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:52:03.592 ID:dxp/8KfT0USO.net
>>59
最終的にはスピーカーに出力される電圧値になるだけ

そもそもWAV以前に音声周りで当たり前のことが分かってなくね?
分かったら次が質問されるとか言った俺の憶測以前に、
そもそも何が分かってないのかが芋ずる式に出てくるだけじゃね?

69 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:52:52.285 ID:rFbwG8kj0USO.net
そういうライブラリ使えよ
ずいぶん昔にDirectSound使って波形編集アプリ作ったわ
もう忘れたがな

70 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:54:34.442 ID:S+RgchOc0USO.net
疎密波の概念とかサンプリング定理とか
講義で聞くと要らんだろそこの説明とか思ってたけど
要るやつには要るんだな

71 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 02:57:54.053 ID:dxp/8KfT0USO.net
本当に >>57 の説明を読んで >>62 で理解したのか怪しいと思うが強制的に終わらせた感w

72 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 03:00:35.570 ID:Rq0t9yWpdUSO.net
wavであればアナログ信号がそのまま入ってるとかいう意味不明なこと思ってそうだよな

73 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 03:05:01.288 ID:TWnRhne10USO.net
>>71
最初から俺が知りたかったのはこれなんだが
お前は質問の意図を未だに理解できてないんだな

74 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 03:06:08.264 ID:TWnRhne10USO.net
>>72
間逆なんだが
どういう数字に変換されて入ってるのかを聞いてるのに
そのまま入ってるってしつこくお前らが言ってきてたんだが

75 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 03:06:16.406 ID:dxp/8KfT0USO.net
>>73
俺が言ってるのは、それが分かってないなら質問の仕方が悪い
それだけ

76 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 03:08:05.015 ID:Rq0t9yWpdUSO.net
>>74
で、どう言う数字が入ってるの?

77 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 03:10:00.637 ID:dxp/8KfT0USO.net
音声ってものは電気的には時間とともに変化する電圧の値でしかない
それを一定の周波数でサンプルするってことは1個ずつは電圧に応じたただの1つの値でしかない

これはフォーマットの問題じゃなくて音声データのしくみそのものの話だから
フォーマットに絡める限り出てくる答えじゃない

78 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 03:11:03.503 ID:TWnRhne10USO.net
質問の意図を理解できてなくてずれたことをグダグダ言ってたくせに
解決後もぐだぐだと管巻いてる奴みっともなさすぎ

79 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 03:12:57.556 ID:TWnRhne10USO.net
>>77
だから>>1でフォーマットの中身の音声データの中身を聞いたじゃん

80 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 03:13:30.188 ID:Rq0t9yWpdUSO.net
たとえばこの12時の時報のポッ、ポッ、ポッ、ポー↑
だとどんな感じの数字が入ってそうか予想はつくのか?

81 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 03:19:14.279 ID:dxp/8KfT0USO.net
>>79
>>1 はWAVファイルの〜って文で聞いてるじゃん

WAVファイルに限らず、音声とはそもそもどうやってデータにしてるのか?
って方向で、そもそもWAVが関係ないことを明言しないで通じるわけがない

WAVを例に話をするにしても >>30 の引用部分を自分で出して
その先の質問してればすんなり答え出てたろ

82 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 03:20:18.886 ID:S+RgchOc0USO.net
普通にやってたら疑問に思わないことだから
気持ちが先行して実力以上のことやろうとしちゃったんだろ
基礎って大事なんだなって

83 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 03:22:41.574 ID:S+RgchOc0USO.net
しかし画像のピクセルの輝度については自然に最小値から最大値までの線形って解釈してるはずなのに
音波に関して何らかの単位に沿ってるはずって思い込んだのは何でなんだろな

84 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 03:24:11.656 ID:dxp/8KfT0USO.net
>>82
多分WAVデータを編集アプリとかで見れば、波形がすぐに表示されるし
その波形の時間軸を伸ばしてサンプルレートで見れば1ドットが1サンプルに対応してるってのは
普通見れば判ると思うんだよね

それを判ってないってことが普通の人間には簡単に理解できない

85 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 03:24:16.620 ID:Rq0t9yWpdUSO.net
"16ビットの方"の軸にしか注意を向けてないし理解できてないんだろうな

86 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 03:38:29.715 ID:+RdEqXtH0USO.net
質問の仕方が糞すぎて草

87 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 03:45:06.259 ID:eI8vYWA50USO.net
データヘッダーの構造やチャンク構造の話じゃないの?

88 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 03:57:12.921 ID:zP0OG6kw0USO.net
仕様書くらいあるやろ

89 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 04:40:33.127 ID:o1+guU+u0USO.net
>>87
オーディオ情報のデジタル表現の話らしいよ

俺たちはデルタシグマの話でもしようず

90 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 05:19:49.232 ID:50s/5hvk0USO.net
近年稀に見るVIPらしき良スレだと思いましたw

91 :以下、?ちゃんねるからVIPがお送りします:2022/04/01(金) 05:51:02.341 ID:lZOElD5q0USO.net
音って波形じゃなくて空気の粗密波だよ

92 :以下、VIPがお送りします:2022/04/01(金) 14:03:40.17 ID:nSHf+q0r4
>>21
特大ヒントを一切理解しようとしないのな

総レス数 92
26 KB
掲示板に戻る 全部 前100 次100 最新50
read.cgi ver 2014.07.20.01.SC 2014/07/20 D ★