農園統計部 (62)

←← 掲示板一覧に戻る ← スレッド一覧に戻る

1 野に咲く名無し@転載禁止 (da4692b2) 2024/03/03 (日) 19:02:04.457 ID:e3KBAU5I5主

!chid
なかったので

2 野に咲く名無し@転載禁止 2024/03/09 (土) 17:38:22.412 ID:d8Z6Y02Ok主

初歩的な統計について載ってるサイト
https://bellcurve.jp/statistics/
色々載ってるサイト
http://data-science.tokyo/
統計的因果推論入門
https://yukiyanai.github.io/econometrics2/
構造方程式モデリング(sem)
https://www2.kobe-u.ac.jp/~bunji/files/lecture/MVA/mva-07-structural-equation-modeling.pdf
統計学入門基礎統計学?(東京大学出版)の練習問題解答集
https://contents-open.hatenablog.com/entry/2020/08/23/110209
確率統計の基礎  予備校のノリで学ぶ「大学の数学・物理」
https://www.youtube.com/watch?v=Bj8fkq533Dc&list=PLDJfzGjtVLHmx7qMP410-9gx0weC9d90X
ベイズ
https://www.youtube.com/watch?v=mX_NpDD7wwg&list=PLhDAH9aTfnxIU4Hd1G1UdIVzHpgKfyEnw
時系列分析
https://www.youtube.com/watch?v=d0EGcXZlpJ4&list=PLhDAH9aTfnxJV9Az0hJs0Ralu2N81mO8R
因子分析
https://www.youtube.com/watch?v=ZJfytzsqI1o&list=PLhDAH9aTfnxLJBVkgzCe1MHn3XwgUHwpx
数量化理論
https://www.youtube.com/watch?v=ry63Qw5S69k&list=PLhDAH9aTfnxLWGdDoO02yntwGaVJHR5oq
なんか色々
https://www.youtube.com/watch?v=ZJfytzsqI1o&list=PLhDAH9aTfnxJGiLwq2CRS87J51ZPU5IEM
など
線形制約の仮説検定の計算方法(第3章付録)pdf
2. VIFの解釈(第4章付録)pdf
3. 差の差の分析 (第5章)pdf
4. コックス回帰モデル (第7章)pdf
https://www.omori.e.u-tokyo.ac.jp/coretext/
なんかたくさん
https://www.google.com/search?q=%22http%3A%2F%2Fwww.ner.takushoku-u.ac.jp%2Fmasano%2Fclass_material%2Fwaseda%2F%22&hl=ja&cs=0&filter=0#ip=1
計量経済学応用
セレクションバイアス
セレクションバイアスのシミュレーション
3. ランダム化比較試験 (RCT)
RCTのシミュレーション
4. 回帰分析
回帰分析のシミュレーションとDAG(提出が必要な課題あり)
5. 傾向スコア
傾向スコア
6. パネルデータ分析
差分の差分法
8. 回帰不連続デザイン (RDD)
https://yukiyanai.github.io/jp/classes/econometrics2/contents/

3 野に咲く名無し@転載禁止 2024/03/09 (土) 17:38:31.514 ID:d8Z6Y02Ok主

とりあえず良さげなのをピックアップしてみた

4 野に咲く名無し@転載禁止 2024/03/09 (土) 17:43:48.437 ID:d8Z6Y02Ok主

時系列解析教材
http://www.mi.u-tokyo.ac.jp/mds-oudan/lecture_document_2019_math7/time_series_analysis_2019.html

困ったときはこの辺見るとなにかあるかも
http://www.mi.u-tokyo.ac.jp/consortium/e-learning.html
http://www.mi.u-tokyo.ac.jp/consortium/e-learning_ouyoukiso.html

5 野に咲く名無し@転載禁止 2024/03/09 (土) 20:32:43.267 ID:76yo344t1

難しそう🥺

6 野に咲く名無し@転載禁止 2024/03/10 (日) 22:37:27.595 ID:60qc85Lbr主

>>5
紹介したものは難しいのもあるけど初歩は高校生でもわかる

7 野に咲く名無し@転載禁止 2024/03/10 (日) 23:14:06.552 ID:60qc85Lbr主

ちなみに当経験亭ってのがあって1球受かると就活や転職でほぼ無敵になれるらしいで
わいもとりたいけど勉強の進み悪くて現実は厳しいわ

8 野に咲く名無し@転載禁止 2024/03/10 (日) 23:14:17.757 ID:60qc85Lbr主

統計検定や

9 野に咲く名無し@転載禁止 2024/04/01 (月) 20:42:51.258 ID:7ISE1OZ8S

時系列分析の教科書を翻訳したのをまるまるアップしてるサイト
Rを使用しているが普通にRではなくても通用する
端的に言って神サイトや
https://otexts.com/fppjp/

10 野に咲く名無し@転載禁止 2024/04/02 (火) 22:39:08.908 ID:2v8UnhQN4

ゼロから基礎を勉強するならcourseraでグーグルがやってるデータアナリティクスの講習がオススメだよ🥺

最後までやると一応グーグルの認定資格取れるし、リスキングコンソーシアムの登録で先着無料枠がある(たぶんまだ残ってる?)

11 野に咲く名無し@転載禁止 2024/04/02 (火) 22:52:05.487 ID:17AUTOYSy

調べてみるわ
無料で資格取れるなら取るに越したことはない

12 野に咲く名無し@転載禁止 2024/04/03 (水) 08:20:06.783 ID:zjqmnK2xV

>>10
無料枠女性しかなかったわ

13 野に咲く名無し@転載禁止 2024/04/13 (土) 06:29:12.634 ID:6MOVOTQ2x

よくtableauおすすめされとるけど無料のpublicやと保存すると公開されちゃうから変わりのPyGwalkerおすすめするで
Steamitと組み合わせられる

14 野に咲く名無し@転載禁止 2024/07/12 (金) 16:40:02.693 ID:ch-M83M4LE7i

courseraでグーグルがやってるデータアナリティクスを取ったけどこれ統計ってよりは
-エクセルなどのシート系のやつの操作
-SQLの操作
-tableauの操作
-Rの操作
-転職方法

のプログラムやね
統計要素ほぼ無かったわ

15 野に咲く名無し@転載禁止 2024/12/04 (水) 20:12:23.634 ID:ch-hZtq2mv40

tidy tuesdayってのやってみたいんやがやる人おらんか?

16 野に咲く名無し@転載禁止 2024/12/04 (水) 22:10:45.556 ID:ch-hZtq2mv40

安主マーク消えてて草

17 野に咲く名無し@転載禁止 2024/12/04 (水) 22:10:54.355 ID:ch-hZtq2mv40

主マーク

18 野に咲く名無し@転載禁止 2024/12/04 (水) 22:23:44.555 ID:ch-u2HM8MlQW

ええで

19 野に咲く名無し@転載禁止 2024/12/04 (水) 22:28:35.383 ID:ch-0Nzn6e9Oo

きたわよ🥺

20 野に咲く名無し@転載禁止 2024/12/04 (水) 23:45:41.536 ID:ch-hZtq2mv40

データのダウンロードの仕方(R以外)
1. https://github.com/rfordatascience/tidytuesday にブラウザでアクセス
2. ページをスクロールしDataSetsの表を探す
3. ほしいデータのところをクリック(Canadian Hockey Player Birth Monthsを例にする)
4. 2つ目のページの各データを同じようにダウンロード

21 野に咲く名無し@転載禁止 2024/12/04 (水) 23:46:01.138 ID:ch-hZtq2mv40

とりあえず10日に提出のやつやって見んか?

22 野に咲く名無し@転載禁止 2024/12/04 (水) 23:47:35.831 ID:ch-hZtq2mv40

https://cdn.discordapp.com/attachments/1313831715852124190/1313840387919446036/1.png?ex=675198b6&is=67504736&hm=2efc4b364008655d8939652a5d34f981da09363a0e5da6a0dc25695e21efb8a7&
https://cdn.discordapp.com/attachments/1313831715852124190/1313840388280418325/2.png?ex=675198b6&is=67504736&hm=722d3ff8505387573da28ce5c396b2fed99e9bf93dc00a94dd33b901a6024383&
https://cdn.discordapp.com/attachments/1313831715852124190/1313840388691329035/3.png?ex=675198b6&is=67504736&hm=7aee2200607a8e615684ed83635bb6b6aab252fa9cab1c6f7c697f07b469ec2f&

23 野に咲く名無し@転載禁止 2024/12/04 (水) 23:47:42.803 ID:ch-hZtq2mv40

ダウンロードの仕方

24 野に咲く名無し@転載禁止 2024/12/04 (水) 23:48:49.274 ID:ch-hZtq2mv40

# R用の今週提出データのダウンロードの仕方
# 現在の日付を取得
next_tuesday <- Sys.Date() + (8 - as.integer(format(Sys.Date(), "%u"))) %% 7 +1
# データダウンロード
tuesdata <- tidytuesdayR::tt_load(next_tuesday)

25 野に咲く名無し@転載禁止 2024/12/04 (水) 23:49:48.757 ID:ch-hZtq2mv40

データの中身の変数の概要や
Number character 各香水に割り当てられた固有の識別子または番号。
Name character 香水またはフレグランスの名前。
Brand character 香水のブランドまたは製造元。
Release_Year double 香水が発売された年
Concentration character フレグランスの濃度(オードパルファン、オードトワレなど)。
Rating_Value double ユーザーによる総合評価スコア
Rating_Count double フレグランスに対するユーザー評価の数。
Main_Accords character フレグランスの主な香りの特徴またはアコード。
Top_Notes character フレグランスをつけた後に最初に感じる香り
Middle_Notes character トップノートが薄れた後に現れる、フレグランスのハートノートまたはミドルノート。
Base_Notes character フレグランスが乾いた後に残る、最後の香り。
Perfumers character 香りの構成を担当したクリエイターまたは調香師。
URL character Parfumo.comの商品ページへのリンク。

26 野に咲く名無し@転載禁止 2024/12/04 (水) 23:51:19.038 ID:ch-hZtq2mv40

欠損値はこんな感じでn_missが欠損数、pct_missが欠損の割合や
相当欠損しとる

library(naniar)
miss_var_summary(tuesdata[[1]])

# A tibble: 13 × 3
variable n_miss pct_miss
<chr> <int> <num>
1 Number 57905 97.6
2 Concentration 46842 79.0
3 Perfumers 38781 65.4
4 Rating_Value 29279 49.4
5 Rating_Count 29279 49.4
6 Top_Notes 28186 47.5
7 Middle_Notes 28176 47.5
8 Base_Notes 28171 47.5
9 Main_Accords 27100 45.7
10 Release_Year 20316 34.2
11 Name 1 0.00169
12 Brand 1 0.00169
13 URL 0 0

27 野に咲く名無し@転載禁止 2024/12/04 (水) 23:52:31.353 ID:ch-hZtq2mv40

データ数は59325行あるんやが欠損値消し飛ばすと2000行しかなくなるから要注意やわ

28 野に咲く名無し@転載禁止 2024/12/04 (水) 23:52:51.759 ID:ch-hZtq2mv40

グラフ📊作るの好きな人おらん?
http://tulipplantation.com/test/read.cgi/tulipplantation/1733309527/

29 野に咲く名無し@転載禁止 2024/12/04 (水) 23:54:38.680 ID:ch-hZtq2mv40

deeplで翻訳
https://github.com/rfordatascience/tidytuesday/blob/main/data/2024/2024-12-10/readme.md
今週は、香水愛好家の活気あるコミュニティ、Parfumoから入手したデータセットを使って、魅惑的なフレグランスの世界に飛び込んでみよう。Olga G.は、Parfumoウェブサイトの様々な香水セクションからこれらのデータをウェブスクラップした。以下は著者からの説明である:

このデータセットには、ウェブスクレイピングによって取得された Parfumo の香水に関する詳細な情報が含まれている。このデータセットには、Parfumo ウェブサイトに掲載されている香水の評価、嗅覚的ノート(トップノート、ミドルノート、ベースノート)、調香師、発売年、その他の関連する特徴に関するデータが含まれています。
このデータにより、様々な香水がどのように評価されているか、どの香りのファミリーに属しているか、全体的なプロフィールを定義する主要な嗅覚成分の詳細な内訳を包括的に見ることができます。
香水がどのように評価され、どの香りのファミリーに属しているのか、そして香水を作った調香師の頭の中を探ります。発売年からそれぞれの香りの繊細な構成まで、このデータセットは、お気に入りの香水に秘められた魔法に興味を持つすべての人に、豊かな嗅覚体験を提供します。
香水のストーリーを読み解きましょう。トップノートからベースノートまで、香りに込められたストーリーがわかります。フレグランスの愛好家であれ、香りの背後にあるデータに興味があるだけであれ、この探検は香水作りの芸術性にあなたの目(と鼻)を開くことでしょう。データを嗅ぎ分ける準備はできていますか?

香水の評価に最も影響を与える要素は何か?
市場を席巻している香りの系統はあるのか?
特定のフレグランスノートの人気は時代とともに変化しているのでしょうか?

今週のデータセットを作成してくれたNicolas Foss, Ed.D., MS|Bureau of Emergency Medical and Trauma Services > Iowa HHSに感謝する。

30 野に咲く名無し@転載禁止 2024/12/04 (水) 23:54:57.457 ID:ch-hZtq2mv40

こんな感じやな
最低限必要そうなところは

31 野に咲く名無し@転載禁止 2024/12/04 (水) 23:55:10.627 ID:ch-0Nzn6e9Oo

kaggleみたいな統計解析みたいなコンペじゃなくてあくまでコンテキストに沿った可視化がゴールなのね
いい勉強になりそうでいいわね

32 野に咲く名無し@転載禁止 2024/12/04 (水) 23:58:06.898 ID:ch-hZtq2mv40

そうやね
ハードルもTwitterで検索しなけりゃ低いし
検索したら落ち込むからやめとき……

33 野に咲く名無し@転載禁止 2024/12/05 (木) 00:00:45.393 ID:ch-1Ho6RwotC

まあ農園的にエンジョイでいいでしょ
とりあえず奥村先生の本読んで統計の復習しつつ遊んでみるわ😤

34 野に咲く名無し@転載禁止 2024/12/05 (木) 00:03:42.952 ID:ch-SHM2MKXCG

最近知ったんやがRならtidyplotsってのがええ感じのライブラリやわ
ggplot2でもだいぶ完成度高いけどそれをtidyにした感じらしい

35 野に咲く名無し@転載禁止 2024/12/05 (木) 00:04:26.578 ID:ch-SHM2MKXCG

問題はコードどう共有するかよな

36 野に咲く名無し@転載禁止 2024/12/05 (木) 00:08:35.513 ID:ch-SHM2MKXCG

このデータ正規化されとらんとちゃうか?
Top notesとかカンマ区切りで複数データ入ってるやんけ草

37 野に咲く名無し@転載禁止 2024/12/05 (木) 00:10:40.627 ID:ch-SHM2MKXCG

ワイはユーザーによる評価値のないデータは流石に落とすわ
半分になるけどどうしようもない気がするし

38 野に咲く名無し@転載禁止 2024/12/05 (木) 00:15:43.882 ID:ch-SHM2MKXCG

とりあえずデータのクリーニングのスクリプトのサンプルはここにあるで
https://github.com/rfordatascience/tidytuesday/blob/main/data/2024/2024-12-10/readme.md

39 野に咲く名無し@転載禁止 2024/12/05 (木) 10:40:02.132 ID:ch-1Ho6RwotC

すまんしばらく時間とれなさそう コードとかの共有はどうする? JetBrains SpaceとかGitlabあたりだとうれしいかも
データのライセンスとか分からないけど前処理とか加工した奴lfsとかでホスティングしていいんかな
バージョン管理の必要性なさそうだしダルくなければCI/CDに吐かせてArtifactsとかがやりやすいかな

40 野に咲く名無し@転載禁止 2024/12/05 (木) 18:26:16.093 ID:ch-SHM2MKXCG

>>39
Gitlabでええかなって
そもそも誰も乗らないと思ってたから深く考えとらんかったんよな
ライセンスは
https://www.kaggle.com/datasets/olgagmiufana1/parfumo-fragrance-dataset
配布元のここ見ればわかるけどCC BY-SA 4.0やね
Artifacsは使ったことないしよくわからんので調べとく

41 野に咲く名無し@転載禁止 2024/12/05 (木) 20:27:56.043 ID:ch-SHM2MKXCG

なんかレビューする人が多いとレビューの評価が収束するような感じあるな

42 野に咲く名無し@転載禁止 2024/12/05 (木) 20:33:57.064 ID:ch-1Ho6RwotC

>>40
おっけー Artifactsっていうと禍々しいけどCI/CDが生成したファイルを無償でホスティングしてくれるあれやね 月400時間まで無料らしいけど変更毎に走らせるの馬鹿みたいだし普通にバージョン管理でいいかもしれん
でかいファイルだとどうなるか分からんけどcsvとかレンダリングしてくれるみたい
https://docs.gitlab.com/ee/user/project/repository/files/csv.html

43 野に咲く名無し@転載禁止 2024/12/05 (木) 20:37:04.108 ID:ch-SHM2MKXCG

>>42
変更ごとに走らせる意味はないからなぁ
あとcsvやなくてparquetって形式使うと速くて漁るで
5万行の簡単な処理ですら体感できる

44 野に咲く名無し@転載禁止 2024/12/05 (木) 20:39:47.566 ID:ch-SHM2MKXCG

https://i.imgur.com/X0ZvJ2A.png

45 野に咲く名無し@転載禁止 2024/12/05 (木) 20:39:52.539 ID:ch-SHM2MKXCG

こんな感じ

46 野に咲く名無し@転載禁止 2024/12/05 (木) 20:44:58.454 ID:ch-SHM2MKXCG

実行コストが下がったからなんやろうけど近年の方が評価に多様性が出やすいっぽい
単純に年代と評価だけでこうなるのは考慮したほうがええかもな
https://i.imgur.com/J56VuQR.png

47 野に咲く名無し@転載禁止 2024/12/05 (木) 20:45:58.089 ID:ch-1Ho6RwotC

オンメモリ乗らない時はJuliaDBとかHDF5使ってたなあ
まあとりあえずデータ眺める時作らんとな😣

48 野に咲く名無し@転載禁止 2024/12/05 (木) 20:51:14.141 ID:ch-SHM2MKXCG

テーブルデータじゃメモリはそう無くならんやろ今の時代

49 野に咲く名無し@転載禁止 2024/12/05 (木) 20:58:33.028 ID:ch-1Ho6RwotC

NLPのコーパスとか扱うとね…

50 野に咲く名無し@転載禁止 2024/12/05 (木) 21:44:08.215 ID:ch-58zUojJmC

とりあえずRインストールして今週のデータダウンロードした
2人ともガチ勢ぽくてこわい

51 野に咲く名無し@転載禁止 2024/12/06 (金) 02:48:49.917 ID:ch-avGv9F0xU

>>50
そんなニキにおすすめのサイト
ここのtidyverseのところの解説とggplot2(グラフを描くライブラリ)の解説を読むとだいぶ効率よくなって幸せになれるで
https://datasciencemore.com/category/ds-lecture/page/11/

52 野に咲く名無し@転載禁止 2024/12/08 (日) 19:14:53.579 ID:ch-jx0OYNEGp

Tadって言うParquet用のGUIのツールざっと見るにはええな

53 野に咲く名無し@転載禁止 2024/12/08 (日) 21:47:08.304 ID:ch-jx0OYNEGp

https://i.imgur.com/MPIAfY4.png
どの段階の香りでも種類の数が増えたら評価が増えるってことは無さそう
横軸が香り

54 野に咲く名無し@転載禁止 2024/12/08 (日) 21:59:09.647 ID:ch-jx0OYNEGp

進まな過ぎるからkaggleのノート見るとかいう裏技使うか……?

55 野に咲く名無し@転載禁止 2024/12/11 (水) 21:28:24.579 ID:ch-sIFGHnA2Z

統計検定2級の講座
ワイが今朝見たときはまたあと250人くらい枠残ってた
https://www.udemy.com/course/toukei-kentei-new/?couponCode=2C14983B3287330AFC22

56 野に咲く名無し@転載禁止 2024/12/12 (木) 08:38:27.428 ID:ch-3mIWXEIvS

さんきゅー😘

57 野に咲く名無し@転載禁止 2024/12/13 (金) 21:53:14.062 ID:ch-3j37zqOG3

またスレ立てた
17日のと24日のと31日のやつの概要はここに貼ったわ
24と31日のやつは参加するつもり
グラフ📊作るの好きな人おらん?
http://tulipplantation.com/test/read.cgi/tulipplantation/1734093923/

58 野に咲く名無し@転載禁止 2024/12/23 (月) 18:59:53.627 ID:ch-9BSHF7xUk

あげ

59 野に咲く名無し@転載禁止 2024/12/25 (水) 13:40:48.430 ID:ch-8uVu32R62

24日提出用のデータを元に作った
https://i.imgur.com/xkmAC4i.png
再現用コード
色々いじるときにcsvだと遅いのでparquetに事前に変換してあるので注意
https://pastebin.com/06yCK2G5

60 野に咲く名無し@転載禁止 2024/12/27 (金) 19:03:01.497 ID:ch-uM6k3S8zs

年末年始やしグラフ📊作ってみんか?
http://tulipplantation.com/test/read.cgi/tulipplantation/1735288822/

61 野に咲く名無し@転載禁止 2024/12/27 (金) 19:03:32.208 ID:ch-uM6k3S8zs

31日のやつ
https://i.imgur.com/IJdm5yj.png
再現コード
https://pastebin.com/vtSTWaTj

62 野に咲く名無し@転載禁止 2025/01/02 (木) 17:20:20.646 ID:ch-66vPgN00g

来週からやな