2์žฅ

๐Ÿ“ ์ƒ์„ธ ์ •๋ฆฌ

  • ์•ผํ˜ธ! ์ž์—ฐ์–ด์ฒ˜๋ฆฌ์˜ ์„ธ๊ณ„๋กœ ๋“ค์–ด์™”๋‹ค!
    • ๋ฌธ์ œ์˜ ๋ณธ์งˆ์€ ์ปดํ“จํ„ฐ๊ฐ€ ์šฐ๋ฆฌ์˜ ๋ง์„ ์ดํ•ดํ•˜๊ฒŒ ๋งŒ๋“œ๋Š” ๊ฒƒ
  • 2.1 ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ๋ž€
    • ์šฐ๋ฆฌ๊ฐ€ ํ‰์†Œ์— ์“ฐ๋Š” ๋ง์„ ์ž์—ฐ์–ด๋ผ๊ณ  ํ•œ๋‹ค.
    • ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ (NLP)๋Š” ์ด ์ž์—ฐ์–ด๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ถ„์•ผ.
      • ์ปดํ“จํ„ฐ๊ฐ€ ์šฐ๋ฆฌ๋ง์„ ์ดํ•ดํ•˜๊ฒŒ ๋งŒ๋“ค์ž
    • ์šฐ๋ฆฌ์˜ ๋ง์€ ๋ฌธ์ž๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ๋ง์˜ ์˜๋ฏธ๋Š” ๋‹จ์–ด๋กœ ๊ตฌ์„ฑ๋œ๋‹ค.
      • ๋‹จ์–ด๋Š” ์˜๋ฏธ์˜ ์ตœ์†Œ๋‹จ์œ„์ด๋‹ค.
      • ๋”ฐ๋ผ์„œ ์ปดํ“จํ„ฐ์—๊ฒŒ ๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ์ดํ•ด์‹œํ‚ค๋Š”๊ฒŒ ์ค‘์š”ํ•˜๋‹ค.
      • ๊ทธ ๋ฐฉ๋ฒ•์œผ๋กœ๋Š”
        • ์‹œ์†Œ๋Ÿฌ์Šค๋ฅผ ํ™œ์šฉํ•œ ๊ธฐ๋ฒ•
        • ํ†ต๊ณ„ ๊ธฐ๋ฐ˜ ๊ธฐ๋ฒ•
        • ์ถ”๋ก  ๊ธฐ๋ฐ˜ ๊ธฐ๋ฒ• (word2vec)
  • 2.2 ์‹œ์†Œ๋Ÿฌ์Šค
    • ๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ๋‚˜ํƒ€๋‚ด๊ธฐ ์œ„ํ•ด, ์‚ฌ๋žŒ์ด ์ง์ ‘ ๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ์ •์˜ํ•ด๋ณด์ž.
      • ํ‘œ์ค€๊ตญ์–ด ๋Œ€์‚ฌ์ „์ฒ˜๋Ÿผ ๊ฐ๊ฐ์˜ ๋‹จ์–ด์— ๊ทธ ์˜๋ฏธ๋ฅผ ์„ค๋ช…ํ•ด ๋„ฃ์„ ์ˆ˜ ์žˆ์„๊นŒ?
        • EX) ์ž๋™์ฐจ
          • ์›๋™๊ธฐ๋ฅผ ์žฅ์น˜ํ•˜์—ฌ ๊ทธ ๋™๋ ฅ์œผ๋กœ ์–ด์ฉŒ๊ตฌ
    • ์‹œ์†Œ๋Ÿฌ์Šค๋Š” ์œ ์˜์–ด ์‚ฌ์ „์œผ๋กœ, ๋œป์ด ๊ฐ™์€ ๋‹จ์–ด๋‚˜ ๋น„์Šทํ•œ ๋‹จ์–ด๋ฅผ ํ•œ ๊ทธ๋ฃน์œผ๋กœ ๋ฌถ์€ ๊ฒƒ
      • ๋™์˜์–ด / ์œ ์˜์–ด
      • ์ƒ์œ„์™€ ํ•˜์œ„, ์ „์ฒด์™€ ๋ถ€๋ถ„ ๋“ฑ ๋” ์„ธ์„ธํ•œ ๊ด€๊ณ„๊นŒ์ง€ ์ •์˜ํ•ด๋‘” ๊ฒฝ์šฐ๋„ ์žˆ๋‹ค.
      • ์ด ๊ทธ๋ž˜ํ”„ ๊ตฌ์กฐ๋ฅผ ๋‹จ์–ด ๋„คํŠธ์›Œํฌ๋ผ๊ณ  ์ƒ๊ฐํ•˜๊ณ , ์ปดํ“จํ„ฐํ•œํ…Œ ๊ฐ€๋ฅด์น  ์ˆ˜ ์žˆ์ง€ ์•Š์„๊นŒ?
    • WordNet
      • ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์—์„œ ๊ฐ€์žฅ ์œ ๋ช…ํ•œ ์‹œ์†Œ๋Ÿฌ์Šค
    • ๊ทธ๋Ÿฐ๋ฐ ์ด๋Ÿฐ ์‹œ์†Œ๋Ÿฌ์Šค์—๋„ ๋ฌธ์ œ๊ฐ€ ์žˆ๋Š”๋ฐ..
      • ์‹œ๋Œ€ ๋ณ€ํ™”์— ๋Œ€์‘ํ•˜๊ธฐ ์–ด๋ ต๋‹ค
      • ์‚ฌ๋žŒ์„ ์“ฐ๋Š” ๋น„์šฉ์€ ํฌ๋‹ค
      • ๋‹จ์–ด์˜ ๋ฏธ๋ฌ˜ํ•œ ์ฐจ์ด๋ฅผ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค
  • 2.3 ํ†ต๊ณ„ ๊ธฐ๋ฐ˜ ๊ธฐ๋ฒ•
    • ์ด์ œ๋ถ€ํ„ฐ๋Š” ๋ง๋ญ‰์น˜(corpus) ๋ฅผ ์ด์šฉํ•  ๊ฒƒ
      • ๋Œ€๋Ÿ‰์˜ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ
        • ๋งน๋ชฉ์ ์œผ๋กœ ์ˆ˜์ง‘ํ•œ๊ฑฐ ๋ง๊ณ , ์—ฐ๊ตฌ๋‚˜ ์–ดํ”Œ๋ฆฌ์ผ€์ด์…˜์„ ์œ„ํ•ด ์ˆ˜์ง‘ํ•œ ๊ฒƒ
      • ๋ง๋ญ‰์น˜ ์•ˆ์—๋Š” ์ž์—ฐ์–ด์— ๋Œ€ํ•œ ์‚ฌ๋žŒ์˜ ์ง€์‹์ด ์ถฉ๋ถ„ํžˆ ๋‹ด๊ฒจ์žˆ๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค!
    • ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์—๋Š” ๋‹ค์–‘ํ•œ ๋ง๋ญ‰์น˜๊ฐ€ ์ด์šฉ๋˜๋Š”๋ฐ
      • ์œ„ํ‚ค๋ฐฑ๊ณผ๋‚˜ ๊ตฌ๊ธ€๋‰ด์Šค๋“ฑ๋„ ๋˜๊ณ 
      • ์…ฐ์ต์Šคํ”ผ์–ด๋‚˜ ๋‚˜์ธ ๋ฉ”์†Œ์„ธํ‚ค์”จ ์ž‘ํ’ˆ์ด๋ผ๋˜์ง€
      • ์ผ๋‹จ ํ•œ๋ฒˆ ์—ฐ์Šต์„ ํ•ด๋ณด์ž.
    • ์ „์ฒ˜๋ฆฌ
      • ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹จ์–ด๋กœ ๋ถ„ํ• ํ•˜๊ณ  ๊ทธ ๋ถ„ํ• ๋œ ๋‹จ์–ด๋“ค์„ ๋‹จ์–ด ID ๋ชฉ๋ก์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์ผ
    • ๋‹จ์–ด์˜ ๋ถ„์‚ฐ ํ‘œํ˜„
      • ์ƒ‰์„ ์ฝ”๋ฐœํŠธ๋ธ”๋ฃจ/์‹ฑํฌ๋ ˆ๋“œ์ฒ˜๋Ÿผ ์ด๋ฆ„๋ถ™์ผ์ˆ˜๋„ ์žˆ์ง€๋งŒ, RGB๊ธฐํ˜ธ๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜๋„ ์žˆ์„ ๊ฒƒ์ด๋‹ค
        • ์‹ฌ์ง€์–ด ๊ทธ์ชฝ์ด ์ƒ‰์„ ๋” ์ •ํ™•ํ•˜๊ฒŒ ๋ช…์‹œํ• ์ˆ˜๋„ ์žˆ๊ณ , 3๊ฐœ์˜ ์„ฑ๋ถ„์œผ๋กœ ๊ฐ„๊ฒฐํ•œ ํ‘œํ˜„๋„ ๋œ๋‹ค
        • ๊ด€๋ จ์„ฑ ์—ฌ๋ถ€๋„, ์ •๋Ÿ‰ํ™”ํ•˜๊ธฐ๋„ ์‰ฝ๋‹ค!!
        • ๊ทธ๋ ‡๋‹ค๋ฉด ๋‹จ์–ด๋„ ์ด๋ ‡๊ฒŒ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์„๊นŒ?
          • ์ด๋ฅผ ๋‹จ์–ด์˜ ๋ถ„์‚ฐ ํ‘œํ˜„ ์ด๋ผ๊ณ  ํ•˜์ž
    • ๋ถ„ํฌ ๊ฐ€์„ค
      • ๋งŽ์€ ์—ฐ๊ตฌ๋“ค๊ณผ ๊ธฐ๋ฒ•๋“ค์ด ์žˆ์—ˆ๋Š”๋ฐ, ๊ทธ ๋ฟŒ๋ฆฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.
        • ๋‹จ์–ด์˜ ์˜๋ฏธ๋Š” ์ฃผ๋ณ€ ๋‹จ์–ด์— ์˜ํ•ด ํ˜•์„ฑ๋œ๋‹ค
        • ์ด๋ฅผ ๋ถ„ํฌ ๊ฐ€์„ค์ด๋ผ๊ณ  ํ•œ๋‹ค.
      • ์ด๋Š” ๋‹จ์–ด ์ž์ฒด์—๋Š” ์˜๋ฏธ๊ฐ€ ์—†๊ณ , ๊ทธ ๋‹จ์–ด๊ฐ€ ์‚ฌ์šฉ๋œ ๋งฅ๋ฝ์ด ์˜๋ฏธ๋ฅผ ํ˜•์„ฑํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋‚ดํฌํ•œ๋‹ค.
        • ์•ž์œผ๋กœ ๋งฅ๋ฝ์ด๋ž€ ์ฃผ๋ณ€์— ๋†“์ธ ๋‹จ์–ด๋“ค์„ ๊ฐ€๋ฆฌํ‚ฌ ๊ฒƒ์ด๋‹ค.
          • ์œˆ๋„์šฐ ํฌ๊ธฐ๊ฐ€ k๋ผ๋ฉด ์ขŒ์šฐ k๋‹จ์–ด์”ฉ, v[idx-k:idx+k+1] ์„ ์˜๋ฏธํ•œ๋‹ค.
      • ์ผ๋‹จ ๋จผ์ € ์ฃผ๋ณ€ ๋‹จ์–ด๋ฅผ ์„ธ์–ด๋ณด๋Š” ๋ฐฉ๋ฒ•์ด ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋– ์˜ค๋ฅธ๋‹ค!
        • ์ด๋ฅผ ํ†ต๊ณ„ ๊ธฐ๋ฐ˜ ๊ธฐ๋ฒ•์ด๋ผ๊ณ  ํ•˜์ž.
        • id๊ฐ’์˜ ์ข…๋ฅ˜๋ฅผ ํฌ๊ธฐ๋กœ ํ•˜๋Š” ๋ฒกํ„ฐ๋ฅผ id์— ๋Œ€ํ•ด ์—ฐ๊ฒฐํ•ด์„œ, $N^2$ ํ–‰๋ ฌ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค.
          • ์ด๋ฅผ ๋™์‹œ๋ฐœ์ƒ ํ–‰๋ ฌ์ด๋ผ๊ณ  ํ•˜์ž.
      • ์ด์ œ ๋ฒกํ„ฐ ์‚ฌ์ด ์œ ์‚ฌ๋„๋ฅผ ์ธก์ •ํ•˜์ž.
        • ๋‚ด์ .. ์œ ํด๋ฆฌ๋“œ๊ฑฐ๋ฆฌ.. ๋“ฑ๋“ฑ ๋ชจ๋‘ ์“ธ ์ˆ˜ ์žˆ๊ฒ ์ง€๋งŒ
        • ์šฐ๋ฆฌ๋Š” ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„๋ฅผ ์ด์šฉํ•˜์ž.
          • $\text{similarity}(\mathbf{x}, \mathbf{y}) = \frac{\mathbf{x} \cdot \mathbf{y}}{||\mathbf{x}|| \, ||\mathbf{y}||} = \frac{x_1 y_1 + \cdots + x_n y_n}{\sqrt{x_1^2 + \cdots + x_n^2} \sqrt{y_1^2 + \cdots + y_n^2}}$
            • ์ด๋•Œ ${||\mathbf{x}||}$๋Š” ๋…ธ๋ฆ„์ด๋‹ค.
            • ๊ฐ’์€ -1์—์„œ 1 ์‚ฌ์ด๊ฐ€ ๋‚˜์˜จ๋‹ค.
      • ์ด๊ฑธ๋กœ ๋‚ด๋ฆผ์ฐจ์ˆœ์„ ํ•˜๋“  ๋ญ˜ํ•˜๋“  ํ•ด์„œ ์œ ์‚ฌ๋„๋ฅผ ๊ณ„์‚ฐํ•  ์ˆ˜ ๋Š” ์žˆ์ง€๋งŒ… ๋ง๋ญ‰์น˜๊ฐ€ ์ž‘์œผ๋ฉด ๋ฌธ์ œ๊ฐ€ ๋งŽ๋‹ค.
  • 2.4 ํ†ต๊ณ„ ๊ธฐ๋ฐ˜ ๊ธฐ๋ฒ• ๊ฐœ์„ ํ•˜๊ธฐ
    • ๋‘ ๋‹จ์–ด๋ฅผ ๊ทธ๋ƒฅ ์ด๋ ‡๊ฒŒ ์ƒ์œผ๋กœ ํ•˜๋ฉด.. ๋ฌธ์ œ๊ฐ€ ๊นŠ๋‹ค
      • the car์˜ the๊ฐ™์ด ๊ด˜์”ธํ•œ ๋†ˆ์ด ์กด์žฌํ•จ
    • ์ ๋ณ„ ์ƒํ˜ธ์ •๋ณด๋Ÿ‰ (PMI)
      • $\text{PMI}(x, y) = \log_2 \frac{P(x, y)}{P(x)P(y)}$
        • $P(x), P(y), P(x, y)$ ๋Š” ๊ฐ๊ฐ x๊ฐ€ ์ผ์–ด๋‚  ํ™•๋ฅ , y๊ฐ€ ์ผ์–ด๋‚  ํ™•๋ฅ , ๋™์‹œ์— ์ผ์–ด๋‚  ํ™•๋ฅ 
        • ์ด PMI๊ฐ’์ด ๋†’์„์ˆ˜๋ก ๊ด€๋ จ์„ฑ์ด ๋†’๋‹ค
        • ์ด๋Š” ๋™์‹œ๋ฐœ์ƒ ํ–‰๋ ฌ์„ ์ด์šฉํ•ด์„œ ๋‹ค์‹œ ์“ธ ์ˆ˜ ์žˆ๋Š”๋ฐ
      • $= \log_2 \frac{\frac{C(x, y)}{N}}{\frac{C(x)}{N} \frac{C(y)}{N}} = \log_2 \frac{C(x, y) \cdot N}{C(x) C(y)}$
        • ํ•˜์ง€๋งŒ ์ด๋•Œ ๋™์‹œ๋ฐœ์ƒํšŸ์ˆ˜๊ฐ€ 0์ด๋ฉด $log_2 0$ ์„ ๊ณ„์‚ฐํ•ด์•ผํ•œ๋‹ค๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ๋‹ค…
          • ๋”ฐ๋ผ์„œ ์–‘์˜ ์ƒํ˜ธ์ •๋ณด๋Ÿ‰์„ ์‚ฌ์šฉํ•˜์ž.
            • $= \text{PPMI}(x, y) = \max(0, \text{PMI}(x, y))$
            • 0 ์ด์ƒ์˜ ์‹ค์ˆ˜๋กœ ํ‘œํ˜„ํ•˜๋Š”๊ฒŒ ๊ฐ€๋Šฅํ•ด์กŒ๋‹ค!
    • ๊ฑฐ๋Œ€ํ•œ ๋ฌธ์ œ๊ฐ€ ์ƒ๊ฒผ๋‹ค
      • ๋‹จ์–ด๊ฐ€ $N$๊ฐœ๋ฉด ์ฐจ์› ๋˜ํ•œ $N$๊ฐœ๊ฐ€ ๋œ๋‹ค!!!
        • ์‹ฌ์ง€์–ด ๋Œ€๋ถ€๋ถ„์€ 0์ด๋‹ค
    • ์ฐจ์› ๊ฐ์†Œ
      • ๋ฌผ๋ก  ์ค‘์š”ํ•œ ์ •๋ณด๋Š” ์ตœ๋Œ€ํ•œ ์œ ์ง€ํ•˜๋ฉด์„œ ์ฐจ์›์„ ์ค„์—ฌ์•ผํ•œ๋‹ค.
      • sparseํ•œ ํ–‰๋ ฌ/๋ฒกํ„ฐ๋ฅผ ์ค‘์š”ํ•œ ์ถ•์„ ์ž˜ ์ฐพ์•„์„œ denseํ•œ ํ–‰๋ ฌ/๋ฒกํ„ฐ๋กœ ๋งŒ๋“ค์–ด์•ผ ํ•œ๋‹ค
    • ํŠน์ž‡๊ฐ’๋ถ„ํ•ด(SVD)
      • ์ž„์˜์˜ ํ–‰๋ ฌ์„ ์„ธ ํ–‰๋ ฌ์˜ ๊ณฑ์œผ๋กœ ๋ถ„ํ•ด
      • $\mathbf{X} = \mathbf{U}\mathbf{S}\mathbf{V}^T$
        • $\mathbf{U}, \mathbf{V}$๋Š” ์ง๊ตํ–‰๋ ฌ
        • $\mathbf{S}$๋Š” ๋Œ€๊ฐํ–‰๋ ฌ
      • ๊ทผ๋ฐ ์ด๊ฒŒ ์‹œ๊ฐ„๋ณต์žก๋„๊ฐ€ $O(N^3)$์ด๋ผ์„œ, Truncated SVD๊ฐ™์€๊ฑธ ์ด์šฉํ•˜๊ธฐ๋„ ํ•œ๋‹ค.
        • ํŠน์ž‡๊ฐ’์ด ์ž‘์€๊ฑธ ๋ฒ„๋ฆฌ๋Š” ๋ฐฉ์‹
    • PTB ๋ฐ์ดํ„ฐ์…‹
      • ๋ณธ๊ฒฉ์ ์ธ ์ ๋‹นํ•œ ๋ง๋ญ‰์น˜๋ฅผ ์ด์šฉํ•ด๋ณด์ž!
      • ์—ฌ๋Ÿฌ๊ฐ€์ง€ ์ „์ฒ˜๋ฆฌ๋Š” ์ข€ ํ•ด๋‘์…จ๋‹ค
        • ํฌ์†Œํ•œ ๋‹จ์–ด๋ฅผ <unknown>์œผ๋กœ ๋ฐ”๊พธ๊ธฐ
        • ๊ตฌ์ฒด์ ์ธ ์ˆซ์ž๋ฅด N์œผ๋กœ ์ˆ˜์ •ํ•˜๊ธฐ
        • ๊ฐ ๋ฌธ์žฅ์˜ ๋์— <eos> (end of sentence) ์ถ”๊ฐ€ํ•˜๊ธฐ
      • ๊ฒฐ๊ณผ๊ฐ€ ์žฌ๋ฐŒ๋‹ค! ์‹ ๊ธฐํ•˜๋„ค
  • 2.5 ์ •๋ฆฌ
    • ์šฐ๋ฆฌ๋Š” ๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ๋ฒกํ„ฐ๋กœ ์ธ์ฝ”๋”ฉํ•˜๋Š”๋ฐ ์„ฑ๊ณตํ–ˆ๋‹ค! ์™€!
    • ์‹ฌ์ง€์–ด SVD๋ฅผ ์ด์šฉํ•ด์„œ ์ฐจ์›์„ ๊ฐ์†Œ์‹œํ‚ค๊ณ  ๋” ์ข‹์€ ๋ฒกํ„ฐ๋ฅผ ์–ป์–ด๋ƒˆ๋‹ค! ์™€!!

โ”์งˆ๋ฌธ ์‚ฌํ•ญ

  • ์œˆ๋„์šฐ๋ฅผ ์ด์šฉํ•ด์„œ ํ•˜๋ฉด, ๋ฌธ๋ฒ•์ ์ธ๊ฒƒ (๊ตด์ ˆ์–ด, ๊ต์ฐฉ์–ด ๋“ฑ)์— ๋Œ€ํ•œ ์ •๋ณด๊ฐ€ ์†์‹ค๋˜์ง€ ์•Š๋‚˜?
    • I say hello์™€ hello say I๊ฐ€ ๊ฐ™์€ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง€๊ฒŒ ๋˜๋‹ˆ๊นŒ.
  • ์ง๊ตํ–‰๋ ฌ์„ ๊ณต๋ถ€ํ•˜์ž
    • ์„ ํ˜•๋Œ€์ˆ˜๋ฅผ ๊ณต๋ถ€ํ•ด์•ผํ•œ๋‹ค ใ…ใ„ดใ…‡ใ„นใ…ใ„ดใ…‡ใ„น

๐Ÿ”— ์ฐธ๊ณ  ์ž๋ฃŒ